648 26 18MB
Spanish Pages 752 Year 2009
Levin
Visítenos en: www.pearsoneducacion.net
Richard I. Levin David S. Rubin David M. Levine Timothy C. Krehbyel Mark L. Berenson
MAPA PARA SELECCIONAR UN MÉTODO ESTADÍSTICO
TIPO DE DATOS Tipo de análisis Descripción de un grupo o diversos grupos
Numéricos Arreglo ordenado, diagrama de tallo y hoja, distribución de frecuencias, distribución de frecuencia relativa, distribución de porcentajes, distribución de porcentajes acumulados, histograma, polígono, polígono de porcentaje acumulado (Secciones 2.2 y 2.3).
Categóricos Tabla de resumen, gráfica de barras, gráfica de pastel, diagrama de Pareto (Sección 2.1).
Media, mediana, moda, cuartiles, media geométrica, rango, rango intercuartil, desviación estándar, varianza, coeficiente de variación, gráfica de caja y bigote (Secciones 3.1-3.3). Análisis de la relación entre dos variables
Diagrama de dispersión, gráfica de series de tiempo (Sección 2.5). Covarianza, coeficiente de correlación (Sección 3.4).
Tabla de contingencia, gráfica de barras agrupadas (Sección 2.4).
La distribución normal estandarizada acumulativa Las entradas representan el área bajo la distribución normal estandarizada acumulativa desde −∞ hasta Z −∞
Z −6.0 −5.5 −5.0 −4.5 −4.0 −3.9 −3.8 −3.7 −3.6 −3.5 −3.4 −3.3 −3.2 −3.1 −3.0 −2.9 −2.8 −2.7 −2.6 −2.5 −2.4 −2.3 −2.2 −2.1 −2.0 −1.9 −1.8 −1.7 −1.6 −1.5 −1.4 −1.3 −1.2 −1.1 −1.0 −0.9 −0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 −0.0
0.00
0.01
0.000000001 0.000000019 0.000000287 0.000003398 0.000031671 0.00005 0.00005 0.00007 0.00007 0.00011 0.00010 0.00016 0.00015 0.00023 0.00022 0.00034 0.00032 0.00048 0.00047 0.00069 0.00066 0.00097 0.00094 0.00135 0.00131 0.0019 0.0018 0.0026 0.0025 0.0035 0.0034 0.0047 0.0045 0.0062 0.0060 0.0082 0.0080 0.0107 0.0104 0.0139 0.0136 0.0179 0.0174 0.0228 0.0222 0.0287 0.0281 0.0359 0.0351 0.0446 0.0436 0.0548 0.0537 0.0668 0.0655 0.0808 0.0793 0.0968 0.0951 0.1151 0.1131 0.1357 0.1335 0.1587 0.1562 0.1841 0.1814 0.2119 0.2090 0.2420 0.2388 0.2743 0.2709 0.3085 0.3050 0.3446 0.3409 0.3821 0.3783 0.4207 0.4168 0.4602 0.4562 0.5000 0.4960
Z
0
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.00004 0.00007 0.00010 0.00015 0.00022 0.00031 0.00045 0.00064 0.00090 0.00126 0.0018 0.0024 0.0033 0.0044 0.0059 0.0078 0.0102 0.0132 0.0170 0.0217 0.0274 0.0344 0.0427 0.0526 0.0643 0.0778 0.0934 0.1112 0.1314 0.1539 0.1788 0.2061 0.2358 0.2676 0.3015 0.3372 0.3745 0.4129 0.4522 0.4920
0.00004 0.00006 0.00010 0.00014 0.00021 0.00030 0.00043 0.00062 0.00087 0.00122 0.0017 0.0023 0.0032 0.0043 0.0057 0.0075 0.0099 0.0129 0.0166 0.0212 0.0268 0.0336 0.0418 0.0516 0.0630 0.0764 0.0918 0.1093 0.1292 0.1515 0.1762 0.2033 0.2327 0.2643 0.2981 0.3336 0.3707 0.4090 0.4483 0.4880
0.00004 0.00006 0.00009 0.00014 0.00020 0.00029 0.00042 0.00060 0.00084 0.00118 0.0016 0.0023 0.0031 0.0041 0.0055 0.0073 0.0096 0.0125 0.0162 0.0207 0.0262 0.0329 0.0409 0.0505 0.0618 0.0749 0.0901 0.1075 0.1271 0.1492 0.1736 0.2005 0.2296 0.2611 0.2946 0.3300 0.3669 0.4052 0.4443 0.4840
0.00004 0.00006 0.00009 0.00013 0.00019 0.00028 0.00040 0.00058 0.00082 0.00114 0.0016 0.0022 0.0030 0.0040 0.0054 0.0071 0.0094 0.0122 0.0158 0.0202 0.0256 0.0322 0.0401 0.0495 0.0606 0.0735 0.0885 0.1056 0.1251 0.1469 0.1711 0.1977 0.2266 0.2578 0.2912 0.3264 0.3632 0.4013 0.4404 0.4801
0.00004 0.00006 0.00008 0.00013 0.00019 0.00027 0.00039 0.00056 0.00079 0.00111 0.0015 0.0021 0.0029 0.0039 0.0052 0.0069 0.0091 0.0119 0.0154 0.0197 0.0250 0.0314 0.0392 0.0485 0.0594 0.0721 0.0869 0.1038 0.1230 0.1446 0.1685 0.1949 0.2236 0.2546 0.2877 0.3228 0.3594 0.3974 0.4364 0.4761
0.00004 0.00005 0.00008 0.00012 0.00018 0.00026 0.00038 0.00054 0.00076 0.00107 0.0015 0.0021 0.0028 0.0038 0.0051 0.0068 0.0089 0.0116 0.0150 0.0192 0.0244 0.0307 0.0384 0.0475 0.0582 0.0708 0.0853 0.1020 0.1210 0.1423 0.1660 0.1922 0.2206 0.2514 0.2843 0.3192 0.3557 0.3936 0.4325 0.4721
0.00003 0.00005 0.00008 0.00012 0.00017 0.00025 0.00036 0.00052 0.00074 0.00103 0.0014 0.0020 0.0027 0.0037 0.0049 0.0066 0.0087 0.0113 0.0146 0.0188 0.0239 0.0301 0.0375 0.0465 0.0571 0.0694 0.0838 0.1003 0.1190 0.1401 0.1635 0.1894 0.2177 0.2482 0.2810 0.3156 0.3520 0.3897 0.4286 0.4681
0.00003 0.00005 0.00008 0.00011 0.00017 0.00024 0.00035 0.00050 0.00071 0.00100 0.0014 0.0019 0.0026 0.0036 0.0048 0.0064 0.0084 0.0110 0.0143 0.0183 0.0233 0.0294 0.0367 0.0455 0.0559 0.0681 0.0823 0.0985 0.1170 0.1379 0.1611 0.1867 0.2148 0.2451 0.2776 0.3121 0.3483 0.3859 0.4247 0.4641 (continúa)
La distribución normal estandarizada acumulativa (continuación) Las entradas representan el área bajo la distribución normal estandarizada acumulativa desde −∞ hasta Z −∞
Z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.5 5.0 5.5 6.0
0.00
0.01
0.5000 0.5040 0.5398 0.5438 0.5793 0.5832 0.6179 0.6217 0.6554 0.6591 0.6915 0.6950 0.7257 0.7291 0.7580 0.7612 0.7881 0.7910 0.8159 0.8186 0.8413 0.8438 0.8643 0.8665 0.8849 0.8869 0.9032 0.9049 0.9192 0.9207 0.9332 0.9345 0.9452 0.9463 0.9554 0.9564 0.9641 0.9649 0.9713 0.9719 0.9772 0.9778 0.9821 0.9826 0.9861 0.9864 0.9893 0.9896 0.9918 0.9920 0.9938 0.9940 0.9953 0.9955 0.9965 0.9966 0.9974 0.9975 0.9981 0.9982 0.99865 0.99869 0.99903 0.99906 0.99931 0.99934 0.99952 0.99953 0.99966 0.99968 0.99977 0.99978 0.99984 0.99985 0.99989 0.99990 0.99993 0.99993 0.99995 0.99995 0.999968329 0.999996602 0.999999713 0.999999981 0.999999999
0
Z
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.99874 0.99910 0.99936 0.99955 0.99969 0.99978 0.99985 0.99990 0.99993 0.99996
0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.99878 0.99913 0.99938 0.99957 0.99970 0.99979 0.99986 0.99990 0.99994 0.99996
0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.99882 0.99916 0.99940 0.99958 0.99971 0.99980 0.99986 0.99991 0.99994 0.99996
0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.99886 0.99918 0.99942 0.99960 0.99972 0.99981 0.99987 0.99991 0.99994 0.99996
0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.99889 0.99921 0.99944 0.99961 0.99973 0.99981 0.99987 0.99992 0.99994 0.99996
0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.99893 0.99924 0.99946 0.99962 0.99974 0.99982 0.99988 0.99992 0.99995 0.99996
0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7518 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.99897 0.99926 0.99948 0.99964 0.99975 0.99983 0.99988 0.99992 0.99995 0.99997
0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.99900 0.99929 0.99950 0.99965 0.99976 0.99983 0.99989 0.99992 0.99995 0.99997
ESTADÍSTICA PARA ADMINISTRACIÓN RICHARD I. LEVIN The University of North Carolina at Chapel Hill
DAVID S. RUBIN The University of North Carolina at Chapel Hill
DAVID M. LEVINE Zicklin School of Business, Baruch College, City University of New York
TIMOTHY C. KREHBIEL Richard T. Farmer School of Business, Miami University
MARK L. BERENSON School of Business, Montclair State University
AGRADECIMIENTO ESPECIAL A: • KARIM MARTÍNEZ CERRATO Coordinadora del Departamento Físico-Matemático por la adaptación de esta obra • CARLOS A. MEJÍA COLINDRES Profesor de Matemática por la elaboración del material de apoyo para esta edición www.pearsoneducacion.net/levin
Datos de catalogación bibliográfica LEVIN, RUBIN, LEVINE, KREHBIEL y BERENSON Estadística para administración PEARSON EDUCACIÓN, México, 2009 ISBN: 978-607-442-013-5 Formato: 21 × 27 cm
Páginas: 752
Authorized translation from the English language edition, entitled Statistics for Management, Seventh Edition, by Richard I. Levin & David S. Rubin, published by Pearson Education, Inc., publishing as PRENTICE HALL, Copyright ©1998. ISBN 0-13-476292-4. All rights reserved. And Business Statistics: a First Course, by David M. Levine, Timothy C. Krehbiel, Mark L. Berenson by Pearson Education, Inc., publishing as PRENTICE HALL, Copyright © 2006. ISBN 0-13-153689-3. All rights reserved. Traducción autorizada de la edición en idioma inglés, titulada Statistics for Management, Seventh Edition, por Richard I. Levin & David S. Rubin, publicada por Pearson Education, Inc., publicada como PRENTICE-HALL INC., Copyright ©1998. ISBN 0-13-476292-4. Y Business Statistics: a First Course, por David M. Levine, Timothy C. Krehbiel, Mark L. Berenson publicada por Pearson Education, Inc., publicada como PRENTICE-HALL INC., Copyright ©2006 ISBN 0-13-153689-3. Todos los derechos reservados. Esta edición en español es la única autorizada. Edición en español Editora: Editor de desarrollo: Supervisor de producción:
Ma. Elena Zahar Arellano e-mail: [email protected] Alejandro Agustín Gómez Ruiz Rodrigo Romero Villalobos
PRIMERA EDICIÓN, 2009 D.R. © 2009 por Pearson Educación de México, S.A. de C.V. Atlacomulco Núm. 500-5° piso Col. Industrial Atoto 53519, Naucalpan de Juárez, Edo. de México Cámara Nacional de la Industria Editorial Mexicana. Reg. Núm. 1031. Custom Publishing es una marca registrada de Pearson Educación de México. S.A. de C.V. Reservados todos los derechos. Ni la totalidad ni parte de esta publicación pueden reproducirse, registrarse o transmitirse, por un sistema de recuperación de información, en ninguna forma ni por ningún medio, sea electrónico, mecánico, fotoquímico, magnético o electroóptico, por fotocopia, grabación o cualquier otro, sin permiso previo por escrito del editor. El préstamo, alquiler o cualquier otra forma de cesión de uso de este ejemplar requerirá también la autorización del editor o de sus representantes. ISBN: 978-607-442-013-5 (custom) Impreso en México. Printed in Mexico. 1 2 3 4 5 6 7 8 9 0 - 12 11 10 09
Estimados estudiantes y docentes de UNITEC: Me da mucho gusto saludarles y poner en sus manos este libro de texto que es parte de un innovador proyecto dirigido a Ustedes. La Universidad Tecnológica Centroamericana está comprometida desde 1987, año de su fundación, con la calidad y la excelencia académica al punto de ser un estilo de vida en permanente mejora, que les involucra a Ustedes y también a los recursos y metodologías de enseñanza y aprendizaje propios de las diversas carreras profesionales que ofrecemos. A inicios de los 90’s UNITEC incorporó el modelo educativo centrado en el estudiante y apoyado en tecnologías de vanguardia para dar respuesta a los retos que el mundo global plantea, a tal punto que actualmente esta Universidad forma profesionales y ciudadanos en Honduras que sean capaces de desenvolverse competitiva y exitosamente en los escenarios del mundo globalizado. La alianza estratégica que hemos emprendido con el Grupo Editorial Pearson es garante de la calidad que encontrarán, no sólo en los contenidos temáticos de los libros de texto con estándares internacionales, sino también en su diseño didáctic o y a la incorporación de los recursos que permitirán el trabajo autónomo y personalizado vía web, tan característico del estilo de aprendizaje en la sociedad del siglo XXI. Este esfuerzo complementa la sistemática profesionalización de los docentes mediante el Sistema de Excelencia en la Enseñanza, conocido como Programa SENECA, que les posibilita el perfeccionamiento de su práctica, convirtiéndose en el sello de la docencia en UNITEC. Auguro condiciones muy favorables donde el aprendizaje será inevitable, no solo durante sus años de formación profesional sino durante toda su existencia: Que les persiga el deseo por avanzar, por descubrir nuevas cosas, por ampliar el conocimiento acerca de lo que somos y a dónde vamos, pero sobre todo ayudando a construir el camino que elegimos ¡Que cosechen muchos éxitos y satisfacciones! Fraternalmente
Román Valladares Rector de UNITEC
CONTENIDO 1
INTRODUCCIÓN Y RECOLECCIÓN DE DATOS 1
Uso de la estadística: Good Tunes—Parte I
2
1.1
Conceptos básicos de la estadística
2
1.2
El crecimiento de la estadística y las tecnologías de la información
1.3
Cómo está organizado este texto
5
Uso de la estadística: Good Tunes—Parte II 1.4 1.5
2
4
6
Recolección de datos 7 Identificación de las fuentes de datos 7 Tipos de datos 8 Resumen 9 Conceptos clave 10 Problemas de repaso 10 Introducción a los casos Web 11 A.1 Introducción del uso de los programas estadísticos A1.1 Uso de Windows 12 A1.2 Introducción a Excel 13 A1.3 Introducción a Minitab 17
12
PRESENTACIÓN DE DATOS EN TABLAS Y GRÁFICAS 21
Uso de la estadística:Comparación de los r endimientos de los fondos de inversión 2.1
Tablas y gráficas para datos categóricos Tabla de resumen Gráfica de barras
23
Gráfica de pastel
24 25
Organización de los datos numéricos Arreglo ordenado
29
30
Diagrama de tallo y hojas 2.3
22
22
Diagrama de Pareto 2.2
30
Tablas y gráficas para datos numéricos Distribución de frecuencias
32
32
Distribución de frecuencias relativas y distribución de porcentajes Distribución acumulativa Histograma Polígono
34
35
37
38
Polígono de porcentaje acumulado (ojiva) 2.4
22
Tablas y gráficas de datos bivariados Tabla de contingencia
40
43
43
Gráfica de barras agrupadas
45
ix
x
Contenido
2.5
Diagramas de dispersión y series de tiempo Diagrama de dispersión Series de tiempo
2.6
47
47
48
Uso inadecuado de gráficas y consideraciones éticas 51 Resumen 54 Conceptos clave 55 Problemas de repaso 55 Caso actual: Administración del Springville Herald 62 Caso Web 62 A.2 Uso del software para tablas y gráficas A2.1 Excel 63 A2.2 Minitab 65
3
63
MEDIDAS NUMÉRICAS DESCRIPTIVAS 71
Uso de la estadística:Evaluación de los r endimientos de los fondos de inversión 3.1
Medidas de tendencia central, variación y forma La media La moda
76
Cuartiles
77
75
La media geométrica
79
80
Rango intercuartil
81
La varianza y la desviación estándar Coeficiente de variación Puntuaciones Z Forma
82
85
86
88
Resultados de la estadística descriptiva en Excel
88
Resultados de la estadística descriptiva en Minitab 3.2
La regla empírica
97
Análisis exploratorio de datos Resumen de cinco números Gráfica de caja y bigote
99
99
100
La covarianza y el coeficiente de correlación
103
103
Coeficiente de correlación 3.5
95
96
La regla de Chebyshev
La covarianza
94
94
Varianza y desviación estándar poblacionales
3.4
89
Medidas numéricas descriptivas de una población La media poblacional
3.3
72
73
La mediana
Rango
72
105
Errores en las medidas numéricas descriptivas y consideraciones éticas Aspectos éticos 110 Resumen 110 Conceptos clave 111 Problemas de repaso 112
109
Contenido
Caso actual: Administración del Springville Herald 118 Caso Web 118 A.3 Uso del software para la estadística descriptiva A3.1 Excel 118 A3.2 Minitab 119
4
PROBABILIDAD BÁSICA 121
Uso de la estadística:La empr esa Consumer Electronics 4.1
Conceptos básicos de probabilidad Espacios muestrales y eventos
124
Probabilidad simple (marginal) Probabilidad conjunta
125
125
127
Regla general de la adición Probabilidad condicional
128
131
Cálculo de probabilidades condicionales Árboles de decisión
122
122
Tablas de contingencia y diagramas de Venn
4.2
118
131
133
Independencia estadística Reglas de multiplicación
134 136
Probabilidad marginal usando la regla general de la multiplicación 4.3
Teorema de bayes
4.4
Reglas de conteo
4.5
Consideraciones éticas y probabilidad Resumen 147 Conceptos clave 148 Problemas de repaso 148
139 143 146
Caso Web 150 A.4 Uso del software para la probabilidad básica A4.1 Excel 151
5
137
151
ALGUNAS IMPORTANTES DISTRIBUCIONES DE PROBABILIDAD DISCRETA 153
Uso de la estadística:El sistema de información contable de la empr esa de remodelaciones Saxon 154 5.1 Distribución de probabilidad de una variable aleatoria discreta 154 Valor esperado de una variable aleatoria discreta
155
Varianza y desviación estándar de una variable aleatoria discreta 5.2
Distribución binomial
5.3
Distribución de Poisson 166 Resumen 171 Conceptos clave 171 Problemas de repaso 172 Caso actual: Administración del Springville Herald 174
A.5
Uso de software para distribuciones de probabilidad discretas A5.1 Excel 175 A5.2 Minitab 176
156
158
175
xi
xii
Contenido
6
LA DISTRIBUCIÓN NORMAL 177
Uso de la estadística:T iempo de descarga para la página principal de un sitio Web 6.1
Distribuciones de probabilidad continua
6.2
La distribución normal
6.3
Evaluación de la normalidad
178
179 194
Evaluación de las propiedades
194
Construcción de un plano de probabilidad normal 195 Resumen 199 Conceptos clave 199 Problemas de repaso 199 Caso actual: Administración del Springville Herald 201 Caso Web 202 A.6 Uso del software con la distribución normal A6.1 Excel 202 A6.2 Minitab 202
202
7
MUESTREO Y DISTRIBUCIONES DE MUESTREO 205
7.1
Introducción al muestreo
206
Estadísticas y parámetros
7.2
Tipos de muestreo
207
Muestras sesgadas
207
Muestreo aleatorio
206
208
Muestreo aleatorio simple Muestreo sistemático
211
Muestreo estratificado Muestreo de racimo
209
211 211
Base de la inferencia estadística: el muestreo aleatorio simple 7.3
Diseño de experimentos
214
Planeación de experimentos
214
Fases del diseño experimental
214
Reacción a las afirmaciones experimentales Otras opciones abiertas
215
215
Experimentos factoriales
216
Logro de mayor eficiencia en el diseño experimental 7.4
Introducción a las distribuciones de muestreo Descripción de las distribuciones de muestreo Concepto de error estándar Un uso del error estándar
7.5
217
218
218 219
Distribuciones de muestreo a detalle
221
Base conceptual para muestrear distribuciones Muestreo de poblaciones normales
222
Muestreo de poblaciones no normales El teorema del límite central
226
225
221
217
212
178
Contenido
7.6
Una consideración operacional en el muestreo: la relación entre el tamaño de muestra y el error estándar 231 El multiplicador de población finita Repaso del capítulo
231
237
8
ESTIMACIÓN 243
8.1
Introducción
244
Tipos de estimaciones
245
Estimador y estimaciones
245
Criterios para seleccionar un buen estimador 8.2
Estimaciones puntuales
246
247
Estimación puntual de la varianza y la desviación estándar de la población Estimación puntual de la proporción de la población 8.3
xiii
Estimaciones de intervalo: conceptos básicos
248
248
251
Probabilidad de que el verdadero parámetro poblacional caiga dentro de la estimación del intervalo 253 8.4
Estimaciones de intervalo e intervalos de confianza
255
Relación entre nivel de confianza e intervalo de confianza Uso de muestreo y estimación de intervalos de confianza 8.5
256 256
Cálculo de estimaciones de intervalo de la media a partir de muestras grandes 258 Cuando no se conoce la desviación estándar de la población
8.6
Cálculo de estimaciones de intervalo de la proporción a partir de muestras grandes 263
8.7
Estimaciones de intervalos con la distribución t 267 Características de la distribución t Grados de libertad
259
267
267
Uso de la tabla de distribución t
269
Resumen de los límites de confianza en condiciones diferentes 8.8
Determinación del tamaño de muestra en estimación Tamaño de muestra para estimar una media
274
Tamaño de muestra para estimar una proporción Repaso del capítulo
270
273
275
282
9
PRUEBA DE HIPÓTESIS: PRUEBA DE UNA SOLA MUESTRA 289
9.1
Introducción
290
Se sacan grandes conclusiones
291
9.2
Conceptos básicos en el procedimiento de prueba de hipótesis
9.3
Prueba de hipótesis
291
294
Interpretación del nivel de significancia Selección de un nivel de significancia Errores de tipo I y tipo II
295 296
296
Decisión de qué tipo de distribución usar en la prueba de hipótesis Pruebas de hipótesis de dos colas y de una cola
298
297
xiv
Contenido
9.4
Pruebas de hipótesis de medias cuando se conoce la desviación estándar de la población 301 Pruebas de dos colas de medias: prueba en la escala de la variable original 301 Prueba de hipótesis usando la escala estandarizada
303
El proceso de cinco pasos para la prueba de hipótesisusando la escala estandarizada 304 Prueba de una cola para las medias
304
9.5
Medición de la potencia de una prueba de hipótesis
9.6
Prueba de hipótesis para proporciones: muestras grandes Pruebas de dos colas para proporciones Pruebas de una cola para proporciones
9.7
308 311
311 313
Pruebas de hipótesis de medias cuando no se conoce la desviación estándar de la población 317 Prueba de dos colas para medias usando la distribución t
317
Pruebas de una cola para medias usando la distribución t 318 Repaso del capítulo
323
10
PRUEBA DE HIPÓTESIS: PRUEBAS DE DOS MUESTRAS 329
10.1
Prueba de hipótesis para diferencias entre medias y proporciones
330
Distribución de muestreo para la diferencia entre dos parámetros de población: conceptos básicos 330 10.2
Pruebas para diferencias entre medias: muestras grandes
10.3
Pruebas para diferencias entre medias: muestras pequeñas
10.4
Prueba de diferencias entre medias con muestras dependientes
10.5
Pruebas para diferencias entre proporciones: muestras grandes Pruebas de dos colas para diferencias entre proporciones
10.6
332 336
349
Pruebas de una cola para diferencias entre proporciones
351
Valor P: otra manera de ver las pruebas de hipótesis
356
Valores P de dos colas cuando se conoce σ 356 Valores P para otras condiciones 10.7
Uso de computadoras para las pruebas de hipótesis Repaso del capítulo
11
358 360
365
JI-CUADRADA Y ANÁLISIS DE VARIANZA 373
11.1 Introducción
374
11.2 Ji-cuadrada como prueba de independencia Tablas de contingencia
375
Frecuencias observadas y esperadas El estadístico ji-cuadrada
376
377
La distribución ji-cuadrada
378
Determinación de los grados de libertad Uso de la prueba ji-cuadrada
380
378
375
342 348
Contenido
Tablas de contingencia con más de dos renglones Precauciones al usar la prueba ji-cuadrada
380
383
Uso de la computadora para realizar pruebas ji-cuadrada
383
11.3 Ji-cuadrada como prueba de bondad de ajuste: prueba de lo apropiado de una distribución 388 Cálculo de las frecuencias observadas y esperadas Cálculo del estadístico ji-cuadrada
388
390
Determinación de los grados de libertad de una prueba de bondad de ajuste 390 Uso de la prueba ji-cuadrada de bondad de ajuste 11.4 Análisis de varianza
390
394
Planteamiento del problema
394
Planteamiento de las hipótesis
395
Análisis de varianza: conceptos básicos
395
Cálculo de la varianza entre las medias muestrales Cálculo de la varianza dentro de las muestras
396
398
Prueba de hipótesis F: cálculo e interpretación del estadístico F La distribución F
400
Uso de la distribución F: grados de libertad Uso de la tabla F
400
401
Prueba de hipótesis
401
Precauciones acerca del uso de la prueba F 402 Uso de la computadora para el análisis de varianza
403
11.5 Inferencias acerca de una varianza de población
410
La distribución de la varianza de la muestra
410
Intervalos de confianza para la varianza de población Prueba de dos colas de una varianza
412
Prueba de una cola para la varianza
412
411
11.6 Inferencias acerca de las varianzas de dos poblaciones Prueba de una cola de dos varianzas
416
Una prueba de dos colas de dos varianzas Repaso del capítulo
12
415
417
424
REGRESIÓN SIMPLE Y CORRELACIÓN 435
12.1 Introducción
436
Tipos de relaciones
436
Diagramas de dispersión
437
12.2 Estimación mediante la recta de regresión
442
Uso de la ecuación de estimación para una línea recta El método de mínimos cuadrados
443
444
Uso del método de mínimos cuadrados en dos problemas Verificación de la ecuación de estimación El error estándar de la estimación
451
452
Uso de un método abreviado para calcular el error estándar de la estimación 453
448
398
xv
xvi
Contenido
Interpretación del error estándar de la estimación
454
Intervalos de confianza para la estimación (o el valor esperado) 12.3 Análisis de correlación
461
El coeficiente de determinación Una interpretación intuitiva de Otra interpretación de
r2
455
462
r2
462
465
El coeficiente de correlación
468
12.4 Inferencias sobre parámetros de población
471
Pendiente de la recta de regresión de la población
472
12.5 Uso del análisis de regresión y correlación: limitaciones, errores y advertencias 477 Extrapolación más allá del rango de los datos observados Causa y efecto
477
477
Uso de tendencias anteriores para estimar tendencias futuras
478
Interpretación errónea de los coeficientes de correlación y determinación 478 Descubrimiento de relaciones cuando no existen Repaso del capítulo
13
478
481
REGRESIÓN MÚLTIPLE Y MODELADO 491
13.1 Análisis de regresión múltiple y correlación
492
13.2 Deducción de la ecuación de regresión múltiple 13.3 La computadora y la regresión múltiple Salida de Minitab
493
500
501
13.4 Inferencias sobre parámetros de población
508
Inferencias acerca de una pendiente individual Bi 509 Inferencias acerca de la regresión como un todo (usando una prueba F) 512 Multicolinealidad en la regresión múltiple 13.5 Técnicas de modelado
514
521
Datos cualitativos y variables ficticias
521
Transformación de variables y curvas de ajuste Repaso del capítulo
14
526
536
MÉTODOS NO PARAMÉTRICOS 547
14.1 Introducción a la estadística no paramétrica Ventajas de los métodos no paramétricos
549
Desventajas de los métodos no paramétricos 14.2 Prueba de signo para datos por pares Establecimiento de las hipótesis
548
549
550
551
Prueba de una hipótesis de que no hay diferencia
551
14.3 Pruebas de suma de rangos: prueba U de Mann-Whitney y prueba de Kruskal-Wallis 556 Solución de un problema usando la prueba U de Mann-Whitney
556
Contenido
Cálculo del estadístico U Prueba de las hipótesis
557 558
Propiedades especiales de la prueba U
559
Solución de un problema usando la prueba de Kruskal-Wallis 560 Prueba de las hipótesis
561
14.4 Prueba de corridas de una sola muestra
566
Un problema que ilustra una prueba de corridas de una sola muestra 566 La distribución de muestreo del estadístico r Prueba de las hipótesis
568
14.5 Correlación de rango
572
El coeficiente de correlación de rangos
567
572
Solución de un problema usando correlación de rangos Una propiedad especial de la correlación de rangos 14.6 Prueba de Kolmogorov-Smirnov
Repaso del capítulo
15
577
581
Un problema que ilustra la prueba de K-S Cálculo del estadístico de K-S
574
581
582
588
SERIES DE TIEMPO Y PRONÓSTICOS 599
15.1 Introducción
600
15.2 Variación en las series de tiempo 15.3 Análisis de tendencia
601
602
Razones para estudiar las tendencias
603
Ajuste de la tendencia lineal con el método de mínimos cuadrados 603 Traducción o codificación del tiempo
604
Un problema que usa el método de mínimos cuadrados en una serie de tiempo (número par de elementos) 606 Proyección con la ecuación de tendencia
607
Uso de una ecuación de segundo grado en una serie de tiempo
607
Problema que involucra una tendencia parabólica (número impar de elementos en la serie de tiempo) 608 Pronósticos basados en una ecuación de segundo grado 15.4 Variación cíclica
609
612
Método de residuos 15.5 Variación estacional
613 617
Método de razón de promedio móvil Usos del índice estacional 15.6 Variación irregular
618
621
625
15.7 Problema que incluye a las cuatro componentes de una serie de tiempo 625 15.8 Análisis de series de tiempo en pronósticos Repaso del capítulo
636
633
xvii
xviii
Contenido
16
NÚMEROS ÍNDICE 645 16.1
Definición de número índice
Tipos de números índice
646
646
Usos de los números índice
647
Problemas relacionados con los números índice Fuentes de números índice
649
16.2
Índice de agregados no ponderados
16.3
Índice de agregados ponderados Método de Laspeyres Método de Paasche
649
653
654 656
Método de agregados con peso fijo 16.4
657
Métodos de promedio de relativos
661
Método de promedio no ponderado de relativos Método de promedio ponderado de relativos 16.5 Índices de cantidad y de valor Índices de cantidad Índices de valor 16.6
648
661
661
666
666
667
Problemas en la construcción y el uso de números índice Problemas en la construcción
670
Advertencias para interpretar un índice Repaso del capítulo
670
671
673
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados Apéndices: Tablas
707
681
capítulo
1
INTRODUCCIÓN Y RECOLECCIÓN DE DATOS
Objetivos En este capítulo, aprenderá: • Cómo se usa la estadística en los negocios • Cuáles son las bases de datos que se utilizan en los negocios
•
Los tipos de datos usados en negocios
Contenido del capítulo USO DE LA ESTADÍSTICA: Good Tunes 1.1 Conceptos básicos de la estadística 2 1.2 El crecimiento de la estadística y las tecnologías de la información 4 1.3 Cómo está organizado este texto 5 1.4 Recolección de datos Identificación de las fuentes de datos 7
1.5 Tipos de datos 8 A.1 Introducción al uso de los programas estadísticos 12 A1.1 Uso de Windows 12 A1.2 Introducción a Excel 13 A1.3 Introducción a Minitab 17
2
CAPÍTULO 1 Introducción y recolección de datos
U S O D E L A E S TA D Í S T I C A Good Tunes—Parte I Good Tunes es un comerciante minorista en línea de sistemas de entretenimiento, que busca expandir su negocio abriendo varias tiendas. Para obtener el financiamiento que garantice su expansión, Good Tunes requiere solicitar préstamos a los bancos locales. Los administradores de la firma acuerdan realizar una presentación con diapositivas que expliquen su negocio y muestren su situación real para convencer a los banqueros de prestarles el dinero que necesitan. A usted se le pide que ayude en el proceso de preparación de las diapositivas. ¿Qué hechos incluiría? ¿Cómo los presentaría?
T
odos los días usted hace acopio de noticias e información que le sirven de guía en su vida. Así, escuchar el reporte meteorológico le ayudará a decidir qué ropa usar, y si vive en una ciudad grande tal vez deba escuchar el reporte vial que le indique la mejor ruta para llegar al trabajo o a la escuela. Sus gustos personales, así como las cosas que no le agradan, también rigen algunas de sus decisiones. A pesar de las críticas negativas que escucha acerca de alguna película, tal vez decida verla sólo por la admiración que siente hacia cierto actor. De igual forma, los administradores de empresas deben tomar decisiones todos los días. Aunque en ocasiones evidencian sus “impulsos viscerales” al tomar decisiones (lo que se conoce formalmente como toma de decisión no estructurada), la mayoría de las veces deciden a partir de hechos concretos. Como estudiante de negocios, usted no debe tomar decisiones no estructuradas, ya que éstas requieren de intuición y discernimiento que se desarrollan tras muchos años de experiencia. Sin embargo, puede aprender procedimientos y métodos que le ayudarán a tomar mejores decisiones basadas en hechos concretos. Cuando comience a familiarizarse con los procedimientos y métodos implicados en la recolección, la presentación y la elaboración de resúmenes de un conjunto de datos, o a obtener conclusiones acerca de tales datos, entonces habrá descubierto la estadística. En el escenario de Good Tunes, usted debe partir de la suposición razonable de que los banqueros buscan tomar decisiones basadas en hechos concretos que usted presentará, y no en otros factores, tales como antojos, gustos o aversiones personales. Presentar información errónea o aun correcta pero de forma inadecuada, podría llevar a los banqueros a tomar decisiones administrativas equivocadas, lo cual pondría en riesgo el futuro de Good Tunes. Usted necesita saber de estadística para presentar los hechos necesarios, y para aprender estadística lo primero que debe conocer son sus conceptos básicos.
1.1
CONCEPTOS BÁSICOS DE LA ESTADÍSTICA La estadística es la rama de las matemáticas que examina las formas de procesar y analizar datos. La estadística ofrece los procedimientos para recolectar y transformar los datos de manera que sean útiles a quienes toman decisiones en los negocios. Para comprender la estadística, primero necesita conocer la definición de una variable.
1.1: Conceptos básicos de la estadística
3
VARIABLES Las variables son las características de los objetos o de los individuos. Ejemplos de variables son el género al que usted pertenece, su especialidad o campo de estudio, la cantidad de dinero que tiene en su cartera y el tiempo que le toma alistarse por la mañana para ir a la escuela. El aspecto esencial de la palabra variable es la idea de que las cosas difieren y las personas también. Tal vez la persona que está sentada a su lado sea hombre, quizá se esté especializando en algún campo de estudio totalmente diferente del suyo, de seguro tendrá una cantidad diferente de dinero en su cartera y sin duda ocupará una cantidad de tiempo diferente al suyo para alistarse e ir al trabajo cada mañana. Se debe distinguir entre una variable, como el género, y su valor para una observación individual (por ejemplo, “masculino”). Todas las variables deben tener una definición operacional, es decir, un significado universalmente aceptado que sea claro para todos aquellos que estén relacionados con el análisis. La falta de definiciones operacionales genera confusión. Un ejemplo notable de confusión que ilustra la importancia de las definiciones operacionales es el de las elecciones presidenciales del año 2000 en Estados Unidos y las boletas electorales del estado de Florida que estuvieron en disputa (Jackie Calmes y Edward P. Foldessy, “In Election Review, Bus Wins with No Supreme Court Help”, The Wall Street Journal, 12 de noviembre de 2001, A1, A14). Con la ayuda del National Opinion Research Center de la Universidad de Chicago, se llevó a cabo una revisión de 175,010 boletas que fueron rechazadas porque no registraban votos presidenciales, o bien, porque contenían votos a favor de dos o más candidatos. Se utilizaron nueve estándares o definiciones operacionales para evaluar las boletas. Estos nueve estándares generaron diferentes resultados. Tres de los estándares (incluido uno propuesto por Al Gore) llevaron a George Bush a tener márgenes de victoria que iban de 225 a 493 votos. Seis de los estándares (incluido uno propuesto por George Bush) llevaron a Al Gore a tener márgenes de victoria que iban de 42 a 171 votos.
POBLACIÓN La población consiste en todos los miembros de un grupo acerca de los cuales se desea obtener una conclusión.
MUESTRA Una muestra es una parte de la población seleccionada para análisis.
PARÁMETRO Un parámetro es una medida numérica que describe una característica de la población.
ESTADÍSTICO Un estadístico es la medida numérica que describe alguna característica de la muestra. Ahora que se han definido las variables, usted necesita comprender el significado de conceptos como población, muestra, parámetro y estadístico. Ejemplos de poblaciones son todos los estudiantes de tiempo completo de una universidad, todos los votantes registrados en la ciudad de Nueva York, y la gente que fue de compras al centro comercial de alguna ciudad el pasado fin de semana. Las muestras podrían seleccionarse a partir de cada una de esas tres poblaciones. Los ejemplos incluyen 10 alumnos de tiempo completo seleccionados para participar en una investigación, 500 votantes registrados en Nueva York con los que se entabló comunicación vía telefónica para realizar una encuesta política, y 30 compradores del centro comercial encuestados sobre el grado de satisfacción del consumidor. En cada caso, la gente de la muestra representa una porción o subconjunto de la gente comprendida en la población. La cantidad promedio que gastó la gente que fue de compras al centro comercial el fin de semana pasado es un parámetro. Se requiere información de todos los compradores para calcular este parámetro. La cantidad promedio que gastaron los 30 compradores que respondieron a la encuesta sobre el grado de satisfacción del consumidor es un estadístico. La información de estos 30 compradores se emplea para calcular el estadístico.
4
CAPÍTULO 1 Introducción y recolección de datos
La estadística se divide en dos ramas, ambas aplicables a la administración de negocios. La estadística descriptiva se enfoca en la recolección, resumen y presentación de un conjunto de datos. La estadística inferencial utiliza datos de las muestras para obtener conclusiones acerca de cierta población. La estadística descriptiva tiene sus raíces en la necesidad de las grandes organizaciones políticas y sociales de guardar registros. Por ejemplo, cada década desde 1790, en Estados Unidos se realiza un censo que recolecta y resume datos acerca de los ciudadanos. A través de los años, el U.S. Census Bureau ha sido uno de los grupos que ha mejorado los métodos de estadística descriptiva. Los fundamentos de la estadística inferencial se basan en las matemáticas de la teoría de la probabilidad. Los métodos inferenciales utilizan los datos de la muestra para calcular los estadísticos que proporcionan los estimados de las características de una población. En la actualidad, los métodos estadísticos se aplican en diferentes áreas de los negocios. La contabilidad utiliza métodos estadísticos para seleccionar muestras con el propósito de auditar y para entender los costos de los conductores en la contabilidad de costos. Las finanzas usan métodos estadísticos para seleccionar entre alternativas de cuentas de inversión y para analizar las mediciones financieras a través del tiempo. La administración utiliza métodos estadísticos para mejorar la calidad de los productos manufacturados o los servicios que ofrece una organización. El marketing emplea métodos estadísticos para estimar el número de consumidores que prefieren un producto sobre otro y para saber por qué lo prefieren, así como para obtener conclusiones que permitan determinar la mejor estrategia de publicidad que incremente las ventas de un producto.
1.2
EL CRECIMIENTO DE LA ESTADÍSTICA Y LAS TECNOLOGÍAS DE LA INFORMACIÓN Durante el siglo pasado, la estadística jugó un papel importante al promover el uso de la tecnología de la información y ésta, por su parte, contribuyó a difundir el uso de la estadística. Al iniciar el siglo XX, la expansión de los requerimientos de manejo de datos asociados con el censo federal llevó directamente al desarrollo de máquinas tabuladoras que fueron las antecesoras de los sistemas computacionales que utilizan los negocios en la actualidad. Especialistas como Pearson, Fisher, Gosset, Neyman, Wald y Tukey establecieron las técnicas de la estadística inferencial moderna, en respuesta a la necesidad de analizar grandes conjuntos de datos poblacionales que, ya para entonces, implicaban costos elevados, consumían mucho tiempo y eran difíciles de recopilar. El desarrollo de los primeros sistemas computacionales permitió a otros diseñar programas de cómputo que facilitaran el cálculo y procesamiento de datos impuestos por tales técnicas. A la vez, esos programas iniciales permitieron a los responsables de tomar decisiones hacer un mayor uso de los métodos estadísticos; por otra parte, los recientes avances en la tecnología de la información ayudaron a difundir el empleo de métodos estadísticos más complejos. En la actualidad, cuando escuche acerca de comerciantes minoristas que invierten en “sistemas de administración de relaciones con el cliente”, o en un paquete productor de bienes dedicado al “data mining” para descubrir las preferencias de los consumidores, se dará cuenta de que las técnicas estadísticas son como los cimientos de esas aplicaciones de la tecnología de la información. Aun cuando tales aplicaciones pudieran requerir programación a la medida, durante muchos años los negocios han tenido acceso a paquetes estadísticos, tales como Minitab y SPSS, que son programas estandarizados para ayudar a los administradores a usar una amplia gama de técnicas estadísticas para automatizar el procesamiento y cálculo de datos que requieren esas técnicas. Mientras que en el pasado esos paquetes estaban disponibles sólo en centros computacionales corporativos, el aumento en el poder y la conectividad de las computadoras personales han llevado estos paquetes al escritorio, donde se han reunido con herramientas familiares como los procesadores de palabras, las hojas de cálculo y los programas de la Web. Los costos de arrendamiento y capacitación asociados a los paquetes estadísticos han llevado a muchos a considerar el uso de las funciones de gráficos y estadísticos del programa Excel, de Microsoft. Sin embargo, es necesario que sea cuidadoso de las preocupaciones que muchos especialistas en la materia tienen acerca de qué tan completos y precisos son los resultados estadísticos de Excel. Por desgracia, algunos investigadores han determinado que ciertas herramientas estadísticas del programa contienen fallas que pueden invalidar los resultados, en especial cuando los conjuntos de datos usados son muy grandes o tienen propiedades estadísticas poco usuales (vea la referencia 3 al final del capítulo). Está claro que cuando usted utilice Excel, deberá ser cuidadoso acerca de los datos y análisis que maneje. El hecho de que quizá las complicaciones sobrepasen los beneficios de las atractivas características de Excel es todavía un enigma sin respuesta para los negocios.
1.3: Cómo está organizado este texto
1.3
5
CÓMO ESTÁ ORGANIZADO ESTE TEXTO El objetivo principal de este texto es ayudarle a aprender y comprender cómo los métodos estadísticos resultan útiles en los procesos de toma de decisiones. Para los estudiantes de negocios, esta comprensión incluye los siguientes objetivos:
• • • •
Presentar y describir de forma apropiada los datos e información en los negocios. Llegar a conclusiones sobre grandes poblaciones únicamente a partir de información recolectada de las muestras. Hacer predicciones confiables acerca de las tendencias en los negocios. Mejorar los procesos de los negocios.
Este texto considera estos cuatro objetivos como principio organizador. La figura 1.1 muestra la forma en que cada capítulo se relaciona con estos objetivos. Usted explorará los métodos implicados en la recolección, presentación y descripción de información en lo que resta de este capítulo así
Toma racional de decisión
Presentación y descripción de la información
Obtención de conclusiones acerca de poblaciones, basadas sólo en la información de una muestra
Introducción y recolección de datos (capítulo 1)
Probabilidad básica (capítulo 4)
Presentación de datos en tablas y gráficas (capítulo 2)
Algunas distribuciones importantes de probabilidad discreta (capítulo 5)
Medidas descriptivas numéricas (capítulo 3)
La distribución normal (capítulo 6)
Mejoramiento de los procesos
Realización de pronósticos confiables de las variables de interés
Aplicaciones estadísticas en la administración de calidad y productividad
Regresión lineal simple
Distribuciones de muestras
Estimación del intervalo de confianza
Fundamentos de la prueba de hipótesis
FIGURA 1.1 Tabla estructural para este texto.
Regresión múltiple
6
CAPÍTULO 1 Introducción y recolección de datos
como en los capítulos 2 y 3. En los capítulos 4 a 6 aprenderá sobre los conceptos básicos de probabilidad y de las distribuciones binomial, normal y otras. Como el aprendizaje contextual mejora la comprensión, cada capítulo inicia con un escenario de “Uso de la estadística” como el de “Good Tunes—Parte I” de la página 2, que identifica un problema de negocios en el que se aplica la estadística para convertir los datos en información útil para tomar una decisión racional. Las preguntas que surgen de los escenarios llevan a respuestas en forma de métodos estadísticos presentados en secciones subsiguientes del texto. Al reflexionar sobre estas preguntas, ganará en la apreciación de cómo los administradores de negocios usan la estadística en la actualidad para solucionar sus problemas y mejorar la calidad de sus productos y servicios. Para el escenario de “Good Tunes—Parte I”, elegir lo que presentará es tan importante como elegir el método adecuado para la presentación y el resumen. En este caso, probablemente los banqueros pedirán conocer algunos datos, es decir, las “finanzas” del negocio. Pero, ¿qué otros datos recolectaría y presentaría usted para lograr la aprobación de los créditos? (Vea “Good Tunes—Parte II”.) Desde luego, después de haber presentado sus datos, usted esperaría que los banqueros hicieran las inferencias correctas. Es decir, esperaría que los banqueros fueran conocedores de los métodos estadísticos apropiados que conduzcan a la decisión de ¡otorgar el crédito!
U S O D E L A E S TA D Í S T I C A Good Tunes—Parte II Los propietarios de Good Tunes han decidido apoyar los datos financieros de su solicitud de préstamo, con los datos referentes a las percepciones de los clientes acerca del negocio Good Tunes. Para ayudar a evaluar estas percepciones, Good Tunes ha pedido a sus clientes responder y devolver una encuesta, que se incluye en cada pedido, acerca del grado de satisfacción con la empresa. La encuesta incluye las siguientes preguntas: ■
¿Cuántos días pasaron desde el momento en que ordenó su mercancía hasta que la recibió? ________
■
¿Cuánto dinero (en dólares estadounidenses) espera gastar en equipo electrónico y de estéreo en los próximos 12 meses? ________
■
En general, ¿cómo calificaría el servicio que ofrece Good Tunes de acuerdo con su más reciente compra? Mucho mejor de lo esperado □ Peor de lo esperado □ Mejor de lo esperado □ Mucho peor de lo esperado □ Como era de esperarse □
■
¿Cómo calificaría la calidad de los artículos que recientemente compró en Good Tunes? Mucho mejor de lo esperado □ Peor de lo esperado □ Mejor de lo esperado □ Mucho peor de lo esperado □ Como era de esperarse □
¿Es probable que compre mercancía adicional a través de Good Tunes en los próximos 12 meses? Sí □ No □ A usted se le pide revisar esta encuesta. ¿Qué tipo de datos pretende recolectar? ¿Qué tipo de información es posible generar a partir de los datos obtenidos por la encuesta? ¿Cómo puede Good Tunes usar dicha información para mejorar la calidad del servicio y la mercancía? ¿Cómo podría Good Tunes utilizar la información para aumentar la probabilidad de obtener el préstamo? ¿Qué otras preguntas sugiere que se incluyan en la encuesta? ■
1.4: Recolección de datos
1.4
7
RECOLECCIÓN DE DATOS Administrar un negocio de forma efectiva requiere la recolección de los datos apropiados. En muchas ocasiones, los datos son medidas que se obtienen de los elementos de una muestra, y las muestras se toman de la población, de tal forma que sean lo más representativas posible. La técnica más común para asegurar una representación adecuada es usar una muestra aleatoria. Existen diversas circunstancias que requieren la recolección de datos:
• • • • •
Un analista de investigación de mercados necesita evaluar la efectividad de una nueva campaña publicitaria en televisión. Un productor farmacéutico necesita determinar si un nuevo medicamento es más efectivo que los que actualmente se consumen. Un administrador de operaciones desea monitorear el proceso de producción para comprobar si la calidad de cierto producto satisface los estándares de la compañía. Un auditor desea revisar las transacciones financieras de una empresa para determinar si ésta cumple o no con principios contables aceptables. Un inversionista potencial desea determinar qué firmas industriales tienen mayor probabilidad de crecer de forma acelerada en un periodo de recuperación económica.
Identificación de las fuentes de datos Identificar las fuentes de datos apropiadas es un aspecto importante del análisis estadístico. Si los sesgos, ambigüedades u otro tipo de errores estropean los datos que son recolectados, ni siquiera los métodos estadísticos más complejos producirán una información precisa. Existen cuatro importantes fuentes de datos:
• • • •
Los que proporciona una organización o un individuo. Un experimento diseñado. Una encuesta. Un estudio observacional.
Las fuentes de datos se clasifican en fuentes primarias y fuentes secundarias. Cuando el recolector de datos es quien los usa para el análisis, la fuente es primaria. Cuando una organización o individuo han compilado los datos que utiliza otra organización o individuo, la fuente es secundaria. Las organizaciones e individuos que recolectan y publican datos, generalmente los utilizan como fuente primaria y después permiten a otros usarlos como fuente secundaria. Por ejemplo, el gobierno federal de Estados Unidos recolecta y distribuye datos tanto para propósitos públicos como privados. El Bureau of Labor Statistics recolecta los datos que emplea y también distribuye cada mes el Consumer Price Index. El Census Bureau supervisa una gran variedad de encuestas actuales referentes a población, vivienda e industria, y lleva a cabo estudios especiales en temas como el crimen, los viajes y el cuidado de la salud. Las empresas de investigación de mercado y las asociaciones de comercio también distribuyen datos referentes a industrias o mercados específicos. Los servicios de inversión como Mergent proporcionan datos financieros en una base de compañía a compañía. Servicios como los de A.C. Nielsen ofrecen a sus clientes datos que permiten la comparación de los productos del cliente con los de sus competidores. Todos los días los periódicos están repletos de información numérica referente a los precios de las acciones, las condiciones del clima y estadísticas deportivas. Como expresamos antes, conducir un experimento es otra fuente importante de recolección de datos. Por ejemplo, para probar la efectividad de un detergente, un experimentador determina qué marcas son más eficientes para dejar limpia la ropa sucia, lavándola directamente, en lugar de preguntar a los clientes qué marca creen que sea más eficaz. Diseños experimentales adecuados generalmente son tema de estudio en textos más avanzados porque a menudo implican procedimientos estadísticos muy complejos. Realizar una encuesta es la tercera fuente de datos importante. En ella se pregunta a la gente sobre sus creencias, actitudes, comportamientos y otras características. Las respuestas posteriormente se editan, codifican y tabulan para su análisis.
8
CAPÍTULO 1 Introducción y recolección de datos
Dirigir un estudio observacional es la cuarta fuente de datos importante. En este estudio, el investigador observa el comportamiento de forma directa, generalmente en su ambiente natural. Los estudios observacionales tienen muchas formas en los negocios. Un ejemplo de ellos es el grupo focal, una herramienta de investigación de mercado que se utiliza para provocar respuestas no estructuradas ante preguntas abiertas. En un grupo focal un moderador dirige la discusión y los participantes responden a las preguntas. Otros tipos de estudios más estructurados implican dinámicas de grupo y construcción de consenso y el uso de numerosas herramientas del comportamiento organizacional como la lluvia de ideas, la técnica Delphi y el método del grupo nominal. Las técnicas de los estudios observacionales también se utilizan en situaciones en las que el esfuerzo de un grupo de trabajo o el mejoramiento en la calidad de los productos son los objetivos o metas de la administración.
1.5
TIPOS DE DATOS Los datos son los valores observados de las variables, por ejemplo, las respuestas a una encuesta. Los especialistas desarrollan encuestas para lidiar con una gran variedad de variables diferentes. Como se ilustra en la figura 1.2, existen dos tipos de variables: categóricas y numéricas.
FIGURA 1.2 Tipos de variables.
Tipo de dato
Tipo de preguntas
Categórico
¿Posee actualmente algunas acciones o bonos?
Respuestas Sí
No
Discreto
¿A cuántas revistas está suscrito actualmente?
Número
Continuo
¿Cuánto mide?
Pulgadas
Numérico
Las variables categóricas producen respuestas categóricas, tales como sí o no. Un ejemplo es la respuesta a la pregunta “¿Posee actualmente algunas acciones o bonos?”, porque se limita a una respuesta de sí o no. Otro ejemplo es la respuesta a la pregunta de la encuesta de Good Tunes (presentada en la página 6) “¿Es probable que compre mercancía adicional a través de Good Tunes en los próximos 12 meses?” En ocasiones, las variables categóricas también generan más de dos posibles repuestas. Por ejemplo, “¿qué día de la semana es más probable que coma en un restaurante?”. Las variables numéricas producen respuestas tales como la estatura en pulgadas. Otros ejemplos son: “¿cuánto dinero (en dólares estadounidenses) espera gastar en equipo electrónico y de estéreo en los próximos 12 meses?” (Tomado de la encuesta del grado de satisfacción del cliente de Good Tunes), o la respuesta a la pregunta “¿A cuántas revistas está suscrito actualmente?” Hay dos tipos de variables numéricas: discretas y continuas. Las variables discretas producen respuestas numéricas que surgen de un proceso de conteo. “El número de revistas a las que está suscrito” es un ejemplo de una variable numérica discreta, porque la respuesta es de un número finito de números enteros. Una persona se suscribe a cero, una, dos, o más revistas. Las variables continuas producen respuestas numéricas que surgen de un proceso de medición. La estatura es un ejemplo de una variable numérica continua, porque la respuesta toma cualquier valor dentro de un continuo o intervalo, dependiendo de la precisión del instrumento que se utilice para medir. Por ejemplo, una persona podría medir 67 pulgadas, 6714 pulgadas, 67372 pulgadas o 6725580 pulgadas, dependiendo de la precisión de los instrumentos disponibles. No hay dos personas que midan exactamente lo mismo y cuanto más precisos sean los dispositivos de medición, mayor será la probabilidad de detectar las diferencias entre las estaturas. Sin embargo, la mayoría de los dispositivos de medición no son tan precisos como para detectar pequeñas diferencias. Por lo tanto, a menudo encontramos observaciones enlazadas a los datos experimentales o de encuesta, aun cuando la variable sea verdaderamente continua, y teóricamente todos los valores de una variable continua son diferentes.
Resumen
9
PROBLEMAS PARA LA SECCIÓN 1.5 Aprendizaje básico 1.1 Se venden tres diferentes bebidas en un restaurante de comida rápida: refrescos, té y café. Explique por qué el tipo de bebida es un ejemplo de variable categórica. 1.2 En el restaurante de comida rápida se venden refrescos en tres tamaños: chico, mediano y grande. Explique por qué el tamaño de la bebida es una variable categórica. 1.3 Suponga que mide el tiempo que le toma bajar de Internet un archivo de MP3. a. Explique por qué el tiempo que le toma bajarlo es una variable numérica. b. ¿Esta variable es discreta o continua?
Aplicación de conceptos 1.4 Para cada una de las siguientes variables, determine si es categórica o numérica. Si la variable es numérica, determine si es discreta o continua. a. Número de aparatos telefónicos por casa. b. Duración (en minutos) de la llamada de larga distancia más prolongada hecha cada mes. c. Si existe en la casa una línea telefónica conectada a un módem de computadora. d. Si hay un fax en la casa. ASISTENCIA 1.5 La siguiente información se recolecta de estude PH Grade diantes que salen de la librería del campus durante la primera semana de clases: a. Cantidad de tiempo que pasan de compras en la librería. b. Número de libros de texto comprados. c. Especialidad académica. d. Género. AUTO Examen
Clasifique cada una de estas variables como categóricas o numéricas. Si la variable es numérica, determine si es discreta o continua. ASISTENCIA 1.6 Para cada una de las siguientes variables, deterde PH Grade mine si la variable es categórica o numérica. Si la variable es numérica, indique si es discreta o continua. a. Nombre del proveedor de Internet. b. Cantidad de tiempo que navega en Internet por semana. c. Número de correos electrónicos recibidos en una semana. d. Cantidad de compras hechas en línea durante un mes.
1.7 Para cada una de las siguientes variables, determine si es categórica o numérica. Si es numérica indique si la variable es discreta o continua. a. Cantidad de dinero gastado en ropa en el último mes. b. Tienda departamental preferida. c. Periodo durante el cual es más probable que realice compras de ropa (entre semana durante el día, entre semana durante la noche, fin de semana). d. Número de pares de guantes de invierno que posee. 1.8 Suponga que la siguiente información fue recolectada de la solicitud de préstamo hipotecario que hizo Robert Keeler al Metro County Savings and Loan Association: a. Pagos mensuales: $1,427. b. Número de empleos en los últimos 10 años: 1. c. Ingreso salarial familiar anual: $86,000. d. Estado civil: casado. Clasifique cada una de las respuestas por el tipo de datos. 1.9 Una de las variables que más a menudo se incluyen en las encuestas es el ingreso. A veces la pregunta es: “¿cuál es su ingreso (en miles de dólares)?” En otras encuestas, a quien responde se le pide que “Coloque una X en el círculo que corresponda a su nivel de ingreso” y se ofrecen varios rangos para elegir. a. En el primer formato, explique por qué el ingreso podría considerarse tanto discreto como continuo. b. ¿Cuál de los dos formatos preferiría usar al conducir una encuesta? ¿Por qué? 1.10 Si dos estudiantes obtienen una puntuación de 90 en el mismo examen, ¿qué argumentos podría usar para mostrar que la variable subyacente (puntuación de la prueba) es continua? 1.11 El director de investigación de mercados de una gran cadena de tiendas departamentales desea llevar a cabo una encuesta en el área metropolitana para determinar la cantidad de tiempo que las mujeres pasan comprando ropa en un mes. a. Describa tanto la población como la muestra de interés, e indique el tipo de datos que el director desearía recolectar. b. Desarrolle un primer borrador del cuestionario requerido, anotando series de tres preguntas categóricas y tres preguntas numéricas que usted considere apropiadas para esta encuesta.
RESUMEN En este capítulo ha estudiado la recolección y los diferentes tipos de datos que se usan en los negocios. En el escenario de “Uso de la estadística” se le pidió que revisara la encuesta de clientes diseñada por la compañía Good Tunes (vea la página 6). Las primeras dos preguntas generarán datos numéricos y las últimas tres producirán datos categóricos. Las respuestas a la primera pregunta (número de días) son discretas y las respues-
tas a la segunda pregunta (cantidad de dinero gastado) son continuas. Después de recolectar los datos, deben organizarse y prepararse para realizar varios análisis. En los siguientes dos capítulos se desarrollarán los temas de tablas, gráficas y una gran variedad de medidas numéricas que son útiles para analizar los datos.
10
CAPÍTULO 1 Introducción y recolección de datos
C O N C E P T O S C L AV E Datos 8 Definición operacional 3 Estadística 2 Estadística descriptiva 4 Estadística inferencial 4 Estadístico 3
Fuentes primarias 7 Fuentes secundarias 7 Grupo focal 8 Muestra 3 Paquetes estadísticos 4 Parámetro 3
Población 3 Variables 3 Variables categóricas 8 Variables continuas 8 Variables discretas 8 Variables numéricas 8
P R O B L E M A S D E R E PA S O Revisión de su comprensión 1.12 ¿Cuál es la diferencia entre una muestra y una población? 1.13 ¿Cuál es la diferencia entre un estadístico y un parámetro? 1.14 ¿Cuál es la diferencia entre la estadística inferencial y la descriptiva? 1.15 ¿Cuál es la diferencia entre una variable categórica y una numérica? 1.16 ¿Cuál es la diferencia entre una variable discreta y una continua? 1.17 ¿Qué es una definición operacional y por qué es importante?
Aplicación de conceptos 1.18 La Data and Story Library (lib.stat.cmu.edu/DASL) es una librería de archivos de datos e historias en línea, que ilustra el uso de los métodos estadísticos básicos. Las historias están clasificadas por método y por tema. Visite este sitio y dé clic en List all topics. Seleccione una historia y elabore un resumen de cómo se ha utilizado la estadística en ella. 1.19 Visite el sitio oficial de Microsoft Excel (www.microsoft. com/office/excel). Explique cómo cree que sea útil el programa Excel en el campo de la estadística. 1.20 Visite el sitio oficial de Minitab Web (www.minitab. com). Explique cómo cree que Minitab resulte útil en el campo de la estadística. 1.21 Visite el sitio oficial de SPSS (www.spss.com). Explique cómo cree que sea útil el SPSS en el campo de la estadística. 1.22 La organización Gallup pone a disposición los resultados de las elecciones en su sitio Web (www.gallup.com). Visítelo y dé clic en algún artículo que le interese de la sección “Top Stories”. a. Dé un ejemplo de una variable categórica que se encuentre en el artículo. b. Dé un ejemplo de una variable numérica encontrada en el artículo. c. La variable que seleccionó en b), ¿es discreta o continua?
1.23 El sitio del U.S. Census Bureau (www.census.gov) contiene la información de las encuestas sobre población, negocios, geografía y otros temas. Visite el sitio, dé clic en Housing, en la sección “People”. Después dé clic en American Housing Survey. a. Describa brevemente el American Housing Survey. b. Dé un ejemplo de una variable categórica que haya encontrado en la encuesta. c. Dé un ejemplo de una variable numérica que haya encontrado en la encuesta. d. La variable que seleccionó en c), ¿es discreta o continua? 1.24 En el sitio Web del U.S. Census Bureau (www.census. gov), dé clic en Survey of Business Owners en la sección “Business” y lea la descripción The Survey of Business Owners and Self-Employed Persons (SBO). Dé clic en SBO-1, en la sección “Forms and Instructions” para visualizar la forma de encuesta usada. a. Dé un ejemplo de una variable aleatoria categórica encontrada en esta encuesta. b. Dé un ejemplo de una variable aleatoria numérica encontrada en esta encuesta. c. La variable que seleccionó en b), ¿es discreta o continua? 1.25 En un reporte basado en un estadístico del Departamento del Transporte de Estados Unidos U.S., la empresa JetBlue fue la número 1 en calidad entre todas las líneas aéreas de ese país en 2003. JetBlue obtuvo el segundo mejor tiempo de desempeño, al llegar a tiempo el 86% de las veces. También los clientes de JetBlue llenaron menos formatos de quejas que los de todas las demás líneas aéreas, salvo una (“JetBlue calificada como la línea aérea número 1, dice el reporte”, USAToday.com, 5 de abril, 2004). a. ¿Cuál o cuáles de los cuatro tipos de fuentes de datos listados en la sección 1.4 en la página 7 cree que se utilizaron en este estudio? b. Nombre una variable categórica usada en este artículo. c. Nombre una variable numérica usada en este artículo. 1.26 De acuerdo con una encuesta de Goldman Sachs, sólo cerca del 4% de los hogares estadounidenses utilizan los servicios bancarios on line. Una encuesta realizada por Cyber Dialogue investigó las razones por las que la gente abandona el banco on line después de intentarlo. A continuación se ofrece un listado parcial de los resultados obtenidos por la encuesta
Introducción a los casos Web
Cyber Dialogue (“USA Snapshots”, USA Today, 21 de febrero de 2000, A1). ¿Por qué abandonó el banco on line? Demasiado complicado o se lleva demasiado tiempo 27% No le satisface el servicio al cliente
25%
No lo necesita/no está interesado
20%
Tiene preocupaciones acerca de la seguridad o de un fraude
11%
Demasiado costoso
11%
Tiene dudas sobre la privacidad
5%
a. Describa la población de la encuesta Goldman Sachs. b. Describa la población de la encuesta Cyber Dialogue. c. La respuesta a la pregunta “¿Por qué abandonó el banco on line?”, es ¿categórica o numérica?
11
d. El 27% de quienes respondieron indicaron que el banco en línea era demasiado complicado o tomaba demasiado tiempo. ¿Es esto un parámetro o un estadístico? 1.27 Un fabricante de comida para gatos planeaba realizar una encuesta en los hogares estadounidenses para determinar los hábitos de compra de quienes poseen gatos. Entre las preguntas que se incluirían estaban las relacionadas con la siguiente información: 1. Dónde se compra la comida para gato por lo general. 2. La comida para gato comprada es seca o húmeda. 3. El número de gatos que viven en el hogar. 4. Si el gato tiene o no pedigree. a. Describa la población. b. Para cada uno de los reactivos listados, indique si la variable es categórica o numérica. Si es numérica, ¿es discreta o continua? c. Plantee cinco preguntas categóricas para la encuesta. d. Plantee cinco preguntas numéricas para la encuesta.
INTRODUCCIÓN A LOS CASOS WEB APRENDIENDO DE LOS CASOS WEB EN ESTE TEXTO La gente usa técnicas estadísticas para ayudar a comunicar y a presentar información importante a otros tanto dentro como fuera de sus negocios. Sin embargo, cada día, la gente hace mal uso de esas técnicas:
• • •
Un administrador de ventas que trabaja con un programa de gráficas “fácil de usar”, elige una gráfica inapropiada que oscurece las relaciones de los datos. El editor de un reporte anual presenta la gráfica de los ingresos con un eje Y reducido que crea la falsa impresión de que ha habido un gran incremento en los ingresos. Un analista genera estadísticos sin significado acerca de un conjunto de datos categóricos al usar un tipo de análisis diseñado para datos numéricos.
Aunque la mayoría de los casos en que se hace mal uso de la estadística no son intencionales, usted debe ser capaz de identificar todos esos usos incorrectos para ser un administrador bien informado. El objetivo principal de los Casos Web a lo largo del texto, es ayudarle a desarrollar este tipo de habilidad. Se le pedirá que visite los sitios Web que están relacionados con las compañías y los temas tratados en el escenario de “Uso de la estadística” con el que inicia cada capítulo, o una página Web que apoye la continuación de la historia del Springville Herald, un diario de una pequeña ciudad. Revisará también documentos internos así como demandas públicas, para identificar y corregir los usos incorrectos de la estadística. De forma diferente a como lo haría un libro de texto tradicional, pero apegado a las situaciones del mundo
real, no toda la información que encontrará será relevante para su tarea; en ocasiones descubrirá información conflictiva que tendrá que aclarar antes de continuar con los casos. Para ayudarle con su aprendizaje, los Casos Web de cada capítulo inician con el objetivo de aprendizaje y la sinopsis del escenario que está bajo estudio. Se le dirigirá hacia un sitio o página Web específica y se le hará una serie de preguntas que guiarán su exploración. Si lo prefiere, también podrá explorar páginas Web para casos enlazados a la página del Springville Chamber of Commerce (www.prenhall.com/Springville/SpringvilleCC.htm). Para complementar a los Casos Web, en casi todos lo capítulos encontrará un ejercicio tradicional de estudio de caso en el que se le pedirá que aplique sus conocimientos sobre la estadística en un problema que enfrente el Springville Herald. Para ilustrar el uso de los Casos Web, visite el sitio de Good Tunes (www.prenhall.com/Springville/Good_Tunes.htm), el minorista en línea mencionado en los escenarios de “Uso de la estadística” en este capítulo. Recuerde que la empresa privada Good Tunes busca financiamiento para expandir su negocio abriendo otras tiendas. Como el interés del administrador es hacer que los banqueros vean en Good Tunes un negocio floreciente, no sorprende que utilice el argumento de que “éste ha sido nuestro mejor año en ventas”, como título de la página “Buenos tiempos para Good Tunes”. Esta frase también es un hipervínculo, así es que dé un clic en “éste ha sido nuestro mejor año en ventas” para abrir la página que apoya esa afirmación. ¿Qué tan bien la apoya? ¿Con una tabla de números? ¿Con una gráfica? ¿Con declaraciones atribuidas a fuentes conocedoras? Good Tunes ha usado una gráfica para presentar los datos de sus ventas por
12
CAPÍTULO 1 Introducción y recolección de datos
categoría “hace dos años” y “los últimos 12 meses”. ¿Hay problemas en las elecciones hechas en esta página Web? ¡Absolutamente! Primero, observe que no hay escalas para los símbolos usados, por lo que es imposible saber cuál es el volumen de ventas real. De hecho, como aprenderá en la sección 2.6, las gráficas que incorporan símbolos de esta forma se consideran como gráficas basura, que jamás utilizarían los especialistas. Además de este importante punto, surge otra pregunta acerca de si los datos de venta representan el número de unidades vendidas o algo más. El uso de símbolos da la impresión de que se están presentando datos de unidades vendidas. Si es así, ¿apoyan estos datos el argumento, o tal vez otros datos, como el volumen en dólares, serían un mejor indicador de las ventas de Good Tunes?
Además están las curiosas etiquetas de las gráficas. “Los últimos 12 meses” es ambiguo —podría incluir meses del año en curso así como meses del año anterior y, por lo tanto, no ser equivalente a un periodo de “hace dos años”. Puesto que el negocio se estableció en 1997 y la categoría es “éste ha sido nuestro mejor año en ventas”, ¿por qué la administración no incluyó las cifras de ventas de cada año? ¿Está la administración de Good Tunes ocultando algo, o simplemente no son conscientes del uso adecuado de la estadística? De cualquier modo, no han logrado comunicar de forma adecuada un aspecto vital de su “historia”. En los siguientes Casos Web se le pedirá realizar este tipo de análisis, usando las preguntas abiertas de este texto como guía. No todos los casos son tan claros y sinceros como esta muestra, y algunos casos incluyen aplicaciones estadísticas perfectamente apropiadas.
REFERENCIAS 1. Kendall, M.G. y R.L. Plackett, eds., Studies in the History of Statistics and Probability, vol. 2 (Londres: Charles W. Griffin, 1977). 2. Kirk, R.E., ed., Statistical Issues: A Reader for the Behavioral Sciences (Monterey, CA: Brooks/Cole, 1972). 3. McCullough, B.D. y B. Wilson, “On the accuracy of statistical procedures in Microsoft Excel 97”, Computational Statistics and Data Analysis, 31 (1999), 27-37. 4. Microsoft Excel 2003 (Redmond, WA: Microsoft Corporation, 2002).
5. Minitab Release 14 (State College, PA: Minitab, Inc., 2004). 6. Pearson, E. S., ed., The History of Statistics in the Seventeenth and Eighteenth Centuries (Nueva York: Macmillan, 1978). 7. Pearson, E.S. y M.G. Kendall, eds., Studies in the History of Statistics and Probability (Darien, CT: Hafner, 1970). 8. SPSS ® Base 12.0 Brief Guide (Upper Saddle River, NJ: Prentice Hall, 2003).
Apéndice 1 Introducción del uso de los programas estadísticos ALGO SOBRE ESTE APÉNDICE Sección A1.1 Lea esta sección si no se encuentra familiarizado con las operaciones básicas de Windows que se requieren para usar de forma eficiente Excel, Minitab o SPSS. Sección A1.2 Lea esta sección sólo si planea usar Excel con este texto. Sección A1.3 Lea esta sección sólo si está usando Minitab con este texto Nota: A lo largo de este apéndice y de los demás que se incluyen en este texto, el símbolo ➔ se usa para representar una secuencia en el menú de selecciones. Por ejemplo, la instrucción “seleccionar Archivo ➔ Abrir” significa que primero de-
be seleccionar el Archivo en el menú de opciones y posteriormente la opción Abrir del submenú que aparece.
A1.1
USO DE WINDOWS
Uso del ratón En Windows, con frecuencia usted usa el ratón u otro dispositivo señalador para seleccionar y activar opciones en la pantalla al presionar un botón. Por convención, Windows da por hecho que los dispositivos señaladores poseen dos botones, uno designado como botón primario y otro como botón secundario. Es posible mover el ratón, presionar y soltar sus botones de las siguientes maneras:
Apéndice
Hacer clic o seleccionar: Mover el ratón sobre un objeto y presionar el botón primario. Arrastrar: Mover el ratón sobre un objeto. Mientras se presiona el botón primario, mover la flecha del ratón hacia otro lugar en la pantalla y soltar el botón. Al arrastrar se mueven los objetos hacia otra parte o también se pueden seleccionar varios puntos. Hacer doble clic: Mover el ratón sobre un objeto y dar dos clics en el botón primario en una sucesión rápida. Hacer clic en el botón derecho: Mover el ratón sobre un objeto y dar un clic en el botón secundario. Por default, Windows define el botón izquierdo del ratón como botón primario y el derecho como el botón secundario (esto da lugar a la frase “clic-derecho”), pero es posible invertir estas definiciones a través del icono Panel de control.
Programas de apertura Usted puede elegir una de dos formas para abrir directamente programas como Excel, Minitab o SPSS. Estas formas son:
• •
Clic en el icono del programa: Dar doble clic en el icono del escritorio que representa el programa que utilizará (algunas versiones de Windows sólo requieren un clic). Opción Inicio Menú: Presione la tecla con el icono de Windows (o dé clic en el botón Inicio en la pantalla) y elija la opción Programa o Todos los programas. De la lista que aparece, seleccione el programa que utilizará. Si éste aparece en un submenú, primero debe seleccionar el submenú y después el programa.
Los usuarios expertos de Windows conocen otras formas de abrir un programa. Usted puede, claro está, usar también alguna de esas formas, si así lo prefiere.
Sistema operativo Windows Windows debe su nombre al hecho de que cada vez que se abre un programa, también se abre una pantalla rectangular enmarcada o “ventana”. En ella se interactúa con el programa, lo que permite abrir ventanas adicionales en las que es posible entrar y realizar diversas actividades. La ventana de apertura de la mayoría de los programas contiene los siguientes elementos comunes: Una barra de título en la parte superior, que identifica el programa y cualquier archivo que esté en uso. Los botones para modificar el tamaño en el lado derecho del área de la barra de título, que afectan el tamaño en que se exhibe la pantalla. El botón de cerrar el programa en el margen superior derecho de la barra de título, que permite dar por terminado de forma rápida el uso del programa. La barra del menú es una lista horizontal de palabras debajo de la barra de título que contiene el comando de opciones en uno o más menús.
13
Una o más barras de herramientas con botones que son comandos de acceso rápido. La figura A1.1 muestra estos elementos comunes para abrir ventanas en Excel 2003, Minitab Release 14, y el SPSS Student Version 12. Note que las ventanas para estos programas adicionalmente tienen un área destinada a una hoja de trabajo, compuesta por filas y columnas que sirven para introducir datos.
Ventanas de diálogo Muchas entradas u opciones disponibles para utilizar el programa muestran ventanas adicionales conocidas como ventanas de diálogo. Las de Excel 2003 permiten abrir o imprimir un archivo (vea la figura A1.2), y contienen los siguientes elementos en común: Botón de ayuda con el signo de interrogación: Dar clic en este botón le permite seleccionar un elemento de la ventana de diálogo y desplegar un mensaje de ayuda en cuanto a su uso. Cuadro de lista hacia abajo: Al hacer clic en el botón se despliega hacia abajo una lista de opciones, que aparece en la esquina derecha de la ventana. Cuadro de lista: Despliega una lista de opciones. En ocasiones incluye una barra de desplazamiento o guía si la lista es más grande de lo que el tamaño del cuadro podría mostrar. Cuadro de texto: Ofrece un espacio para escribir una entrada. En ocasiones estos cuadros se combinan con una lista hacia abajo o con botones (que se observan en las página de la ventana en la figura A1.2), con formas alternativas de especificar una entrada. Cuadro de exploración: Ofrece una serie de opciones para elegir desde cero, una o más de una opción (compare con los botones de opción). Iconos: Permiten un acceso directo a otras aplicaciones en Windows en las que se pueden almacenar los archivos. Botones de opción: Muestra un conjunto de elecciones mutuamente excluyentes en las cuales sólo una opción puede elegirse a la vez. Botones de comando: Permite al programa realizar alguna acción que generalmente cierra la ventana de diálogo actual y muestra una adicional. El botón Aceptar hace que el programa actúe usando los valores y escenarios en uso de la ventana de diálogo. El botón Cancelar cierra el cuadro de diálogo y cancela la operación asociada con él.
A1.2 INTRODUCCIÓN A EXCEL Visión general de Excel Excel es un programa de hoja de trabajo electrónica de Microsoft Office. Aunque no es un programa estadístico especializado, Excel contiene las funciones estadísticas básicas e incluye el paquete de herramientas para análisis de datos úti-
14
CAPÍTULO 1 Introducción y recolección de datos
Botones para cerrar el programa
Barras de menú
Botones para modificar el tamaño
Barras de herramientas
Barras de título
Áreas de hoja de trabajo
FIGURA A1.1 Ventanas de los programas Microsoft Excel, Minitab y SPSS.
Botón de signo de interrogación Cuadro de lista hacia abajo
Cuadro de lista
Cuadros de exploración
Cuadros de texto
Iconos Botones de opción
Botones de comando
FIGURA A1.2 Elementos comunes a las ventanas de diálogo.
Apéndice
les para ejecutar métodos estadísticos avanzados. El cual le permitirá extender y reforzar el paquete de herramientas para análisis de datos que contiene Microsoft. (No es necesario usar el PHStat2 para emplear Excel con este texto, aunque al hacerlo simplificará el uso de Excel para realizar los análisis estadísticos.) Con Excel es posible crear o abrir y guardar archivos que se llaman hojas de trabajo. Éstos son conjuntos de hojas de trabajo y objetos relacionados, tales como gráficas que contienen datos originales, así como cálculos y resultados asociados con uno o más análisis. Por la amplia difusión de Excel, resulta conveniente usarlo, pero algunos especialistas en estadística han manifestado su preocupación en relación con el hecho de que arroja resultados que no son totalmente confiables y precisos para algunos procedimientos estadísticos. Aunque Microsoft ha mejorado muchas de sus funciones estadísticas a partir de Excel 2003, es necesario ser precavidos en su uso para análisis de datos, además de los que presenta este texto. (Si piensa instalar el PHStat2, asegúrese de leer primero el apéndice F y el archivo “Léame” de PHStat2.)
Uso de las hojas de trabajo de Excel En Excel se introducen los datos en las hojas de trabajo que están organizadas en columnas tituladas con letras y filas numeradas. Generalmente se escriben los datos para cada variable en columnas separadas, en la celda de la fila uno para la etiqueta de una variable y cada fila subsiguiente para una observación singular. Se debe seguir la buena costumbre de introducir sólo un conjunto de datos por cada hoja de trabajo. Para referirse a una entrada específica, o celda, se usa una notación Sheetname!ColumnRow. Por ejemplo, la notación Data!A2 se refiere a la celda de la columna A y la fila 2 en la hoja de trabajo. Para referirse a un grupo específico o rango de celdas, se usa una notación Sheetname!Upperleftcell:Lowerrightcell. Por ejemplo, la notación Data!A2:B11 se refiere a las 20 celdas que están en las filas 2 a 11 en las columnas A y B de la hoja de trabajo. Cada hoja de trabajo de Excel tiene su propio nombre. Excel las nombra de forma automática como Hoja1, Hoja2, etcétera. El usuario debería renombrar las hojas de cálculo con nombres más descriptivos. Esto se hace dando doble clic en las pestañas de las hojas que aparecen en la parte baja, se escribe el nuevo nombre y se presiona la tecla Enter para aceptar.
15
la hoja de trabajo y muestra la suma como el valor en la celda correspondiente. También se usan las funciones de Excel para simplificar las fórmulas. Por ejemplo, la fórmula =SUM(Data!B2:B5), que usa la función Excel SUM( ), es el equivalente más corto de la fórmula de la oración anterior. También se usan las referencias de las celdas o rangos de celdas que no contienen la parte Sheetname!, tales como B2 o B2:B5. Estas referencias siempre se relacionan con la hoja de trabajo en la que se ingresó la fórmula. Las fórmulas permiten crear soluciones generalizadas y darle a Excel su capacidad distintiva de volver a calcular de forma automática los resultados al cambiar los valores. Por lo general, al usar una hoja de trabajo sólo se ven los resultados de las fórmulas ingresadas, pero no las fórmulas en sí. Sin embargo, para su referencia en este texto se han incluido muchas ilustraciones de las hojas de trabajo de Excel que muestran las fórmulas subyacentes junto con los resultados que producen. Al usar Excel, es posible seleccionar Herramientas ➔ Opciones y en la etiqueta Vista de la ventana de diálogo Opciones que aparece enseguida seleccionar el cuadro de exploración de Fórmulas y dar clic en el botón Aceptar para ver en la pantalla las fórmulas y no los resultados. Para restaurar la vista original, hay que deseleccionar el cuadro de exploración de Fórmulas.
Uso del Asistente para gráficos de Excel El Asistente para Gráficos de Excel permite generar una gran variedad de éstos. Éste es uno de los varios Asistentes de Microsoft Office, a través del cual un conjunto de ventanas de diálogo interrelacionadas nos guían paso a paso, conforme se crea un gráfico. Para usarlo, primero seleccione Insertar ➔ Gráfico. Después seleccione la información de las propiedades del gráfico conforme avanza a través de las ventanas de diálogo dando clic al botón Siguiente. Al dar clic en el botón Finalizar en la última ventana de diálogo, se termina con el Asistente y se crea el gráfico. Es posible cancelar la operación del Asistente en cualquier punto dando clic en el botón Cancelar o moviéndose hacia una ventana de diálogo previa dando clic en el botón Atrás. Los Asistentes gráficos de las diferentes versiones de Excel difieren ligeramente. Para Excel 2003 el Asistente de gráficos de cuatro pasos (vea la figura A1.3) requiere lo siguiente: Paso 1: Elija el tipo de gráfico.
Uso de fórmulas en las hojas de trabajo de Excel Las fórmulas son entradas en las celdas de las hojas de trabajo, que ejecutan cálculos o algunas otras tareas. Se ingresan las fórmulas escribiendo el signo igual (=), seguido por una combinación de operaciones matemáticas o de procesamiento de datos. Para las fórmulas simples se utilizan los símbolos +, −, *, /, y ^ para las operaciones de suma, resta, multiplicación, división y exponente (un número elevado a una potencia), respectivamente. Por ejemplo, la fórmula =Data!B2 + Data!B3 + Data!B4 + DataB5 suma los contenidos de las celdas B2, B3, B4 y B5 de
Paso 2: Ingrese la ubicación de los datos, para los valores que serán graficados y la fuente de datos para los títulos informativos de la gráfica (si es que los hay). Paso 3: Especifique el formato y las opciones de las etiquetas para el gráfico. (Vea más comentarios a la derecha.) Paso 4: Elija la ubicación del gráfico en la hoja de trabajo. Usted creará un gráfico con una mejor escala si elige la opción “en una hoja nueva” en lugar de la opción “como objeto (en la hoja de trabajo)”. Es factible cambiar esta configuración después de que se haya producido el gráfico dando un clic con el botón derecho del ra-
16
CAPÍTULO 1 Introducción y recolección de datos
tón en el gráfico y haciendo la selección adecuada en el menú que aparece. Por ejemplo, para reconsiderar la colocación asociada con el paso 3 de la ventana de diálogo, debe seleccionar de ese menú Opciones de gráfico. La configuración automática de la ventana de diálogo del paso 3 crea gráficos diseñados de forma imperfecta. Cuando usted usa el Asistente de gráficos para generar aquellos que requieren los problemas y ejemplos de este texto, debe seleccionar las pestañas que muestran abajo (vea la figura A1.4) y continuar las instrucciones (si una pestaña no aparece en la ventana de diálogo del paso 3 para un tipo específico de gráfico, ignore la instrucción de la pestaña):
• • •
Seleccione la pestaña Títulos e ingrese etiquetas para título y ejes, si es apropiado. Seleccione la pestaña Ejes y después en la ventana de exploración tanto el eje (X) como el eje (Y). También seleccione el botón de la opción Automático bajo el cuadro de exploración del eje (X). Elija la pestaña Líneas de división y deseleccione todas las opciones debajo del encabezado del eje (X) y bajo el encabezado del eje (Y).
• •
Seleccione la pestaña Leyenda y deseleccione el cuadro de exploración de Mostrar la leyenda. Seleccione la pestaña Rótulos de datos y en esa pestaña seleccione el botón de la opción Ninguno.
Abrir y guardar hojas de trabajo Se abren las hojas para usar datos y resultados que usted u otras personas hayan creado antes. Para abrir una hoja de Excel, primero seleccione Archivo ➔ Abrir. En la ventana de diálogo de Abrir que aparece, debe dar clic en el botón de Aceptar. Si no encuentra su archivo, tal vez necesitará hacer una o dos cosas más como:
• • •
Utilizar las barras de desplazamiento, si se muestran, para deslizarse por la lista completa de archivos. Seleccionar el archivo correcto de la lista Ver en de la parte superior de la ventana de diálogo. Cambiar el valor de los Tipos de archivos de la lista hacia abajo en la parte inferior de la ventana de diálogo. Seleccionar la opción Archivos de texto de la lista para ver
FIGURA A1.3 Ventanas de diálogo del Asistente para gráficas de Excel.
Apéndice
17
FIGURA A1.4 Asistente de gráficos. Paso 3, pestañas de la ventana de diálogo.
FIGURA A1.5 Ventana de diálogo para abrir de Excel.
cualquiera de los archivos de texto; para visualizar la lista de cada archivo del fólder, seleccione Todos los archivos. Para guardar una hoja de trabajo, seleccione Archivo ➜ Guardar como, que le mostrará una ventana de diálogo similar a la de Abrir. Ingrese (o edite) el nombre del archivo en el cuadro Nombre del archivo y dé clic en el botón Aceptar. Si es aplicable, podría hacer algo de lo siguiente:
• •
Cambiar a otro fólder seleccionando el de la lista hacia abajo de Guardar en. Cambiar el valor de Guardar como tipo en lugar de la opción que aparece por default, Hojas de trabajo de Excel. Las funciones “Texto (etiqueta delimitada)” o “CSV (coma delimitada)” son dos tipos de archivos que se usan en ocasiones para compartir datos de Excel con otros programas.
Después de guardar el trabajo, considere guardar el archivo una segunda vez, con un nombre diferente, para crear una copia de respaldo. Los archivos de discos en los que no se escribe, como los del CD-ROM que acompaña este texto, no se pueden guardar en sus carpetas originales.
Impresión de las hojas de trabajo Para imprimir de forma rápida las hojas de trabajo, seleccione Archivo ➔ Imprimir y después dé clic en el botón Aceptar de la ventana de diálogo de imprimir. Sin embargo, salvo por las hojas de cálculo más simples, probablemente deseará tener una
vista preliminar de lo que imprimirá y hacer los ajustes que considere necesarios antes de imprimir. Para hacerlo, seleccione la hoja de trabajo que va a imprimir y después dé clic en Archivo ➔ Vista previa de la impresión. Si la vista preliminar contiene errores de formato, dé clic en el botón Cerrar, haga los cambios necesarios y vuelva a seleccionar Archivo ➔ Vista previa de la impresión. Cuando esté satisfecho de los resultados, dé clic en el botón Imprimir en la ventana de vista preliminar de la impresión y después en el botón Aceptar en la ventana de diálogo de Impresión. La ventana de diálogo de Impresión (vea la figura A1.2 en la página 14) contiene la configuración para seleccionar la impresora que usará, las partes de la hoja de trabajo que imprimirá (la hoja de trabajo activa es por default) y el número de copias que hará (por default es 1). Si requiere cambiar esta configuración, hágalo antes de dar clic en el botón de Aceptar. Después de la impresión, tal vez desee verificar los contenidos. La mayoría de las fallas de impresión muestran un mensaje de error que al mismo tiempo le ayudará a corregirlas. Se personalizan las impresiones en el Archivo ➔ Colocación de hoja (o dando clic en el botón de Setup en la ventana Vista preliminar de la Impresión) y realizando las entradas apropiados en la ventana de diálogo de Colocación de hoja (no mostrada), antes de imprimir las hojas de trabajo.
A1.3
INTRODUCCIÓN A MINITAB
Vista general de Minitab Minitab es un programa que resultó de los esfuerzos de la Pennsylvania State University para mejorar la enseñanza de la estadística. Actualmente, mientras aún lo utilizan en muchas escuelas, Minitab se ha convertido en un producto comercial que también emplean grandes corporaciones alrededor del mundo, como Ford Motor Company, 3M y GE. Con Minitab se crean y se abren proyectos para guardar los datos y resultados. Los componentes del proyecto son una sesión o bitácora de actividades, un Administrador de proyecto que resume el contenido del proyecto y cualquier hoja de trabajo o gráficos. Los componentes del trabajo se muestran en ventanas separadas dentro de la aplicación de la ventana de Minitab. (Es posible traer cualquier ventana al frente seleccionándola en el menú de Minitab.) Es posible abrir o cerrar un proyecto completo o, como se hace en este texto, abrir y guardar hojas de trabajo. La precisión de Minitab, su disponibilidad para diferentes tipos de sistemas computacionales y la aceptación comercial hacen de este programa una gran herramienta para el aprendizaje de la estadística.
18
CAPÍTULO 1 Introducción y recolección de datos
Uso de las hojas de cálculo de Minitab Usted ingresa los datos a la hoja de trabajo de Minitab de modo que cada variable es asignada a una columna. Las hojas de trabajo de Minitab están organizadas con base en filas y columnas numeradas en la forma Cn, donde C1 es la primera columna. Se ingresan los rótulos de las variables en una fila especial sin número que antecede a la fila 1. A diferencia de las hojas de trabajo de otros programas como Excel, las hojas de trabajo de Minitab no aceptan fórmulas y no se recalculan de forma automática cuando se modifican los valores de los datos. Por default, Minitab abre las hojas de cálculo con nombres seriados en la forma de Hoja de trabajo1, Hoja de trabajo2, etcétera. El mejor nombre será el que refleje el contenido de la hoja de trabajo, como Fondos para una hoja de trabajo que contenga datos sobre los fondos mutuos. Para dar a la hoja de trabajo un nombre descriptivo, abra la ventana de Administrador del proyecto, dé un clic con el botón derecho del ratón en el icono de la hoja de trabajo y seleccione Renombrar en el menú pequeño, donde podrá escribir el nuevo nombre.
FIGURA A1.6 Abrir la ventana de diálogo de la hoja de trabajo.
Abrir y guardar las hojas de trabajo y otros componentes Las hojas de trabajo se abren para usar datos que usted u otros usuarios han creado anteriormente. Para abrir una hoja de trabajo de Minitab, se selecciona primero Archivo ➜ Abrir Hoja de trabajo. En la ventana de diálogo de Abrir Hoja de trabajo que aparece (vea la figura A1.6), seleccione el archivo que debe abrir y dé clic en el botón OK. Si no encuentra su archivo, deberá dar uno o más de los siguientes pasos:
• • •
Use las barras de desplazamiento, si aparecen, para mostrar la lista completa de archivos. Seleccione el fólder correcto de la lista hacia abajo Buscar en que aparece en la parte superior de la ventana de diálogo. Cambie el valor de Tipo de archivos en la lista hacia abajo en el botón de la ventana de diálogo. Seleccione Archivos de texto de la lista para ver cualquier archivo de texto; para listar cada archivo del fólder, seleccione Todos los archivos.
Para abrir el Proyecto Minitab que pueda incluir la sesión, hoja de trabajo y gráficos, seleccione Archivo ➜ Abrir Proyecto. Para guardar una hoja de trabajo, seleccione Archivo ➜ Guardar Hoja de trabajo actual como para mostrar la ventana de diálogo de Guardar hoja de trabajo como, que es similar a la ventana de diálogo de Abrir hoja de trabajo como. Ingrese (o edite) el nombre del archivo en el cuadro Nombre del archivo y dé clic en el botón OK. Si es aplicable, también puede hacer lo siguiente:
• •
Cambie a otro fólder seleccionándolo de la lista hacia abajo Guardar en. Cambie el valor de Guardar como escrito a algo más que la opción por default de Minitab, “Minitab Portable” o una versión anterior de Minitab, como “Minitab 13”, que son opciones que se utilizan comúnmente.
Después de guardar el trabajo, considere guardar el archivo una segunda vez, con un nombre diferente, para crear un respaldo de su trabajo. Los archivos que se abren de discos en los que no se puede escribir. Para guardar un Proyecto de Minitab, seleccione también Archivo ➜ Guardar Proyecto como. La ventana de diálogo de Guardar el Proyecto como incluye el botón Opciones que muestra una ventana de diálogo en la que se pueden seleccionar partes del proyecto además de las hojas de cálculo que guardará. Los gráficos individuales y la sesión también se guardan de forma separada seleccionando primero sus ventanas y después nuevamente Archivo ➜ Guardar Gráfico como o Archivo ➜ Guardar sesión como, según sea apropiado. Los gráficos de Minitab pueden guardarse en el formato de gráficos de Minitab o en cualquiera de los formatos de gráficos comunes, y los archivos de Sesiones pueden guardarse como archivos de texto simples o formateados.
Impresión de hojas de trabajo, gráficos y sesiones Para imprimir una hoja de trabajo, gráfico o sesión específicos, primero seleccione la ventana de la hoja de trabajo, gráfico o sesión que va a imprimir. Después seleccione Archivo ➔ Imprimir objeto, donde objeto es una Ventana de hoja de trabajo, Gráfico o Sesión, dependiendo de la ventana seleccionada. Si imprime una gráfica o una ventana de sesión, podrá ver la ventana de diálogo de Imprimir. Si imprime una hoja de trabajo, primero verá un cuadro de diálogo en la Ventana de Datos
Apéndice
19
Opciones de Impresión (figura A1.7), que permite seleccionar formalmente las opciones para la impresión (las que aparecen por default funcionan bien para la mayoría de las impresiones). Dé clic en el botón OK para continuar con la ventana de diálogo de Imprimir. La ventana de diálogo de Imprimir permite seleccionar la impresora que se va a utilizar, qué páginas se van a imprimir y el número de copias que se desea (1 es por default). Si usted desea modificar estas opciones, hágalo antes de dar clic en el botón OK para realizar la impresión. Después de la impresión, deberá verificar su contenido. La mayoría de los errores de impresión generan en la pantalla información que permite conocer la razón de la falla. Es posible cambiar el tamaño o la orientación del papel en la impresión seleccionando Archivo ➜ Colocación del papel y hacer la selección apropiada dando clic en el botón OK.
FIGURA A1.7 Cuadro de diálogo de la ventana de datos opciones de impresión.
capítulo
2
PRESENTACIÓN DE DATOS EN TABLAS Y GRÁFICAS
Objetivos En este capítulo, aprenderá: • A desarrollar tablas y gráficas para datos categóricos • A desarrollar tablas y gráficas para datos numéricos
•
Los principios para presentar gráficas de forma adecuada
Contenido del capítulo USO DE LA ESTADÍSTICA: Comparación de los rendimientos de los fondos de inversión 2.1 Tablas y gráficas para datos categóricos 22 Tabla de resumen 22 Gráfica de barras 23 Gráfica de pastel 24 Diagrama de Pareto 25 2.2 Organización de los datos numéricos 29 Arreglo ordenado 30 Diagrama de tallo y hojas 30 2.3 Tablas y gráficas para datos numéricos 32 Distribución de frecuencias 32 Distribución de frecuencias relativas y distribución de porcentajes 34 Distribución acumulativa 35 Histograma 37
Polígono 38 Polígono de porcentaje acumulado (ojiva) 39 2.4 Tablas y gráficas para datos bivariados 43 Tabla de contingencia 43 Gráfica de barras agrupadas 45 2.5 Diagramas de dispersión y series de tiempo 47 Diagrama de dispersión 47 Series de tiempo 48 2.6 Uso inadecuado de gráficas y consideraciones éticas 51 A.2 Uso del software para tablas y gráficas 63 A2.1 Excel 63 A2.2 Minitab 65
22
CAPÍTULO 2 Presentación de datos en tablas y gráficas
U S O D E L A E S TA D Í S T I C A Comparación de los rendimientos de los fondos de inversión Entre las muchas opciones de inversión disponibles en la actualidad, una elección común para quienes piensan en su retiro son los fondos de inversión. Si usted decide invertir en fondos de inversión su cuenta de retiro, ¿qué haría para hacer una elección razonable de entre todos los fondos disponibles hoy? Primero debería conocer las diferentes categorías de los fondos de inversión. Debería conocer las estrategias de los profesionales que administran los fondos. ¿Invierten en valores de alto riesgo o hacen elecciones más conservadoras? ¿El fondo se especializa en un determinado tamaño de compañía, uno cuya reserva principal totaliza un gran capital o uno de capital reducido? ¿Cobra el fondo comisiones por administración que reducen el porcentaje de utilidad del inversionista? Y, por supuesto, debería conocer qué tan bien el fondo ha manejado las inversiones en el pasado. Todos éstos son datos que debe revisar cuando considere varias posibilidades de invertir en fondos de inversión. ¿Cómo “poner manos a la obra” con estos datos y explorarlos de manera exhaustiva?
U
na de las formas en las que podría responder a las preguntas de “Uso de la estadística” es estudiando los datos de los fondos de inversión. Como inversionista, le gustaría examinar tanto las variables categóricas como las numéricas. ¿Tienen los fondos de inversión como un objetivo de crecimiento rendimientos menores que los fondos de inversión con un objetivo de valor? ¿Tienden los fondos de crecimiento a ser inversiones más riesgosas que los fondos de valor? Este capítulo le ayudará a seleccionar y desarrollar tablas y gráficas apropiadas para encontrar la respuesta a éstas y otras preguntas.
2.1
TABLAS Y GRÁFICAS PARA DATOS CATEGÓRICOS Cuando dispone de datos categóricos usted registra las respuestas en categorías y luego presenta la frecuencia o porcentaje de cada categoría en tablas y gráficas.
Tabla de resumen La tabla de resumen indica la frecuencia, cantidad o porcentaje de objetos en un conjunto de categorías para observar las diferencias que hay entre ellas. Una tabla de resumen lista las categorías en una columna y la frecuencia, cantidad o porcentaje en una columna o columnas independientes. La tabla 2.1 ilustra la tabla de resumen basada en una reciente encuesta en la que se preguntó por qué la gente compra los regalos en línea durante las temporadas festivas (USA Today Snapshots, “Convenience, Shipping Make Online Appealing”, USA Today, 24 de diciembre, 2003, A1). En la tabla 2.1 se observa que las razones más comunes para comprar en línea son los gastos de envío gratis y la conveniencia, seguidos por la comparación de compra. Muy pocos compran en línea por su variedad en la selección o velocidad.
TABLA 2.1 Razones por las que se compran regalos en línea durante la temporada festiva.
Razón Comparación de compra Conveniencia Gastos de envío gratis Variedad en la selección Velocidad Total
Porcentaje 23 33 34 6 4 100
2.1: Tablas y gráficas para datos categóricos
EJEMPLO 2.1
23
TABLA DE RESUMEN DE LOS NIVELES DE RIESGO DE LOS FONDOS DE INVERSIÓN Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” están clasificados según su nivel de riesgo: bajo, promedio y alto. Construya una tabla de resumen de los fondos de inversión categorizados por el nivel de riesgo. SOLUCIÓN La mayoría de los fondos de inversión son de riesgo bajo o riesgo promedio (104 o aproximadamente el 86%). Muy pocos de los fondos de inversión son de alto riesgo (14%).
TABLA 2.2 Tabla de resumen de frecuencia y porcentaje perteneciente al nivel de riesgo para 121 fondos de inversión.
Nivel de riesgo del fondo Bajo Promedio Alto Total
Número de fondos
Porcentaje de fondos
58 46 17 121
47.93 38.02 14.05 100.00
Gráfica de barras En una gráfica de barras, cada barra muestra una categoría, su longitud representa la cantidad, frecuencia o porcentaje de los valores que caen en cada categoría. La figura 2.1 muestra una gráfica de barras para las razones de comprar regalos en línea durante la temporada festiva, de acuerdo con la tabla 2.1.
FIGURA 2.1 Gráfica de barras de Excel con las razones por las cuales se compran regalos en línea durante la temporada festiva.
Las gráficas de barras permiten comparar los porcentajes de diferentes categorías. En la figura 2.1 las razones más comunes para comprar en línea son los gastos de envío gratis y la conveniencia, seguidos por la comparación de compra. Muy pocos respondieron que compran en línea por su variedad en la selección o velocidad.
EJEMPLO 2.2
GRÁFICA DE BARRAS PARA LOS NIVELES DE RIESGO DE LOS FONDOS DE INVERSIÓN Construya una gráfica de barras para los niveles de riesgo de los fondos de inversión (con base en la información de la tabla 2.2) e interprete los resultados.
24
CAPÍTULO 2 Presentación de datos en tablas y gráficas
SOLUCIÓN La mayoría de los fondos de inversión son de bajo riesgo o de riesgo promedio (104 o el 86%). Muy pocos de los fondos de inversión son de alto nivel de riesgo (17 o el 14%).
FIGURA 2.2 Gráfica de barras de Excel con los niveles de riesgo de los fondos de inversión.
Gráfica de pastel La gráfica de pastel es un círculo que se divide en partes para representar las categorías. El tamaño de cada rebanada varía de acuerdo con el porcentaje de cada categoría. En la tabla 2.1, por ejemplo, el 33% de los encuestados afirmaron que la conveniencia era la principal razón para comprar en línea. Así, al construir la gráfica de pastel, los 360° que conforman el círculo se multiplican por 0.33, de lo que resulta una rebanada del pastel que abarca 118.8° de los 360° del círculo. En la figura 2.3 se observa que la gráfica permite visualizar la porción del pastel entero que está en cada categoría. En esta figura, la razón que se refiere a la conveniencia abarca el 33% del pastel y la de la velocidad sólo el 4%.
FIGURA 2.3 Gráfica de pastel de Excel con las razones por las que se compran regalos en línea durante la temporada festiva.
2.1: Tablas y gráficas para datos categóricos
25
¿Qué gráfica se debe utilizar? La selección de una gráfica en particular depende de la intención de quien la construye. Si la comparación de categorías es lo más importante, podría utilizar una gráfica de barras. Si lo importante es observar la parte del total que está en una categoría en particular, debería utilizar la gráfica de pastel.
EJEMPLO 2.3
GRÁFICA DE PASTEL DE LOS NIVELES DE RIESGO DE LOS FONDOS DE INVERSIÓN Construya una gráfica de pastel para los niveles de riesgo de los fondos de inversión (vea la tabla 2.2 en la página 23) e interprete los resultados. SOLUCIÓN (Vea la figura 2.4.) La mayoría de los fondos de inversión son de riesgo bajo o de riesgo promedio (aproximadamente el 86%). Muy pocos son fondos de alto riesgo (aproximadamente el 14%).
FIGURA 2.4 Gráfica de pastel de Excel con los niveles de riesgo de los fondos de inversión.
Diagrama de Pareto En un diagrama de Pareto las respuestas categorizadas se trazan en orden descendente de acuerdo con sus frecuencias y se combinan con la línea de porcentaje acumulado en la misma gráfica. Este diagrama permite identificar situaciones en las que se da el principio de Pareto.
PRINCIPIO DE PARETO El principio de Pareto existe cuando la mayoría de los elementos de un conjunto de datos caen en un pequeño número de categorías, y las pocas observaciones restantes se dispersan en un gran número de categorías. A menudo nos referimos a estos dos grupos como lo “poco vital” y lo “mucho trivial”. El diagrama de Pareto permite separar a lo “poco vital” de lo “mucho trivial”, lo que nos permite enfocarnos en las categorías importantes. En las situaciones en las que los datos en estudio consisten en información defectuosa o incompleta, el diagrama de Pareto se convierte en una herramienta valiosa para dar prioridad a los esfuerzos de mejoramiento. La tabla 2.3 presenta datos de una gran compañía de moldeado de inyección que produce componentes moldeados de plástico para teclados de computadora, lavadoras, automóviles y televisores. Los datos presentados en la tabla 2.3 consisten en todos los teclados de computadora defectuosos producidos durante un periodo de tres meses. TECLADO
26
CAPÍTULO 2 Presentación de datos en tablas y gráficas
Causa
TABLA 2.3 Tabla de resumen de las causas de los defectos en los teclados de computadora en un periodo de tres meses.
Mancha negra Daño Embarque Marcas de clavijas Rasguños Impacto en el molde Raya plateada Marca de hundimiento Marca de spray Deformación Total
Frecuencia
Porcentaje
413 1,039 258 834 442 275 413 371 292 1,987 6,324
6.53 16.43 4.08 13.19 6.99 4.35 6.53 5.87 4.62 31.42 100.01*
*Los resultados difieren ligeramente de los 100.00 por el redondeo. Fuente: U.H. Acharya y C. Mahesh, “Winning Back the Customer’s Confidence: A Case Study on the Application of Design of Experiments to an Injection-Molding Process”, Quality Engineering, 11, 1999, 357-363.
La tabla 2.4 presenta un resumen para los defectos de los teclados de computadora, en la que las categorías están ordenadas de acuerdo con el porcentaje (y no alfabéticamente). Los porcentajes acumulados para las categorías ordenadas también forman parte de la tabla.
TABLA 2.4 Tabla ordenada de resumen de las causas de los defectos en los teclados de computadora en un periodo de tres meses.
Causa Deformación Daño Marca de clavijas Rasguños Mancha negra Raya plateada Marca de hundimiento Marca de spray Impacto en el molde Embarque Total
Frecuencia
Porcentaje
1,987 1,039 834 442 413 413 371 292 275 258 6,324
31.42 16.43 13.19 6.99 6.53 6.53 5.87 4.62 4.35 4.08 100.01*
Porcentaje acumulativo
31.42 47.85 61.04 68.03 74.56 81.09 86.96 91.58 95.93 100.00
*Los resultados difieren ligeramente de 100.00 por el redondeo.
1 Lea
los porcentajes de la barra en la escala vertical izquierda. Lea los porcentajes acumulados en la escala vertical derecha.
En la tabla 2.4 la primera categoría en la lista es la deformación (con el 31.42% de los defectos), seguida por daño (16.43%) y marca de clavijas (13.19%). Las dos categorías más frecuentes —deformación y daño— abarcan el 47.85% de los defectos; las tres categorías más frecuentes —deformación, daño y marcas de clavijas— abarcan el 61.04% de los defectos, y así sucesivamente. La figura 2.5 es un diagrama de Pareto basado en los resultados mostrados en forma tabular en la tabla 2.4. La figura 2.5 presenta las barras de forma vertical a lo largo de la línea de porcentaje acumulado.1 La línea acumulativa está trazada en el punto medio de cada barra a una altura semejante al porcentaje acumulado. Si sigue la línea, verá que estas tres primeras categorías abarcan más del 60% de las correcciones. Como las categorías del diagrama de Pareto están ordenadas por la frecuencia de ocurrencia, quienes toman decisiones podrán ver dónde concentrar sus esfuerzos para mejorar el proceso. Los intentos de reducir los defectos por deformación, daño y marcas de clavijas deberán generar el mayor gasto. Después podrán hacerse esfuerzos para reducir los rasguños y las manchas negras. Para que una tabla de resumen incluya todas las categorías, aun aquellas con menos defectos, en algunos casos se deberá agregar la categoría de Otros o Miscelánea. Para estos casos, la barra se coloca a la derecha de las demás.
2.1: Tablas y gráficas para datos categóricos
27
FIGURA 2.5 Diagrama de Pareto en Excel para los datos de los defectos de teclado.
EJEMPLO 2.4
DIAGRAMA DE PARETO DE LAS RAZONES PARA COMPRAR REGALOS EN LÍNEA DURANTE LA TEMPORADA FESTIVA Construya un diagrama de Pareto para las razones de comprar regalos en línea (vea la tabla 2.1 en la página 22). SOLUCIÓN En la figura 2.6, los gastos de envío gratis y la conveniencia abarcan el 67% de las razones para comprar en línea, mientras que los gastos de envío gratis, conveniencia y comparación de compras abarcan el 90%.
FIGURA 2.6 Diagrama de Pareto Minitab, de las razones para comprar regalos en línea durante la temporada festiva.
28
CAPÍTULO 2 Presentación de datos en tablas y gráficas
PROBLEMAS PARA LA SECCIÓN 2.1 Aprendizaje básico ASISTENCIA
de PH Grade
2.1 Una variable categórica tiene tres categorías con las siguientes frecuencias:
Categoría
Frecuencia
A B C
13 28 9
a. b. c. d.
Calcule el porcentaje de valores en cada categoría. Construya una gráfica de barras. Construya una gráfica de pastel. Construya un diagrama de Pareto. ASISTENCIA 2.2 Una variable categórica tiene cuatro categorías de PH Grade con los siguientes porcentajes: Categoría
Porcentaje
Categoría
Porcentaje
A B
12 29
C D
35 24
a. Construya una gráfica de barras. b. Construya una gráfica de pastel. c. Construya un diagrama de Pareto.
Aplicación de conceptos Puede resolver los problemas 2.3 a 2.10 manualmente o usando Excel, Minitab o SPSS. 2.3 En una encuesta se preguntó a 150 ejecutivos cuál creían que era el error más común de los candidatos durante las entrevistas de trabajo. Los resultados (USA Today Snapshots, 19 de noviembre, 2001) fueron los siguientes: AUTO Examen
Razón Poco o nulo conocimiento de la compañía Sin preparación para discutir sus planes profesionales Escaso entusiasmo Falta de contacto visual Sin preparación para discutir sus habilidades/ experiencias Otras razones
Porcentaje
de los buscadores de la Web, entre los usuarios de Internet de Estados Unidos; el estudio se realizó en mayo de 2003. Fuente Ask Jeeves AOL Time Warner Google MSN-Microsoft Yahoo Otros
2.5 Los estadounidenses pagaron más de 50 mil millones de dólares en transacciones en línea con tarjetas de crédito en el año 2000 (Byron Acohido, “Microsoft, Banks Battle to Control Your e-info”, USA Today, 13 de agosto, 2001, 1B-2B). Estas transacciones se distribuyeron de la siguiente manera: Tarjeta de crédito
Cantidad (miles de millones de dls.)
Porcentaje
American Express Discover MasterCard Visa
8.04 1.97 15.57 25.96
15.6 3.8 30.2 50.4
a. Construya una gráfica de barras, una gráfica de pastel y un diagrama de Pareto. b. ¿Cuál de los métodos gráficos refleja mejor los datos? 2.6 La siguiente tabla representa las fuentes de energía eléctrica utilizadas en Estados Unidos en un año reciente: Fuente
23 16 5
Carbón Plantas hidroeléctricas Gas natural Nuclear Petróleo Otras
a. Construya una gráfica de barras, una gráfica de pastel y un diagrama de Pareto. b. ¿Cuál es el método gráfico que mejor refleja los datos? c. Si fuera un candidato en una entrevista de trabajo, ¿qué errores trataría de evitar especialmente? 2.4 Un artículo (M. Mangalindan, N. Wingfield y R. Guth, “Rising Clout of Google Prompts Rush by Internet Rivals to Adapt”, The Wall Street Journal, 16 de julio, 2003, A1, A6) analizó la amplia influencia que Google tuvo en Internet a nivel mundial. La siguiente tabla indica la participación de mercado
3 19 32 15 25 6
a. Elabore una gráfica de barras, una gráfica de pastel y un diagrama de Pareto. b. ¿Cuál método gráfico refleja mejor los datos? c. ¿Qué conclusiones se obtienen respecto a la participación de mercado de los buscadores Web en mayo de 2003?
44
3 9
Porcentaje
Porcentaje 51 6 16 21 3 3
Fuente: Departamento de Energía de Estados Unidos.
a. Elabore un diagrama de Pareto. b. ¿Qué porcentaje de electricidad se deriva de cualquiera de las siguientes fuentes: carbón, energía nuclear o gas natural? c. Construya una gráfica de pastel. d. ¿Qué gráfica prefiere usar: el diagrama de Pareto o la gráfica de pastel? ¿Por qué? 2.7 Un artículo (P. Kitchen, “Retirement Plan: To Keep Working”, Newsday, 24 de septiembre, 2003) expuso los resultados de una muestra de 2,001 estadounidenses de entre 50 y 70 años
2.2: Organización de los datos numéricos
de edad que tenían empleos de tiempo completo o de medio tiempo. La siguiente tabla representa sus planes de retiro. Planes
2.9 Un analista registró las causas de las caídas de una red durante los pasados seis meses. Razón de la falla
Porcentaje
No tener un trabajo asalariado Iniciar un negocio propio Trabajar tiempo completo Trabajar medio tiempo No sabe Otros
2.8 El correo electrónico basura (spam) se ha convertido en un problema muy grave para la productividad (J. Hopkins, “Spam Blaster Does Job for Merril”, USA Today, 7 de enero, 2004). La siguiente tabla muestra el uso que una compañía da al software antispam con base en una encuesta realizada a ejecutivos de tecnología.
Razón
Número
Habitación sucia Habitación sin equipamiento Habitación que no está lista Habitación demasiado ruidosa Habitación que requiere de mantenimiento Habitación con pocas camas Habitación que no tiene las características prometidas No tiene instalaciones especiales
Porcentaje
Tiene software para algunos usuarios Tiene software para todos los usuarios Planea tener software en los próximos 12 meses No planea tener software
1 3 29 2 32 1
a. Realice un diagrama de Pareto. b. Analice las razones “poco vital” y “muy trivial” por las que el sistema de red se cayó. 2.10 Los siguientes datos representan las quejas acerca de las habitaciones de un hotel.
a. Elabore una gráfica de barras y una gráfica de pastel. b. ¿Cuál método gráfico cree que describe mejor los datos?
12 59 20 9
32 17 12 10 17 9 7 2
a. Elabore un diagrama de Pareto. b. ¿En qué se debe enfocar el hotel si desea reducir el número de quejas? Explique su respuesta.
a. Construya una gráfica de barras y una gráfica de pastel. b. ¿Cuál método gráfico representa mejor estos datos?
2.2
Frecuencia
Conexión física Falla de energía Software del servidor Hardware del servidor Servidor falto de memoria Banda ancha inadecuada
29 10 7 46 3 5
Uso de software antispam por la compañía
29
ORGANIZACIÓN DE LOS DATOS NUMÉRICOS Cuando el número de datos es grande, es conveniente organizar los datos numéricos en un arreglo ordenado o diagrama de tallo y hojas para ayudar a comprender la información. Suponga que decide llevar a cabo un estudio comparativo del costo de una comida en un restaurante de una gran ciudad con el de una comida similar en un restaurante fuera de la ciudad. La tabla 2.5 muestra los datos de 50 restaurantes citadinos y 50 fuera de la ciudad. RESTRATE Los datos no están ordenados de menor a mayor. Esta organización hace difícil obtener conclusiones sobre el precio de las comidas en las dos áreas geográficas.
TABLA 2.5 Precio por persona en 50 restaurantes citadinos y en 50 restaurantes fuera de la ciudad.
Ciudad 50 34 44 31 36
38 39 38 34 38
Fuera de la ciudad 37 37 44 27 43 31 26 51 51 30
43 49 14 48 53
56 37 44 48 23
51 40 51 30 39
36 50 27 42 45
25 50 44 26 37
33 35 39 35 31
41 22 50 32 39
44 45 35 63 53
29 24 26 26 27
38 34 34 48 38
37 44 23 39 26
38 23 41 55 28
39 30 32 24 33
29 32 30 38 38
36 25 28 31 32
38 29 33 30 25
30
CAPÍTULO 2 Presentación de datos en tablas y gráficas
Arreglo ordenado Un arreglo ordenado es una secuencia de datos ordenados del menor al mayor valor. La tabla 2.6 contiene la formación ordenada para el precio de las comidas en restaurantes citadinos y de los suburbios. RESTRATE En la tabla 2.6 se observa que el precio de una comida en los restaurantes citadinos se encuentra entre $14 y $63, y que en los restaurantes fuera de la ciudad se encuentra entre $23 y $55.
TABLA 2.6 Arreglo ordenado del precio por persona en 50 restaurantes de la ciudad y 50 restaurantes fuera de la ciudad.
Ciudad 14 33 38 43 50
22 34 38 44 50
Fuera de la ciudad 23 23 27 27 30 31 36 37 39 39
23 34 38 44 50
25 35 39 44 50
26 35 39 44 51
27 35 39 45 51
30 36 39 45 53
31 36 40 48 53
31 37 41 48 56
32 37 42 49 63
24 28 31 37 41
24 28 32 37 43
25 29 32 38 44
25 29 32 38 44
26 29 33 38 48
26 30 33 38 51
26 30 34 38 51
26 30 34 38 55
Diagrama de tallo y hojas El diagrama de tallo y hojas organiza los datos en grupos (llamados tallos), para que los valores dentro de cada grupo (las hojas) ramifiquen hacia la derecha de cada fila. El diagrama resultante permite ver cómo se distribuyen y dónde están las concentraciones de datos. Para ver cómo se elabora un diagrama de tallo y hojas suponga que 15 alumnos de su clase comen en un restaurante de comida rápida. Los siguientes datos son las cantidades que gastaron. 5.35 4.75 4.30 5.47 4.85 6.62 3.54 4.87 6.26 5.48 7.27 8.45 6.05 4.76 5.91 Para formar un diagrama de tallo y hojas se colocan los primeros valores en orden ascendente. Se utiliza la columna de las unidades como el tallo y se redondean los decimales (las hojas) a un lugar decimal. 3 5 4
83998
5
4559
6
631
7
3
8
5
El primer valor de 5.35 se redondea a 5.4. Su tallo (fila) es 5 y su hoja es 4. El segundo valor de 4.75 se redondea a 4.8. Su tallo (fila) es 4 y su hoja es 8.
EJEMPLO 2.5
DIAGRAMA DE TALLO Y HOJAS DEL RENDIMIENTO DE FONDOS DE INVERSIÓN EN 2003 En el escenario “Uso de la estadística”, se le pide estudiar el rendimiento de los fondos de inversión en 2003 MUTUALFUNDS2004. Elabore un diagrama de tallo y hojas. SOLUCIÓN A partir de la figura 2.7 se concluye que:
• • • •
El menor rendimiento en 2003 fue del 14%. El mayor rendimiento en 2003 fue del 78%. Los rendimientos en 2003 se concentraron entre el 25 y 50%. Sólo cuatro fondos de inversión dieron rendimientos por debajo del 20% y sólo dos fondos de inversión dieron rendimientos por encima del 70%.
31
2.2: Organización de los datos numéricos
FIGURA 2.7 Pantalla de tallo y hojas para los rendimientos en 2003.
PROBLEMAS PARA LA SECCIÓN 2.2 Aprendizaje básico ASISTENCIA
de PH Grade
68 94 63 75 71 88 64 2.12 Para los siguientes datos obtenidos de una ASISTENCIA de PH Grade muestra de n = 7 de las puntuaciones parciales de la materia de sistemas de información, realice un diagrama de tallo y hojas:
ASISTENCIA
de PH Grade
80 54 69 98 93 53 74 2.13 Elabore un arreglo ordenado para los siguientes datos obtenidos de una muestra de n = 7 de las puntuaciones parciales de la materia de marketing:
88 78 78 73 91 78 85 2.14 Elabore un arreglo ordenado a partir del diaASISTENCIA de PH Grade grama de tallo y hojas con la siguiente muestra de n = 7 puntuaciones parciales de la materia de sistemas de información: 5
0
6 7
446
8
19
9
2
Aplicación de conceptos 2.15 El siguiente diagrama de tallo y hojas representa la cantidad de gasolina comprada en galones (con hojas en decenas de galones) para una muestra de 25 autos que utilizan una estación de servicio en la autopista de Nueva Jersey: ASISTENCIA
de PH Grade
9
2.11 Elabore un arreglo ordenado para los siguientes datos obtenidos de una muestra de n = 7 de las puntuaciones parciales de la materia de finanzas:
147
10
02238
11
125566777
12
223489
13
02
a. Coloque los datos en un arreglo ordenado. b. ¿Cuál de los dos diagramas aporta más información? Explique su respuesta. c. ¿Cuánta gasolina (en galones) es más probable que se compre? d. ¿Existe una concentración en la compra de cantidades en el centro de distribución? ASISTENCIA 2.16 Los siguientes datos representan las cuotas en de PH Grade dólares de cheques rechazados de una muestra de 23 bancos, firmados por clientes que depositan directamente y que mantienen un saldo promedio de $100. BANKCOST1
26
28 18
20 20
20 25
21 25
22 22
25 30
25 30
18 30
25 15
15 20
20 29
Fuente: “The New Face of Banking”, Copyright © 2000 by Consumers Union of U.S., Inc., Yonkers NY 10703-1057. Adaptado con el permiso de Consumer Reports, junio de 2000.
a. Coloque los datos en un arreglo ordenado. b. Elabore un diagrama de tallo y hojas para estos datos. c. ¿Cuál de estos dos diagramas aporta más información? Explique su respuesta. d. ¿Alrededor de qué valor, si lo hay, se encuentran concentradas las cuotas para cheques rechazados? Explique su respuesta.
32
CAPÍTULO 2 Presentación de datos en tablas y gráficas
2.17 Los siguientes datos representan la cuota mensual de servicio que se cobra en dólares a un cliente si su cuenta no alcanza el saldo promedio requerido, en una muestra de clientes de 26 bancos que depositan directamente y que mantienen un saldo promedio de $1,500. ASISTENCIA
de PH Grade
BANKCOST2
12 5
8 0
5 5 6 6 10 10 10 6 9 12 0 5
9 7 10 10 8 5
7 5
7 9
Fuente: “The New Face of Banking”, Copyright © 2000 by Consumers Union of U.S., Inc., Yonkers NY 10703-1057. Adaptado con el permiso de Consumer Reports, junio de 2000.
a. Coloque los datos en un arreglo ordenado. b. Elabore un diagrama de tallo y hojas para estos datos. c. ¿Cuál de estos dos diagramas aporta más información? Explique su respuesta. d. ¿Alrededor de qué valor, si lo hay, se encuentran concentradas las cuotas de servicio? Explique su respuesta. AUTO 2.18 Los siguientes datos representan el total de graExamen sa en las hamburguesas y pollo de una muestra de cadenas de comida rápida. FASTFOOD HAMBURGUESAS 19 31 34 35 POLLO 7 9 15
16
39 16
39 18
43 22
25
27
33
39
Fuente: ”Quick Bites”, Copyright © 2001 by Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con permiso de Consumer Reports, marzo de 2001.
a. Coloque los datos para las hamburguesas y el pollo en dos arreglos ordenados. b. Elabore diagramas de tallo y hojas para las hamburguesas y el pollo. c. ¿Cuál brinda mayor información: el arreglo ordenado o el diagrama de tallo y hojas? Explique. d. Compare las hamburguesas y el pollo en términos de su contenido total de grasa. ¿A qué conclusión llega?
2.3
2.19 Los siguientes datos representan el costo promedio diario de hotel y de la renta de auto para 20 ciudades de Estados Unidos durante una semana en octubre de 2003. HOTEL-CAR Ciudad San Francisco Los Ángeles Seattle Phoenix Denver Dallas Houston Minneapolis Chicago St. Louis Nueva Orleáns Detroit Cleveland Atlanta Orlando Miami Pittsburgh Boston Nueva York Washington, D.C.
Hotel
Autos
205 179 185 210 128 145 177 117 221 159 205 128 165 180 198 158 132 283 269 204
47 41 49 38 32 48 49 41 56 41 50 32 34 46 41 40 39 67 69 40
Fuente: The Wall Street Journal, 10 de octubre, 2003, W4.
a. Coloque los datos para el costo del hotel y el costo de la renta de auto en dos arreglos ordenados. b. Elabore un diagrama de tallo y hojas para el costo del hotel y el costo de la renta de auto. c. ¿Qué aporta mayor información: el arreglo ordenado o el diagrama de tallo y hojas? Explique su respuesta. d. ¿Alrededor de qué valor, si lo hay, se concentran los costos del hotel y de la renta de auto? Explique su respuesta.
TABLAS Y GRÁFICAS PARA DATOS NUMÉRICOS Cuando tenemos un conjunto de datos muy grande, a menudo se dificulta llegar a conclusiones con base en un arreglo ordenado o en un diagrama de tallo y hojas. En tales circunstancias es necesario usar tablas y gráficas. Existen diferentes tablas y gráficas que permiten presentar visualmente los datos numéricos. Entre ellas se incluyen las distribuciones de frecuencia y de porcentaje, el histograma, el polígono y el polígono de porcentaje acumulado (ojiva).
Distribución de frecuencias La distribución de frecuencias nos ayuda a obtener conclusiones de un conjunto de datos grande. Una distribución de frecuencias es una tabla de resumen en la que los datos están organizados en clases o grupos numéricamente ordenados.
2.3: Tablas y gráficas para datos numéricos
33
Al construir una distribución de frecuencia, se debe prestar atención al seleccionar el número apropiado de agrupaciones o clases para la tabla, determinando una amplitud conveniente de las clases y estableciendo los límites de cada una para evitar el traslape. El número de clases usadas depende del número de valores. Un mayor número de valores permite un mayor número de clases. En general, la distribución de frecuencias debería tener por lo menos cinco clases, pero no más de 15. Tener muy pocas o muchas clases ofrece poca información. Cuando se elabora una distribución de frecuencias, se define cada clase con base en intervalos de clase de la misma amplitud. Para determinar la amplitud de un intervalo de clase, se divide el rango (el valor mayor menos el valor menor) de los datos entre el número de los agrupamientos o clases que se desea.
DETERMINACIÓN DE LA AMPLITUD DEL INTERVALO DE CLASE rango Amplitud del intervalo = número de clases deseado
(2.1)
Los datos de los restaurantes citadinos constituyen una muestra de 50 establecimientos. Para este tamaño de muestra es aceptable tener 10 agrupamientos o clases. En la formación ordenada de la tabla 2.6 en la página 30, el rango de los datos es $63 − $14 = $49. Mediante la ecuación (2.1), se aproxima la amplitud del intervalo de clase de la siguiente forma: 49 Amplitud del intervalo = = 4.9 10 Se debe elegir una amplitud de intervalo que simplifique la lectura e interpretación. Por tanto, en lugar de usar una amplitud de intervalo de $4.90, se debería elegir una amplitud de intervalo de $5.00. Para construir una tabla de distribución de frecuencias, se deberán establecer límites de clase claramente definidos para cada agrupamiento de clase, para que los valores estén clasificados adecuadamente. Cada valor se coloca en una y sólo una clase. Se debe evitar el traslape de clases. Puesto que se ha establecido la amplitud de cada intervalo de clase para el costo de la comida en $5, es necesario establecer los límites para los diferentes agrupamientos o clases, para que así se incluya el rango completo de valores. Siempre que sea posible, uno debería elegir tales límites para simplificar la lectura e interpretación. Así, como los costos varían de $14 a $63, para los restaurantes de la ciudad, el primer intervalo de clase va de $10 a menos de $15, el segundo va de $15 a menos de $20, y así sucesivamente, hasta que se hayan formado 11 clases. Cada clase tiene una amplitud de intervalo de $5, sin traslaparse. El centro de cada clase, el punto medio de la clase, está a la mitad del camino entre el límite inferior y el límite superior de la clase. Por tanto, el punto medio de la clase que va de $10 a por debajo de $15 es $12.5, el punto medio de la clase que va de $15 a por debajo de $20 es $17.5, etcétera. La tabla 2.7 es una distribución de frecuencias para el costo por comida de los 50 restaurantes de la ciudad y para los 50 restaurantes fuera de la ciudad.
TABLA 2.7 Distribución de frecuencias del costo por comida para 50 restaurantes de la ciudad y 50 restaurantes de los suburbios.
Costo por comida ($)
Frecuencia de la ciudad
Frecuencia de los suburbios
10 pero menos de $15 15 pero menos de $20 20 pero menos de $25 25 pero menos de $30 30 pero menos de $35 35 pero menos de $40 40 pero menos de $45 45 pero menos de $50 50 pero menos de $55 55 pero menos de $60 60 pero menos de $65 Total
1 0 2 3 7 14 8 5 8 1 1 50
0 0 4 13 13 12 4 1 2 1 0 50
34
CAPÍTULO 2 Presentación de datos en tablas y gráficas
La distribución de frecuencias permite obtener conclusiones acerca de las características principales de los datos. Por ejemplo, la tabla 2.7 muestra que el costo de las comidas en los restaurantes de la ciudad está concentrado entre los $30 y los $55, en comparación con las comidas en los restaurantes de los suburbios, los cuales están concentrados entre los $25 y los $40. Si el conjunto de datos no contiene muchos valores, un conjunto de límites de clase refleja una imagen diferente de la que da otro conjunto de límites. Por ejemplo, para los datos del costo del restaurante, usar un intervalo de clase de amplitud 4.0 en lugar de 5.0 (como el que se utilizó en la tabla 2.7), provocaría cambios en la forma en la que los valores se distribuyen entre las clases. Usted obtendrá cambios en la concentración de los datos al elegir límites de clase inferiores y superiores diferentes. Por fortuna, conforme aumenta el tamaño de la muestra, las alteraciones en la selección de los límites de clase afectan cada vez menos la concentración de los datos.
EJEMPLO 2.6
DISTRIBUCIÓN DE FRECUENCIAS DE LOS RENDIMIENTOS EN 2003 DE LOS FONDOS DE INVERSIÓN DE CRECIMIENTO Y DE VALOR En el escenario de “Uso de la estadística” se le pide comparar el rendimiento en 2003 de los fondos de inversión de crecimiento y de valor. MUTUALFUNDS2004 Construya una distribución de frecuencias para los fondos de crecimiento y para los fondos de valor. SOLUCIÓN El porcentaje de rendimientos en 2003 de los fondos de crecimiento está concentrado significativamente entre el 30 y el 50, con una ligera concentración entre el 20 y el 30 (vea la tabla 2.8). El porcentaje de rendimientos en 2003 de los fondos de valor está concentrado entre el 30 y el 50, con algunos entre 20 y 30 y entre 50 y 70. No debe comparar directamente las frecuencias de los fondos de crecimiento y los fondos de valor puesto que en la muestra hay 49 fondos de crecimiento y 72 fondos de valor.
TABLA 2.8 Distribución de frecuencias del rendimiento en 2003 de los fondos de inversión de crecimiento y de valor.
Porcentaje de rendimiento 2003 10 pero menos que 20 20 pero menos que 30 30 pero menos que 40 40 pero menos que 50 50 pero menos que 60 60 pero menos que 70 70 pero menos que 80 Total
Frecuencia de crecimiento
Frecuencia de valor
2 9 13 15 5 5 0 49
2 9 20 20 10 9 2 72
Distribución de frecuencias relativas y distribución de porcentajes Como generalmente deseamos saber la proporción o el porcentaje del total en cada grupo, es preferible usar la distribución de frecuencias relativa o la distribución de porcentajes. Cuando comparamos dos o más grupos que difieren en el tamaño de su muestra, se debe usar una distribución de frecuencias relativa o una distribución de porcentaje. Se crea una distribución de frecuencias relativa al dividir las frecuencias de cada clase de la distribución de frecuencias (vea la tabla 2.7 en la página 33) por el número total de valores. Se crea una distribución de porcentajes al multiplicar cada frecuencia relativa por 100%. Así, la frecuencia relativa de las comidas en los restaurantes de la ciudad que cuestan entre $30 y $35 es 7 dividido por 50 o 0.14, y el porcentaje es del 14%. La tabla 2.9 presenta la distribución de frecuencias relativa y la distribución de porcentajes del costo de las comidas en restaurantes de la ciudad y de los suburbios. A partir de la tabla 2.9, se concluye que las comidas cuestan más en los restaurantes de la ciudad que en los de los suburbios: el 16% de las comidas en los restaurantes de la ciudad cuestan entre $50 y $55, en comparación con el 4% de los restaurantes de los suburbios; mientras que sólo el 6% de las comidas en los restaurantes de la ciudad cuestan entre $25 y $30 en comparación con el 26% de los restaurantes de los suburbios.
2.3: Tablas y gráficas para datos numéricos
TABLA 2.9 Distribución de frecuencias relativa y distribución de porcentajes del costo de las comidas en restaurantes de la ciudad y de los suburbios.
EJEMPLO 2.7
Ciudad
Suburbios
Costo por comida ($) Frecuencia relativa Porcentaje 10 pero menos que $15 15 pero menos que $20 20 pero menos que $25 25 pero menos que $30 30 pero menos que $35 35 pero menos que $40 40 pero menos que $45 45 pero menos que $50 50 pero menos que $55 55 pero menos que $60 60 pero menos que $65 Total
0.02 0.00 0.04 0.06 0.14 0.28 0.16 0.10 0.16 0.02 0.02 1.00
35
2.0 0.0 4.0 6.0 14.0 28.0 16.0 10.0 16.0 2.0 2.0 100.0
Frecuencia relativa Porcentaje 0.00 0.00 0.08 0.26 0.26 0.24 0.08 0.02 0.04 0.02 0.00 1.00
0.0 0.0 8.0 26.0 26.0 24.0 8.0 2.0 4.0 2.0 0.0 100.0
DISTRIBUCIÓN DE FRECUENCIAS RELATIVA Y DISTRIBUCIÓN DE PORCENTAJES DEL RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN DE CRECIMIENTO Y DE VALOR En el escenario de “Uso de la estadística”, se le pide que compare el rendimiento en 2003 de los fondos de inversión de crecimiento y de valor. MUTUALFUNDS2004 Construya una distribución de frecuencias relativa y una distribución de porcentajes para los fondos de crecimiento y para los fondos de valor. SOLUCIÓN Se concluye (vea la tabla 2.10) que el rendimiento en 2003 de los fondos de crecimiento es ligeramente inferior a la de los fondos de valor y que el 18.37% de los fondos de crecimiento tienen rendimientos entre 20 y 30 en comparación con el 12.5% de los fondos de valores. Los fondos de valor tienen rendimientos ligeramente mayores (entre 50 y 60, y entre 60 y 70) que los fondos de crecimiento.
TABLA 2.10 Distribución de frecuencias relativa y distribución de porcentajes del rendimiento en 2003 de los fondos de inversión de crecimiento y de valor.
Porcentaje anual de rendimiento en 2003 10 pero menos que 20 20 pero menos que 30 30 pero menos que 40 40 pero menos que 50 50 pero menos que 60 60 pero menos que 70 70 pero menos que 80 Total
Crecimiento Proporción 0.0408 0.1837 0.2653 0.3061 0.1020 0.1020 0.0000 1.0000
Valor
Porcentaje
Proporción
Porcentaje
4.08 18.37 26.53 30.61 10.20 10.20 0.00 100.0
0.0278 0.1250 0.2778 0.2778 0.1389 0.1250 0.0278 1.0000
2.78 12.50 27.78 27.78 13.89 12.50 2.78 100.0
Distribución acumulativa La distribución de porcentaje acumulado constituye una manera de presentar la información del porcentaje de los valores que están por debajo de cierto valor. Por ejemplo, tal vez se desea conocer qué porcentaje de las comidas de los restaurantes de la ciudad cuestan menos que $20, menos que $30, menos que $50, etcétera. La distribución de porcentaje se usa para formar una distribución de porcentaje acumulado. A partir de la tabla 2.12, se sabe que el 0.00% de las comidas cuestan menos de $10, el 2% cuesta menos de $15, el 2% también cuesta menos de $20 (porque ninguna de las comidas cuestan entre $15 y $20), el 6% (2 + 4%) cuesta menos de $25, y así sucesivamente, hasta que el 100% de comidas cuestan menos de $65. La tabla 2.11 ilustra cómo desarrollar la distribución de porcentaje acumulado para el costo de las comidas en restaurantes de la ciudad.
36
CAPÍTULO 2 Presentación de datos en tablas y gráficas
TABLA 2.11 Desarrollo de la distribución de porcentaje acumulado del costo de las comidas en los restaurantes de la ciudad.
Costo por comida ($)
Porcentaje
10 pero menos de $15 15 pero menos de $20 20 pero menos de $25 25 pero menos de $30 30 pero menos de $35 35 pero menos de $40 40 pero menos de $45 45 pero menos de $50 50 pero menos de $55 55 pero menos de $60 60 pero menos de $65 $65 pero menos de $70
2 0 4 6 14 28 16 10 16 2 2 0
Porcentaje de fondos por debajo del límite inferior del intervalo de clase 0 2 2=2+0 6=2+0+4 12 = 2 + 0 + 4 + 6 26 = 2 + 0 + 4 + 6 + 14 54 = 2 + 0 + 4 + 6 + 14 + 28 70 = 2 + 0 + 4 + 6 + 14 + 28 + 16 80 = 2 + 0 + 4 + 6 + 14 + 28 + 16 + 10 96 = 2 + 0 + 4 + 6 + 14 + 28 + 16 + 10 + 16 98 = 2 + 0 + 4 + 6 + 14 + 28 + 16 + 10 + 16 + 2 100 = 2 + 0 + 4 + 6 + 14 + 28 + 16 + 10 + 16 + 2 + 2
La tabla 2.12 resume los porcentajes acumulados del costo de las comidas en restaurantes de la ciudad y de los suburbios. La distribución acumulativa muestra claramente que los costos de la comida son inferiores en los restaurantes de los suburbios que en los de la ciudad: en el 34% de los restaurantes de los suburbios cuesta menos de $30, en comparación con sólo el 12% de los restaurantes de la ciudad; en el 60% de los restaurantes de los suburbios cuesta menos de $35 en comparación con sólo el 26% de los restaurantes de la ciudad; en el 84% de los restaurantes de los suburbios cuesta menos de $40 en comparación con sólo el 54% de los restaurantes de la ciudad.
TABLA 2.12 Distribución de porcentajes acumulados del costo de las comidas en restaurantes de la ciudad y de los suburbios.
EJEMPLO 2.8
Costo ($)
Porcentaje de restaurantes de la ciudad con valor menor al indicado
Porcentaje de restaurantes de los suburbios con valor menor al indicado
10 15 20 25 30 35 40 45 50 55 60 65
0 2 2 6 12 26 54 70 80 96 98 100
0 0 0 8 34 60 84 92 94 98 100 100
DISTRIBUCIÓN DE PORCENTAJE ACUMULADO DEL RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN DE CRECIMIENTO Y DE VALOR En el escenario “Uso de la estadística”, se le pide comparar el rendimiento anual en 2003 de los fondos de inversión de crecimiento y de valor. MUTUALFUNDS2004 Construya una distribución de porcentaje acumulado para los fondos de crecimiento y para los fondos de valor. SOLUCIÓN La distribución acumulativa de la tabla 2.13 indica que los fondos de crecimiento tienen un rendimiento ligeramente mayor que los fondos de valor: el 22.45% de los fondos de crecimiento tienen rendimientos por debajo de 30 en comparación con el 15.28% de los fondos de valor; el 48.98% de los fondos de crecimiento tienen rendimientos por debajo de 40 en comparación con el 43.06% de los fondos de valor; el 79.59% de los fondos de crecimiento tienen rendimientos por debajo de 50 en comparación con el 70.83% de los fondos de valor.
2.3: Tablas y gráficas para datos numéricos
TABLA 2.13 Distribuciones de porcentaje acumulado del rendimiento en 2003 de los fondos de crecimiento y de valor.
Rendimiento anual 10 20 30 40 50 60 70 80
Porcentaje menor del valor indicado del fondo de crecimiento
Porcentaje menor del valor indicado del fondo de valor
0.00 4.08 22.45 48.98 79.59 89.80 100.00 100.00
0.00 2.78 15.28 43.06 70.83 84.72 97.22 100.00
37
Histograma El histograma es una gráfica de barras para datos numéricos agrupados en los que las frecuencias o los porcentajes de cada grupo de datos numéricos están representados por barras individuales. En un histograma, no hay brechas entre las barras adyacentes como en la gráfica de barras de los datos categóricos. La variable que nos interesa se coloca a lo largo del eje (X) horizontal. El eje (Y) vertical representa la frecuencia o el porcentaje de los valores por intervalo de clase. La figura 2.8 muestra un histograma de frecuencia Minitab para el costo de las comidas en los restaurantes de la ciudad. El histograma indica que el costo de las comidas en los restaurantes de la ciudad se concentra entre aproximadamente $30 y $55. Muy pocas comidas cuestan menos de $20 o más de $55.
FIGURA 2.8 Histograma Minitab para el costo de las comidas en restaurantes de la ciudad.
EJEMPLO 2.9
HISTOGRAMA PARA EL RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN DE CRECIMIENTO Y DE VALOR En el escenario “Uso de la estadística” le interesa comparar el rendimiento en 2003 de los fondos de inversión de crecimiento y de valor. MUTUALFUNDS2004 Construya histogramas para los fondos de crecimiento y para los fondos de valor. SOLUCIÓN La figura 2.9 muestra que la distribución de los fondos de crecimiento tiene rendimientos menores en comparación con los fondos de valor, los cuales tienen mayores rendimientos.
38
CAPÍTULO 2 Presentación de datos en tablas y gráficas
FIGURA 2.9A Histograma del porcentaje del rendimiento 2003 (Panel A —Fondos de crecimiento y Panel B —Fondos de valor).
FIGURA 2.9B
Polígono Es difícil y confuso realizar múltiples histogramas en la misma gráfica cuando comparamos dos o más conjuntos de datos. Al sobreponer las barras verticales de un histograma en otro se dificulta la interpretación. Cuando hay dos o más grupos, es conveniente utilizar un polígono de porcentaje.
2.3: Tablas y gráficas para datos numéricos
39
POLÍGONO DE PORCENTAJE El polígono de porcentaje se crea al hacer que el punto medio de cada clase represente los datos de esa clase y después se conecta la secuencia de puntos medios con sus respectivos porcentajes de clase. La figura 2.10 muestra los polígonos de porcentaje para el costo de los alimentos en los restaurantes de la ciudad y de los suburbios. El polígono para los restaurantes de los suburbios está concentrado a la izquierda (correspondiente al costo menor) del polígono para los restaurantes de la ciudad. Los porcentajes de los costos más altos para los restaurantes de los suburbios corresponden a los puntos medios de clase de $27.50 y $32.50, mientras que los porcentajes de costo mayores para los restaurantes de la ciudad corresponden a los puntos medios de clase de $37.50.
FIGURA 2.10 Polígonos de porcentaje del costo de las comidas para los restaurantes de la ciudad y de los suburbios.
Los polígonos de la figura 2.10 tienen puntos cuyos valores en el eje X representan el punto medio del intervalo de clase. Por ejemplo, observe los puntos trazados en el eje X en 22.5 ($22.50). El punto para los restaurantes de los suburbios (el más alto) representa el hecho de que el 8% de estos restaurantes tienen costos por comida que van de los $20 a los $25. El punto para los restaurantes de la ciudad (el más bajo) representa el hecho de que el 4% de estos restaurantes tienen costos de comida entre $20 y $25. Cuando elabore polígonos o histogramas, el eje vertical (Y) debe mostrar el verdadero cero u “origen”, para no distorsionar el carácter de los datos. El eje horizontal (X) no necesita especificar el punto cero para la variable de interés, aunque el rango de la variable debe constituir la mayor porción del eje.
EJEMPLO 2.10
POLÍGONO DE PORCENTAJES PARA EL RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN DE CRECIMIENTO Y DE VALOR En el escenario de “Uso de la estadística”, se le pide que compare el rendimiento en 2003 de los fondos de inversión de crecimiento y de valor. MUTUALFUNDS2004 Construya polígonos de porcentaje para los fondos de crecimiento y para los fondos de valor. SOLUCIÓN La figura 2.11 muestra que la distribución de los fondos de crecimiento tiene un rendimiento anual menor en comparación con los fondos de valor, los cuales tienen mayores rendimientos.
40
CAPÍTULO 2 Presentación de datos en tablas y gráficas
FIGURA 2.11 Polígonos de porcentaje para el rendimiento en 2003.
Polígono de porcentaje acumulado (ojiva) El polígono de porcentaje acumulado, u ojiva, muestra la variable de interés a lo largo del eje X, y los porcentajes acumulados a lo largo del eje Y. La figura 2.12 ilustra los polígonos de porcentaje acumulado de Excel del costo de las comidas en los restaurantes de la ciudad y de los suburbios. La mayor parte de la curva correspondiente a los restaurantes de la ciudad está localizada a la derecha de la curva correspondiente a los restaurantes
FIGURA 2.12 Polígonos de porcentaje acumulado del costo de las comidas en restaurantes de la ciudad y de los suburbios.
2.3: Tablas y gráficas para datos numéricos
41
de los suburbios. Esto indica que los restaurantes de la ciudad tienen menos comidas que cuestan por debajo de un valor en particular. Por ejemplo, el 12% de las comidas de los restaurantes de la ciudad cuestan menos de $30 en comparación con el 34% de las comidas de los restaurantes de los suburbios.
EJEMPLO 2.11
POLÍGONOS DE PORCENTAJE ACUMULADO DE LOS RENDIMIENTOS EN 2003 DE LOS FONDOS DE INVERSIÓN DE CRECIMIENTO Y DE VALOR En el escenario “Uso de la estadística”, se le pide que compare el rendimiento de los fondos de inversión de crecimiento y de valor. MUTUALFUNDS2004 Elabore polígonos de porcentaje acumulado para los fondos de crecimiento y para los fondos de valor. SOLUCIÓN La figura 2.13 ilustra los polígonos de porcentaje acumulado en Excel del porcentaje de rendimiento en 2003 de los fondos de crecimiento y de valor. La curva para los fondos de valor se localiza ligeramente a la derecha de la curva para los fondos de crecimiento. Esto indica que los fondos de valor tienen menos rendimientos por debajo de un valor específico. Por ejemplo, el 70.83% de los fondos de valor tienen rendimientos menores de 50 en comparación con el 79.59% de los fondos de crecimiento.
FIGURA 2.13 Polígonos de porcentaje acumulado para el porcentaje de rendimiento en 2003.
PROBLEMAS PARA LA SECCIÓN 2.3 Aprendizaje básico 2.20 Los valores para un conjunto de datos varían de 11.6 a 97.8. a. Si estos valores se agrupan en clases, indique los límites de clase. b. ¿Qué amplitud de intervalo de clase eligió? c. ¿Cuáles son los puntos medios de cada clase? ASISTENCIA
de PH Grade
2.21 Al realizar una ojiva (es decir, un polígono de porcentaje acumulado) relacionado con las puntuaciones del GMAT (siglas para Graduate Management Admission Test) de una muestra de 50 solicitantes para un programa de maestría en administración, los datos previos indicaron que ninguno de los solicitantes obtuvo puntuaciones por debajo de 450. La distribución de la frecuencia se formó eligiendo intervalos de clase 450 a 499, 500 a 549 y así sucesivaASISTENCIA
de PH Grade
42
CAPÍTULO 2 Presentación de datos en tablas y gráficas
−0.002
−0.0005
−0.0025
0.0025
−0.002
0
0
−0.001
0.001
0
0.001
−0.0025
0.0035
0.0005
−0.0005
−0.0025
−0.003
0
0
−0.001
−0.003
−0.001
−0.003
0.002
0
0.001
0.002
−0.002
−0.0005
−0.002
Puede resolver manualmente los problemas 2.22 a 2.27 o usando Excel, Minitab o SPSS.
−0.0005
−0.001
−0.001
0.0005
0
2.22 Los datos mostrados a continuación represende PH Grade tan el costo de la energía eléctrica durante julio de 2004 para una muestra aleatoria de 50 departamentos de una habitación en una gran ciudad. UTILITY
0
0
−0.0015
0.0005
0
−0.003
0.003
−0.0015
0
0.002
−0.001
0.0015
−0.002
−0.0005
−0.003
Datos brutos de los cargos de utilidades ($)
0.0005
0
0.001
0.002
−0.0005
82
0.0025
0
−0.0025
0.001
−0.002
90 116 172 111 148 213 130 165
−0.0025
−0.0025
−0.0005
−0.0015
−0.002
mente, hasta que la última clase fue 700 a 749. Si dos solicitantes obtuvieron puntuaciones en el intervalo 450 a 499, y 16 solicitantes obtuvieron puntuaciones en el intervalo 500 a 549: a. ¿Qué porcentaje de solicitantes calificó por debajo de 500? b. ¿Qué porcentaje de solicitantes calificó entre 500 y 549? c. ¿Qué porcentaje de solicitantes calificó por debajo de 550? d. ¿Qué porcentaje de solicitantes calificó por debajo de 750?
Aplicación de conceptos
ASISTENCIA
96 171 202 178 147 102 153 197 127 157 185
141 149 206 175 123 128 144 168 109 167
a. Realice una distribución de frecuencias y una distribución
95 163 150 154 130 143 187 166 139 149
b. Trace un histograma y un polígono de porcentaje. c. Trace un polígono de porcentaje acumulado. d. ¿El molino realiza un buen trabajo, de acuerdo con los re-
108 119 183 151 114 135 191 137 129 158
a. Forme una distribución de frecuencia y una distribución de
porcentajes que tenga intervalos de clase con los límites superiores de clase $99, $119, y así sucesivamente. b. Trace un histograma y un polígono de porcentaje. c. Elabore una distribución de porcentaje acumulado y trace una ojiva (polígono de porcentaje acumulado). d. ¿Alrededor de cuál cantidad parece concentrarse el costo mensual de la energía eléctrica? 2.23 Una de las operaciones que realiza un molino consiste en cortar piezas de acero en partes que posteriormente serán usadas como marco para los asientos delanteros de un automóvil. El acero se corta con una sierra con punta de diamante y se requiere que las partes resultantes midan 0.005 pulgadas de longitud, según las especificaciones de la empresa automovilística. La siguiente tabla proviene de una muestra de 100 partes de acero. La medida reportada es la diferencia en pulgadas entre la longitud real de la parte de acero, medida con un dispositivo láser y la longitud especificada de la parte de acero. Por ejemplo, el primer valor, −0.002, representa una parte de acero que es 0.002 pulgadas más corta que la longitud especificada. STEEL AUTO Examen
de porcentaje.
querimientos de la empresa automovilística? Explique su respuesta.
2.24 Una compañía productora fabrica bastidores de acero para equipos eléctricos. El componente principal de los bastidores es un canalón de acero enrollado de calibre 14. Éste se produce con una prensa cuyo poder de golpeo progresivo es de 250 toneladas, con una operación de limpieza hacia abajo que pone dos formas de 90 grados en el acero aplanado para hacer el canalón. La distancia de un lado de la forma al otro es importante por la resistencia a exteriores. La compañía requiere que la amplitud del canalón esté entre 8.31 y 8.61 pulgadas. Los siguientes datos son las longitudes de los canalones en pulgadas para una muestra de n = 49. TROUGH 8.312 8.343 8.317 8.383 8.348 8.410 8.351 8.373 8.481 8.422 8.476 8.382 8.484 8.403 8.414 8.419 8.385 8.465 8.498 8.447 8.436 8.413 8.489 8.414 8.481 8.415 8.479 8.429 8.458 8.462 8.460 8.444 8.429 8.460 8.412 8.420 8.410 8.405 8.323 8.420
−0.002
0.002
0.0005
−0.0015
−0.001
8.396 8.447 8.405 8.439 8.411 8.427 8.420 8.498
0.0005
0.001
0.001
−0.0005
−0.001
8.409
0.0025
0.001
0.0005
−0.0015
0.0005
a. Realice una distribución de frecuencia y una distribución de
0.001
0.001
0.001
−0.0005
−0.0025
0.002
−0.002
0.0025
−0.0005
0.0025
0.001
−0.003
0.001
−0.001
0.002
0.005
−0.0015
0
−0.0015
0.0025
porcentajes.
b. Trace un histograma y un polígono de porcentajes. c. Trace un polígono de porcentajes acumulados. d. ¿Qué puede concluir acerca del número de canalones que satisfarán los requerimientos de la compañía, es decir, que tengan una longitud entre 8.31 y 8.61 pulgadas?
2.4: Tablas y gráficas de datos bivariados
2.25 La compañía productora del problema 2.24 también fabrica aislantes eléctricos. Si éstos se descomponen cuando están en uso, es probable que ocurra un corto circuito. Para probarlos, se efectúa una prueba destructiva en laboratorios de alta potencia, que determinarán cuánta fuerza se requiere para descomponer los aislantes. La fuerza se mide observando cuántas libras deben aplicarse al aislante antes de que se descomponga. La fuerza de 30 aislantes probados se muestra a continuación. FORCE
1,870 1,728 1,656 1,610 1,634 1,784 1,522 1,696 1,592 1,662 1,866 1,764 1,734 1,662 1,734 1,774 1,550 1,756 1,762 1,866 1,820 1,744 1,788 1,688 1,810 1,752 1,680 1,810 1,652 1,736 a. Construya una distribución de frecuencias y una distribución de porcentajes. b. Trace un histograma y un polígono de porcentajes. c. Trace un polígono de porcentaje acumulado. d. ¿Qué puede concluir respecto de la fuerza de los aislantes, si la compañía requiere una medida de fuerza de por lo menos 1,500 libras antes de descomponerse? 2.26 Los arreglos ordenados de la tabla corresponden a la vida útil (en horas) de una muestra de 40 bulbos de 100 watts producidos por el fabricante A y la muestra B a 40 bulbos de 100 watts producidos por otro fabricante. BULBS Fabricante A
43
a. Realice una distribución de frecuencias y una distribución de porcentajes para cada fabricante usando el siguiente intervalo de clase para cada distribución: (1) Fabricante A: 650 pero menos de 750, 750 pero menos de 850, y así sucesivamente. (2) Fabricante B: 750 pero menos de 850, 850 pero menos de 950, y así sucesivamente. b. Trace los histogramas de porcentaje en gráficas separadas y trace los polígonos de porcentaje en una gráfica. c. Elabore las distribuciones de porcentaje acumulado y trace las ojivas en una gráfica. d. ¿Qué fabricante produce los bulbos con mayor vida: el fabricante A o el fabricante B? Explique su respuesta. 2.27 Los siguientes datos representan la cantidad de bebida gaseosa en una muestra de 50 botellas de 2 litros. DRINK 2.109 2.086 2.066 2.075 2.065 2.057 2.052 2.044 2.036 2.038 2.031 2.029 2.025 2.029 2.023 2.020 2.015 2.014 2.013 2.014 2.012 2.012 2.012 2.010 2.005 2.003 1.999 1.996 1.997 1.992 1.994 1.986 1.984 1.981 1.973 1.975 1.971 1.969 1.966 1.967 1.963 1.957 1.951 1.951 1.947 1.941 1.941 1.938 1.908 1.894
Fabricante B
684
697
720
773
821
819
836
888
897
903
831
835
848
852
852
907
912
918
942
943
859
860
868
870
876
952
959
962
986
992
893
899
905
909
911
994 1,004 1,005 1,007 1,015
922
924
926
926
938 1,016 1,018 1,020 1,022 1,034
939
943
946
954
971 1,038 1,072 1,077 1,077 1,082
972
977
984 1,005 1,014 1,096 1,100 1,113 1,113 1,116
a. Construya una distribución de frecuencias y una distribución de porcentajes. b. Trace un histograma y un polígono de porcentajes. c. Realice una distribución de porcentaje acumulado y trace un polígono de porcentaje acumulado. d. Con base en los resultados de a) a c), ¿la cantidad de bebida gaseosa con que se llenan las botellas se concentra alrededor de valores específicos?
1,016 1,041 1,052 1,080 1,093 1,153 1,154 1,174 1,188 1,230
2.4
TABLAS Y GRÁFICAS DE DATOS BIVARIADOS En negocios es común el estudio de patrones que pueden existir entre dos o más variables categóricas.
Tabla de contingencia Una tabla de clasificación (o contingencia) cruzada presenta los resultados de dos variables categóricas. Las respuestas en conjunto se clasifican de tal manera que las categorías de una variable se localizan en las filas, y las categorías de la otra variable se localizan en las columnas. Los valores localizados en las intersecciones de las filas y las columnas se llaman celdas. La tabla se construye dependiendo del tipo de contingencia, las celdas para cada combinación de fila-columna contienen la frecuencia, el porcentaje del total global, el porcentaje del total de las filas o el porcentaje total de las columnas. Suponga que en el escenario de “Uso de la estadística” se quiere examinar si hay o no un patrón o relación entre el nivel de riesgo y el objetivo del fondo de inversión (crecimiento contra valor). La tabla 2.14 resume esta información para los 121 fondos de inversión.
44
CAPÍTULO 2 Presentación de datos en tablas y gráficas
TABLA 2.14 Tabla de contingencia que muestra el fondo objetivo y el fondo de riesgo.
NIVEL DE RIESGO OBJETIVO
Alto
Promedio
Bajo
Total
Crecimiento Valor Total
14 3 17
23 23 46
12 46 58
49 72 121
Se elaboró esta tabla de contingencia etiquetando las respuestas en conjunto para cada uno de los 121 fondos de inversión con respecto al objetivo y al riesgo en una de las seis posibles celdas en la tabla. Así, el primer fondo en la lista (AFBA Five Star USA Global Institutional) está clasificado como fondo de crecimiento con riesgo promedio. Por tanto, registre la respuesta conjunta dentro de la celda que forma la intersección de la primera fila y la segunda columna. Las 120 respuestas conjuntas restantes se registran de forma similar. Cada celda contiene la frecuencia para la combinación fila-columna. Para explorar cualquier posible patrón o relación entre fondos objetivos y de riesgo, es conveniente realizar tablas de contingencia basadas en porcentajes. Primero convierta en porcentajes estos resultados con base en los siguientes tres totales:
1. El total global (es decir, los 121 fondos de inversión). 2. El total de las filas (es decir, 49 fondos de crecimiento y 72 fondos de valores). 3. El total de las columnas (es decir, los tres niveles de riesgo). Las tablas 2.15, 2.16 y 2.17 resumen estos porcentajes.
TABLA 2.15 Tabla de contingencia que muestra el fondo objetivo y el fondo de riesgo con base en el porcentaje del total global. TABLA 2.16 Tabla de contingencia que muestra el fondo objetivo y el fondo de riesgo con base en el porcentaje del total de las filas. TABLA 2.17 Tabla de contingencia que muestra el fondo objetivo y el fondo de riesgo con base en el porcentaje del total de las columnas.
NIVEL DE RIESGO OBJETIVO
Alto
Promedio
Bajo
Total
Crecimiento Valor Total
11.57 2.48 14.05
19.01 19.01 38.02
9.92 38.02 47.93
40.50 59.50 100.00
NIVEL DE RIESGO OBJETIVO
Alto
Promedio
Bajo
Total
Crecimiento Valor Total
28.57 4.17 14.05
46.94 31.94 38.02
24.49 63.89 47.93
100.00 100.00 100.00
NIVEL DE RIESGO OBJETIVO
Alto
Promedio
Bajo
Total
Crecimiento Valor Total
82.35 17.65 100.00
50.00 50.00 100.00
20.69 79.31 100.00
40.50 59.50 100.00
La tabla 2.15 muestra que el 14.05% de los fondos de inversión de la muestra son de alto riesgo, el 40.5% son fondos de crecimiento y el 11.57% son fondos de crecimiento de alto riesgo. La tabla 2.16 muestra que el 28.57% de los fondos de crecimiento son de alto riesgo y el 24.49% son de bajo riesgo. La tabla 2.17 muestra que el 82.35% de los fondos de alto riesgo y sólo el 20.69% de los fondos de bajo riesgo son fondos de crecimiento. Las tablas revelan que los fondos de crecimiento tienen mayor probabilidad de ser de alto riesgo, mientras que los fondos de valor tienen mayor probabilidad de ser de bajo riesgo.
2.4: Tablas y gráficas de datos bivariados
45
Gráfica de barras agrupadas Una forma útil de mostrar los resultados de datos de clasificación cruzada es realizar una gráfica de barras agrupadas. La figura 2.14, que utiliza datos de la tabla 2.14, es una gráfica de barras agrupadas de Excel que compara los tres niveles de riesgo de los fondos, con base en su objetivo. Al examinar la figura 2.14, se revelan resultados congruentes con aquellos de las tablas 2.15, 2.16 y 2.17. Los fondos de crecimiento tienen mayor probabilidad de ser de alto riesgo, mientras que los fondos de valor tienen mayor probabilidad de ser de bajo riesgo.
FIGURA 2.14 Gráfica de barras agrupadas de Excel para el objetivo y riesgo de los fondos.
PROBLEMAS PARA LA SECCIÓN 2.4 Aprendizaje básico 2.28 Los siguientes datos representan las respuestas a dos preguntas de una encuesta a 40 alumnos que estudian la especialidad en negocios: ¿Cuál es tu género? (Masculino = M; Femenino = F) y ¿Cuál es tu especialidad? Contaduría = A; Sistemas computacionales de la información = C; Marketing = M): ASISTENCIA
de PH Grade
Género: M M M F M F F M F M F M M M M F F M F F Especialidad: A C C M A C A A C C A A A M C M A A A C Género: M M M M F M F F M M F M M M M F M F M M Especialidad: C C A A M M C A A A C C A A A A C C A C
a. Registre los datos en una tabla de contingencia, donde las dos filas representen la categoría de género y las tres columnas representen la categoría de la especialidad académica. b. Elabore tablas de contingencia a partir de los porcentajes de las respuestas de los 40 estudiantes, con base en los porcentajes de las filas y en los porcentajes de las columnas.
c. Usando los resultados del inciso a), construya una gráfica de barras agrupadas de género basada en la especialidad del estudiante. ASISTENCIA 2.29 A partir de la siguiente tabla de contingencia, de PH Grade elabore una gráfica de barras agrupadas, comparando A y B para cada una de las categorías de tres columnas en el eje vertical.
A B
1
2
3
Total
20 80
40 80
40 40
100 200
Aplicando los conceptos 2.30 Los resultados de un estudio realizado como parte de un esfuerzo por mejorar la producción en una fábrica de semiconductores presentan datos de defectos en una muestra de 450 placas de silicio. La siguiente tabla presenta un resumen de las respuesASISTENCIA
de PH Grade
AUTO Examen
46
CAPÍTULO 2 Presentación de datos en tablas y gráficas
tas a dos preguntas: ¿Se encontró una partícula en el troquel que produjo la placa de silicio? y ¿La placa resultó buena o mala? CONDICIÓN DEL TROQUEL CALIDAD DE LA PLACA Sin partículas Partículas Buena 320 14 Mala 80 36 Totales 400 50
Totales 334 116 450
Fuente: S.W. Hall, Analysis of Defectivity of Semiconductor Wafers by Contingency Table, Proceedings Institute of Environmental Sciences. Vol.1 (1994), 177-183.
a. Construya tablas de contingencia basadas en el total de porcentajes, porcentajes de fila y porcentajes de columna. b. Elabore una gráfica de barras agrupadas de la calidad de las placas de silicio basada en la condición del troquel. c. ¿A qué conclusiones llega a partir de esos análisis? ASISTENCIA 2.31 En un gran hospital cada día se realizan varios de PH Grade cientos de pruebas de laboratorio. La tasa de pruebas realizadas de forma impropia (y que deben practicarse de nuevo) al parecer es constante y cercana al 4%. En un esfuerzo por llegar a la raíz del problema (pruebas que requieren volver a hacerse), el director del laboratorio decide guardar los registros de una semana. Las pruebas de laboratorio se dividieron entre el turno de empleados que realizan las pruebas de laboratorio. Los resultados son los siguientes: PRUEBAS DE LABORATORIO REALIZADAS Insastifactorias Sastifactorias Total
Día 16 654 670
TURNO Tarde 24 306 330
Total 40 960 1,000
a. Elabore tablas de contingencia basadas en los porcentajes totales, los porcentajes de filas y los porcentajes de columnas. b. ¿Qué tipo de porcentaje (de fila, de columna o total) considera que es el más informativo para estos datos? Explique su respuesta. c. ¿A qué conclusiones llegará el director del laboratorio, respecto al patrón de pruebas de laboratorio insatisfactorias? 2.32 Se seleccionó una muestra de 500 compradores en una amplia área metropolitana, para determinar información variada con relación al comportamiento del consumidor. Entre las preguntas que se hicieron estaba “¿Disfruta comprando ropa?” Los resultados se resumen en la siguiente tabla de contingencia: DISFRUTA COMPRANDO ROPA Sí No Total
GÉNERO Masculino Femenino 136 104 240
224 36 260
Total 360 140 500
a. Elabore tablas de contingencia basadas en los porcentajes totales, los porcentajes de fila y los porcentajes de columna. b. Construya una gráfica de barras agrupadas en Disfruta comprando ropa basada en el género.
c. ¿A qué conclusiones llega a partir de estos análisis? 2.33 Las ventas al detalle en Estados Unidos para abril de 2002, fueron ligeramente superiores a las de abril de 2001. Todas las tiendas de descuento, como Wal Mart, Costco, Target y Dollar General, incrementaron sus ventas en un 9% o más. Sin embargo, las ventas al detalle en la industria de la ropa fueron mixtas. La siguiente tabla presenta el total de las ventas al detalle en millones de dólares para las compañías de ropa líderes durante abril de 2001 y abril de 2002. VENTAS TOTALES EN MILLONES DE DÓLARES Abril 01 Abril 02
COMPAÑÍA DE ROPA Gap
1,159.0 781.7 596.5 544.9 402.6 139.9 114.2
TJX
Limited Kohl’s Nordstrom Talbots AnnTaylor
962.0 899.0 620.4 678.9 418.3 130.1 124.8
Fuente: Ann Zimmerman, “Retail Sales Grow Modestly”, The Wall Street Journal, 10 de mayo, 2002, B4.
a. Realice una tabla de los porcentajes de columnas. b. Elabore una gráfica de barras agrupadas para visualizar lo relevante de la información recabada en el inciso a). c. Analice los cambios de las compras al detalle para la industria de la ropa entre abril de 2001 y abril de 2002. 2.34 Con el fin de estimular las ventas de 2003, los fabricantes de autos ofrecieron grandes incentivos, en forma de rebajas en efectivo para los compradores de autos nuevos. Por ejemplo, los compradores de autos de marca Lincoln recibieron un promedio de rebajas de $4,086. A pesar de tales rebajas, los fabricantes estadounidenses de autos perdieron una parte del mercado global en favor de la competencia internacional. MARCA Buick Chevrolet Chrysler Ford Lincoln
REBAJAS DE EFECTIVO (EN DÓLARES) 2001 2003 1,939 1,654 1,835 1,334 2,449
3,655 3,231 2,832 2,752 4,086
Fuente: K. Lundegaard y S. Freeman, “Detroit’s Challenge: Weaning Buyers from Years of Deals”, The Wall Street Journal, 6 de enero, 2004, A1.
a. Elabore una gráfica de barras agrupadas para las cinco marcas. b. Analice los cambios en el tamaño de las rebajas en efectivo de 2001 a 2003. 2.35 La venta de autos en Estados Unidos se incrementó un 3.3% en enero de 2004 en comparación con enero de 2003. Los fabricantes japoneses de automóviles experimentaron un incremento mucho mayor. La siguiente tabla contiene las ventas de autos y camiones ligeros de algunos de los grandes fabricantes durante enero de 2003 y 2004.
2.5: Diagramas de dispersión y series de tiempo
FABRICANTE Nissan Honda Toyota Chrysler Ford GM
VENTAS DE AUTOS NUEVOS Y CAMIONES LIGEROS 2003 2004 55,213 89,993 119,376 144,826 242,068 291,254
47
a. Elabore una gráfica de barras agrupadas para las seis marcas. b. Discuta los cambios en las ventas de autos nuevos y camiones ligeros en enero de 2004 comparadas con enero de 2003.
72,164 90,173 143,729 162,205 229,238 296,788
Fuente: S. Freeman y J. B. White, “U. S. Car Sales Rose 3.3% in January”, The Wall Street Journal, 4 de febrero, 2004, A2.
2.5
DIAGRAMAS DE DISPERSIÓN Y SERIES DE TIEMPO Diagrama de dispersión Al analizar una sola variable numérica, tal como el costo de la comida en un restaurante o el rendimiento en 2003, se usa un histograma, un polígono o un polígono de porcentaje acumulado como los desarrollados en la sección 2.3. Utilice un diagrama de dispersión para examinar las posibles relaciones entre dos variables numéricas. Coloque una variable en el eje horizontal X y la otra variable en el eje vertical Y. Por ejemplo, un analista de mercado podría estudiar la efectividad de la publicidad si compara los volúmenes de ventas semanales y el gasto publicitario semanal. O un director de recursos humanos interesado en la estructura del salario de una empresa podría comparar los años de experiencia de los empleados y su salario actual. Para mostrar el diagrama de dispersión, habría que estudiar la relación entre la proporción del gasto y el rendimiento en 2003. Para cada fondo de inversión, se traza la proporción de gasto en el eje horizontal X, y el rendimiento en 2003 en el eje vertical Y. La figura 2.15 representa la salida de Excel para estas dos variables.
FIGURA 2.15 Diagrama de dispersión de Excel para la proporción de gasto y el rendimiento en 2003.
Aunque hay una gran variación en la proporción del gasto y el rendimiento en 2003 de los fondos de inversión, parece haber una relación creciente (positiva) entre la proporción del gasto y el
48
CAPÍTULO 2 Presentación de datos en tablas y gráficas
rendimiento en 2003. En otras palabras, los fondos que tienen una baja proporción de gasto tienen un bajo rendimiento en 2003. Quizá otros pares de variables tengan relaciones decrecientes (negativas) en las que una variable decrece a medida que la otra se incrementa. El diagrama de dispersión se volverá a estudiar en el capítulo 13, cuando desarrollemos el análisis de regresión.
Series de tiempo El diagrama de series de tiempo se usa para estudiar patrones en las variables a través del tiempo. Cada valor se traza como un punto de dos dimensiones. Un diagrama de series de tiempo muestra el periodo en el eje horizontal X y la variable de interés en el eje vertical Y. La figura 2.16 es un diagrama de series de tiempo para el pago mensual de hipoteca (en dólares de 2002) de 1988 a 2002. HOUSESNY
FIGURA 2.16 Diagrama de series de tiempo de Excel del pago mensual de hipoteca en dólares de 2002 (periodo de 1988 a 2002).
Los pagos mensuales de hipoteca (considerados en dólares de 2002) bajaron al final de los 80 y principios de los 90, sólo para nivelarse. Comenzaron a aumentar de nuevo a partir de 1999.
PROBLEMAS PARA LA SECCIÓN 2.5 Aprendizaje básico ASISTENCIA
de PH Grade
X Y
7 21
ASISTENCIA
2.36 El siguiente es un conjunto de datos tomados de una muestra de n = 11 artículos. 5 15
8 3 24 9
6 10 12 18 30 36
4 12
9 15 18 27 45 54
a. Trace un diagrama de dispersión. b. ¿Existe una relación entre X y Y ? Explique su respuesta.
de PH Grade
Año
2.37 La siguiente es una serie de ventas anuales reales (en millones de dólares constantes de 1995) en un periodo de 11 años (1992 a 2002).
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
Ventas 13.0 17.0 19.0 20.0 20.5 20.5 20.5 20.0 19.0 17.0 13.0
a. Realice un diagrama de series de tiempo. b. ¿Parece haber algún cambio en las ventas anuales reales a través del tiempo? Explique su respuesta.
2.5: Diagramas de dispersión y series de tiempo
Aplicación de conceptos
Ciudad
Puede resolver manualmente los problemas 2.38 a 2.45 o usando Excel, Minitab o SPSS.
Orlando Washington–Dulles Los Ángeles Detroit San Juan Miami Nueva York–JFK Washington–Reagan Honolulu
2.38 Los siguientes datos representan el precio aproximado (en dólares) de las ventas al detalle y el costo de la energía por año (en dólares) de 15 refrigeradores. REFRIGERATOR
Modelo
Precio Costo de energía
Maytag MTB1956GE Kenmore7118 Maytag MTB2156GE Kenmore Elite Amana ART2107B GE GTS18KCM Kenmore 7198 Frigidaire Gallery GLHT216TA Kenmore 7285 Whirlpool Gold GR9SHKXK Frigidaire Gallery GLRT216TA GE GTS22KCM Whirlpool ETF1TTXK Whirlpool Gold GR2SHXK Frigidaire FRT18P5A
825 750 850 1000 800 600 750 680 680 940 680 650 800 1050 510
36 43 39 38 38 40 35 38 40 37 40 44 43 40 40
Fuente: “Refrigerators”, Copyright 2002 by Consumers Union of U.S., Inc., Yonkers, NY 10703-1057, a nonprofit organization. Adaptado con permiso de Consumer Reports, 26 de agosto, 2002, para propósitos educativos exclusivamente. No se permite su uso comercial o reproducción. www.ConsumerReports.org
a. Elabore un diagrama de dispersión con el costo de energía en el eje X y el precio en el eje Y. b. ¿Parece haber relación entre el precio y el costo de la energía? De ser así, ¿la relación es positiva o negativa? c. ¿Esperaría que los refrigeradores con un precio más alto tengan mayor eficiencia de energía? ¿Los datos apoyan esto? 2.39 Los siguientes datos SECURITY representan la proporción del volumen de ventas de las pantallas de preabordaje en los aeropuertos en 1998 y 1999 y las violaciones de seguridad detectadas por millones de pasajeros.
Ciudad St. Louis Atlanta Houston Boston Chicago Denver Dallas Baltimore Seattle/Tacoma San Francisco
Volumen de ventas
Violaciones
416 375 237 207 200 193 156 155 140 110
11.9 7.3 10.6 22.9 6.5 15.2 18.2 21.7 31.5 20.7
49
Volumen de ventas
Violaciones
100 90 88 79 70 64 53 47 37
9.9 14.8 25.1 13.5 10.3 13.1 30.1 31.8 14.9
Fuente: Alan B. Krueger, “A Small Dose of Common Sense Would Help Congress Break the Gridlock over Airport Security”, The New York Times, 15 de noviembre, 2001, C2.
a. Elabore un diagrama de dispersión con la proporción de volumen de ventas de las pantallas de preabordaje en el eje X y las violaciones de seguridad detectadas en el eje Y. b. ¿A qué conclusiones llega acerca de la relación entre la proporción del volumen de ventas de las pantallas de preabordaje y las violaciones de seguridad detectadas? AUTO 2.40 Los siguientes datos CELLPHONE representan Examen el tiempo de llamada en horas en el modo digital y la capacidad de la batería en horas-miliamperes de los teléfonos celulares.
Tiempo de llamada
Capacidad de las baterías
4.50 4.00 3.00 2.00 2.75 1.75 1.75 2.25 1.75
800 1500 1300 1550 900 875 750 1100 850
Tiempo de Capacidad de llamada las baterías 1.50 2.25 2.25 3.25 2.25 2.25 2.50 2.25 2.00
450 900 900 900 700 800 800 900 900
Fuente: “Service Shortcomings”, Copyright 2002 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con permiso de Consumer Reports, febrero de 2002, 25.
a. Realice un diagrama de dispersión con la capacidad de las baterías en el eje X y el modo digital del tiempo de llamada en el eje Y. b. ¿A qué conclusiones llega acerca de la relación entre la capacidad de la batería y el modo digital del tiempo de llamada? c. ¿Esperaría que los teléfonos celulares con mayor capacidad de batería tengan un mayor tiempo de llamada? ¿Apoyan esto los datos? 2.41 Los siguientes datos BATTERIES2 representan el precio y la corriente inicial que pueden generar las baterías de los automóviles.
50
CAPÍTULO 2 Presentación de datos en tablas y gráficas
Nombre NAPA Legend Professional Line 7575 Exide Nascar Select 75-84N DieHard Weatherhandler 30375 (South) DieHard Weatherhandler 30075 (North) EverStart 75-5 Duralast 75-D Interstate Mega-Tron MT-75 EverStart 75-2 ACDelco Maintenance free 75A-72 Motorcraft Premier Silver Series BXT-75 DieHard Gold 33165 (South) EverStart Extreme 65-2N (North) ACDelco Maintenance Free 65-84 Exide 65-60 EverStart Extreme 65-2 (South) DieHard Gold 33065 (North) Duralast Gold 34DT-DGS (South) Duralast Gold 34DT-DGN (North) Interstate Mega-Tron Plus MTP-78DT Optima Red Top 34/78-1050 ACDelco Professional 78DT-7YR EverStart High Power DT-3 DieHard Weatherhandler 30034 (North) DieHard Weatherhandler 30334 (South)
Precio ($)
Ci
60 80 60 60 30 50 80 60 80 80 80 60 92 85 60 80 70 70 96 140 80 40 60 60
630 630 525 650 525 650 650 650 650 700 700 850 850 850 675 900 800 900 800 750 850 630 540 525
Fuente: “Leading the Charge”, Copyright 2001 por Consumers Union of U.S, Inc., Yonkers, NY 10703-1057. Adaptado con permiso de Consumer Reports, octubre de 2001, 25.
a. Elabore un diagrama de dispersión con la corriente inicial en el eje X y el precio en el eje Y. b. ¿A qué conclusiones llega respecto a la relación entre la corriente inicial y el precio? c. ¿Esperaría que las baterías con mayor corriente inicial tengan un mayor precio? ¿Los datos apoyan esto? 2.42 El U.S. Bureau of Labor Statistics compila datos de una gran variedad de temas sobre la fuerza de trabajo. La siguiente tabla muestra la tasa de desempleo ajustada mensualmente por temporada para Estados Unidos, desde 1998 hasta 2003. UERATE Tasa de desempleo en E.U. ajustada por temporada (en porcentaje) Mes 1998 1999 2000 2001 2002 2003 Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
4.7 4.6 4.7 4.3 4.4 4.5 4.5 4.5 4.5 4.5 4.4 4.4
4.3 4.4 4.2 4.3 4.2 4.3 4.3 4.2 4.2 4.1 4.1 4.1
4.0 4.1 4.0 4.0 4.1 4.0 4.0 4.1 3.9 3.9 4.0 4.0
Fuente: U.S. Bureau of Labor Statistics.
4.2 4.2 4.3 4.5 4.4 4.5 4.5 4.9 4.9 5.4 5.6 5.8
5.6 5.6 5.7 5.9 5.8 5.8 5.8 5.8 5.7 5.8 5.9 6.0
5.9 6.0 5.9 6.1 6.2 6.4 6.3 6.2 6.2 6.1 6.1 5.8
a. Construya un diagrama de series de tiempo para la tasa de desempleo de Estados Unidos. b. ¿Parece haber algún patrón? 2.43 Los siguientes datos DRINK representan la cantidad de bebida gaseosa en una muestra consecutiva de 50 botellas de dos litros. Los resultados se enuncian horizontalmente en el orden en el que fueron llenados. 2.109 2.086 2.066 2.075
2.065 2.057 2.052 2.044 2.036 2.038
2.031 2.029 2.025 2.029
2.023 2.020 2.015 2.014 2.013 2.014
2.012 2.012 2.012 2.010
2.005 2.003 1.999 1.996 1.997 1.992
1.994 1.986 1.984 1.981
1.973 1.975 1.971 1.969 1.966 1.967
1.963 1.957 1.951 1.951
1.947 1.941 1.941 1.938 1.908 1.894
a. Realice un diagrama de series de tiempo para la cantidad de bebida gaseosa en el eje Y y el número de botellas (de 1 a 50 consecutivamente) en el eje X. b. ¿Qué patrón, si lo hay, se presenta en los datos? c. Si tuviera que hacer una predicción de la cantidad de bebida gaseosa que llena la siguiente botella, ¿qué diría? d. Con base en los resultados del inciso a) al c), explique por qué es importante realizar un diagrama de series de tiempo y no sólo un histograma como se hizo en el problema 2.27 en la página 43. 2.44 Los datos en la siguiente tabla representan el número de hogares que utilizaron de forma activa el banco en línea y/o que realizaron pagos en línea de 1995 a 2003. ONLINEBANKING Año
Número de hogares (millones)
1995 1996 1997 1998 1999 2000 2001 2002 2003
0.6 2.5 4.5 7.0 10.5 15.5 22.0 28.0 33.0
Fuente: R.J. Dalton, “In the Mainstream”, Newsday, 8 de febrero, 2004, F6-F7.
a. Construya un diagrama de series de tiempo para el número de hogares de Estados Unidos que utilizaron activamente el banco en línea y/o pagaron sus cuentas en línea. b. ¿Qué patrón, si lo hay, está presente en estos datos? c. Si tuviera que hacer una predicción en el número de hogares de E.U. que activamente usan el banco en línea y/o hicieron pagos en línea en 2004, ¿qué predeciría? 2.45 Los datos de la siguiente tabla representan el promedio de espectadores de televisión (excluyendo las televisoras locales) por juego (en millones) para la National Football League (NFL), la National Basketball Association (NBA), la Major League Baseball (MLB) y la National Hockey League (NHL). SPORTSTV
2.6: Uso inadecuado de gráficas y consideraciones éticas
Año
NFL
NBA
MLB
NHL
1995 1996 1997 1998 1999 2000 2001 2002
19.6 18.5 17.4 18.1 18.3 17.0 16.9 18.6
10.6 10.2 10.8 7.8 7.2 6.7 6.8 5.8
15.9 9.8 10.4 9.4 10.0 7.7 9.8 8.9
3.6 3.2 2.4 2.6 3.3 2.8 3.1 2.6
51
a. Para cada uno de los cuatro deportes realice un diagrama de series de tiempo. b. ¿Qué patrón, si lo hay, está presente en estos datos? c. Si tuviera que hacer una predicción del número de espectadores para cada deporte en 2003, ¿qué diría?
Fuente: S. Fatsis, “Salaries, Promos, and Flying Solo”, The Wall Street Journal, 9 de febrero, 2004, R.4.
2.6
USO INADECUADO DE GRÁFICAS Y CONSIDERACIONES ÉTICAS Las buenas gráficas revelan lo que los datos transmiten. Por desgracia, muchas gráficas presentadas tanto en periódicos como en revistas, así como otras que se desarrollan con el Asistente gráfico de Excel, son incorrectas, engañosas o innecesariamente complicadas, tanto, que nunca deberían utilizarse. Para ilustrar esta situación, la primera gráfica presentada se publicó en la revista Time como parte de un artículo sobre la creciente exportación de vino de Australia a Estados Unidos.
FIGURA 2.17 Muestra “impropia” de la exportación de vino australiano a Estados Unidos en millones de galones.
Estamos bebiendo más... Exportaciones de vino a E.U. en millones de galones
Fuente: Adaptado de S. Watterson, “Liquid Gold —Australians Are Changing the World of Wine. Even the French Seem Grateful”, Time, 22 de noviembre, 1999, 68.
En la figura 2.17, el icono de la copa de vino que representa los 6.77 millones de galones para 1997 no parece tener casi el doble de tamaño del icono de la copa de vino que representa los 3.67 millones de galones para 1995; tampoco el icono de la copa de vino que representa los 2.25 millones de galones para 1992 parece tener el doble de tamaño del icono de copa de vino que representa 1.04 millones de galones para 1989. La razón para esto, en parte, es que el icono tridimensional de la copa de vino se utiliza para representar las dos dimensiones de exportación y tiempo. Aunque la presentación de la copa de vino puede atraer la vista, los datos deberían presentarse en una tabla de resumen o en un diagrama de series de tiempo. Además del tipo de distorsión creada por los iconos de la copa de vino en la gráfica de la revista Time que muestra la figura 2.17, el uso impropio de los ejes vertical y horizontal lleva a distorsiones. La figura 2.18 en la página 52 presenta otra gráfica usada en el mismo artículo de Time. Existen varios problemas graves en la gráfica. Primero, no hay punto cero en el eje vertical. Segundo, la superficie en acres de 135,326 para el periodo de 1949 a 1950 está trazada por arriba de la superficie en acres de 150,300 para 1969 a 1970. Tercero, no es obvio que la diferencia entre 1979 a 1980 y de 1997 a 1998 (71,569 acres) es aproximadamente tres y media veces la diferencia entre 1979-1980 y 1969-1970 (21,775 acres). Cuarto, no hay valores escalares en el eje horizontal. Los años están trazados junto a los totales de la superficie en acres, no en el eje horizontal. Quinto, los valores para la dimensión del tiempo no están espaciados de forma apropiada a lo largo del eje horizontal. El valor para 1979-1980 es mucho más cercano al de 1990 que a 1969-1970.
52
CAPÍTULO 2 Presentación de datos en tablas y gráficas
FIGURA 2.18 Muestra “impropia” de la cantidad de terreno plantado con uvas para la industria vitivinícola. Fuente: Adaptado de S. Watterson. “Liquid Gold —Australians Are Changing the World of Wine. Even the French Seem Grateful”, Time, 22 de noviembre, 1999, 68-69.
...están creciendo más... Cantidad de terreno plantado con uvas para la industria vitivinícola
1997–1998 243,644 acres
1979–1980 172,075 acres 1949 –1950 135,326 acres 1969–1970 150,300 acres
1989–1990 146,204 acres
1959–1960 130,201 acres
Otros tipos de muestras que atraen la vista y que vemos generalmente en las revistas y periódicos, a menudo incluyen información innecesaria y sólo generan confusión. La figura 2.19 representa una de estas muestras. La gráfica ilustra los productos con la mayor participación de mercado en la industria de las bebidas gaseosas en 1999. Esto genera mucha confusión, aunque la gráfica está diseñada para mostrar las diferencias en la participación de mercado entre las bebidas gaseosas. Las ilustraciones del burbujeo para cada una de las bebidas ocupa mucho espacio de la gráfica respecto a los datos. La misma información podría transmitirse con una gráfica de barras o con una gráfica de pastel.
FIGURA 2.19 Diagrama de la participación de mercado de las bebidas gaseosas en 1999. Fuente: Adaptado de Anne B. Carey y Sam Ward, ”Coke Still Has Most Fizz”, USA Today, 10 de mayo, 2000, 1B.
Coca-Cola clásica 20%
Coca-Cola todavía tiene el mayor burbujeo Bebidas carbonatadas con la mayor participación de mercado que llegó a los $58 mil millones el año pasado
Pepsi-Cola 14% Coca dietética Mountain 9% Dew Sprite Dr Pepper 6% 7% 7%
Algunas directrices para desarrollar buenas gráficas son las siguientes: • La gráfica no debe distorsionar los datos. • La gráfica no debería contener adornos innecesarios (algunas veces denominados basura gráfica). • Cualquier gráfica de dos dimensiones debe contener una escala para cada eje. • La escala del eje vertical debe comenzar en cero. • Todos los ejes deben estar adecuadamente rotulados. • La gráfica debe tener un título. • Debe usarse una gráfica lo más sencilla posible para un conjunto de datos. Una de las fuentes más grandes de gráficas impropias es el Asistente gráfico de Excel. La figura 2.20 representa la ventana de diálogo del paso 1 del Asistente para gráficos. Es posible elegir entre columna, barra, línea, pastel y área de gráfica, así como tipos de gráficas más complicadas como anillos, radial, superficie, burbujas, cotizaciones, cilíndrico, cónico y piramidal. Estas gráficas más complejas deben usarse sólo ocasionalmente pues son más difíciles de interpretar que las gráficas simples que abarcamos en este capítulo.
2.6: Uso inadecuado de gráficas y consideraciones éticas
53
FIGURA 2.20 Ventana de diálogo del paso 1 del Asistente para gráficos de Excel.
La mayoría de los ejemplos del uso inadecuado de las gráficas son resultado de no poner atención en las directrices para crear buenas gráficas. Sin embargo, surgen problemas éticos cuando las gráficas se construyen para mal informar a propósito al lector. Sea como fuere, uno debe extremar precauciones al tratar de obtener conclusiones de las gráficas que se desvían de las directrices mencionadas en este capítulo.
PROBLEMAS PARA LA SECCIÓN 2.6 Aplicación de conceptos 2.46 (Proyecto estudiantil) Traiga a clase una gráfica de un periódico o de una revista, que considere que no representa adecuadamente una variable numérica. Preséntela a su maestro con comentarios sobre por qué cree que es inadecuada. ¿Considera que la intención de la gráfica es engañar a propósito al lector? También prepárese para hacer un comentario al respecto en clase. 2.47 (Proyecto estudiantil) Traiga a clase una gráfica de un periódico o de una revista, que considere que no representa adecuadamente una variable categórica. Preséntela a su maestro con comentarios sobre por qué cree que sea inadecuada. ¿Considera que la intención de la gráfica es engañar a propósito al lector? También prepárese para hacer un comentario al respecto en clase. 2.48 (Proyecto estudiantil) Traiga a clase una gráfica de un periódico o de una revista, que crea que contenga demasiados adornos innecesarios (por ejemplo, basura gráfica) que oscurezcan el mensaje que transmiten los datos. Preséntela a su maestro con comentarios sobre por qué cree que sea inadecuada. También prepárese para hacer un comentario al respecto en clase. 2.49 La siguiente muestra visual contiene una gráfica sobreadornada que apareció en el USA Today y que se refiere a las muertes a causa de los relámpagos en Estados Unidos.
Decrecen las fatalidades a causa de los relámpagos Número de muertes provocadas por relámpagos 1942–51 1952–61 1962–71 1972–81
1,652 1,298 3,048
1982–91
874
1992– 2001
733 518
Fuente: Adaptado de USA Today, 12 de noviembre, 2002.
a. Describa por lo menos una característica positiva de esta muestra visual. b. Describa por lo menos una característica negativa de esta muestra visual. c. Rediseñe la gráfica usando las directrices mencionadas en la página 52.
54
CAPÍTULO 2 Presentación de datos en tablas y gráficas
2.50 La siguiente muestra visual se refiere al tamaño relativo de los departamentos de policía en las ciudades más grandes de Estados Unidos, que apareció en el USA Today: Proporción más alta de policía-residentes De las fuerzas de policía más grandes de Estados Unidos, estas ciudades tienen el mayor número de oficiales que trabajan tiempo completo por cada 10,000 residentes: 67 52
Washington
52
49
Nueva York Newark, NJ
46
Chicago
46
Filadelfia
St. Louis
46
Baltimore
Fuente: Adaptado de USA Today, febrero de 2000.
a. Indique una característica de esta gráfica que viole los principios de las gráficas bien hechas. b. Diseñe una gráfica alternativa para los datos proporcionados en esta figura. 2.51 La siguiente muestra visual indica la fuente de la electricidad en Estados Unidos, y apareció en USA Today:
60
El carbón es la principal fuente de electricidad De dónde obtiene E.U. su electricidad:
50
a. Describa por lo menos una característica positiva de esta muestra visual. b. Describa por lo menos una característica negativa de esta muestra visual. c. Rediseñe la gráfica usando las directrices mencionadas en la página 52. 2.52 Un artículo publicado en The New York Times (Donna Rosato, “Worried about the Numbers? How about the Charts?” The New York Times, 15 de septiembre, 2002, Business 7) dio cuenta de una investigación sobre los reportes anuales de las corporaciones, que realizó la profesora Deanna Oxender Burgess de la Florida Gulf Coast University. La profesora Burgess encontró que aun la más mínima distorsión en una gráfica cambia la percepción que el lector tiene de la información. El artículo mostró información sobre el reporte anual de Zale Corporation y expuso la forma en que se exageraron los resultados. Acuda a Internet o a la biblioteca y estudie el más reciente reporte anual de una corporación. Localice por lo menos una gráfica en el reporte que considere que necesita mejorarse y elabore la gráfica mejorada. Explique por qué cree que su gráfica es mejor que la del reporte anual. 2.53 Las figuras 2.1, 2.3 y 2.6, en las páginas 23, 24 y 27, consisten en una gráfica de barras, una gráfica de pastel y un diagrama de Pareto para describir los datos de las compras en línea. a. Use el Asistente para gráficos de Excel para desarrollar una gráfica de anillo, una gráfica cónica y una gráfica piramidal para los datos de las compras en línea. b. ¿Qué gráficas prefiere: la gráfica de barras, la gráfica de pastel y el diagrama de Pareto, o la gráfica de anillo, la gráfica cónica y la gráfica piramidal? Explique su respuesta. 2.54 Las figuras 2.2 y 2.4 de las páginas 24 y 25 consisten en una gráfica de barras y una gráfica de pastel para el nivel de riesgo de los datos de fondos de inversión. MUTUALFUNDS2004 a. Utilice el Asistente para gráficos de Excel para desarrollar una gráfica de anillo, una gráfica cónica y una gráfica piramidal para el nivel de riesgo de los fondos de inversión. b. ¿Qué gráficas prefiere: la gráfica de barras y la gráfica de pastel o la gráfica de anillo, la gráfica cónica y la gráfica piramidal? Explique su respuesta.
40 30 20 10
el
tr as O
a lic Eó
eo tr ól
H
id
ro
Pe
ic
a
as
éc tr
G
uc N
Ca rb
ón
le ar
0
Fuente: Adaptado de USA Today, 30 de enero, 2002.
RESUMEN Como se observa en la tabla 2.18, este capítulo trató acerca de la presentación de datos. Usted ha usado diferentes tablas y gráficas para obtener conclusiones acerca de las compras en línea, el costo de las comidas en restaurantes en la ciudad y en los suburbios, y del conjunto de fondos de inversión que se
presentaron en el escenario de “Uso de la estadística” al inicio del capítulo. Ahora que ha estudiado tablas y gráficas, en el capítulo 3 aprenderá acerca de una variedad de medidas descriptivas numéricas útiles para el análisis y la interpretación de los datos.
Problemas de repaso
TABLA 2.18 Mapa para seleccionar tablas y gráficas.
55
Tipo de datos Numéricos
Tipo de análisis
Categóricos
Tabular, organizar y presentar gráficamente los valores de la variable
Arreglo ordenado, diagrama de tallo y hojas, distribución de frecuencias, distribución de frecuencias relativas, distribución de porcentaje, distribución acumulativa, histograma, polígono, polígono de porcentaje acumulado (secciones 2.2 y 2.3)
Tabla de resumen, gráfica de barras, gráfica de pastel, diagrama de Pareto (sección 2.1)
Presentar gráficamente la relación entre dos variables
Diagrama de dispersión, Series de tiempo (sección 2.5)
Tabla de contingencia, gráfica de barras agrupadas (sección 2.4)
C O N C E P T O S C L AV E Agrupaciones o clases 33 Amplitud de un intervalo de clase 33 Arreglo ordenado 30 Basura gráfica 52 Celdas 43 Diagrama de tallo y hoja 30 Diagrama de dispersión 47 Diagrama de Pareto 25 Distribución de frecuencia relativa 34 Distribución de frecuencias 32
Distribución de porcentaje acumulado 35 Distribución de porcentajes 34 Gráfica de barras 23 Gráfica de barras agrupadas 45 Gráfica de pastel 24 Histograma 37 Límites de clase 33 Ojiva (polígono de porcentaje acumulado) 40
Diagrama de series de tiempo 48 Polígono de porcentaje 39 Polígono de porcentaje acumulado 40 Principio de Pareto 25 Punto medio de la clase 33 Rango 33 Tabla de datos bivariados 43 Tabla de contingencia 43 Tabla de resumen 22
PROBLEMAS DE REPASO Revisión de su comprensión 2.55 ¿Cómo es que los histogramas y los polígonos difieren con respecto a su construcción y uso? 2.56 ¿Cuándo realizaría una tabla de resumen? 2.57 ¿Cuáles son las ventajas y/o desventajas del uso de la gráfica de barras, la gráfica de pastel o el diagrama de Pareto? 2.58 Compare y contraste la gráfica de barras para datos categóricos contra el histograma para datos numéricos. 2.59 ¿Cuál es la diferencia entre el diagrama de series de tiempo y el diagrama de dispersión?
2.60 ¿Por qué se dice que la característica principal del diagrama de Pareto es que permite separar a lo “poco vital” de lo “mucho trivial”? 2.61 ¿Qué porcentaje de fracasos pueden ayudar a interpretar los resultados encontrados en una tabla de contingencia?
Aplicación de conceptos Puede resolver manualmente los problemas 2.62 a 2.74 o usando Excel, Minitab o SPSS. Le recomendamos usar Excel, Minitab o SPSS para resolver los problemas 2.75 a 2.85. 2.62 Los datos en la parte superior de la página 56 representan el desglose del precio de un nuevo libro de texto.
56
CAPÍTULO 2 Presentación de datos en tablas y gráficas
Categorías de ingresos
Porcentaje
Editor Costos de producción Marketing y promoción Costos administrativos e impuestos Ganancia después de impuestos Librería Salarios y prestaciones de empleados Operaciones Ganancias antes de impuestos Autor Flete
64.8
22.4
11.6 1.2
32.3 15.4 10.0 7.1 11.3 6.6 4.5
Fuente: T. Lewin, “When Books Break the Bank”, The New York Times, 16 de septiembre, 2003, B1, B4.
a. Realice una gráfica de barras, una gráfica de pastel y un diagrama de Pareto para las cuatro categorías de editor, librería, autor y flete. b. Elabore un diagrama de Pareto usando las cuatro subcategorías de editor y las tres subcategorías de librería junto con las categorías de autor y flete. c. Con base en los resultados de los incisos a) y b), ¿a qué conclusiones se llega con relación a quién obtiene las ganancias por la venta de los nuevos libros de texto? ¿Le sorprenden estos resultados? Explique su respuesta. 2.63 Los siguientes datos representan la participación de mercado para la reparación de automóviles y de camiones ligeros en 1992 y 2002.
Fuente Especialistas foráneos Tiendas de refacciones con espacios de servicio Especialistas en reparación Estaciones de servicio, talleres Tiendas de neumáticos Distribuidor de vehículos Otros
1992 Porcentaje
2002 Porcentaje
3.9
6.0
7.3 12.7 39.1 8.1 21.6 7.3
6.4 16.2 29.5 8.9 26.6 6.4
Fuente: A. Frangos, “Corner Garages Battle Dealers to Fix Your Car”, The Wall Street Journal, 3 de junio, 2003, B1, B4.
a. Elabore una gráfica de barras, una gráfica de pastel y un diagrama de Pareto para cada año. b. Realice una gráfica de barras agrupada para la participación de mercado en 1992 y 2002. c. Con base en los resultados de los incisos a) y b), ¿qué cambios en la participación de mercado ocurrieron entre 1992 y 2002? 2.64 Los siguientes datos representan cómo realizaron sus pagos los consumidores en las tiendas en 1999, 2001 y 2003.
Tipo de de pago
1999 Porcentaje
2001 Porcentaje
2003 Porcentaje
Efectivo Cheque Débito Crédito Otros
39 18 21 22 0
33 18 26 21 2
32 15 31 21 1
Fuente: M. Ingebretsen y M. Ballinger, “Charge It”, The Wall Street Journal, 9 de febrero, 2004, R2.
a. Construya una gráfica de barras agrupadas para las formas de pago en 1999, 2001 y 2003. b. Con base en los resultados del inciso a), ¿qué cambios en las formas de pago ocurrieron en 1999, 2001 y 2003? 2.65 Los siguientes datos representan el consumo per cápita de bebidas (en galones) vendidas en tiendas minoristas durante 1998, 2000 y 2002.
Tipo de bebida Agua embotellada Lácteo/otros Jugos Refrescos Bebidas energéticas Té Total
1998 Consumo
2000 Consumo
2002 Consumo
2.5 0.3 3.1 54.0 1.9 1.9 63.7
4.1 0.3 3.7 53.0 2.2 2.0 65.3
6.7 0.3 4.0 52.5 2.5 1.9 67.9
Fuente: T. Howard, “Coke, Pepsi Sales Up, but Core Colas Flat”, USA Today, 21 de julio, 2003, 3B.
a. Elabore una tabla de resumen de porcentajes para los tipos de bebida por año. b. Para cada año, elabore una gráfica de barras, una gráfica de pastel y un diagrama de Pareto. c. Elabore una gráfica de barras agrupadas de la participación de mercado de los tipos de bebidas en 1998, 2000 y 2002. d. Con base en los resultados de los incisos a) a c), ¿qué cambios ocurrieron en el mercado entre 1998 y 2002? 2.66 Brasil es el segundo país consumidor de café en el mundo. A diferencia de la mayoría de los mercados donde unas cuantas corporaciones dominan el tostado y la venta del café, en ese país están activos más de 2,000 pequeños tostadores de café. La corporación Sara Lee se ha convertido en el vendedor de café al detalle líder en Brasil, al adquirir varios tostadores de café (Miriam Jordan, “Sara Lee Wants to Percolate through all Brasil”, The Wall Street Journal, 8 de mayo, 2002, A14). En la página 57 se presentan los datos de las siete naciones más consumidoras de café y el desglose de los líderes del mercado en Brasil.
Problemas de repaso
Principales países consumidores de café en 2000 País
Consumo (en millones de bolsas de 60 kg)
Estados Unidos Brasil Alemania Japón Francia Holanda Finlandia
Región y país
18.6 12.8 9.2 6.7 5.4 1.8 0.9
Fuente: The Wall Street Journal.
Marcas líderes de café en Brasil Marca
Participación de mercado
Marcas pertenecientes a Sara Lee Nescafé Tres Coracoes Melitta Todas las demás
27.6% 6.1% 4.8% 4.0% 57.5%
Fuente: The Wall Street Journal.
2.67 Los siguientes datos representan las reservas convencionales probadas de petróleo en miles de millones de barriles, subdivididos por región y país. Reservas convencionales probadas (en miles de millones de barriles) Reservas
Norteamérica
54.8
Centro y Sudamérica
95.2
México E.U. Canadá
Venezuela Brasil Otros en Centro y Sudamérica
Europa Occidental
17.2
África
74.9
Noruega Inglaterra Otros en Europa Occidental Libia Nigeria Argelia Angola Otros en África
Reservas convencionales probadas (en miles de millones de barriles) Reservas
Medio Oriente Arabia Saudita Irak Emiratos Árabes Unidos Kuwait Irán Qatar Omán Otros en Medio Oriente Lejano Oriente y Oceanía China Indonesia India Otros en Lejano Oriente y Oceanía Europa Oriental y ex URSS Rusia Kazajstán Otros en Europa Oriental y ex URSS
683.6
44.0
59.0
259.2 112.5 97.8 94.0 89.7 13.2 5.5 11.7 24.0 5.0 4.7 10.3 48.6 5.4 5.0
Fuente: Departamento de Energía de Estados Unidos.
a. Construya una gráfica para los datos relacionados con los países que consumen más café. ¿Qué tipo de gráfica es la más apropiada? Explique por qué. b. Construya una gráfica para los datos referentes a la participación de mercado en Brasil. ¿Qué tipo de gráfica es la más adecuada? Explique por qué.
Región y país
57
28.3 21.8 4.7 76.9 8.1 10.2 9.5 5.0 2.7 29.5 22.5 9.2 5.4 8.3
Usando el conjunto de países: a. Construya una gráfica de barras, una gráfica de pastel y un diagrama de Pareto. Usando el conjunto de regiones: b. Realice una gráfica de barras, una gráfica de pastel y un diagrama de Pareto. c. ¿Qué método gráfico cree que refleja mejor estos datos? d. Con base en los resultados de los incisos a) y b), ¿a qué conclusiones se llega respecto a las reservas convencionales de petróleo probadas para los diferentes países y regiones? 2.68 Al analizar las repercusiones de los ataques del 11 de septiembre de 2001, los especialistas del National Center for Health Statistics, se enfocaron en su habilidad de localizar y clasificar a las víctimas del terrorismo (E. Weinstein, “Tracking Terror’s Rising Toll”, The Wall Street Journal, 25 de enero, 2002, A13). Los siguientes datos representan las muertes provocadas por el terrorismo en Estados Unidos entre 1990 y 2001 y también las muertes en Estados Unidos provocadas por diversas causas. Año
Muertes provocadas por el terrorismo en Estados Unidos
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
0 0 0 6 1 169 2 0 1 3 0 2,717
58
CAPÍTULO 2 Presentación de datos en tablas y gráficas
Causa
Muertes en miles
Humo y fuego Ahogamiento accidental Muertes inducidas por el alcohol Enfermedad de Alzheimer Asalto con armas de fuego Asalto sin armas de fuego Asma Cáncer Embolia y enfermedades relacionadas Enfisema Diabetes Enfermedades cardiacas Caídas VIH
Influenza y neumonía Lesiones en el trabajo Accidentes en vehículos Suicidio Muertes relacionadas con las drogas
3.3 3.3 18.5 49.0 10.4 5.7 4.4 551.8 166.0 16.9 68.7 710.0 12.0 14.4 67.0 5.3 41.8 28.3 15.9
Fuente: Federal Bureau of Criminal Justice Statistics, National Center for Health Statistics, National Highway Transportation, Safety Administration, Departamento de Defensa de Estados Unidos.
a. Diseñe un diagrama de series de tiempo para las muertes provocadas por el terrorismo en territorio estadounidense. ¿Hay algún patrón en las muertes provocadas por el terrorismo en territorio estadounidense entre 1990 y 2001? Para las muertes en miles de personas por diferentes causas: b. Elabore una gráfica de barra, una gráfica de pastel y un diagrama de Pareto. c. ¿Qué método gráfico es el mejor para describir estos datos? d. Con base en los resultados del inciso c), ¿a qué conclusiones se llega respecto a las muertes en Estados Unidos provocadas por diversas causas? 2.69 El dueño de un restaurante que sirve platillos estilo Continental estaba interesado en estudiar los patrones de demanda para el periodo de viernes a domingo (fin de semana). Guardó registros que indicaban el número de órdenes para cada tipo de platillo. Los datos son los siguientes:
Tipo de platillo Res Pollo Pato Pescado Pasta Mariscos Ternera
Número servido 187 103 25 122 63 74 26
a. Elabore una tabla de resumen para los tipos de platillos ordenados.
b. Elabore una gráfica de barras, una gráfica de pastel y un diagrama de Pareto para los tipos de platillos ordenados. c. ¿Prefiere un diagrama de Pareto o una gráfica de pastel para estos datos? ¿Por qué? d. ¿A qué conclusiones llegará el dueño del restaurante en relación con la demanda de los diferentes tipos de platillos? 2.70 Suponga que el dueño del restaurante del problema 2.69 también estaba interesado en estudiar la demanda de postres para el mismo periodo. Decidió que otras dos variables, junto con la variable de si se ordena o no el postre, debían estudiarse: el género del individuo y si ordenaba el platillo de res. Los resultados fueron los siguientes:
ORDENÓ POSTRE Sí No Total
ORDENÓ POSTRE Sí No Total
GÉNERO Masculino Femenino 96 224 320
Total
40 240 280
136 464 600
PLATILLO DE RES Sí No
Total
71 116 187
65 348 413
136 464 600
Para cada una de las dos tablas de contingencia: a. Realice una tabla de porcentajes de fila, de porcentajes de columna y de porcentajes totales. b. ¿Qué tipo de porcentaje (fila, columna o total) cree que es el más informativo para cada género? ¿Para el platillo de res? Explique por qué. c. ¿Qué conclusiones obtendrá el dueño del restaurante respecto al patrón de postres ordenados? 2.71 Un artículo publicado en The New York Times (William McNulty y Hugh K. Truslow, “How it Looked Inside the Booth”, The New York Times, 6 de noviembre, 2002) aportó los siguientes datos para el método de registro de votos en 1980, 2000 y 2002, divididos en los porcentajes de ciudades en Estados Unidos que emplearon cada método y los porcentaje de votantes registrados que utilizaron cada uno. Los resultados son los siguientes:
MÉTODO
PORCENTAJE DE CIUDADES QUE LO USARON 1980 2000 2002
Tarjetas perforadas Máquinas con palanca Papeletas Escaneo óptico Electrónico Mixto
18.5 36.7 40.7 0.8 0.2 3.1
18.5 14.4 11.9 41.5 9.3 4.4
15.5 10.6 10.5 43.0 16.3 4.1
Problemas de repaso
MÉTODO
PORCENTAJE DE VOTANTES REGISTRADOS QUE LO USARON 1980 2000 2002
Tarjetas perforadas Máquinas con palanca Papeletas Escaneo óptico Electrónico Mixto
31.7 42.9 10.5 2.1 0.7 12.0
31.4 17.4 1.5 30.8 12.2 6.7
22.6 15.5 1.3 31.8 19.6 9.3
a. Realice gráficas de pastel para cada año para los porcentajes de las ciudades y los porcentajes de los votantes registrados que usaron los diversos métodos. b. Realice gráficas de barras agrupadas por año para los porcentajes de ciudades y los porcentajes de votantes registrados que usaron los diferentes métodos. c. ¿Qué tipo de muestra gráfica es más útil para representar los datos? Explique por qué. d. ¿Qué diferencias existen en los resultados para las ciudades y para los votantes registrados? 2.72 En el verano del año 2000, se registró un mayor número de reclamaciones sobre la garantía de los neumáticos Firestone vendidos en la Ford SUV, lo que provocó que tanto la Firestone como la Ford emitieran un importante comunicado. Un análisis de los datos de quejas sobre la garantía ayudó a identificar qué modelos debían atender. El desglose de 2,504 quejas de garantía basadas en el tamaño del neumático se presenta en la siguiente tabla: Rodada del neumático
Quejas de garantía
23575R15 311050R15 30950R15 23570R16 331250R15 25570R16 Otros
2,030 137 82 81 58 54 62
Fuente: Robert L., Simison, “Ford Steps Up Recall without Firestone”, The Wall Street Journal, 14 de agosto, 2000, A3.
Las 2,030 quejas de garantía para los neumáticos 23575R15 pueden clasificarse en los modelos ATX y Wilderness. El tipo de incidente que llevó a la queja de garantía, por tipo de modelo, se resume en la siguiente tabla.
Incidente Separación de la banda de rodadura Ponchadura Otro/desconocido
Total
Quejas de garantía para el modelo ATX
Quejas de garantía para el modelo Wilderness
1,365 77 422
59 41 66
1,864
166
Fuente: Robert L. Simison, “Ford Steps Up Recall without Firestone”, The Wall Street Journal, 14 de agosto, 2000, A3.
59
a. Elabore un diagrama de Pareto para el número de quejas de garantía por la rodada del neumático. ¿Qué rodada de neumático recibió el mayor número de quejas? b. Elabore una gráfica de pastel que muestre el porcentaje del número total de quejas de garantía para los neumáticos 23575R15 que vienen en el modelo ATX y en el modelo Wilderness. Interprete la gráfica. c. Realice un diagrama de Pareto para el tipo de incidente causado en la reclamación de garantía para el modelo ATX. ¿Existe un cierto tipo de incidente que cause la mayoría de las quejas? d. Diseñe un diagrama de Pareto para el tipo de incidente que causa la queja de garantía para el modelo Wilderness. ¿Existe un cierto tipo de incidente que cause la mayoría de las quejas? 2.73 Una de las principales medidas de calidad del servicio que brinda cualquier organización es la velocidad con la que responde a las quejas del consumidor. Una gran tienda, departamental que vende muebles, pisos y alfombras, ha tenido una gran expansión en los últimos años. El departamento de pisos, en especial, ha crecido de 2 cuadrillas de instalación a un supervisor de instalación, un medidor y 15 cuadrillas de instalación. Durante un año reciente, la empresa recibió 50 quejas referentes a la instalación de alfombras. Los siguientes datos representan el número de días entre la recepción de la queja y su solución. FURNITURE 54 5 35 11 19 126 12 4 165 13 10 5 33 68
137 31 110 110 32 29 27 4
27 152 29 61 28 29 52 30
2 123 35 94 26 25 22 36
81 31 1 26
74 27 26 5 14 13 20 23
a. Elabore una distribución de frecuencia y una distribución de porcentaje. b. Trace un histograma y un polígono de porcentaje. c. Construya una distribución de porcentaje acumulado y trace una ojiva (polígono de porcentaje acumulado). d. Con base en los resultados de los incisos a) a c), si tuviera que informar al presidente de la empresa cuánto tiene que esperar el cliente para que su queja se resuelva, ¿qué le diría? Explique su respuesta. 2.74 Los datos del archivo PIZZA representan el costo por rebanada en dólares, el número de calorías por rebanada y la cantidad de grasa en gramos por rebanada para una muestra de 36 productos de pizza. Fuente: “Frozen Pizza on the Rise”, Copyright © 2002 por Consumer Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con permiso de Consumer Reports, enero de 2002, 40-41.
a. Elabore distribuciones de frecuencias y distribuciones de porcentaje para grasa, costo y calorías. b. Construya histogramas y polígonos de porcentaje para grasa, costo y calorías.
60
CAPÍTULO 2 Presentación de datos en tablas y gráficas
c. Elabore distribuciones de porcentaje acumulado y trace ojivas (polígonos de porcentaje acumulado) para grasa, costo y calorías. d. Elabore diagramas de dispersión para el costo y las calorías, costo y grasa, y calorías y grasa. e. Con base en el inciso a) al d), ¿a qué conclusiones llega acerca del costo, grasas y calorías de estos productos de pizza? 2.75 Un artículo en Quality Engineering examinó la viscosidad (resistencia al flujo) de un producto químico producido en partidas. Tome en cuenta que la viscosidad del químico necesita estar entre 13 y 18 para cumplir con las especificaciones de la empresa. Los datos para las 120 partidas están en los datos del archivo. CHEMICAL Fuente: D.S. Holmes y A.E. Mergen, “Parabolic Control Limits for the Exponentially Weighted Moving Average Control Charts”, Quality Engineering, vol. 4 (1992), 487-495.
a. Elabore un arreglo ordenado. b. Construya una distribución de frecuencia y una distribución de porcentaje. c. Elabore un histograma de porcentaje. d. ¿Qué porcentaje de las partidas está dentro de las especificaciones de la empresa? 2.76 Estudios que realizó un fabricante de tablillas de asfalto “Boston” y “Vermont” demuestran que el peso del producto es el factor principal en la percepción que el consumidor tiene de la calidad. Más aún, el peso representa la cantidad de material usado, por lo que es muy importante para la empresa desde el punto de vista del costo. La última etapa de la línea de ensamblaje empaca las tablillas antes de que los paquetes se coloquen en paletas de madera. Una vez que la paleta está llena (las paletas de casi todas las marcas tienen capacidad para sostener 16 cuadros de tablillas), se pesa y se registra este dato. La empresa espera que las paletas de tablillas de su marca “Boston” pesen por lo menos 3,050 libras pero menos de 3,260. Para las tablillas de la marca “Vermont”, las paletas deben pesar por lo menos 3,600 libras pero menos de 3,800. El archivo de datos PALLET contiene los pesos (en libras) de una muestra de 368 paletas de tablillas “Boston” y 330 paletas de tablillas “Vermont”. a. Para las tablillas “Boston”, construya una distribución de frecuencias y una distribución de porcentaje con ocho intervalos de clase usando como límites de clase: 3,015, 3,050, 3,085, 3,120, 3,155, 3,190, 3,225, 3,260 y 3,295. b. Para las tablillas “Vermont”, construya una distribución de frecuencias y una distribución de porcentaje con siete intervalos de clase, usando como límites de clase: 3,550, 3,600, 3,650, 3,700, 3,750, 3,800, 3,850 y 3,900. c. Elabore histogramas para las tablillas “Boston” y para las tablillas “Vermont”. d. Comente acerca de la distribución del peso de las paletas para las tablillas “Boston” y “Vermont”. Asegúrese de identificar el porcentaje de paletas que se encuentran por debajo y por encima del peso. 2.77 ¿Regalar artículos promocionales incrementa la asistencia a los juegos de la liga de béisbol? Un artículo en Sport Mar-
keting Quarterly reportó sobre el efecto de las promociones mercadológicas [T.C. Boyd y T.C. Krehbiel, “Promotion Timing un Major League Baseball and the Stacking Effects of Factors that Increase Game Attractiveness”, Sport Marketing Quarterly, vol. 12 (2003), 173-184]. El archivo de datos ROYALS incluye las siguientes variables para el equipo Kansas City Royals durante la temporada de béisbol del año 2002: GAME = Juegos en casa en el orden en el que se jugaron. ATTENDANCE = Asistencia pagada al juego. PROMOTION 1 = Si se realizó una promoción; 0 = si no se realizó ninguna promoción. a. Elabore un histograma de porcentaje para la variable de asistencia. Interprete el histograma. b. Elabore un polígono de porcentaje para la variable de asistencia. Interprete el polígono. c. ¿Qué gráfica prefiere: la del inciso a) o la del inciso b)? Explique. d. Elabore una gráfica que contenga dos polígonos de porcentaje para la asistencia: uno para los 43 juegos con promoción y uno para los 37 juegos sin promoción. Compare las distribuciones de las dos asistencias. 2.78 Los datos para el archivo PROTEIN indican las calorías, proteínas, calorías de grasa, calorías de grasa saturada y colesterol para comidas proteínicas populares (carnes rojas frescas, pollo y pescado). Fuente: Departamento de Agricultura de Estados Unidos.
Para los datos referentes al número de calorías, proteínas, calorías de la grasa, calorías de grasa saturada y cantidad de colesterol para las comidas proteínicas populares: a. Elabore una distribución de frecuencias y una distribución de porcentajes. b. Elabore un histograma y un polígono de porcentaje. c. Construya una distribución de porcentaje acumulado, y elabore un polígono de porcentaje acumulado. d. ¿A qué conclusiones llega a partir de estos análisis? 2.79 Suponga que desea estudiar las características de los modelos de automóviles del año 2002 en términos de las siguientes variables: caballos de potencia, millas por galón, longitud, anchura, requerimiento de ángulo de giro, peso y volumen de carga. AUTO2002 Fuente: “The 2002 Cars”, Copyright © 2002 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con permiso de Consumer Reports, abril de 2002, 22-71.
Para cada una de estas variables: a. Elabore una distribución de frecuencias y una distribución de porcentajes. b. Construya un histograma y un polígono de porcentajes. c. Elabore una distribución de porcentaje acumulado y trace un polígono de frecuencia acumulada. d. ¿A qué conclusiones llega respecto a los automóviles 2002? 2.80 En relación con las características de los modelos de automóviles del año 2002 AUTO2002 del problema 2.79. a. Construya una tabla de contingencia del tipo de tracción con el tipo de gasolina. b. Elabore una gráfica de barras agrupadas del tipo de tracción con el tipo de gasolina.
Problemas de repaso
c. Con base en los resultados de los incisos a) y b), ¿parece haber relación entre el tipo de transmisión y el tipo de gasolina? 2.81 Los datos del archivo STATES representan los resultados de la encuesta American Community, una muestra de hogares tomados de todos los estados durante el Censo de 2000 de Estados Unidos. Para cada una de las variables de promedio del tiempo en minutos del trayecto al trabajo, porcentaje de casa con ocho o más habitaciones, ingreso promedio del hogar y porcentaje de pagos hipotecarios que realizan los propietarios cuyos costos de casa exceden el 30% de su ingreso: a. Elabore una distribución de frecuencias y una distribución de porcentajes. b. Construya un histograma y un polígono de porcentaje. c. Construya una distribución de porcentaje acumulado y trace un polígono de porcentaje acumulado. d. ¿Qué conclusiones se obtienen de estas cuatro variables con base en los resultados de los incisos a) al c)? 2.82 La economía del béisbol ha causado una gran controversia desde que los propietarios de los equipos se quejaron de sus pérdidas económicas; los jugadores argumentan que los propietarios están ganando dinero y los fanáticos se quejan de lo caro que resulta asistir a un juego, por lo que prefieren quedarse en casa y ver los partidos por televisión. Además de los datos relacionados con las estadísticas de los equipos para la temporada 2001, el archivo BB2001 contiene las estadísticas del precio de los boletos de cada equipo; el índice del costo por fanático; ingresos por entrada en una temporada regular; ingresos por televisión, radio y cable local; todos los demás ingresos operativos; la compensación y los beneficios de los jugadores; otros gastos locales y nacionales, así como el ingreso de las operaciones derivadas del béisbol. Para cada una de estas variables, a. Construya una distribución de frecuencias y una distribución de porcentaje. b. Elabore un histograma y un polígono de porcentaje. c. Elabore una distribución de porcentaje acumulado y construya un polígono de porcentaje acumulado. d. Elabore un diagrama de dispersión para predecir el número de juegos ganados en el eje Y, y la compensación y beneficios del jugador en el eje X. ¿Qué conclusiones obtiene a partir de este diagrama de dispersión? e. ¿Qué conclusiones acerca de estas variables se obtienen con base en los resultados de los incisos a) al c)? 2.83 Los datos en el archivo AIRCLEANERS representan el precio, el costo anual de energía y el costo anual de los filtros para los limpiadores de aire de las habitaciones. a. Construya un diagrama de dispersión con el precio en el eje Y, y el costo de energía en el eje X. b. Elabore un diagrama de dispersión con el precio en el eje Y, y el costo de los filtros en el eje X. c. ¿A qué conclusiones se llega sobre el costo de la energía y el costo de los filtros en relación con el de los limpiadores de aire? Fuente: “Portable Room Air Cleaners”, Copyright © 2002 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con permiso de Consumer Reports, febrero de 2002, 47.
61
2.84 Los datos del archivo PRINTERS representan el precio, la velocidad del texto, costo del texto, tiempo de las fotografías de color y costo de las impresiones de las fotografías a color. a. Elabore un diagrama de dispersión con el precio y la velocidad del texto, precio y costo del texto, precio y tiempo de las fotografías a color, y precio y costo de las fotografías a color. b. Con base en los resultados del inciso a), ¿cree usted que alguna de las otras variables serían útiles para predecir el precio de la impresora? Explique su respuesta. Fuente: “Printers”, Copyright 2002 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con permiso de Consumer Reports, marzo de 2002, 51.
2.85 El Índice S&P 500 rastrea el movimiento general del mercado bursátil de acuerdo con el precio de las acciones de 500 grandes corporaciones. El archivo STOCKS2003 contiene los datos semanales para este índice, así como el precio semanal del cierre de las acciones para tres compañías durante 2003. Las variables incluidas son: WEEK —Semana que termina en una fecha dada. S & P —Cierre del valor semanal para el Índice S&P 500. SEARS —Cierre semanal del precio de las acciones de Sears. TARGET —Cierre semanal del precio de las acciones de Target. SARA LEE —Cierre semanal del precio de las acciones de Sara Lee. Fuente: finance.yahoo.com
a. Elabore un diagrama de series de tiempo para los valores de cierre semanal del Índice S&P 500 Sears, Roebuck and Company, Target Corporation y Sara Lee. b. Explique cualquier patrón que detecte en la gráfica. c. Escriba un resumen de sus hallazgos. 2.86 (Proyecto de clase) Permita que cada alumno de su clase responda a la pregunta “¿Qué bebida refrescante prefiere?”, para que el maestro registre los resultados en una tabla de resumen. a. Convierta los datos a porcentajes para construir un diagrama de Pareto. b. Analice sus hallazgos. 2.87 (Proyecto de clase) Permita que cada alumno de su clase sea clasificado con base en su género (masculino, femenino) y estado de empleo actual (sí, no) para que el maestro registre los resultados. a. Construya una tabla con porcentajes de fila o de columna, dependiendo de cuál considere que es más informativo. b. ¿Qué concluiría de este estudio? c. ¿Qué otras variables desearía conocer respecto al empleo con la finalidad de enriquecer sus hallazgos?
Reportes escritos de los ejercicios 2.88 De acuerdo con los resultados del problema 2.76 en la página 60 respecto al peso de las tablillas “Boston” y “Vermont”, escriba un reporte que evalúe si el peso de las paletas de los dos tipos de tablillas es congruente con las expectativas de la empresa. Asegúrese de incluir tablas y gráficas en el reporte.
62
CAPÍTULO 2 Presentación de datos en tablas y gráficas
2.89 De acuerdo con los resultados del problema 2.72 en la página 59 respecto a las quejas de la garantía de los neumáticos Firestone, escriba un reporte que evalúe las quejas de garantía de los neumáticos Firestone vendidos en los modelos Ford SUV. Asegúrese de incluir tablas y gráficas en el reporte.
PROYECTO EN EQUIPO Los datos del archivo MUTUALFUNDS2004 contienen información respecto a 12 variables de una muestra de 121 fondos de inversión. Las variables son: Fund —El nombre del fondo de inversión. Category —Tipo de acciones que comprende el fondo de inversión: de gran capital, capital medio, capital reducido. Objective —Objetivo de las acciones que comprenden el fondo de inversión: crecimiento o valor. Assets —Activos en millones de dólares. Fees —Cargos por ventas (sí o no). Expense ratio —Relación entre gastos y activos netos en porcentaje. 2003 Return —Rendimiento de 12 meses en 2003. Three-year return —Rendimiento anualizado de 2001 a 2003. Five-year return —Rendimiento anualizado de 1999 a 2003. Risk —Factor de riesgo de pérdida de los fondos de inversión clasificado como bajo, promedio o alto. Best quarter —Mejor resultado trimestral 1999 a 2003. Worst quarter —Peor resultado trimestral 1999 a 2003.
2.90 Para la variable de relación de gasto: a. Elabore un histograma. b. Construya polígonos de frecuencia para la proporción de gasto para los fondos de inversión que tengan tarifas y para los que no tengan tarifas en la misma gráfica. c. ¿Qué conclusiones acerca de la proporción de gasto se obtienen con base en los resultados de los incisos a) y b)? 2.91 Para la variable que contiene el rendimiento anualizado de cinco años de 1999 a 2003: a. Elabore un histograma. b. Construya polígonos de frecuencia del rendimiento anualizado de cinco años de 1999 a 2003 para los fondos de inversión de crecimiento y para los fondos de inversión de valor en la misma gráfica. c. ¿A que conclusiones llega acerca del rendimiento anualizado de cinco años entre 1999 y 2003, con base en los resultados de los incisos a) y b)? 2.91 Para la variable que contiene el rendimiento anualizado de tres años de 2001 a 2003: a. Elabore un histograma. b. Construya polígonos de frecuencia del rendimiento anualizado de tres años entre 2001 y 2003 para los fondos de inversión de crecimiento y para los fondos de inversión de valor en la misma gráfica. c. ¿A que conclusiones llega acerca del rendimiento anualizado de tres años entre 2001 y 2003, con base en los resultados de los incisos a) y b)?
CASO ACTUAL ADMINISTRACIÓN DEL SPRINGVILLE HERALD Las tarifas de publicidad son una importante fuente de ingresos para cualquier periódico. En un intento de incrementar estos ingresos y de minimizar errores costosos, la administración del Herald formó un equipo de trabajo encargado de mejorar el servicio al consumidor en el departamento de publicidad. Revise la colección de datos de la fuerza de trabajo (visite el sitio www. prenhall.com/HeraldCase/Ad_Errors.htm) e identifique los datos que son importantes para describir los problemas del ser-
vicio al consumidor. Para cada conjunto de datos que identifique, elabore la gráfica que considere más adecuada para los datos y explique su elección. También sugiera qué otra información respecto a los diferentes tipos de errores sería útil examinar. Ofrezca posibles cursos de acción que el equipo de trabajo o la administración puedan tomar para mejorar el servicio al consumidor.
CASO WEB En el escenario de “Uso de la estadística” se le pidió que recabara información que ayudara a elegir buenas opciones de inversión. Las fuentes para tal información incluyen firmas de correduría y consejeros de inversión. Aplique sus
conocimientos sobre el uso correcto de las tablas y gráficas en este Caso Web sobre las afirmaciones de previsión y excelencia de un servicio de inversión de Springville.
Apéndice
Visite el sitio en Internet de StockTout Investing Service en www.prenhall.com/Springville/StockToutHome.htm. Revise sus afirmaciones sobre inversión y los datos que las apoyan, y responda a lo siguiente: 1. ¿Cómo afecta la percepción que usted tiene de sus negocios la presentación de la información general acerca de StockTout en esta página? 2. ¿La afirmación de tener más ganadores que perdedores es una reflexión justa y precisa sobre la calidad de su servicio de inversión? Si no lo cree así, ofrezca una presentación alternativa que considere justa y precisa.
63
3. Los fondos de inversión de StockTout “Big Eight” son
parte de la muestra encontrada en el archivo MUTUALFUNDS2004. ¿Hay otros datos relevantes en ese archivo que pudieran incluirse en la tabla Big Eight? ¿Cómo alterarían estos nuevos datos su percepción de las afirmaciones de StockTout? 4. StockTout se enorgullece de que los fondos “Big Eight” han ganado valor en los últimos cinco años. ¿Está de acuerdo en que deben estar orgullosos de sus elecciones? ¿Por qué sí o por qué no?
REFERENCIAS 1. Huff, D., How to Lie with Statistics (Nueva York: Norton, 1954). 2. Microsoft Excel 2003 (Redmond, WA: Microsoft Corporation, 2002). 3. Minitab for Windows Version 14 (State College; PA: Minitab Inc., 2004). 4. SPSS ® Base 12.0 Brief Guide (Upper Saddle River, NJ: Prentice Hall, 2003). 5. Tufte, E.R., Envisioning Information (Cheshire, CT: Graphics Press, 1990).
6. Tufte, E.R., The Visual Display of Quantitative Information, 2a. ed. (Cheshire, CT: Graphics Press, 2002). 7. Tufte, E.R., Visual Explanations (Cheshire, CT: Graphics Press, 1997). 8. Wainer, H., Visual Revelations: Graphical Tales of Fate and Deception from Napoleon Bonaparte to Ross Perot (Nueva York: Copernicus/Springer-Verlag, 1997).
Apéndice 2 Uso del software para tablas y gráficas A2.1
EXCEL
Puede usar Excel para crear muchas de las tablas y gráficas explicadas en este capítulo. Si no ha leído aún el apéndice 1.2 “Introducción a Excel”, en la página 13, debe hacerlo ahora.
Tablas de resumen Use el Asistente para tablas y gráficos dinámicos para generar una tabla de resumen. Para generar una tabla de resumen similar a la tabla 2.2 en la página 23, abra la hoja de trabajo MUTUALFUNDS2004.xls en Datos. Seleccione Datos ➜ Infor-
me de tablas y gráficos dinámicos (Datos ➜ Informe de tablas dinámicas en Excel 97) y haga estas elecciones en las ventanas de diálogo del Asistente de tablas y gráficos dinámicos: Paso 1: Seleccione la lista Excel o la opción Datos y la opción Informe de tablas y gráficos dinámicos (si aparece) y dé clic en Siguiente. Paso 2: Ingrese J1:J122 como Rango y dé clic en Siguiente. Paso 3: Seleccione la opción Hoja de cálculo nueva y dé clic en el botón de Diseño.
64
CAPÍTULO 2 Presentación de datos en tablas y gráficas
En la ventana de diálogo de Diseño, primero mueva una copia de la pestaña Riesgo al área de FILA. Después mueva la segunda copia de la pestaña Riesgo al área de DATOS, lo que cambia la pestaña a Conteo de riesgo. Dé clic en Aceptar para regresar a la ventana de diálogo principal del paso 3 y dé clic en el botón de Opciones para continuar. En la ventana de diálogo de Opciones para la tabla dinámica, ingrese un nombre autodescriptivo para la tabla en el cuadro de edición Nombre y 0 en el cuadro de edición Mostrar para celdas vacías. Dé clic en Aceptar para regresar a la ventana de diálogo principal del paso 3. Dé clic en Finalizar en la ventana de diálogo principal del paso 3 para producir la tabla dinámica.
Paso 3: Seleccione las opciones de formato y rótulos de gráfico para la gráfica. (Vea “Uso del Asistente para gráficos de Excel” en la página 15 para sugerencias.) Dé clic en Siguiente.
Renombre la nueva hoja de trabajo con un nombre autodescriptivo. (Puede cerrar cualquier barra de herramientas o ventanas que aparezcan sobre la tabla dinámica para mejorar la visualización.) Para agregar una columna de porcentaje, ingrese Porcentaje en la celda C4 de la nueva hoja de trabajo e ingrese la fórmula =B5/B$8 en la celda C5. Copie esta fórmula hacia abajo hasta la celda C7. Formatee el rango de celda C5:C7 para mostrar el porcentaje. Ajuste el número de decimales mostrados y el ancho de la columna C si desea generar una tabla similar a la de la figura A2.1.
Organice su hoja de trabajo para que cada variable aparezca en su propia columna, ingrese un título de la variable columna en la fila 1 y los valores para la variable iniciando en la fila 2. (Éste es el formato de los archivos Excel incluidos en el CDROM que acompaña este texto.) Seleccione Datos ➜ Ordenar. En la ventana de diálogo de Ordenar, seleccione la variable a ordenar de la lista hacia abajo Ordenar por. Seleccione el primer botón de la opción Ascendente o Descendente, deje seleccionado el botón Encabeza fila y dé clic en Aceptar.
Paso 4: Seleccione En una hoja nueva y dé clic en Finalizar. Si aparecen botones de campo en la gráfica, dé un clic derecho en cualquier botón del campo y seleccione Ocultar botones de campo gráfico dinámico del menú corto. O Vea la sección G.1 (Gráficos y tablas de una variable) si desea que PHStat2 genere para usted un diagrama de Pareto como una gráfica de Excel. (No hay comandos en Excel que generen directamente un diagrama de Pareto.)
Arreglo ordenado
Diagrama de tallo y hojas Vea la sección G2 (Diagrama de tallo y hojas) si desea que PHStat2 genere un diagrama de tallo y hojas como gráfica de Excel. (No hay comandos en Excel que generen directamente estos diagramas.)
Distribuciones de frecuencias e histogramas
FIGURA A2.1 Tabla de resumen completa.
Use el Data Analysis Toolpak para crear distribuciones de frecuencias e histogramas. Abra la hoja de trabajo que contenga los datos que desee resumir. Seleccione Herramientas ➜ Análisis de datos. De la lista que aparece en la ventana de diálogo de Análisis de datos, seleccione Histograma y dé clic en Aceptar. En la ventana de diálogo de Histograma (vea la figura A2.2)
O Vea la sección G.1 (Tablas y gráficas de una variable) si desea que el PHStat2 genere una tabla de resumen para usted.
Gráfica de barras o de pastel Use el Asistente para gráficos de Excel para generar una gráfica de barra o de pastel. Si no está familiarizado con este asistente, lea antes “Uso del Asistente para gráficos de Excel” (página 15). Primero cree una tabla de resumen de la tabla dinámica. Con la tabla en pantalla, dé clic en una celda fuera de la tabla, seleccione Insertar ➜ Gráfica y haga las siguientes entradas en las ventanas de diálogo del Asistente gráfico: Paso 1: Dé clic en Barra (para una gráfica de barra) o en Pastel en la ventana Tipos estándar Tipo de gráfico y deje seleccionado el primer Subtipo de gráfico. Dé clic en Siguiente. Paso 2: Con el cursor parpadeante en la ventana Rango de datos, dé clic en la tabla dinámica para que Excel llene la dirección de la tabla dinámica por usted. Dé clic en Siguiente.
FIGURA A2.2 Ventana de diálogo del histograma análisis de datos.
Apéndice
ingrese el rango de celda de los datos en Rango de entrada. Después seleccione Rótulos si está utilizando datos que estén ordenados como los datos en los archivos Excel. Por último, seleccione Resultado de la gráfica y dé clic en Aceptar. (Vea la sección G.3 [Histogramas y polígonos] para una explicación sobre el Bin Range.) La distribución de frecuencias y el histograma aparecerán juntos o en una hoja de trabajo separada. O Vea la sección G.3 (Histograma y polígonos) si desea que PHStat2 genere una distribución de frecuencia y un histograma.
Polígonos de porcentaje y de porcentaje acumulado Vea la sección G.3 (Histograma y polígonos) si desea que PHStat2 genere polígonos de porcentaje y de porcentajes acumulados como gráficas de Excel. (No hay comandos de Excel que produzcan directamente polígonos de porcentaje y de porcentaje acumulado.)
Tablas de contingencia y gráficas de barras agrupadas Use los Asistentes de gráficos dinámicos y de Gráficos para crear tablas de contingencia y una gráfica de barras agrupadas. Para crear una tabla de contingencia similar a la tabla 2.14 de la página 44, abra la hoja de trabajo MUTUALFUNDS2004.XLS en Datos. Seleccione Datos ➜ Informe de tablas y gráficos dinámicos (Datos ➜ Informe de tabla dinámica en Excel 97) y realice las siguientes entradas en la ventana de diálogo del Asistente de tablas y gráficos dinámicos: Paso 1: Seleccione la opción lista de Excel o base de datos y la opción (si aparece) Tabla dinámica, y dé clic en Siguiente. Paso 2: Ingrese C1:J122 como Rango y dé clic en Siguiente. Paso 3: Seleccione la opción Hoja de trabajo nueva y dé clic en el botón Diseño. En la ventana de diálogo de Diseño, primero mueva una copia del rótulo Objetivo hacia el área de FILA. Después mueva una segunda copia del rótulo Objetivo al área de DATOS, lo que cambiará el rótulo a Cuenta de objetivo. Mueva una copia del rótulo Riesgo al área de COLUMNA. Dé clic en Aceptar para regresar al menú principal de la ventana de diálogo del Paso 3 y dé clic en el botón de Opciones para continuar. En la ventana de diálogo de las Opciones de tabla dinámica, ingrese un nombre autodescriptivo para la tabla en el cuadro de edición Nombre y 0 en el cuadro de edición Mostrar para celdas vacías. Dé clic en Aceptar para regresar a la ventana de diálogo principal del paso 3 para generar la tabla dinámica. Para crear una gráfica de barras agrupadas, dé clic en la celda fuera de la tabla bivariada, seleccione Insertar ➜ Gráfica, y realice las siguientes entradas en las ventanas de diálogo del Asistente gráfico:
65
Paso 1: Dé clic en Barra en la ventana de Gráficos de tipo estándar y deje el primer Subtipo de gráfico seleccionado. Dé clic en Siguiente. Paso 2: Con el cursor parpadeando en la ventana de Rango de datos, dé clic en Tabla dinámica para que Excel llene la dirección de la Tabla dinámica por usted. Dé clic en Siguiente. Paso 3: Seleccione las opciones de formato y rótulo de gráfica para la gráfica. (Vea “Uso del Asistente para gráficos de Excel” en la página 15 para sugerencias.) Dé clic en Siguiente. Paso 4: Seleccione Como una hoja nueva y dé clic en Finalizar. Si aparecen botones de campo en la gráfica, dé un clic derecho en cualquier botón y elija Ocultar botones de campo gráfico dinámico del menú corto. O Vea la sección G.4 (Tablas y gráficas bivariadas) si desea que PHStat2 genere una tabla de resumen de dos variables y una gráfica agrupada.
Diagrama de dispersión Use el Asistente para gráficos para generar un diagrama de dispersión. Para crear un diagrama de dispersión similar al de la figura 2.15 de la página 47, abra la hoja de trabajo de MUTUALFUNDS2004.XLS en Datos. Seleccione Insertar ➜ Gráfico, y haga las siguientes entradas en las ventanas de diálogo del Asistente gráfico: Paso 1: Dé clic en XY (Dispersión) de la ventana de Gráficos tipo estándar y deje seleccionado el primer Subtipo gráfico. Dé clic en Siguiente. Paso 2: Ingrese F1:G122 en la ventana de Rango de datos, seleccione la opción Columnas y dé clic en Siguiente. Paso 3: Seleccione las opciones de formato y rótulo de gráfico para la gráfica. (Vea “Uso del Asistente para gráficos de Excel” en la página 15 para sugerencias.) Dé clic en Siguiente. Paso 4: Seleccione Como una hoja nueva y dé clic en Finalizar. Esté al tanto de que el Asistente gráfico siempre supone que la primera columna de rango de datos (columna F en este ejemplo) contiene los datos de la variable X. Si tiene una hoja en la que los datos de la variable Y aparecen primero, entonces necesitará reordenar las columnas (o copiarlas en orden en una nueva hoja) antes de usar el Asistente gráfico.
A2.2
MINITAB
Minitab se utiliza para crear muchas de las tablas y gráficas de las que hablamos en este capítulo. Si aún no ha leído el apéndice 1.3, “Introducción al Minitab”, en la página 17, debe hacerlo ahora.
66
CAPÍTULO 2 Presentación de datos en tablas y gráficas
Reclasificar datos
Gráfica de barras
Los datos a menudo se ordenan para que los valores de las variables se apilen verticalmente hacia abajo en una columna. En muchos casos se requiere analizar de forma separada los diferentes subgrupos en términos de una variable numérica de interés. Por ejemplo, en los datos de los fondos de inversión, tal vez usted quiera analizar de forma separada el porcentaje del rendimiento en 2003 de los fondos de crecimiento y de los fondos de valor. Esto se logra reclasificando la variable del porcentaje de rendimiento 2003, para que, en una columna, estén localizados los porcentajes de rendimiento en 2003 de los fondos de crecimiento y, en otra, los porcentajes de rendimiento en 2003 de los fondos de valor. Para lograr esto, abra la hoja de trabajo MUTUALFUNDS 2004.MTW. Select Data ➜ Unstack Columns (Seleccionar Datos ➜ Reclasificar columnas). Después haga lo siguiente:
Para producir la gráfica de barras en la figura 2.1, de la página 23, abra la hoja de trabajo ONLINESHOPPING.MTW. Seleccione Graph ➜ Bar Chart (Gráfica ➜ Gráfica de barras) y después haga lo siguiente: Paso 1: En la ventana de diálogo de Bar charts (vea la figura A2.4), en Bars represent: despliegue hacia abajo la lista, seleccione Values from a table (Valores de una tabla) ya que se dan las frecuencias en cada categoría. [Si está usando datos brutos como los de la hoja de trabajo MUTUALFUNDS2004.MTW, seleccione Counts of unique values (Conteo de valores únicos) en la ventana de diálogo de bars represent.] Seleccione Simple (Sencilla) en la ventana de gráficos. Dé clic en el botón OK.
Paso 1: En la ventana de diálogo con el título Unstack Columns (vea la figura A2.3), ingrese C7 o Return 2003 (Rendimiento 2003) en el cuadro de edición Unstack the data in (Reclasificar los datos en).
FIGURA A2.3 Ventana de diálogo para reclasificar columnas de Minitab. Paso 2: Ingrese C3 u Objective (Objetivo) en el cuadro de edición Using Subscripts in: (Usar subíndices en:) Paso 3: Seleccione el botón de opción After last column in use (Después de la última columna en uso). Seleccione el cuadro de exploración Name the columns containing the unstacked data (Nombre las columnas que contienen los datos reclasificados). Dé clic en el botón OK. Las nuevas variables Return2003_Growth y Return2003_Value están ahora en las columnas C13 y C14. Cambie los nombres de estas variables como lo desee.
FIGURA A2.4 Ventana de diálogo gráficas de barras de Minitab. Paso 2: En la ventana con el título Values from a table, One column of values, Simple (Valores de una tabla, una columna de valores, Ventana de diálogo sencilla), como la que aparece en la figura A2.5, ingrese C2 o Percentage (%) en el cuadro de edición Graph Variables (Variables de gráfica). Ingrese C1 o Razón en el cuadro de edición de Categorical Variable (Variable categórica). Dé clic en el botón OK.
Apéndice
67
tos de una hoja de trabajo. (Si utiliza las frecuencias de cada categoría como en la hoja de trabajo de ONLINE SHOPPING.MTW, seleccione la opción Chart values from a table (Valores para la gráfica de una tabla.) Ingrese C10 o Risk (Riesgo) en el cuadro de edición Categorical variables. Paso 2: Seleccione el botón Labels (Rótulos). En la ventana de diálogo con el título Pie Chart—Labels (vea la figura A2.7), seleccione la pestaña Slice Labels (Rótulos para rebanadas). Después seleccione las ventanas de diálogo Category name y Percent (Nombre de la categoría y Porcentaje). Dé clic en el botón OK para regresar a la ventana de diálogo de Gráfica de pastel. Dé clic en el botón OK.
FIGURA A2.5 Gráfica de barras Minitab: valores de una tabla, una columna de valores, ventana de diálogo sencilla. Para seleccionar los colores de las barras y los límites en la gráfica de barras: Paso 1: Dé clic derecho en cualquiera de las barras de la gráfica de barras. Paso 2: Seleccione Edit bars (Editar barras). Paso 3: En la pestaña Attributes (Atributos) de la ventana de diálogo Edit Bars, ingrese las selecciones para Fill Pattern, Border y Fill Lines (Llenar el patrón, Límite y Llenar líneas).
Gráfica de pastel Para generar una gráfica de pastel similar a la de la figura 2.4 en la página 25, abra la hoja de cálculo MUTUALFUNDS 2004.MTW. Seleccione Graph ➜ Pie Chart (Gráfica ➜ Gráfica de pastel). Después haga lo siguiente: Paso 1: En la ventana de diálogo con el título Pie Chart (vea la figura A2.6), seleccione la opción Chart raw data (Gráfica datos brutos), ya que está usando datos bru-
FIGURA A2.7 Ventana de diálogo gráfica de pastel —rótulos en Minitab.
Diagrama de Pareto Para generar el diagrama de Pareto de la figura 2.6 en la página 27, abra la hoja de trabajo KEYBOARD.MTW. Este conjunto de datos contiene las causas de los defectos en la columna C1 y la frecuencia de los defectos en la columna C2. Seleccione Stat ➜ Quality Tools ➜ Pareto Chart (Stat ➜ Herramientas de Calidad ➜ Diagrama de Pareto). En la ventana de diálogo del diagrama de Pareto (vea la figura A2.8). Paso 1: Seleccione la opción Chart defects table (Tabla de defectos de gráfica). Paso 2: En el cuadro de edición Labels in, ingrese C1 o Cause (Causa). Paso 3: En el cuadro de edición Frequencies in, ingrese C2 o Frequency (Frecuencia).
FIGURA A2.6 Ventana de diálogo para gráficas de pastel de Minitab.
Paso 4: En la ventana Combine defects after the first (Combinar defectos después de), ingrese 99.9. Paso 5: Dé clic en el botón OK.
68
CAPÍTULO 2 Presentación de datos en tablas y gráficas
FIGURA A2.8 Ventana de diálogo para el diagrama de Pareto en Minitab. Si la variable de interés estaba localizada en una única columna y está en forma bruta con cada fila indicando un tipo de error, deberá seleccionar la opción Chart defects data in (Datos de defectos de gráfica en), e ingresar el número de columna apropiado o el nombre de la variable en la ventana correspondiente.
Diagrama de tallo y hojas
FIGURA A2.10 Ventana de diálogo para histogramas en Minitab. Paso 2: En la ventana de diálogo Histogram-Simple (vea la figura A2.11), ingrese C7 o Return 2003 en el cuadro de edición Graph Variables. Dé clic en el botón OK.
Para generar un diagrama de tallo y hojas del rendimiento en 2003 de todos los fondos de inversión, abra la hoja de trabajo MUTUALFUNDS2004.MTW. Seleccione Graph ➜ Stem-andLeaf (Gráfica ➜ Tallo y hojas). En la ventana de diálogo Stemand-Leaf (vea la figura A2.9), ingrese C7 o ‘Return 2003’ en el cuadro de edición Graph Variables. Dé clic en el botón OK.
FIGURA A2.11 Ventana de diálogo histogramasimple de Minitab. Para seleccionar los colores para las barras y los bordes en los histogramas, Paso 1: Dé un clic derecho en cualquiera de las barras del histograma.
FIGURA A2.9 Ventana de diálogo para diagrama de tallo y hojas en Minitab.
Histograma Para generar el histograma de los rendimientos en 2003 de todos los fondos de inversión, abra la hoja de trabajo MUTUALFUNDS2004.MTW. Seleccione Graph ➜ Histogram (Gráfica ➜ Histograma). Paso 1: En la ventana de diálogo de Histograms (vea la figura A2.10) seleccione Simple. Dé clic en el botón OK.
Paso 2: Seleccione Edit bars. Paso 3: En la pestaña de Attributes de la ventana de diálogo de Edit Bars, ingrese las selecciones para llenar patrones, bordes y rellenar filas. Paso 4: Para definir sus propios agrupamientos de clase, seleccione la pestaña Binning. Seleccione la opción Midpoint (Punto medio) para especificar los puntos medios o la opción Cutpoints (Puntos límite) para especificar los límites de clase. Seleccione la opción Midpoint/Cutpoint positions. Ingrese el conjunto de valores en el cuadro de edición.
Apéndice
69
Si desea crear histogramas separados para los fondos de crecimiento y de valor similares a los de la figura 2.9, en la página 38, primero debe reclasificar los datos (vea la página 66) y crear variables separadas para el rendimiento en el año 2003 de los fondos de crecimiento y de valor. Entonces podrá crear histogramas separados para cada uno de los dos grupos.
Tabla de contingencia Para generar tablas de contingencia similares a las tablas 2.14 a 2.17 de la página 44, abra la hoja de trabajo MUTUALFUNDS 2004.MTW. Seleccione Stat ➜ Tables ➜ Cross Tabulation (Tablas de contingencia) y Chi-Square (Chi-cuadrada). Paso 1: En la ventana de diálogo Cross Tabulation y ChiSquare (vea la figura A2.12), ingrese C3 u Objective en la ventana de editar For rows (para las filas). Ingrese C10 o Risk en el cuadro de edición For columns (para las columnas).
FIGURA A2.13 Ventana de diálogo para gráficas de barra Minitab: conteo de valores únicos, agrupar.
Paso 2: Seleccione los cuadros de exploración de Counts, Row percents, Column percents y Total percents. Dé clic en el botón OK.
Diagrama de dispersión y diagrama de series de tiempo Para generar un diagrama de dispersión de la proporción de gasto del rendimiento en 2003 de los fondos de inversión (vea la figura 2.15 en la página 47), abra la hoja de trabajo MUTUALFUNDS2004.MTW. Seleccione Graph ➜ Scatterplot (Diagrama de dispersión). Paso 1: En la ventana de diálogo Scatterplots (vea la figura A2.14), seleccione Simple. Dé clic en el botón OK.
FIGURA A2.12 Ventana de diálogo Minitab de tablas de contingencia y chi-cuadrada.
Gráfica de barras agrupadas Para generar una gráfica de barras agrupadas similar a la de la figura 2.14 en la página 45, abra la hoja de trabajo MUTUALFUNDS2004.MTW. Seleccione Graph ➜ Bar Chart. Paso 1: En la ventana de diálogo de Bar Charts (vea la figura A2.4 en la página 66), en Bars represent, despliegue la lista hacia abajo, seleccione Counts of unique values puesto que está usando valores brutos. Seleccione la gráfica Cluster (Agrupada). Dé clic en el botón OK. Paso 2: En la ventana con el título Bar chart-Counts of unique values, Cluster (vea la figura A2.13), ingrese C3 u Objective y C10 o Risk en el cuadro de edición Categorical variables. Dé clic en el botón OK.
FIGURA A2.14 Ventana de diálogo para diagramas de dispersión en Minitab. Paso 2: En la ventana de diálogo con el título ScatterplotSimple (vea la figura A2.15), ingrese C7 o ‘Return 2003’ en el cuadro de edición de las variables Y en la fila 1. Ingrese C6 o ‘Expense ratio’ (Proporción de gastos) en el cuadro de edición de las variables X en la fila 1. Dé clic en el botón OK.
70
CAPÍTULO 2 Presentación de datos en tablas y gráficas
Para crear un diagrama de series de tiempo, utilice el eje X para el tiempo y el eje Y para la variable de interés.
FIGURA A2.15 Ventana de diálogo diagrama de dispersión-simple de Minitab.
capítulo
3
MEDIDAS NUMÉRICAS DESCRIPTIVAS
Objetivos En este capítulo, aprenderá: • A describir las propiedades de tendencia central, variación y forma de los datos numéricos • A calcular las medidas descriptivas de una población
• •
A construir e interpretar una gráfica de caja y bigote A describir la covarianza y el coeficiente de correlación
Contenido del capítulo USO DE LA ESTADÍSTICA: Evaluación de los rendimientos de los fondos de inversión 3.1 Medidas de tendencia central, variación y forma 72 La media 73 La mediana 75 La moda 76 Cuartiles 77 La media geométrica 79 Rango 80 Rango intercuartil 81 La varianza y la desviación estándar 82 Coeficiente de variación 85 Puntuaciones Z 86 Forma 88 Exploraciones visuales: Exploración de la estadística descriptiva 89 Resultado de la estadística descriptiva en Excel 88 Resultado de la estadística descriptiva en Minitab 89
3.2 Medidas numéricas descriptivas de una población 94 La media poblacional 94 Varianza y desviación estándar poblacionales 95 La regla empírica 96 La regla de Chebyshev 97 3.3 Análisis exploratorio de datos 99 Resumen de cinco números 99 Gráfica de caja y bigote 100 3.4 La covarianza y el coeficiente de correlación 103 La covarianza 103 Coeficiente de correlación 105 3.5 Errores en las medidas numéricas descriptivas y consideraciones éticas 109 A.3 Uso de software para la estadística descriptiva 118 A3.1 Excel 118 A3.2 Minitab 119
72
CAPÍTULO 3 Medidas numéricas descriptivas
U S O D E L A E S TA D Í S T I C A Evaluación de los rendimientos de los fondos de inversión Retomemos el estudio de los fondos de inversión presentado en el capítulo 2. Usted debe decidir en qué clases de fondos invertir. En el capítulo anterior se estudió cómo presentar datos en tablas y gráficas. Sin embargo, al ocuparse de datos numéricos como el rendimiento de las inversiones en los fondos de inversión durante 2003, también necesita resumir los datos y plantear preguntas estadísticas. ¿Cuál es la tendencia central del rendimiento de los diversos fondos? Por ejemplo, ¿cuál fue el rendimiento promedio de los fondos de inversión con riesgo bajo, medio y alto durante 2003? ¿Qué tanta variabilidad hay en los rendimientos? ¿El rendimiento de los fondos de alto riesgo varía más que el correspondiente a los de riesgo promedio o bajo? ¿Cómo puede utilizar esta información al decidir en cuáles fondos invertir?
P
ara las variables numéricas, usted necesita más que la simple imagen visual de una variable obtenida a partir de las gráficas analizadas en el capítulo 2. Por ejemplo, a usted le gustaría determinar no sólo si durante 2003 los fondos más riesgosos tuvieron un rendimiento superior, sino también si tuvieron más variación y cómo se distribuyeron en cada grupo de riesgo. También desea examinar si existe alguna relación entre el coeficiente de gastos y los rendimientos de 2003. La lectura de este capítulo le permitirá aprender sobre algunos métodos de medición:
• • •
Tendencia central, es la medida que describe cómo todos los valores de los datos se agrupan en torno a un valor central. Variación, es la cantidad de disgregación o dispersión de los valores con respecto a un valor central. Forma, es el patrón de distribución de los valores desde el menor hasta el mayor.
También aprenderá sobre la covarianza y el coeficiente de correlación, que ayudan a medir la fuerza de asociación entre dos variables numéricas.
3.1
MEDIDAS DE TENDENCIA CENTRAL, VARIACIÓN Y FORMA Es posible caracterizar cualquier conjunto de datos numéricos por la medición de su tendencia central, variación y forma. La mayoría de los conjuntos de datos presentan una tendencia central a agruparse en torno a un valor central. Cuando la gente habla de un “promedio”, o “valor medio”, o del valor más común o frecuente, se refiere de manera informal a la media, la mediana y la moda, tres medidas de tendencia central. La variación mide la distribución o dispersión de valores que conforman el conjunto de datos. Una medida simple de la variación es el rango, que es la diferencia entre los valores máximo y mínimo. En la estadística, son de uso más común la desviación estándar y la varianza, dos medidas que se explican más adelante en esta sección. La forma de un conjunto de datos representa un patrón para todos los valores, desde el mínimo hasta el máximo. Como se observará más adelante en esta sección, muchos conjuntos de datos tienen un patrón semejante a una campana, cuya cima de valores está en alguna parte del centro.
3.1: Medidas de tendencia central, variación y forma
73
La media La media aritmética (por lo general llamada la media) es la medida más común de la tendencia central. La media es la medida más común en la que todos los valores desempeñan el mismo papel. La media sirve como “punto de equilibrio” del conjunto de datos (como el punto de apoyo de un balancín). La media se calcula sumando todos los valores del conjunto de datos y dividiendo el resultado por el número de valores considerados. , llamado X testada. Si se conPara representar a la media de una muestra, utilice el símbolo X sidera una muestra que contiene n valores, la ecuación de su media se escribe como: X =
suma de los valores número de valores
Al utilizar la serie X1, X2, . . . , Xn para representar al conjunto de n valores y n para representar al número de valores, la ecuación se convierte en: X =
X1 + X 2 + + X n n
Al utilizar la notación de sumatoria (que se explica en el apéndice B), reemplace el numerador Xx + X2 + … + Xn por el término
n
∑ X i , que significa la suma de todos los valores Xi desde el prii =1
mer valor de X, que es Xl, hasta el último valor de X, que es Xn , para formar la ecuación (3.1), una definición formal de la media de una muestra.
MEDIA DE UNA MUESTRA La media de una muestra es la suma de los valores dividida por el número de valores. n
X =
donde
∑ Xi i =1
(3.1)
n
X = media de la muestra n = número de valores o tamaño de la muestra Xi = i-ésimo valor de la variable X n
∑ X i = sumatoria de todos los valores Xi de la muestra i =1
Como todos los valores desempeñan un papel semejante, una media se verá muy afectada por cualquier valor que difiera mucho de los demás en el conjunto de datos. Cuando tenga tales valores extremos, debe evitar el uso de la media. La media sugiere cuál es un valor “típico” o central del conjunto de datos. Por ejemplo, si usted conoce el tiempo que le lleva arreglarse por las mañanas, podrá planear mejor su inicio del día y reducir al mínimo cualquier retraso (o adelanto) para llegar a su destino. Suponga que define en minutos (redondeando al minuto más cercano) el tiempo que le lleva arreglarse, desde que se levanta hasta que sale de casa. A lo largo de 10 días hábiles consecutivos, usted recaba los tiempos que se muestran a continuación: TIMES Día: Tiempo (minutos):
1
2
3
4
5
6
7
39
29
43
52
39
44
4031
8
9
10
44
35
74
CAPÍTULO 3 Medidas numéricas descriptivas
El tiempo medio es 39.6 minutos, que se calculó como sigue: X =
suma de los valores número de valores n
X =
∑ Xi i =1
n
X =
39 + 29 + 43 + 52 + 39 + 44 + 40 + 31 + 44 + 35 10
X =
396 = 39.6 10
A pesar de que ni un solo día de la muestra tuvo en realidad el valor de 39.6 minutos, asignar 40 minutos a su arreglo personal sería un buen criterio para planear su inicio del día, pero sólo porque esos 10 días no contienen ningún valor extremo. Compare lo anterior con el caso en que el valor del cuarto día fue de 102 minutos en lugar de 52. Este valor extremo provocaría que la media aumentara a 44.6 minutos, como se observa a continuación: suma de los valores X = número de valores n
X = X =
∑ Xi i =1
n
446 = 44.6 10
Un valor extremo elevó la media en más del 10%, de 39.6 a 44.6 minutos. En contraste con la media original, que estaba “en medio”, mayor que cinco de los tiempos (y menor que los otros cinco), la nueva media es mayor que 9 de los 10 tiempos de arreglo. El valor extremo provocó que la media sea una mala medida de tendencia central.
EJEMPLO 3.1
EL RENDIMIENTO MEDIO EN 2003 DE LOS FONDOS DE INVERSIÓN PARA PEQUEÑOS CAPITALES Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y el tamaño del capital invertido (pequeño, mediano y gran capital). Calcule el rendimiento medio en 2003 de los fondos de inversión de alto riesgo para capitales reducidos. SOLUCIÓN El rendimiento medio en 2003 de los fondos de inversión para capitales reducidos (MUTUALFUNDS2004) es 51.53 calculados de la siguiente manera: X =
suma de los valores número de valores n
= =
∑ Xi i =1
n
463.8 = 51.53 9
El arreglo ordenado de los nueve fondos de inversión de alto riesgo para pequeños capitales es: 37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
Cuatro de estos rendimientos están por debajo de la media de 51.53, y cinco están por encima de ella.
3.1: Medidas de tendencia central, variación y forma
75
La mediana La mediana es el valor que divide en dos partes iguales a un conjunto de datos ya ordenado. La mediana no se ve afectada por los valores extremos, de manera que puede utilizarse cuando están presentes.
La mediana es el valor medio de un conjunto de datos ordenado de menor a mayor. Para calcular la mediana del conjunto de datos, primero ordene los valores de menor a mayor. Utilice la ecuación (3.2) para calcular la clasificación del valor que corresponde a la mediana.
MEDIANA El 50% de los valores son menores que la mediana y el otro 50% son mayores. Mediana =
n +1 valor clasificado 2
(3.2)
Calcule el valor de la mediana siguiendo una de las dos reglas siguientes:
• •
Regla 1 Si en el conjunto de datos hay un número impar de valores, la mediana es el valor colocado en medio. Regla 2 Si en el conjunto de datos hay un número par de valores, entonces la mediana es el promedio de los dos valores colocados en medio.
Para calcular la mediana de la muestra de los 10 tiempos para arreglarse en las mañanas, los tiempos diarios se ordenan de la siguiente manera: Valores ordenados: 29
31
35
39
39
4043
1
2
3
4
5
6
44
44
52
8
9
10
Clasificación: 7
↑ Mediana = 39.5 Puesto que para esta muestra de 10 elementos el resultado de dividir n + 1 entre 2 es (10 + l)/2 = 5.5, debe utilizarse la regla 2 y promediar los valores clasificados quinto y sexto, 39 y 40. Por lo tanto, la mediana es 39.5. Una mediana de 39.5 significa que la mitad de los días, el tiempo necesario para arreglarse es menor o igual que 39.5 minutos, y la otra mitad de los días es mayor o igual que 39.5 minutos. Esta mediana de 39.5 minutos es muy cercana a la media del tiempo para arreglarse de 39.6 minutos.
EJEMPLO 3.2
CÁLCULO DE LA MEDIANA DE UNA MUESTRA CON UN NÚMERO IMPAR DE ELEMENTOS Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y con el tamaño del capital invertido (pequeño, mediano y gran capital). Calcule la mediana del rendimiento en 2003 de los nueve fondos de inversión de alto riesgo para pequeños capitales. MUTUALFUNDS2004 SOLUCIÓN Puesto que para esta muestra de nueve elementos el resultado de dividir n + 1 entre 2 es (9 + l)/2 = 5, al utilizar la regla 1, la mediana es el valor clasificado como quinto. Ordene el porcentaje del rendimiento en 2003 de los nueve fondos de inversión de alto riesgo para pequeños capitales de menor a mayor:
76
CAPÍTULO 3 Medidas numéricas descriptivas
Valores ordenados: 37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
1
2
3
4
5
6
7
8
9
Clasificación: ↑ Mediana La mediana del rendimiento es 53.8. La mitad de estos fondos de inversión tienen rendimientos iguales o menores que 53.8 y la otra mitad tiene rendimientos iguales o superiores.
La moda La moda es el valor del conjunto de datos que aparece con mayor frecuencia. Al igual que en la mediana y a diferencia de la media, los valores extremos no afectan a la moda. Usted sólo debe utilizar la media con propósitos descriptivos, ya que varía más de una muestra a otra que la media o la mediana. Con frecuencia, en un conjunto de datos no existe moda, o bien, hay varias modas. Por ejemplo, considere los datos de tiempo para arreglarse que se muestran a continuación. 29
31
35
39
39
4043
44
44
52
Existen dos modas, 39 y 44 minutos, ya que cada uno de estos valores aparece dos veces.
EJEMPLO 3.3
CÁLCULO DE LA MODA El gerente de sistemas encargado de la red de una empresa lleva un registro del número de fallas del servidor que se presentan por día. Calcule la moda de los siguientes datos, que representan el número de fallas diarias del servidor durante las últimas dos semanas. 1
3
0
3
26
2
7
4
0
2
3
3
6
3
SOLUCIÓN El arreglo ordenado de estos datos es: 0
0
1
2
2
3
3
3
3
3
4
6
7
26
Como el 3 aparece cinco veces, más que ningún otro valor, la moda es 3. De esta forma, el gerente de sistemas se dará cuenta de que la situación más común es la presencia de tres fallas del servidor al día. Para este conjunto de datos, la mediana también es igual a 3, mientras que la media es de 4.5. El valor extremo de 26 es atípico. Con estos datos, la mediana y la moda miden la tendencia central mejor que la moda. Un conjunto de datos no tiene moda cuando ninguno de los valores es “más frecuente”. En el ejemplo 3.4 aparece un conjunto de datos sin moda.
EJEMPLO 3.4
DATOS SIN MODA Calcule la moda del rendimiento medio en 2003 de los fondos de inversión de alto riesgo para pequeños capitales. MUTUALFUNDS2004 SOLUCIÓN El arreglo ordenado para estos datos es: 37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
Estos datos no tienen moda. Ninguno de sus valores aparece con mayor frecuencia; cada uno aparece sólo una vez.
3.1: Medidas de tendencia central, variación y forma
77
Cuartiles
1El
Q1, la mediana y el Q3 también son el 25, 50 y 75° percentil, respectivamente. Por lo general, las ecuaciones (3.2), (3.3) y (3.4) se expresan en términos de cálculo de percentiles: percentil (p * 100)° = valor clasificado p * (n + 1).
Los cuartiles dividen a un conjunto de datos en cuatro partes iguales: el primer cuartil Q1 separa al 25.0%, que abarca a los valores más pequeños, del 75.0% restante, constituido por los que son mayores. El segundo cuartil Q2 es la mediana: 50.0% de sus valores son menores que la mediana y 50.0% son mayores. El tercer cuartil Q3 separa al 25.0%, que abarca a los valores más grandes, del 75.0% restante constituido por los que son menores. Las ecuaciones (3.3) y (3.4) definen a los cuartiles primero y tercero.1
PRIMER CUARTIL Q1
El 25.0% de los valores son menores que el primer cuartil Q1, y el 75.0% son mayores que el primer cuartil Q1. n+1 Q1 = valor clasificado 4
(3.3)
TERCER CUARTIL Q3
El 75.0% de los valores son menores que el tercer cuartil Q3, y el 25.0% son mayores que el tercer cuartil Q3. 3(n + 1) Q3 = valor clasificado 4
(3.4)
Para calcular los cuartiles, se utilizan las siguientes reglas:
• • •
Regla 1 Si el resultado es un número entero, entonces el cuartil es igual al valor clasificado. Por ejemplo, si el tamaño de la muestra es n = 7, el primer cuartil Q1 es igual a (7 + l)/4 = segundo valor clasificado. Regla 2 Si el resultado es una fracción de mitad (2.5, 4.5, etcétera), entonces el cuartil es igual al promedio de los valores clasificados correspondientes. Por ejemplo, si el tamaño de la muestra es n = 9, el primer cuartil Q1 es igual al valor clasificado como (9 + l)/4 = 2.5, la mitad entre los valores clasificados como segundo y tercero. Regla 3 Si el resultado no es un número entero ni una fracción de mitad, se redondea al entero más cercano y se selecciona ese valor clasificado. Por ejemplo, si el tamaño de la muestra es n = 10, el primer cuartil Q1 es igual a (10 + l)/4 = valor clasificado como 2.75. Se redondea el 2.75 a 3 y se utiliza en valor clasificado como tercero.
Con el fin de ilustrar el cálculo de los cuartiles para los datos referentes a los tiempos para arreglarse, se ordenan de menor a mayor. Valores ordenados:
29
31
35
39
39
4043
1
2
3
4
5
6
44
44
52
8
9
10
Clasificación:
7
El primer cuartil es el valor clasificado como (n + l)/4 = (10 + 1)/4 = 2.75. Al emplear la tercera regla de los cuartiles, redondeamos al tercer valor clasificado. Para los datos sobre el tiempo necesario para arreglarse, el valor clasificado como tercero es 35 minutos. Interprete el primer cuartil de 35 como que el 25% de los días el tiempo necesario para arreglarse es menor o igual a 35 minutos, y que el 75% de los días ese tiempo es mayor o igual a 35 minutos. El tercer cuartil es el valor clasificado como 3(n + l)/4 = 3(10 + l)/4 = 8.25. Empleando la tercera regla de los cuartiles, redondeamos al valor clasificado como octavo. El valor clasificado como octavo en los datos del tiempo necesario para arreglarse es de 44 minutos. Interprete esto como que el 75% de los días, el tiempo necesario para arreglarse es menor o igual que 44 minutos, y que el 25% de los días ese tiempo es mayor o igual que 44 minutos.
78
CAPÍTULO 3 Medidas numéricas descriptivas
EJEMPLO 3.5
CÁLCULO DE LOS CUARTILES Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y el tamaño de capital invertido (pequeño, mediano y gran capital). Calcule el primer cuartil (Q1) y el tercer cuartil (Q3) del rendimiento en 2003 de los fondos de inversión de alto riesgo para pequeños capitales. MUTUALFUNDS2004 SOLUCIÓN Ordenados de menor a mayor, los porcentajes de rendimiento de los nueve fondos de inversión de alto riesgo para pequeños capitales durante 2003 son: Valor clasificado: 37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
1
2
3
4
5
6
7
8
9
Clasificación:
Para estos datos: Q1 = =
(n + 1) valor clasificado 4 9 +1 = 2.5 valor clasificado 4
Por lo tanto, al utilizar la segunda regla, resulta que Ql es el valor clasificado como 2.5, que está justo a la mitad entre los valores clasificados como segundo y tercero. Como el valor clasificado como segundo es 39.2 y el tercero es 44.2, el primer cuartil Q1 es el que está justo en medio de 39.2 y 44.2. De esta forma, Q1 =
39.2 + 44.2 = 41.7 2
Para encontrar el tercer cuartil Q3: Q3 = =
3(n + 1) valor clasificado 4 3(9 + 1) = 7.5 valor clasificado 4
Así, al utilizar la segunda regla, Q3 es el valor clasificado entre los valores séptimo y octavo. Como el valor clasificado como séptimo es 59.3 y el octavo es 62.4, el tercer cuartil Q3 es el que está justo en medio de 59.3 y 62.4. De esta forma, Q3 =
59.3 + 62.4 = 60.85 2
Un primer cuartil de 41.7 señala que el 25% de los rendimientos obtenidos durante 2003 por los fondos de alto riesgo para pequeños capitales fueron menores o iguales que 41.7, mientras que el 75% de ellos fueron mayores o iguales que 41.7. El tercer cuartil de 60.85 indica que el 75% de los rendimientos obtenidos durante el mismo año por los fondos de alto riesgo para pequeños capitales fueron menores o iguales que 60.85 y que el 25% fueron mayores o iguales que 60.85.
3.1: Medidas de tendencia central, variación y forma
79
La media geométrica La media geométrica y la razón geométrica de rendimiento miden el estado de una inversión en el tiempo. La media geométrica mide la razón de cambio de una variable en el tiempo. La ecuación 3.5 define a la media geométrica.
MEDIA GEOMÉTRICA La media geométrica es la raíz n-ésima del producto de n valores (3.5)
La ecuación 3.6 define a la media geométrica de la tasa de rendimiento.
MEDIA GEOMÉTRICA DE LA TASA DE RENDIMIENTO RG = [(1 + R1 ) × (1 + R2 ) × × (1 + Rn )]1/ n − 1
donde
(3.6)
Ri es la tasa de rendimiento durante el periodo i
Para ilustrar el uso de estas medidas, considere una inversión de $100,000 que se reduce hasta tener un valor de $50,000 al final del año 1 y luego recupera su valor original de $100,000 al finalizar el año 2. La tasa de rendimiento de esta inversión en el periodo de dos años es 0, porque los valores inicial y final permanecen sin cambio. Sin embargo, la media aritmética de las tasas de rendimiento anuales de esta inversión es X =
( −0.50 ) + (1.00 ) = 0.25 o 25% 2
ya que la tasa de rendimiento del año 1 es 50, 000 − 100, 000 R1 = = −0 5 100, 000
0
y la tasa de rendimiento del año 2 es 100, 000 − 50, 000 R2 = = 1 00 50, 000
Al utilizar la ecuación (3.6), se sabe que la media geométrica de la tasa de rendimiento para los dos años es RG = [(1 + R1 ) × (1 + R2 )]1/ n − 1 = [(1 + ( −0.50 )) × (1 + (1.0 ))]1/ 2 − 1 = [(0.50 ) × ( 2.0 )]1/ 2 − 1 = [1.0 ]1/ 2 − 1 = 1−1 = 0
Por lo tanto, la media geométrica de la tasa de rendimiento refleja con mayor exactitud el cambio (cero) del valor de la inversión durante el periodo de dos años de la media aritmética.
80
CAPÍTULO 3 Medidas numéricas descriptivas
EJEMPLO 3.6
CALCULE LA MEDIA GEOMÉTRICA DE LA TASA DE RENDIMIENTO El porcentaje de cambio del índice compuesto NASDAQ fue del −31.53% en 2002 y del +50.01% en 2003. Calcule la tasa geométrica de rendimiento. SOLUCIÓN Al utilizar la ecuación (3.6), se sabe que la media geométrica de la tasa de rendimiento del índice NASDAQ para los dos años es RG = [(1 + R1 ) × (1 + R2 )]1/ n − 1 = [(1 + ( −0.3153)) × (1 + (0.5001))]1/ 2 − 1 = [(0.6847) × (1.5001)]1/ 2 − 1 = [1.0271]1/ 2 − 1 = 1.0135 − 1 = 0.0135
La media geométrica de la tasa de rendimiento del índice NASDAQ para los dos años es del 1.35%.
Rango El rango es la medida numérica descriptiva más sencilla de la variación en un conjunto de datos.
RANGO El rango es igual al valor mayor menos el valor menor. (3.7)
Rango = Xmayor − Xmenor
Para determinar el rango de los tiempos necesarios para arreglarse, los datos se ordenan de menor a mayor: 29
31
35
39
39
4043
44
44
52
Al emplear la ecuación (3.7), se sabe que el rango es de 52 − 29 = 23 minutos. Un rango de 23 minutos señala que la mayor diferencia del tiempo necesario para arreglarse por la mañana entre dos días cualesquiera es de 23 minutos.
EJEMPLO 3.7
CALCULE EL RANGO DEL RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN DE ALTO RIESGO PARA PEQUEÑOS CAPITALES Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y el tamaño del capital invertido (pequeño, mediano y gran capital). Calcule el rango del rendimiento en 2003 de los nueve fondos de inversión de alto riesgo para pequeños capitales. MUTUALFUNDS2004 SOLUCIÓN Ordenados de menor a mayor, los rendimientos en 2003 de los nueve fondos de inversión de alto riesgo para pequeños capitales son: 37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
Por lo tanto, al utilizar la ecuación 3.7, se sabe que el rango = 66.5 − 37.3 = 29.2. La mayor diferencia entre dos rendimientos cualesquiera de los fondos de inversión de alto riesgo para pequeños capitales es de 29.2.
3.1: Medidas de tendencia central, variación y forma
81
El rango mide la distribución total del conjunto de datos. Aunque el rango es una medida simple de la variación total de los datos, no toma en cuenta cómo se distribuyen los datos entre los valores menor y mayor. En otras palabras, el rango no indica si los valores están distribuidos de manera uniforme a todo lo largo del conjunto de datos, agrupados cerca de la parte media, o agrupados cerca de uno o ambos extremos. De esta manera, resulta engañoso utilizar el rango como medida de la variación cuando al menos uno de los valores es extremo.
Rango intercuartil El rango intercuartil (también llamado dispersión media) es la diferencia entre el tercer y primer cuartil de un conjunto de datos.
RANGO INTERCUARTIL El rango intercuartil es la diferencia entre los cuartiles tercero y primero. (3.8)
Rango intercuartil = Q3 − Ql
El rango intercuartil mide la dispersión en la mitad (parte central) de los datos, así que no se ve influido por los valores extremos. Para determinar el rango intercuartil de los tiempos necesarios para arreglarse 29
31
35
39
39
4043
44
44
52
utilice la ecuación (3.8) y los resultados obtenidos en la página 77, Ql = 35 y Q3 = 44. Rango intercuartil = 44 − 35 = 9 minutos Por lo tanto, el rango intercuartil del tiempo necesario para arreglarse es de 9 minutos. Por lo general, al intervalo de 35 a 44 se le denomina la mitad media.
EJEMPLO 3.8
CALCULE EL RANGO INTERCUARTIL DEL RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN DE ALTO RIESGO PARA PEQUEÑOS CAPITALES Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y el tamaño del capital invertido (pequeño, mediano y gran capital). Calcule el rango intercuartil del rendimiento en 2003 de los fondos de inversión de alto riesgo para pequeños capitales. MUTUALFUNDS2004 SOLUCIÓN Ordenados de menor a mayor, los rendimientos de los nueve fondos de inversión de alto riesgo para pequeños capitales durante 2003 son: 37.3
39.2
44.2
44.5
53.8
56.6
59.3
62.4
66.5
Utilice la ecuación 3.8 y los resultados obtenidos en la página 78, Ql = 41.7 y Q3 = 60.85. Rango intercuartil = 60.85 − 41.7 = 19.15 Así, el rango intercuartil de los rendimientos en 2003 es de 19.15.
Como el rango intercuartil no toma en cuenta ningún valor menor que Q1 ni mayor que Q3, no se ve afectado por los valores extremos. Las medidas de resumen como la mediana, Q1, Q3, y el rango intercuartil, que no reciben la influencia de valores extremos, se denominan medidas resistentes.
82
CAPÍTULO 3 Medidas numéricas descriptivas
La varianza y la desviación estándar A pesar de que el rango y el rango intercuartil son medidas de la variación, no contemplan cómo se distribuyen o se agrupan los valores que están entre los extremos. La varianza y la desviación estándar son dos medidas de la variación muy utilizadas para tomar en cuenta cómo se distribuyen los datos. Estos estadísticos miden la dispersión “promedio” alrededor de la media, es decir, qué tanto varían los valores más grandes que están por encima de ella y cómo se distribuyen los valores menores que están por debajo de ella. Una medida simple de la variación alrededor de la media consideraría la diferencia entre cada uno de los valores y la media, y luego las sumaría. Sin embargo, si usted hiciera eso, podría descubrir que la media es el punto de equilibrio de un conjunto de datos y que tales diferencias sumarían cero en todo conjunto de datos. Una medida de la variación que sería distinta de un conjunto de datos a otro consistiría en elevar al cuadrado la diferencia entre cada uno de los valores y la media, y después sumarlas. En estadística, esta cantidad se denomina suma de cuadrados (o SS). Esta suma luego se divide entre el número de valores menos 1 (para datos de la muestra), con el fin de obtener una varianza de la muestra (S 2). La raíz cuadrada de la varianza de la muestra es la desviación estándar de la muestra (S). Puesto que la suma de cuadrados es una suma de diferencias elevadas al cuadrado que, por las reglas aritméticas siempre será no negativa, ni la varianza ni la desviación estándar podrán ser negativas. En casi todos los conjuntos de datos, la varianza y la desviación estándar tendrán un valor positivo, aunque si no existe variación en todo el conjunto de datos y todos los valores de la muestra son los mismos, ambos estadísticos serán igual a cero. En una muestra que contiene n valores, X1, X2, X3, . . . , Xn, la varianza de la muestra (representada por el símbolo S2) es S2 =
( X1 − X )2 + ( X 2 − X )2 + + ( X n − X )2 n −1
La ecuación 3.9 expresa esta ecuación utilizando la notación de sumatoria.
VARIANZA PARA UNA MUESTRA La varianza para una muestra es la suma de las diferencias con respecto a la media elevada al cuadrado y dividida por el tamaño de la muestra menos uno. n
S2 = donde
∑ ( X i − X )2 i =1
n −1
(3.9)
= media X n = tamaño de la muestra Xi = i-ésimo valor de la variable X
n
∑ ( X i − X )2 = sumatoria de los cuadrados de todas las diferencias entre los valores de Xi y X. i =1
DESVIACIÓN ESTÁNDAR DE LA MUESTRA La desviación estándar de una muestra es la raíz cuadrada de la suma de los cuadrados de las diferencias con respecto a la media dividida por el tamaño de la muestra menos uno. n
S =
S2 =
∑ ( X i − X )2 i =1
n −1
(3.10)
3.1: Medidas de tendencia central, variación y forma
83
Si el denominador fuese n en vez de n – 1, la ecuación (3.9) [y el término interno de la ecuación (3.10)] calcularía el promedio de las diferencias con respecto a la media elevadas al cuadrado. Sin embargo, se utiliza n – 1 porque ciertas propiedades matemáticas convenientes del estadístico S 2 lo hacen apropiado para la inferencia estadística. Conforme aumenta el tamaño de la muestra, se hace cada vez más pequeña la diferencia entre dividir por n o por n – 1. Es más probable que usted utilice la desviación estándar de la muestra como medida de la variación [definida en la ecuación (3.10)]. A diferencia de la varianza de la muestra, que es una cantidad elevada al cuadrado, la desviación estándar siempre es un número con las mismas unidades que los datos de muestra originales. La desviación estándar le ayuda a conocer de qué manera se agrupan o distribuyen un conjunto de datos con respecto a su media. En casi todos los conjuntos de datos, la mayoría de los valores observados quedan dentro de un intervalo de más menos una desviación estándar por encima y por debajo de la media. Por esa razón, conocer la media y la desviación estándar ayuda a definir por lo menos dónde se agrupa la mayoría de los valores de los datos. Para calcular a mano la varianza S 2 y la desviación estándar S de una muestra: Paso 1: Calcule la diferencia entre cada uno de los valores y la media. Paso 2: Eleve al cuadrado cada una de esas diferencias. Paso 3: Sume las diferencias elevadas al cuadrado. Paso 4: Divida el total entre n – 1, para obtener la varianza de la muestra. Paso 5: Extraiga la raíz cuadrada de la varianza de la muestra, para obtener la desviación estándar de la muestra. La tabla 3.1 muestra los cuatro primeros pasos para calcular la varianza de los datos referen ) = 39.6 (vea el cálculo de la media en la tes al tiempo necesario para arreglarse, con una media (X página 74). En la segunda columna se muestra el paso 1. En la tercera columna se muestra el paso 2. En la parte inferior se muestra la suma de las diferencias elevadas al cuadrado (paso 3). Luego, este total se divide entre 10 – 1 = 9, para calcular la varianza (paso 4).
TABLA 3.1 Cálculo de la varianza del tiempo necesario para arreglarse.
= 39.6 X Tiempo (X) 39 29 43 52 39 44 40 31 44 35
Paso 1: (Xi − X) −0.60 −10.60 3.401 12.40153.76 −0.60 4.4019.36 0.40 −8.6073.96 4.4019.36 −4.6021.16 Paso 3: Suma: 412.4045.82
Paso 2: (Xi − X )2 0.36 112.36 1.56 0.36 0.16
Paso 4: Dividido entre (n − 1):
84
CAPÍTULO 3 Medidas numéricas descriptivas
También es posible calcular la varianza si se sustituyen los valores de los términos en la ecuación 3.9: n
S2 =
∑ ( X i − X )2 i =1
n −1
=
( 39 − 39.6 ) 2 + ( 29 − 39.6 ) 2 + + ( 35 − 39.6 ) 2 10 − 1
=
412.4 9
= 45.82
Puesto que la varianza está en unidades cuadradas (en minutos cuadrados en este caso), para calcular la desviación estándar se calcula la raíz cuadrada de la varianza. Al utilizar la ecuación (3.10) de la página 82, la desviación estándar S de la muestra es: n
S =
S2 =
∑ ( X i − X )2 i =1
n −1
=
45.82 = 6.77
Esto indica que los tiempos necesarios para arreglarse en esta muestra se agrupan dentro de los 6.77 minutos que circundan a la media de 39.6 minutos (es decir, se agrupan entre X − 1S = 32.83 y X + 1S = 46.37). De hecho, 7 de los 10 quedan dentro de este intervalo. Al utilizar la segunda columna de la tabla 3.1, también es posible calcular que la suma de las diferencias entre cada uno de los valores y la media es cero. Para todo conjunto de datos, esta suma siempre será igual a cero: n
∑ ( X i − X ) = 0 para todos los conjuntos de datos i =1
Esta propiedad es una de las razones por las que la media se utiliza como la medida más común de tendencia central.
EJEMPLO 3.9
CÁLCULO DE LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR DEL RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN PARA PEQUEÑOS CAPITALES Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y el tamaño del capital invertido (pequeño, mediano y gran capital). Calcule la varianza y la desviación estándar del rendimiento en 2003 de los fondos de inversión de alto riesgo para pequeños capitales. MUTUALFUNDS2004 SOLUCIÓN La tabla 3.2 ilustra el cálculo de la varianza y la desviación estándar del rendimiento en 2003 para los fondos de inversión de alto riesgo para pequeños capitales. Utilice la ecuación (3.9) de la página 82: n
S2 =
∑ ( X i − X )2 i =1
n −1
=
( 44.5 − 51.53) 2 + ( 39.2 − 51.53) 2 + + ( 66.5 − 51.53) 2 9 −1
=
891.16 8
= 111.395
3.1: Medidas de tendencia central, variación y forma
85
= 51.5333 X
TABLA 3.2 Cálculo de la varianza del rendimiento en 2003 para los fondos de inversión de alto riesgo para pequeños capitales.
Rendimiento 2003
Paso 1: (Xi − X)
Paso 2: (Xi − X )2
44.5 39.2 62.4 59.3 56.6 53.8 37.3 44.2 66.5
−7.0333 −12.3333 10.8667 7.7667 5.0667 2.2667 −14.2333 −7.3333 14.9667
49.4678 152.1111 118.0844 60.3211 25.6711 5.1378 202.5878 53.7778 224.0011
Paso 3: Suma:
Paso 4: Dividido entre (n − 1):
891.16
111.395
Al utilizar la ecuación (3.10) de la página 82, se sabe que la desviación estándar S de la muestra es: n
S =
S2 =
∑ ( X i − X )2 i =1
n −1
= 111.395 = 10.55
La desviación estándar de 10.55 indica que los rendimientos en 2003 de los fondos de inversión de alto riesgo para pequeños capitales se agrupan dentro de los 10.55 que rodean a la media de 51.53 (es decir, se agrupan entre X − 1S = 40.98 y X + 1S = 62.08). De hecho, el 55.6% (5 de 9) de los rendimientos en 2003 quedan dentro de este intervalo.
A continuación se resumen las características del rango, del rango intercuartil, de la varianza y de la desviación estándar.
•
Cuanto más esparcidos o dispersos están los datos, son mayores el rango, el rango intercuartil, la varianza y la desviación estándar.
•
Cuanto más concentrados u homogéneos son los datos, son menores el rango, el rango intercuartil, la varianza y la desviación estándar.
•
Si todos los valores son los mismos (de tal manera que no hay variación de los datos), el rango, el rango intercuartil, la varianza y la desviación estándar son iguales a cero.
•
Ninguna de las medidas de la variación (rango, rango intercuartil, desviación estándar y varianza) puede ser negativa.
Coeficiente de variación A diferencia de las medidas de la variación antes expuestas, el coeficiente de variación es una medida relativa de la variación que siempre se expresa como porcentaje, más que en términos de las unidades de los datos en particular. El coeficiente de variación, que se denota mediante el símbolo CV, mide la dispersión de los datos con respecto a la media.
86
CAPÍTULO 3 Medidas numéricas descriptivas
COEFICIENTE DE VARIACIÓN El coeficiente de variación es igual a la desviación estándar dividida por la media, multiplicada por 100%.
S CV = 100% X donde
(3.11)
S = desviación estándar de la muestra X = media de la muestra
Para la muestra de los 10 tiempos para arreglarse, como X = 39.6 y S = 6.77, el coeficiente de variación es S 6.77 CV = 100% = 100% = 17.10% X 39.6
Para estos datos, la desviación estándar es el 17.1% del tamaño de la media. El coeficiente de variación es muy útil al comparar dos o más conjuntos de datos medidos con unidades distintas, como ilustra el ejemplo 3.10.
EJEMPLO 3.10
COMPARACIÓN DE DOS COEFICIENTES DE VARIACIÓN CUANDO DOS VARIABLES TIENEN DISTINTAS UNIDADES DE MEDIDA El gerente de operaciones de un servicio de entrega de paquetería está pensando si es conveniente adquirir una nueva flota de camiones. Al guardar los paquetes en los camiones para su entrega, se deben tomar en cuenta dos características principales: el peso (en libras) y el volumen (en pies cúbicos) de cada artículo. El gerente de operaciones toma una muestra de 200 paquetes, y encuentra que la media del peso es 26.0 libras, con una desviación estándar de 3.9 libras, mientras que la media en volumen es de 8.8 pies cúbicos, con una desviación estándar de 2.2 pies cúbicos. ¿Cómo puede el gerente de operaciones comparar la variación de peso y volumen? SOLUCIÓN Como las unidades difieren para el peso y volumen, el gerente de operaciones debe comparar la variabilidad relativa en ambos tipos de medidas. Para el peso, el coeficiente de variación es 3.9 CVW = 100% = 15.0% 26.0
para el volumen, el coeficiente de variación es 2.2 CVV = 100% = 25.0% 8.8
De esta forma, en relación con la media el volumen del paquete es mucho más variable que su peso.
Puntuaciones Z Un valor extremo o atípico es un valor ubicado muy lejos de la media. Las puntuaciones Z son útiles para identificar atípicos. Cuanto mayor es la puntuación Z, mayor es la distancia entre tal valor y la media. La puntuación Z es igual a la diferencia entre ese valor y la media, dividida por la desviación estándar.
3.1: Medidas de tendencia central, variación y forma
87
PUNTUACIONES Z Z =
X −X S
(3.12)
Si se consideran los tiempos necesarios para arreglarse por la mañana, se observa que la media es de 39.6 minutos y la desviación estándar de 6.77 minutos. El tiempo necesario para arreglarse el primer día es de 39.0 minutos. La puntuación Z para el día 1 se calcula a partir de
Z = =
X −X S 39.0 − 39.6 6.77
= −0.09
La tabla 3.3 muestra las puntuaciones Z de los 10 días. La mayor es de 1.83 para el día 4, cuando el tiempo necesario para arreglarse fue de 52 minutos. La menor fue −1.57 para el día 2, cuando el tiempo necesario para arreglarse fue de 29 minutos. Como regla general, una puntuación Z se considera atípica si es menor que −3.0 o mayor que +3.0. Ninguno de los tiempos satisface este criterio.
TABLA 3.3 Puntuaciones Z para los 10 tiempos necesarios para arreglarse.
Media Desviación estándar
EJEMPLO 3.11
Tiempo (X )
Puntuación Z
39 29 43 52 39 44 40 31 44 35 39.6 6.77
−0.09 −1.57 0.50 1.83 −0.09 0.65 0.06 −1.27 0.65 −0.68
CÁLCULO DE LAS PUNTUACIONES Z DEL RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN DE ALTO RIESGO PARA PEQUEÑOS CAPITALES Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y el tamaño del capital invertido (pequeño, mediano y gran capital). Calcule las puntuaciones Z del rendimiento en 2003 de los fondos de inversión de alto riesgo para pequeños capitales. MUTUALFUNDS2004 SOLUCIÓN La tabla 3.4 ilustra las puntuaciones Z de los rendimientos en 2003 de los fondos de inversión de alto riesgo para pequeños capitales. La puntuación Z más grande es 1.42, correspondiente a un rendimiento porcentual de 66.5. La puntuación Z más baja es −1.35, correspondiente a un rendimiento porcentual de 37.3. Como regla general, se considera que una puntuación Z es atípica si es menor que −3.0 o mayor que +3.0. Ninguno de los rendimientos porcentuales satisface el criterio para considerarlo atípico.
88
CAPÍTULO 3 Medidas numéricas descriptivas
TABLA 3.4 Puntuación Z del rendimiento en 2003 de los fondos de inversión de alto riesgo para pequeños capitales.
Media Desviación estándar
Rendimiento 2003
Puntuaciones Z
44.5 39.2 62.4 59.3 56.6 53.8 37.3 44.2 66.5 51.53 10.55
−0.67 −1.17 1.03 0.74 0.48 0.21 −1.35 −0.69 1.42
Forma Una tercera e importante propiedad que describe a un conjunto de datos numéricos es la forma. Forma es el patrón de distribución de los valores de los datos a través del rango de todos los valores. La distribución puede ser simétrica cuando los valores pequeños y grandes se equilibran entre sí, o asimétrica, cuando muestra desequilibrio de los valores pequeños o grandes. La forma influye en la relación de la media con la mediana de las siguientes maneras:
• • •
Media < mediana; asimétrica negativa o sesgo izquierdo. Media = mediana; simétrica o asimetría cero. Media > mediana; asimétrica positiva o sesgo derecho. La figura 3.1 describe tres conjuntos de datos, cada uno con distinta forma.
FIGURA 3.1 Comparación de tres conjuntos de datos con distinta forma. Panel A Asimétricos negativos o sesgo izquierdo
Panel B Simétrico
Panel C Asimétrico positivo o sesgo derecho
Los datos del panel A son negativos, o sesgados a la izquierda. En este panel, la mayoría de los valores está en la parte superior de la distribución. Existe una cola larga y la distorsión hacia la izquierda es provocada por algunos valores muy pequeños. Estos valores extremadamente pequeños empujan la media hacia abajo, de manera que la media es menor que la mediana. Los datos del panel B son simétricos. Cada mitad de la curva es una imagen al espejo del otro. Los valores bajos y altos de la escala se equilibran, y la media es igual a la mediana. Los datos del panel C son asimétricos positivos o sesgados a la derecha. En este panel, la mayoría de los valores está en la parte inferior de la distribución. Existe una larga cola a la derecha de la distribución y cierta distorsión hacia la derecha provocada por algunos valores muy grandes. Estos valores sumamente grandes empujan a la media hacia arriba, de manera que la media resulta mayor que la mediana.
Resultados de la estadística descriptiva en Excel El juego de herramientas de análisis de datos de Excel genera la media, mediana, moda, desviación estándar, varianza, rango, mínimo, máximo y cuenta (tamaño de la muestra) en una sola hoja de trabajo, todos ellos analizados en esta sección. Además, Excel calcula el error estándar, lo mismo que estadísticos para la curtosis y la asimetría. El error estándar es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra. La asimetría mide la falta de simetría en los datos, y se basa en un estadístico que está en función de las diferencias con respecto a la media elevadas al
3.1: Medidas de tendencia central, variación y forma
89
EXPLORACIONES VISUALES Exploración de la estadística descriptiva Utilice el procedimiento Exploraciones Visuales de la Estadística Descriptiva para observar el efecto que tiene el cambio de valores en los datos sobre las medidas de tendencia central, variación y forma. Abra la macro de trabajo Visual Explorations.xla y seleccione Visual Explorations ➜ Descriptive Statistics en la barra de herramientas de Excel. Lea las instrucciones del cuadro que aparece (vea la ilustración que se muestra a continuación) y dé clic en OK para examinar el diagrama de puntos correspondiente a la muestra de 10 tiempos
necesarios para arreglarse que utilizará a lo largo de este capítulo. Experimente introduciendo un valor extremo como 10 minutos en una de las celdas de la columna A. ¿Qué medidas se ven afectadas por este cambio? ¿Cuáles no? Puede alternar entre los diagramas “previo” y “posterior” presionando repetidamente Ctrl+Z (deshacer) seguido de Ctrl+Y (rehacer) como ayuda para observar los cambios provocados por un valor extremo en el diagrama.
cubo. Un valor de asimetría de cero indica una distribución simétrica. La curtosis mide la concentración relativa de valores en el centro de la distribución al compararlos con las colas y se basa en las diferencias con respecto a la media elevadas a la cuarta potencia. Esta medida no se analiza en el presente texto (vea la referencia 2). A partir de la figura 3.2 de la página 90, los resultados de estadística descriptiva en Excel para el rendimiento de los fondos en 2003, con base en su nivel de riesgo, parecen mostrar ligeras diferencias para los tres niveles de riesgo en su rendimiento porcentual de 2003. Los fondos de alto riesgo tienen una media y una mediana ligeramente mayores que los de riesgo bajo y medio. Existe muy poca diferencia entre las desviaciones estándar de los tres grupos.
Resultados de la estadística descriptiva en Minitab Para la estadística descriptiva, Minitab calcula el tamaño de la muestra (etiquetado como N), media, mediana, desviación estándar (etiquetada StDev), mínimo, máximo, coeficiente de variación (etiquetado CoefVar), primer y tercer cuartiles, rango y rango intercuartil (etiquetado IQR), todos analizados en esta sección. A partir de la figura 3.3 de la página 90, los resultados de estadística descriptiva en Minitab para el rendimiento de los fondos en 2003, con base en su riesgo, parecen registrar ligeras diferencias del rendimiento porcentual en 2003 para los tres niveles de riesgo. Los fondos de alto riesgo tienen media, mediana y cuartiles ligeramente superiores a los de riesgo bajo y medio. Existe muy poca diferencia en las desviaciones estándar o el rango intercuartil de los tres grupos.
90
CAPÍTULO 3 Medidas numéricas descriptivas
FIGURA 3.2 Estadística descriptiva en Excel para el rendimiento de los fondos en 2003 con base en su nivel de riesgo.
FIGURA 3.3 Estadística descriptiva en Minitab para el rendimiento de los fondos en 2003 con base en su nivel de riesgo.
PROBLEMAS PARA LA SECCIÓN 3.1 Aprendizaje básico ASISTENCIA
de PH Grade
3.1 A continuación se encuentra un conjunto de datos procedente de una muestra de n = 5: 7
4
9
8
2
a. Calcule la media, la mediana y la moda. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Calcule las puntuaciones Z. ¿Existe algún valor extremo? d. Describa la forma del conjunto de datos. ASISTENCIA 3.2 A continuación aparece un conjunto de datos de PH Grade procedente de una muestra de n = 6: 7
4
9
7
3
12
a. Calcule la media, la mediana y la moda. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación.
c. Calcule las puntuaciones Z. ¿Existe algún valor extremo? d. Describa la forma del conjunto de datos. ASISTENCIA 3.3 A continuación aparece un conjunto de datos de PH Grade procedente de una muestra de n = 7: 12 7 4 9 0 7 3 a. Calcule la media, la mediana y la moda. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Describa la forma del conjunto de datos. ASISTENCIA 3.4 A continuación aparece un conjunto de datos de PH Grade procedente de una muestra de n = 5: 7 −5 −8 7 9 a. Calcule la media, la mediana y la moda. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Describa la forma del conjunto de datos.
3.1: Medidas de tendencia central, variación y forma
3.5 Suponga que la tasa de rendimiento de una acción en particular durante los dos últimos años fue del 10 y del 30%. Calcule la media geométrica de la tasa de rendimiento (Nota: Una tasa de rendimiento del 10% se registra como 0.10 y una del 30% como 0.30). ASISTENCIA
de PH Grade
Aplicación de conceptos Puede resolver los problemas 3.6 a 3.20 manualmente o en Excel, Minitab o SPSS. 3.6 El gerente de operaciones de una fábrica de llantas quiere comparar el diámetro interno real de dos tipos de neumáticos, que se espera sean de 575 milímetros en ambos casos. Se seleccionó una muestra de cinco llantas de cada tipo y se ordenaron de menor a mayor, como se aprecia a continuación: ASISTENCIA
de PH Grade
Tipo X 568
570575
Tipo Y 578
584
573
574
575
577
578
a. Calcule la media, la mediana y la desviación estándar de ambos tipos de llantas. b. ¿Cuál tipo de llanta es de mejor calidad? Explique por qué. c. ¿Qué efecto tendría en sus respuestas a los incisos a) y b) si el último valor del tipo Y fuese 588 en lugar de 578? Explique su respuesta. ASISTENCIA
de PH Grade
3.7 Los siguientes datos representan el total de grasas en las hamburguesas y productos de pollo de una muestra tomada de cadenas de comida rápida. FAST-
FOOD
Hamburguesas 19
31
34
35
39
39
43
Pollo 7
9
15
16
16
18
22
25
27
33
39
Fuente: “Quick bites”, Derechos reservados © 2000 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, marzo de 2001, 46.
Para las hamburguesas y los productos de pollo realice lo siguiente por separado: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule la varianza, la desviación estándar, el rango, el rango intercuartil y el coeficiente de variación. c. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Con base en los resultados de los incisos a) a c), ¿qué conclusiones se obtienen en relación con las diferencias en la grasa total de las hamburguesas y los productos de pollo? 3.8 La mediana del precio de una casa en diciembre de 2003 alcanza $173,200, un incremento del 6.7% respecto a diciembre de 2002. En todo el año, las ventas alcanzaron un récord de 6.1 millones de casas (James R. Hagerty, “Housing Prices Continue to Rise”, The Wall Street Journal, 27 de enero, 2004, D1). a. Describa la forma de la distribución correspondiente al precio de las casas vendidas. b. ¿Por qué cree usted que el artículo informa sobre la mediana de los precios y no sobre la media?
91
3.9 En el ciclo escolar 2002-2003, muchas universidades públicas de Estados Unidos elevaron sus cuotas y tarifas de manutención, como resultado de la reducción de los subsidios estatales (Mary Beth Marklein, “Public Universities Raise Tuition, Fees-and Ire”, USA Today, 8 de agosto, 2002, 1A-2A). A continuación se representa el cambio del costo de inscripción, un dormitorio compartido y el plan de alimentación más solicitado entre los ciclos escolares 2001-2002 y 2002-2003 en una muestra de 10 universidades públicas. COLLEGECOST Universidad
Cambio en el costo ($)
University of California, Berkeley University of Georgia, Athens University of Illinois, Urbana-Champaign Kansas State University, Manhattan University of Maine, Orono University of Mississippi, Oxford University of New Hampshire, Durham Ohio State University, Columbus University of South Carolina, Columbia Utah State University, Logan
1,589 593 1,223 869 423 1,720 708 1,425 922 308
a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule la varianza, la desviación estándar, el rango, el rango intercuartil, el coeficiente de variación y las puntuaciones Z. c. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Con base en los resultados de los incisos a) a c), ¿qué conclusiones se obtienen en relación con el cambio de los costos entre los ciclos escolares 2001-2002 y 2002-2003? 3.10 Los siguientes datos COFFEDRINK representan las calorías y la grasa (en gramos), que contienen las raciones con 16 onzas de bebidas a base de café servidas en Dunkin’ Donuts y Starbucks. Producto
Calorías Grasa
Batido de moka helado de Dunkin’ Donuts (pura leche) Capuchino frapé de Starbucks Raspado de café “Coolata” (crema) de Dunkin’ Donuts Café moka exprés helado de Starbucks (pura leche y crema batida) Café moka batido helado de Starbucks (con crema batida) Capuchino helado de Brownie de chocolate, de Starbucks (con crema batida) Crema de chocolate batido helado de Starbucks (con crema batida)
2408.0 2603.5 35022.0 35020
.0
42016.0 51022.0 53019.0
Fuente: “Coffee as Candy at Dunkin’ Donuts and Starbucks”, Derechos Reservados © 2004 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057, organización sin fines de lucro. Adaptado con autorización de Consumer Reports, junio de 2004, 9, sólo con propósitos educativos. No se autoriza su reproducción o uso comercial. www.ConsumerReports.org
92
CAPÍTULO 3 Medidas numéricas descriptivas
Para cada una de las variables (calorías y grasa): a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule la varianza, la desviación estándar, el rango, el rango intercuartil, el coeficiente de variación y las puntuaciones Z. ¿Existe un valor atípico? Explique su respuesta. c. ¿Los datos son asimétricos? De ser así, ¿cómo? d. A partir de los resultados de los incisos a) a c), ¿qué conclusiones se obtienen en relación con las calorías y la grasa de las bebidas heladas a base de café servidas en Dunkin’ Donuts y en Starbucks? 3.11 Los siguientes datos representan el costo diario de una habitación de hotel y la renta de un automóvil en 20 ciudades estadounidenses durante una semana en octubre de 2003. HOTEL-CAR
Ciudad
Hotel
San Francisco Los Ángeles Seattle Phoenix Denver Dallas Houston Minneapolis Chicago St. Louis Nueva Orleáns Detroit Cleveland Atlanta Orlando Miami Pittsburgh Boston Nueva York Washington, D.C.
Automóviles
205 179 185 21038 128 145 177 117 221 159 205 128 165 18046 198 158 132 283 269 204
47 41 49 32 48 49 41 56 41 50 32 34 41 40 39 67 69 40
Fuente: The Wall Street Journal, 10 de octubre, 2003, W4.
Para cada una de las variables (costo de hotel y costo del auto): a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule la varianza, la desviación estándar, el rango, el rango intercuartil, el coeficiente de variación y las puntuaciones Z. ¿Existe un valor extremo? Explique su respuesta. c. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Con base en los resultados de los incisos a) a c), ¿qué conclusiones se obtienen en relación con el costo diario de una habitación de hotel y la renta de un automóvil? 3.12 A continuación se indica el costo de 14 modelos de cámara digital de 3 megapixeles en una tienda especializada. CAMERA
340450450280220340290 37040 0310340430270380
a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule la varianza, la desviación estándar, el rango, el rango intercuartil, el coeficiente de variación y las puntuaciones Z. ¿Existe un valor atípico? Explique su respuesta. c. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Con base en los resultados de los incisos a) a c), ¿qué conclusiones se obtienen en relación con el precio de las cámaras digitales de 3 megapixeles en una tienda especializada durante 2003? 3.13 Una empresa dedicada a la consultoría y desarrollo de software, ubicada en el área metropolitana de Phoenix, desarrolla programas para sistemas administrativos de cadenas de suministro, con base en la reutilización sistemática de software. En lugar de comenzar desde cero al elaborar y desarrollar nuevos sistemas de software personalizados, utiliza una base de datos que contiene componentes reutilizables que suman más de 2,000,000 de líneas de código, recopilados a lo largo de 10 años de labores continuas. Se pide a 8 analistas de la empresa que calculen la tasa de reutilización cuando se desarrolla un nuevo sistema de software. Los siguientes datos corresponden al porcentaje total de código que procede de la base de datos de reutilización y forma parte del sistema de software. REUSE 50.062.5
37.5 75.045.047.5
15.025.0
Fuente: M. A. Rothenberger y K. J. Dooley, “A Performance Measure for Software Reuse Projects”, Decision Sciences, 30 (otoño de 1999), 11311153.
a. Calcule la media, la mediana y la moda. b. Calcule el rango, la varianza y la desviación estándar. c. Interprete las medidas sintetizadas que se calculan en los incisos a) y b). 3.14 Un fabricante de baterías para flashes toma una muestra de 13 baterías de la producción del día y las utiliza de manera continua hasta que se agotan. El número de horas que se utilizaron hasta el momento de fallar fue: BATTERIES 342 426 317 545 264 451 1,049 631 512 266 492 562 298 a. Calcule la media, la mediana y la moda. Al observar la distribución de los tiempos transcurridos hasta la falla, ¿cuáles medidas de ubicación le parecen más apropiadas y cuáles menos adecuadas para utilizarlas con estos datos? ¿Por qué? b. Calcule el rango, la varianza y la desviación estándar. c. ¿Qué le recomendaría a un fabricante si quisiera anunciar que sus baterías “duran 400 horas”? (Nota: No existe una respuesta exacta para esta pregunta; se trata de decir cómo hacer precisa tal afirmación.) d. Suponga que, en lugar de 342, el primer valor fue de 1,342. Repita los incisos a) a c) utilizando este valor. Elabore un comentario sobre la diferencia de los resultados. 3.15 Una sucursal bancaria ubicada en una zona comercial de la ciudad, desarrolló un proceso mejorado para atender a sus clientes desde la hora del almuerzo al mediodía, hasta la 1:00 PM. Se registra el tiempo de espera en minutos (definido como el tiempo transcurrido desde que el cliente se forma en la fila hasta que llega a la ventanilla del cajero) de todos los clientes
93
3.1: Medidas de tendencia central, variación y forma
durante ese horario por una semana. Se selecciona una muestra aleatoria de 15 clientes y se tienen los siguientes resultados: BANK1
4.21 5.55 3.02 5.13 4.77 2.34 3.54 3.204.506.100 .38 5.12 6.46 6.19 3.79
Año
DJIA
SP500
Russell2000
Wilshire5000
2003 2002 2001 2000
25.30 −15.01 −5.44 −6.20
26.40 −22.10 −11.90 −9.10
45.40 −21.58 −1.03 −3.02
29.40 −20.90 −10.97 −10.89
a. Calcule la media, la mediana, primero y tercer cuartiles.
Fuente: The Wall Street Journal, 2 de enero, 2004.
b. Calcule la varianza, la desviación estándar, el rango, el rango intercuartil, el coeficiente de variación y las puntuaciones Z. ¿Existe algún valor atípico? Explique su respuesta.
a. Calcule la tasa de rendimiento geométrica de los índices Dow Jones, Standard & Poor’s 500, Russell 2000 y Wilshire 5000. b. ¿Qué conclusiones se obtienen en relación con las tasas de rendimiento geométricas de los cuatro índices bursátiles? c. Compare los resultados del inciso b) con los de los problemas 3.19b) y 3.20b).
c. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Un cliente llega a la sucursal durante la hora del almuerzo y pregunta al gerente cuánto tendrá que esperar, éste le responde “Menos de cinco minutos, con toda seguridad”. Con base en sus resultados de los incisos a) y b), evalúe la exactitud de tal afirmación. 3.16 Suponga que otra sucursal, ubicada en una zona residencial, también se preocupa por el tiempo de espera desde la hora del almuerzo hasta la 1:00 PM. Se registra el tiempo de espera en minutos (definido como el tiempo transcurrido desde que el cliente se forma en la fila hasta que llega a la ventanilla del cajero) de todos los clientes durante ese horario por una semana. Se selecciona una muestra aleatoria de 15 clientes y se tienen los siguientes resultados: BANK2 9.66 5.90 8.02 5.79 8.73 3.82 8.01 8.35 10.49 6.68 5.64 4.08 6.17 9.91 5.47 a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule la varianza, la desviación estándar, el rango, el rango intercuartil y el coeficiente de variación. ¿Existe algún valor atípico? Explique su respuesta. c. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Un cliente llega a la sucursal durante la hora del almuerzo y pregunta al gerente cuánto tendrá que esperar, éste le responde: “Menos de cinco minutos, con toda seguridad”. Con base en sus resultados de los incisos a) y b), evalúe la exactitud de tal afirmación. 3.17 China tiene el mercado con crecimiento más rápido en ventas de automóviles de pasajeros y es el cuarto mercado más grande, detrás de Estados Unidos, Japón y Alemania. Las ventas aumentaron un 61% en 2002 y un 55% en 2003 (Peter Wonacott, “A Fear Amid China’s Car Boom”, The Wall Street Journal, 2 de febrero, 2004, A17). Calcule la media geométrica de la tasa de incremento. (Sugerencia: Denote el crecimiento del 61% como R1 = 0.61.) AUTO Examen
3.18 Durante el periodo transcurrido desde 2000 hasta 2003, se observó una gran volatilidad en el valor de las acciones. Los datos que se presentan en la siguiente tabla STOCKRETURN representan las tasas de rendimiento total del índice industrial Dow Jones, del índice Standard & Poor’s 500, del índice Russell 2000, y del índice Wilshire 5000 de 2000 a 2003.
3.19 Durante el periodo de 2000 a 2003, se observó una gran volatilidad en el valor de las inversiones. Los datos que se presentan en la siguiente tabla BANKRETURN representan la tasa de rendimiento total de un certificado de depósito a un año, de un certificado de depósito a 30 meses y de un depósito en el mercado de dinero de 2000 a 2003. Año
A 1 año
A 30 meses
Mercado de dinero
2003 2002 2001 2000
1.20 1.98 3.60 5.46
1.76 2.74 3.97 5.64
0.61 1.02 1.73 2.09
Fuente: The Wall Street Journal, 2 de enero, 2004.
a. Calcule la tasa de rendimiento geométrica de los certificados de depósito a un año, 30 meses y en el mercado de dinero. b. ¿Qué conclusiones se obtienen en relación con las tasas de rendimiento geométricas de los tres depósitos? c. Compare los resultados del inciso b) con los de los problemas 3.18b) y 3.20b). 3.20 Durante el periodo de 2000 a 2003, se observó una gran volatilidad en el valor de los metales. Los datos que se presentan en la siguiente tabla METALRETURN representan la tasa de rendimiento total de platino, oro y plata de 2000 a 2003. Año
Platino
Oro
Plata
2003 2002 2001 2000
34.2 24.5 −21.3 −23.3
19.5 24.5 1.2 1.8
24.0 5.5 −3.0 −5.9
Fuente: The Wall Street Journal, 2 de enero, 2004.
a. Calcule la tasa de rendimiento geométrica de platino, oro y plata. b. ¿Qué conclusiones se obtienen en relación con las tasas de rendimiento geométricas de los tres metales? c. Compare los resultados del inciso b) con los de los problemas 3.18b) y 3.19b).
94
CAPÍTULO 3 Medidas numéricas descriptivas
3.2
MEDIDAS NUMÉRICAS DESCRIPTIVAS DE UNA POBLACIÓN En la sección 3.1 se expusieron varios estadísticos que describen las propiedades de la tendencia central, la variación y la forma de una muestra. Si su conjunto de datos representa medidas numéricas de toda una población, necesita calcular e interpretar los parámetros, medidas sintetizadas para una población. En esta sección, aprenderá sobre tres parámetros descriptivos de la población, la media poblacional, la varianza poblacional y la desviación estándar poblacional. Como ayuda para ilustrar estos parámetros, vea primero la tabla 3.5, que contiene los cinco mayores bonos de capital (en términos de activos totales) para el primero de marzo de 2004. También se indica el rendimiento a 52 semanas de cada uno de ellos. LARGEST BONDS
TABLA 3.5 Rendimiento en 2003 de la población compuesta por los cinco mayores bonos de capital.
Rendimiento a 52 semanas (en porcentaje)
Fondo de capital Vanguard GNMA Vanguard Total Bond Index Pimco Total Return Admin Pimco Total Return Instl America Bond Fund
3.8 6.5 7.0 7.3 12.9
Fuente: The Wall Street Journal, 25 de marzo, 2004, C2.
La media poblacional La media poblacional se representa por medio del símbolo µ, la letra griega mu minúscula. La ecuación (3.13) define a la media poblacional.
MEDIA POBLACIONAL La media poblacional es la suma de los valores de la población dividida por el tamaño de la población N. N
µ =
donde
∑ Xi i =1
N
(3.13)
µ = media poblacional N
Xi = i-ésimo valor de la variable X
∑ XXi = sumatoria de todos los valores Xi de la población i =1
Para calcular el rendimiento medio de la población de bonos de capital listados en la tabla 3.5, se utiliza la ecuación (3.13), N
µ =
∑ Xi i =1
N
=
3.8 + 6.5 + 7.0 + 7.3 + 12.9 37.5 = = 7.5 5 5
De esta manera, el rendimiento medio en 2003 de tales bonos de capital es del 7.5%.
3.2: Medidas numéricas descriptivas de una población
95
Varianza y desviación estándar poblacionales La varianza poblacional y la desviación estándar poblacional miden la variación en una población. Al igual que los estadísticos muestrales relacionados, la desviación estándar poblacional es igual a la raíz cuadrada de la varianza poblacional. El símbolo σ2, que es la letra griega sigma minúscula elevada al cuadrado, representa la varianza poblacional y el símbolo σ, la misma letra griega minúscula pero sin elevar al cuadrado, representa la desviación estándar poblacional. Las ecuaciones (3.14) y (3.15) definen esos parámetros. Los denominadores de los términos de la derecha de estas ecuaciones utilizan N y no el término (n − 1) que se emplea para la varianza y la desviación estándar de las muestras [vea las ecuaciones (3.9) y (3.10) de la página 82].
VARIANZA POBLACIONAL La varianza poblacional es la suma de las diferencias con respecto a la media de la población elevada al cuadrado y dividida por el tamaño de la población N. N
σ2 =
donde
∑ ( X i − µ )2 i =1
N
(3.14)
µ = media poblacional Xi = i-ésimo valor de la variable X N
∑ ( X i − µ )2 = sumatoria de todas las diferencias entre los valores Xi y µ, elevadas al cuadrado
i =1
DESVIACIÓN ESTÁNDAR POBLACIONAL
N
σ =
∑ ( X i − µ )2 i =1
N
(3.15)
Para calcular la varianza poblacional correspondiente a los datos de la tabla 3.5 de la página 94, se utiliza la ecuación (3.14), N
σ2 =
∑ ( X i − µ)2 i =1
N
=
( 3.8 − 7.5) 2 + (6.5 − 7.5) 2 + ( 7.0 − 7.5) 2 + ( 7.3 − 7.5) 2 + (12.9 − 7.5) 2 5
=
13.69 + 1.00 + 0.25 + 0.04 + 29.16 5
=
44.14 = 8.828 5
96
CAPÍTULO 3 Medidas numéricas descriptivas
De esta forma, la varianza de los rendimientos es de 8.828 unidades porcentuales de rendimiento al cuadrado. Las unidades cuadradas hacen que la varianza sea difícil de interpretar. Debe utilizarse la desviación estándar, que emplea las unidades originales de los datos (rendimiento porcentual). A partir de la ecuación (3.15), N
σ =
σ2 =
∑ ( X i − µ )2 i =1
N
=
8.828 = 2.97
Por lo tanto, el rendimiento típico en 2003 difiere de la media de 7.5 en aproximadamente 2.97. Esta enorme variación sugiere que los grandes bonos de capital tienen resultados muy distintos.
La regla empírica En la mayoría de los conjuntos de datos, una gran parte de los valores tienden a agruparse en algún lugar cercano a la mediana. En los conjuntos de datos asimétricos a la derecha, el agrupamiento se presenta a la izquierda de la media, es decir en un valor menor que la media. En los conjuntos de datos asimétricos a la izquierda, el agrupamiento se presenta a la derecha de la media, es decir en un valor mayor que la media. En los conjuntos de datos simétricos, donde la mediana y la media son iguales, con frecuencia los valores tienden a agruparse alrededor de la media y la mediana, generando una distribución con forma de campana. En las distribuciones de esta clase, utilizar la regla empírica permite examinar la variabilidad:
• • •
Aproximadamente el 68% de los valores se encuentra a una distancia de ±1 desviación estándar de la media. Aproximadamente el 95% de los valores se encuentra a una distancia de ±2 desviaciones estándar de la media. Aproximadamente el 99.7% se encuentra a una distancia de ±3 desviaciones estándar de la media.
La regla empírica ayuda a medir cómo se distribuyen los valores por encima y debajo de la media. Esto permite identificar los valores atípicos cuando se analiza un conjunto de datos numéricos. La regla empírica implica que, en las distribuciones con forma de campana, aproximadamente sólo uno de cada 20 valores estará alejado de la media más allá de dos desviaciones estándar en cualquier dirección. Por regla general, los valores que no se encuentran en el intervalo µ ± 2σ se consideran como posibles atípicos. Esta regla también implica que sólo alrededor de tres de cada 1,000 estarán alejados de la media más allá de tres desviaciones estándar. Por lo tanto, casi siempre se consideran como extremos los valores que no se encuentran en el intervalo µ ± 3σ. En los conjuntos de datos con mucha asimetría, o en los que por alguna otra razón no tienen forma de campana, en lugar de la regla empírica se debe aplicar la regla de Chebyshev, que se explica en la página 97.
EJEMPLO 3.12
USO DE LA REGLA EMPÍRICA La cantidad media de llenado de una población integrada por 12 latas de gaseosa es de 12.06 onzas, con una desviación estándar de 0.02. También se sabe que esta población tiene forma de campana. Describa la distribución de la cantidad de llenado de las latas. ¿Existe una gran probabilidad de que una lata tenga menos de 12 onzas de gaseosa? SOLUCIÓN
µ ± σ = 12.06 ± 0.02 = (12.04, 12.08 ) µ ± 2σ = 12.06 ± 2(0.02 ) = (12.02, 12.10 ) µ ± 3σ = 12.06 ± 3(0.02 ) = (12.00, 12.12 )
Utilizando la regla empírica, aproximadamente el 68% de las latas tendrá entre 12.04 y 12.08 onzas, aproximadamente el 95% tendrá entre 12.02 y 12.10 onzas, y aproximadamente el 99.7% tendrá entre 12.00 y 12.12 onzas. Así que es muy poco probable que una lata tenga menos de 12 onzas.
3.2: Medidas numéricas descriptivas de una población
97
La regla de Chebyshev La regla de Chebyshev (referencia 1) establece que para todo conjunto de datos, independientemente de su forma, el porcentaje de valores que se encuentran a una distancia de k desviaciones estándar o menos de la media, debe ser por lo menos igual a (1 − 1/k2) × 100% Puede usar esta regla para todo valor de k mayor que 1. Considere una k = 2. La regla de Chebyshev establece que al menos [1 − (1/2)2] × 100% = 75% de los valores debe estar dentro de ±2 desviaciones estándar de la media. La regla de Chebyshev es muy general y se aplica a cualquier tipo de distribución. La regla señala por lo menos el porcentaje de valores que quedan dentro de una distancia dada de la media. Sin embargo, si el conjunto de datos tiene una forma que se aproxima a la de campana, la regla empírica reflejará con mayor precisión la mayor concentración de datos cerca de la media. En la tabla 3.6 se comparan la regla empírica y la de Chebyshev.
TABLA 3.6 Variación de los datos con respecto a la media.
EJEMPLO 3.13
Porcentaje de valores encontrados en intervalos alrededor de la media Chebyshev (para toda distribución)
Intervalo (µ − σ, µ + σ) (µ − 2σ, µ + 2σ) (µ − 3σ, µ + 3σ)
Regla empírica (distribución con forma de campana)
Al menos 0% Al menos 75% Al menos 88.89%
Aproximadamente 68% Aproximadamente 95% Aproximadamente 99.7%
USO DE LA REGLA DE CHEBYSHEV Como en el ejemplo 3.12, la media de la cantidad de llenado de una población integrada por 12 latas de gaseosa es de 12.06 onzas y una desviación estándar de 0.02. Sin embargo, no se conoce la forma de la población y no es posible suponer que tiene forma de campana. Describa la distribución de la cantidad de llenado de las latas. ¿Existe una gran probabilidad de que una lata tenga menos de 12 onzas de gaseosa? SOLUCIÓN
µ ± σ = 12.06 ± 0.02 = (12.04, 12.08 ) µ ± 2σ = 12.06 ± 2(0.02 ) = (12.02, 12.10 ) µ ± 3σ = 12.06 ± 3(0.02 ) = (12.00, 12.12 )
Como la distribución posiblemente sea asimétrica, no es pertinente utilizar la regla empírica. Usando la regla de Chebyshev no se puede decir algo sobre el porcentaje de latas que tienen entre 12.04 y 12.08 onzas. Es posible determinar que al menos el 75% de las latas tendrá entre 12.02 y 12.10 onzas, y que por lo menos el 88.89% tendrá entre 12.00 y 12.12 onzas. Por lo tanto, entre 0 y 11.11% de las latas tiene menos de 12 onzas.
Cuando se tienen datos muestrales, estas dos reglas permiten entender cómo se distribuyen los que calculó, en lugar de µ y el que datos alrededor de la media. En todo caso, use el valor de X calculó para S en lugar de σ. Los resultados calculados empleando los estadísticos muestrales son , S) y no parámetros poblacionales (µ, σ). aproximaciones, ya que utilizó estadísticos muestrales (X
98
CAPÍTULO 3 Medidas numéricas descriptivas
PROBLEMAS PARA LA SECCIÓN 3.2 Aprendizaje básico 3.21 A continuación se presenta un conjunto de datos para una población con N = 10: 7 5 11 8 3 6 2 1 9 8 a. Calcule la media poblacional. b. Calcule la desviación estándar poblacional. ASISTENCIA
de PH Grade
ASISTENCIA 3.22 A continuación se presenta un conjunto de dade PH Grade tos para una población con N = 10: 7 5 6 6 6 4 8 6 9 3 a. Calcule la media poblacional. b. Calcule la desviación estándar poblacional.
Aplicación de conceptos 3.23 Los siguientes datos representan las declaraciones trimestrales de impuestos por ventas (en miles de dólares), correspondientes al periodo que finalizó en marzo de 2004, enviados al contralor del poblado Fair Lake por los 50 negocios establecidos en dicha localidad: TAX AUTO Examen
10.3 11.1 13.06.7 13.01 1.2 8.01 1.8 11.1 10.2 11.6 15.1 10.0 12.9 12.5 9.3 9.3 11.5 10.5 7.6
9.6 9.0 14.5 11.08.4 10.3 7.3 5.3 12.5 8.7 10.6 9.5 11.1 9.9 9.8 12.5 6.5 7.5 9.2 10.0 12.8 10.4 12.7 10.5 10.7 11.6 7.8 10.1 8.9 8.6
a. Calcule la media, la varianza y la desviación estándar de esta población. b. ¿Qué proporción de estos negocios tienen declaraciones trimestrales de impuestos sobre ventas dentro de ±1, ±2 o ±3 desviaciones estándar de la media? c. Compare y encuentre las diferencias entre sus hallazgos con lo que cabría esperar de acuerdo con la regla empírica. ¿Le sorprenden los resultados obtenidos en b)? 3.24 Considere una población de 1,024 fondos de inversión que invierten principalmente en empresas grandes. Usted determinó que µ, la media del porcentaje total anual de rendimientos obtenidos por todos los fondos es 8.20 y que σ, la desviación estándar, es 2.75. Suponga además que determinó que el rango del porcentaje total anual va de −2.0 a 17.1 y que los cuartiles son 5.5 (Q1) y 10.5(Q3), respectivamente. De acuerdo con la regla empírica, ¿qué porcentaje de estos fondos se espera que estén a. dentro de ±1 desviaciones estándar de la media? b. dentro de ±2 desviaciones estándar de la media? ASISTENCIA
de PH Grade
c. De acuerdo con la regla de Chebyshev, ¿qué porcentaje de estos fondos se espera que estén dentro de ±1, ±2 o ±3 desviaciones estándar de la media? d. De acuerdo con la regla de Chebyshev, se espera que al menos el 93.75% de estos fondos tenga rendimientos totales anuales entre ¿cuáles dos cantidades? 3.25 En la siguiente tabla ASSETS se representan los activos de cinco grandes fondos de capital, en miles de millones de dólares.
Fondo de capital Vanguard GNMA Vanguard Total Bond Mkt. Index Bond Fund of America A Franklin Calif. Tax-Free Inc. A Vanguard Short-Term Corp.
Activos (miles de millones de dólares) 19.5 16.8 13.7 12.8 10.9
a. Calcule la media de esta población constituida por los cinco bonos de capital más grandes. Interprete este parámetro. b. Calcule la varianza y la desviación estándar de esta población. Interprete estos parámetros. c. ¿Existe mucha variabilidad en los activos de los fondos de capital? 3.26 Los datos del archivo ENERGY contienen el consumo de energía per cápita en kilowatts-hora de cada uno de los 50 estados y el distrito de Columbia, que constituyen a Estados Unidos, durante 1999. a. Calcule la media, la varianza y desviación estándar de la población. b. ¿Qué proporción de estos estados tienen un consumo de energía promedio per cápita dentro de ±1 desviación estándar de la media, dentro de ±2 desviaciones estándar de la media, y dentro de ±3 desviaciones estándar de la media? c. Compare y encuentre las diferencias entre sus hallazgos contra lo que cabría esperar de acuerdo con la regla empírica. ¿Le sorprenden los resultados obtenidos en b)? d. Eliminando los datos correspondientes al distrito de Columbia en los incisos a) a c), ¿cómo cambian los resultados? 3.27 Los datos en el archivo DOWRETURN muestran el rendimiento anualizado de 10 años (1994-2003) correspondiente a 30 empresas incluidas en el Dow Jones Industrials. a. Calcule la media de esta población. Interprete este número. b. Calcule la varianza y la desviación estándar de esta población. Interprete la desviación estándar. c. Utilice la regla empírica o la de Chebyshev, la que resulte apropiada, para explicar aún más la variación de este conjunto de datos. d. Utilizando los resultados de c), ¿existen algunos datos atípicos? Explique su respuesta.
3.3: Análisis exploratorio de datos
3.3
99
ANÁLISIS EXPLORATORIO DE DATOS En la sección 3.1 se analizaron estadísticos muestrales para datos numéricos como son las medidas de tendencia central, variación y forma. Otra manera de describir datos numéricos es mediante el análisis exploratorio de datos, que incluye el resumen de cinco números y la gráfica de caja y bigote (referencias 5 y 6).
Resumen de cinco números Un resumen de cinco números compuesto por: Q1
Xmenor
Mediana
Q3
Xmayor
permite determinar la forma de la distribución. En la tabla 3.7 se explica cómo las relaciones entre los “cinco números” le permiten reconocer la forma del conjunto de datos.
TABLA 3.7 Relaciones entre el resumen de cinco números y el tipo de distribución
Tipo de distribución Comparación
Asimétrico a la izquierda
Simétrico
Asimétrico a la derecha
La distancia de Xmenor a la mediana contra la distancia de la mediana a Xmayor.
La distancia de Xmenor a la mediana es mayor que la distancia de la mediana a Xmayor.
Ambas distancias son iguales.
La distancia de Xmenor a la mediana es menor que la distancia de la mediana a Xmayor.
La distancia de Xmenor a Q1 contra la distancia de Q3 a Xmayor.
La distancia de Xmenor a Q1 es mayor que la distancia de Q3 a Xmayor.
Ambas distancias son iguales.
La distancia de Xmenor a Q1 es menor que la distancia de Q3 a Xmayor.
La distancia de Ql a la mediana contra la distancia de la mediana a Q3
La distancia de Q1 a la mediana es mayor que la distancia de la mediana a Q3
Ambas distancias son iguales.
La distancia de Q1 a la mediana es menor que la distancia de la mediana a Q3.
Para la muestra de 10 tiempos necesarios para arreglarse, el menor valor es 29 minutos y el mayor es 52 minutos (vea las páginas 75 y 77). Los cálculos ya realizados en la sección 3.1 indican que la mediana = 39.5, el primer cuartil = 35, y el tercer cuartil = 44. Por lo tanto, el resumen de cinco puntos es: 29
35
39.5
44
52
La distancia de Xmenor a la mediana (39.5 − 29 = 10.5) es ligeramente menor que la distancia de la mediana a Xmayor (52 − 39.5 = 12.5). La distancia de Xmenor a Q1 (35 − 29 = 6) es ligeramente menor que la distancia de Q3 a Xmayor (52 44 = 8). De esta forma, los tiempos para arreglarse son ligeramente asimétricos a la derecha.
EJEMPLO 3.14
CÁLCULO DEL RESUMEN DE LOS CINCO NÚMEROS DEL PORCENTAJE DE RENDIMIENTO EN 2003 DE LOS FONDOS DE INVERSIÓN DE ALTO RIESGO PARA PEQUEÑOS CAPITALES Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72), se clasifican de acuerdo con el nivel de riesgo (bajo, medio y alto) y el tamaño del capital invertido (pequeño, mediano y gran capital). Calcule el resumen de cinco puntos del rendimiento en 2003 de los nueve fondos de inversión de alto riesgo para pequeños capitales. MUTUALFUNDS2004
100
CAPÍTULO 3 Medidas numéricas descriptivas
SOLUCIÓN De los cálculos previos realizados a los rendimientos en 2003 de los fondos de alto riesgo para pequeños capitales (vea las páginas 76 y 78), la mediana = 53.8, el primer cuartil = 41.7, y el tercer cuartil = 60.85. Además, el menor valor del conjunto de datos es 37.3 y el mayor es 66.5. Por lo tanto, el resumen de cinco puntos es: 37.3
41.7
53.8
60.85
66.5
La distancia de Xmenor a la mediana (53.8 − 37.3 = 16.5) es mayor que la distancia de la mediana a Xmayor (66.5 − 53.8 = 12.7). Esto indica asimetría a la izquierda. La distancia de Xmenor a Q1 (41.7 − 37.3 = 4.4) es ligeramente menor que la distancia de Q3 a Xmayor (66.5 − 60.85 = 5.65). Esto indica una ligera asimetría a la derecha. Por lo tanto, los resultados son incongruentes.
Gráfica de caja y bigote La gráfica de caja y bigote ofrece una representación visual de los datos basada en el resumen de cinco números. En la figura 3.4 se ilustra la gráfica de caja y bigote de los tiempos necesarios para arreglarse.
FIGURA 3.4 Gráfica de caja y bigote del tiempo necesario para arreglarse. Xmenor
20
25
30
Q1 35
Mediana 40 Tiempo (minutos)
Xmayor
Q3 45
50
55
La línea vertical dibujada dentro de la caja representa a la mediana. La línea vertical a la izquierda de la caja representa la ubicación de Q1 y la línea vertical a la derecha de la caja representa la ubicación de Q3. De esta forma, la caja contiene al 50% de los valores de la distribución. El 25% inferior de los datos se representa mediante una línea (es decir, un bigote) que une el lado izquierdo de la caja con la ubicación del menor valor, Xmenor. De la misma manera, el 25% superior de los datos se representa mediante un bigote que une el lado derecho de la caja con la ubicación del valor mayor, Xmayor. La gráfica de caja y bigote de los tiempos necesarios para arreglarse que aparece en la figura 3.4 muestra una muy ligera asimetría a la derecha, ya que la distancia entre la mediana y el valor mayor es levemente mayor que la distancia entre el menor valor y la mediana. El bigote derecho es un poco más largo que el izquierdo.
EJEMPLO 3.15
GRÁFICA DE CAJA Y BIGOTE DEL RENDIMIENTO PORCENTUAL EN 2003 DE LOS FONDOS DE INVERSIÓN DE RIESGO BAJO, PROMEDIO Y ALTO Los 121 fondos de inversión que forman parte del escenario “Uso de la estadística” (vea la página 72) se clasifican de acuerdo con su nivel de riesgo (bajo, medio y alto) y tamaño del capital invertido (pequeño, mediano y gran capital). Construya la gráfica de caja y bigote para los rendimientos en 2003 para los fondos de inversión de riesgo bajo, promedio y alto. MUTUALFUNDS2004
3.3: Análisis exploratorio de datos
existen valores atípicos, los bigotes de la gráfica de caja y bigote de Minitab se extienden 1.5 veces el rango intercuartil más allá de los cuartiles o hasta el valor más alto.
FIGURA 3.5 Gráfica de caja y bigote de los rendimientos en 2003, en Minitab, para los fondos de inversión de riesgo bajo, promedio y alto.
SOLUCIÓN En la figura 3.5 aparece la gráfica de caja y bigote de los rendimientos en 2003 para los fondos de inversión de riesgo bajo, promedio, y alto, elaborada en Minitab. Este programa muestra la gráfica de manera vertical, de inferior (bajo) a superior (alto). El asterisco (*) de los fondos de riesgo promedio representa la presencia de valores atípicos.2 La media del porcentaje de rendimiento y los cuartiles de los fondos de alto riesgo son mayores que los correspondientes a los fondos de riesgo bajo o promedio. Los fondos de riesgo promedio son asimétricos a la derecha, a causa del rendimiento extremadamente alto de uno de ellos (78). Los fondos de alto riesgo aparecen asimétricos a la izquierda por el largo bigote inferior, pero la mediana del rendimiento está más cerca del primer cuartil que del tercero. Los fondos de bajo riesgo aparecen ligeramente asimétricos a la derecha porque el bigote superior es más largo que el inferior.
Cuadro-gráfica de rendimiento en 2003 vs. riesgo
Rendimiento en 2003
2Si
101
promedio
alto Riesgo
bajo
En la figura 3.6 se comprueba la relación que existe entre la gráfica de caja y bigote y el polígono de cuatro tipos distintos de distribución. (Nota: El área bajo cada polígono se divide en cuartiles que corresponden al resumen de cinco números de la gráfica de caja y bigote.)
FIGURA 3.6 Gráficas de caja y bigote, y sus polígonos correspondientes, de cuatro distribuciones. .
Panel A Distribución en forma de campana
Panel B Distribución asimétrica a la izquierda
Panel C Distribución asimétrica a la derecha
Panel D Distribución rectangular
102
CAPÍTULO 3 Medidas numéricas descriptivas
Los paneles A y D de la figura 3.6 son simétricos. En estas distribuciones, la media y la mediana son iguales. Además, la longitud del bigote izquierdo es igual a la del derecho, y la línea que representa a la mediana divide la caja por la mitad. El panel B de la figura 3.6 es asimétrico a la izquierda. Los pocos valores pequeños inclinan a la media hacia la punta izquierda. Para esta distribución asimétrica a la izquierda, la asimetría indica que existe un marcado agrupamiento de los valores en el extremo superior de la escala (es decir, el lado derecho); el 75% de todos los valores se encuentra entre el extremo izquierdo de la caja (Q1) y el extremo del bigote derecho (Xmayor). Por lo tanto, el largo bigote izquierdo contiene al 25% más pequeño de los valores, lo que demuestra distorsión de la simetría de este conjunto de datos. El panel C de la figura 3.6 es asimétrico a la derecha. La concentración de valores está en el extremo inferior de la escala (es decir, en el lado izquierdo de la gráfica de caja y bigote). Aquí, el 75% de todos los valores se encuentra entre el principio del bigote izquierdo (Xmenor) y el extremo derecho de la caja (Q3), y el 25% restante de los valores se encuentra disperso a lo largo del bigote derecho, en el extremo superior de la escala.
PROBLEMAS PARA LA SECCIÓN 3.3 Aprendizaje básico ASISTENCIA
de PH Grade
3.28 A continuación se presenta un conjunto de datos para una muestra con n = 6: 7
4
9
7
3
12
a. Elabore el resumen de cinco números. b. Construya su gráfica de caja y bigote, y describa la forma. c. Compare su respuesta del inciso b) con la del problema 3.2d) de la página 90. Analícela. ASISTENCIA
de PH Grade
3.29 A continuación se presenta un conjunto de datos para una muestra con n = 7: 12
7
4
9
0
7
3
a. Elabore el resumen de cinco números. b. Realice su gráfica de caja y bigote, y describa la forma. c. Compare su respuesta del inciso b) con la del problema 3.3c) de la página 90. Analícela. 3.30 A continuación se presenta un conjunto de datos para una muestra con n = 5: 7 −5 −8 7 9 a. Elabore el resumen de cinco números. b. Construya su gráfica de caja y bigote, y describa la forma. c. Compare su respuesta del inciso b) con la del problema 3.4c) de la página 90. Analícela.
Aplicación de conceptos Puede resolver los problemas 3.31 a 3.36 manualmente o en Excel, Minitab o SPSS. ASISTENCIA
de PH Grade
AUTO Examen
3.31 Un fabricante de baterías para flash fotográfico tomó una muestra de 13 baterías de la producción diaria y las utilizó
de manera continua hasta agotarlas. El número de horas que funcionaron está en el archivo. BATTERIES 342 426 317 545 264 451 1,049 631 512 266 492 562 298 a. Elabore el resumen de cinco números. b. Construya su gráfica de caja y bigote, y describa la forma. 3.32 Durante el ciclo escolar 2002-2003, muchas universidades estadounidenses elevaron sus cuotas y tarifas de manutención, como consecuencia de la reducción de los subsidios estatales (Mary Beth Marklein, “Public Universities Raise Tuition, Fees -and Ire”, USA Today, 8 de agosto, 2002, 1A-2A). A continuación se representa el cambio del costo de inscripción, un dormitorio compartido y el plan de alimentación más solicitado entre los ciclos escolares 2001-2002 y 2002-2003, para una muestra de 10 universidades públicas. COLLEGECOST
Universidad University of California, Berkeley University of Georgia, Athens University of Illinois, Urbana-Champaign Kansas State University, Manhattan University of Maine, Orono University of Mississippi, Oxford University of New Hampshire, Durham Ohio State University, Columbus University of South Carolina, Columbia Utah State University, Logan
Cambio en el costo ($) 1,589 593 1,223 869 423 1,720 708 1,425 922 308
a. Elabore el resumen de cinco números. b. Construya su gráfica de caja y bigote, y describa la forma.
3.4: La covarianza y el coeficiente de correlación
3.33 Una empresa dedicada a la consultoría y al desarrollo de software, ubicada en el área metropolitana de Phoenix, desarrolla software para sistemas administrativos de cadenas de suministro y se vale de la reutilización sistemática de software. En lugar de comenzar desde cero para elaborar y desarrollar nuevos sistemas personalizados de software, utiliza una base de datos que contiene componentes reutilizables que suman más de 2,000,000 de líneas de código, recopilados a lo largo de 10 años de actividades continuas. Se pide a ocho analistas de la empresa que calculen la tasa de reutilización cuando se desarrolla un nuevo sistema de software. Los siguientes datos corresponden al porcentaje total de código que procede de la base de datos de reutilización y forma parte del sistema de software. REUSE 50.062.5
37.5
75.045.047.5
15.025.0
Fuente: M. A. Rothenberger y K. J. Dooley, “A Performance Measure for Software Reuse Projects”, Decision Sciences, 30 (Otoño de 1999), 11311153.
a. Elabore el resumen de cinco números. b. Realice su gráfica de caja y bigote, y describa la forma de los datos.
3.34 Los siguientes datos representan la tarifa (en dólares) por cheque devuelto de una muestra de 23 bancos, para los clientes de depósito directo que conservan un saldo de $100 y la cuota (en dólares) mensual por manejo de cuenta, si sus cuentas no conservan el saldo mínimo requerido de $1,500, de una muestra de 26 bancos. BANKCOST1 BANKCOST2 Tarifa por cheque devuelto 26 28 20 20 21 22 25 25 18 25 15 20 18 20 25 25 22 30 30 30 15 20 29
Cuota mensual por manejo de cuenta 12 8 5 5 6 6 10 10 9 7 10 7 7 5 0 10 6 9 12 0 5 10 8 5 5 9 Fuente: “The New Face of Banking”, Copyright © 2000 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, junio de 2000.
a. Elabore el resumen de cinco números de la tarifa por cheque devuelto y de la cuota mensual por manejo de cuenta. b. Realice la gráfica de caja y bigote de la tarifa por cheque devuelto y de la cuota mensual por manejo de cuenta. c. ¿Qué similitudes y diferencias existen en la distribución de la tarifa por cheque devuelto y de la cuota mensual por manejo de cuenta? 3.35 Los siguientes datos representan el total de grasas en hamburguesas y artículos de pollo tomados de una muestra de cadenas de comida rápida. FASTFOOD
3.4
103
Hamburguesas 19 31 34 35 39 39 43 Pollo 7 9 15 16 16 18 22 25 27 33 39 Fuente: “Quick Bites”, Copyright © 2001 por Consumers Union of US., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, marzo de 2001, 46.
a. Elabore el resumen de cinco puntos para las hamburguesas y para los productos de pollo. b. Construya la gráfica de caja y bigote para las hamburguesas y los productos de pollo, y describa la forma de la distribución de cada una. c. ¿Qué similitudes y diferencias existen en la distribución de hamburguesas y de productos de pollo? 3.36 Una sucursal bancaria ubicada en una zona comercial de la ciudad desarrolló un proceso mejorado para atender a sus clientes durante la hora del almuerzo a mediodía, hasta la 1:00 PM. Durante una semana se registra el tiempo de espera en minutos (definido de manera operacional como el tiempo transcurrido desde que el cliente se forma en la fila hasta que llega a la ventanilla del cajero) de todos los clientes en ese horario. Se selecciona una muestra aleatoria de 15 clientes, y los resultados son los siguientes: BANK1 4.21 5.55 3.204.506.100
3.02
5.13 4.77 2.34 3.54 .38 5.12 6.46 6.19 3.79
Otra sucursal, ubicada en una zona residencial, también está preocupada por el horario del almuerzo de mediodía hasta la 1:00 PM. Durante una semana, se registra el tiempo de espera en minutos (definido como el tiempo transcurrido desde que el cliente se forma en la fila hasta que llega a la ventanilla del cajero) de todos los clientes en ese horario. Se selecciona una muestra aleatoria de 15 clientes, y los resultados son los siguientes: BANK2 9.66 5.90 8.02 5.79 8.73 3.82 8.01 8.35 10.49 6.68 5.64 4.08 6.17 9.91 5.47 a. Elabore el resumen de cinco números para tiempo de espera en ambas sucursales bancarias. b. Construya la gráfica de caja y bigote, y describa la forma de la distribución de las dos sucursales. c. ¿Qué similitudes y diferencias existen en la distribución de los tiempos de espera en ambas sucursales bancarias?
LA COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN En la sección 2.5, usted utilizó los diagramas de dispersión para examinar de forma visual la relación que existe entre dos variables numéricas. En esta sección, se analizan la covarianza y el coeficiente de correlación, que miden la fortaleza de la relación entre dos variables numéricas.
La covarianza La covarianza mide la fortaleza de la relación lineal entre dos variables numéricas (X y Y). La ecuación 3.16 define la covarianza de una muestra y el ejemplo 3.16 ilustra su uso.
104
CAPÍTULO 3 Medidas numéricas descriptivas
LA COVARIANZA MUESTRAL n
cov( X , Y ) =
EJEMPLO 3.16
∑ ( X i − X )(Yi − Y ) i =1
n −1
(3.16)
CÁLCULO DE LA COVARIANZA DE UNA MUESTRA Considere el coeficiente de gastos y los rendimientos en 2003 de los fondos de inversión de alto riesgo para pequeños capitales. Calcule la covarianza de la muestra. SOLUCIÓN La tabla 3.8 presenta el coeficiente de gastos y los rendimientos de los fondos de inversión de alto riesgo para pequeños capitales, y en la figura 3.7 aparece una hoja de Excel que calcula la covarianza de esos datos. El área de cálculos de la figura 3.7 descompone la ecuación (3.16) en un conjunto de cálculos más pequeños. A partir de la celda C17, o directamente por la ecuación (3.16), se sabe que la covarianza es 1.19738. cov( X , Y ) =
9.579 9 −1
= 1.19738
TABLA 3.8 Coeficiente de gastos y rendimientos en 2003 de los fondos de inversión de alto riesgo para pequeños capitales.
FIGURA 3.7 Hoja de Excel que calcula la covarianza entre el coeficiente de gastos y los rendimientos en 2003 de los fondos de alto riesgo para pequeños capitales.
Coeficiente de gastos 1.25 0.72 1.57 1.4044.5 1.33 1.61 1.68 1.42 1.2066.5
Rendimiento en 2003 37.3 39.2 44.2 53.8 56.6 59.3 62.4
105
3.4: La covarianza y el coeficiente de correlación
La covarianza tiene un defecto importante como medida de la relación lineal entre dos variables numéricas. Como la covarianza puede tener cualquier valor, es imposible determinar la fortaleza relativa de la relación. Para ello, es necesario calcular el coeficiente de correlación.
Coeficiente de correlación El coeficiente de correlación mide la fortaleza relativa de una relación lineal entre dos variables numéricas. Los valores del coeficiente de correlación varían desde −1 para una correlación negativa perfecta, hasta +1 para una correlación positiva perfecta. Perfecta quiere decir que si se trazaran los puntos en un diagrama de dispersión, todos ellos se podrían unir por medio de una línea recta. Al tratar con datos poblacionales para variables numéricas, se utiliza la letra griega ρ como símbolo del coeficiente de correlación. En la figura 3.8 se ilustran tres tipos diferentes de asociación entre dos variables.
FIGURA 3.8 Tipos de asociación entre variables.
Y
Y
Panel A Correlación negativa perfecta (r = –1)
X
Y
Panel B Sin correlación (r = 0)
X
Panel C Correlación positiva perfecta (r = +1)
X
En el panel A de la figura 3.8 hay una relación lineal negativa perfecta entre X y Y. De esta manera, el coeficiente de relación ρ es igual a −1, y al aumentar X, Y disminuye de una manera perfectamente predecible. El panel B ilustra una situación en la que no existe relación entre X y Y. En este caso, el coeficiente de correlación ρ es igual a 0, y al aumentar X no existe tendencia de Y a aumentar ni disminuir. El panel C ilustra una relación positiva perfecta en la que ρ es igual a +1. En este caso, Y aumenta de una manera perfectamente predecible cuando lo hace X. Cuando se tienen datos muestrales, se calcula el coeficiente muestral de correlación r. Al utilizar los datos de una muestra, es difícil que se tenga un coeficiente muestral de exactamente +1 o −1. En la figura 3.9 de la página 106 se presentan diagramas de dispersión, con sus respectivos coeficientes muestrales de correlación r para seis conjuntos de datos, cada uno de los cuales contiene 100 valores de X y Y. En el panel A, el coeficiente de correlación r es −0.9. Como se observa, donde los valores de X son más pequeños existe una fuerte tendencia a que los valores de Y sean grandes. De la misma forma, los valores pequeños de X tienden a hermanarse con valores pequeños en Y. No todos los datos quedan sobre una línea recta, por lo que la asociación entre X y Y no se describe como perfecta. Los datos del panel B tienen un coeficiente de correlación igual a −0.6, y los valores pequeños de X tienden a hermanarse con los valores grandes de Y. La relación lineal entre X y Y en el panel B no es tan fuerte como en el panel A. Así, el coeficiente de correlación en el panel B no es tan negativo como en el panel A. En el panel C, la relación lineal entre X y Y es muy débil, r = −0.3, y sólo existe una ligera tendencia de los valores pequeños de X a hermanarse con los más grandes de Y. En los paneles D a F se describen conjuntos de datos con coeficientes de correlación positivos, porque los valores pequeños de X tienden a hermanarse con los valores pequeños de Y, y los valores grandes de X tienden a asociarse con los valores grandes de Y. En el análisis de la figura 3.9, las relaciones se describieron deliberadamente como tendencias y no como causa-efecto. Ese término se utilizó con un propósito. La sola correlación no prueba que
106
CAPÍTULO 3 Medidas numéricas descriptivas
FIGURA 3.9 Seis diagramas de dispersión creados con Minitab y sus respectivos coeficientes de correlación r. existe un efecto de causalidad, es decir, que el cambio en el valor de una variable causó el cambio en la otra variable. Una correlación fuerte puede producirse por simple coincidencia, por el efecto de una tercera variable que no se tomó en cuenta en el cálculo, o por una relación de causa-efecto. Sería necesario realizar un análisis adicional para determinar cuál de estas tres situaciones produce verdaderamente la correlación. Por tanto, se afirma que la causalidad implica correlación, pero la sola correlación no implica causalidad. La ecuación (3.17) define el coeficiente muestral de correlación r y el ejemplo 3.17 ilustra su uso.
3.4: La covarianza y el coeficiente de correlación
107
COEFICIENTE MUESTRAL DE CORRELACIÓN r =
cov( X , Y ) S X SY
(3.17)
n
cov(X, Y) =
donde
∑ ( X i − X )(Yi − Y ) i =1
n −1
n
SX =
∑ ( X i − X )2 i =1
n −1
n
SY =
∑ (Yi − Y )2 i =1
n −1
El ejemplo 3.17 ilustra el cálculo del coeficiente muestral de correlación r mediante la ecuación (3.17).
EJEMPLO 3.17
CÁLCULO DEL COEFICIENTE MUESTRAL DE CORRELACIÓN Considere el coeficiente de gastos y los rendimientos en 2003 de los fondos de inversión de alto riesgo para pequeños capitales. A partir de la figura 3.10 y de la ecuación (3.17), calcule el coeficiente muestral de correlación. SOLUCIÓN
r = =
cov( X , Y ) S X SY 1.19738 ( 0.287663)(10.554383)
= 0.3943786
FIGURA 3.10 Hoja de Excel que calcula el coeficiente de correlación entre los gastos y los rendimientos en 2003 de los fondos de alto riesgo para pequeños capitales.
108
CAPÍTULO 3 Medidas numéricas descriptivas
El coeficiente de gastos y los rendimientos en 2003 de los fondos de inversión de alto riesgo para pequeños capitales están correlacionados de forma positiva. Los fondos de inversión con menores coeficientes de gastos tienden a relacionarse con los menores rendimientos en 2003. Los fondos de inversión con mayores coeficientes de gastos tienden a relacionarse con los mayores rendimientos en 2003. Esta relación es muy débil, como lo indica el coeficiente de correlación, r = 0.394. No es posible suponer que tener un bajo coeficiente de gastos provocó los bajos rendimientos en 2003. Sólo se puede decir que eso es lo que tiende a ocurrir en la muestra. Como con todas las inversiones, los resultados del pasado no avalan los del futuro. En resumen, el coeficiente de correlación señala la relación, o asociación, lineal entre dos variables numéricas. Cuando el coeficiente de correlación se acerca a +1 o −1, es más fuerte la relación lineal entre las dos variables. Cuando el coeficiente de correlación se acerca a 0, existe poca o ninguna relación lineal. El signo del coeficiente de correlación señala si los datos se correlacionan de manera positiva (es decir, los valores más grandes de X se suelen hermanar con los valores más grandes de Y) o negativa (es decir, los valores más grandes de X se suelen hermanar con los valores más pequeños de Y). La existencia de una correlación fuerte no implica un efecto causal. Sólo señala las tendencias presentes en los datos.
PROBLEMAS PARA LA SECCIÓN 3.4 Aprendizaje básico 3.37 A continuación se presenta un conjunto de datos para una muestra con n = 11 elementos: X
7
5
8
Y
21
15
24
3
6
1012
4
9
15
18
9 18
3036
12
27
45
54
a. Calcule la covarianza. b. Calcule el coeficiente de correlación. c. ¿Qué tan fuerte es la relación entre X y Y? Explique su respuesta.
Aplicación de conceptos Puede resolver los problemas 3.38 a 3.43 manualmente o en Excel, Minitab o SPSS. 3.38 En un artículo publicado recientemente (J. Clements, “Why Investors Should Put up to 30% of Their Stock Portfolio in Foreign Funds”, The Wall Street Journal, 26 de noviembre, 2003, D1) que analiza las inversiones en acciones extranjeras asegura que: el coeficiente de correlación entre el rendimiento de inversiones en acciones estadounidenses y acciones internacionales de gran capital fue de 0.80; entre acciones estadounidenses y acciones internacionales de pequeño capital fue de 0.53; entre acciones estadounidenses y bonos internacionales fue de 0.03; entre acciones estadounidenses y acciones de mercados emergentes fue de 0.71; y entre acciones estadounidenses y deuda de mercados emergentes fue de 0.58. a. ¿Qué conclusiones se obtienen sobre la fortaleza de la relación entre el rendimiento de inversiones en acciones estadounidenses y los otros cinco tipos de inversiones? b. Compare los resultados de a) con los del problema 3.39a). 3.39 Un artículo publicado recientemente (J. Clements, “Why Investors Should Put up to 30% of Their Stock Portfolio in Foreign Funds”, The Wall Street Journal, 26 de noviembre, 2003, D1) que analiza las inversiones en bonos extranjeros asegura
que: el coeficiente de relación entre el rendimiento de la inversión en bonos estadounidenses y acciones internacionales de gran capital fue de −0.13; entre bonos estadounidenses y acciones internacionales de pequeño capital fue de −0.18; entre bonos estadounidenses y bonos internacionales fue de 0.48; entre bonos estadounidenses y acciones de mercados emergentes fue de −0.20; y entre bonos estadounidenses y deuda de mercados emergentes fue de 0.10. a. ¿Qué conclusiones se obtienen sobre la fortaleza de la relación entre el rendimiento de las inversiones en bonos estadounidenses y los otros cinco tipos de inversiones? b. Compare los resultados de a) con los del problema 3.38a). 3.40 Los siguientes datos COFFEEDRINK representan las calorías y la grasa (en gramos) que contienen las raciones con 16 onzas de bebidas a base de café servidas en Dunkin’ Donuts y en Starbucks. Producto Batido de moka helado de Dunkin’ Donuts (pura leche) Capuchino frapé de Starbucks Raspado de café “Coolata” (crema) de Dunkin’ Donuts Café moka exprés helado de Starbucks (pura leche y con crema batida) Café moka batido helado de Starbucks (con crema batida) Capuchino helado de Brownie de chocolate, de Starbucks (con crema batida) Crema de chocolate helado de Starbucks (con crema batida)
Calorías Grasa 2408.0 2603.5 35022.0 35020
.0
42016.0 51022.0 53019.0
Fuente: “Coffee as Candy at Dunkin ‘Donuts and Starbucks”, Derechos Reservados © 2004 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057, organización sin fines de lucro. Adaptado de Consumer Reports, junio de 2004, 9, sólo con propósitos educativos. No se autoriza su reproducción o uso comercial. www.ConsumerReports.org
109
3.5: Errores en las medidas numéricas descriptivas y consideraciones éticas
a. Calcule la covarianza de la muestra. b. Calcule el coeficiente de correlación. c. ¿Qué le parece más útil para expresar la relación que existe entre calorías y grasa: la covarianza o el coeficiente de correlación? Explique por qué. d. ¿Qué conclusiones deduce acerca de la relación entre calorías y grasa? 3.41 Los siguientes datos representan el valor de exportaciones e importaciones de varios países en 2001: EXPIMP País
Exportaciones
Importaciones
874.1 730.8 403.5 266.2 259.9 191.1 158.5 150.4 122.5 121.8
912.8 1180.2 349.1 243.6 227.2 202.0 176.2 141.1 107.3 116.0
Unión Europea Estados Unidos Japón China Canadá Hong Kong México Corea del Sur Taiwán Singapur
Fuente: N. King y S. Miller, “Post-Iraq Influence of U.S. Faces Test at New Trade Talks”, The Wall Street Journal, 9 de septiembre, 2003, A1.
a. Calcule la covarianza. b. Calcule el coeficiente de correlación. c. ¿Qué le parece más útil para expresar la relación que existe entre exportaciones e importaciones: la covarianza o el coeficiente de correlación? Explique por qué. d. ¿Qué conclusiones puede deducir acerca de la relación entre exportaciones e importaciones? 3.42 Los siguientes datos SECURITY representan el porcentaje de traspaso durante 1998-1999 de los dispositivos de vigilancia utilizados antes de abordar en los aeropuertos, y las infracciones de seguridad detectadas por millón de pasajeros. AUTO Examen
Ciudad
Traspaso
St. Louis Atlanta Houston Boston Chicago Denver Dallas Baltimore Seattle/Tacoma
416 375 237 207 200 193 156 155 14031.5
3.5
Infracciones 11.9 7.3 10.6 22.9 6.5 15.2 18.2 21.7
Ciudad
Traspaso
San Francisco Orlando Washington-Dulles Los Ángeles Detroit San Juan Miami Nueva York-JFK Washington-Reagan Honolulu
11020 100 9014.8 88 79 7010 64 53 47 37
Infracciones .7 9.9 25.1 13.5 .3 13.1 30.1 31.8 14.9
Fuente: Alan B. Krueger, “A Small Dose of Common Sense Would Help Congress Break the Gridlock over Airport Security”, The New York Times, 15 de noviembre, 2001, C2.
a. Calcule la covarianza. b. Calcule el coeficiente de correlación. c. ¿Qué conclusiones obtiene sobre la relación que existe entre la tasa de traspaso de los dispositivos y las infracciones de seguridad detectadas? 3.43 Los siguientes datos CELLPHONE representan el tiempo en horas de uso de teléfonos móviles en modo digital y la capacidad de la batería en miliamperios. Tiempo de uso 4.5080 4.00 3.00 2.00 2.75 1.75 1.75 2.25 1.75
Capacidad de la batería 0 1500 1300 1550 900 875 7502.50 1100 850
Tiempo de uso
Capacidad de la batería
1.50 2.25 2.25 3.25 2.25 2.25
450 900 900 900 700 800 800 900 900
2.25 2.00
Fuente: “Service Shortcomings”, Copyright 2002 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, febrero de 2002, 25.
a. Calcule la covarianza. b. Calcule el coeficiente de correlación. c. ¿Qué conclusiones se obtienen sobre la relación entre la capacidad de la batería y el tiempo de uso en modo digital? d. Usted espera que los teléfonos con batería de mayor capacidad tengan un tiempo de uso superior.¿Lo sustentan los datos?
ERRORES EN LAS MEDIDAS NUMÉRICAS DESCRIPTIVAS Y CONSIDERACIONES ÉTICAS En este capítulo estudió cómo se definen las características de un conjunto de datos numéricos mediante varios estadísticos que miden las propiedades de su tendencia central, variación y forma. El siguiente paso es el análisis e interpretación de los estadísticos calculados. Su análisis es objetivo; su interpretación es subjetiva. Usted debe evitar los errores que surjan en la objetividad de su análisis o en la subjetividad de su interpretación.
110
CAPÍTULO 3 Medidas numéricas descriptivas
El análisis de los fondos de inversión con base en el nivel de riesgo es objetivo y revela varios descubrimientos imparciales. Objetividad al analizar datos significa reportar las medidas numéricas descriptivas más apropiadas para un conjunto de datos determinado. Ahora que ha leído el capítulo y se ha familiarizado con varias medidas numéricas descriptivas y sus fortalezas y debilidades, ¿cómo continuará con el análisis objetivo? Como los datos se distribuyen de una manera ligeramente asimétrica, ¿no debería reportar la mediana además de la media? ¿La desviación estándar no ofrece más información sobre la propiedad de variación que el rango? ¿Debe describir al conjunto de datos como asimétrico a la derecha? Por otra parte, la interpretación de datos es subjetiva. Al interpretar los descubrimientos analíticos, las personas elaboran conclusiones distintas. Todos vemos el mundo desde perspectivas diferentes. De esta manera, puesto que la interpretación de datos es subjetiva, usted debe hacerla de manera imparcial, neutral y clara.
Aspectos éticos En todos los análisis de datos, los aspectos éticos son de vital importancia. Como consumidor cotidiano de información, usted debe cuestionar lo que lee en periódicos y revistas, lo que escucha en la radio y la televisión, así como lo que ve en Internet. A lo largo del tiempo, se ha manifestado mucho escepticismo sobre el propósito, el enfoque y la objetividad de los estudios que se publican. Quizá ningún comentario al respecto es más representativo que la frase atribuida al famoso estadista británico del siglo XIX, Benjamin Disraeli: “Existen tres clases de mentiras: las mentiras, las mentiras detestables y la estadística”. Las consideraciones éticas aparecen al decidir cuáles resultados incluir en un reporte. Usted debe documentar los resultados tanto buenos como malos. Además, al hacer exposiciones orales y presentar reportes escritos, debe comunicar los resultados de manera imparcial, objetiva y neutral. El comportamiento falto de ética se presenta al seleccionar de forma deliberada una medida resumida inapropiada (por ejemplo, la media de un conjunto de datos muy asimétrico), para distorsionar los hechos con el fin de respaldar una posición en particular. También es ético dejar de reportar de manera selectiva descubrimientos pertinentes, cuando éstos no respaldan una posición en particular.
RESUMEN Este capítulo trató sobre las medidas descriptivas. En éste y el capítulo anterior, estudió la estadística descriptiva: cómo se presentan los datos en tablas y gráficas y luego su resumen, descripción, análisis e interpretación. Al manejar los datos relacionados con los fondos de inversión, usted tuvo la oportunidad de presentar información útil mediante el uso de diagramas circulares, histogramas y otros métodos gráficos. Exploró las características del desempeño en el pasado, como la tendencia central, variabilidad y forma, utilizando medidas descriptivas numéricas como
TABLA 3.9 Resumen de las medidas numéricas descriptivas.
la media, la mediana, los cuartiles, el rango, la desviación estándar y el coeficiente de correlación. En la tabla 3.9 se presenta una lista de las medidas descriptivas numéricas incluidas en este capítulo. En el capítulo siguiente, se estudiarán los principios básicos de la probabilidad, con el fin de eliminar la brecha entre el tema de la estadística descriptiva y el de la estadística inferencial.
Tipo de análisis
Datos numéricos
Describir la tendencia central, variación y forma de una variable numérica
Media, mediana, moda, cuartiles, media geométrica, rango, rango intercuartil, desviación estándar, varianza, coeficiente de variación, puntuaciones Z, gráfica de caja y bigote (secciones 3.1-3.3)
Describir la relación entre dos variables numéricas Covarianza, coeficiente de correlación (sección 3.4)
Conceptos clave
F Ó R M U L A S I M P O R TA N T E S Media de una muestra
Coeficiente de variación
n
X =
∑ Xi i =1
S CV = 100% X
(3.1)
n
(3.11)
Puntuaciones Z
Mediana
Primer cuartil Q1 n +1 Q1 = valor clasificado 4
X −X S
Z =
n +1 Mediana = valor clasificado 2
(3.2)
(3.12)
Media poblacional N
(3.3)
µ =
Tercer cuartil Q3
∑ Xi i =1
(3.13)
N
Varianza poblacional
3( n + 1) Q3 = valor clasificado 4
(3.4)
N
Media geométrica
σ2 = 1/ n
(3.5)
X G = ( X1 × X 2 × × X n )
i =1
N
(3.14)
Desviación estándar poblacional
Media geométrica de la tasa de rendimiento RG = [(1 + R1 ) × (1 + R2 ) × × (1 + R n )]1/ n − 1
∑ ( X i − µ )2
N
(3.6)
∑ ( X i − µ )2
Rango Rango = Xmayor − Xmenor (3.7)
σ =
Rango intercuartil Rango intercuartil = Q3 − Q1
La covarianza muestral
(3.8)
i =1
S2 =
∑ (Xi − X ) i =1
n −1
cov( X , Y ) =
∑ ( X i − X )(Yi − Y ) i =1
2
(3.9)
Desviación estándar de la muestra
(3.15)
n
Varianza para una muestra n
N
n −1
(3.16)
Coeficiente muestral de correlación cov( X , Y ) r = (3.17) S X SY
n
S =
S2 =
∑ ( X i − X )2 i =1
n −1
(3.10)
C O N C E P T O S C L AV E Atípico 86 Asimetría 88 Asimétricos positivos 88 Coeficiente de correlación 105 Coeficiente muestral de correlación 106 Coeficiente de variación 85 Covarianza 103 Covarianza de una muestra 103
Cuartiles 77 Desviación estándar 82 Desviación estándar de una muestra 82 Desviación estándar poblacional 95 Dispersión 72 Dispersión media 81 Distribución 72 Forma 72
Gráfica de caja y bigote 100 Media 73 Media aritmética 73 Media de una muestra 73 Media geométrica 79 Media poblacional 94 Mediana 75 Medidas resistentes 81 Moda 76
111
112
CAPÍTULO 3 Medidas numéricas descriptivas
Puntuaciones Z 86 Q1: primer cuartil 77 Q2: segundo cuartil 77 Q3: tercer cuartil 77 Rango 80 Rango intercuartil 81 Regla de Chebyshev 97
Regla empírica 96 Resumen de cinco números 99 Sesgados a la derecha 88 Sesgados a la izquierda 88 Simétrica 88 Suma de cuadrados 82 Tendencia central 72
Valor extremo 86 Variación 72 Varianza 82 Varianza para una muestra Varianza poblacional 95
82
P R O B L E M A S D E R E PA S O Revisión de su comprensión 3.44 ¿Cuáles son las propiedades de un conjunto de datos numéricos? 3.45 ¿Qué expresa la propiedad tendencia central? 3.46 ¿Cuáles son las diferencias entre media, mediana y moda, y cuáles son las ventajas y desventajas de cada una de ellas? 3.47 ¿Cómo interpreta el primer cuartil, la mediana y el tercer cuartil? 3.48 ¿Qué expresa la propiedad variación? 3.49 ¿Qué mide la puntuación Z? 3.50 ¿Cuáles son las diferencias entre las diversas medidas de la variación como rango, rango intercuartil, varianza, desviación estándar y coeficiente de variación, y cuáles son las ventajas y desventajas de cada una? 3.51 ¿Cómo nos ayuda la regla empírica a explicar de qué maneras se agrupan y distribuyen los valores de un conjunto de datos numéricos? 3.52 ¿En qué difieren la regla empírica y la regla de Chebyshev? 3.53 ¿Qué expresa la propiedad forma? 3.54 ¿En qué difieren la covarianza y el coeficiente de correlación?
Aplicación de conceptos Puede resolver los problemas 3.55 a 3.61 manualmente o en Excel, Minitab, o SPSS. Le recomendamos resolver los problemas 3.62 a 3.80 con Excel, Minitab, o SPSS. 3.55 Una característica de calidad que resulta de interés en el proceso de llenado de bolsitas de té es el peso que contienen. Si las bolsas quedan semivacías, se presentan dos problemas. Primero, los clientes no podrían prepararse el té tan cargado como lo desean. Segundo, la empresa podría infringir las leyes de veracidad en lo descrito en la etiqueta. En este producto, el peso impreso en la etiqueta del paquete señala que, en promedio, hay 5.5 gramos de té en cada bolsa. Si la cantidad media de té en una bolsa supera ese peso, la empresa está regalando producto.
Resulta complicado introducir la cantidad exacta de té en cada bolsa, puesto que la variación en las condiciones de temperatura y humedad dentro de la fábrica, las diferencias en la densidad del té y la rápida operación de llenado que realiza la máquina (aproximadamente 170 bolsas por minuto). La siguiente tabla muestra el peso, en gramos, de una muestra compuesta por 50 bolsas de té elaboradas en una hora por una sola máquina. TEABAGS
5.65 5.57 5.47 5.77 5.61
5.44 5.42 5.405.53 5.405.47 5.57 5.42 5.45 5.44
5.405.53 5.54 5.55 5.61 5.53 5.58 5.58 5.25 5.56
5.34 5.54 5.45 5.52 5.62 5.56 5.46 5.44 5.32 5.67 5.29 5.49 5.505.32 5.505.53 5.63 5.505.57 5.67
5.41 5.51 5.55 5.58 5.36
a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Interprete las medidas de tendencia central y variación dentro del contexto de este problema. ¿Por qué debería preocuparse la compañía por la tendencia central y la variación? d. Realice una gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? e. ¿La empresa satisface el requisito dispuesto en la etiqueta de que, en promedio, hay 5.5 gramos de té por bolsa? Si usted estuviera a cargo de este proceso, ¿qué cambios, en caso necesario, trataría de hacer con respecto a la distribución de los pesos de las bolsas individuales? 3.56 En el estado de Nueva York las cajas de ahorro tienen permitido vender cierta clase de seguro de vida, llamado Seguro de Vida de Caja de Ahorro (SBLI, siglas en inglés para Savings Bank Life Insurance). El proceso de aprobación se compone de cada etapa de suscripción, la cual incluye una revisión de la solicitud, una consulta a la oficina de información médica, posibles peticiones de información médica adicional y exámenes médicos, así como la etapa de consolidación durante la cual se generan las pólizas y se envían al banco para su entrega. La capacidad de entregar a los clientes de manera oportuna las pólizas aprobadas resulta vital para que este servicio sea rentable para el banco. En el transcurso de un mes, se seleccionó una muestra aleatoria de 27 pólizas aprobadas, y se registró el siguiente tiempo de procesamiento total, en días: INSURANCE 73 19 16 64 28 28 31 906056 31 56 22 18 45 48 17 17 17 91 92 63 50 51 69 16 17
113
Problemas de repaso
a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore una gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué le respondería usted a un cliente que entra al banco con el fin de comprar este tipo de póliza de seguros y le pregunta cuánto dura el proceso de aprobación? 3.57 Una de las principales medidas de la calidad del servicio que brinda cualquier organización es la velocidad con la que responde a las quejas del cliente. Una gran tienda departamental, propiedad de una familia que vende muebles y pisos, incluyendo alfombras, emprendió una importante expansión durante los últimos años. En particular el departamento de pisos se amplió de dos equipos de instalación a un supervisor de instalación, un medidor, y 15 equipos de instalación. Se seleccionó una muestra de 50 quejas relacionadas con la instalación de alfombras, recibidas durante uno de los últimos años. Los siguientes datos representan el número de días transcurridos desde que se recibió la queja hasta su solución. FURNITURE 54
5
35 137
31 27 152
2 123 81 74 27
11 19 126 1101 1029
61 35
94 31 26
12
29 26
25
3022
36 26 2023
4 165
13 10
5
32
29 28
27
4 52
5
1 14 13
33 68 a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore una gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Con base en los resultados de los incisos a) a c), si usted tuviera que informar al presidente de la empresa cuánto tendrá que esperar un cliente para ver su queja resuelta, ¿qué le diría? Explique su respuesta. 3.58 Una empresa de manufactura produce gabinetes de acero para equipo eléctrico. El principal componente del gabinete es una canaleta que se elabora con lámina de acero calibre 14. Se produce utilizando una troqueladora de deslizamiento progresivo de 250 toneladas, que genera dos formaciones de 90 grados en el acero plano, haciendo el canal. La distancia de un lado al otro de estas formaciones resulta de especial importancia, por la impermeabilización para aplicaciones a la intemperie. La empresa necesita que la canaleta tenga una anchura de entre 8.31 y 8.61 pulgadas. A continuación encuentran las anchuras, en pulgadas, de una muestra de n = 49 canaletas. TROUGH 8.312 8.343 8.317 8.383 8.348 8.4108.351
8.373 8.481 8.422
8.476 8.382 8.484 8.403 8.414 8.419 8.385 8.465 8.498 8.447 8.436 8.413 8.489 8.414 8.481 8.415 8.479 8.429 8.458 8.462 8.4608.444
8.429 8.4608.412
8.4208.4108.40
5 8.323 8.420
8.396 8.447 8.405 8.439 8.411 8.427 8.420 8.498 8.409
a. Calcule la media, la mediana, el rango y la desviación estándar de la anchura. Interprete estas medidas de tendencia central y variabilidad. b. Elabore el resumen de cinco números. c. Realice su gráfica de caja y bigote y describa la forma. d. ¿Qué concluye sobre el número de canaletas que satisfacen las necesidades de la empresa, al medir entre 8.31 y 8.61 pulgadas de ancho? 3.59 La empresa del problema 3.58 también fabrica aislantes eléctricos. Si los aislantes se rompen al estar en uso, es probable que ocurra un cortocircuito. Para poner a prueba la fuerza de los aislantes, se efectúa una prueba de destrucción con la finalidad de determinar cuánta fuerza se necesita para romperlos. La fuerza se mide al observar cuántas libras se aplican al aislante antes de que se rompa. A continuación se presentan los datos de 30 aislantes en este experimento: FORCE 1,8701,728
1,656 1,6101,634
1,784 1,522 1,696 1,592 1,662
1,866 1,764 1,734 1,662 1,734 1,774 1,5501,756 1,8201,744
1,788 1,688 1,8101,752
1,762 1,866
1,6801,8101,652
1,736
a. Calcule la media, la mediana, el rango y la desviación estándar de la variable fuerza. b. Interprete las medidas de tendencia central y de variabilidad del inciso a). c. Construya su gráfica de caja y bigote y describa la forma. d. ¿Qué concluye sobre la resistencia de los aislantes, si la empresa necesita una medición de al menos 1,500 libras de fuerza? 3.60 Los problemas de una línea telefónica que impiden hacer o recibir llamadas desconciertan tanto al cliente como a la empresa telefónica. Los siguientes datos representan muestras de 20 problemas reportados a dos oficinas distintas de una empresa telefónica, y el tiempo transcurrido para resolverlos (en minutos) desde la línea del cliente: PHONE Central telefónica I Tiempo para resolver problemas (minutos) 1.48 1.75 0.78 2.85 0.52 1.60 4.15 3.97 1.48 3.10 1.02 0.53 0.93 1.60 0.80 1.05 6.32 3.93 5.45 0.97 Central telefónica II Tiempo para resolver problemas (minutos) 7.55 3.75 0.101.100
.600 .52 3.302.100
.58 4.02
3.75 0.65 1.92 0.60 1.53 4.23 0.08 1.48 1.65 0.72 Para ambas centrales telefónicas: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, rango intercuartil, varianza, desviación estándar y coeficiente de variación. c. Elabore una gráfica de barras de lado a lado y una gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Con base en los resultados de los incisos a) a c), ¿existen algunas diferencias entre ambas centrales? Explique su respuesta.
114
CAPÍTULO 3 Medidas numéricas descriptivas
3.61 En muchos procesos de manufactura se utiliza el término “trabajo-en-proceso” (con frecuencia abreviado WIP, por las siglas en inglés para “work-in-process”). En una planta que produce libros, el WIP representa el tiempo que transcurre para que se doblen, junten, cosan, peguen por un extremo y encuadernen las hojas procedentes de la prensa. Los siguientes datos representan muestras de 20 libros en dos plantas de producción y el tiempo de procesamiento (definido de forma operacional como el tiempo, en días, transcurrido desde que las hojas salen de la prensa hasta que los libros se empacan en cajas) para estos trabajos. WIP Planta A 5.62 5.29 16.25 10.92 11.46 21.62 8.45 8.58 5.41 11.42 11.62 7.29 7.50 7.96 4.42 10.50 7.58 9.29 7.54 8.92 Planta B 9.54 11.46 16.62 12.62 25.75 15.41 14.29 13.13 13.71 10.04 5.75 12.46 9.17 13.21 6.00 2.33 14.25 5.37 6.25 9.71 Para ambas plantas: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore las gráficas de barra de lado a lado y de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Con base en los resultados de los incisos a) a c), ¿existen algunas diferencias entre ambas plantas? Explique su respuesta. 3.62 Los datos incluidos en el archivo CEREALS se componen del costo monetario por onza, calorías, fibra en gramos y azúcar en gramos, de 33 cereales para desayunar. Fuente: Obtenido de Copyrigh 1999 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, octubre de 1999, 33-34.
Para cada una de las variables: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore una gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué concluye en relación con el costo por onza en centavos, calorías, fibra en gramos y azúcar en gramos, de los 33 cereales para desayunar? 3.63 Los recortes presupuestales estatales forzaron el aumento en los costos de manutención para las universidades públicas durante el ciclo escolar 2003-2004. Los datos que se encuentran en el archivo TUITION incluyen la diferencia en los costos de manutención entre los ciclos 2002-2003 y 2003-2004 para los alumnos procedentes del mismo estado donde se encuentra la institución y los procedentes de otros estados. a. Calcule la media, la mediana, primero y tercer cuartiles de la diferencia en los costos de manutención entre los ciclos 2002-2003 y 2003-2004 para los alumnos procedentes del mismo estado donde se encuentra la institución y los procedentes de otros estados.
b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación de la diferencia en los costos de manutención entre los ciclos 2002-2003 y 2003-2004 para los alumnos procedentes del mismo estado donde se encuentra la institución y los procedentes de otros estados. c. Elabore la gráfica de caja y bigote de la diferencia en los costos de manutención entre los ciclos 2002-2003 y 20032004 para los alumnos procedentes del mismo estado donde se encuentra la institución y los procedentes de otros estados. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué conclusiones obtendría en relación con la diferencia en los costos de manutención entre los ciclos 2002-2003 y 2003-2004 para los alumnos procedentes del mismo estado donde se encuentra la institución y los procedentes de otros estados? 3.64 Las promociones de marketing, como la entrada gratis a las personas con gorra, ¿aumentan la asistencia a los juegos de la Liga Mayor de Béisbol? Un artículo publicado en Sport Marketing Quarterly informa sobre la efectividad de las promociones de marketing [T. C. Boyd y T. C. Krehbiel, “Promotion Timing in Major League Baseball and the Stacking Effects of Factors that Increase Game Attractiveness”, Sport Marketing Quarterly, 12(2003), 173-183]. El archivo de datos ROYALS incluye las siguientes variables para los Reales de Kansas City durante la temporada 2002: GAME = juegos como local en el orden en que se jugaron. ATTENDANCE = espectadores con boleto pagado en ese juego. PROMOTION-Y = hubo promoción; N = no hubo promoción. a. Calcule la media y la desviación estándar de los espectadores con boleto pagado para los 43 juegos en los que hubo promoción y para los 37 juegos sin promoción. b. Elabore un resumen de cinco números para los 43 juegos en los que hubo promoción y para los 37 juegos sin promoción. c. Realice una representación que contenga dos gráficas de caja y bigote; una de los 43 juegos en los que hubo promoción y otra de los 37 juegos sin promoción. d. Analice los resultados de los incisos a) a c) y comente sobre la eficacia de las promociones en los juegos de los Reales durante la temporada 2002. 3.65 Los datos incluidos en el archivo PETFOOD2 se componen del costo por ración, tasas por lata, proteína en gramos y grasa en gramos de 97 variedades de comida seca y enlatada para perro y para gato. Fuente: Obtenido de Copyright 1998 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, febrero de 1998, 18-19.
Realice lo siguiente para los cuatro tipos de comida (comida seca para perro, comida enlatada para perro, comida seca para gato y comida enlatada para gato), y para las variables costo por servicio, proteína en gramos y grasa en gramos: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación.
Problemas de repaso
c. Elabore las gráficas de barras de lado a lado y la de caja y bigote, de los cuatro tipos (comida seca para perro, comida enlatada para perro, comida seca para gato y comida enlatada para gato). ¿Son asimétricos los datos de alguno de los tipos de comida? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene en relación con las diferencias entre los cuatro tipos (comida seca para perro, comida enlatada para perro, comida seca para gato y comida enlatada para gato)? 3.66 Un fabricante de tejas de asfalto de Boston y Vermont ofrece a sus clientes una garantía de 20 años en la mayoría de sus productos. Para determinar si una teja dura tanto como el periodo de garantía, se realiza una prueba de vida acelerada en la planta. En la prueba, realizada en un laboratorio, la teja se expone a las tensiones que recibiría en toda su vida útil de uso normal, mediante un experimento que lleva tan sólo unos minutos. En esta prueba, se cepilla repetidamente una teja durante un breve lapso, y se pesa la cantidad de gránulos (en gramos) desprendidos por el cepillado. Se espera que las tejas con menor desprendimiento duren más en uso normal que las que experimentan gran cantidad de desprendimiento. Ante esta situación, si se espera que dure tanto como el periodo de garantía, una teja no debe tener un desprendimiento superior a 0.8 gramos. El archivo GRANULE contiene los datos de una muestra compuesta por 170 medidas realizadas en las tejas de la empresa en Boston y 140 medidas realizadas en las tejas de Vermont. a. Elabore el resumen de cinco puntos para las tejas de Boston y las tejas de Vermont. b. Realice las gráficas barras de lado a lado y de caja y bigote para ambos tipos de teja, y describa la forma de las distribuciones. c. Comente sobre la capacidad de las tejas para conseguir un desprendimiento de 0.8 gramos o menos. 3.67 Los datos del archivo STATES representan los resultados de la Encuesta de la Comunidad Estadounidense (American Community Survey), con una muestra de 700,000 hogares emprendida en todos los estados durante el censo de EUA del año 2000. Realice lo siguiente para las variables tiempo promedio de traslado al trabajo en minutos, porcentaje de hogares con ocho o más habitaciones, ingreso medio y porcentaje de propietarios con hipoteca, cuyos costos de vivienda superan el 30% de sus ingresos: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Realice una gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene en relación con el tiempo promedio de traslado al trabajo en minutos, porcentaje de hogares con ocho o más habitaciones, ingreso medio y porcentaje de propietarios con hipoteca cuyos costos de vivienda superan el 30% de sus ingresos? 3.68 Las finanzas del béisbol han provocado mucha controversia, pues los propietarios aseguran que pierden dinero, los jugadores afirman que los propietarios ganan dinero, y los aficionados se quejan por lo costoso que resulta asistir a los juegos o verlos por televisión de paga. Además de los datos relacionados con las estadísticas del equipo durante la temporada 2001,
115
el archivo BB2001 contiene las estadísticas de todos los equipos sobre precios de las entradas, índice de costo por aficionado, ingresos por entradas en temporada regular, ingresos por televisión local, radio y cable; todos los demás ingresos de operación, compensación y beneficios del jugador; datos locales y nacionales e ingresos por operaciones de béisbol. Para cada una de estas variables: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore una gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. Calcule la correlación que existe entre el número de victorias y las compensaciones y beneficios del jugador. ¿Qué tan fuerte es la relación entre estas dos variables? e. ¿Qué conclusiones obtiene en relación con los ingresos por entradas en temporada regular, ingresos por televisión local, radio y cable; todos los demás ingresos de operación, compensación y beneficios del jugador; datos locales y nacionales e ingresos por operaciones de béisbol? 3.69 Los datos incluidos en el archivo AIRCLEANERS representan el precio, el costo anual de energía y el costo anual del filtro de unos limpiadores de aire. a. Calcule el coeficiente de correlación entre el precio y el costo de energía. b. Calcule el coeficiente de correlación entre el precio y el costo del filtro. c. ¿Qué conclusiones obtiene sobre la relación del costo de energía y del costo del filtro con el precio de los limpiadores de aire? Fuente: “Portable Room Air Cleaners”, Copyright © 2002 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, febrero de 2002, 47.
3.70 Los datos incluidos en el archivo PRINTERS representan el precio, la velocidad de texto, el costo de texto, el tiempo de fotografía a color y el costo de la fotografía a color de unas impresoras de computadora. a. Calcule el coeficiente de correlación entre el precio y cada una de las siguientes características: velocidad de texto, costo de texto, tiempo de fotografía a color y costo de fotografía a color. b. Con base en los resultados del inciso a), ¿cree usted que alguna de las demás variables podría ser útil para pronosticar el precio de la impresora? Explique su respuesta. Fuente: “Printers”, Copyright © 2002 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, marzo de 2002, 51.
3.71 Usted quiere estudiar las características de los automóviles modelo 2002, en términos de las siguientes variables: millas por galón, longitud, anchura, necesidades de circunferencia de viraje, peso y capacidad del compartimiento de equipaje. AUTO2002
Fuente: “The 2002 Cars”, Copyright © 2002 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, abril de 2002.
116
CAPÍTULO 3 Medidas numéricas descriptivas
Para cada una de esas variables: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore una gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene en relación con los automóviles 2002? 3.72 Consulte los datos del problema 3.71. Usted quiere comparar los vehículos utilitarios (o SUV, siglas en inglés para sports utility vehicles) con los que no son de ese tipo, en términos de millas por galón, longitud, anchura, necesidades de circunferencia de viraje, peso y capacidad del compartimiento de carga. Para cada una de esas variables, y considerando dos tipos de vehículos: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore las gráficas de barras de lado a lado y de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene en relación con las diferencias entre los SUV y los vehículos de otra clase? 3.73 Zagat’s publica las calificaciones de restaurantes en varias ciudades de Estados Unidos. El archivo RESTRATE contiene los datos de la calificación para la comida, decorado, servicio y precio por persona de una muestra compuesta por 50 restaurantes localizados en la ciudad de Nueva York, y 50 localizados en Long Island. Fuente: Zagat Survey 2002 New York City Restaurants and Zagat Survey 2002 Long Island Restaurants.
Para los restaurantes de Nueva York y Long Island, las variables calificación de la comida, calificación del decorado, calificación del servicio y calificación del precio por persona: a. Calcule la media, la mediana, primero y tercer cuartiles.
50,000
b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore una gráfica de caja y bigote y una de barras de lado a lado de Nueva York y Long Island. ¿Son asimétricos los datos de alguna de las variables? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene en relación con las diferencias que existen entre los restaurantes de Nueva York y Long Island? 3.74 Como un ejemplo del mal uso de la estadística, un artículo de Glenn Kramon (“Coaxing the Stanford Elephant to Dance”, The New York Times Sunday Business Section, 11 de noviembre, 1990) describe que los costos del Stanford Medical Center se habían elevado más que los de la competencia ya que era más probable que brindara atención a personas indigentes, más enfermas, beneficiarios de Medicare y Medicaid, y pacientes con problemas más complejos. Se utilizó la gráfica que aparece más adelante para comparar los precios promedio en 1989 y 1990 de tres procedimientos médicos (bypass de arterias coronarias, alumbramiento normal y trasplante de cadera) en tres instituciones competidoras (El Camino, Sequoia y Stanford). Suponga que trabaja en un centro de salud. La directora general sabe que usted está tomando un curso de estadística y le llama para analizar esto. Le dice que anoche se presentó ese artículo en el marco de una discusión de grupo, como parte de una reunión de directores generales de los centros de salud de la zona, y que uno de ellos mencionó que la gráfica era totalmente irrelevante y le pidió su opinión. Ahora ella le pide que prepare la respuesta. Usted sonríe, respira profundo y responde... 3.75 Usted planea estudiar para su examen de estadística con un grupo de compañeros, uno de los cuales está especialmente interesado en impresionarlo. Este individuo se
Cuánto cuestan los servicios de salud Comparación de los precios hospitalarios promedio de varias operaciones durante 1989-90 en California. Los hospitales Sequoia y El Camino son los principales competidores locales del Stanford Medical Center. El Camino
Dólares
40,000
Sequoia Stanford
30,000 20,000 10,000 0
N/D Bypass de arterias coronarias
Alumbramiento normal
Trasplante de cadera
Para el alumbramiento normal con una estancia de dos días y para el trasplante de cadera con una estancia de nueve días, los costos de El Camino son el promedio de los precios alto y bajo. En todas las operaciones, los costos del Sequoia son los promedios del 50% medio de todos los precios. Los datos de Stanford son el costo promedio de todas las operaciones. Fuente: Stanford Medical Center, Sequoia Hospital y Hospital El Camino.
Problemas de repaso
ofreció a trabajar voluntariamente con Excel, Minitab o SPSS para obtener información resumida, tablas y gráficas necesarias para el conjunto de datos que contiene diversas variables numéricas y categóricas estipulado por el maestro como objeto de estudio. Se le acerca con los resultados impresos y exclama: “Lo tengo todo: —las medias, las medianas, las desviaciones estándar, las gráficas de caja y bigote, y los diagramas de pastel— de todas nuestras variables. El problema es que algunos de los resultados parecen extraños, como las gráficas de caja y bigote para género y mayores de edad, y los diagramas de pastel del índice de nivel de estudios y de la estatura. Tampoco entiendo por qué el profesor Krehbiel dice que no podemos obtener la estadística descriptiva de algunas de las variables; ¡las tengo para todo! Mira, la media de la estatura es 68.23, la media del índice de nivel de estudios es 2.76, la media del género es 1.50, la media para los mayores de edad es 4.33”. ¿Cuál sería su respuesta?
Ejercicios de reporte por escrito 3.76 Los datos que aparecen en el archivo BEER representan el precio de un paquete de cerveza con 6 botellas de 12 onzas cada una, las calorías en 12 onzas líquidas, el porcentaje de contenido alcohólico en 12 onzas líquidas, el tipo de cerveza (artesanales de baja fermentación, artesanales de alta fermentación, importadas de baja fermentación, regulares y frías, y cervezas light y sin alcohol), y el país de origen (estadounidenses y del resto del mundo) de cada una de las 69 cervezas incluidas en la muestra. Su tarea consiste en escribir un reporte con base en una evaluación descriptiva completa de las variables numéricas (precio, calorías y contenido alcohólico) independientemente del tipo u origen del producto. Luego realice una evaluación similar, comparando cada una de esas variables numéricas con base en el tipo de producto (artesanales de baja fermentación, artesanales de alta fermentación, importadas de baja fermentación, regulares y frías, y cervezas light y sin alcohol). Efectúe también una evaluación similar, para comparar y establecer las diferencias de cada una de esas variables numéricas, con base en el origen de las cervezas: las preparadas en Estados Unidos contra las del resto del mundo. Junto con su reporte debe anexar todas las tablas, los diagramas y las medidas numéricas descriptivas apropiadas. Fuente: “Beers”, Copyright © 1996 por Consumers Union of U.S., Inc., Yonkers, NY 10703-1057. Adaptado con autorización de Consumer Reports, junio de 1996.
PROYECTO EN EQUIPO El archivo MUTUALFUNDS2004 contiene información relacionada con 12 variables a partir de una muestra de 121 fondos de inversión. Las variables son: Fund —Nombre del fondo de inversión. Category —Tipo de acciones que abarca el fondo de inversión: pequeño, mediano o gran capital. Objective —Objetivo de las acciones que abarca el fondo de inversión: crecimiento o valor. Assets —Activos en millones de dólares. Fees —Cargos por venta (no o sí).
117
Expense ratio —Relación entre gastos y activos netos, en porcentaje. 2003 Return —Rendimiento en los 12 meses de 2003. Three-year return —Rendimiento anualizado 2001 a 2003. Five-year return —Rendimiento anualizado 1999 a 2003. Risk —Factor de riesgo de pérdida del fondo de inversión, clasificado como bajo, medio o alto. Best quarter —Mejor resultado trimestral 1999 a 2003. Worst quarter —Peor resultado trimestral 1999 a 2003. 3.77 Para la relación de gastos en porcentaje, el rendimiento en 2003, el rendimiento trianual y el rendimiento quinquenal: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore la gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene en relación con estas variables? 3.78 Usted quiere comparar los fondos de inversión que tienen cuotas o cargos con los que no los tienen. Realice lo siguiente con cada uno de los dos grupos, para las variables relación de gastos en porcentaje, rendimiento en 2003, rendimiento trianual y rendimiento quinquenal: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore la gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene en cuanto a las diferencias que existen entre los fondos de inversión con y sin cuotas? 3.79 Usted quiere comparar los fondos de inversión que tienen un objetivo de crecimiento con los que tienen un objetivo de valor. Realice lo siguiente con cada uno de los dos grupos, para las variables coeficiente de gastos en porcentaje, rendimiento en 2003, rendimiento trianual y rendimiento quinquenal: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore la gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene en cuanto a las diferencias que existen entre los fondos con objetivo de crecimiento y los fondos con objetivo de valor? 3.80 Usted quiere comparar los fondos de inversión para pequeño, mediano y gran capital. Realice lo siguiente con cada uno de los tres grupos, para las variables coeficiente de gastos en porcentaje, rendimiento en 2003, rendimiento trianual y rendimiento quinquenal: a. Calcule la media, la mediana, primero y tercer cuartiles. b. Calcule el rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación. c. Elabore la gráfica de caja y bigote. ¿Los datos son asimétricos? De ser así, ¿cómo? d. ¿Qué conclusiones obtiene con respecto a las diferencias que existen entre los fondos de inversión para pequeño, mediano y gran capital?
118
CAPÍTULO 3 Medidas numéricas descriptivas
CASO ACTUAL ADMINISTRACIÓN DEL SPRINGVILLE HERALD ¿Para qué variable del caso Administración del Springville Herald del capítulo 2 (vea la página 62) son necesarias las medidas numéricas descriptivas? Para la variable que identifique: 1. Calcule las medidas descriptivas numéricas apropiadas y elabore un diagrama de caja y bigote.
2. Identifique otra representación gráfica que resulte útil y constrúyala. ¿Qué conclusiones obtiene del hecho de que la representación no se puede hacer a partir de la gráfica de caja y bigote? Sintetice sus hallazgos en un reporte que incluya con el estudio de la fortaleza de la tarea.
CASO WEB Aplique sus conocimientos sobre el uso de las medidas numéricas descriptivas a este Caso Web que es continuación del capítulo 2. Visite de nuevo el sitio web de servicio de inversión StockTout www.prenhall.com/Springville/StockToutHome.htm, reexamine su datos de respaldo y luego responda lo siguiente: 1. Reexamine los datos que exploró al resolver el Caso Web del capítulo 2. ¿Es posible calcular medidas descriptivas de todas las variables? ¿Cómo respaldarían estas estadísti-
cas resumidas las demandas de StockTout? ¿Cómo influyen esas estadísticas resumidas en su percepción del registro StockTout? 2. Evalúe los métodos utilizados por StockTout para resumir los resultados de su encuesta a los clientes www.prenhall.com/Springville/ST_Survey.htm. ¿Hay algo que usted haría de otra manera para resumir estos resultados? 3. Observe que la última pregunta de la encuesta tiene menos respuestas. ¿Qué factores pueden haber limitado el número de respuestas a esa pregunta?
REFERENCIAS 1. Kendall, M. G. y A. Stuart, The Advanced Theory of Statistics, vol. 1 (Londres: Charles W. Griffin, 1958). 2. Microsoft Excel 2003 (Redmond, WA: Microsoft Corporation, 2002). 3. Minitab Version 14 (State College, PA: Minitab Inc., 2004). 4. SPSS Base 12.0 Brief Guide (Upper Saddle River, NJ: Prentice Hall, 2003).
5. Tukey, J., Exploratory Data Analysis (Reading, MA: Addison-Wesley, 1977). 6. Velleman, P. F. y D. C. Hoaglin, Applications, Basics, and Computing of Exploratory Data Analysis (Boston, MA: Duxbury Press, 1981).
Apéndice 3 Uso de software para la estadística descriptiva A3.1 EXCEL Para la estadística descriptiva Use el Data Analysis ToolPak. Abra la hoja de trabajo que contiene los datos que desea resumir. Seleccione Herramientas ➜ Análisis de datos. En la lista que aparece en la ventana de diálogo Análisis de datos, seleccione Estadística descriptiva y dé
clic en Aceptar. En el cuadro de diálogo Estadística descriptiva (vea la figura A3.1), introduzca el rango de celdas de los datos en el cuadro Rango de entrada. Seleccione la opción Columnas y, si está utilizando datos ordenados como los de los archivos de Excel incluidos en el disco compacto que acompaña este libro, Rótulos en la primera fila. Seleccione En una hoja nueva, Resumen de estadísticas, K-ésimo mayor y K-ésimo
Apéndice
menor, y dé clic en Aceptar. Los resultados aparecen en otra hoja de trabajo. O puede usar cualquiera de esas funciones de estadísticas muestrales de la hoja de trabajo con sus propias fórmulas, incluyendo PROMEDIO (para la media), MEDIANA, MODA, CUARTIL, DESVEST, VAR, MIN, MAX, SUMA, CONTAR, MAYOR o MENOR.
119
Para el coeficiente de correlación Abra el archivo de Excel Correlation.xls, que se ilustra en la figura 3.10 de la página 107. Si desea utilizar esta hoja con otros pares de variables, siga las instrucciones en pantalla para modificar el área de la tabla. Observe en la figura 3.10 que la celda E16 contiene una fórmula que usa la función CONT. Ésta permite que Excel actualice de forma automática el valor de n cuando se modifica el tamaño del área de la tabla, y garantiza que el término n – 1 siempre sea el correcto. Esta hoja utiliza la función CORREL para calcular el coeficiente de correlación. Como se muestra en la figura 3.10, la fórmula =E17/(E18 * E19) también se puede emplear en esta hoja para calcular el estadístico, entonces la covarianza SX y SY ya aparece en la hoja.
A3.2 MINITAB Cálculo de estadística descriptiva Para generar la estadística descriptiva de los rendimientos en 2003 correspondientes a los distintos niveles de riesgo que aparecen en la figura 3.3 de la página 90, abra la hoja de trabajo MUTUALFUNDS2004.MTW. Seleccione Stat ➜ Basic Statistics ➜ Display Descriptive Statistics.
FIGURA A3.1 Ventana de diálogo estadística descriptiva para el análisis de datos.
Paso 1: En la ventana de diálogo Display Descriptive Statistics (vea la figura A3.2), introduzca C7 o Return 2003 en el cuadro de edición Variables. Escriba C10 o Risk en la ventana de editar By variables (optional):
Para introducir una de esas funciones en la hoja de trabajo, seleccione una celda vacía y luego Insertar ➜ Función. En el cuadro de diálogo Función, seleccione Estadística en la lista desplegable y luego desplácese hasta encontrar y seleccionar la función que desea utilizar. Dé clic en Aceptar. En la ventana de diálogo Argumentos de la función, introduzca el rango de celdas de los datos a resumir, y dé clic en Aceptar. (Para MAYOR y MENOR, introduzca 1 como valor de K; y para CUARTIL, introduzca 1 o 3 como valor de Cuart, según se trate del primero o tercer cuartil.) En las versiones de Excel previas a Excel 2003, puede encontrar errores en los resultados al utilizar la función CUARTIL.
Para la gráfica de caja y bigote Consulte la sección G.5 (Gráfica de caja y bigote) si desea que PHStat2 genere una gráfica de caja y bigote como diagrama de Excel. (No existen comandos de Excel que generen de manera directa gráficas de caja y bigote.)
Para la covarianza
FIGURA A3.2 Ventana de diálogo de pantalla de estadística descriptiva de Minitab.
Abra el archivo de Excel Covariance.xls, que se muestra en la figura 3.7 de la página 104. Si desea utilizar esta hoja con otros pares de variables, siga las instrucciones en pantalla para modificar el área de la tabla. Observe en la figura 3.7 que la celda C15 contiene una fórmula que usa la función CONT. Ésta permite que Excel actualice de forma automática el valor de n cuando se modifica el tamaño del área de la tabla, y garantiza que el término n – 1 siempre sea el correcto.
Paso 2: Seleccione el botón Statistics. En la ventana de diálogo Display Descriptive Statistics-Statistics (vea la figura A3.3), seleccione las casillas Mean, Standard deviation, Coefficient of variation, First quartile, Median, Third quartile, Interquartile range, Minimum, Maximum, Range y N total (tamaño de la muestra). Dé clic en el botón OK para volver a la ven-
120
CAPÍTULO 3 Medidas numéricas descriptivas
tana de diálogo Display Descriptive Statistics. Dé clic de nuevo en el botón Aceptar para calcular la estadística descriptiva.
FIGURA A3.3 Ventana de diálogo de estadística descriptiva de de Minitab.
Uso de Minitab para elaborar una gráfica de caja y bigote Para crear una gráfica de caja y bigote de los rendimientos en 2003 correspondientes a los distintos niveles de riesgo que aparecen en la figura 3.5 de la página 101, abra la hoja de trabajo MUTUALFUNDS2004.MTW. Seleccione Graph ➜ Boxplot. Paso 1: En la ventana de diálogo Boxplot (vea la figura A3.4) seleccione la opción One Y With Groups (si desea generar una gráfica de caja y bigote para un grupo, seleccione la opción One Y Simple). Dé clic en el botón OK.
FIGURA A3.5 Ventana de diálogo Boxplots-One Y, With Groups de Minitab.
El resultado será semejante al de la figura 3.5 de la página 101.
Cálculo del coeficiente de correlación Para calcular el coeficiente de correlación del coeficiente de gastos y los rendimientos en 2003 de todos los fondos de inversión, abra la hoja de trabajo MUTUALFUNDS2004.MTW. Seleccione Stat ➜ Basic Statistics ➜ Correlation. En el cuadro de diálogo Correlation (vea la figura A3.6), introduzca C6 o Expense ratio y C7 o Return 2003. Dé clic en el botón OK.
FIGURA A3.4 Ventana de diálogo Boxplots de Minitab. Paso 2: En la ventana de diálogo Boxplot-One Y, With Groups (vea la figura A3.5), introduzca C7 o Return 2003 en el cuadro de edición Graph variables. Escriba C10 o Risk en la ventana de editar Categorical variables. Dé clic en el botón OK.
FIGURA A3.6 Ventana de diálogo Correlation de Minitab.
capítulo
4
PROBABILIDAD BÁSICA
Objetivos En este capítulo, aprenderá: • Conceptos de probabilidad básica • Probabilidad condicional
• •
El uso del teorema de Bayes para revisar probabilidades Varias reglas de conteo
Contenido del capítulo USO DE LA ESTADÍSTICA: La empresa Consumer Electronics 4.1 Conceptos básicos de probabilidad 122 Espacios muestrales y eventos 124 Tablas de contingencia y diagramas de Venn 125 Probabilidad simple (marginal) 125 Probabilidad conjunta 127 Regla general de la adición 128 4.2 Probabilidad condicional 131 Cálculo de probabilidades condicionales 133 Árboles de decisión 133
4.3 4.4 4.5 A.4
Independencia estadística 134 Reglas de multiplicación 136 Probabilidad marginal usando la regla general de la multiplicación 137 Teorema de Bayes 139 Reglas de conteo 143 Consideraciones éticas y probabilidad 146 Uso del software para la probabilidad básica 151 A4.1 Excel 151
122
CAPÍTULO 4 Probabilidad básica
U S O D E L A E S TA D Í S T I C A La empresa Consumer Electronics Usted es gerente de marketing de la empresa Consumer Electronics. Analiza los resultados de una encuesta realizada en 1,000 hogares concerniente a sus intenciones de comprar un equipo de televisión de pantalla grande (definido como de 31 pulgadas o más) en los siguientes 12 meses. Investigaciones de este tipo reciben el nombre de estudios de intención de compra. Como seguimiento encuestará los mismos hogares 12 meses después para ver si realmente compraron el equipo. Además, a usted le interesa saber si quienes compraron la televisión de pantalla grande también compraron una televisión de alta definición (HDTV), si adquirieron un equipo reproductor de DVD en los últimos 12 meses, y si estuvieron satisfechos con la compra del equipo de televisión de pantalla grande. Algunas de las preguntas que le gustaría plantear son:
■ ■ ■ ■ ■ ■ ■
■ ¿Cuál es la probabilidad de que en un hogar se planee comprar un televisor de pantalla grande el año próximo? ¿Cuál es la probabilidad de que en ese hogar se compre realmente un televisor de pantalla grande? ¿Cuál es la probabilidad de que en un hogar en el que se planea comprar un televisor de pantalla grande éste realmente se adquiera? Si en un hogar se planea comprar una televisión de pantalla grande, ¿cuál es la probabilidad de que la compra se realice? ¿El conocimiento de que en ese hogar se planea comprar un televisor cambia la posibilidad de predecir si ahí se comprará el equipo de televisión? ¿Cuál es la probabilidad de que el hogar donde se compra un televisor de pantalla grande se comprará un HDTV? ¿Cuál es la probabilidad de que en un hogar donde se compra un televisor de pantalla grande también se compre un equipo reproductor de DVD? ¿Cuál es la probabilidad de que un hogar donde se compra un televisor de pantalla grande estará satisfecho de su compra?
Las respuestas a estas y otras preguntas le ayudarán a desarrollar futuras estrategias de ventas y de marketing. Por ejemplo, ¿las campañas de venta para los equipos de televisión de pantalla grande deberían enfocarse en aquellos clientes que manifiestan su intención de comprar? ¿Se persuade con mayor facilidad a los individuos dispuestos a comprar un televisor de pantalla grande, de comprar uno de alta definición y/o un DVD?
L
os principios de la probabilidad ayudan a unir los mundos de la estadística descriptiva y de la estadística inferencial. Leer este capítulo le ayudará a aprender sobre los diferentes tipos de probabilidades y a revisarlos a la luz de nueva información. Estos temas son fundamentales para la distribución de la probabilidad, el concepto de la esperanza matemática y las distribuciones binomiales y de Poisson (temas que se estudiarán en el capítulo 5).
4.1
CONCEPTOS BÁSICOS DE PROBABILIDAD ¿Qué entendemos por la palabra probabilidad? Una probabilidad es un valor numérico que representa la oportunidad o posibilidad de que un evento en particular ocurra, tal como el aumento en el precio de una acción, un día lluvioso, una unidad de producción no conformada, o que caiga el cinco al lanzar un dado. En todos estos casos, la probabilidad es una proporción o fracción cuyo valor
4.1: Conceptos básicos de probabilidad
123
varía entre 0 y 1 inclusive. Un evento que no tiene oportunidad de ocurrir (por ejemplo, un evento imposible) tiene una probabilidad de 0. Un evento que ocurrirá con toda seguridad (es decir, un evento seguro) tiene una probabilidad de 1. Existen tres aproximaciones sujetas a la probabilidad:
• • •
probabilidad clásica a priori probabilidad clásica empírica probabilidad subjetiva
En una probabilidad clásica a priori, la probabilidad de éxito se basa en el conocimiento previo del proceso implicado. En el caso más simple, en el que cada resultado es igualmente probable, la oportunidad de ocurrencia de un evento se define en la ecuación 4.1.
PROBABILIDAD DE OCURRENCIA X Probabilidad de ocurrencia = T donde
(4.1)
X = número de formas en las que el evento ocurre T = número total de resultados posibles
Considere un mazo de cartas estándar con 26 cartas rojas y 26 cartas negras. La probabilidad de seleccionar una carta negra es de 26/52 = 0.50, puesto que hay X = 26 cartas negras y T = 52 cartas en total. ¿Qué indica esta probabilidad? Si se reemplaza cada carta después de haberla seleccionado, ¿significa que una de las dos siguientes cartas será negra? No, porque usted no puede decir con certeza lo que sucederá en las selecciones posteriores. Sin embargo, puede decir que a la larga, si este proceso de selección se repite continuamente, la proporción de cartas negras seleccionadas se aproximará a 0.50.
EJEMPLO 4.1
ENCONTRAR PROBABILIDADES A PRIORI Un dado estándar tiene seis caras. Cada cara contiene uno, dos, tres, cuatro, cinco o seis puntos. Si usted tira el dado, ¿cuál es la probabilidad de que caiga la cara de cinco puntos? SOLUCIÓN Cada cara tiene la misma posibilidad de ocurrir. Como hay seis caras, la probabilidad de obtener la cara con cinco puntos es de 16. Los ejemplos descritos usan el punto de vista de la probabilidad clásica a priori porque el número de formas en las que un evento puede ocurrir y el número total de resultados posibles se conocen por la composición del mazo de cartas o de las caras del dado. En el punto de vista de la probabilidad clásica empírica, los resultados se basan en datos observados, no en un conocimiento previo del proceso. Ejemplos de este tipo de probabilidad son la proporción de individuos en el escenario “Uso de la estadística” que realmente compren la televisión, la proporción de votantes registrados que optan por un determinado candidato político, o la proporción de alumnos que tienen un empleo de medio tiempo. Por ejemplo, si usted realiza una encuesta a alumnos, y el 60% de ellos afirma que tiene un trabajo de medio tiempo, entonces hay una probabilidad de 0.60 de que un alumno en particular tenga un trabajo de medio tiempo. El tercer punto de vista de la probabilidad, la probabilidad subjetiva, se distingue de los otros dos en que la probabilidad subjetiva difiere de persona a persona. Por ejemplo, tal vez el equipo de desarrollo para un nuevo producto asigne una probabilidad de 0.6 a la oportunidad de éxito para el producto, mientras que el presidente de la empresa es menos optimista y asigna una probabilidad de 0.3. La asignación de probabilidades subjetivas a diferentes resultados generalmente se basa en una combinación de las experiencias pasadas del individuo, la opinión personal y el análisis de una situación particular. La probabilidad subjetiva es particularmente útil al tomar decisiones en situaciones en las que no es posible usar la probabilidad clásica a priori o la probabilidad clásica empírica.
124
CAPÍTULO 4 Probabilidad básica
Espacios muestrales y eventos Los elementos básicos de la teoría de probabilidad son los resultados individuales de una variable que se somete a estudio. Para entender las probabilidades es necesario que comprenda las siguientes definiciones. Cada posible resultado de una variable es un evento. Un evento simple se describe por sus características singulares. Por ejemplo, cuando lanza una moneda al aire, los dos posibles resultados son cara o cruz. Cada uno de éstos representa un evento sencillo. Cuando tira un dado estándar de seis lados, en el que las seis caras del dado contienen uno, dos, tres, cuatro, cinco o seis puntos, hay seis eventos sencillos posibles. Un evento puede ser uno de estos eventos simples, un conjunto de ellos o un subconjunto de todos ellos. Por ejemplo, el evento de un número par de puntos consiste en tres eventos sencillos (por ejemplo, dos, cuatro o seis puntos). Un evento conjunto es un evento que tiene dos o más características. Sacar dos caras al lanzar al aire dos monedas es un ejemplo de evento conjunto, pues consiste en obtener cara al lanzar al aire la primera moneda y cara al lanzar la segunda moneda. El complemento del evento A (al que se le asigna el símbolo A) incluye todos los eventos que no son parte de A. El complemento de una cara es una cruz, puesto que es el único evento que no es una cara. El complemento de una cara de cinco puntos es no tener una cara de cinco puntos. No obtener un lado de cinco puntos consiste en obtener un lado uno, dos, tres, cuatro o seis. La colección de todos los eventos posibles se llama espacio muestral. El espacio muestral de lanzar una moneda al aire consiste en cara y cruz. El espacio muestral cuando tiramos un dado consiste en uno, dos, tres, cuatro, cinco y seis puntos.
EJEMPLO 4.2
ESPACIOS MUESTRALES Y EVENTOS El escenario del recuadro “Uso de la estadística” en la página 122 se refiere a la empresa Consumer Electronics. La tabla 4.1 presenta los resultados de una muestra de 1,000 hogares en términos de comportamiento de compras de equipos de televisión de pantalla grande.
TABLA 4.1 Comportamiento de compras para equipos de televisión de pantalla grande.
REALMENTE LO COMPRÓ PLANEA COMPRARLO Sí No Total
Sí
No
Total
200 100 300
50 650 700
250 750 1,000
¿Qué es un espacio muestral? Dé ejemplos de eventos simples y eventos conjuntos. SOLUCIÓN El espacio muestral consiste en las 1,000 personas encuestadas. Los eventos simples son “planea comprarlo”, “no planea comprarlo”, “compra” y “no compra”. El complemento del evento “planea comprarlo” es “no planea comprarlo”. El evento “planea comprarlo y realmente lo compra” es un evento conjunto porque quien responde debe planear comprar la televisión y realmente comprarla.
4.1: Conceptos básicos de probabilidad
125
Tablas de contingencia y diagramas de Venn Existen diferentes formas de presentar un espacio muestral. La tabla 4.1 usa una tabla de clasificaciones cruzadas para presentar un espacio muestral. La tabla también se llama tabla de contingencia (vea la sección 2.4). Se obtienen los valores en las celdas de la tabla al subdividir el espacio muestral de los 1,000 hogares de acuerdo a si alguien planeó comprar y realmente compró un equipo de televisión de pantalla grande. Por ejemplo, 200 de quienes respondieron planearon comprar un equipo de televisión de pantalla grande y posteriormente lo compraron. Un diagrama de Venn es una segunda forma de presentar un espacio muestral. Este diagrama representa gráficamente los diferentes eventos como “uniones” e “intersecciones” de círculos. La figura 4.1 presenta un diagrama de Venn típico para una situación de dos variables, en la que cada variable tiene sólo dos eventos (A y A′, B y B′). El círculo de la izquierda (de gris oscuro) representa todos los eventos que son parte de A. El círculo de la derecha (de gris claro) representa todos los eventos que son parte de B. El área contenida dentro del círculo A y el círculo B (área central), es la intersección de A y B (se escribe A ∩ B), porque es parte de A y también de B. El área total de los dos círculos es la unión de A y B (se escribe A ∪ B) y contiene todos los resultados que son sólo parte del evento A, sólo parte del evento B, o parte de ambos A y B. El área en el diagrama fuera de A ∪ B contiene los resultados que no son parte ni de A ni de B. Usted debe definir A y B para desarrollar un diagrama de Venn. Se puede definir a un evento como A o como B, siempre y cuando sea congruente al evaluar los diversos eventos. Para el ejemplo de Consumer Electronics, se pueden definir los eventos de la siguiente manera: A = planea comprar A′ = no planea comprar
B = realmente compró B′ = no lo compró
Al diseñar un diagrama de Venn (vea la figura 4.2), usted debe determinar el valor de la intersección de A y B para dividir el espacio muestral en sus partes. A ∩ B consiste en los 200 hogares en los que se planeó comprar y realmente se compró el equipo de televisión de pantalla grande. El evento remanente A (planean comprar), consiste en 50 hogares en los que se planeó comprar el televisor de pantalla grande pero que finalmente no lo compraron. El remanente del evento B (realmente compraron) consiste en 100 hogares en los que no se planeó comprar un equipo de televisión de pantalla grande, pero en los que finalmente se compró uno. El resto de los 650 hogares representa a aquellos que ni planearon ni compraron un equipo de televisión de pantalla grande.
B A
A
A′
B
B
A
B ′ = 650
B
50
200
100
A A
B
A
FIGURA 4.1 Diagrama de Venn para los eventos A y B.
B = 350
FIGURA 4.2 Diagrama de Venn para el ejemplo de Consumer Electronics.
Probabilidad simple (marginal) Ahora usted está en condiciones de responder a algunas de las preguntas formuladas en el escenario “Uso de la estadística”. Como los resultados se basan en los datos recolectados en una encuesta (vea la tabla 4.1 en la página 124), puede usar el punto de vista de la probabilidad clásica empírica. Como se estableció antes, la ley básica para las probabilidades es que varían en valor del 0 al 1. Un evento imposible tiene una probabilidad de 0 y un evento seguro de ocurrir tiene una probabilidad de 1.
126
CAPÍTULO 4 Probabilidad básica
Probabilidad simple se refiere a la probabilidad de ocurrencia de un evento simple, P(A).En el escenario de “Uso de la estadística”, una probabilidad simple es la probabilidad de planear la compra de un equipo de televisión de pantalla grande. ¿Cómo se determina la probabilidad de seleccionar un hogar en el que se planee comprar un equipo de televisión de pantalla grande? Al utilizar la ecuación (4.1) en la página 123: X Probabilidad de ocurrencia = T número de quienes planean comprar P(planear comprar) = número total de hogares 250 = = 0.25 1,000 Por lo tanto, hay un 0.25 (o un 25%) de probabilidad de que en un hogar se planee comprar un equipo de televisión de pantalla grande. A la probabilidad simple también se le llama probabilidad marginal, porque es posible calcular el número total de los éxitos (el número total de quienes planearon comprar) a partir del margen apropiado de la tabla de contingencia (vea la tabla 4.1 en la página 124). El ejemplo 4.3 ilustra otra aplicación de la probabilidad simple.
EJEMPLO 4.3
CÁLCULO DE LA PROBABILIDAD DE QUE EL EQUIPO DE TELEVISIÓN DE PANTALLA GRANDE QUE SE COMPRE SEA UN HDTV En la encuesta de seguimiento del escenario de “Uso de la estadística”, se hicieron preguntas adicionales a 300 de los hogares en los que realmente se compró el equipo de televisión de pantalla grande. La tabla 4.2 indica las respuestas del consumidor a si el equipo comprado era un HDTV y si también compró un DVD en los últimos 12 meses.
TABLA 4.2 Comportamiento de compra respecto a los HDTV y los DVD.
COMPRÓ DVD COMPRÓ HDTV HDTV No HDTV Total
Sí
No
Total
38 70 108
42 150 192
80 220 300
Encuentre la probabilidad de que si en el hogar seleccionado al azar adquirieron un equipo de televisión de pantalla grande, el equipo comprado sea un HDTV. SOLUCIÓN Usando las siguientes definiciones: A = compró un HDTV A′ = no compró un HDTV
B = compró un DVD B′ = no compró un DVD
número de equipos de televisión HDTV P(HDTV) = número total de equipos de televisión 80 = = 0.267 300 Hay una probabilidad del 26.7% de que el equipo de televisión de pantalla grande seleccionado al azar comprado sea un HDTV.
4.1: Conceptos básicos de probabilidad
127
Probabilidad conjunta La probabilidad marginal se refiere a la probabilidad de ocurrencia de eventos simples. La probabilidad conjunta se refiere a la probabilidad de ocurrencia que implica a dos o más eventos. Un ejemplo de probabilidad conjunta es la probabilidad de que se obtenga cara al lanzar la primera vez la moneda al aire y cara al lanzar por segunda vez la moneda. En relación con la tabla 4.1 en la página 124, aquellos individuos que planearon comprar y realmente compraron el televisor de pantalla grande se identifican con los resultados de una celda singular “sí—planearon comprar y sí—realmente lo compraron”. Como el grupo está formado por 200 hogares, la probabilidad de elegir un hogar que planee comprar y realmente lo compre es planea comprar y realmente compra P(planea comprar y realmente lo compra) = número total de quienes responden 200 = = 0.20 1,000 El ejemplo 4.4 también demuestra cómo se determina la probabilidad conjunta.
EJEMPLO 4.4
DETERMINAR LA PROBABILIDAD CONJUNTA DE COMPRAR UN TELEVISOR DE PANTALLA GRANDE Y DE COMPRAR UN HDTV Y UN DVD En la tabla 4.2 de la página 126, los compradores aparecen en una clasificación cruzada como HDTV o no HDTV y si en esos hogares se adquirió o no un equipo reproductor de DVD. Encuentre la probabilidad de que en los hogares seleccionados al azar, los compradores de un televisor de pantalla adquirieron un equipo HDTV y un DVD. SOLUCIÓN Se emplea la ecuación (4.1) de la página 123, número de compradores de un televisor HDTV y un DVD P (televisor HDTV y DVD) = número total de compradores de un televisor de pantalla grande 38 = = 0.127 300 Por lo tanto, tenemos una probabilidad del 12.7% de que el hogar seleccionado al azar en el que se adquirió un equipo de televisión de pantalla grande, haya comprado un HDTV y un DVD.
Se puede ver la probabilidad marginal de un evento en particular usando el concepto de probabilidad conjunta que se explicó antes. La probabilidad marginal de un evento consiste en un conjunto de probabilidades conjuntas. Por ejemplo, si B consiste en dos eventos, B1 y B2, entonces P(A), la probabilidad del evento A, consiste en la probabilidad conjunta de que el evento A ocurra con el evento B1 y la probabilidad conjunta de que el evento A ocurra con el evento B2. Use la ecuación (4.2) para calcular las probabilidades marginales.
PROBABILIDAD MARGINAL P(A) = P(A y B1) + P(A y B2) + … + P(A y Bk)
(4.2)
donde B1, B2, . . . , Bk son k eventos mutuamente excluyentes y colectivamente exhaustivos.
128
CAPÍTULO 4 Probabilidad básica
Los eventos mutuamente excluyentes y colectivamente exhaustivos se definen así. Dos eventos son mutuamente excluyentes si ambos eventos no pueden ocurrir de manera simultánea. Al tirar una moneda al aire, cara y cruz son eventos mutuamente excluyentes. El resultado de tirar una moneda al aire no puede ser al mismo tiempo cara y cruz.
Un conjunto de eventos es colectivamente exhaustivo si uno de los eventos debe ocurrir. Cara y cruz en una moneda son eventos colectivamente exhaustivos. Uno de ellos debe ocurrir. Si no ocurre cara, entonces debe ocurrir cruz. Si cruz no ocurre, entonces debe ocurrir cara. Ser masculino y ser femenino son eventos mutuamente excluyentes y colectivamente exhaustivos. Ninguna persona es de ambos sexos (son mutuamente excluyentes), y todos son uno u otro (son colectivamente exhaustivos). La ecuación (4.2) sirve para calcular la probabilidad marginal de planear la compra de un equipo de televisión de pantalla grande. P (planear la compra) = P (planear comprar y comprar) + P (planear comprar y no comprar) 200 50 = + 1,000 1,000 250 = = 0.25 1,000 Usted obtendrá el mismo resultado si suma el número de resultados que conforman el evento simple “planear la compra”.
Regla general de la adición La regla general de la adición nos permite encontrar la probabilidad del evento “A o B”. Esta regla considera la ocurrencia de cualquiera de los eventos, evento A o evento B o ambos A y B. ¿Cómo se determina la probabilidad de que en un hogar se planee comprar o se compre realmente un equipo de televisión de pantalla grande? El evento “planear la compra o comprar realmente” incluye a todos los hogares en los que se planea comprar y todos los hogares en los que realmente se compró el equipo de televisión de pantalla grande. Revise cada celda de la tabla de contingencia (tabla 4.1, en la página 124) para determinar si es o no parte del evento. De la tabla 4.1, la celda “planea comprar y no la compró” es parte del evento porque incluye a los encuestados que planeaban comprar. La celda “no planeó comprar y realmente compró” está incluida porque contiene a los encuestados que de verdad compraron. Por último, la celda “planearon comprar y realmente compraron” tiene ambas características de interés. Por lo tanto, la probabilidad de planear comprar o realmente comprar es: P(planear comprar o realmente compró) = P(planeó comprar y no compró realmente) + P(no planeó comprar y realmente compró) + P(planeó comprar y realmente compró) 50 100 200 350 = + + = = 0.35 1,000 1,000 1,000 1,000 A menudo encontrará más fácil determinar P(A o B), la probabilidad del evento A o B, mediante la regla general de la adición definida en la ecuación (4.3).
4.1: Conceptos básicos de probabilidad
129
REGLA GENERAL DE LA ADICIÓN La probabilidad de A o B es igual a la probabilidad de A más la probabilidad de B menos la probabilidad de A y B. P(A o B) = P(A) + P(B) − P(A y B)
(4.3)
Aplicar esta ecuación al ejemplo anterior produce el siguiente resultado: P(planea comprar o realmente compró) = P(planea comprar) + P(realmente compró) − P(planea comprar y compró) 250 300 200 = + – 1,000 1,000 1,000 350 = = 0.35 1,000 La regla general de la adición consiste en tomar la probabilidad de A y sumarla a la probabilidad de B, y después sustraer el evento conjunto de A y B de este total, porque el evento conjunto ya se incluyó tanto en el cálculo de la probabilidad de A y en la probabilidad de B. En relación con la tabla 4.1 en la página 124, si los resultados del evento “planean comprar” se suman a aquellos del evento “realmente compraron”, el evento conjunto “planearon comprar y realmente compraron” se incluye en cada uno de estos eventos simples. Por lo tanto, como este evento conjunto se ha contado dos veces, debe restarse para obtener el resultado correcto. El ejemplo 4.5 ilustra otra aplicación de la regla general de la adición.
EJEMPLO 4.5
USO DE LA REGLA GENERAL DE LA ADICIÓN PARA LOS HOGARES EN LOS QUE SE COMPRARON EQUIPOS DE TELEVISIÓN DE PANTALLA GRANDE En el ejemplo 4.3 de la página 126, las compras se clasificaron de forma cruzada como HDTV o no HDTV y si en el hogar se compró o no un DVD. Encuentre la probabilidad de que entre los hogares en los que se adquirió un equipo de televisión de pantalla grande, se haya comprado un HDTV o un DVD. SOLUCIÓN Mediante la ecuación (4.3), P(HDTV o DVD) = P(HDTV) + P(DVD) − P(HDTV y DVD) 80 108 38 = + − 300 300 300 150 = = 0.50 300 Por lo tanto, se tiene el 50.0% de probabilidad de que el hogar seleccionado al azar en el que se adquirió un equipo de televisión de pantalla grande, se haya comprado un HDTV o un DVD.
PROBLEMAS PARA LA SECCIÓN 4.1 Aprendizaje básico 4.1 Se lanzan dos monedas al aire. a. Dé un ejemplo de un evento simple. b. Dé un ejemplo de un evento conjunto. c. ¿Cuál es el complemento de una cara en el primer lanzamiento? ASISTENCIA
de PH Grade
4.2 Una urna contiene 12 pelotas rojas y 8 pelotas blancas. Se seleccionará una pelota de la urna. a. Dé un ejemplo de un evento simple. b. ¿Cuál es el complemento de una pelota roja?
130
CAPÍTULO 4 Probabilidad básica
ASISTENCIA
4.3 A partir de la siguiente tabla de contingencia:
de PH Grade
A A′
B
B′
10 20
20 40
¿Cuál es la probabilidad del a. evento A? b. evento A′? c. evento A y B? d. evento A o B? ASISTENCIA
Maneja hacia el trabajo
4.4 A partir de la siguiente tabla de contingencia:
de PH Grade
A A′
4.8 En Estados Unidos una encuesta sobre vivienda estudió cómo llegan al trabajo los propietarios de una casa (“How People Get to Work”, USA Today Snapshots, 25 de febrero, 2003, 1A). Suponga que la encuesta constó de una muestra de 1,000 propietarios de casa y 1,000 inquilinos. AUTO Examen
B
B′
10 25
30 35
¿Cuál es la probabilidad del a. evento A′? b. evento A y B? c. evento A′ y B′? d. evento A′ o B′?
Aplicación de conceptos 4.5 Para cada uno de los siguientes enunciados, indique si el tipo de probabilidad implicada es un ejemplo de probabilidad clásica a priori, probabilidad clásica empírica o probabilidad subjetiva. a. El siguiente lanzamiento de una moneda caerá cara. b. Italia ganará la Copa Mundial la próxima vez que se realice esa competencia. c. La suma de las caras de dos dados será 7. d. El tren que toma un viajero para llegar al trabajo llegará con más de 10 minutos de retraso. ASISTENCIA
de PH Grade
4.6 Para cada uno de los siguientes enunciados, establezca si los eventos son mutuamente excluyentes y colectivamente exhaustivos. Si no es así, renombre las categorías para hacerlos mutuamente excluyentes y colectivamente exhaustivos o explique por qué no sería útil hacerlo. a. A los votantes registrados de Estados Unidos se les preguntó si están registrados como republicanos o como demócratas. b. Quienes respondieron fueron clasificados por el tipo de automóvil que él o ella manejan: estadounidense, europeo, japonés o ninguno. c. Se les preguntó: “¿Actualmente vive en i) un apartamento o ii) en una casa?” d. Un producto fue clasificado como defectuoso o no defectuoso. 4.7 La probabilidad de cada uno de los siguientes eventos es cero. Para cada uno de ellos establezca por qué. a. Un votante en Estados Unidos que está registrado como republicano y como demócrata. b. Un producto que es defectuoso y no defectuoso. c. Un automóvil es de marca Ford y Toyota.
Sí No Total
Propietario de casa
Inquilino
Total
824 176 1,000
681 319 1,000
1,505 495 2,000
a. b. c. d.
Dé un ejemplo de un evento simple. Dé un ejemplo de un evento conjunto. ¿Cuál es el complemento de “maneja hacia el trabajo”? ¿Por qué “maneja hacia el trabajo y es un propietario de casa” es un evento conjunto? 4.9 En relación con la tabla de contingencia del problema 4.8, si quien responde es seleccionado al azar, ¿cuál es la probabilidad de que ella o él a. maneje hacia el trabajo? b. maneje hacia el trabajo y sea propietario de casa? c. maneje hacia el trabajo o sea propietario de casa? d. Explique la diferencia en los resultados de los incisos b) y c). 4.10 Un estudio sobre el mejoramiento de la producción en una fábrica de semiconductores proporcionó datos de los defectos para una muestra de 450 placas de silicio. La siguiente tabla presenta un resumen de las respuestas a dos preguntas: “¿Se encontraron partículas en el troquel que produjo la placa?”, y “¿La placa era buena o mala?”
CALIDAD DE LA PLACA Buena Mala Total
CONDICIÓN DEL TROQUEL Sin Con partículas partículas 320 80 400
14 36 50
Total 334 116 450
Fuente: S.W. Hall, Analysis of Defectivity of semiconductor Wafers by Contingency Table, Proceedings of Institute of Environmental Sciences, vol. 1 (1994), 177-183.
a. b. c. d.
Dé un ejemplo de evento simple. Dé un ejemplo de evento conjunto. ¿Cuál es el complemento de una placa de silicio es buena? ¿Por qué una “placa buena” y un troquel “con partículas” es un evento conjunto?
4.11 En relación con la tabla de contingencia del problema 4.10, si la placa de silicio se seleccionó al azar, ¿cuál es la probabilidad de que a. fuera producida con un troquel sin partículas? b. sea una placa mala y fuera producida con un troquel sin partículas?
4.2: Probabilidad condicional
131
c. Sea una placa mala o fuera producida con un troquel con partículas? d. Explique la diferencia en los resultados de los incisos b) y c).
b. sea negro y no demande por prejuicios? c. sea negro o demande por prejuicios? d. Explique la diferencia en los resultados de los incisos b) y c).
4.12 ¿Es menos probable que las grandes empresas ofrezcan acciones a los miembros de su junta directiva que las empresas pequeñas o medianas? Una encuesta que realizó la Segal Company de Nueva York encontró que en una muestra de 189 empresas grandes, 40 les ofrecieron opciones de acciones a los miembros de su consejo directivo como parte de sus paquetes de compensación que no implicaban efectivo. De las empresas pequeñas y medianas, 43 de las 180 encuestadas indicaron que ofrecieron las acciones como parte de sus paquetes de compensación que no implicaban efectivo a los miembros de su consejo directivo (Kemba J. Dunham, “The Jungle: Focus on Recruitment, Pay and Getting Ahead”, The Wall Street Journal, 21 de agosto, 2001, B6). Construya una tabla de contingencia o un diagrama de Venn para evaluar las probabilidades. Si la empresa es seleccionada al azar, ¿cuál es la probabilidad de que la compañía a. ofrezca opciones de acciones a los miembros de su consejo directivo? b. sea una empresa pequeña o mediana y no ofrezca opciones de acciones a los miembros de su consejo directivo? c. sea una empresa pequeña a mediana u ofrezca opciones de acciones a los miembros de su consejo directivo? d. Explique la diferencia en los resultados de los incisos b) y c).
4.14 Una muestra de 500 personas fue seleccionada en una gran área metropolitana para estudiar el comportamiento del consumidor. Entre las preguntas estaban “¿Disfruta comprando ropa?” De 240 hombres, 136 contestaron que sí. De 260 mujeres 224 contestaron que sí. Realice una tabla de contingencia o un diagrama de Venn para evaluar las probabilidades. ¿Cuál es la probabilidad de que un encuestado elegido al azar a. disfrute comprando ropa? b. sea mujer y disfrute comprando ropa? c. sea mujer o disfrute comprando ropa? d. sea hombre o mujer?
ASISTENCIA
de PH Grade
4.13 ¿Es más probable que los blancos presenten demandas por prejuicios? Una encuesta que realizó Barry Goldman (“White Fight: A Researcher Finds Whites Are More Likely to Claim Bias”, The Wall Street Journal, Work Week, 10 de abril, 2001, A1) encontró que de 56 trabajadores despedidos, 29 presentaron demandas por prejuicios. De 407 trabajadores negros despedidos, 126 demandaron por prejuicios. Elabore una tabla de contingencia o un diagrama de Venn para evaluar las probabilidades. Si un trabajador es seleccionado al azar, ¿cuál es la probabilidad de que él o ella a. presente una demanda por prejuicios?
4.2
4.15 Cada año se compilan las clasificaciones respecto al desempeño de los autos nuevos durante los primeros 90 días de uso. Suponga que los autos se han clasificado de acuerdo a si necesitan una garantía relacionada con reparación (sí o no) y el país en el que la empresa manufacturera tiene su sede (Estados Unidos o fuera de Estados Unidos). Con base en los datos recabados, la probabilidad de que un auto nuevo necesite de una garantía de reparación es de 0.04, la probabilidad de que el auto sea manufacturado por una empresa con sede en Estados Unidos es de 0.60, y la probabilidad de que el auto nuevo necesite una garantía de reparación y haya sido manufacturado por una empresa con sede en Estados Unidos es de 0.025. Elabore una tabla de contingencia o un diagrama de Venn para evaluar la probabilidad de una garantía relacionada con la reparación. ¿Cuál es la probabilidad de que un auto nuevo seleccionado al azar a. necesite una garantía relacionada con reparaciones? b. necesite una garantía relacionada con reparaciones y sea manufacturado por una empresa con sede en estados Unidos? c. necesite una garantía de reparación o fue manufacturado por una empresa con sede en Estados Unidos? d. necesite una garantía de reparación o no fue manufacturado por una empresa con sede en Estados Unidos?
PROBABILIDAD CONDICIONAL Cálculo de probabilidades condicionales Cada ejemplo en la sección 4.1 implicó encontrar la probabilidad de un evento muestreado del espacio muestral completo. ¿Cómo se determina la probabilidad de un evento si cierta información acerca de los eventos implicados es ya conocida? La probabilidad condicional se refiere a la probabilidad del evento A, dada información acerca de la ocurrencia de otro evento B.
PROBABILIDAD CONDICIONAL La probabilidad de A dado B es igual a la probabilidad de A y B dividida por la probabilidad de B P(A y B) P(A | B) = P(B )
(4.4a)
132
CAPÍTULO 4 Probabilidad básica
de A
La probabilidad de B dado A es igual a la probabilidad de A y B dividida por la probabilidad
donde
P(A y B) P(B | A) = P(A )
(4.4b)
P(A y B) = probabilidad conjunta de A y B P(A) = probabilidad marginal de A P(B) = probabilidad marginal de B
En relación con el escenario de “Uso de la estadística” que se refiere a la compra de un equipo de televisión de pantalla grande, suponga que en cierto hogar se planea comprar un equipo de televisión de pantalla grande. Ahora, ¿cuál es la probabilidad de que en ese hogar se compre realmente el equipo de televisión? En este ejemplo el objetivo es encontrar P(compra real planea comprar). Aquí se le proporciona la información de que el hogar planea comprar el equipo de televisión de pantalla grande. Por lo tanto, el espacio muestral no consiste en todos los 1,000 hogares de la encuesta. Consiste sólo en aquellos que realmente compraron el equipo de televisión de pantalla grande. De 250 de esos hogares, 200 compraron realmente el equipo de televisión de pantalla grande. Por lo tanto (vea la tabla 4.1 en la página 124 o la figura 4.2 en la página 125), la probabilidad de que en un hogar realmente se compre un equipo de televisión de pantalla grande dado que lo planeó comprar es planeó comprar y realmente compró P(realmente compró | planeó comprar) = planeó comprar 200 = = 0.80 250 También es posible usar la ecuación (4.4b) para calcular este resultado. P(A y B) P(B | A) = P(A) donde
evento A = planeó comprar evento B = realmente compró
Entonces 200/1,000 P(realmente compró | planeó comprar) = 250/1,000 200 = = 0.80 250 El ejemplo 4.6 ilustra aún más la probabilidad condicional.
EJEMPLO 4.6
ENCONTRAR LA PROBABILIDAD CODICIONAL REFERENTE A LOS HOGARES QUE REALMENTE COMPRARON UN EQUIPO DE TELEVISIÓN DE PANTALLA GRANDE La tabla 4.3 en la página 126 es una tabla de contingencia que se refiere a si el hogar compró un HDTV y un DVD. De los hogares que compraron un HDTV, ¿cuál es la probabilidad de que también hayan comprado un DVD?
4.2: Probabilidad condicional
133
SOLUCIÓN Como se sabe en qué hogares compraron un HDTV, el espacio muestral se reduce a 80 hogares. De estos 80, 38 también compraron un DVD. Por lo tanto, la probabilidad de que un hogar comprara un DVD, dado que el hogar compró un HDTV es: número que compró HDTV y DVD P(compró DVD | compró HDTV) = número que compró HDTV 38 = = 0.475 80 Si se usa la ecuación (4.4a) de la página 131: A = compró DVD
B = compró HDTV
entonces P(A y B) 38/300 P(A | B) = = = 0.475 P(B) 80/300 Entonces, dado que en un hogar se compró un HDTV, hay un 47.5% de posibilidades de que también haya comprado un DVD. Se puede comparar esta probabilidad condicional con la probabilidad marginal de comprar un DVD, la cual es de 108/300 = 0.36, o del 36%. Estos resultados indican que los hogares en los que se compró un HDTV tienen más probabilidades de comprar un DVD que los hogares que compraron un equipo de televisión de pantalla grande que no es un HDTV.
Árboles de decisión En la tabla 4.1 en la página 124, los hogares se clasifican de acuerdo con sus planes de comprar o de si realmente compraron el equipo de televisión de pantalla grande. Un árbol de decisión es una alternativa para la tabla de contingencia. La figura 4.3 representa el árbol de decisión para este ejemplo.
FIGURA 4.3 Árbol de decisión para el ejemplo de Consumer Electronics.
250 P(A) = 1,000
Conjunto total de hogares
an eab Plan prar com
nte lme Rea raron p com
No co
P(A y B) = 200 1,000
mpra
P(A y B′ ) =
ron
50 1,000
No
pla com neaba pra n r
ron
ompra
ente c
Realm
P(A′) ⴝ
750 1,000
No
com
pra
ron
P(A′ y B) = 100 1,000
P(A′ y B′ ) = 650 1,000
En la figura 4.3 iniciando a la izquierda con el conjunto total de hogares, se abren dos “ramas” para indicar si planearon o no comprar el equipo de televisión de pantalla grande. Cada una de estas ramas tiene dos subramas, correspondientes a si el hogar realmente compró o no el equipo de televisión de pantalla grande. Las probabilidades al final de las ramas iniciales representan la probabilidad
134
CAPÍTULO 4 Probabilidad básica
marginal de A y A′. La probabilidad al final de cada una de la cuatro subramas representa la probabilidad conjunta de cada combinación de eventos A y B. Calcule la probabilidad condicional dividiendo la probabilidad conjunta por la probabilidad marginal apropiada. Por ejemplo, para calcular la probabilidad de que cierto hogar realmente compró luego de que planeó comprar el equipo de televisión de pantalla grande, tome P(planeó comprar y realmente compró) y divídalo por P(planeó comprar). A partir de la figura 4.3 200/1,000 P(realmente compró | planeó comprar) = 250/1,000 200 = = 0.80 250 El ejemplo 4.7 ilustra cómo construir un árbol de decisión.
EJEMPLO 4.7
CREACIÓN DEL ÁRBOL DE DECISIÓN PARA LOS HOGARES EN LOS QUE SE COMPRÓ UN EQUIPO DE TELEVISIÓN DE PANTALLA GRANDE Utilice los datos cruzados clasificados de la tabla 4.2 en la página 126 y realice el árbol de decisión. Use el árbol de decisión para encontrar la probabilidad de que en un hogar se haya comprado un DVD, dado que el hogar compró un HDTV. SOLUCIÓN El árbol de decisión para haber comprado un DVD y un HDTV se muestra en la figura 4.4. Emplee la ecuación (4.4b) en la página 132 y las siguientes definiciones: A = compró HDTV
B = compró un DVD
P(A y B) 38/300 P(B | A) = = = 0.475 80/300 P(A)
FIGURA 4.4 Árbol de decisión para haber comprado un DVD y un HDTV.
80 P(A) = 300
No co
TV
ó HD
pr Com
Conjunto completo de hogares N o
D
ó DV
pr Com
mpró
DVD
com
pró
HD
ró DVD
TV P(A′) =
Comp
220 300
No
com
pró
DVD
P(A y B) =
38 300
P(A y B′) = 42 300
P(A′ y B) = 70 300
P(A′ y B′) = 150 300
Independencia estadística En el ejemplo relacionado con la compra de equipos de televisión de pantalla grande, la probabilidad condicional es de 200/250 = 0.80 de que en el hogar seleccionado realmente se haya comprado un equipo de televisión de pantalla grande, luego de que se planeó comprarlo. La probabilidad sim-
4.2: Probabilidad condicional
135
ple de seleccionar un hogar que realmente hizo la compra es de 300/1,000 = 0.30. Estos resultados muestran que el conocimiento previo de que en el hogar se planeó comprar afectó la probabilidad de que el hogar realmente comprara el equipo de televisión. En otras palabras, el resultado de un evento es dependiente del resultado de un segundo evento. Cuando el resultado de un evento no afecta la probabilidad de ocurrencia de otro evento, se dice que los eventos son estadísticamente independientes. La independencia estadística se determina mediante la ecuación (4.5).
INDEPENDENCIA ESTADÍSTICA Dos eventos A y B son estadísticamente independientes si y sólo si (4.5)
P(A | B) = P(A) P(A | B) = probabilidad condicional de A dado B
donde
P(A) = probabilidad marginal de A El ejemplo 4.8 demuestra el uso de la ecuación (4.5).
EJEMPLO 4.8
DETERMINACIÓN DE LA INDEPENDENCIA ESTADÍSTICA En el estudio de seguimiento de 300 hogares que realmente compraron un equipo de televisión de pantalla grande, se preguntó a los encuestados si estaban satisfechos con sus compras. La tabla 4.3 de respuestas cruzadas clasifica las respuestas a la pregunta sobre la satisfacción dependiendo de si el equipo de televisión era un HDTV.
TABLA 4.3 Satisfacción con la compra de equipos de televisión de pantalla grande.
¿SATISFECHO CON LA COMPRA? TIPO DE TELEVISIÓN HDTV
No HDTV Total
Sí
No
Total
64 176 240
16 44 60
80 220 300
Determine si estar satisfecho con la compra y el tipo de televisor comprado son estadísticamente independientes. SOLUCIÓN Para estos datos, 64/300 64 P(satisfecho | HDTV) = = = 0.80 80/300 80 lo que es igual a 240 P(satisfecho) = = 0.80 300 Así que estar satisfecho con la compra y el tipo de equipo de televisión comprado son estadísticamente independientes. El conocimiento de un evento no afecta la probabilidad del otro evento.
136
CAPÍTULO 4 Probabilidad básica
Reglas de multiplicación Al manipular la fórmula de la probabilidad condicional, es posible determinar la probabilidad conjunta P(A y B) de la probabilidad condicional de un evento. La regla general de la multiplicación se obtiene con la ayuda de la ecuación (4.4a) en la página 131. P(A y B) P(A | B) = P(B) y se resuelve la probabilidad conjunta P (A y B).
REGLA GENERAL DE LA MULTIPLICACIÓN La probabilidad de A y B es igual a la probabilidad de A dado B por la probabilidad de B. P(A y B) = P(A | B)P(B)
(4.6)
El ejemplo 4.9 demuestra el uso de la regla general de la multiplicación.
EJEMPLO 4.9
USO DE LA REGLA DE MULTIPLICACIÓN Considere los 80 hogares en los que se compró un HDTV. En la tabla 4.3 en la página 135 se observa que en 64 hogares están satisfechos con su compra y en 16 hogares no están satisfechos. Suponga que se seleccionan al azar dos hogares de los 80 que realizaron la compra. Encuentre la probabilidad de que ambos hogares estén satisfechos con su adquisición. SOLUCIÓN Aquí se emplea la regla de la siguiente manera. Si: A = segundo hogar seleccionado está satisfecho B = primer hogar seleccionado está satisfecho entonces, mediante la ecuación (4.6) P(A y B) P(A | B)P(B) La probabilidad de que el primer hogar esté satisfecho con la compra es de 64/80. Sin embargo, la probabilidad de que el segundo hogar también esté satisfecho con la compra depende del resultado de la primera selección. Si el primer hogar no se devuelve a la muestra después de determinar el nivel de satisfacción (muestreo sin sustitución), entonces el número de hogares restantes será de 79. Si el primer hogar está satisfecho, la probabilidad de que el segundo hogar también esté satisfecho es 63/79, porque en la muestra permanecen 63 hogares satisfechos. Por lo tanto,
63 64 P(A y B) = = 0.6380 79 80 Hay 63.80% de posibilidades de que ambos hogares muestreados estén satisfechos con sus compras.
La regla de multiplicación para eventos independientes se obtiene al sustituir P(A) por P(A | B) en la ecuación (4.6).
REGLA DE MULTIPLICACIÓN PARA EVENTOS INDEPENDIENTES Si A y B son estadísticamente independientes, la probabilidad de A y B es igual a la probabilidad de A por la probabilidad de B. P(A y B) = P(A)P(B)
(4.7)
4.2: Probabilidad condicional
137
Si esta regla sirve para dos eventos, A y B, entonces A y B son estadísticamente independientes. Por lo tanto, existen dos maneras de determinar la independencia estadística. 1. Los eventos A y B son estadísticamente independientes si y sólo si P(A | B) = P(A). 2. Los eventos A y B son estadísticamente independientes si y sólo si P(A y B) = P(A)P(B).
Probabilidad marginal usando la regla general de la multiplicación En la sección 4.1 se definió la probabilidad marginal con la ayuda de la ecuación (4.2) de la página 127. Es factible expresar la fórmula para la probabilidad marginal mediante la regla general de la multiplicación. Si P(A) = P(A y B1) + P(A y B2) + . . . + P(A y Bk) entonces, al usar la regla general de la multiplicación, la ecuación (4.8) define la probabilidad marginal.
PROBABILIDAD MARGINAL USANDO LA REGLA GENERAL DE LA MULTIPLICACIÓN P(A) P(A | B1)P(B1) P(A | B2)P(B2) P(A | Bk)P(Bk) (4.8) donde B1, B2, . . . , Bk son los eventos k mutuamente excluyentes y colectivamente exhaustivos. Para ilustrar esta ecuación, consulte la tabla 4.1 en la página 124. Al utilizar la ecuación (4.8), la probabilidad de planear una compra es: P(A) = P(A | B1)P(B1) + P(A | B2)P(B2) P(A) = probabilidad de “planea comprar”
donde
P(B1) = probabilidad de “realmente compró” P(B2) = probabilidad de “no compró” 200 300
P(A) = =
300 50 + 1,000 700
700 1,000
200 50 250 + = = 0.25 1,000 1,000 1,000
PROBLEMAS PARA LA SECCIÓN 4.2 Aprendizaje básico ASISTENCIA
4.16 A partir de la siguiente tabla de contingencia:
4.17 A partir de la siguiente tabla de contingencia:
de PH Grade
A A′
B
B′
10 20
20 40
¿Cuál es la probabilidad de a. A | B? b. A | B′? c. A′ | B′? d. ¿Los eventos A y B son estadísticamente independientes?
A A′
B
B′
10 25
30 35
¿Cuál es la probabilidad de a. A | B? b. A′ | B′? c. A | B′? d. ¿Los eventos A y B son estadísticamente independientes?
138
CAPÍTULO 4 Probabilidad básica
ASISTENCIA
de PH Grade ASISTENCIA
de PH Grade ASISTENCIA
de PH Grade
4.18 Si P(A y B) = 0.4 y P(B) = 0.8, encuentre P(A | B). 4.19 Si P(A) = 0.7 y P(B) = 0.6, y si A y B son estadísticamente independientes, encuentre P(A y B). 4.20 Si P(A) = 0.3 y P(B) = 0.4, y si P(A y B) = 0.2, ¿A y B son estadísticamente independientes?
Aplicación de conceptos 4.21 En Estados Unidos una encuesta sobre vivienda estudió cómo llegan al trabajo los propietarios de casa (“How People Get to Work,” USA Today Snapshots, 25 de febrero, 2003, 1A). Suponga que la encuesta consistió en una muestra de 1,000 propietarios de casa y 1,000 inquilinos. AUTO Examen
Maneja al trabajo Sí No Total
Propietario
Inquilino
Total
824 176 1,000
681 319 1,000
1,505 495 2,000
a. Si una persona responde que maneja hacia su trabajo, ¿cuál es la probabilidad de que él o ella sea propietario de su casa? b. Si quien responde es un propietario, ¿cuál es la probabilidad de que él o ella maneje hacia el trabajo? c. Explique la diferencia en los resultados de los incisos a) y b). d. ¿Son estos dos eventos, manejar hacia el trabajo y si quien responde renta la casa o es propietario de ella, estadísticamente independientes? 4.22 Un estudio de mejoramiento de la producción de un fabricante de semiconductores proporcionó datos de defectos para una muestra de 450 placas de silicio. La siguiente tabla presenta un resumen de las respuestas a dos preguntas: “¿Se encontraron partículas en el troquel que produjo la placa de silicio?”, y “¿La placa era buena o mala?”
CALIDAD DE LA PLACA Buena Mala Total
CONDICIÓN DEL TROQUEL Sin partículas Partículas 320 80 400
14 36 50
Total 334 116 450
Fuente: S.W. Hall, Analysis of Defectivity of Semiconductor Wafers by Contingency Table, Proceedings Institute of Environmental Sciences, Vol. 1 (1994), 177-183.
a. Suponga que sabe que una placa de silicio es mala. ¿Cuál es la probabilidad de que fuera producida con un troquel que tenía partículas? b. Suponga que sabe que una placa de silicio es buena. ¿Cuál es la probabilidad de que fuera producida con un troquel que tenía partículas? c. ¿Son estos dos eventos, una placa buena y un troquel sin partículas, estadísticamente independientes? Explique su respuesta.
4.23 ¿Es menos probable que las grandes empresas ofrezcan acciones a los miembros de su consejo directivo que las empresas pequeñas o medianas? Una encuesta que realizó Segal Company de Nueva York encontró que en una muestra de 189 empresas grandes, 40 ofrecieron opciones de acciones a los miembros de su consejo directivo como parte de sus paquetes de compensación sin efectivo. Entre las compañías pequeñas y medianas, 43 de las 180 encuestadas indicaron que ofrecieron las opciones de acciones como parte de sus paquetes de compensación que no implicaban efectivo a los miembros de su consejo directivo (Kemba J. Dunham, “The Jungle: Focus on Recruitment, Pay and Getting Ahead”, The Wall Street Journal, 21 de agosto, 2001, B6). a. Si una empresa es grande, ¿cuál es la probabilidad de que ofrezca opciones de acciones a los miembros de su consejo directivo? b. Si la empresa es de pequeña a mediana, ¿cuál es la probabilidad de que ofrezca opciones de acciones a los miembros de su consejo directivo? c. ¿Es el tamaño de la empresa estadísticamente independiente de si se ofrecen opciones de acciones a los miembros del consejo directivo? Explique su respuesta. ASISTENCIA
de PH Grade
4.24 ¿Es más probable que los blancos presenten demandas por prejuicios? Una encuesta conducida por Barry Goldman (“White Fight: A Researcher Finds Whites Are More Likely to Claim Bias”, The Wall Street Journal, Work Week, 10 de abril, 2001, A1) encontró que de 56 trabajadores despedidos, 29 presentaron demandas por prejuicios. De 407 trabajadores negros despedidos, 126 demandaron por prejuicios. a. Si un trabajador es blanco, ¿cuál es la probabilidad de que haya presentado una demanda por prejuicios? b. Si un trabajador presentó una demanda por prejuicios, ¿cuál es la probabilidad de que sea blanco? c. Explique las diferencias en los resultados de los incisos a) y b). d. ¿Son los dos eventos “ser blanco” y “demandar por prejuicios” estadísticamente independientes? Explique su respuesta. 4.25 Se seleccionó una muestra de 500 encuestados en un área metropolitana grande para estudiar el comportamiento del consumidor. Los resultados fueron los siguientes: GÉNERO DISFRUTA COMPRANDO ROPA Sí No Total
Masculino
Femenino
Total
136 104 240
224 36 260
360 140 500
a. Suponga que el encuestado elegido es mujer. ¿Cuál es la probabilidad de que ella no disfrute de comprar ropa? b. Suponga que el encuestado elegido disfruta de comprar ropa. ¿Cuál es la probabilidad de que el individuo sea hombre? c. ¿Disfrutar comprando ropa y el género del individuo son eventos estadísticamente independientes? Explique su respuesta.
4.3: Teorema de Bayes
4.26 Cada año se compilan las clasificaciones respecto al desempeño de los autos nuevos durante los primeros 90 días de uso. Suponga que los autos se han clasificado de acuerdo a si el auto necesita una garantía relacionada con reparación (sí o no) y el país en el que la empresa manufacturera tiene su sede (Estados Unidos o fuera de Estados Unidos). Con base en los datos recabados, la probabilidad de que un auto nuevo necesite de una garantía de reparación es de 0.04, la probabilidad de que el auto sea manufacturado por una empresa con sede en Estados Unidos es de 0.60, y la probabilidad de que el auto nuevo necesite una garantía de reparación y haya sido manufacturado por una empresa con sede en Estados Unidos es de 0.025. a. Suponga que usted sabe que una empresa asentada en los Estados Unidos manufacturó el auto. ¿Cuál es la probabilidad de que el auto necesite una garantía de reparación? b. Suponga que sabe que una empresa con sede en Estados Unidos no manufacturó el auto. ¿Cuál es la probabilidad de que el auto necesite una garantía de reparación? c. ¿La necesidad de una garantía de reparación y la sede de la empresa que manufactura autos son estadísticamente independientes? 4.27 En 34 de los 54 años que van desde 1950 a 2003, S&P 500 terminó muy alto después de los primeros cinco días de transacciones. En 29 de esos 34 años S&P terminó alto durante el año. ¿Iniciar bien la primera semana es buen presagio para el año que vendrá? La siguiente tabla muestra el desempeño de la primera semana y el desempeño anual en este periodo de 54 años.
PRIMERA SEMANA
DESEMPEÑO ANUAL DE S&P 500 Alto Bajo
Alto Bajo
29 10
5 10
Fuente: Adaptado de Aaron Luchetti, “Stocks Enjoy a Good First Week”, The Wall Street Journal, 12 de enero, 2004, C1.
a. Si el año se selecciona al azar, ¿cuál es la probabilidad de que S&P haya terminado alto ese año?
4.3
139
b. Si S&P 500 terminó más alto después de los primeros cinco días de transacciones, ¿cuál es la probabilidad de que haya terminado alto en el año? c. ¿Los dos eventos, desempeño en la primera semana y desempeño anual, son estadísticamente independientes? Explique su respuesta. d. En 2004, S&P 500 estuvo arriba un 0.9% después de los primeros cinco días. Vea el desempeño anual del 2004 de S&P 500 en finance.yahoo.com. Comente los resultados. 4.28 Se usa un mazo de cartas tradicional para organizar un juego. Hay cuatro palos (corazones, diamantes, tréboles y espadas), cada uno tiene 13 cartas (as, 2, 3, 4, 5, 6, 7, 8, 9, 10, jack, reina y rey), que hacen un total de 52 cartas. Este mazo completo se baraja perfectamente y usted recibirá dos cartas del mazo sin reemplazo. a. ¿Cuál es la probabilidad de que ambas cartas sean reinas? b. ¿Cuál es la probabilidad de que la primera carta sea un 10 y la segunda carta sea un 5 o un 6? c. Si la muestra fuera con reemplazo, ¿cuál sería la respuesta al inciso a)? d. En el juego de blackjack, las cartas con figura (jack, reina, rey) valen 10 puntos y el as vale 1 u 11 puntos. Todas las demás cartas cuentan por su valor. Usted logra hacer blackjack si sus dos cartas totalizan 21 puntos. ¿Cuál es la probabilidad de obtener un blackjack en este problema? 4.29 Una caja de nueve guantes de golf contiene dos guantes para la mano izquierda y siete guantes para la mano derecha. Si dos guantes de la caja se seleccionan al azar sin reemplazo, ¿cuál es la probabilidad de que ambos guantes seleccionados sean para la mano derecha? Si dos guantes de la caja se seleccionan al azar sin reemplazo, ¿cuál es la probabilidad de que uno de los guantes seleccionados sea para la mano derecha y uno para la mano izquierda? Si se seleccionan con reemplazo tres guantes, ¿cuál es la probabilidad de que los tres guantes sean para la mano izquierda? Si la muestra fuera con reemplazo, ¿cuáles serían las respuestas para los incisos a) y b)?
ASISTENCIA
de PH Grade
a. b.
c. d.
TEOREMA DE BAYES El teorema de Bayes se utiliza para revisar probabilidades previamente calculadas cuando se posee nueva información. Desarrollado por el Reverendo Thomas Bayes en el siglo XVIII (vea la referencia 1), el teorema de Bayes es una extensión de lo que ha aprendido hasta ahora acerca de la probabilidad condicional. El teorema de Bayes se aplica a la siguiente situación. La empresa Consumer Electronics está considerando comercializar un nuevo modelo de televisor. En el pasado, el 40% de los equipos de televisión que la empresa lanzó al mercado tuvieron éxito y el 60% no fueron exitosos. Antes de lanzar al mercado el equipo de televisión, el departamento de investigación de mercados realiza un extenso estudio y entrega un reporte, ya sea favorable o desfavorable. En el pasado, el 80% de los equipos de televisión exitosos habían recibido un reporte de investigación favorable y el 30% de los equipos de televisión no exitosos habían recibido un reporte de investigación favorable. Para los nuevos modelos de televisión bajo consideración, el departamento de investigación de mercado ha entregado un reporte favorable. ¿Cuál es la probabilidad de que el equipo de televisión tenga éxito en el mercado?
140
CAPÍTULO 4 Probabilidad básica
El teorema de Bayes se desarrolla a partir de la definición de la probabilidad condicional. Para encontrar la probabilidad condicional de B dado A, considere la ecuación (4.4b) [que se presentó en la página 132 y que de nuevo se reproduce]: P( B A)
P( A y B) P( A)
P( A B) P( B) P( A)
El teorema de Bayes se obtiene por sustitución de la ecuación (4.8) en la página 137 para P(A) en la ecuación de arriba.
TEOREMA DE BAYES P ( Bi A ) =
P ( A Bi ) P ( Bi ) P ( A B1 ) P ( B1 ) + P ( A B2 )P ( B2 ) + + P ( A Bk )P ( Bk )
(4.9)
donde Bi es el i-ésimo evento de los k eventos mutuamente excluyentes y colectivamente exhaustivos. Para usar la ecuación (4.9) para el ejemplo del televisor comercializado, sea evento S = equipo de televisión exitoso
evento F = reporte favorable
evento S ′ = equipo de televisión no exitoso
evento F′ = reporte desfavorable
y P( S ) = 0.40
P( F S ) = 0.80
P( S ′ ) = 0.60
P( F S ′ ) = 0.30
Entonces, al utilizar la ecuación (4.9), P(S F) =
P( F S ) P( S ) P( F S ) P( S ) + P( F S ′ ) P( S ′ )
=
(0.80)(0.40) (0.80)(0.40) + (0.30)(0.60)
=
0.32 0.32 = 0.32 + 0.18 0.50
= 0.64
La probabilidad de un equipo de televisión exitoso, dado que se recibió un reporte favorable, es de 0.64. Así pues, la probabilidad de un equipo de televisión no exitoso, dado que se recibió un reporte favorable, es de 1 − 0.64 = 0.36. La tabla 4.4 resume el cálculo de las probabilidades y la figura 4.5 presenta el árbol de decisión.
TABLA 4.4 Cálculo del teorema de Bayes para el ejemplo de la comercialización del televisor
Evento Si S = equipo de televisión exitoso S′ = equipo de televisión no exitoso
Probabilidad previa P(Si)
Probabilidad condicional P(F | Si)
Probabilidad conjunta P(F | Si)P(Si)
Probabilidad revisada P(Si | F)
0.40 0.60
0.80 0.30
0.32 0.18 0.50
0.32/0.50 = 0.64 = P(S | F) 0.18/0.50 = 0.36 = P(S′ | F)
4.3: Teorema de Bayes
FIGURA 4.5 Árbol de decisión para la comercialización del nuevo equipo de televisión.
141
P(S y F ) = P(F|S ) P(S) = (0.80) (0.40) = 0.32 P(S ) = 0.40 P(S y F ′) = P(F′|S) P(S) = (0.20) (0.40) = 0.08
P(S′ y F ) = P(F|S′) P(S′) = (0.30) (0.60) = 0.18 P(S′) = 0.60 P(S′ y F ′) = P(F′|S′) P(S′) = (0.70) (0.60) = 0.42
El ejemplo 4.10 aplica el teorema de Bayes a un problema de diagnóstico médico.
EJEMPLO 4.10
USO DEL TEOREMA DE BAYES EN UN PROBLEMA DE DIAGNÓSTICO MÉDICO La probabilidad de que una persona tenga una determinada enfermedad es de 0.03. Existen pruebas de diagnóstico médico disponibles para determinar si una persona tiene realmente la enfermedad. Si la enfermedad realmente está presente, la probabilidad de que la prueba de diagnóstico médico dé un resultado positivo (indicando la presencia de la enfermedad) es de 0.90. Si la enfermedad no está presente, la probabilidad de obtener un resultado positivo (indicando la presencia de la enfermedad) es de 0.02. Suponga que la prueba de diagnóstico médico dio un resultado positivo (indicando la presencia de la enfermedad). ¿Cuál es la probabilidad de que la enfermedad esté realmente presente? ¿Cuál es la probabilidad de un resultado positivo? SOLUCIÓN Sea evento D = tiene la enfermedad y
evento D′ = no tiene la enfermedad
evento T = la prueba es positiva evento T′ = la prueba es negativa
P(D) = 0.03
P(T | D) = 0.90
P(D′) = 0.97
P(T | D′) = 0.02
Al emplear la ecuación (4.9) de la página 140, P( D T ) =
P (T D )P ( D ) P (T D )P ( D ) + P (T D ′ )P ( D ′ )
=
( 0.90 )(0.03) ( 0.90 )(0.03) + ( 0.02 )(0.97 )
=
0.0270 0.0270 = 0.0270 + 0.0194 0.0464
= 0.582
La probabilidad de que la enfermedad esté realmente presente dado que un resultado positivo ha ocurrido (indicando la presencia de la enfermedad) es de 0.582. La tabla 4.5 resume el cálculo de las probabilidades y la figura 4.6 presenta el árbol de decisión.
142
CAPÍTULO 4 Probabilidad básica
TABLA 4.5 Cálculos del teorema de Bayes para el problema de diagnóstico médico
Evento Di D = tiene la enfermedad D′ = no tiene la enfermedad
Probabilidad previa P(Di)
Probabilidad condicional P(T | Di)
Probabilidad conjunta P(T | Di)P(Di)
Probabilidad revisada P(Di | T)
0.03 0.97
0.90 0.02
0.0270 0.0194 0.0464
0.0270/0.0464 = 0.582 = P(D | T) 0.0194/0.0464 = 0.418 = P(D′ | T)
FIGURA 4.6 Árbol de decisión para el problema de diagnóstico médico.
P(D y T ) = P(T |D) P(D) = (0.90) (0.03) = 0.0270 P(D) = 0.03 P(D y T ′) = P(T ′|D) P(D) (0.10) (0.03) = 0.0030
P(D′ y T ) = P(T |D′) P(D′) (0.02) (0.97) = 0.0194 P(D′) = 0.97 P(D′ y T ′) = P(T ′|D′) P(D′) (0.98) (0.97) = 0.9506
El denominador en el teorema de Bayes representa P(T), la probabilidad de un resultado positivo en la prueba, el cual en este caso es de 0.0464 o un 4.64%.
PROBLEMAS PARA LA SECCIÓN 4.3 Aprendizaje básico ASISTENCIA
de PH Grade ASISTENCIA
de PH Grade
4.30 Si P(B) = 0.05, P(A | B) = 0.80, P(B) = 0.95, y P(A | B) = 0.40, encuentre P(B | A). 4.31 Si P(B) = 0.30, P(A | B) = 0.60, P(B) = 0.70, y P(A | B) = 0.50, encuentre P(B | A).
Aplicación de conceptos 4.32 En el ejemplo 4.10 de la página 141, suponga que la probabilidad de que la prueba de diagnóstico médico dé un resultado positivo si la enfermedad no está presente se reduce de 0.02 a 0.01. A partir de esta información, a. Si la prueba de diagnóstico médico ha resultada positiva (indicando la presencia de la enfermedad), ¿cuál es la probabilidad de que la enfermedad esté realmente presente? b. Si la prueba de diagnóstico médico ha dado un resultado negativo (indicando que la enfermedad no está presente), ¿cuál es la probabilidad de que la enfermedad no esté presente?
4.33 Un directivo de publicidad estudia los hábitos de ver televisión de hombres y mujeres casados durante las horas de mayor audiencia. Con base en los registros anteriores, el directivo ha determinado que durante las horas de mayor audiencia los maridos ven televisión el 60% del tiempo. Cuando el marido ve televisión, la esposa también lo hace el 40% del tiempo. Cuando el marido no ve televisión, la esposa ve televisión el 30% del tiempo. Encuentre la probabilidad de que a. si la esposa ve televisión, el esposo también lo haga. b. la esposa vea televisión durante las horas de mayor audiencia. ASISTENCIA
de PH Grade
AUTO Examen
4.34 La empresa Olive Construction está determinando si debería presentar una oferta para un nuevo centro comercial. En el pasado, el principal competidor de Olive, la empresa Base Construction, ha propuesto ofertas el 70% del tiempo. Si Base Construction no presenta ofertas para un trabajo, la probabilidad de que Olive Construction obASISTENCIA
de PH Grade
4.4: Reglas de conteo
tenga el trabajo es de 0.50. Si Base Construction propone una oferta para el trabajo, la probabilidad de que Olive Construction obtenga el trabajo es de 0.25. a. Si la empresa Olive Construction obtiene el trabajo, ¿cuál es la probabilidad de que la empresa Base Construction no haya propuesto una oferta? b. ¿Cuál es la probabilidad de que la empresa Olive Construction obtenga el trabajo? 4.35 Los trabajadores despedidos que se volvieron empresarios porque no encontraron empleo en otra empresa se conocen como empresarios por necesidad. El Wall Street Journal reporta que estos empresarios tienen menos posibilidad de crecimiento en los grandes negocios que los empresarios por elección (Jeff Bailey, “Desire—More Than Need—Builds a Business”, The Wall Street Journal, 21 de mayo, 2001, B4). Este artículo establece que el 89% de los empresarios en Estados Unidos lo son por elección y que el 11% son empresarios por necesidad. Sólo el 2% de los empresarios por necesidad esperan que su nuevo negocio dé empleo a 20 o más personas dentro de los siguientes cinco años, mientras que el 14% de los empresarios por elección esperan emplear por lo menos a 20 personas dentro de los siguientes cinco años. a. Si se selecciona al azar a un empresario y éste espera que su nuevo negocio emplee a 20 o más personas dentro de los siguientes cinco años, ¿cuál es la probabilidad de que este individuo sea un empresario por elección? b. Discuta las posibles razones por las que los empresarios por elección tienen más posibilidades de creer que sus negocios crecerán. 4.36 El editor de una empresa editorial de libros de texto está tratando de decidir si publicar un libro de texto propuesto de es-
4.4
143
tadística en los negocios. Información sobre los libros de texto previamente publicados indica que el 10% tiene un enorme éxito, el 20% tiene un éxito moderado, el 40% ni gana ni pierde y el 30% fracasa. Sin embargo, antes de tomar la decisión de publicar, el libro se revisa. En el pasado, el 99% de los libros exitosos recibieron revisiones favorables, el 70% de los de éxito moderado recibieron revisiones favorables, el 40% de los que ni ganaron ni perdieron recibieron revisiones favorables, y el 20% de los que fracasaron recibieron revisiones favorables. a. Si el texto propuesto recibió revisiones favorables, ¿cómo debe revisar el editor las probabilidades de los diferentes resultados para tomar en cuenta esta información? b. ¿Qué proporción de libros de texto reciben revisiones favorables? 4.37 Un servicio municipal de títulos tiene tres categorías de clasificación (A, B y C ). Suponga que el año pasado, de los títulos municipales distribuidos a lo largo de Estados Unidos, el 70% entró en la categoría A, el 20% entró en la categoría B, y el 10% se consideró como C. De los títulos municipales clasificados en A, el 50% se distribuyó en ciudades, el 40% en suburbios y el 10% en áreas rurales. De los títulos municipales clasificados como B, el 60% se distribuyó en ciudades, el 20% en suburbios y el 20% en áreas rurales. De los títulos municipales clasificados como C, el 90% se distribuyó en ciudades, el 5% en suburbios y el 5% en áreas rurales. a. Si un nuevo título municipal va a distribuirse en una ciudad, ¿cuál es la probabilidad de que reciba una clasificación A? b. ¿Qué proporción de títulos municipales se distribuye en ciudades? c. ¿Qué proporción de títulos municipales se distribuye en suburbios?
REGLAS DE CONTEO En la ecuación (4.1) de la página 123, la probabilidad de ocurrencia de un resultado se definió como el número de formas en las que el resultado ocurre, dividido por el número total de resultados posibles. En muchos casos, hay un gran número de posibles resultados y es difícil determinar el número exacto. En estas circunstancias se han desarrollado las reglas para contar el número posible de resultados. En este apartado se presentan cinco diferentes reglas de conteo.
REGLA DE CONTEO 1 Si cualquiera de los eventos k mutuamente excluyentes y colectivamente exhaustivos pueden ocurrir en cada uno de los ensayos n, el número de posibles resultados es igual a kn
EJEMPLO 4.11
(4.10)
REGLA DE CONTEO 1 Suponga que se lanza una moneda al aire cinco veces. ¿Cuál es el número de diferentes resultados posibles (la secuencia de caras y cruces)? SOLUCIÓN Si se lanza al aire una moneda (que tiene dos lados) cinco veces, con la ecuación (4.10), el número de resultados es 25 = 2 × 2 × 2 × 2 × 2 = 32.
144
CAPÍTULO 4 Probabilidad básica
EJEMPLO 4.12
LANZAR UN DADO DOS VECES Suponga que se lanza un dado dos veces. ¿Cuántos posibles resultados diferentes pueden ocurrir? SOLUCIÓN Si un dado (con seis caras) se lanza dos veces, con la ecuación (4.10), el número de resultados diferentes es 62 = 36. La segunda regla de conteo es una versión más general que la primera y permite al número posible de eventos de diferir de ensayo a ensayo.
REGLA DE CONTEO 2 Si hay k1 eventos en el primer ensayo, k2 eventos en el segundo ensayo, ... y kn eventos en el n-ésimo ensayo, entonces el número posible de resultados es (k1)(k2) ... (kn)
EJEMPLO 4.13
(4.11)
REGLA DE CONTEO 2 Un departamento estatal de vehículos automotores desea saber cuántos números para las placas están disponibles si las placas incluyen tres letras seguidas por tres números. SOLUCIÓN Mediante la ecuación (4.11), se sabe que si una placa incluye tres letras seguidas por tres números (0 hasta 9), el número total de resultados posibles es (26)(26)(26)(10)(10)(10) = 17,576,000.
EJEMPLO 4.14
DETERMINAR EL NÚMERO DE DIFERENTES CENAS El menú de un restaurante tiene un precio fijo para las cenas completas que consisten en un aperitivo, un platillo principal, una bebida y un postre. Se tiene la posibilidad de elegir entre cinco aperitivos, 10 platillos, tres bebidas y seis postres. Determine el número total de cenas posibles. SOLUCIÓN Mediante la ecuación (4.11), se sabe que el número total de cenas posibles es (5)(10)(3)(6) = 900. La tercera regla de conteo está relacionada con el cálculo del número de maneras en las que un conjunto de cosas puede arreglarse en orden.
REGLA DE CONTEO 3 El número de maneras en el que las n cosas pueden arreglarse en orden es n! = (n)(n − 1) ... (1)
(4.12)
donde n! se llama el factorial de n y 0! se define como 1.
EJEMPLO 4.15
REGLA DE CONTEO 3 Si un conjunto de seis libros de texto se colocan en una repisa, ¿de cuántas formas es posible ordenar estos seis libros de texto? SOLUCIÓN Para empezar, hay que precisar que cualquiera de los seis libros podría ocupar la primera posición en la repisa. Una vez que se llene la primera posición, hay cinco libros a elegir para
4.4: Reglas de conteo
145
llenar la segunda. Se continúa con este procedimiento de asignación hasta que todas las posiciones estén ocupadas. El número de formas en las que es posible acomodar los seis libros es n! = 6! = (6)(5)(4)(3)(2)(1) = 720 En muchos casos se necesita saber el número de formas en las que un subconjunto de un grupo completo de cosas puede arreglarse en orden. Cada posible arreglo es llamado permutación.
REGLA DE CONTEO 4 Permutaciones: El número de maneras para arreglar X objetos seleccionados de n objetos en orden es n PX
EJEMPLO 4.16
=
n! ( n − X )!
(4.13)
REGLA DE CONTEO 4 Si se modifica el ejemplo 4.15, y entonces tenemos seis libros de texto pero sólo hay espacio para cuatro libros en la repisa, ¿de cuántas maneras es posible acomodar estos libros en la repisa? SOLUCIÓN Con la ecuación (4.13), se sabe que el número de arreglos ordenados de cuatro libros seleccionados de seis libros es igual a n PX
=
n! 6! (6 )(5)( 4 )(3)(2 )(1) = = = 360 (n − X )! (6 − 4)! ( 2 )(1)
En muchas situaciones no interesa el orden de los resultados, sino sólo el número de maneras en las que X objetos pueden seleccionarse a partir de n cosas, sin consideración de orden. Esta regla se llama la regla de las combinaciones.
REGLA DE CONTEO 5 Combinaciones: El número de maneras de seleccionar X objetos a partir de n objetos, sin considerar el orden, es igual a nC X
=
n! X !(n − X )!
(4.14)
Al comparar esta regla con la anterior, se observa que difiere sólo en la inclusión del término X! en el denominador. Cuando se usan las permutaciones, todos los arreglos de los X objetos son distinguibles. Con las combinaciones, los X! posibles arreglos de objetos son irrelevantes.
EJEMPLO 4.17
REGLA DE CONTEO 5 Se modifican el ejemplo 4.16, de manera que el orden de los libros en la repisa sea irrelevante, ¿de cuántas maneras es posible arreglar estos libros en la repisa? SOLUCIÓN Al utilizar la ecuación (4.14), se sabe que el número de combinaciones de cuatro libros seleccionados de seis libros es igual a nC X
=
n! 6! (6)(5)( 4 )(3)(2)(1) = = = 15 X !(n − X )! 4!(6 − 4)! ( 4 )(3)(2 )(1)(2 )(1)
146
CAPÍTULO 4 Probabilidad básica
PROBLEMAS PARA LA SECCIÓN 4.4 Aplicación de conceptos AUTO Examen
4.38 Si hay 10 preguntas de opción múltiple en un examen, cada una con tres posibles respuestas, ¿cuántas diferentes secuencias de respuestas hay?
4.39 La cerradura de la bóveda de un banco consta de tres discos, cada uno con 30 posiciones. Para que la bóveda abra, cada uno de los tres discos debe de estar en la posición correcta. a. ¿Cuántas posibles “combinaciones de disco” diferentes hay para esta cerradura? b. ¿Cuál es la probabilidad de que, si se selecciona al azar la posición de cada disco, se abra la bóveda del banco? c. Explique por qué las “combinaciones de disco” no son combinaciones matemáticas que se expresen con la ecuación (4.14). 4.40 a. Si se lanza al aire una moneda siete veces, ¿cuántos resultados diferentes son posibles? b. Si se lanza un dado siete veces, ¿cuántos resultados diferentes son posibles? c. Discuta las diferencias en sus respuestas a los incisos a) y b). 4.41 Una marca de jeans para dama está disponible en siete tallas, tres diferentes colores y tres diferentes estilos. ¿Cuántos diferentes pares de jeans debe ordenar el administrador para tener un par de cada tipo? AUTO Examen
4.42 A usted le gustaría hacer una ensalada que contenga lechuga, jitomate, pepino y germinados. Se dirige hacia el supermercado con el fin de comprar un tipo de cada uno de estos ingredientes. Ahí descubre que existen ocho tipos de lechuga, cuatro tipos de jitomates, tres tipos de pepinos y tres tipos de germinados en venta. ¿Cuántos tipos diferentes de ensaladas tiene para elegir? AUTO Examen
4.43 Si cada letra se utiliza una vez, ¿cuántas “palabras” diferentes de cuatro letras es posible formar con las letras E, L, O y V?
4.5
4.44 En la Liga Mayor de Béisbol hay cinco equipos en la División Occidental de la Liga Nacional: Arizona, Los Ángeles, San Francisco, San Diego y Colorado. ¿Cuántos diferentes órdenes de terminar hay para estos cinco equipos? ¿Piensa que todos estos órdenes son igualmente posibles? Discuta su respuesta. 4.45 En relación con el problema 4.44, ¿cuántos diferentes órdenes de terminar son posibles para las primeras cuatro posiciones? 4.46 Un jardinero tiene seis filas disponibles en su jardín para colocar tomates, berenjena, pimientos, pepinos, frijoles y lechuga. A cada vegetal le asignará una y sólo una fila. ¿Cuántas formas hay de ordenar los vegetales en este jardín? 4.47 El gran premio Big Triple, en la pista de carreras local, consiste en elegir el orden correcto de llegada para los tres primeros caballos de la novena carrera. Si hay 12 caballos inscritos en la novena carrera de hoy, ¿cuántos resultados Big Triple habrá? AUTO Examen
4.48 La Quiniela, en la pista local de carreras, consiste en elegir los caballos que llegarán en primero y segundo lugares en una carrera sin consideración del orden. Si ocho caballos están inscritos en la carrera, ¿cuántas combinaciones de quiniela habrá? 4.49 Un estudiante tiene siete libros que quisiera colocar en un estuche. Sin embargo, en él sólo caben cuatro libros. Sin importar el orden, ¿cuántas formas hay de colocar los cuatro libros en el estuche? AUTO Examen
4.50 En una lotería diaria los dos números ganadores se seleccionan de entre 100 números. ¿Cuántas posibles combinaciones de números ganadores son posibles? 4.51 Una lista de lecturas para un curso contiene 20 artículos. Cuántas formas diferentes hay para elegir tres artículos de esta lista?
CONSIDERACIONES ÉTICAS Y PROBABILIDAD Los problemas éticos surgen cuando cualquier afirmación acerca de la probabilidad se presenta ante el público, particularmente cuando estas afirmaciones forman parte de una campaña de publicidad para un producto o servicio. Por desgracia, mucha gente no se siente a gusto con los conceptos numéricos (vea la referencia 3 al final del capítulo) y tiende a malinterpretar el significado de la probabilidad. En algunos casos, la mala interpretación no es intencional, pero en otros, la publicidad trata de engañar al cliente potencial, lo que constituye una falta de ética. Un ejemplo de la aplicación potencialmente no ética de la publicidad se relaciona con la publicidad para las loterías estatales. Cuando una persona compra un billete de lotería, selecciona un conjunto de números (por ejemplo, 6) de una lista mayor de números (como 54). Aunque virtualmente todos los participantes saben que tienen muy pocas posibilidades de ganar la lotería, también tienen muy poca idea de qué tan improbable es que ellos seleccionen los 6 números ganadores de la lista de 54 números. Tienen una idea aún mucho menor de la probabilidad de ganar un premio de consolación si aciertan a 4 o 5 de los números ganadores.
Fórmulas importantes
147
Con estos antecedentes, podría detenerse a considerar como engañoso y posiblemente no ético el reciente comercial de una lotería estatal que afirmaba: “No pararemos hasta que hagamos de cada uno un millonario”. Como la lotería aporta millones de dólares a la tesorería estatal, el Estado nunca dejará de permitirla, aunque en la vida nadie podrá estar seguro de volverse millonario al ganar la lotería. Otro ejemplo de una aplicación potencialmente no ética de la publicidad se relaciona con una carta de inversión que promete un 90% de probabilidad de obtener una ganancia del 20% anual sobre la inversión. Para que el reclamo de la carta fuera ético, el servicio de inversión necesita a) explicar la base de esta estimación de probabilidad, b) hacer la afirmación de probabilidad en otro formato, tal como 9 oportunidades en 10, y c) explicar qué sucede a la inversión en el 10% de los casos en los que no se logra una ganancia del 20% (por ejemplo, ¿se pierde la inversión?).
PROBLEMAS PARA LA SECCIÓN 4.5 Aplicación de conceptos 4.52 Escriba un mensaje publicitario para la lotería estatal que describa de forma ética la probabilidad de ganar.
4.53 Escriba un mensaje publicitario para la carta de inversión, que afirme éticamente la probabilidad de obtener una ganancia del 20%.
RESUMEN En este capítulo se desarrollaron conceptos concernientes a la probabilidad básica, la probabilidad condicional, el teorema de Bayes y las reglas de conteo. En el siguiente capítulo se desa-
rrollarán importantes distribuciones de probabilidad discreta, como la distribución binomial y la distribución de Poisson.
F Ó R M U L A S I M P O R TA N T E S Probabilidad de ocurrencia
X Probabilidad de ocurrencia = T
(4.1)
Probabilidad marginal
P(A) = P(A y B1) + P(A y B2) + … + P(A y Bk) (4.2) Regla general de la adición P(A o B) = P(A) + P(B) − P(A y B)
(4.3)
Probabilidad condicional P ( A y B) (4.4a) P( A B) = P( B) P ( A y B) (4.4b) P( B A) = P( A) Independencia estadística P(A | B) = P(A) (4.5) Regla general de la multiplicación
Probabilidad marginal usando la regla general de la multiplicación P(A) = P(A | B1)P(B1) + P(A | B2)P(B2) + … + P(A | Bk)P(Bk) Teorema de Bayes P( Bi A) =
P( A Bi ) P( Bi ) P( A B1) P( B1) + P( A B2 ) P( B2 ) + + P( A Bk ) P( Bk )
Regla de conteo 1 kn
(4.10)
Regla de conteo 2 (k1)(k2) . . . (kn)
n! = (n)(n − 1) … (1)
Regla de la multiplicación para eventos independientes P(A y B) = P(A)P(B) (4.7)
Combinaciones
(4.6)
(4.11)
Factoriales Permutaciones n! n PX = (n − X )!
P(A y B) = P(A | B)P(B)
(4.8)
nC X
=
(4.12)
(4.13)
n! X !(n − X )!
(4.14)
(4.9)
148
CAPÍTULO 4 Probabilidad básica
C O N C E P T O S C L AV E Árbol de decisión 133 Colectivamente exhaustivo Combinaciones 149 Complemento 124 Diagrama de Venn 125 Espacio muestral 124 Evento 124 Evento conjunto 124 Evento imposible 123 Evento seguro 123 Evento simple 124
128
Independencia estadística 135 Intersección 125 Mutuamente excluyentes 128 Permutación 145 Probabilidad 122 Probabilidad clásica a priori 123 Probabilidad clásica empírica 123 Probabilidad condicional 131 Probabilidad conjunta 127 Probabilidad marginal 126 Probabilidad simple 126
Probabilidad subjetiva 123 Regla de multiplicación para eventos independientes 136 Regla general de la adición 128 Regla general de la multiplicación 136 Tabla de clasificaciones cruzadas 125 Tabla de contingencia 125 Teorema de Bayes 139 Unión 125
P R O B L E M A S D E R E PA S O Revisión de su comprensión 4.54 ¿Cuáles son las diferencias entre la probabilidad clásica a priori, la probabilidad clásica empírica y la probabilidad subjetiva? 4.55 ¿Cuál es la diferencia entre un evento simple y un evento conjunto? 4.56 ¿Cómo se utiliza la regla de la adición para encontrar la probabilidad de ocurrencia de un evento A o B? 4.57 ¿Cuál es la diferencia entre los eventos mutuamente excluyentes y los eventos colectivamente exhaustivos? 4.58 ¿Cómo es que se relaciona la probabilidad condicional con el concepto de independencia estadística? 4.59 ¿Cómo difiere la regla de la multiplicación para eventos que son independientes y para aquellos que no lo son? 4.60 ¿Cómo se utiliza el teorema de Bayes para revisar las probabilidades a la luz de una nueva información? 4.61 ¿Cuál es la diferencia entre una permutación y una combinación?
Aplicación de conceptos 4.62 Una compañía embotelladora de bebidas refrescantes mantiene registros concernientes al número de botellas inaceptables de las máquinas de llenado y sellado. Con base en datos anteriores, la probabilidad de que una botella provenga de la máquina I y sea no aceptable es de 0.01, y la probabilidad de que una botella provenga de la máquina II y sea no aceptable es de 0.025. La mitad de las botellas se llenan en la máquina I y la otra mitad se llena en la máquina II. Si se selecciona al azar una botella, ¿cuál es la probabilidad de que a. sea una botella no aceptable? b. haya sido llenada en la máquina I y sea una botella aceptable?
c. haya sido llenada en la máquina I o sea una botella aceptable? d. Suponga que sabe que la botella fue llenada en la máquina I. ¿Cuál es la probabilidad de que sea no aceptable? e. Suponga que sabe que la botella es no aceptable.¿Cuál es la probabilidad de que haya sido llenada en la máquina I? f. Explique la diferencia en las respuestas de los incisos d) y e). (Sugerencia: Realice una tabla de contingencia 2 × 2 o un diagrama de Venn para evaluar las probabilidades.) 4.63 Una encuesta preguntó a trabajadores qué aspectos de su actividad laboral eran extremadamente importantes. Los resultados en porcentajes son los siguientes:
¿Es el aspecto excesivamente importante? Aspecto del trabajo Buena relación con el jefe Equipo actualizado Recursos para hacer el trabajo Facilidad para llegar Horario flexible Posibilidad de trabajar en casa
Hombres
Mujeres
63% 59 55 48 40 21
77% 69 74 60 53 34
Fuente: “Snapshot”, USA Today, l5 de mayo, 2000.
Suponga que la encuesta se basa en las respuestas de 500 hombres y 500 mujeres. Elabore una tabla de contingencia para las diferentes respuestas concernientes a cada aspecto del trabajo. Si quien responde es elegido al azar, ¿cuál es la probabilidad de que a. él o ella sientan que tener una buena relación con el jefe es un aspecto importante del trabajo? b. él o ella sientan que llegar fácilmente es un aspecto importante del trabajo? c. la persona sea hombre y sienta que una buena relación con el jefe es un aspecto importante del trabajo?
Problemas de repaso
d. la persona sea mujer y sienta que tener flexibilidad en las horas es un aspecto importante del trabajo? e. Dado que la persona siente que tener una buena relación con el jefe es un aspecto importante del trabajo, ¿cuál es la probabilidad de que la persona sea hombre? f. ¿Las cosas que los trabajadores dicen que son extremadamente importantes del trabajo son estadísticamente independientes del género de quien responde? Explique por qué. 4.64 Muchas empresas usan sitios Web para llevar a cabo transacciones de negocios, tales como tomar órdenes o realizar intercambios financieros. Estos sitios se llaman sitios Web de transacciones públicas. Un análisis de 490 firmas listadas en el Fortune 500 identifica a las firmas con base en su nivel de ventas y en función de si la firma tiene o no un sitio Web de transacciones públicas (D. Young, y J. Benamati, “A Cross-Industry Analysis of Large Firm Transactional Public Web Sites”, Mid American Journal of Business, 19(2994), 37-46). Los resultados de este análisis se muestran en la siguiente tabla. SITIO WEB DE TRANSACCIONES PÚBLICAS VENTAS (EN MILLONES DE DÓLARES)
Sí
No
Mayores a $10 mil millones Hasta $10 mil millones
71 99
88 232
a. Dé un ejemplo de un evento simple y de un evento conjunto. b. ¿Cuál es la probabilidad de que una firma en el Fortune 500 tenga un sitio Web de transacciones públicas? c. ¿Cuál es la probabilidad de que una firma en el Fortune 500 tenga ventas que superen los 10,000 millones de dólares y un sitio Web de transacciones públicas? d. ¿Los eventos ventas que superan los 10,000 millones de dólares y tiene un sitio Web de transacciones públicas son independientes? Explique por qué. 4.65 El dueño de un restaurante que sirve platillos estilo Continental, está interesado en estudiar los patrones de órdenes de los clientes para el periodo de fin de semana que va de viernes a domingo. Se llevaron registros que indican la demanda de postre durante el mismo periodo de tiempo. El dueño decidió estudiar otras dos variables junto con si ordenan o no un postre: el género del individuo y si ordenó o no el platillo de res. Los resultados son los siguientes: GÉNERO ORDENÓ POSTRE Sí No Total
Femenino
Total
96 224 320
40 240 280
136 464 600
PLATILLO DE RES ORDENÓ POSTRE Sí No Total
Un mesero se aproxima a una mesa para tomar la orden. ¿Cuál es la probabilidad de que el primer cliente que ordene en la mesa a. ordene un postre? b. ordene un postre o una entrada de res? c. sea mujer y no ordene postre? d. sea mujer o no ordene postre? e. Suponga que la primera persona a la que el mesero toma la orden de postre es mujer. ¿Cuál es la probabilidad de que ella no ordene postre? f. ¿El género y ordenar postre son eventos estadísticamente independientes? g. ¿Ordenar un platillo de res es un evento estadísticamente independiente de si la persona ordena o no postre? 4.66 Correos electrónicos que contienen publicidad comercial no solicitada, llamados spam, son borrados de forma rutinaria por el 80% de los usuarios antes de leerlos. Además, un pequeño porcentaje de quienes leen los spam continúan con el proceso y compran artículos. Sin embargo, muchas empresas usan esta publicidad no solicitada porque el costo es extremadamente bajo. Movies Unlimited es una empresa de Filadelfia que trabaja en la venta de videos y DVD vía correo electrónico, y es una de las que tienen más éxito generando ventas a través de esta forma de mercadeo. Ed Weiss, gerente general de Movies Unlimited, estima que entre el 15 y 20% de sus receptores de correos electrónicos leen la publicidad. Más aún, aproximadamente el 15% de quienes leen la publicidad hacen un pedido (Stacy Forster, “E-Marketers Look to Polish Spam´s Rusty Image”, The Wall Street Journal, 22 de mayo, 2002, D2). a. De acuerdo con la estimación más baja de Weiss referente a que la probabilidad de que un receptor lea la publicidad es de 0.15, ¿cuál es la probabilidad de que el receptor lea la publicidad y haga un pedido? b. La empresa Movies Unlimited usa una base de datos de 175,000 clientes para enviar publicidad por correo electrónico. Si se envía publicidad por esta vía a cada cliente de la base de datos, ¿cuántos clientes se espera que lean la publicidad y hagan un pedido? c. Si la probabilidad de que un receptor lea la publicidad es de 0.20, ¿cuál es la probabilidad de que el receptor lea la publicidad y haga un pedido? d. ¿Cuál sería su respuesta al inciso b) si se supone que la probabilidad de que un receptor lea la publicidad es de 0.20? 4.67 En febrero de 2002, el peso argentino perdió el 70% de su valor en relación con el dólar de Estados Unidos. Esta devaluación incrementó drásticamente el precio de los productos de importación. De acuerdo con una encuesta conducida por AC Nielsen en abril de 2002, el 68% de los clientes en Argentina compraban menos productos que antes de la devaluación, el 24% compraba el mismo número de productos y el 8% compraba más productos. Además, en una tendencia hacia la compra de marcas menos caras, el 88% indicó que habían cambiado las marcas que compraban. (Michelle Wallin, “Argentines Hone Art of Shopping in a Crisis”, The Wall Street Journal, 28 de mayo, 2002, A15.) Suponga que se reportó el siguiente conjunto de resultados. ASISTENCIA
Masculino
Sí
No
Total
71 116 187
65 348 413
136 464 600
149
de PH Grade
150
CAPÍTULO 4 Probabilidad básica
MARCAS COMPRADAS La misma Cambió Total
NÚMERO DE PRODUCTOS COMPRADOS Menos Igual Más Total 10 262 272
14 82 96
24 8 32
48 352 400
¿Cuál es la probabilidad de que un cliente seleccionado al azar: a. compre menos productos que antes? b. compre el mismo número o más productos que antes? c. compre menos productos y cambie de marca? d. Si el cliente cambió las marcas que compraba, ¿cuál es la probabilidad de que compre menos productos que antes? e. Compare los resultados del inciso a) con los del d). 4.68 Los vehículos utilitarios deportivos (SUV), camionetas y pick-ups son generalmente más propensos a volcarse que otros autos. En 1997, el 24.0% de los accidentes en carretera implicaron una volcadura; en el 15.8% de todos los accidentes en ese año estuvieron implicadas SUV, camionetas y pick-ups. Cuando los accidentes no implicaban volcaduras, en el 5.6% de todos ellos participaron SUV, camionetas y pick-ups (Anna Wilde Mathews, “Ford Ranger, Chevy Tracker Tilt in Test”, The Wall Street Journal, l4 de julio, 1999, A2). Considere las siguientes definiciones: ASISTENCIA
de PH Grade
A = Una SUV, camioneta o pick-up que participan en accidentes. B = Un accidente que implicó una volcadura. a. Utilice el teorema de Bayes para encontrar la probabilidad de que el accidente haya implicado una volcadura, dado que participó una SUV, camioneta o pick-up. b. Compare los resultados del inciso a) con la probabilidad de que el accidente haya implicado una volcadura, y comente si las SUV, camionetas y pick-ups son más propensas a sufrir accidentes por volcadura. 4.69 La prueba de ELISA (prueba de enzimas ligadas al inmunosorbente es el tipo más común de prueba de monitoreo para detectar el VIH. Un resultado positivo de una prueba ELISA indica la presencia del VIH. La prueba de ELISA tiene un alto grado de sensibilidad (para detectar la infección) y de especificidad (para detectar la no infección). (Visite el sitio HIVInsite, en HIVInsite.ucsf.edu/.) Suponga que la probabilidad de que una persona esté infectada con el VIH para una determinada población es de 0.015. Si el VIH está realmente presente, la probabilidad de que la prueba de ELISA dé un resultado positivo es de 0.995. Si el VIH no está realmente presente, la probabilidad de un resultado positivo en la prueba de ELISA es de 0.01. Use el teorema de Bayes para encontrar la probabilidad de que el VIH esté realmente presente si la prueba de ELISA da un resultado positivo. ASISTENCIA
de PH Grade
CASO WEB Aplique sus conocimientos acerca de las tablas de contingencia y de la aplicación apropiada de las probabilidades simple y conjunta en la continuación del Caso Web del capítulo 3. Visite la página Web StockTout Guaranteed Investment Package en www.prenhall.com/Springville/ST_Guaranteed.htm.Lea las quejas y examine los datos que las apoyan. Después responda a las siguientes preguntas: 1. ¿Qué tan precisa es la afirmación de la probabilidad de éxito para el SockTout´s Guaranteed Investment Packa-
ge? ¿De qué formas es engañosa esta afirmación? ¿Cómo podría calcular y establecer la probabilidad de tener una ganancia anual no menor al 15%? 2. ¿Qué error se cometió al reportar la afirmación del 7% de probabilidad? Usando la tabla que se encuentra en la página Web “Winning Probabilities” ST_Guaranteed3.htm, calcule la probabilidad adecuada para el grupo de inversionistas. 3. ¿Existe algún tipo de cálculo de probabilidades que sea apropiado para el nivel en el servicio de inversión? ¿Por qué?
REFERENCIAS 1. Kirk, R. L. (ed.), Statistical Issues: A Reader for the Behavioral Sciences (Belmont, CA: Wadsworth, 1972). 2. Microsoft Excel 2003 (Redmond, WA: Microsoft Corp., 2002).
3. Paulos, J. A., Innumeracry (Nueva York: Hill and Wang, 1988).
Apéndice
151
Apéndice 4 Uso del software para la probabilidad básica A4.1 EXCEL Para probabilidades básicas Abra el archivo Probabilidades.xls. Esta hoja de trabajo ya contiene las entradas para la tabla 4.2 de la página 126. Para adaptar esta hoja de trabajo a otros problemas, cambie las entradas en las celdas sombreadas de las filas 3 hasta la 6. O si está usando el PHStat2, seleccione PHStat ➜ Probabilidad y Distribuciones de probabilidad ➜ Probabilidades simple y conjunta para generar una hoja de trabajo en la que pueda ingresar sus datos de probabilidad en las celdas vacías y sombreadas de las filas 3 hasta la 6.
Para el teorema de Bayes Abra el archivo Bayes.xls. Esta hoja de trabajo ya contiene las entradas para la tabla 4.4 de la página 140. Para adaptar esta hoja de trabajo a otros problemas, cambie las entradas para las probabilidades previa y condicional en la celda sombreada clasificada B5:C6.
capítulo
5
ALGUNAS IMPORTANTES DISTRIBUCIONES DE PROBABILIDAD DISCRETA
Objetivos En este capítulo, aprenderá: • Las propiedades de una distribución de probabilidad • A calcular el valor esperado, la varianza y la desviación estándar de una distribución de probabilidad
• •
A calcular las probabilidades de las distribuciones binomial y de Poisson Cómo utilizar las distribuciones binomial y de Poisson para resolver problemas financieros
Contenido del capítulo USO DE LA ESTADÍSTICA: El sistema de información contable de la empresa de remodelación Saxon 5.1 Distribución de probabilidad de una variable aleatoria discreta 154 Valor esperado de una variable aleatoria discreta 155 Varianza y desviación estándar de una variable aleatoria discreta 156
5.2 Distribución binomial 158 5.3 Distribución de Poisson 166 A.5 Uso de software para distribuciones de probabilidad discretas 175 A5.1 Excel 175 A5.2 Minitab 176
154
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
U S O D E L A E S TA D Í S T I C A El sistema de información contable de la empresa de remodelaciones Saxon Además de recabar, procesar, almacenar y transformar la información financiera, los sistemas de información contable la distribuyen entre los responsables de tomar decisiones, tanto internos como externos, de una organización de negocios (vea la referencia 5). Estos sistemas auditan continuamente la información contable en busca de errores y de información incompleta o inverosímil. Por ejemplo, cuando los clientes de la empresa de remodelaciones Saxon hacen un pedido en línea, el sistema de información contable revisa los formatos de pedido en busca de posibles errores. Se marcan todas las facturas cuestionables y se les incluye en el reporte diario de excepciones. Los datos recabados últimamente por la empresa muestran que la posibilidad de que un formato resulte marcado es de 0.10. En Saxon quieren determinar la posibilidad de encontrar cierto número de formatos marcados en una muestra de tamaño específico. Por ejemplo, en una muestra compuesta por cuatro formatos, ¿cuál sería la posibilidad de que ninguno de ellos resulte marcado? ¿Y de que uno lo sea?
¿C
ómo puede la empresa de remodelaciones Saxon encontrar la solución a este problema de probabilidad? Una táctica consiste en emplear un modelo, o representación a pequeña escala, que se aproxime al proceso. Mediante el uso de esa aproximación, los directivos de Saxon podrán obtener inferencias sobre el procesamiento real de los pedidos. A pesar de que para algunos analistas la elaboración de modelos es una tarea complicada, en este caso los directivos de Saxon tienen a su disposición las distribuciones de probabilidad, que son modelos matemáticos apropiados para resolver el problema de probabilidad que enfrentan. La lectura de este capítulo le ayudará a aprender las características de una distribución de probabilidad y cómo aplicar específicamente las distribuciones binomial y de Poisson a los problemas financieros.
5.1
DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA En la sección 1.5, variable numérica se definió como una variable que produce respuestas numéricas tales como la cantidad de revistas a las que se suscribe o su estatura en pulgadas. Las variables numéricas se clasifican en discretas y continuas. Las variables numéricas continuas producen resultados a partir de procesos de medición; por ejemplo, su estatura. Las variables numéricas discretas producen resultados a partir de un proceso de conteo, como el número de revistas a las que se suscribe. Este capítulo trata de las distribuciones de probabilidad que representan variables numéricas discretas.
La distribución de probabilidad para una variable aleatoria discreta es una lista mutuamente excluyente de todos los posibles resultados numéricos para una variable aleatoria tal que una probabilidad de ocurrencia específica se asocia con cada resultado.
Por ejemplo, la tabla 5.1 ofrece la distribución de la cantidad de créditos aprobados por semana en la oficina de una sucursal bancaria local. La lista de la tabla 5.1 es colectivamente exhaustiva porque se han incluido todos los posibles resultados. Entonces, las probabilidades deben sumar 1. En la figura 5.1 aparece la representación gráfica de la tabla 5.1.
5.1: Distribución de probabilidad de una variable aleatoria discreta
TABLA 5.1 Distribución de probabilidad del número de hipotecas aprobadas por semana.
Hipotecas aprobadas por semana
Probabilidad
0 1 2 3 4 5 6
0.10 0.10 0.20 0.30 0.15 0.10 0.05
FIGURA 5.1 Distribución de probabilidad del número de hipotecas aprobadas por semana.
155
P (X ) .3 .2 .1
0
1
2
3
4
5
6
X
Hipotecas aprobadas por semana
Valor esperado de una variable aleatoria discreta La media µ de una distribución de probabilidad es el valor esperado de su variable aleatoria. Para calcular el valor esperado, se multiplica cada resultado posible X por su probabilidad correspondiente P(X) y luego se suman estos productos.
VALOR ESPERADO µ DE UNA VARIABLE ALEATORIA DISCRETA µ = E( X ) =
N
∑ X i P( X i )
(5.1)
i =1
donde
Xi = i-ésimo resultado de la variable aleatoria discreta X P(Xi ) = probabilidad de ocurrencia del i-ésimo resultado de X
En la tabla 5.2 se calcula el valor esperado de la distribución de probabilidad del número de hipotecas aprobadas por semana (tabla 5.1), utilizando la ecuación (5.1).
TABLA 5.2 Cálculo del valor esperado para el número de hipotecas aprobadas por semana.
Hipotecas aprobadas por semana (Xi) 0 1 2 3 4 5 6
Probabilidad P(Xi)
XiP(Xi)
0.10 0.10 0.20 0.30 0.15 0.10 0.05 1.00
(0)(0.10) = 0.0 (1)(0.10) = 0.1 (2)(0.20) = 0.4 (3)(0.30) = 0.9 (4)(0.15) = 0.6 (5)(0.10) = 0.5 (6)(0.05) = 0.3 µ = E(X) = 2.8
156
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
µ = E( X ) =
N
∑ X i P( X i ) i =1
= ( 0 )(0.1) + (1)(0.1) + ( 2 )(0.2 ) + (3)(0.3) + ( 4 )(0.15) + (5)(0.1) + ( 6 )(0.05) = 0 + 0.1 + 0.4 + 0.9 + 0.6 + 0.5 + 0.3 = 2.8
La cifra de 2.8 obtenida para el valor esperado del número de hipotecas aprobadas no es “significativa literalmente”, porque el número real de hipotecas aprobadas durante una semana determinada debe ser un valor entero. El valor esperado representa la media de hipotecas aprobadas por semana.
Varianza y desviación estándar de una variable aleatoria discreta La varianza de una distribución de probabilidad se calcula multiplicando cada posible diferencia cuadrada [Xi – E(X )]2 por su probabilidad correspondiente P(Xi ) y sumando luego los productos resultantes. La ecuación (5.2) define la varianza de una variable aleatoria discreta.
VARIANZA DE UNA VARIABLE ALEATORIA DISCRETA σ2 =
N
∑ [ X i − E ( X )] 2P( X i )
(5.2)
i =1
Xi = i-ésimo resultado de la variable aleatoria discreta X
donde
P(Xi ) = probabilidad de ocurrencia del i-ésimo resultado de X La ecuación (5.3) define la desviación estándar de una variable aleatoria discreta.
DESVIACIÓN ESTÁNDAR DE UNA VARIABLE ALEATORIA DISCRETA σ=
σ2 =
N
∑ [ X i − E ( X )] 2 P( X i )
(5.3)
i =1
En la tabla 5.3 se calculan la varianza y la desviación estándar del número de hipotecas aprobadas por semana, mediante las ecuaciones (5.2) y (5.3).
σ2 =
N
∑ [ X i − E ( X )] 2 P( X i ) i =1
= (0 − 2.8 ) 2 (0.10 ) + (1 − 2.8 ) 2 ( 0.10 ) + ( 2 − 2.8 ) 2 ( 0.20 ) + ( 3 − 2.8 ) 2 ( 0.30 ) + ( 4 − 2.8 ) 2 ( 0.15) + (5 − 2.8 ) 2 ( 0.10 ) + ( 6 − 2.8 ) 2 ( 0.05) = 0.784 + 0.324 + 0.128 + 0.012 + 0.216 + 0.484 + 0.512 = 2.46
y σ =
σ2 =
2.46 = 1.57
Así, la media de hipotecas aprobadas por semana es 2.8, la varianza es 2.46 y la desviación estándar es 1.57.
5.1: Distribución de probabilidad de una variable aleatoria discreta
TABLA 5.3 Cálculo de la varianza y la desviación estándar del número de hipotecas aprobadas por semana.
157
Probabilidad
Hipotecas aprobadas por semana (Xi)
P(Xi)
XiP(Xi)
[Xi − E(X)]2P(Xi)
0 1 2 3 4 5 6
0.10 0.10 0.20 0.30 0.15 0.10 0.05
(0)(0.10) = 0.0 (1)(0.10) = 0.1 (2)(0.20) = 0.4 (3)(0.30) = 0.9 (4)(0.15) = 0.6 (5)(0.10) = 0.5 (6)(0.05) = 0.3
(0 − 2.8)2(0.10) = 0.784 (1 − 2.8)2(0.10) = 0.324 (2 − 2.8)2(0.20) = 0.128 (3 − 2.8)2(0.30) = 0.012 (4 − 2.8)2(0.15) = 0.216 (5 − 2.8)2(0.10) = 0.484 (6 − 2.8)2(0.05) = 0.512
σ2 =
N
∑ [ X i − E ( X )]2 P( X i ) = 2.46 i =1
σ = 1.57
PROBLEMAS PARA LA SECCIÓN 5.1 Aprendizaje básico ASISTENCIA
de PH Grade
5.1 Dadas las siguientes distribuciones de probabilidad:
Distribución A
Distribución B
X
P(X)
X
P(X)
0 1 2 3 4
0.50 0.20 0.15 0.10 0.05
0 1 2 3 4
0.05 0.10 0.15 0.20 0.50
a. Calcule el valor esperado de cada distribución. b. Calcule la desviación estándar de cada distribución. c. Compare e identifique las diferencias entre los resultados de las distribuciones A y B. ASISTENCIA
de PH Grade
5.2 Dadas las siguientes distribuciones de probabilidad:
Distribución C
Distribución D
X
P(X)
X
P(X)
0 1 2 3 4
0.20 0.20 0.20 0.20 0.20
0 1 2 3 4
0.10 0.20 0.40 0.20 0.10
a. Calcule el valor esperado de cada distribución. b. Calcule la desviación estándar de cada distribución. c. Compare e identifique las diferencias entre los resultados de las distribuciones C y D.
Aplicación de conceptos ASISTENCIA
de PH Grade
5.3 Utilizando los registros de la empresa correspondientes a los últimos 500 días hábiles, el gerente
de Konig Motors, concesionario automotriz suburbano, sintetizó el número de automóviles vendidos al día en la siguiente tabla: Número de automóviles vendidos al día 0 1 2 3 4 5 6 7 8 9 10 11 Total
Frecuencia de ocurrencia 40 100 142 66 36 30 26 20 16 14 8 2 500
a. Construya la distribución de probabilidad para el número de automóviles vendidos al día. b. Calcule la media o el número esperado de automóviles vendidos al día. c. Calcule la desviación estándar. 5.4 En la siguiente tabla se encuentra la distribución de probabilidad para el número diario de accidentes de tráfico ocurridos en una ciudad pequeña. Número diario de accidentes (X)
P(X)
0 1 2 3 4 5
0.10 0.20 0.45 0.15 0.05 0.05
158
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
a. Calcule la media o el número esperado de accidentes ocurridos al día. b. Calcule la desviación estándar. AUTO Examen
5.5 El gerente de un sistema de redes de computadoras desarrolló la siguiente distribución de probabilidad para el número de interrupciones al día:
Interrupciones (X)
P(X)
0 1 2 3 4 5 6
0.32 0.35 0.18 0.08 0.04 0.02 0.01
a. Calcule la media o el número esperado de interrupciones por día. b. Calcule la desviación estándar. 5.6 En el juego de feria Más o menos de siete, se tira un par de dados sin cargar, y la suma resultante determina si el jugador
5.2
gana o pierde su apuesta. Por ejemplo, el jugador puede apostar $1.00 a que la suma será menor a 7, es decir, 2, 3, 4, 5 o 6. En este caso, el jugador perderá $1.00 si el resultado es igual o mayor que 7, o lo ganará si el resultado es menor que 7. Del mismo modo, puede apostar $1.00 a que la suma será mayor que 7, es decir, 8, 9, 10, 11 o 12. Aquí, gana $1.00 si el resultado es mayor que 7, pero lo pierde si el resultado es 7 o menos. Una tercera opción del juego consiste en apostar $1.00 a que el resultado es 7. En esta apuesta, el jugador ganará $4.00 si el resultado del tiro es 7 y perderá $1.00 si es cualquier otro. a. Elabore la distribución de probabilidad que representa los distintos resultados posibles para una apuesta de $1.00 a que el tiro será menor que 7. b. Elabore la distribución de probabilidad que representa los distintos resultados posibles para una apuesta de $1.00 a que el tiro será mayor que 7. c. Elabore la distribución de probabilidad que representa a los distintos resultados posibles para una apuesta de $1.00 a que el tiro será de 7. d. Demuestre que las ganancias (o pérdidas) a largo plazo esperadas del jugador son iguales, independientemente del método de juego que utilice.
DISTRIBUCIÓN BINOMIAL En los siguientes dos apartados se utilizan modelos matemáticos para resolver problemas financieros. Un modelo matemático es una expresión matemática que se utiliza para representar una variable de interés. Cuando se dispone de una expresión matemática, es factible calcular la probabilidad de ocurrencia exacta correspondiente a cualquier resultado específico para la variable aleatoria. La distribución de probabilidad binomial es uno de los modelos matemáticos más útiles. La distribución binomial se utiliza cuando la variable aleatoria discreta de interés es el número de éxitos en una muestra compuesta por n observaciones. La distribución binomial tiene cuatro propiedades fundamentales:
• • • •
La muestra se compone de un número fijo de observaciones, n. Cada observación se clasifica en una de dos categorías mutuamente excluyentes y colectivamente exhaustivas, normalmente denominadas éxito y fracaso. La probabilidad de que una observación se clasifique como éxito, p, es constante de una observación a otra. De la misma forma, la probabilidad de que una observación se clasifique como fracaso, 1 – p, es constante en todas las observaciones. El resultado (es decir, el éxito o el fracaso) de cualquier observación es independiente del resultado de cualquier otra observación. Para garantizar la independencia, las observaciones se deben seleccionar de manera aleatoria, ya sea de una población infinita sin reemplazo o de una población finita con reemplazo.
Volviendo al escenario “Uso de la estadística” expuesto en la página 154 referente al sistema de información contable, supongamos que éxito se define como un formato de pedido marcado y fracaso es cualquier otro resultado. Usted se interesa por el número de formatos marcados dentro de una muestra de pedidos determinada. ¿Qué resultados se pueden presentar? Si la muestra se compone de cuatro pedidos, puede haber ninguna, una, dos, tres o cuatro formatos marcados. La variable aleatoria binomial, que es el número de formatos de pedido marcados, no puede asumir ningún otro valor porque el número de formatos de pedido marcados no podrá ser superior al tamaño n de la muestra ni podrá ser menor que cero. Por lo tanto, la variable aleatoria binomial tiene un rango de 0 a n.
5.2: Distribución binomial
159
Suponga que en una muestra de cuatro pedidos, usted observa el siguiente resultado: Primer pedido
Segundo pedido
Tercer pedido
Cuarto pedido
Marcado
Sin marcar
Marcado
Marcado
¿Cuál es la probabilidad de tener tres éxitos (formatos de pedido marcados) con esta secuencia en particular, en una muestra compuesta por cuatro pedidos? Puesto que la probabilidad histórica de un pedido marcado es de 0.10, la probabilidad de que cada pedido se presente con dicha secuencia es Primer pedido
Segundo pedido
Tercer pedido
Cuarto pedido
p = 0.10
1 − p = 0.90
p = 0.10
p = 0.10
Cada uno de los resultados es independiente de los demás, ya que los formatos de pedido se seleccionaron de una población extremadamente grande o prácticamente infinita y sin reemplazarlos. Por tanto, la probabilidad de tener esta secuencia en particular es pp(1 − p) p = p 3 (1 − p)1 = (0.10)(0.10)(0.10)(0.90) = (0.10)3 (0.90)1 = 0.0009
Este resultado sólo señala la probabilidad de que aparezcan tres formatos de pedido marcados (éxitos) extraídos de una muestra de cuatro con una secuencia específica. Para encontrar cuántas maneras hay de seleccionar X objetos de entre n objetos, independientemente de la secuencia, se utiliza la regla de las combinaciones dada en la ecuación (5.4).
COMBINACIONES El número de combinaciones para seleccionar X objetos de entre n objetos está dado por: n! (5.4) nCX = X !( n − X )! donde
n! = (n)(n − 1) . . . . (1) se llama n factorial. Por definición, 0! = 1.
Con n = 4 y X = 3, hay nCX
=
n! 4! 4 ×3×2 ×1 = = = 4 X !(n − X )! 3!( 4 − 3)! (3 × 2 × 1)(1)
de tales secuencias. Las cuatro secuencias posibles son: Secuencia 1 = marcada, marcada, marcada, sin marcar con una probabilidad ppp(1 − p) = p3(1 − p)1 = 0.0009 Secuencia 2 = marcada, marcada, sin marcar, marcada con una probabilidad pp (1 − p)p = p3(1 − p)1 = 0.0009 Secuencia 3 = marcada, sin marcar, marcada, marcada con una probabilidad p (1 − p)pp = p3(1 − p)1 = 0.0009 Secuencia 4 = sin marcar, marcada, marcada, marcada con una probabilidad (1 − p)ppp = p3(1 − p)1 = 0.0009 Por tanto, la probabilidad de que haya tres formatos de pedido marcados es igual a (número de secuencias posibles) × (probabilidad de una secuencia en particular) = (4) × (0.0009) = 0.0036
160
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
Usted puede hacer una deducción intuitiva similar para los demás resultados posibles de la variable aleatoria: cero, uno, dos y cuatro formatos de pedido marcados. Sin embargo, a medida que n, el tamaño de la muestra, es mayor, los cálculos implicados para este método intuitivo requieren de más tiempo. Existe un modelo matemático que brinda una fórmula general para calcular cualquier probabilidad binomial. La ecuación (5.5) es el modelo matemático que se utiliza para representar la distribución de probabilidad binomial y calcular el número de éxitos (X), dados los valores n y p.
DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL P( X ) =
n! p X (1 − p ) n − X X !( n − X )!
(5.5)
P(X) = probabilidad de X éxitos, dadas n y p
donde
n = número de observaciones p = probabilidad de éxitos 1 − p = probabilidad de fracasos X = número de éxitos en la muestra (X = 0, 1, 2, . . . , n)
La ecuación (5.5) replantea lo que usted dedujo de manera intuitiva. La variable aleatoria binomial X puede tener cualquier valor entero X desde 0 hasta n. En la ecuación (5.5) el producto p X(1 − p)n−X indica la probabilidad de obtener exactamente X éxitos de entre n observaciones en una secuencia específica. El término: n! X !( n − X )!
indica cuántas combinaciones de esos X éxitos de entre n observaciones son posibles. Así, dado el número de observaciones n y la probabilidad de éxito p, la probabilidad de obtener X éxitos es: P(X) = (número de secuencias posibles) × (probabilidad de una secuencia específica) =
n! p X (1 − p ) n − X X !(n − X )!
En el ejemplo 5.1 se ilustra el uso de la ecuación (5.5).
EJEMPLO 5.1
DETERMINAR P(X = 3), DADAS n = 4 Y p = 0.1 Si la posibilidad de que un formato de pedido sea marcado es de 0.1, ¿qué probabilidad existe de que haya tres formatos marcados en una muestra de cuatro? SOLUCIÓN Al utilizar la ecuación (5.5), se sabe que la probabilidad de obtener tres formatos marcados de una muestra compuesta por cuatro es P ( X = 3) = =
4! ( 0.1)3 (1 − 0.1)4 − 3 3!( 4 − 3)! 4! ( 0.1)3 ( 0.9 )1 3!( 4 − 3)!
= 4( 0.1)(0.1)( 0.1)( 0.9 ) = 0.0036
En los ejemplos 5.2 y 5.3 se muestran los cálculos para otros valores de X.
5.2: Distribución binomial
EJEMPLO 5.2
161
DETERMINAR P(X 3), DADAS n = 4 Y p = 0.1 Si la posibilidad de que un formato de pedido sea marcado es de 0.1, ¿qué probabilidad existe de que haya tres o más formatos marcados (es decir, por lo menos tres) en una muestra de cuatro? SOLUCIÓN En el ejemplo 5.1 usted encontró que la probabilidad de obtener exactamente tres formatos marcados a partir de una muestra de cuatro es 0.0036. Para calcular la probabilidad de obtener por lo menos tres formatos marcados, es necesario sumar la probabilidad de los tres formatos marcados y la probabilidad de cuatro formatos marcados. La probabilidad de obtener cuatro formatos marcados es: P( X = 4 ) = =
4! (0.1)4 (1 − 0.1)4 − 4 4!( 4 − 4 )!
4! (0.1)4 (0.9 )0 4!(0 )!
= 1(0.1)(0.1)(0.1)(0.1) = 0.0001
Así, la probabilidad de obtener al menos tres formatos de pedido marcados es: P ( X ≥ 3) = P ( X = 3) + P ( X = 4 ) = 0.0036 + 0.0001 = 0.0037
Existe un 0.37% de posibilidad de tener al menos tres formatos de pedido marcados en una muestra compuesta por cuatro formatos.
EJEMPLO 5.3
DETERMINAR P(X < 3), DADAS n = 4 Y p = 0.1 Si la posibilidad de que un formato de pedido sea marcado es de 0.1, ¿qué probabilidad existe de que haya menos de tres formatos marcados en una muestra compuesta por cuatro? SOLUCIÓN La probabilidad de obtener menos de tres formatos de pedido marcados es: P(X < 3) = P(X = 0) + P(X = 1) + P(X = 2) Se utiliza la ecuación (5.5) de la página 160 para calcular cada una de las probabilidades: P( X = 0 ) =
4! ( 0.1)0 (1 − 0.1)4 − 0 = 0.6561 0!( 4 − 0 )!
P ( X = 1) =
4! ( 0.1)1(1 − 0.1)4 −1 = 0.2916 1!( 4 − 1)!
P( X = 2 ) =
4! ( 0.1) 2 (1 − 0.1)4 − 2 = 0.0486 2!( 4 − 2 )!
Por tanto, P(X < 3) = 0.6561 + 0.2916 + 0.0486 = 0.9963. P(X < 3) también se puede calcular a partir de su complemento P(X ≥ 3), como sigue: P ( X < 3) = 1 − P ( X ≥ 3) = 1 − 0.0037 = 0.9963
Tal vez los cálculos realizados en el ejemplo 5.3 resulten tediosos, sobre todo conforme n aumenta. Para evitar la monotonía que implica efectuar los cálculos, es factible encontrar muchas probabilidades binomiales directamente en la tabla E.6, que se reproduce parcialmente en la tabla 5.4. La tabla
162
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
E.6 proporciona las probabilidades binomiales correspondientes a X = 0, 1, 2, . . . , n, para una selección de varias combinaciones de n y p. Por ejemplo, para encontrar la probabilidad de obtener exactamente dos éxitos en una muestra de cuatro, cuando la probabilidad de éxito es 0.1, vea primero n = 4 y luego busque en la fila X = 2 y en la columna p = 0.10. El resultado es 0.0486.
TABLA 5.4 Cómo encontrar la probabilidad binomial para n = 4, X = 2 y p = 0.1.
n
X
0.01
0.02
p ....
0.10
4
0 1 2 3 4
0.9606 0.0388 0.0006 0.0000 0.0000
0.9224 0.0753 0.0023 0.0000 0.0000
.... .... .... .... ....
0.6561 0.2916 0.0486 0.0036 0.0001
Fuente: Tabla E.6.
También es posible calcular las probabilidades binomiales que aparecen en la tabla E.6 utilizando Excel o Minitab. En la figura 5.2 aparece una hoja de trabajo de Excel para calcular probabilidades binomiales, y en la figura 5.3 se ilustra el resultado en Minitab.
FIGURA 5.2 Hoja de trabajo de Excel para calcular probabilidades binomiales.
FIGURA 5.3 Cálculo de la distribución binomial para n = 4 y p = 0.1 en Minitab.
La forma de probabilidad binomial depende de los valores de n y p. Siempre que p = 0.5, la distribución binomial es simétrica, independientemente de lo grande o pequeño del valor de n. Cuando p ≠ 0.5, la distribución es asimétrica. Cuanto más se acerca p a 0.5 y el número de observaciones n es mayor, menos asimétrica se vuelve la distribución. Por ejemplo, la distribución del número de formatos marcados es muy asimétrica a la derecha, porque p = 0.1 y n = 4 (vea la figura 5.4).
5.2: Distribución binomial
163
FIGURA 5.4 Gráfica de barras de Excel de la distribución de probabilidad binomial con n = 4 y p = 0.1.
La media de la distribución binomial es igual al producto de n por p. En lugar de calcular la media de la distribución de probabilidad utilizando la ecuación (5.1) de la página 155, utilice la ecuación (5.6) para calcular la media de las variables que siguen a la distribución binomial.
MEDIA DE LA DISTRIBUCIÓN BINOMIAL La media µ de la distribución binomial es igual a la multiplicación del tamaño n de la muestra por la probabilidad de éxito p. (5.6)
µ = E(X) = np
En promedio, y a la larga, teóricamente usted esperaría µ = E(X) = np = (4)(0.1) = 0.4 formatos de pedido marcados en una muestra compuesta por cuatro formatos. La desviación estándar de la distribución binomial se calcula mediante la ecuación (5.7).
DESVIACIÓN ESTÁNDAR DE LA DISTRIBUCIÓN BINOMIAL σ =
σ 2 = Var( X ) =
np(1 − p )
(5.7)
La desviación estándar del número de formatos marcados es: σ=
4(0.1)(0.9) = 0.6
Este resultado es el mismo que calcularía si utilizara la ecuación (5.3) de la página 156.
EJEMPLO 5.4
CÁLCULO DE PROBABILIDADES BINOMIALES La exactitud al tomar los pedidos en la ventanilla de servicio a los automovilistas es una característica muy importante de las cadenas de comida rápida. Todos los meses, QSR Magazine www. qsrmagazine.com publica los resultados de sus encuestas. La exactitud se evalúa como el porcentaje de pedidos compuestos por un artículo principal, uno secundario y una bebida (pero solicitando
164
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
que se elimine algún ingrediente normal como los pepinillos) que se sirven correctamente. Hace poco, el porcentaje de pedidos de este tipo servidos correctamente en Burger King fue del 88%. Suponga que usted y dos de sus amigos van en su automóvil a la ventanilla de servicio de Burger King y cada uno hace un pedido como el descrito antes. ¿Cuál es la probabilidad de que los tres pedidos se sirvan con exactitud? ¿Ninguno de los tres? ¿Al menos dos de los tres? ¿Cuáles son el promedio y la desviación estándar del número de pedidos servidos con exactitud? SOLUCIÓN Puesto que se trata de tres pedidos y la probabilidad de tener un pedido servido con exactitud es del 88%, n = 3 y p = 0.88. Mediante las ecuaciones (5.5), (5.6) y (5.7) P ( X = 3) = =
3! ( 0.88 )3 (1 − 0.88 )3− 3 3!( 3 − 3)! 3! ( 0.88 )3 ( 0.12 )0 3!( 3 − 3)!
= 1( 0.88 )(0.88 )(0.88 )(1) = 0.6815
P ( X = 0) = =
3! (0.88)0 (1 − 0.88)3− 0 0!(3 − 0)! 3! (0.88)0 (0.12 )3 0!(3 − 0)!
= 1(1)(0.12)(0.12 )(0.12 ) = 0.0017
P( X = 2 ) = =
3! (0.88 ) 2 (1 − 0.88 )3− 2 2!(3 − 2 )! 3! (0.88 ) 2 (0.12 )1 2!(3 − 2 )!
= 3(0.88 )(0.88 )(0.12 ) = 0.2788 P ( X ≥ 2 ) = P ( X = 2 ) + P ( X = 3) = 0.2788 + 0.6815 = 0.9603
µ = E(X) = np = 3(0.88) = 2.64 σ =
σ 2 = Var( X ) =
=
3(0.88 )(0.12 )
=
0.3168 = 0.563
np(1 − p )
La probabilidad de que los tres pedidos se sirvan con exactitud es de 0.6815 o del 68.15%. La probabilidad de que ninguno de los pedidos se sirva con exactitud es de 0.0017 o del 0.17%. La probabilidad de que por lo menos dos pedidos se sirvan con exactitud es de 0.9603 o del 96.03%. La media de pedidos servidos con exactitud en una muestra de tres pedidos es 2.64 y la desviación estándar es 0.563.
En este apartado se explicó la distribución binomial, la cual desempeña un papel aún más importante cuando se utiliza en problemas de inferencia estadística que implican la estimación o prueba de hipótesis sobre proporciones.
5.2: Distribución binomial
165
PROBLEMAS PARA LA SECCIÓN 5.2 Puede resolver manualmente los problemas 5.7 a 5.14 o usando Excel o Minitab. Le recomendamos usar Excel o Minitab para resolver los problemas 5.15 a 5.17.
Aprendizaje básico 5.7 Si n = 5 y p = 0.40, encuentre cuál es la probabilidad de que a. X = 4 b. X ≤ 3 c. X < 2 d. X > l 5.8 Determine lo siguiente: a. Para n = 4 y p = 0.12, ¿cuánto es P(X = 0)? b. Para n = 10 y p = 0.40, ¿cuánto es P(X = 9)? c. Para n = 10 y p = 0.50, ¿cuánto es P(X = 8)? d. Para n = 6 y p = 0.83, ¿cuánto es P(X = 5)? ASISTENCIA
de PH Grade
Aplicación de conceptos 5.9 Se supone que el aumento o la disminución del precio de una acción durante el transcurso de un día hábil es un evento aleatorio igualmente posible. ¿Cuál es la probabilidad de que una acción muestre un aumento en su precio al cierre durante cinco días consecutivos? 5.10 El 60% de los estadounidenses leen su contrato de trabajo, incluyendo las letras pequeñas (“Snapshots,” usatoday. com, 20 de enero, 2004). Suponga que el número de empleados que leen cada una de las palabras de su contrato se puede modelar utilizando la distribución binomial. Considerando un grupo de cinco empleados, encuentre cuál es la probabilidad de que: a. Los cinco lean cada una de las palabras de su contrato. b. Al menos tres lean cada una de las palabras de su contrato. c. Menos de dos lean cada una de las palabras de su contrato. d. ¿Cuáles serían sus respuestas para los incisos a) a c), si la probabilidad de que un empleado lea cada una de las palabras de su contrato es de 0.80? 5.11 Una estudiante presenta un examen de opción múltiple, en el que cada pregunta tiene cuatro opciones. Suponga que ella no conoce la respuesta correcta de ninguna de las preguntas, y que decidió utilizar una estrategia en la que colocará cuatro pelotas (marcadas como A, B, C y D) dentro de una caja. Ahora, para responder cada pregunta, selecciona una pelota de manera aleatoria y la devuelve a la caja. La letra de la pelota determinará su respuesta a la pregunta. El examen se compone de cinco preguntas de opción múltiple. ¿Cuál es la probabilidad de que ella obtenga a. cinco respuestas correctas? b. al menos cuatro respuestas correctas? c. ninguna respuesta correcta? d. no más de dos respuestas correctas? ASISTENCIA
de PH Grade
5.12 En el ejemplo 5.4 de la página 163, usted y dos amigos decidieron ir a Burger King. En lugar de eso, suponga que acuden a McDonald’s, donde durante el mes pasado sirvieron el 90% de los pedidos con exactitud. ¿Cuál es la probabilidad de que a. los tres pedidos se sirvan con exactitud? b. ninguno de los tres pedidos se sirva con exactitud? c. al menos dos de los tres pedidos se sirva con exactitud? d. ¿Cuáles son la media y la desviación estándar del número de pedidos servidos con exactitud? AUTO Examen
5.13 Durante varios años se ha reducido el porcentaje de comisión que las líneas aéreas comerciales pagan a los agentes de viajes. Muchas agencias, en busca de mejorar sus ingresos, cobran ahora a sus clientes una cuota por boleto, generalmente de entre 10 y 25 dólares. De acuerdo con la sociedad estadounidense de agentes boleteros, cerca del 90% de los agentes de viajes cobra cuotas a sus clientes cuando éstos adquieren boletos de avión (Kortney Stringer, “American Air Fees for Travel Agents to Be Cut Again”, The Wall Street Journal, 20 de agosto, 2001, B2). a. La cifra del 90% citada por la sociedad estadounidense de agentes boleteros, ¿quedaría mejor clasificada como probabilidad clásica a priori, probabilidad clásica empírica o probabilidad subjetiva? b. Usted selecciona una muestra aleatoria de 10 agencias de viajes. Suponga que el número de 10 agencias de viajes que cobran una cuota por boleto se distribuye como variable aleatoria binomial. ¿Cuáles son la media y la desviación estándar de esta distribución? c. ¿Qué suposiciones es necesario hacer en el inciso b)? 5.14 Consulte el problema 5.13 y calcule la probabilidad de que de 10 agencias de viajes: a. ninguna cobre cuota por boleto. b. exactamente una cobre cuota por boleto. c. dos o menos cobren cuota por boleto. d. tres o más cobren cuota por boleto. 5.15 Cuando un cliente hace un pedido a la Papelería en Línea de Rudy, un sistema contable computarizado (AIS, por sus siglas en inglés) verifica automáticamente si el cliente ha excedido o no su límite de crédito. Los registros señalan que la probabilidad de que los clientes exceden su límite de crédito es de 0.05. Suponga que durante un día determinado, 20 clientes hicieron un pedido. Suponga también que el número de clientes que según el sistema AIS excedieron su límite de crédito está distribuido como variable aleatoria binomial. a. ¿Cuáles son la media y la desviación estándar del número de clientes que excedieron su límite de crédito? b. ¿Cuál es la probabilidad de que ningún cliente exceda su límite de crédito? c. ¿Cuál es la probabilidad de que sólo un cliente exceda su límite de crédito? d. ¿Cuál es la probabilidad de que dos o más clientes excedan su límite de crédito? ASISTENCIA
de PH Grade
166
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
5.16 Cada otoño las televisoras presentan nuevos programas. Con la idea de atraer el interés de los espectadores, durante el verano se transmiten anuncios como parte de una campaña publicitaria previa a su aparición en otoño. Después, las televisoras realizan encuestas para ver qué porcentaje de los espectadores está al corriente de los estrenos. De acuerdo con datos procedentes de las televisoras, durante el otoño de 2001, el 68% de los espectadores de entre 18 y 49 años supieron de la nueva serie Criminal Intent, mientras que sólo el 24% de ellos escucharon de Inside Schwartz (Joe Flint, “Viewers Awareness of New Shows Rises”, The Wall Street Journal, 20 de agosto, 2001, B7). a. Las cifras del 68% y del 24% citadas por las televisoras, ¿quedarían mejor clasificadas como probabilidades clásicas a priori, probabilidades clásicas empíricas o probabilidades subjetivas?
5.3
Suponga que selecciona una muestra de 20 espectadores con edades de 18 a 49 años. ¿Cuál es la probabilidad de que: b. menos de cinco espectadores vean Criminal Intent? c. 10 o más espectadores vean Criminal Intent? d. los 20 vean Criminal Intent? 5.17 De acuerdo con los datos del problema 5.16, se obtiene otra muestra de 20 espectadores y se considera al nuevo programa Inside Schwartz. ¿Cuál es la probabilidad de que: a. menos de cinco espectadores vean Inside Schwartz? b. 10 o más espectadores vean Inside Schwartz? c. los 20 vean Inside Schwartz? d. Compare los resultados de los inciso a) a c) con los de Criminal Intent del problema 5.16, incisos b) a d).
DISTRIBUCIÓN DE POISSON Muchos estudios se basan en el conteo de las veces que se presenta un evento dentro de un área de oportunidad dada. El área de oportunidad es una unidad continua o intervalo de tiempo, volumen, o área en donde se puede presentar más de un evento. Algunos ejemplos serían los defectos en la superficie de un refrigerador, el número de fallas de la red en un día, o el número de pulgas que tiene un perro. Cuando se tiene un área de oportunidad como éstas, se utiliza la distribución de Poisson para calcular las probabilidades si:
•
Le interesa contar las veces que se presenta un evento en particular dentro de un área de oportunidad determinada. El área de oportunidad se define por tiempo, extensión, área, etcétera.
•
La probabilidad de que un evento se presente en un área de oportunidad dada es igual para todas las áreas de oportunidad.
•
El número de eventos que ocurren en un área de oportunidad es independiente del número de eventos que se presentan en cualquier otra área de oportunidad.
•
La probabilidad de que dos o más eventos se presenten en un área de oportunidad tiende a cero conforme esa área se vuelve menor.
Considere el número de clientes que llegan a un banco ubicado en la zona central de negocios de una gran ciudad, durante la hora del almuerzo. A usted le interesa conocer el número de clientes que llegan cada minuto. ¿Esta situación concuerda con las cuatro propiedades de la distribución de Poisson mencionadas anteriormente? Primero, el evento de interés es un cliente y el área de oportunidad está definida como un intervalo de 1 minuto. ¿Llegarán cero clientes, un cliente, dos clientes, etcétera? Segundo, es razonable suponer que la probabilidad de que llegue un cliente durante un intervalo específico de 1 minuto es igual a la probabilidad correspondiente a todos los demás intervalos de 1 minuto. Tercero, la llegada de un cliente durante cualquier intervalo de 1 minuto no influye en (es decir, es estadísticamente independiente de) la llegada de cualquier otro cliente durante cualquier otro intervalo de 1 minuto. Por último, la probabilidad de que lleguen dos o más clientes durante un periodo de tiempo dado tiende a cero a medida que dicho intervalo de tiempo es menor. Por ejemplo, la probabilidad de que dos clientes lleguen durante un intervalo de tiempo con una amplitud de 1/100 de segundo es virtualmente cero. Así, es factible utilizar la distribución de Poisson para determinar las probabilidades correspondientes al número de clientes que llegan al banco durante un intervalo de tiempo de 1 minuto mientras es la hora del almuerzo.
5.3: Distribución de Poisson
167
La distribución de Poisson tiene un parámetro, llamado λ (la letra griega lambda minúscula), que es la media o el número esperado de eventos por unidad. La varianza de la distribución de Poisson también es igual a λ, y su desviación estándar es igual a λ . El número de eventos X de la variable aleatoria de Poisson fluctúa desde 0 hasta infinito. En la ecuación (5.8) se presenta la expresión matemática de la distribución de Poisson para el cálculo de la probabilidad de X eventos, dado que se esperan λ eventos.
DISTRIBUCIÓN DE LA PROBABILIDAD DE POISSON P( X ) =
donde
e −λ λX X!
(5.8)
P(X) = la probabilidad de X eventos en un área de oportunidad λ = número de eventos esperado e = constante matemática aproximadamente igual a 2.71828 X = número de eventos
Para demostrar la distribución de Poisson, suponga que la media de clientes que llega al banco por minuto durante la hora que va del mediodía a la 1 PM es igual a 3.0. ¿Cuál es la probabilidad de que lleguen exactamente dos clientes durante un minuto dado? ¿Y cuál es la probabilidad de que lleguen más de dos clientes durante un minuto dado? Al utilizar la ecuación (5.8) y λ = 3, se sabe que la probabilidad de que lleguen exactamente dos clientes durante el transcurso de un minuto dado es
P( X = 2 ) =
e −3.0 (3.0 ) 2 9 = = 0.2240 2! ( 2.71828 )3 ( 2 )
Para determinar la probabilidad de que lleguen más de dos clientes durante un minuto dado P(X > 2) = P(X = 3) + P(X = 4) + … + P(X = ∞) Puesto que la suma de todas las probabilidades de una distribución de probabilidad debe ser igual a 1, los términos del lado derecho de la ecuación P(X > 2) también representan al complemento de la probabilidad de que X sea menor o igual que 2 [es decir, 1 − P(X ≤ 2)]. Así, P(X > 2) = 1 − P(X 2) = 1 − [P(X = 0) + P(X = 1) + P(X = 2)] Ahora, con la ecuación (5.8), e −3.0 (3.0 )0 e −3.0 (3.0 )1 e −3.0 (3.0 ) 2 P( X > 2 ) = 1 − + + 0! 1! 2! = 1 − [0.0498 + 0.1494 + 0.2240 ] = 1 − 0.4232 = 0.5768
De esta forma, existe una posibilidad del 57.68% de que lleguen más de dos clientes en el mismo minuto. Para evitar la monotonía que implica realizar estos cálculos, podrá encontrar muchas probabilidades de Poisson directamente en la tabla E.7, que se reproduce de manera parcial en la tabla 5.5. La
168
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
tabla E.7 indica las probabilidades correspondientes a la variable aleatoria de Poisson para los valores de X = 0, 1, 2, . . . , de una selección de valores del parámetro λ. Para encontrar la probabilidad de que lleguen exactamente dos clientes durante un minuto dado, cuando la media de clientes que llegan por minuto es de 3.0, se lee la probabilidad correspondiente a la fila X = 2 y la columna λ = 3.0 de la tabla. El resultado es 0.2240, como muestra la tabla 5.5.
TABLA 5.5 Cálculo de la probabilidad de Poisson para λ = 3.
X
2.1
2.2
λ ....
3.0
0 1 2 3 4 5 6 7 8 9 10 11 12
.1225 .2572 .2700 .1890 .0992 .0417 .0146 .0044 .0011 .0003 .0001 .0000 .0000
.1108 .2438 .2681 .1966 .1082 .0476 .0174 .0055 .0015 .0004 .0001 .0000 .0000
.... .... .... .... .... .... .... .... .... .... .... .... ....
.0498 .1494 .2240 .2240 .1680 .1008 .0504 .0216 .0081 .0027 .0008 .0002 .0001
Fuente: Tabla E.7.
También es factible calcular las probabilidades de Poisson que aparecen en la tabla E.7 utilizando Excel o Minitab. En la figura 5.5 se muestra una hoja de trabajo de Excel para la distribución de Poisson con λ = 3. En la figura 5.6 aparece el resultado en Minitab.
FIGURA 5.5 Hoja de trabajo de Excel para el cálculo de probabilidades de Poisson.
5.3: Distribución de Poisson
169
FIGURA 5.6 Cálculo de la distribución de Poisson para λ = 3 en Minitab.
EJEMPLO 5.5
CÁLCULO DE PROBABILIDADES DE POISSON Se sabe que el número de fallas mensuales que tienen las cajas de velocidades de los autobuses obedece a la distribución de Poisson, con una media de 2.5 fallas al mes. ¿Cuál es la probabilidad de que no se presenten fallas durante un mes determinado? ¿Y de que se presente al menos una? SOLUCIÓN Con la ecuación (5.8) de la página 167 con λ = 2.5 (o utilizando la tabla 7 de la sección de Apéndices, Excel o Minitab), se sabe que la probabilidad de que no se presenten fallas durante un mes dado es: e −2.5 ( 2.5)0 1 = = 0.0821 0! ( 2.71828 ) 2.5 (1)
P( X = 0 ) =
P ( X ≥ 1) = 1 − P ( X = 0 ) = 1 − 0.0821 = 0.9179
La probabilidad de que no se presentarán fallas durante un mes dado es de 0.0821. La probabilidad de que se presente al menos una falla es de 0.9179.
PROBLEMAS PARA LA SECCIÓN 5.3 Aprendizaje básico
5.19 Suponga una distribución de Poisson. a. Si λ = 2.0, encuentre P(X ≥ 2). b. Si λ = 8.0, encuentre P(X ≥ 3). c. Si λ = 0.5, encuentre P(X ≤ 1). d. Si λ = 4.0, encuentre P(X ≥ 1). e. Si λ = 5.0, encuentre P(X ≤ 3). ASISTENCIA
de PH Grade
5.18 Suponga una distribución de Poisson. a. Si λ = 2.5, encuentre P(X = 2). b. Si λ = 8.0, encuentre P(X = 8). c. Si λ = 0.5, encuentre P(X = 1). d. Si λ = 3.7, encuentre P(X = 0). ASISTENCIA
de PH Grade
170
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
5.20 Suponga una distribución de Poisson con λ = 5.0. Determine la probabilidad de que a. X = 1. b. X < 1. c. X > 1. d. X 1.
Aplicación de conceptos Puede resolver los problemas 5.21 a 5.31 manualmente, en Excel o en Minitab. 5.21 Suponga que el número de errores que se presentan durante un día en una red de área local (LAN) se distribuye como una variable aleatoria de Poisson. La media de errores de red ocurridos durante un día es 2.4. ¿Cuál es la probabilidad de que en un día determinado: a. se presenten cero errores? b. se presente sólo un error? c. se presenten dos o más errores? d. se presenten menos de tres errores? 5.22 El gerente de control de calidad de Marilyn’s Cookies inspecciona un lote de galletas con chispas de chocolate que se acaban de preparar. Si el proceso de producción está bajo control, la media de chispas de chocolate por galleta es de 6.0. ¿Cuál es la probabilidad de que en cualquier galleta inspeccionada a. se encuentren menos de cinco chispas? b. se encuentren exactamente cinco chispas? c. se encuentren cinco o más chispas? d. se encuentren cuatro o cinco chispas? AUTO Examen
5.26 Con base en experiencias anteriores, se supone que el número de imperfecciones por pie en los rollos de papel con graduación 2 obedece a una distribución de Poisson, con una media de 1 imperfección por cada cinco pies de papel (0.2 imperfecciones por pie). ¿Cuál es la probabilidad de que a. en un rollo de un pie existan al menos dos imperfecciones? b. en un rollo de 12 pies exista al menos 1 imperfección? c. en un rollo de 50 pies existan entre 5 y 15 (inclusive) imperfecciones? ASISTENCIA
de PH Grade
5.27 J.D. Power y Asociados calculan y publican varias estadísticas relacionadas con la calidad de los automóviles. La calificación Calidad Inicial mide el número de problemas por cada automóvil nuevo que se vende. Con los modelos 2003, el Lexus fue el mejor con 1.63 problemas por automóvil. El Kia coreano fue el peor, con 5.09 problemas por automóvil (L. Hawkins, “Finding a Car That’s Built to Last?” The Wall Street Journal, 9 de julio, 2003, Dl, D5). Sea la variable aleatoria X igual al número de problemas de un Lexus recién comprado. a. ¿Cuáles suposiciones se deben hacer para distribuir X como una variable aleatoria de Poisson? ¿Son razonables tales suposiciones? Haciendo las suposiciones mencionadas en el inciso a), si usted compró un Lexus 2003, ¿cuál es la probabilidad de que este automóvil nuevo: b. no presente problemas? c. presente dos o menos problemas? d. Elabore una definición operacional de “problema”. ¿Por qué es importante una definición operacional al interpretar la calificación Calidad Inicial?
5.23 De acuerdo con los datos del problema 5.22, ¿cuántas galletas de un lote de 100 esperaría desechar el gerente, si las políticas de la empresa exigen que todas las galletas con chispas de chocolate deben tener al menos cuatro chispas?
5.28 Consulte los datos del problema 5.27. Si usted compró un Kia 2003, ¿cuál es la probabilidad de que este automóvil nuevo: a. no presente problemas? b. presente dos o menos problemas? c. Compare sus respuestas de los incisos a) y b) con las correspondientes al Lexus del problema 5.27, incisos b) y c).
5.24 El Departamento de Transporte de EUA registra las estadísticas de las maletas maltratadas por cada 1,000 pasajeros. En 2003, Jet Blue tuvo 3.21 maletas maltratadas por cada 1,000 pasajeros. ¿Cuál es la probabilidad de que, con los próximos 1,000 pasajeros, Jet Blue tenga a. ninguna maleta maltratada? b. al menos una maleta maltratada? c. al menos dos maletas maltratadas? d. Compare los resultados de los incisos a) a c) con los de Delta en el problema 5.25, incisos a) a c).
5.29 Durante 2004, tanto el Lexus como el Kia mejoraron su desempeño (D. Hakim, “Hyundai Near Top of a Quality Ranking”, The New York Times, 29 de abril, 2004, C.8). El Lexus presentó 0.87 problemas por automóvil y el Kia coreano tuvo 1.53 problemas por automóvil. Si usted compró un Lexus 2004, ¿cuál es la probabilidad de que este automóvil nuevo: a. no presente problemas? b. presente dos o menos problemas? c. Compare sus respuestas de los incisos a) y b) con las correspondientes al Lexus 2003 del problema 5.27, incisos b) y c).
5.25 El Departamento de Transporte de EUA registra las estadísticas de las maletas maltratadas por cada 1,000 pasajeros. En 2003, Delta tuvo 3.84 maletas maltratadas por cada 1,000 pasajeros. ¿Cuál es la probabilidad de que, con los próximos 1,000 pasajeros, Delta tenga a. ninguna maleta maltratada? b. al menos una maleta maltratada? c. al menos dos maletas maltratadas? d. Compare los resultados de los incisos a) a c) con los de Jet Blue en el problema 5.24, incisos a) a c).
5.31 En su empresa existe un número telefónico gratuito, a disposición de los clientes desde las 9 AM hasta las 9 PM, para registrar las quejas relacionadas con algún producto comprado
5.30 Consulte los datos del problema 5.29. Si usted compró un Kia 2004, ¿cuál es la probabilidad de que este automóvil nuevo: a. no presente problemas? b. presente dos o menos problemas? c. Compare sus respuestas de los incisos a) y b) con las correspondientes al Kia 2003 del problema 5.28, incisos a) y b).
Conceptos clave
a la empresa. Los datos recabados antes señalan que se reciben 0.4 llamadas por minuto. a. ¿Cuáles propiedades deben ser verdaderas con respecto a la situación antes descrita para utilizar una distribución de Poisson con la finalidad de calcular las probabilidades relacionadas con el número de llamadas telefónicas recibidas durante un periodo de 1 minuto?
171
Suponiendo que esta situación concuerda con las propiedades que usted analizó en el inciso a), ¿cuál es la probabilidad de que durante un periodo de 1 minuto: b. no se reciban llamadas telefónicas? c. se reciban tres o más llamadas telefónicas? d. ¿Cuál es el número máximo de llamadas telefónicas que se recibirán durante un periodo de 1 minuto el 99.99% del tiempo?
RESUMEN En este capítulo estudió la esperanza matemática y el desarrollo y aplicación de las distribuciones binomial y de Poisson. En el escenario “Uso de la estadística” aprendió a calcular probabilidades a partir de la distribución binomial relacionada con la observación de las facturas marcadas por el sistema de información contable utilizado por la empresa de remodelaciones Saxon. En el siguiente capítulo, se desarrollará la distribución continua más importante: la distribución normal.
Como ayuda al decidir cuál de las dos distribuciones de probabilidad debe utilizar para una situación particular, debe plantearse la siguiente pregunta: • ¿Existe un número fijo de observaciones n, cada una de las cuales se clasifica como éxito o fracaso; o existe un área de oportunidad? Si hay un número fijo de observaciones n, cada una de las cuales se clasifica como éxito o fracaso, utilice la distribución binomial. Si hay un área de oportunidad, utilice la distribución de Poisson.
F Ó R M U L A S I M P O R TA N T E S Valor esperado µ de una variable aleatoria discreta µ = E( X ) =
N
∑ X i P( X i )
(5.1)
i =1
Varianza de una variable aleatoria discreta σ2 =
N
∑
[ X i − E ( X )]2 P ( X i )
(5.2)
Desviación estándar de una variable aleatoria discreta σ2 =
N
∑
[ X i − E ( X )] 2 P( X i )
i =1
Combinaciones n! nC X = X !(n − X )!
Media de la distribución binomial µ = E(X) = np
(5.6)
Desviación estándar de la distribución binomial
i =1
σ=
Distribución de probabilidad binomial n! P( X ) = p X (1 − p ) n − X (5.5) X !( n − X )!
(5.3)
σ =
σ 2 = Var( X ) =
np(1 − p )
(5.7)
Distribución de la probabilidad de Poisson e −λ λX (5.8) P( X ) = X!
(5.4)
C O N C E P T O S C L AV E área de oportunidad 166 desviación estándar de una variable aleatoria discreta 156 distribución de Poisson 166 distribución de probabilidad binomial 158
distribución de probabilidad de una variable aleatoria discreta 154 modelo matemático 158 regla de combinaciones 159
valor esperado de µ de una variable aleatoria discreta 155 varianza de una variable aleatoria discreta 156
172
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
P R O B L E M A S D E R E PA S O Revisión de su comprensión 5.32 ¿Cuál es el significado del valor esperado de una distribución de probabilidad? 5.33 ¿Cuáles son las cuatro propiedades que se requieren de una situación para utilizar la distribución binomial? 5.34 ¿Cuáles son las cuatro propiedades que se requieren de una situación para utilizar la distribución de Poisson?
Aplicación de conceptos Puede resolver los problemas 5.35 a 5.51 manualmente, en Excel o en Minitab. 5.35 Los seguros de contingencias permiten a los promotores de espectáculos deportivos y de entretenimiento contar con protección de pérdidas financieras causadas por circunstancias fuera de su control, como los aguaceros. Por ejemplo, cada primavera el Ayuntamiento Central de la ciudad de Cincinnati pone en marcha el Festival de Cincinnati. Esa época del año es lluviosa en la zona, y la posibilidad de que llueva más de una pulgada durante un fin de semana es de alrededor de una de cuatro. En un artículo publicado por el Cincinnati Enquirer, escrito por Jim Knippenberg (“Chicken Pox Means 3 Dog Night Remedy”, Cincinnati Enquirer, 28 de mayo, 1997, E1), se muestran los detalles de la póliza de seguro contratada por el Ayuntamiento Central. La póliza abarca el pago de $100,000 dólares si llueve más de una pulgada durante el fin de semana del festival. Se informó que el costo de la póliza fue de $6,500 dólares. a. Determine si cree o no que el monto de esas cifras es correcto. (Sugerencia: Calcule el valor esperado de las utilidades que recibirá la empresa aseguradora.) b. Suponga que los montos son correctos. ¿Esta póliza es una buena transacción para el Ayuntamiento Central de Cincinnati? 5.36 Desde 1872 hasta 2000, los precios de las acciones subieron el 74% de los años (Mark Hulbert, “The Stock Market Must Rise in 2002? Think Again”, The New York Times, 6 de diciembre, 2001, Business, 6). Con base en esta información, y suponiendo una distribución binomial, ¿cuál cree que es la probabilidad de que aumenten los precios en el mercado de valores a. el próximo año? b. el año siguiente al próximo? c. en cuatro de los próximos cinco años? d. en ninguno de los próximos cinco años? e. Para este caso, ¿qué suposición de la distribución binomial no sería válida? 5.37 El costo medio de una llamada telefónica controlada por un sistema automático de servicio al cliente es de $0.45. El costo medio de una llamada telefónica a través de una operadora es de $5.50. Sin embargo, conforme más empresas instrumentan sistemas automáticos, aumenta más la molestia de los clientes con ese sistema. Muchos clientes se apresuran a salir del sistema automático cuando reciben una opción como “Para hablar con un representante de ventas, marque cero”. De acuerdo con el Centro para Conservación de Clientes, el 40% de todas las
personas que hablan a los servicios automáticos de servicio al cliente seleccionan comunicarse con una operadora cuando cuentan con esa opción (Jane Spencer, “In Search of the Operator”, The Wall Street Journal, 8 de mayo, 2002, D1). Si 10 clientes independientes entre sí llaman a un sistema automático de servicio al cliente, ¿cuál es la probabilidad de que a. ninguno seleccione automáticamente la opción para hablar con una operadora? b. exactamente uno seleccione la opción para hablar con una operadora? c. dos o menos seleccionen automáticamente la opción para hablar con una operadora? d. los 10 seleccionen de manera automática la opción para hablar con una operadora? e. Si los 10 seleccionan automáticamente la opción para hablar con una operadora, ¿cree que la cifra del 40% mencionada en el artículo es aplicable a este sistema en particular? Explique por qué. 5.38 Una teoría referente al índice industrial Dow Jones afirma que es probable que éste se incremente durante los años de elección presidencial en Estados Unidos. De 1964 a 2000, el índice industrial Dow Jones ha aumentado en ocho de los 10 años en los que ha habido elección presidencial en ese país. Suponiendo que este indicador es un evento aleatorio sin valor de pronóstico, usted esperaría que fuese correcto el 50% de las veces. ¿Cuál es la probabilidad de que el índice industrial Dow Jones aumente en ocho o más de los 10 años de elección presidencial estadounidense, si la verdadera probabilidad de incremento es a. 0.50? b. 0.70? c. 0.90? d. Con base en los resultados de los incisos a) a c), ¿cuál cree que es la probabilidad de que se incremente el índice industrial Dow Jones en un año en el que hay elecciones presidenciales en Estados Unidos? 5.39 Priority Mail es la opción que ofrece el servicio postal estadounidense como competencia para las empresas de mensajería como Federal Express. Un artículo publicado en el Wall Street Journal presentó interesantes conclusiones en las que se comparan los envíos realizados por medio de Priority Mail con los más económicos embarques en primera clase (Rick Brooks, “New Data Reveal ‘Priority Mail’ Is Slower Than a Stamp”, The Wall Street Journal, 29 de mayo, 2002, D1). Al comparar los envíos para entrega en 3 días, se supo que las entregas en primera clase no llegaron a tiempo el 19% de las veces, mientras que Priority Mail falló el 33% de las veces. Hay que hacer notar que a la fecha de publicación del artículo, el costo mínimo de los envíos en primera clase era de $0.34 y el de Priority Mail era de $3.50. Si se envían 10 artículos en primera clase, a 10 destinos distintos que le aseguran que están en una ubicación de entrega en 3 días, ¿cuál es la probabilidad de que: a. ningún artículo tarde más de 3 días?
Problemas de repaso
b. un artículo tarde exactamente más de 3 días? c. dos o más artículos tarden más de tres días? d. ¿Cuáles son la media y la desviación estándar de la distribución de probabilidad? 5.40 Consulte el problema 5.39. Si los envíos se realizan utilizando Priority Mail, ¿cuál es la probabilidad de que a. ningún artículo tarde más de 3 días? b. un artículo tarde exactamente más de 3 días? c. dos o más artículos tarden más de 3 días? d. ¿Cuáles son la media y la desviación estándar de la distribución de probabilidad? e. Compare los resultados de los incisos a) a c) con los del problema 5.39, incisos a) a c). 5.41 La publicidad en las salas de cine está aumentando. Por lo general, de 60 a 90 segundos de duración, estos anuncios son más largos y extravagantes, y muestran la tendencia a sostener más audiencias cautivas que los anuncios de televisión. Así pues, no resulta sorprendente que las tasas de retención de los espectadores de los anuncios en cine sean superiores que las de los anuncios por televisión. De acuerdo con una encuesta realizada por la división ComQUEST del BBM Bureau of Measurement de Toronto, la probabilidad de que un espectador recuerde un anuncio que vio en el cine es de 0.74, mientras que la probabilidad de que un espectador recuerde un anuncio de 30 segundos que vio por televisión es de 0.37 (Nate Hendley, “Cinema Advertising Comes of Age”, Marketing Magazine, 6 de mayo, 2002, 16). a. La probabilidad de 0.74 reportada por el BBM Bureau of Measurement, ¿quedaría mejor clasificada como probabilidad clásica a priori, probabilidad clásica empírica o probabilidad subjetiva? b. Suponga que se seleccionan como muestra, de manera aleatoria, 10 espectadores de un anuncio en cine. Considere la variable aleatoria definida por el número de espectadores que recuerdan el anuncio. ¿Cuáles suposiciones se deben hacer, para asumir que la distribución de esta variable es la de una variable aleatoria binomial? c. Suponiendo que el número de espectadores que recuerdan el anuncio en el cine es una variable aleatoria binomial, ¿cuáles son la media y la desviación estándar de esta distribución? d. Con base en su respuesta al inciso c), si ninguno de los espectadores puede recordar el anuncio, ¿qué se infiere con respecto a la probabilidad de 0.74 mencionada en el artículo? 5.42 Consulte el problema 5.41. Calcule la probabilidad de que de 10 espectadores: a. ninguno recuerde el anuncio. b. los 10 recuerde el anuncio. c. más de la mitad recuerde el anuncio. d. ocho o más recuerden el anuncio. 5.43 Consulte el problema 5.42. Calcule la probabilidad de que, para un anuncio en televisión con la probabilidad de retención dada de 0.37, para 10 espectadores: a. ninguno recuerde el anuncio. b. los 10 recuerden el anuncio. c. más de la mitad recuerde el anuncio. d. ocho o más recuerden el anuncio.
173
e. Compare los resultados de los incisos a) a d) con los del problema 5.42, incisos a) a d). 5.44 En una encuesta realizada por el Council for Marketing and Opinion Research (CMOR), grupo comercial no lucrativo del ramo de la investigación con sede en Cincinnati, 1,628 de los 3,700 adultos con los que se pusieron en contacto en Estados Unidos se rehúsan a participar en encuestas por teléfono (Steve Jarvis, “CMOR Finds Survey Refusal Rate Still Rising”, Marketing News, 4 de febrero, 2002, 4). Suponga que llama de forma aleatoria a 10 adultos en Estados Unidos y les pide que participen en una encuesta telefónica. Utilizando los resultados del estudio realizado por CMOR, ¿cuál es la probabilidad de que: a. los 10 se rehúsen? b. se rehúsen exactamente 5? c. se rehúsen por lo menos 5? d. se rehúsen menos de 5? e. menos de 5 acepten participar en la encuesta? f. ¿Cuál es el número esperado de personas que se rehusará a participar? Explique el significado práctico de este número. 5.45 Las empresas emisoras de tarjetas de crédito están aumentando sus ingresos por medio de elevar los intereses moratorios que cobran a sus clientes. De acuerdo con un estudio realizado por cardweb.com, los intereses mocardweb.com, los intereses moratorios son la tercera mayor fuente de ingresos para las emisoras de tarjetas de crédito, después de los intereses comunes y las comisiones que se cobran a quienes aceptan sus tarjetas. En uno de los últimos años, el 58% de todos los tarjetahabientes tuvieron que pagar intereses moratorios alguna vez (Ron Lieber, “Credit-Card Firms Collect Record Levels of Late Fees”, The Wall Street Journal, 21 de mayo, 2002, D1). Si se selecciona una muestra aleatoria de 20 tarjetahabientes, ¿cuál es la probabilidad de que: a. ninguno tenga que pagar intereses moratorios? b. no más de 5 tengan que pagar intereses moratorios? c. más de 10 tengan que pagar intereses moratorios? d. ¿Qué suposiciones tuvo que hacer para responder a los incisos a) al c)? 5.46 Para quienes se dedican al comercio electrónico, no basta con hacer que un cliente visite su sitio Web. Estos comerciantes también deben persuadir a los compradores en línea de que realicen una compra y gasten dinero. Los expertos de Andersen Consulting estiman que el 88% de los compradores en red abandona sus carritos de compras virtuales antes de finalizar la transacción (Rebecca Quick, “The Lessons Learned”, The Wall Street Journal, 17 de abril, 2000, R6). Considere una muestra de 20 clientes que visitan un sitio Web de comercio electrónico, y suponga que la probabilidad de que un cliente abandone el sitio antes de finalizar la transacción es de 0.88. Utilice el modelo binomial para responder a las siguientes preguntas: a. ¿Cuál es el valor esperado, o media, de la distribución binomial? b. ¿Cuál es la desviación estándar de la distribución binomial? c. ¿Cuál es la probabilidad de que los 20 clientes abandonen el sitio sin completar una transacción? d. ¿Cuál es la probabilidad de que 18 clientes o más abandonen el sitio sin completar una transacción? e. ¿Cuál es la probabilidad de que 15 clientes o más abandonen el sitio sin completar una transacción?
174
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
5.47 Consulte el problema 5.46. Si el sitio Web se optimiza de tal manera que sólo el 70% de los clientes abandone el sitio sin completar su transacción, a. ¿cuál es el valor esperado, o media, de la distribución binomial? b. ¿cuál es la desviación estándar de la distribución binomial? c. ¿cuál es la probabilidad de que los 20 clientes abandonen el sitio sin completar una transacción? d. ¿cuál es la probabilidad de que 18 clientes o más abandonen el sitio sin completar una transacción? e. ¿cuál es la probabilidad de que 15 clientes o más abandonen el sitio sin completar una transacción? f. Compare los resultados de los incisos a) a e) con los del problema 5.46, incisos a) a e). 5.48 Una teoría referente al índice Standard & Poor’s 500 asegura que si éste aumenta durante los primeros cinco días hábiles del año, es probable que aumente durante todo el año. De 1950 a 2003, el índice Standard & Poor’s 500 registró incremento en sus índices durante los primeros días de 34 de esos años. Suponiendo que este indicador es un evento aleatorio sin valor de pronóstico, usted esperaría que fuese correcto el 50% de las veces. ¿Cuál es la probabilidad de que el índice Standard & Poor’s 500 aumente en 29 años, si su verdadera probabilidad de aumento es a. 0.50? b. 0.70? c. 0.90? d. Con base en los resultados de los incisos a) a c), ¿cuál cree que es la probabilidad de que aumente el índice Standard & Poor’s 500, si registra utilidades durante los primeros cinco días hábiles del año? Explique por qué. 5.49 El término falsa correlación se aplica a la aparente relación que existe entre variables que no tienen una relación real o que se relacionan con otras variables que no se midieron. Un indicador del mercado de valores muy difundido en Estados Unidos y que es un ejemplo de falsa correlación es la relación que existe entre el ganador del Súper Bowl y el desempeño del índice industrial Dow Jones en ese año. El indicador establece que cuando el ganador del Súper Bowl es de la Conferencia Nacional, el índice industrial Dow Jones aumenta durante ese año.
Cuando el ganador del Súper Bowl es de la Conferencia Americana, el índice industrial Dow Jones desciende durante ese año. En el lapso comprendido entre 1967 y 2003, un periodo de 37 años, el indicador ha resultado correcto en 31 de ellos. Suponiendo que este indicador es un evento aleatorio sin valor de pronóstico, usted esperaría que fuese correcto el 50% de las veces. a. ¿Cuál es la probabilidad de que el indicador resulte correcto 31 veces o más en 37 años? b. ¿Qué le dice lo anterior acerca de la utilidad de este indicador? 5.50 Las ventas de pelotas de golf en todo el mundo suman más de mil millones de dólares al año. La venta de gran número de pelotas se debe en gran parte a que los golfistas las pierden con un promedio de 4.5 pelotas por ronda de 18 hoyos (“Snapshots”, usatoday.com, 29 de enero, 2004). Suponga que el número de pelotas de golf extraviadas en una ronda de 18 hoyos tiene una distribución de variable aleatoria de Poisson. a. ¿Qué suposiciones es necesario hacer para que el número de pelotas de golf extraviadas en una ronda de 18 hoyos tenga una distribución de variable aleatoria de Poisson? Haciendo la suposiciones mencionadas en el inciso a), ¿cuál es la probabilidad de que: b. se extravíen 0 pelotas en una ronda de 18 hoyos? c. se extravíen 5 pelotas o menos en una ronda de 18 hoyos? d. se extravíen 6 pelotas o más en una ronda de 18 hoyos? 5.51 Un estudio realizado en las páginas de inicio de los sitios Web de las empresas incluidas en la lista Fortune 500 encontró que el promedio de enlaces inservibles por página de inicio es de 0.4 y que el promedio de errores ortográficos por página de inicio es de 0.16 (Nabil Tamimi, Murii Rajan y Rose Sebastianella, “Benchmarking the Home Pages of ‘Fortune’ 500 Companies”, Quality Progress, julio de 2000). Utilice la distribución de Poisson para buscar la probabilidad de que una página de inicio seleccionada al azar tenga: a. exactamente 0 enlaces inservibles. b. 5 o más enlaces inservibles. c. exactamente 0 errores ortográficos. d. 10 o más errores ortográficos.
CASO ACTUAL ADMINISTRACIÓN DEL SPRINGVILLE HERALD El departamento de mercadotecnia del Herald trata de incrementar sus ventas por suscripción, a través de una intensa campaña de marketing directo que incluye mensajes por correo, cupones de descuento y solicitudes por teléfono. La retroalimentación procedente de estas actividades señala que, tanto para suscriptores como para clientes potenciales, la entrega del periódico temprano por la mañana es un factor muy importante. Luego de varias sesiones con lluvia de ideas, un equipo compuesto por miembros de los departamentos de marketing y
de circulación resolvió que la garantía de entrega del periódico a una hora específica sería un buen argumento de venta para conservar suscriptores y conseguir nuevos. Este equipo concluyó que el Herald ofrecería a sus clientes la garantía de que recibirían su periódico a cierta ahora o, de lo contrario, ese ejemplar sería gratuito. Para ayudar al equipo a establecer una hora de entrega garantizada, Al Leslie, director de investigación, observó que el departamento de circulación tenía los datos que mostrarían
Apéndice
cada cuarto de hora el porcentaje de periódicos que faltaban por entregar, de 6:00 AM a 8:00 AM. Jan Shapiro recordó que en los formatos de suscripción se preguntaba a los clientes a qué hora esperaban recibir su ejemplar del Herald. Esos datos se combinaron después y se colocaron en una página Web interna del Herald (www.prenhaIl.com/HeraldCase/Circulation_Data.htm).
SH5.1
SH5.2
EJERCICIOS Revise los datos internos y proponga una hora razonable (al cuarto de hora más cercano) para garantizar la entrega. Como ayuda para explorar los efectos de su elección, calcule las siguientes probabilidades:
175
Si en un día determinado selecciona una muestra de 50 clientes, ¿cuál es la probabilidad de que, dada su hora de entrega seleccionada: a. menos de tres clientes reciban un ejemplar gratuito? b. 2, 3 o 4 clientes reciban un ejemplar gratuito? c. más de 5 clientes reciban un ejemplar gratuito? Considere que los efectos de corrección del proceso de entrega del periódico provocan que el porcentaje de periódicos que no se entregan a la hora garantizada se reduzca en un 2%. Si en un día determinado se selecciona una muestra de 50 clientes, ¿cuál es la probabilidad de que, dada su hora de entrega seleccionada (y la mejoría en la entrega): a. menos de 3 clientes reciban un ejemplar gratuito? b. 2, 3 o 4 clientes reciban un ejemplar gratuito? c. más de 5 clientes reciban un ejemplar gratuito?
REFERENCIAS 1. Bernstein, P. L., Against the Gods: The Remarkable Story of Risk (Nueva York: Wiley, 1996). 2. Emery, D. R. y J. D. Finnerty, Corporate Financial Management, 2a. ed. (Upper Saddle River, NJ: Prentice Hall, 2000). 3. Kirk, R. L., ed., Statistical Issues: A Reader for the Behavioral Sciences (Belmont, CA: Wadsworth, 1972). 4. Levine, D. M., P. Ramsey y R. Smidt, Applied Statistics for Engineers and Scientists Using Microsoft Excel and Minitab (Upper Saddle River, NJ: Prentice Hall, 2001).
5. Mescove, S.A., M. G. Simkin y A. Barganoff, Core Concepts of Accounting Information Systems, 7a. ed. (Nueva York: John Wiley, 2001. 6. Microsoft Excel 2003 (Redmond, WA: Microsoft Corp., 2002). 7. Minitab for Windows Version 14 (State College, PA: Minitab Inc., 2004).
Apéndice 5 Uso de software para distribuciones de probabilidad discreta A5.1
EXCEL
Para el valor esperado de una variable aleatoria discreta Abra el archivo Expected Value.xls. Esta hoja de trabajo contiene las entradas de la tabla 5.1 del ejemplo sobre aprobación de hipotecas de la página 155, y utiliza las funciones SUM y SQRT (raíz cuadrada) para calcular estadísticos. Para adaptar esta hoja de trabajo a otros problemas: • Si tiene más o menos de siete resultados, primero añada o elimine filas a la tabla, seleccionando el rango de celdas A5:E5 y luego Insertar ➜ Celdas o Editar ➜ Eliminar (si aparece un cuadro de opciones, seleccione Mover cel-
• • •
das hacia abajo si está añadiendo celdas, o Mover celdas hacia arriba si las está eliminando). Si añade filas, copie las fórmulas del rango de celdas C4: E4 en las nuevas filas de la tabla. Introduzca una lista corregida de valores de X en la columna A, comenzando con 1 en la celda A5. Introduzca los nuevos valores de P(X ) en la columna B.
Para probabilidades binomiales Abra el archivo de Excel Binomial.xls, que se muestra en la figura 5.2 de la página 162. Esta hoja de trabajo ya contiene las entradas del ejemplo de pedidos marcados utilizado en la sección 5.2. Esta hoja utiliza la función BINOMDIST para calcular
176
CAPÍTULO 5 Algunas importantes distribuciones de probabilidad discreta
probabilidades binomiales (para mayor información, consulte la sección G.6). Para adaptar esta hoja de trabajo a otros problemas:
• • •
Si tiene más o menos de tres resultados, primero añada o elimine filas a la tabla, seleccionando fila 15 y luego Insertar ➜ Celdas o Editar ➜ Eliminar. Si añade filas, copie las entradas del rango de celdas A14: B14 en toda la tabla, para actualizarla. Introduzca los valores de nuevo tamaño de la muestra y la probabilidad de éxito en las celdas B4 y B5.
O Vea la sección G.6 (Binomial) si desea que PHStat2 elabore esta hoja de trabajo para usted.
Para probabilidades de Poisson Abra el archivo de Excel Poisson.xls, que muestra la figura 5.5 de la página 168. Esta hoja de trabajo ya contiene las entradas del ejemplo sobre llegada de clientes utilizado en la sección 5.3. Esta hoja utiliza la función POISSON para calcular probabilidades de Poisson (para mayor información, consulte la sección G.7). Para adaptar esta hoja de trabajo a otros problemas:
• •
Si necesita más de 20 resultados, primero añada filas a la tabla, seleccionando fila 9 y luego Insertar ➜ Filas. Después, copie las entradas del rango de celdas A8:B8 en toda la tabla, para actualizarla. Introduzca el valor del número de éxitos promedio/esperado en la celda E4.
O Vea la sección G.7 (Poisson) si desea que PHStat2 elabore esta hoja de trabajo para usted.
A5.2 MINITAB Uso de Minitab para calcular probabilidades binomiales
FIGURA A5.1 Cuadro de diálogo Binomial Distribution en Minitab.
que llegan al banco, utilizado en la sección 5.3. Para calcular los resultados que se muestran en la figura 5.6 de la página 169, 1. Introduzca los valores 0 al 15 en las filas 1 a 16 de la columna C1. 2. Para calcular probabilidades de Poisson, seleccione Calc ➜ Probability Distributions ➜ Poisson. En el cuadro de diálogo Poisson Distribution (distribución de Poisson, vea la figura A5.2), seleccione la opción Probability para calcular las probabilidades de X éxitos para todos los valores de X. En el cuadro de editar Mean:, introduzca el valor λ de 3. Seleccione el botón con la opción Input column: e introduzca C1 en el cuadro de edición. Dé clic en OK.
Para ilustrar el uso de Minitab, tome en cuenta el sistema de información contable analizado en la sección 5.2. Para calcular los resultados de la figura 5.3 de la página 162, 1. Introduzca los valores 0, 1, 2, 3 y 4 en las filas 1 a 5 de la columna C1. 2. Seleccione Calc ➜ Probability Distributions ➜ Binomial para calcular probabilidades binomiales. En el cuadro de diálogo Binomial Distribution (distribución binomial, vea la figura A5.1), seleccione la opción Probability para calcular las probabilidades de X éxitos para todos los valores de X. En el cuadro de edición Number of trials: introduzca un tamaño de la muestra de 4. En el cuadro de editar Probability of success: introduzca .10. Seleccione el botón con la opción Input column: e introduzca C1 en el cuadro editable. Dé clic en el botón OK.
Uso de Minitab para calcular probabilidades de Poisson Para ilustrar la manera de calcular probabilidades de Poisson utilizando Minitab, volvamos al ejemplo del número de clientes
FIGURA A5.2 Ventana de diálogo Poisson Distribution de Minitab.
capítulo
6
LA DISTRIBUCIÓN NORMAL
Objetivos En este capítulo, aprenderá: • A calcular probabilidades de una distribución normal
•
A usar el plano de distribución normal para determinar si un conjunto de datos está distribuido de forma aproximadamente normal
Contenido del capítulo USO DE LA ESTADÍSTICA: Tiempo de descarga para la página principal de un sitio Web 6.1 Distribuciones de probabilidad continua 178 6.2 La distribución normal 179 6.3 Evaluación de la normalidad 194 Evaluación de las propiedades 194
Construcción de un plano de probabilidad normal 195 A.6 Uso del software con la distribución normal 202 A6.1 Excel 202 A6.2 Minitab 202
178
CAPÍTULO 6 La distribución normal
U S O D E L A E S TA D Í S T I C A Tiempo de descarga para la página principal de un sitio Web Suponga que usted es el diseñador del sitio Web OnCampus! que se dirige a los estudiantes universitarios. Para atraer y retener a los usuarios, necesita asegurarse de que la página principal se descargue rápidamente. Tanto el diseño de la página principal como la carga en el servidor Web de la empresa afectan el tiempo de descarga. Para revisar qué tan rápido se carga la página principal, se abre un navegador en una PC de las oficinas corporativas de OnCampus! y se mide el tiempo de descarga, cuántos segundos pasan desde que se enlaza con el sitio Web hasta que la página principal se abre por completo. Datos anteriores indican que la media del tiempo de descarga es de 7 segundos y la desviación estándar es de 2 segundos. Aproximadamente dos terceras partes del tiempo de descarga están entre 5 y 9 segundos, y cerca del 95% de los tiempos de descarga están entre los 3 y los 11 segundos. En otras palabras, los tiempos de descarga se distribuyen como una curva en forma de campana con un agrupamiento alrededor de la media de 7 segundos. ¿Cómo usaría esta información para responder las preguntas acerca de los tiempos de descarga de la página principal actual?
E
n el capítulo anterior, los gerentes de Saxon Home Improvement Company, querían ser capaces de resolver problemas referentes al número de ocurrencias de cierto tipo de resultados en un tamaño de muestra dado. Como diseñador Web de OnCampus!, usted se enfrenta a una tarea diferente, una que implica una medición continua porque el tiempo de descarga podría tener cualquier valor y no sólo un número entero. ¿Cómo podría responder a preguntas como las siguientes acerca de esta variable numérica continua?
• • • •
¿Qué proporción de las descargas de la página principal toman más de 10 segundos? ¿Cuántos segundos transcurren antes de que el 10% de las descargas se hayan realizado de forma completa? ¿Cuántos segundos transcurren antes de que el 99% de las descargas se hayan realizado por completo? ¿Cómo afectaría a las respuestas anteriores el rediseño de la página para que se descargue más rápido?
Como en el capítulo anterior, se utilizará la distribución de probabilidad como modelo. Leer este capítulo le ayudará a aprender acerca de las características de la distribución de la probabilidad continua y cómo usar la distribución normal para resolver problemas de negocios.
6.1
DISTRIBUCIONES DE PROBABILIDAD CONTINUA Una función de densidad de probabilidad continua es una expresión matemática que define la distribución de los valores para una variable aleatoria continua. La figura 6.1 muestra gráficamente tres funciones de densidad de probabilidad continua. El panel A representa una distribución normal. La distribución normal es simétrica y con forma de campana, lo que implica que la mayoría de los valores tienden a agruparse alrededor de la media, la cual, por su forma simétrica, es igual a la mediana. Aunque desde el punto de vista teórico los valores en una distribución normal pueden clasificarse del infinito negativo al infinito positivo, la forma de la distribución hace poco posible que ocurran valores extremadamente grandes o muy pequeños. El panel B representa una distribución uniforme donde la probabilidad de ocurrencia de un valor es igualmente posible de ocurrir en cualquier lugar entre el menor valor a y el mayor valor b. La distribución uniforme, en ocasiones llamada distribución rectangular, es simétrica, y por lo tanto, la media es igual a la mediana. El panel C representa una distribución exponencial. Esta distribución está sesgada hacia la derecha, haciendo que la media sea más grande que la mediana. El rango de una distribución exponencial es de cero a infinito positivo, pero su forma hace que la ocurrencia de valores extremadamente grandes sea muy poco posible.
6.2: La distribución normal
179
FIGURA 6.1 Tres distribuciones continuas.
Valores de X Panel A Distribución normal
6.2
Valores de X Panel B Distribución uniforme
Valores de X Panel C Distribución exponencial
LA DISTRIBUCIÓN NORMAL La distribución normal (en ocasiones llamada distribución gaussiana) es la distribución continua que se utiliza más comúnmente en estadística. La distribución normal es de vital importancia en estadística por tres razones principales:
• • •
Muchas variables continuas comunes en el mundo de los negocios tienen distribuciones que se asemejan estrechamente a la distribución normal. La distribución normal sirve para acercarse a diversas distribuciones de probabilidad discreta, como la distribución binomial y la distribución de Poisson. La distribución normal proporciona la base para la estadística inferencial clásica por su relación con el teorema de límite central (que se estudiará en el apartado 7.2).
La distribución normal se representa por la clásica forma de campana, ilustrada en el panel A de la figura 6.1. En la distribución normal, uno puede calcular la probabilidad de que varios valores ocurran dentro de ciertos rangos o intervalos. Sin embargo, la probabilidad exacta de un valor particular dentro de una distribución continua, como la distribución normal, es cero. Esta propiedad distingue a las variables continuas, que son medidas, de las variables discretas, las cuales son contadas. Como ejemplo, el tiempo (en segundos) se mide y no se cuenta. Por lo tanto, es factible determinar la probabilidad de que el tiempo de descarga para una página principal en un navegador de la Web esté entre 7 y 10 segundos o que la probabilidad de que el tiempo de descarga esté entre 8 y 9 segundos, o la probabilidad de que el tiempo de descarga esté entre 7.99 y 8.01 segundos. Sin embargo, la probabilidad de que el tiempo de descarga sea exactamente de 8 segundos es cero. La distribución normal tiene importantes propiedades teóricas:
• • • •
Tiene una apariencia de forma de campana (y, por ende, es simétrica). Sus medidas de tendencia central (media, mediana y moda) son todas idénticas. Su “50% central” es igual a 1.33 desviaciones estándar. Esto significa que el rango intercuartil está contenido dentro de un intervalo de dos tercios de una desviación estándar por debajo de la media y de dos tercios de una desviación estándar por encima de la media. Su variable aleatoria asociada tiene un rango infinito (−∞ < X < ∞).
En la práctica, muchas variables tienen distribuciones que se asemejan a las propiedades teóricas de la distribución normal. Los datos de la tabla 6.1 representan el espesor (en pulgadas) de 10,000 pulidores de cobre producidos por una gran empresa. La variable continua de interés, el espesor, puede aproximarse a la distribución normal. Las medidas del espesor de los 10,000 pulidores de cobre, se agrupan en el intervalo de 0.0190 a 0.0192 pulgadas y se distribuyen simétricamente alrededor de ese agrupamiento formando un patrón con forma de campana. Como se demuestra en la tabla 6.1, si este listado que no se traslapa (es mutuamente excluyente) contiene todos los intervalos de clase posibles (es colectivamente exhaustivo), las probabilidades sumarán 1. Tal distribución de probabilidad es una distribución de frecuencia relativa, como se describe en el apartado 2.3 donde, a excepción de dos clases abiertas al final, el punto medio de cada dos intervalos representa los datos en ese intervalo.
180
CAPÍTULO 6 La distribución normal
TABLA 6.1 Grosor de 10,000 pulidores de cobre.
Grosor (en pulgadas)
Frecuencia relativa
Debajo de 0.0180 0.0180 < 0.0182 0.0182 < 0.0184 0.0184 < 0.0186 0.0186 < 0.0188 0.0188 < 0.0190 0.0190 < 0.0192 0.0192 < 0.0194 0.0194 < 0.0196 0.0196 < 0.0198 0.0198 < 0.0200 0.0200 < 0.0202 0.0202 o más Total
48/10,000 = 0.0048 122/10,000 = 0.0122 325/10,000 = 0.0325 695/10,000 = 0.0695 1,198/10,000 = 0.1198 1,664/10,000 = 0.1664 1,896/10,000 = 0.1896 1,664/10,000 = 0.1664 1,198/10,000 = 0.1198 695/10,000 = 0.0695 325/10,000 = 0.0325 122/10,000 = 0.0122 48/10,000 = 0.0048 1.0000
La figura 6.2 representa el histograma de frecuencia relativa y el polígono para la distribución del espesor de 10,000 pulidores de cobre. Las tres propiedades teóricas de la distribución normal para estos datos, aproximadamente, se satisfacen; sin embargo, la cuarta no se sostiene. La variable aleatoria de interés, el espesor, no puede tener un valor de cero o menor, y un pulidor no puede ser tan espeso que se vuelva inútil. En la tabla 6.1 se ve que sólo 48 de cada 10,000 pulidores de cobre producidos tienen un espesor de 0.0202 pulgadas o más, mientras que se espera que el mismo número tenga un espesor por debajo de 0.0180 pulgadas. Por lo tanto, la posibilidad de obtener aleatoriamente un pulidor tan delgado o tan grueso es 0.0048 + 0.0048 = 0.0096, o menos de 1 en 100.
FIGURA 6.2 Histograma de frecuencia relativa y polígono del espesor de 10,000 pulidores de cobre.
Probabilidad de X
.20
Fuente: Los datos fueron tomados de la tabla 6.1.
.15 .10 .05 0
.0180 .0184 .0188 .0192 .0196 .0200 .0182 .0186 .0190 .0194 .0198 .0202 Espesor (en pulgadas)
La expresión matemática que representa la función de densidad de probabilidad continua está indicada con el símbolo f (X). Para la distribución normal, la función de densidad de la probabilidad normal se da en la ecuación (6.1).
LA FUNCIÓN DE DENSIDAD DE LA PROBABILIDAD NORMAL f (X ) =
donde
1
e
(1/ 2 )[( X µ )/ σ]2
2 πσ e es la constante matemática aproximada por 2.71828
π es la constante matemática aproximada por 3.14159 µ es la media σ es la desviación estándar X es cualquier valor de la variable continua, donde (−∞ < X < ∞)
(6.1)
6.2: La distribución normal
181
Puesto que e y π son constantes matemáticas, las probabilidades de una variable aleatoria X dependen sólo de dos parámetros de la distribución normal: la media µ y la desviación estándar σ. Cada vez que se especifique una combinación particular de la µ y la σ, se genera una distribución de probabilidad normal diferente. La figura 6.3 ilustra tres distribuciones normales diferentes. La distribución normal A y B tienen la misma media (µ), pero tienen desviaciones estándar diferentes. Las distribuciones A y C tienen la misma desviación estándar (σ), pero tienen medias diferentes. Las distribuciones B y C representan dos funciones de densidad de probabilidad normal que difieren con respecto a la µ y la σ.
FIGURA 6.3 Tres distribuciones normales.
B C A
La expresión matemática en la ecuación (6.1) es tediosa de calcular y requiere del cálculo integral. Por fortuna están disponibles tablas de probabilidad normal para evitar estos cálculos complicados. El primer paso para encontrar probabilidades normales es usar la fórmula de transformación, de la ecuación (6.2), para convertir cualquier variable aleatoria normal X en una variable aleatoria normal estandarizada Z.
FÓRMULA DE TRANSFORMACIÓN El valor Z es igual a la diferencia entre X y la media µ, dividida por la desviación estándar σ. Z =
X −µ σ
(6.2)
Aunque los datos originales para la variable aleatoria X tenían una media µ y una desviación estándar σ, la variable aleatoria estandarizada Z siempre tendrá una media µ = 0 y una desviación estándar σ = 1. Al sustituir µ = 0 y σ = 1 en la ecuación (6.1), la función de densidad de probabilidad de una variable normal estandarizada Z está dada en la ecuación (6.3).
LA FUNCIÓN DE DENSIDAD DE PROBABILIDAD NORMAL ESTANDARIZADA f (Z ) =
1 Este
texto utiliza la tabla E.2, la tabla normal estandarizada acumulativa. Al usar la tabla normal estandarizada, vea la tabla E.11 y la sección 6.1a del CD-ROM, “Using the Standardized Normal Distribution Table”.
1 2π
e −(1/ 2 )Z
2
(6.3)
Cualquier conjunto de valores distribuidos normalmente son susceptibles de convertirse a su forma estandarizada. Entonces se determinan las probabilidades deseadas usando la tabla E.2, la distribución normal estandarizada acumulativa. Para ver cómo se aplica la fórmula de transformación y los resultados usados para encontrar las probabilidades de la tabla E.2,1 recuerde que en el escenario “Uso de la estadística” de la página 178 los datos anteriores indicaban que el tiempo de descarga de la página Web se distribuye normalmente con una media µ = 7 segundos y una desviación estándar σ = 2 segundos. En la figura 6.4 se observa que cada medición X tiene una medición estandarizada correspondiente Z calculada con la fórmula de transformación [ecuación (6.2)]. Por lo tanto, un tiempo de descarga de 9 segundos es equivalente a 1 unidad estandarizada (es decir, 1 desviación estándar por arriba de la media) porque Z =
9−7 = +1 2
182
CAPÍTULO 6 La distribución normal
Un tiempo de descarga de 1 segundo es equivalente a 3 unidades estandarizadas (3 desviaciones estándar) por debajo de la media porque Z =
1− 7 = −3 2
Entonces, la desviación estándar es la unidad de medida. En otras palabras, un tiempo de 9 segundos es 2 segundos (es decir, 1 desviación estándar) más alto, o más lento, que la media de tiempo de 7 segundos. De forma similar, un tiempo de 1 segundo es 6 segundos (es decir, 3 desviaciones estándar) más bajo, o más rápido, que la media de tiempo.
FIGURA 6.4 Escalas de transformación.
Tiempo de descarga de la página principal de OnCampus!
µ – 3σ
µ – 2σ
µ – 1σ
µ
µ + 1σ
µ + 2σ
µ + 3σ
1
3
5
7
9
11
13
Escala X (µ = 7, σ = 2)
–3
–2
–1
0
+1
+2
+3
Escala Z (µ = 0, σ = 1)
Para ilustrar mejor la fórmula de transformación, suponga que la página principal de otro sitio Web tiene un tiempo de descarga que se distribuye normalmente con una media µ = 4 segundos y una desviación estándar σ = 1 segundo. Esta distribución se ilustra en la figura 6.5.
FIGURA 6.5 Una escala de transformación diferente. Tiempo de descarga de otra página principal
1
2
3
4
5
6
7
Escala X (µ = 4, σ = 1)
–3
–2
–1
0
+1
+2
+3
Escala Z (µ = 0, σ = 1)
6.2: La distribución normal
183
Comparando estos resultados con los del sitio Web OnCampus!, se observa que el tiempo de descarga de 5 segundos es 1 desviación estándar por arriba de la media de tiempo de descarga porque 5−4 = +1 1
Z =
Un tiempo de 1 segundo es 3 desviaciones estándar por debajo de la media de tiempo de descarga porque Z =
1− 4 = −3 1
Las dos curvas con forma de campana en las figuras 6.4 y 6.5 muestran los polígonos de frecuencia relativa de distribuciones normales representando el tiempo de descarga (en segundos) para los dos sitios Web. Como los tiempos de descarga representan la población completa, las probabilidades o proporción de área bajo la curva entera deben sumar 1. Suponga que desea encontrar la probabilidad de que el tiempo de descarga para el sitio Web OnCampus! sea menor a 9 segundos. Primero, se utiliza la ecuación (6.2) de la página 181 para transformar X = 9 a unidades estandarizadas Z. Puesto que X = 9 es una desviación estándar por arriba de la media, Z = +1.00. En seguida se utiliza la tabla 2 de la sección de Apéndices podrá encontrar el área acumulativa bajo la curva normal calculada menor que (es decir, a la izquierda de) Z = +1.00. Para leer la probabilidad o área bajo la curva menor que Z = +1.00 se revisa la columna Z de la tabla E.2 hasta localizar el valor Z de interés (en décimos) en la fila Z de 1.0. A continuación lea a través de esta fila hasta que intersecte la columna que contiene el lugar del valor Z en los centésimos. Por lo tanto, en el cuerpo de la tabla, la probabilidad tabulada para Z = 1.00 corresponde con la intersección de la fila Z = 1.0 con la columna Z = .00, como se muestra en la tabla 6.2, la cual se extrajo de la tabla 2 de la sección de Apéndices. Esta probabilidad es de 0.8413. Como se ilustra en la figura 6.6, hay un 84.13% de posibilidad de que el tiempo de descarga sea menor a 9 segundos.
TABLA 6.2 Encontrar el área acumulativa bajo la curva normal.
Z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
.5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413
.5040 .5438 .5832 .6217 .6591 .6950 .7291 .7612 .7910 .8186 .8438
.5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461
.5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485
.5160 .5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .8508
.5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531
.5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554
.5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577
.5319 .5714 .6103 .6480 .6844 .7190 .7518 .7823 .8106 .8365 .8599
.5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621
Fuente: Extraído de la tabla 2 de la sección de Apéndices.
FIGURA 6.6 Determinación del área menor que Z de una distribución normal estandarizada acumulativa.
Tiempo de descarga de la pgina principal de OnCampus! çrea 0.8413
1
3
5
7
9
11
13
Escala
Ð3.00
Ð2.00
Ð1.00
0
+1.00
+2.00
+3.00
Escala
X Z
184
CAPÍTULO 6 La distribución normal
Sin embargo, para las otras páginas principales de la figura 6.5, en la página 182, se observa que un tiempo de 5 segundos es 1 unidad estandarizada por arriba de una media de tiempo de 4 segundos. Así, la probabilidad de que el tiempo de descarga sea menor a 5 segundos es también 0.08413. La figura 6.7 muestra que a pesar del valor de la media µ y de la desviación estándar σ de una variable distribuida normalmente, la ecuación (6.2) permite transformar el problema a valores Z.
FIGURA 6.7 Demostración de la transformación de escalas para porciones correspondientes acumulativas bajo dos curvas normales.
Otra página principal
Página principal de OnCampus!
9 3
45
11
aX
cal
Es
13
7
aZ
cal
Es +3 +2 +1 0 –1 –2
–3
Ahora que ha aprendido a usar la tabla 2 de la sección de Apéndices con la ecuación (6.2), está en condiciones de responder muchas preguntas relacionadas con la página OnCampus! usando la distribución normal.
ENCONTRAR P(X > 9)
EJEMPLO 6.1
¿Cuál es la probabilidad de que el tiempo de descarga sea de más de 9 segundos? SOLUCIÓN La probabilidad de que el tiempo de descarga sea menor a 9 segundos es de 0.8413 (vea la figura 6.6 en la página 183). Así, la probabilidad de que el tiempo de descarga sea mayor a 9 segundos es el complemento de que sea menor a 9 segundos, 1 – 0.8413 = 0.1587. La figura 6.8 ilustra este resultado.
FIGURA 6.8 Encontrar P(X > 9).
.
Tiempo de descarga de la página principal de OnCampus!
Área 0.1587 0.8413 1
3
5
7
–3.00
–2.00
–1.00
0
9
11
13
+1.00 +2.00 +3.00
Escala X Escala Z
6.2: La distribución normal
EJEMPLO 6.2
185
ENCONTRAR P(7 < X < 9) ¿Cuál es la probabilidad de que el tiempo de descarga esté entre 7 y 9 segundos? SOLUCIÓN A partir de la figura 6.6 en la página 183, ya se ha determinado que la probabilidad de que el tiempo de descarga sea menor a 9 segundos es de 0.8413. Ahora deberá determinar la probabilidad de que el tiempo de descarga sea menor a 7 segundos y sustraer esto de la probabilidad de que el tiempo de descarga sea menor a 9 segundos, como se muestra en la figura 6.9.
FIGURA 6.9 Encontrar P(7 < X < 9).
Tiempo de descarga de la página principal de OnCampus!
Z=
X– µ 9–7 = = +1.00 σ 2
Área 0.3413 Área 0.5000
1
3
5
7
–3.00
–2.00
–1.00
0
9
11
13
Escala X
+1.00 +2.00 +3.00
Escala Z
Usando la ecuación (6.2) vea la página 181 Z =
7−7 = 0.00 2
Al utilizar la tabla E.2, se sabe que el área bajo la curva normal menor que la media de Z = 0.00 es 0.5000. Por lo tanto, el área bajo la curva entre Z = 0.00 y Z = 1.00 es 0.8413 – 0.5000 = 0.3413.
EJEMPLO 6.3
ENCONTRAR P(X < 7 O X > 9) ¿Cuál es la probabilidad de que el tiempo de descarga sea menor a 7 segundos o mayor a 9 segundos? SOLUCIÓN De la figura 6.9, la probabilidad de que el tiempo de descarga sea entre 7 y 9 segundos es de 0.3413. La probabilidad de que el tiempo de descarga esté por debajo de los 7 segundos o por arriba de los nueve segundos es su complemento, 1 – 0.3413 = 0.6587. Otra manera de ver este problema, es calcular de forma separada la probabilidad de tiempo de descarga menor a 7 segundos y la probabilidad de tiempo de descarga mayor a 9 segundos, y después sumar estas dos probabilidades juntas para calcular el resultado deseado. Este resultado se representa en la figura 6.10. Puesto que la media y la mediana son la misma para datos distribuidos normalmente, el 50% de los tiempos de descarga están por debajo de 7 segundos. En el ejemplo 6.1, la probabilidad de tiempo de descarga de más de 9 segundos es de 0.1587. Por lo tanto, la probabilidad de que el tiempo de descarga esté por debajo de 7 o por arriba de 9 segundos, P(X < 7 o X > 9), es 0.5000 + 0.1587 = 0.6587.
FIGURA 6.10 Encontrar P(X < 7 o X > 9).
Tiempo de descarga de la página principal de OnCampus! Área 0.3413 desde Z =
Área 0.5000
X–µ = +1.00 σ
Área 0.1587
1
3
5
7
–3.00
–2.00
–1.00
0
9
11
13
+1.00 +2.00 +3.00
Escala X Escala Z
186
CAPÍTULO 6 La distribución normal
EJEMPLO 6.4
ENCONTRAR P(5 < X < 9) ¿Cuál es la probabilidad de que el tiempo de descarga esté entre 5 y 9 segundos, es decir, P(5 < X < 9)? SOLUCIÓN En la figura 6.11 se observa que el área de interés se localiza entre dos valores, 5 y 9. Como la tabla 2 de la sección de Apéndices le permite encontrar probabilidades menores que un valor en particular de interés, siga los siguientes tres pasos para encontrar la probabilidad deseada: 1. Determine la probabilidad de menos de 9 segundos. 2. Determine la probabilidad de menos de 5 segundos. 3. Sustraiga el resultado menor del mayor.
FIGURA 6.11 Encontrar P(5 < X < 9).
Área = 0.1587 dado que X–µ Z= = –1.00 σ
Área acumulativa = 0.8413 porque X–µ Z= = +1.00 σ Área sombreada 0.8413 – 0.1587 = 0.6826
1
3
5
7
9
–3.00
–2.00
–1.00
0
+1.00
11
13
+2.00 +3.00
Escala X Escala Z
Para este ejemplo, ya se completó el paso 1. El área bajo la curva normal menor que 9 segundos es 0.8413. Para encontrar el área bajo la curva normal menor que 5 segundos (paso 2), Z =
5−7 = −1.00 2
En la tabla 2 de la sección de Apéndices, busque Z = −1.00 y encuentre 0.1587. Para el paso 3, la probabilidad de que el tiempo de descarga sea entre 5 y 9 segundos es 0.8413 – 0.1587 = 0.6826, como se muestra en la figura 6.11.
El resultado del ejemplo 6.4 es importante y le permite generalizar los resultados. Para cualquier distribución normal existe un 0.6826 de posibilidad de que un artículo seleccionado aleatoriamente caiga dentro de ±1 desviación estándar de la media. A partir de la figura 6.12, se sabe que ligeramente más del 95% de los artículos caerán dentro de ±2 desviaciones estándar. Por lo tanto, 95.44% de los tiempos de descarga están entre 3 y 11 segundos. A partir de la figura 6.13, se sabe que el 99.73% de los artículos caerán dentro de ±3 desviaciones estándar por arriba o por debajo de la media. Así, el 99.73% de los tiempos de descarga están entre 1 y 13 segundos. Por lo tanto, es poco probable (0.0027, o sólo 27 en cada 10,000) que el tiempo de descarga sea tan rápido o tan lento que tome menos de 1 segundo o más de 13 segundos. Es por esto que 6σ (es decir, de 3 desviaciones estándar por arriba de la media a 3 desviaciones estándar por debajo de la media) a menudo se usa como una aproximación práctica del rango para una distribución normal de datos. Por lo tanto, para cualquier distribución normal:
• • •
Aproximadamente el 68.26% de los artículos caerán dentro de ±1 desviación estándar alrededor de la media. Aproximadamente el 95.44% de los artículos caerán dentro de ±2 desviaciones estándar alrededor de la media. Aproximadamente el 99.73% de los artículos caerán dentro de ±3 desviaciones estándar alrededor de la media.
El resultado anterior es la justificación para la regla empírica presentada en la página 96. Cuanto más cerca siga un conjunto de datos a la distribución normal, más precisa y exacta es la regla empírica.
6.2: La distribución normal
FIGURA 6.12 Encontrar P(3 < X < 11).
FIGURA 6.13 Encontrar P(1 < X < 13).
EJEMPLO 6.5
El área por debajo es 0.0228 porque X–µ Z= = –2.00 σ
.
187
El área por debajo es 0.9772 porque X–µ Z= = +2.00 σ
1
3
5
7
–3.00
–2.00
–1.00
0
9
11
13
+1.00 +2.00 +3.00
Área por debajo es 0.00135 porque X–µ Z= = –3.00 σ
Escala X Escala Z
Área por debajo es 0.99865 porque X–µ Z= = +3.00 σ
1
3
5
7
–3.00
–2.00
–1.00
0
9
11
13
+1.00 +2.00 +3.00
Escala X Escala Z
ENCONTRAR P(X < 3.5) ¿Cuál es la probabilidad de que el tiempo de descarga esté por debajo de 3.5 segundos? SOLUCIÓN Para calcular la probabilidad de que un tiempo de descarga esté por debajo de 3.5 segundos, es necesario examinar la región baja de la cola izquierda de la figura 6.14.
FIGURA 6.14 Encontrar P(X < 3.5).
El área es 0.0401 porque Z =
X–µ = –1.75 σ
1
9
–3.00
3.5
5
–1.75 –1.00
7 0
11
13
+1.00 +2.00 +3.00
Escala X Escala Z
Para determinar el área bajo la curva por debajo de 3.5 segundos, primero calcule Z =
X −µ 3.5 − 7 = = −1.75 σ 2
Busque el valor Z en la tabla 2 de la sección de Apéndices apareando la fila Z apropiada (−1.7), con la columna Z apropiada (0.05) como se muestra en la tabla 6.3 (que se extrajo de la tabla 2). La probabilidad resultante o área bajo la curva menor que –1.75 desviaciones estándar por debajo de la media es 0.0401.
188
CAPÍTULO 6 La distribución normal
TABLA 6.3 Encontrar un área acumulativa bajo la curva normal.
Z . . . −1.7 −1.6
.00
.01
. . . .0446 .0548
. . . .0436 .0537
.02
.03
. . . . . . .0427 .0418 .0526 .0516
.04
.05
.06
.07
.08
.09
. . . .0409 .0505
. . . .0401 .0495
. . . .0392 .0485
. . . .0384 .0475
. . . .0375 .0465
. . . .0367 .0455
Fuente: Extraído de la tabla 2 de la sección de Apéndices.
EXPLORACIONES VISUALES Explorando la distribución normal Utilice el comando de exploración visual de la distribución normal para ver los efectos de los cambios en la media y la desviación estándar en el área bajo una curva de distribución normal. Abra el archivo Visual Explorations.xla y seleccione VisualExplorations ➜ Normal Distribution de la barra del menú de Excel. Verá la curva normal para el ejemplo de “Uso de la estadística” de la descarga de la página principal, así como un panel de control flotante que le permite ajustar la forma de la curva y el área sombreada bajo la curva (vea ilustración abajo).
Use los botones del panel de control para cambiar los valores para la media, la desviación estándar y el valor X, mientras nota sus efectos en la probabilidad del valor X < = y el área sombreada correspondiente bajo la curva (vea la ilustración de abajo). Si lo prefiere, seleccione la opción Valores Z para ver la curva normal rotulada con Valores Z. Dé clic en el botón Reset para reajustar los valores del panel de control o dé clic en Ayuda para información adicional sobre el problema. Dé clic en Finalizar cuando haya terminado de explorar.
189
6.2: La distribución normal
Los ejemplos 6.1 a 6.5 requieren que use las tablas normales para encontrar un área bajo la curva normal que corresponda a un valor X específico. En muchas circunstancias usted desea hacer lo contrario. Los ejemplos 6.6 y 6.7 ilustran cómo encontrar el valor X que corresponde a un área específica.
EJEMPLO 6.6
ENCONTRAR EL VALOR X PARA UNA PROBABILIDAD ACUMULATIVA DE 0.10 ¿Cuánto tiempo transcurrirá (en segundos) antes de que el 10% de las descargas estén completas? SOLUCIÓN Como se espera que el 10% de las páginas principales se descarguen por debajo de X segundos, el área bajo la curva normal menor a este valor Z es 0.1000. En el cuerpo de la tabla 2 de la sección de Apéndices, busque el área o probabilidad de 0.1000. El resultado más cercano es 0.1003, como se muestra en la tabla 6.4 (que se extrajo de la tabla 2).
TABLA 6.4 Encontrar un Valor Z que corresponde a un área acumulativa particular (0.10) bajo la curva normal.
Z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
.
.
.
.
.
.
.
.
.
.
.
. . −1.5 −1.4 −1.3 −1.2
. . .0668 .0808 .0968 .1151
. . .0655 .0793 .0951 .1131
. . .0643 .0778 .0934 .1112
. . .0630 .0764 .0918 .1093
. . .0618 .0749 .0901 .1075
. . .0606 .0735 .0885 .0156
. . .0594 .0721 .0869 .0138
. . .0582 .0708 .0853 .1020
. . .0571 .0694 .0838 .1003
. . .0559 .0681 .0823 .0985
Fuente: Extraído de la tabla E.2.
Trabajando desde esta área a los márgenes de la tabla, el valor Z correspondiente a la fila Z (−1.2) y la columna Z (.08) es –1.28 (vea la figura 6.15).
FIGURA 6.15 Encontrar Z para determinar X.
Área es 0.9000
Área es 0.1000 X
7
Escala X
–1.28
0
Escala Z
Una vez que encuentre Z, use la fórmula de transformación de la ecuación (6.2) en la página 181 para determinar el valor X como sigue. Sea Z =
X −µ σ
entonces X = µ + Zσ Al sustituir µ = 7, σ = 2 y Z = −1.28, X = 7 + (−1.28)(2) = 4.44 segundos Por lo tanto, el 10% de los tiempos de descarga se realizan en 4.44 segundos o menos.
190
CAPÍTULO 6 La distribución normal
La ecuación (6.4) se utiliza para encontrar un valor X.
ENCONTRAR UN VALOR X ASOCIADO CON UNA PROBABILIDAD CONOCIDA El valor X es igual a la media µ más el producto del valor Z y de la desviación estándar σ. (6.4)
X = µ + Zσ
Para encontrar un valor particular asociado con una probabilidad conocida, siga estos pasos. 1. Dibuje la curva normal, después coloque los valores para las medias en las escalas respectivas X y Z. 2. Encuentre el área acumulativa menor que X. 3. Sombree el área de interés. 4. Con la tabla 2 de la sección de Apéndices, determine el valor Z correspondiente al área bajo la curva normal por debajo de X. 5. Con la ecuación (6.4), resuelva para X: X = µ + Zσ
EJEMPLO 6.7
ENCONTRAR LOS VALORES X QUE INCLUYAN EL 95% DE LOS TIEMPOS DE DESCARGA ¿Cuáles son los valores inferiores y superiores de X, localizados simétricamente alrededor de la media, que incluyen el 95% de los tiempos de descarga? SOLUCIÓN Primero, necesita encontrar el valor inferior de X (llamado XL). Después debe encontrar el valor superior de X (llamado XU). Como el 95% de los valores están entre XL y XU, y XL y XU están a la misma distancia de la media, el 2.5% de los valores están por debajo de XL (vea la figura 6.16).
FIGURA 6.16 Encontrar Z para determinar XL. Área es 0.9750 Área es 0.0250
XL
7
Escala X
–1.96
0
Escala Z
Aunque XL no es conocido, se puede encontrar el Z correspondiente porque el área bajo la curva normal menor a este Z es 0.0250. En el cuerpo de la tabla 6.5, busque la probabilidad 0.0250.
TABLA 6.5 Encuentre el valor Z correspondiente al área acumulativa de 0.025 bajo la curva normal.
Z . . . −2.0 −1.9 −1.8
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
. . . .0228 .0287 .0359
. . . .0222 .0281 .0351
. . . .0217 .0274 .0344
. . . .0212 .0268 .0336
. . . .0207 .0262 .0329
. . . .0202 .0256 .0232
. . . .0197 .0250 .0314
. . . .0192 .0244 .0307
. . . .0188 .0239 .0301
. . . .0183 .0233 .0294
Fuente: Extraído de la tabla 2 de la sección de Apéndices.
6.2: La distribución normal
191
Trabajando desde el cuerpo de la tabla hacia los márgenes, se observa que el valor Z que corresponde a una fila Z en especial (−1.9) y a una columna Z (.06) es –1.96. Una vez que encuentre Z, el último paso es usar la ecuación (6.4) de la página 190, de la siguiente manera, X = µ + Zσ = 7 + ( −1.96 )(2 ) = 7 − 3.92 = 3.08 segundos
Se sigue un proceso parecido para encontrar XU. Puesto que sólo el 2.5% de las descargas de las páginas principales toman más de XU segundos, el 97.5% de las descargas de páginas principales toman menos de XU segundos. Para la simetría de una distribución normal, el valor Z deseado, como se muestra en la figura 6.17, es +1.96 (porque Z cae a la derecha de la media estandarizada de 0). También se puede extraer este valor Z de la tabla 6.6. Note que 0.975 es el área bajo la curva normal menor que el valor Z de +1.96.
FIGURA 6.17 Encontrar Z para determinar XU. Área es 0.9750 Área es 0.0250
TABLA 6.6 Encontrar un valor Z que corresponda al área acumulativa de 0.975 bajo la curva normal.
Z . . . +1.8 +1.9 +2.0
7
XU
Escala X
0
+1.96
Escala Z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
. . . .9641 .9713 .9772
. . . .9649 .9719 .9778
. . . .9656 .9726 .9783
. . . .9664 .9732 .9788
. . . .9671 .9738 .9793
. . . .9678 .9744 .9798
. . . .9686 .9750 .9803
. . . .9693 .9756 .9808
. . . .9699 .9761 .9812
. . . .9706 .9767 .9817
Fuente: Extraído de la tabla E.2.
Por lo tanto, al utilizar la ecuación (6.4) de la página 190, X = µ + Zσ = 7 + ( +1.96 )(2 ) = 7 + 3.92 = 10.92 segundos
Por lo tanto, el 95% de los tiempos de descarga están entre 3.08 y 10.92 segundos.
También se podría utilizar Excel o Minitab para calcular probabilidades normales. La figura 6.18 ilustra una hoja de trabajo de Excel para los ejemplos 6.5 y 6.6, y la figura 6.19 ilustra un resultado de Minitab para los ejemplos 6.1 y 6.6.
192
CAPÍTULO 6 La distribución normal
FIGURA 6.18 Hoja de trabajo de Excel para calcular probabilidades normales.
FIGURA 6.19 Probabilidades normales en Minitab.
PROBLEMAS PARA LA SECCIÓN 6.2 Aprendizaje básico 6.1 Dada una distribución normal (con una media de 0 y una desviación estándar de 1, como en la tabla 2 de la sección de Apéndices), ¿cuál es la probabilidad de que Z sea menor que 1.57? Z sea mayor que 1.84? Z esté entre 1.57 y 1.84? Z sea menor que 1.57 o mayor que 1.84?
ASISTENCIA
de PH Grade
a. b. c. d.
6.2 Dada una distribución normal estandarizada (con una media de 0 y una desviación estándar de 1, como en la tabla 2 de la sección de Apéndices), ¿cuál es la probabilidad de que a. Z esté entre –1.57 y 1.84? b. Z sea menor que –1.57 o mayor a 1.84? c. ¿Cuál es el valor de Z si sólo el 2.5% de todos los posibles valores de Z son más grandes? d. Entre cuáles dos valores de Z (distribuidos simétricamente alrededor de la media) estarán contenidos el 68.26% de todos los posibles valores Z?
6.3 Dada una distribución normal estandarizada (con una media de 0 y una desviación estándar de1 como en la tabla 2 de la sección de Apéndices), ¿cuál es la probabilidad deque a. Z sea menor que 1.08? b. Z sea mayor que −0.21? c. Z sea menor que −0.21 o mayor que la media? d. Z sea menor que −0.21 o mayor que 1.08? ASISTENCIA
de PH Grade
6.4 Dada una distribución normal estandarizada (con una media de 0 y una desviación estándar de 1 como en la tabla 2 de la sección de Apéndices), determine las siguientes probabilidades: a. P(Z > 1.08) b. P(Z < −0.21) c. P(−1.96 < Z < −0.21) d. ¿Cuál es el valor de Z si sólo 15.87% de todos los valores posibles de Z son mayores? ASISTENCIA
de PH Grade
6.5 Dada una distribución normal con µ = 100 y σ = 10, ¿cuál es la probabilidad de que
6.2: La distribución normal
a. b. c. d.
X > 75? X < 70? X < 80 o X > 110? el 80% de los valores estén entre los dos valores X (simétricamente distribuidos alrededor de la media)?
ASISTENCIA
de PH Grade
a. b. c. d.
6.6 Dada una distribución normal con µ = 50 y σ = 4, ¿cuál es la probabilidad de que
X > 43? X < 42? el 5% de los valores sean menores que el valor X? el 60% de los valores estén entre los dos valores X (simétricamente distribuidos alrededor de la media)?
Aplicación de conceptos 6.7 Durante 2001, el 61.3% de los hogares en Estados Unidos compraron café de grano y gastaron un promedio de $36.16 en café de grano durante el año (“Annual Product Preference Study”, Progressive Grocer, 1 de mayo, 2002, 31). Considere el desembolso anual para café de grano en los hogares que lo compran, suponiendo que este desembolso se distribuye aproximadamente como una variable aleatoria normal con una media de $36.16 y una desviación estándar de $10.00. a. Encuentre la probabilidad de que un hogar gaste menos de $25.00. b. Encuentre la probabilidad de que un hogar gaste más de $50.00. c. ¿Qué proporción de los hogares gastan entre $30.00 y $40.00? d. ¿El 99% de los hogares gastan menos de qué cantidad? 6.8 La empresa Toby´s Truck determina que, en una base anual, la distancia recorrida por camión se distribuye normalmente con una media de 50.0 mil millas y una desviación estándar de 12.0 mil millas. a. ¿Qué proporción de camiones se espera que recorran entre 34.0 y 50.0 mil millas en el año? b. ¿Qué porcentaje de camiones se espera que recorran por debajo de 30.0 o por arriba de 60.0 mil millas en el año? c. ¿Cuántas millas habrán sido recorridas por al menos el 80% de los camiones? d. ¿Cuáles serían sus respuestas a los incisos a) a c) si la desviación estándar fuera de 10.0 mil millas? ASISTENCIA
de PH Grade
AUTO Examen
6.9 La fuerza de rompimiento de las bolsas de plástico usadas para empacar productos se distribuye normalmente con una media de 5 libras por pulgada cuadrada y una desviación estándar de 1.5 libras por pulgada cuadrada. ¿Qué proporción de bolsas tienen una fuerza de rompimiento de a. menos de 3.17 libras por pulgada cuadrada? b. al menos 3.6 libras por pulgada cuadrada? c. entre 5 y 5.5 libras por pulgada cuadrada? d. ¿Entre cuáles dos valores simétricamente distribuidos alrededor de la media se encontrarán el 95% de las fuerzas de rompimiento? ASISTENCIA
de PH Grade
193
6.10 Un conjunto de calificaciones finales para un curso de Introducción a la estadística se distribuye normalmente con una media de 73 y una desviación estándar de 8. a. ¿Cuál es la probabilidad de que un alumno obtenga una calificación de 91 o menos en este examen? b. ¿Cuál es la probabilidad de que un alumno obtenga una calificación entre 65 y 89? c. Hay una probabilidad del 5% de que un alumno que realice el examen obtenga notas mayores a qué calificación? d. Si el profesor califica con base en una curva (da 10 al 10% más alto de la clase sin importar la calificación), ¿un alumno estará mejor con una calificación de 81 en este examen o con una calificación de 68 en un examen diferente donde la media es de 62 y la desviación estándar es de 3? Muestre estadísticamente su respuesta y explique. 6.11 Un análisis estadístico de 1,000 llamadas de larga distancia realizadas desde las oficinas de la corporación Bricks and Clicks Computer Corporation indica que la duración de estas llamadas se distribuye normalmente con una media de µ = 240 segundos y σ = 40 segundos. a. ¿Cuál es la probabilidad de que una llamada haya durado menos de 180 segundos? b. ¿Cuál es la probabilidad de que una llamada específica haya durado entre 180 y 300 segundos? c. ¿Cuál es la probabilidad de que una llamada haya durado entre 110 y 180 segundos? d. ¿Cuál es la duración de una llamada en particular si sólo el 1% de todas las llamadas son más cortas? 6.12 Al número de acciones negociadas diariamente en la Bolsa de Valores de Nueva (NYSE) se le conoce como el volumen negociado. El 23 de abril de 2004 se negociaron 1.395 miles de millones de acciones (“NYSE Volume”, The Wall Street Journal, 26 de abril, 2004, C2). Este volumen de negociaciones se acerca a la media del volumen para la NYSE. Suponga que el número de acciones negociadas en la NYSE es una variable aleatoria normal con una media de 1.4 miles de millones y una desviación estándar de 0.15 miles de millones. Para un día seleccionado aleatoriamente, ¿cuál es la probabilidad de que el volumen negociado de la NYSE sea: a. menor a 1.7 miles de millones? b. menor a 1.25 miles de millones? c. menor a 1.0 mil millones? d. mayor a 1.0 mil millones? 6.13 Muchos problemas de producción se relacionan con la unión exacta de partes de maquinaria, como flechas, que caben en el orificio de una válvula. Un diseño en particular requiere de una flecha con un diámetro de 22.00 mm, pero las flechas con diámetros entre 21.900 mm, y 22.010 mm son aceptables. Suponga que el proceso de manufactura fabrica flechas con diámetros que se distribuyen normalmente con una media de 22.002 mm y con una desviación estándar de 0.005 mm. Para este proceso, ¿cuál es a. la proporción de flechas con un diámetro entre 21.90 mm y 22.00 mm? b. la probabilidad de que una flecha sea aceptada? c. el diámetro que será sólo el 2% de las flechas excederán? d. ¿Cuáles serían sus respuestas en los incisos a) a c) si la desviación estándar de los diámetros de las flechas fuera de 0.004 mm?
194
CAPÍTULO 6 La distribución normal
6.3
EVALUACIÓN DE LA NORMALIDAD Como se discutió en la sección 6.2, muchas de las variables continuas usadas en negocios se asemejan estrechamente a una distribución normal. Sin embargo, muchas variables importantes ni siquiera pueden ser aproximadas por la distribución normal. Esta sección presenta dos modelos para evaluar si un conjunto de datos puede ser aproximado por una distribución normal: 1. Compare las características del conjunto de datos con las propiedades de la distribución normal. 2. Realice un plano de probabilidad normal.
Evaluación de las propiedades La distribución normal tiene varias propiedades teóricas importantes: • • • •
Es simétrica, por lo tanto, la media y la mediana son iguales. Tiene forma de campana, por lo que se aplica la regla empírica. El rango intercuartil es igual a 1.33 desviaciones estándar. El rango es infinito.
En la práctica, algunas variables continuas tienen características que se acercan a las propiedades teóricas. Sin embargo, muchas variables continuas no son distribuidas normalmente, ni tampoco distribuidas aproximadamente. Para tales variables, las características descriptivas de los datos no corresponden bien con las propiedades de la distribución normal. Un enfoque para verificar la normalidad consiste en comparar las características de los datos actuales con las propiedades correspondientes que subyacen a la distribución normal, como sigue.
• • •
Construya gráficas y observe su apariencia. Para conjuntos de datos pequeños o de tamaño moderado, diseñe un diagrama de tallo y hojas o una gráfica de caja y bigote. Para conjuntos de datos más grandes, elabore la distribución de frecuencia y trace el histograma o polígono. Calcule medidas numéricas descriptivas y compare las características de los datos con las propiedades teóricas de una distribución normal. Compare la media y la mediana. ¿El rango intercuartil es aproximadamente 1.33 veces la desviación estándar? ¿Es el rango aproximadamente 6 veces la desviación estándar? Evalúe cómo se distribuyen los datos. Determine si aproximadamente dos tercios de los valores caen entre la media ±1 desviación estándar. Determine si aproximadamente cuatro quintos de los valores caen entre la media ±1.28 desviaciones estándar. Determine si aproximadamente 19 de cada 20 valores caen entre la media ±2 desviaciones estándar.
¿Los rendimientos en 2003 de los fondos de inversión que se analizaron en los capítulos 2 y 3 tienen las propiedades de la distribución normal? La figura 6.20 muestra la estadística descriptiva para estos datos y la figura 6.21 presenta una gráfica de caja y bigote.
FIGURA 6.20 Estadística descriptiva en Excel para los rendimientos en 2003 de los fondos de inversión.
6.3: Evaluación de la normalidad
195
FIGURA 6.21 Gráfica de caja y bigote en Minitab para los rendimientos 2003 de los fondos de inversión.
De estas figuras se desprenden las siguientes afirmaciones: 1. La media de 42.62 es ligeramente mayor a la mediana de 40.8. 2. La gráfica de caja y bigote aparece ligeramente sesgada hacia la derecha con un valor extremo, el 78. 3. El rango intercuartilar de 16.45 está aproximadamente a 1.33 desviaciones estándar. 4. El rango de 63.1 es igual a 4.84 desviaciones estándar. 5. El 65.6% de los rendimientos está dentro de ±1 desviación estándar de la media. 6. El 78.7% de los rendimientos está dentro de ±1.28 desviaciones estándar de la media. Con base en estas afirmaciones y en los criterios anteriormente dados, se concluye que los rendimientos para 2003 están aproximadamente distribuidos de forma normal. Sin embargo, las afirmaciones 1 y 2 indican que los rendimientos en 2003 están sesgados ligeramente hacia la derecha.
Construcción de un plano de probabilidad normal Un plano de probabilidad normal es un acercamiento gráfico para evaluar si los datos están distribuidos normalmente. Un acercamiento común es la gráfica cuantil-cuantil. En este método, cada valor ordenado se transforma en una puntuación Z, y después se grafican los valores de los datos contra las puntuaciones Z. Por ejemplo, si se tiene una muestra de n = 19, el valor Z para el menor 1 1 1 = = = 0.05. El valor Z para el área valor corresponde al área acumulativa de n + 1 19 + 1 20 acumulativa de 0.05 (de la tabla 2 de la sección de Apéndices) es –1.65. La tabla 6.7 ilustra el conjunto completo de valores Z para una muestra de n = 19.
TABLA 6.7 Valores ordenados y sus valores Z correspondientes para una muestra de n = 19.
Valor ordenado
Valor Z
Valor ordenado
Valor Z
1
−1.65
11
0.13
2 3 4 5 6 7 8 9 10
−1.28 −1.04 −0.84 −0.67 −0.52 −0.39 −0.25 −0.13 0.00
12 13 14 15 16 17 18 19
0.25 0.39 0.52 0.67 0.84 1.04 1.28 1.65
196
CAPÍTULO 6 La distribución normal
Los valores Z se trazan en el eje X y los valores correspondientes de la variable se trazan en el eje Y. Si los datos se distribuyen de forma normal, los puntos se trazarán aproximadamente a lo largo de una línea recta. Un segundo modelo (usado por Minitab) transforma el eje vertical Y de una manera un poco más complicada que va más allá del objetivo de este texto. Una vez más, si los datos se distribuyen de forma normal, los puntos se trazarán aproximadamente a lo largo de una línea recta. La figura 6.22 ilustra la forma típica de las gráficas de probabilidad normal para una distribución sesgada hacia la izquierda (panel A), una distribución normal (panel B), y una distribución sesgada hacia la derecha (panel C). Si los datos están sesgados hacia la izquierda, la curva se elevará más rápidamente al inicio y después disminuirá. Si los datos están sesgados hacia la derecha, los datos se elevarán lentamente al inicio y después se elevarán a una tasa más rápida para los valores más altos de la variable a trazar.
FIGURA 6.22 Gráficas de probabilidad normal para una distribución sesgada hacia la izquierda, de una distribución normal y de una distribución sesgada hacia la derecha.
%
Sesgada hacia la izquierda Panel A
%
%
Normal Panel B
Sesgada hacia la izquierda Panel C
La figura 6.23 muestra una gráfica de probabilidad normal cuantil-cuantil de Excel y la figura 6.24 muestra una gráfica de probabilidad normal de Minitab para los rendimientos en 2003.
FIGURA 6.23 Gráfica de probabilidad normal de Excel para los rendimientos en 2003.
Las figuras 6.23 y 6.24 muestran que la gráfica de probabilidad normal de los rendimientos en 2003 se aproxima a una línea recta. Se concluye que los rendimientos en 2003 están distribuidos aproximadamente de forma normal.
6.3: Evaluación de la normalidad
197
FIGURA 6.24 Gráfica de probabilidad normal de Minitab para los rendimientos en 2003.
PROBLEMAS PARA LA SECCIÓN 6.3 Aprendizaje básico ASISTENCIA
de PH Grade
6.14 Pruebe que para una muestra de n = 39, los valores Z más pequeños y más grandes son –1.96 y +1.96, y el valor Z medio (es decir, 20º) es 0.00.
6.15 Para una muestra de n = 6, liste los seis valores Z.
Aplicación de conceptos Puede resolver los problemas 6.16 a 6.19 manualmente o en Excel, Minitab o SPSS. Le recomendamos resolver los problemas 6.20 a 6.22 con Excel, Minitab o SPSS. AUTO Examen
6.16 El precio diario de hotel para 25 ciudades en marzo de 2004 HOTEL-PRICE fue el siguiente:
Ciudad Anaheim Atlanta Boston Chicago Dallas Denver Detroit Filadelfia Houston Los Ángeles Miami Minneapolis Nashville74.61
Ciudad Nueva Orleáns Nueva York Norfolk Oahu Island Orlando Phoenix San Diego San Francisco Seattle St. Louis Tampa Washington
Precio de hotel 121.59 167.43 62.88 119.76 98.57 123.19 110.23 123.51 95.09 74.68 97.08 123.27
Fuente: USA Today, 27 de abril, 2004, 5B.
Precio de hotel 95.26 78.91 112.92 96.90 77.43 74.22 77.71 95.02 76.26 95.78 140.61 78.64
Determine si los datos parecen o no distribuirse aproximadamente de forma normal: a. evaluando las propiedades reales frente a las propiedades teóricas. b. construyendo una gráfica de probabilidad normal. 6.17 Un problema en una línea telefónica que evita que el cliente reciba o realice llamadas es desconcertante tanto para el cliente como para la empresa telefónica. Los datos en la parte superior de la página 198 representan dos muestras de 20 problemas reportados a dos diferentes oficinas de la empresa de teléfonos. El tiempo que se tardan en reparar estos problemas en las líneas telefónicas de los clientes se registra en minutos. PHONE
198
CAPÍTULO 6 La distribución normal
Oficina central I. Tiempo para reparar problemas (minutos) 1.48 1.75 0.78 2.85 0.52 1.60 4.15 3.97 1.48 3.10 1.02 0.53 0.93 1.60 0.80 1.05 6.32 3.93 5.45 0.97
Oficina central II. Tiempo para reparar problemas (minutos) 7.55 3.75 0.10 1.10 0.60 0.52 3.30 2.10 0.58 4.02 3.75 0.65 1.92 0.60 1.53 4.23 0.08 1.48 1.65 0.72
Determine, para cada una de las dos locaciones, si los datos parecen distribuirse de forma aproximadamente normal: a. evaluando las propiedades reales frente a las propiedades teóricas. b. realizando una gráfica de probabilidad normal. 6.18 Muchos procesos de manufactura usan el término trabajo en proceso (con frecuencia abreviado WIP, por las siglas en inglés para “work-in-process”). En una compañía impresora de libros, el WIP representa el tiempo necesario para doblar, juntar, coser, pegar por un extremo y encuadernar las hojas procedentes de la prensa. Los siguientes datos representan muestras de 20 libros en cada una de las dos plantas de producción y el tiempo de procesamiento (definido operacionalmente como el tiempo en días desde que los libros salieron de la prensa hasta que fueron empacados en cajas de cartón) para este trabajo: WIP
Planta A 15.62 5.29 16.25 10.92 11.46 21.62 8.45 8.58 5.41 11.42 11.62 7.29 17.50 17.96 14.42 10.50 7.58 9.29 7.54 18.92
Planta B 9.54 11.46 16.62 12.62 25.75 15.41 14.29 13.13 13.71 10.04 5.75 12.46 19.17 13.21 16.00 12.33 14.25 15.37 16.25 19.71
Determine, para cada una de las dos plantas, si los datos parecen o no distribuirse en forma aproximadamente normal: a. evaluando las propiedades reales frente a las propiedades teóricas. b. construyendo una gráfica de probabilidad normal. 6.19 Las puntuaciones de crédito son números de tres dígitos usados por los prestamistas para evaluar nuestro valor de crédito. Las puntuaciones para los residentes de veinte áreas metropolitanas son las siguientes: CREDITSCORE Ciudad Atlanta Boston Chicago Cleveland Dallas Denver Detroit Houston Los Ángeles Miami Minneapolis
Ciudad Nueva York Orlando Filadelfia Phoenix Sacramento San Francisco Seattle Tampa Washington
Puntuación de crédito 688 671 688 660 676 686 691 675 693
Determine si los datos parecen o no distribuirse de forma aproximadamente normal: a. evaluando las propiedades reales frente a las propiedades teóricas. b. construyendo una gráfica de probabilidad normal. 6.20 Una de las operaciones de un molino consiste en cortar trozos de acero en partes que posteriormente serán usadas como marco para los asientos delanteros en una planta automotriz. El acero se corta con una sierra de diamante y se requiere que las partes resultantes sean más o menos de 0.005 pulgadas de la longitud especificada por la empresa automotriz. Los datos provienen de una muestra de 100 partes de acero. STEEL La medida que se reporta es la diferencia en pulgadas entre la longitud real de la parte de acero, medida con láser, y la longitud especificada de la parte de acero. Determine si los datos parecen o no distribuirse de forma aproximadamente normal: a. evaluando las propiedades reales frente a las propiedades teóricas. b. realizando una gráfica de probabilidad normal. 6.21 En una fábrica que produce esquinas de goma, la goma cruda se mezcla en una máquina moldeadora y después se corta en tiras. Las tiras se cargan en una máquina de moldes y fundidas en las formas deseadas de esquinas de goma. Los pesos (en gramos) de la muestra de esquinas de goma son los siguientes: RUBBER
8.63 8.59 8.63 8.67 8.64 8.57 8.53 8.59 8.66 8.54 8.65 8.61 8.67 8.65 8.64 8.64 8.51 8.61 8.65 8.62 8.57 8.60 8.54 8.69 8.52 8.63 8.72 8.58 8.66 8.66 8.57 8.66 8.62 8.66 8.69 8.57 8.58 8.65 8.68 8.56 8.54 8.65 8.65 8.62 8.66 8.61 8.64 8.73 8.62 8.60
Puntuación de crédito
8.69 8.50 8.58 8.63 8.66 8.59 8.69 8.70 8.54 8.62
670 705 680 690 653 675 675 655 667 672 707
8.63 8.61 8.65 8.59 8.61 8.56 8.64 8.65 8.67 8.61 8.64 8.61 8.67 8.65 8.55 8.71 8.75 8.56 8.62 8.66 Fuente: W. L. Pearn and K. S. Chen, “A Practical Implementation of the Process Capability Indez Cpk”, Quality Engineering, 1997, 9, 721-737.
Determine si los datos parecen o no distribuirse de forma aproximadamente normal: a. evaluando las propiedades reales frente a las propiedades teóricas. b. construyendo una gráfica de probabilidad normal.
Problemas de repaso
6.22 Los siguientes datos representan el costo de la electricidad en dólares durante el mes de julio de 2004 para una muestra aleatoria de 50 departamentos de dos habitaciones en una ciudad grande: UTILITY 96 171 202 178 147 102 153 197 127 82 157 185 90 116 172 111 148 213 130 165 141
149
206
175
123
128
144
168
109
167
95
163
150
154
130
143
187
166
139
149
108
119
183
151
114
135
191
137
129
158
199
Determine si los datos parecen o no distribuirse de forma aproximadamente normal: a. evaluando las propiedades reales frente a las propiedades teóricas. b. construyendo una gráfica de probabilidad normal.
RESUMEN En este capítulo usted utilizó la distribución normal en el escenario “Uso de la estadística” para estudiar el tiempo de descarga de una página Web. Además, estudió la gráfica de probabili-
dad normal. En el siguiente capítulo, usará la distribución normal para desarrollar el tema de la estadística inferencial.
F Ó R M U L A S I M P O R TA N T E S La función de densidad de la probabilidad normal f (X ) =
1
e −(1/ 2 )[( X − µ )/ σ]
2
2 πσ
(6.1)
Encontrar el valor Z (fórmula de transformación) X −µ Z = σ
(6.2)
La función de densidad de probabilidad normal estandarizada 1 −(1/ 2 )Z 2 f (Z ) = e (6.3) 2π Encontrar el valor X X = µ + Zσ (6.4)
C O N C E P T O S C L AV E distribución normal 179 distribución normal estandarizada acumulativa 181 fórmula de transformación 181
función de densidad de probabilidad continua 178 función de densidad de probabilidad normal 180
gráfica cuantil-cuantil 195 gráfica de probabilidad normal variable aleatoria normal estandarizada Z 181
195
P R O B L E M A S D E R E PA S O Revisión de su comprensión
Aplicación de conceptos
6.23 ¿Por qué es que sólo una tabla de distribución normal como la tabla 2 de la sección de Apéndices, es necesaria para encontrar cualquier probabilidad por debajo de la curva normal?
6.27 Una máquina de coser industrial usa cojinetes que deben tener un diámetro de 0.75 pulgadas. Los límites inferior y superior especificados dentro de los que los cojinetes pueden operar son 0.74 y 0.76 pulgadas, respectivamente. La experiencia indica que el diámetro real de los cojinetes se distribuye de forma aproximadamente normal con una media de 0.753 pulgadas y una desviación estándar de 0.004 pulgadas. ¿Cuál es la probabilidad de que el cojinete esté a. entre el diámetro objetivo y la media real? b. entre el límite inferior especificado y el diámetro objetivo? c. por encima del límite superior especificado?
6.24 ¿Cómo se encuentra el área entre dos valores debajo de la curva normal? 6.25 ¿Cómo se encuentra el valor X que corresponde a un percentil dada una distribución normal? 6.26 ¿Cómo se utiliza la gráfica de probabilidad normal para evaluar si un conjunto de datos está distribuido normalmente?
200
CAPÍTULO 6 La distribución normal
d. por debajo del límite inferior especificado? e. el 93% de los diámetros son mayores, a qué valor? 6.28 La cantidad de líquido contenido en botellas de bebida refrescante se distribuye normalmente con una media de 2.0 litros y una desviación estándar de 0.05 litros. Las botellas que contienen menos del 95% del contenido neto listado (1.90 litros en este caso) son causa de que los productores sean penalizados por la oficina estatal de asuntos del consumidor. Las botellas que tienen un contenido neto superior a 2.10 litros, pueden causar un exceso de derrame cuando se abren. ¿Cuál es la proporción de botellas que contendrán: a. entre 1.90 y 2.0 litros? b. entre 1.90 y 2.10 litros? c. menos de 1.90 o más de 2.10 litros? d. el 99% de las botellas contienen por lo menos ¿qué cantidad de refresco? e. el 99% de las botellas contendrán una cantidad que está ¿entre cuáles dos valores (simétricamente distribuidos) alrededor de la media? 6.29 En un esfuerzo por reducir el número de botellas que contienen menos de 1.90 litros, el embotellador del problema 6.28 programa la máquina que llena los envases para que la media sea de 2.02 litros. En estas circunstancias, ¿cuáles serían sus respuestas para los incisos a) al e)? 6.30 Un productor de jugo de naranja compra todas sus naranjas de un gran naranjal. La cantidad de jugo exprimido de cada una de estas naranjas se distribuye aproximadamente de forma normal con una media de 4.70 onzas y una desviación estándar de 0.40 onzas. a. ¿Cuál es la probabilidad de que una naranja elegida aleatoriamente contenga entre 4.70 y 5.00 onzas? b. ¿Cuál es la probabilidad de que una naranja elegida aleatoriamente contenga entre 5.00 y 5.50 onzas? c. El 77% de las naranjas contendrán por lo menos ¿cuántas onzas de jugo? d. ¿Entre cuáles dos valores (en onzas) simétricamente distribuidos alrededor de la media poblacional, estarán el 80% de las naranjas? 6.31 De acuerdo con Investment Digest (“Diversification and the Risk/Reward Relationship”, Invierno de 1994, 1-3), la media del rendimiento anual para las acciones comunes de 1926 a 1992 fue del 12.4% y la desviación estándar del rendimiento anual fue del 20.6%. El artículo asegura que la distribución de los rendimientos anuales para las acciones comunes es aproximadamente simétrica y con forma de campana. Suponga que la distribución es de forma normal con la media y desviación estándar indicadas arriba. Encuentre la probabilidad de que los rendimientos para las acciones comunes sea a. mayor del 0%. b. mayor del 10%. c. mayor del 20%. d. menor del –10%. 6.32 Durante este mismo lapso de 67 años mencionado en el problema 6.31, la media del rendimiento anual para los bonos del gobierno a largo plazo fue de 5.2, y la desviación estándar fue de 8.6%. El artículo afirma que la distribución de los rendimientos anuales de los bonos de gobierno a largo plazo es aproximadamente simétrica y con forma de campana. Suponga que
la distribución se distribuye normalmente con la media y desviación estándar indicadas arriba. Encuentre la probabilidad de que el rendimiento para los bonos de gobierno a largo plazo será a. mayor del 0%. b. mayor del 10%. c. mayor del 20%. d. menor del –10%. e. Discuta las diferencias entre los rendimientos anuales de las acciones comunes y los bonos de gobierno a largo plazo. 6.33 El Wall Street Journal reportó que casi todos los principales índices de acciones habían tenido fuertes ganancias en los últimos 12 meses (“What´s Hot... and Not”, The Wall Street Journal, 26 de abril, 2004, C3). El rendimiento anual del S&P 500, que comprende 500 grandes empresas, fue de aproximadamente del +27%. Los rendimientos de un año de Russell 2000, que agrupa a 2000 pequeñas empresas, fue de aproximadamente el +52%. A lo largo de la historia, los rendimientos de un año son aproximadamente normales. La desviación estándar para los rendimientos S&P 500 es aproximadamente del 20% y para Russell 2000 la desviación estándar es aproximadamente del 35%. a. ¿Cuál es la probabilidad de que una acción de S&P 500 haya ganado el 30% o más en el último año? ¿Que haya ganado el 60% o más en el último año? b. ¿Cuál es la probabilidad de que una acción de S&P 500 perdiera dinero el año pasado? ¿Y de que perdiera el 30% o más dinero? c. Repita los incisos a) y b) para las acciones en Russell 2000. d. Escriba un breve resumen acerca de lo que haya encontrado. Asegúrese de incluir una explicación acerca de los riesgos asociados a tener una desviación estándar grande. 6.34 El New York Times reportó (Laurie J. Flynn, “Tax Surfing”, The New York Times, 25 de marzo, 2002, C10) que la media del tiempo de descarga para la página principal del sitio Web Internal Revenue Service www.irs.gov es de 0.8 segundos. Suponga que el tiempo de descarga se distribuye normalmente con una desviación estándar de 0.2 segundos. ¿Cuál es la probabilidad de que el tiempo de descarga sea a. menor a 1 segundo? b. de entre 0.5 y 1.5 segundos? c. de más de 0.5 segundos? d. el 99% de los tiempos de descarga están por arriba ¿de cuántos segundos? e. ¿Entre cuáles dos valores simétricamente distribuidos alrededor de la media se encuentra el 95% de los tiempos de descarga? 6.35 El mismo artículo mencionado en el problema 6.34 también reportó que la media del tiempo de descarga para el sitio Web de H&R Block www.hrblock.com es de 2.5 segundos. Suponga que el tiempo de descarga se distribuye normalmente con una desviación estándar de 0.5 segundos. ¿Cuál es la probabilidad de que el tiempo de descarga sea a. menor a 1 segundo? b. de entre 0.5 y 1.5 segundos. c. de más de 0.5 segundos? d. ¿Por arriba de cuántos segundos se encuentran el 99% de los tiempos de descarga? e. Compare los resultados para el sitio IRS calculados en el problema 6.34 con los del sitio H&R Block.
Caso actual
6.36 (Proyecto de grupo) De acuerdo con Burton G. Malkiel, los cambios diarios en el precio de cierre de las acciones sigue un camino aleatorio (es decir, estos eventos diarios son independientes uno del otro y se mueven hacia arriba o hacia debajo de forma aleatoria) y pueden aproximarse a una curva normal. Para probar esta teoría, utilice el periódico o Internet para seleccionar una empresa que cotice en la Bolsa de Valores de Nueva York, una empresa que cotice en el American Stock Exchange, y una empresa que cotice “sobre el escritorio” (es decir, en el mercado nacional NASDAQ) y después haga lo siguiente: 1. Registre los cambios diarios del precio de cierre de las acciones para cada una de las empresas durante 6 semanas consecutivas (para que así tenga 30 valores por empresa). 2. Registre los cambios diarios del cierre del precio de las acciones para cada una de estas empresas durante 6 semanas consecutivas (para que así tenga 30 valores por empresa). Para cada uno de sus seis conjuntos de datos, determine si los datos se distribuyen de forma aproximadamente normal a. examinando una gráfica de tallo y hoja, un histograma o polígono y una gráfica de caja y bigote. b. evaluando las propiedades reales frente a las propiedades teóricas. c. realizando una gráfica de probabilidad normal. d. Analice los resultados de los incisos a), b) y c). ¿Qué concluye ahora sobre sus tres compañías con respecto a los precios de cierre diarios y los cambios en los precios de cierre? ¿Cuál de los conjuntos de datos, si acaso alguno, se aproxima a una distribución normal? Nota: La teoría del camino aleatorio pertenece a los cambios diarios en el precio de cierre de las acciones, no al precio diario de cierre de las acciones.
201
PROYECTO EN EQUIPO Los datos del archivo MUTUALFUNDS2004 contienen información respecto a 12 variables de una muestra de 121 fondos de inversión. Las variables son: Fund —El nombre del fondo de inversión. Category —Tipo de acciones comprendidas en el fondo de inversión: pequeño capital, capital medio, gran capital. Objective —Objetivo de las acciones comprendidas en el fondo de inversión: crecimiento o valor. Assets —Activos en millones de dólares. Fees —Cargos por ventas (sí o no). Expense ratio —Relación entre gastos y activos netos en porcentaje. 2003 Return —Rendimiento de 12 meses en el 2003. Three-year return —Rendimiento anualizado de 2001 a 2003. Five-year return —Rendimiento anualizado de 1999 a 2003. Risk —Factor riesgo-pérdida de los fondos de inversión clasificado como bajo, promedio o alto. Best quarter —Mejor rendimiento trimestral de 1999 a 2003. Worst quarter —Peor rendimiento trimestral de 1999 a 2003. 6.37 Considere las variables de relación de gastos, rendimiento anualizado a tres años y rendimiento anualizado a cinco años. Para cada una de estas variables, determine si los datos se distribuyen aproximadamente de forma normal a. evaluando las propiedades reales frente a las teóricas. b. construyendo una gráfica de probabilidad normal.
CASO ACTUAL ADMINISTRACIÓN DEL SPRINGVILLE HERALD El departamento de producción del periódico se ha embarcado en un esfuerzo por mejorar la calidad. Su primer proyecto se relaciona con la tonalidad oscura de la impresión del periódico. Cada día se necesita determinar qué tan oscura es la impresión. La tonalidad se mide en una escala estándar en la que el valor objetivo es 1.0. Los datos recopilados en el último año indican que la tonalidad negra se distribuye normalmente con una media de 1.005 y una desviación estándar de 0.10. Cada día se elige una mancha del primer periódico impreso y se mide la tonalidad oscura. Ésta se considera aceptable si está entre 0.95 y 1.05.
EJERCICIO SH6.1 Suponiendo que la distribución no ha cambiado con respecto a la del año pasado, ¿cuál es la probabilidad de que la tonalidad de la mancha sea: a. menor a 1.0? b. entre 0.95 y 1.0? c. entre 1.0 y 1.05? d. menos de 0.95 o mayor que 1.05? SH6.2 El objetivo del equipo de producción es reducir la probabilidad de que la tonalidad oscura esté por debajo de 0.95 o por arriba de 1.05. ¿Sería mejor enfocarse en el proceso de mejoramiento que disminuyó la media del valor objetivo de 1.0 o en el proceso de mejoramiento que redujo la desviación estándar a 0.075? Explique por qué.
202
CAPÍTULO 6 La distribución normal
CASO WEB Aplique su conocimiento acerca de la distribución normal en este caso Web que viene del escenario “Uso de la estadística” de este capítulo. Para satisfacer las preocupaciones de los anunciantes potenciales, la administración de OnCampus! ha puesto en marcha un proyecto de investigación para aprender sobre la cantidad de tiempo que los lectores permanecen en sus sitios Web. El departamento de marketing ha recopilado datos y ha hecho algunas aseveraciones basadas en la afirmación de que los datos siguen una distribución normal. Los datos y las conclusiones pueden encontrarse en un reporte dentro del si-
tio Web interno www.prenhall.com/Springville/OC_MarketingSurvey.htm. Lea este reporte de marketing y después responda lo siguiente: 1. ¿Pueden los datos recopilados aproximarse con una distribución normal? 2. Revise y evalúe las conclusiones hechas por el departamento de marketing de OnCampus! ¿Qué conclusiones son correctas? ¿Cuáles son incorrectas? 3. Si OnCampus! pudiera cambiar su tiempo promedio en cinco minutos, ¿cómo cambiarían las probabilidades?
REFERENCIAS 1. Gunter, B., “Q-Q Plots”, Quality Progress (febrero de 1994), 81-86. 2. Marascuilo, L. A. y M. McSweeney, Nonparametric and Distribution-Free Methods for the Social Sciences (Monterey, CA: Brook/Cole, 1977).
3. Microsoft Excel 2003 (Redmond, WA: Microsoft Corp., 2003). 4. Minitab for Windows Version 14 (State College, PA: Minitab Inc., 2004).
Apéndice 6 Uso del software con la distribución normal A6.1 EXCEL Para probabilidades normales Abra el archivo Normal.xls mostrado en la figura 6.18 de la página 192. Esta hoja de trabajo resuelve los problemas para los ejemplos 6.5 y 6.6. Abra el archivo Normal Expanded.xls para solucionar los problemas similares a los ejemplos 6.2 y 6.3, así como los ejemplos 6.5 y 6.6. Ambas hojas de trabajo usan las funciones STANDARDIZE, DISTR.NORM, NORMSINV y NORMINV para calcular probabilidades normales y valores relacionados (vea la sección G.8 para información adicional). Para adaptar estas hojas de trabajo a otros problemas, cambie los valores de Media, Desviación Estándar, Valores X y Porcentaje Acumulado en las celdas sombreadas. O vea la sección G.8 (Normal) si desea usar el PHStat2 para generar una hoja de trabajo para usted.
Para una gráfica de probabilidad normal No hay comandos en Excel que generen directamente una gráfica de probabilidad normal. Si desea que PHSat2 produzca una gráfica de probabilidad normal.
A6.2 MINITAB Uso de Minitab para calcular probabilidades normales Puede usar Minitab en lugar de la tabla 2 de la sección de Apéndices para calcular probabilidades normales. Para encontrar la probabilidad de que un tiempo de descarga sea menor a 9 segundos con una µ = 7 y una σ = 2: 1. Ingrese 9 en la primera fila de la columna C1 de una hoja de trabajo en blanco.
Apéndice
2. Seleccione Calc ➜ Probability Distributions ➜ Normal. 3. En la ventana de diálogo de la distribución normal (vea la figura A6.1) seleccione el botón de la opción Cumulative probability. Ingrese 7 en el cuadro de edición Mean y 2 en el cuadro de edición Standard deviation. Seleccione el botón de la opción Input column e ingrese C1 en su cuadro de edición. Dé clic en el botón OK. Obtendrá el resultado mostrado en la parte superior de la figura 6.19 de la página 192.
203
3. En el cuadro de diálogo de Probability Plot-Single (vea la figura A6.2), en el cuadro de edición Graph variables, ingrese C7 o “Return 2003”.
FIGURA A6.2 Ventana de diálogo Probability PlotSingle de Minitab.
FIGURA A6.1 Ventana de diálogo de distribución normal de Minitab.
4. Dé clic en el botón Distribution. En la ventana de diálogo de Probability Plot-Distribution (vea la figura A6.3), seleccione Normal en la lista que se despliega hacia abajo de Distribution. Dé clic en el botón OK para regresar al cuadro de diálogo de Probability Plot-Single. Dé clic en el botón OK.
Para encontrar el valor Z correspondiente a un área acumulativa de 0.10, 1. Ingrese .10 en la fila 1 de la columna C2. 2. Seleccione Calc ➜ Probability Distributions ➜ Normal. 3. Seleccione el botón con la opción Inverse cumulative probability. Ingrese 7 en el cuadro de edición Mean y 2 en el cuadro de edición Standard deviation. 4. Seleccione el botón de la opción Input column e ingrese C2 en el cuadro de edición. Dé clic en el botón OK. Obtendrá el resultado mostrado en la parte inferior de la figura 6.19 de la página 192.
Uso de Minitab para una gráfica de probabilidad normal Para construir una gráfica de probabilidad normal en Minitab para los rendimientos en 2003 de los fondos de inversión, abra la hoja de trabajo MUTUALFUNDS2004.MTV. Entonces, 1. Seleccione Graph ➜ Probability Plot. 2. En el cuadro de diálogo de Probability Plots, seleccione Single. Dé clic en el botón OK.
FIGURA A6.3 Cuadro de diálogo Probability Plot Distribution de Minitab.
capítulo
7
MUESTREO Y DISTRIBUCIONES DE MUESTREO
Objetivos • •
•
Tomar una muestra de una población total y utilizarla para describir a la población Asegurar que las muestras tomadas sean una representación precisa de la población de la que provienen Introducir los conceptos de distribuciones de muestreo
•
•
Comprender la relación entre el costo de tomar muestras más grandes y la precisión adicional que esto proporciona a las decisiones tomadas a partir de ellas Introducir un diseño experimental: procedimientos de muestreo para recabar la mayor información con el mínimo costo
Contenido del capítulo 7.1 7.2 7.3 7.4
Introducción al muestreo 206 Muestreo aleatorio 208 Diseño de experimentos 214 Introducción a las distribuciones de muestreo 217 7.5 Distribuciones de muestreo a detalle 221 7.6 Una consideración operacional en el muestreo: la relación entre el tamaño de muestra y el error estándar 231
• • • • •
Estadística en el trabajo 235 Ejercicio de base de datos computacional 236 Términos introducidos en el capítulo 7 237 Ecuaciones introducidas en el capítulo 7 238 Ejercicios de repaso 238
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
206
CAPÍTULO 7 Muestreo y distribuciones de muestreo
unque en Estados Unidos hay más de 200 millones de televidentes y poco más de la mitad de esa cantidad de aparatos de televisión, sólo se muestrean unos 1,000 aparatos para determinar los programas que los estadounidenses ven. ¿Por qué se seleccionan sólo 1,000 aparatos de un total de 100 millones? Porque el tiempo y el costo promedio de una entrevista impiden a las compañías de opinión intentar llegar a millones de personas. Y puesto que las encuestas son razonablemente precisas, resulta innecesario entrevistar a todo mundo. En este capítulo analizaremos preguntas como: ¿A cuántas personas se debe entrevistar? ¿Cómo deben seleccionarse? ¿Cómo sabemos cuándo nuestra muestra refleja de manera precisa a nuestra población total? ■
A
7.1 Introducción al muestreo Razones para realizar muestreos
Censo o muestra
Ejemplos de poblaciones y de muestras
Es común que los compradores prueben una porción pequeña de queso antes de comprar alguno; a partir del trocito, determinan el sabor del queso completo. Lo mismo hace un químico cuando toma una muestra de whisky de una barrica, determina que es de grado 90 e infiere que todo el whisky de esa barrica es de ese grado. Si el químico examinara todo el whisky o los compradores probaran todo el queso, no quedaría nada para vender. Probar todo el producto es innecesario y a menudo, destructivo. Para determinar las características del todo, tenemos que muestrear sólo una porción. Supongamos que, como director de personal de un gran banco, usted necesita escribir un informe que describa a todos aquellos empleados que han dejado voluntariamente la compañía en los últimos 10 años. Sería muy difícil localizar a estas personas. No se les puede localizar fácilmente como grupo, pues muchas han muerto, se han mudado o han adquirido un nuevo nombre al casarse. ¿Cómo podría escribir el informe? La mejor idea es localizar una muestra representativa y entrevistarla con el fin de generalizar con respecto a todo el grupo. El tiempo también es un f actor importante cuando los administradores requieren obtener información rápidamente para ajustar una operación o modificar una política. Imaginemos una máquina automática que clasifica miles de piezas de correo diariamente. ¿Por qué esperar el resultado de todo un día para verificar que la máquina funcione correctamente (es decir, para comprobar si las características de población son las requeridas por el servicio postal)? En vez de ello, se toman muestras a intervalos específicos y, si es necesario, la máquina puede ajustarse inmediatamente. Algunas veces es posible y práctico examinar a cada persona o elemento de la población que deseamos describir. Esta acción se conoce como enumeración completa o censo. Se recurre al muestreo cuando no es posible contar o medir todos los elementos de la población. Los especialistas en estadística usan la palabra población para referirse no sólo a personas sino a todos los elementos que han sido escogidos para su estudio.En los casos que acabamos de mencionar, las poblaciones son todo el queso del trozo, todo el whisk y de la barrica, todos los empleados del gran banco que por propia voluntad se fueron en los últimos 10 años, y todo el correo clasificado por la máquina automática desde la verificación anterior de la muestra. Los especialistas en estadística emplean la palabra muestra para describir una porción escogida de la población.
Estadísticas y parámetros Función de la estadística y los parámetros
Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la me dia, la mediana, la moda y la desviación estándar. Cuando estos términos describen las características de una muestra, se denominan estadísticas. Cuando describen las características de una población, se llaman parámetros. Una estadística es una característica de una muestra y un parámetro es una característica de una población.
7.1: Introducción al muestreo
Uso de estadísticas para estimar parámetros
N, , , n, x, s: símbolos estándar
207
Supongamos que la estatura media en centímetros de todos los alumnos de décimo año en Estados Unidos es de 60 pulgadas, o 152 cm. En este caso, 152 cm es una característica de la población de “todos los alumnos de décimo año” y puede considerarse un parámetro. Por otra parte, si decimos que la estatura media en la clase de décimo año de la maestra Jones, en Bennetsville, es de 152 cm, estamos usando 152 cm para describir una característica de la muestra “alumnos de décimo grado de la maestra Jones”. En ese caso, 152 cm sería una estadística. Si estamos convencidos de que la estatura media de los alumnos de décimo año de la maestra Jones es una estimación e xacta de la estatura media de todos los alumnos de dicho nivel de Estados Unidos, podríamos usar la estadística de muestra “estatura media de los alumnos de décimo grado de la maestra Jones” para estimar el parámetro de población “estatura media de los alumnos de décimo grado de Estados Unidos”, sin tener que medir a todos los millones de alumnos de Estados Unidos que están en ese grado. Para ser consecuentes, los especialistas en estadística emplean literales latinas minúsculas para representar estadísticas de muestra, y literales griegas o latinas mayúsculas para representar parámetros de población. La tabla 7-1 lista estos símbolos y resume las def iniciones que hemos estudiado en lo que va de este capítulo.
Tipos de muestreo Muestreo de juicio y de probabilidad
Existen dos métodos para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicio y el muestreo aleatorio o de probabilidad. En el muestreo de probabilidad, todos los elementos de la población tienen la oportunidad de ser escogidos para la muestra. En el muestreo de juicio, se emplea el conocimiento y la opinión personal para identif icar a los elementos de la población que deben incluirse en la muestra. Una muestra seleccionada por muestreo de juicio se basa en la xeperiencia de alguien con la población. Un guardabosques, por ejemplo, reuniría una muestra de juicio si decidiera con anticipación las zonas de una gran área arbolada que recorrería para estimar la cantidad de madera que podría obtenerse. Algunas veces, una muestra de juicio se usa como guía o muestra tentativa para decidir cómo tomar una muestra aleatoria más adelante. El riguroso análisis estadístico que puede lle varse a cabo a partir de muestras aleatorias, no puede ser efectuado con muestras de juicio. Son más cómodas y pueden usarse con éxito aunque no podamos medir su validez. No debe perderse de vista que si un estudio recurre al muestreo de juicio a costa de perder un grado importante de representatividad, la comodidad habrá costado un precio demasiado alto.
Muestras sesgadas
Un par de sondeos sesgados
El Congreso se encuentra en el debate sobre algunas le yes de control de armas. Se le pide a usted que lleve a cabo una encuesta de opinión. Debido a que los cazadores son los más afectados por las leyes de control de armas, va a una hostería de cazadores para hacer las entrevistas. Después informa que en una encuesta realizada, cerca del 97% de quienes respondieron estaba a favor de derogar todas las leyes de control de armas. Una semana después el Congreso estudia otro proyecto de ley: “¿Debe darse a las mujeres embarazadas trabajadoras una incapacidad por maternidad de un año con salario completo para cuidar a sus bebés?” Como este asunto afecta más a las mujeres, esta vez decide ir a los complejos de oficinas de la ciudad y entrevistar a empleadas en edad de tener hijos. De nuevo informa que en un sonPoblación
Tabla 7-1 Diferencias entre poblaciones y muestras
Definición
Colección de elementos considerados
Características Símbolos
“Parámetros” Tamaño de la población N Media de la población Desviación estándar de la población
Muestra Parte o porción de la población seleccionada para su estudio “Estadísticas” Tamaño de la muestra n Muestra de la población x Desviación estándar de la muestra s
208
CAPÍTULO 7 Muestreo y distribuciones de muestreo
deo realizado, alrededor del 93% de quienes respondieron estaba a af vor de la incapacidad de un año por maternidad con pago completo. En ambas situaciones se seleccionó una muestra sesgada al elegir a personas que tienen un fuerte interés en el asunto. ¿Cómo se puede estar seguro de que los entrevistadores que proporcionan la información no cometen el mismo error? La respuesta es que no se puede, a menos que tengan una excelente reputación respecto a la realización de sondeos estadísticamente exactos. Sin embargo, es posible tomar en cuenta los riesgos derivados de no pedir más información o investigar más la competencia de las compañías encuestadoras.
Ejercicios 7.1 Conceptos básicos ■ ■
7-1 7-2
■ ■
7-3 7-4
¿Cuál es el principal inconveniente del muestreo de juicio? El muestreo de juicio y el muestreo de probabilidad, ¿son mutuamente excluyentes por necesidad? Explique su respuesta. Dé una lista de las ventajas del muestreo en comparación con una enumeración completa o censo. ¿Cuáles son algunas desventajas del muestreo de probabilidad en relación con el muestreo de juicio?
Aplicaciones ■
7-5
■
7-6
■
7-7
El banco Farlington Savings and Loan (FS&L) está considerando una fusión con el Sentry Bank; para concretarla requiere la aprobación de los accionistas. En su junta anual, a la que están invitados todos los accionistas, el presidente de FS&L le pregunta a los asistentes si aprueban el trato. El 85% lo aprueba. ¿Es este porcentaje una estadística de muestra o un parámetro de población? Jean Mason, quien fue contratada por la empresa Former Industries para tratar de anticipar la actitud de los empleados en la próxima votación del sindicato, se encontró con ciertas dificultades después de reportar sus hallazgos a la administración. El estudio de Mason estaba basado en un muestreo estadístico y desde los primeros datos quedaba claro (o al menos así lo pensó Jean) que los empleados estaban a f avor del establecimiento de una tienda sindical. El informe de Jean fue minimizado con el comentario: “Esto no sirve. Nadie puede hacer aseveraciones sobre la opinión de los empleados cuando sólo ha hablado con un poco más del 15% de ellos. Todo el mundo sabe que tienes que verificar el 50% para tener alguna idea del resultado de la votación del sindicato. No te contratamos para hacer adivinanzas.” ¿Se puede defender la posición de Jean? Una organización de protección al consumidor lleva a cabo un censo de personas lesionadas por una marca particular de calefactor. Se interroga a cada afectado con respecto al comportamiento del aparato justo antes de su mal funcionamiento; generalmente, esta información sólo puede obtenerse del afectado, porque el calentador en cuestión tiende a incendiarse después de fallar. Al inicio del censo se descubre que varias de las víctimas eran ancianos y ya murieron. ¿Es posible ahora algún censo de las víctimas? Explique su respuesta.
7.2 Muestreo aleatorio En una muestra aleatoria o de probabilidad conocemos las posibilidades de que un elemento de la población se incluya o no en la muestra. Como resultado de lo anterior, es posible determinar objetivamente las estimaciones de las características de la población que resultan de una muestra dada; es decir, se puede describir matemáticamente qué tan objetivas son las estimaciones correspondientes. Comencemos a analizar este proceso introduciendo cuatro métodos del muestreo aleatorio: 1. Muestreo aleatorio simple. 2. Muestreo sistemático. 3. Muestreo estratificado. 4. Muestreo de racimo.
7.2: Muestreo aleatorio
209
Muestreo aleatorio simple Un ejemplo de muestreo aleatorio simple
Definición de finito y con reemplazo
Una población infinita
El muestreo aleatorio simple selecciona muestras mediante métodos que permiten que cada posible muestra tenga una igual probabilidad de ser seleccionada y que cada elemento de la población total tenga una oportunidad igual de ser incluido en la muestra. Podemos ilustrar estos requerimientos con un ejemplo. Supongamos que tenemos una población de cuatro estudiantes en un seminario y queremos muestras de dos estudiantes cada vez para entrevistarlos. En la tabla 7-2 ilustramos todas las combinaciones posibles de muestras de dos estudiantes en una población de cuatro, la probabilidad de cada muestra de ser seleccionada y la de que cada estudiante esté en una muestra. El ejemplo ilustrado en la tabla 7-2 utiliza una población finita de cuatro estudiantes. Por finito nos referimos a que la población tiene un tamaño establecido o limitado, es decir, existe un número entero (N) que indica cuántos elementos hay en la población. Ciertamente, si muestreamos sin “reemplazar” al estudiante, pronto agotaremos nuestro pequeño grupo de población. Observ e también que si muestreamos con reemplazo (es decir, si sustituimos al estudiante muestreado inmediatamente después de haber sido escogido y antes de elegir al segundo estudiante), la misma persona podría aparecer dos veces en la muestra. Hemos utilizado este ejemplo sólo para ayudarnos a conceptuar el muestreo de una población infinita. Una población infinita es aquella en la que es teóricamente imposible observar todos los elementos. Aunque muchas poblaciones parecen ser e xcesivamente grandes, no existe una población realmente infinita de objetos físicos. Después de todo, con recursos y tiempo ilimitados, podríamos enumerar cualquier población finita, incluso los granos de arena de las costas estadounidenses. En términos prácticos, entonces, utilizaremos el términopoblación infinita cuando hablemos de una población que no podría enumerarse en un periodo razonable de tiempo. De esta manera, utilizaremos el concepto teórico de población infinita como una aproximación de una población finita enorme, tal como antes usamos el concepto teórico de variable aleatoria continua como una aproximación de una variable aleatoria discreta que pudiera asumir muchos valores estrechamente cercanos. Cómo hacer un muestreo aleatorio La forma más f ácil de seleccionar una muestra de manera aleatoria es mediante el uso de números aleatorios. Estos números pueden generarse ya sea con una computadora programada para revolver números o mediante una tabla de números aleatorios, que, propiamente, debería llamarse tabla de dígitos aleatorios. La tabla 7-3 presenta una porción de una tabla semejante, que contiene 1,150 dígitos aleatorios divididos en conjuntos de 10. Estos números han sido generados mediante un proceso completamente aleatorio. La probabilidad de que aparezca cualquier dígito de 0 a 9 es la misma que la de cualquier otra secuencia de la misma longitud.
Tabla 7-2 Probabilidad de seleccionar muestreos de dos estudiantes de una población de cuatro estudiantes
Estudiantes A, B, C y D Muestras posibles de dos personas: AB, AC, AD, BC, BD, CD La probabilidad de extraer esta muestra de dos personas debe ser P(AB) = 1⁄6 P(AC) = 1⁄6 P(AD) = 1⁄6 (Sólo hay seis muestras posibles de dos P(BC) = 1⁄6 personas) P(BD) = 1⁄6 P(CD) = 1⁄6 La probabilidad de este estudiante en la muestra debe ser P(A) = 1⁄2 La probabilidad marginal es igual a la suma de P(B) = 1⁄2 las probabilidades conjuntas de los eventos denP(C) = 1⁄2 tro de los cuales está contenido el evento: P(A) P(AB) P(AC) P(AD) 1⁄2] P(D) = 1⁄2
210
CAPÍTULO 7 Muestreo y distribuciones de muestreo
Tabla 7-3 1,150 dígitos aleatorios*
1581922396 0928105582 4112077556 7457477468 0099520858 7245174840 6749420382 5503161011 7164238934 3593969525 4192054466 9697426117 2007950579 4584768758 3840145867 0190453442 6766554338 6315116284 3908771938 5570024586 2999997185 7864375912 7065492027
2068577984 7295088579 3440672486 5435810788 3090908872 2275698645 4832630032 7413686599 7666127259 0272759769 0700014629 6488888550 9564268448 2389278610 9120831830 4800088084 5585265145 9172824179 4035554324 9324732596 0135968938 8383232768 6349104233
8262130892 9586111652 1882412963 9670852913 2039593181 8416549348 5670984959 1198757695 5263097712 0385998136 5169439659 4031652526 3457416988 3859431781 7228567652 1165628559 5089052204 5544814339 0840126299 1186563397 7678931194 1892857070 3382569662
8374856049 7055508767 0684012006 1291265730 5973470495 4676463101 5432114610 0414294470 5133648980 9999089966 8408705169 8123543276 1531027886 3643768456 1267173884 5407921254 9780623691 0016943666 4942059208 4425143189 1351031403 2323673751 4579426926
4637567488 6472382934 0933147914 4890031305 9776135501 2229367983 2966095680 0140121598 4011966963 7544056852 1074373131 0927534537 7016633739 4141314518 4020651657 3768932478 2195448096 3828538786 1475623997 3216653251 6002561840 3188881718 1513082455
*Basados en los primeros 834 números seriales del sorteo del servicio selectivo según información de The New York Times, 30 de octubre de 1940, pág. 12. ©1940 por The New York Times Company. Reproducidos con licencia.
Uso de una tabla de dígitos aleatorios
Para aprender a usar esta tabla, suponga que hay 100 empleados en una compañía y desea entrevistar una muestra de 10 de ellos escogidos al azar. Podría obtener una muestra aleatoria al asignar a cada empleado un número desde 00 a 99, consultando la tabla 7-3 y escogiendo un método sistemático de seleccionar números de dos dígitos. En este caso, podría hacer lo siguiente: 1. Recorra de arriba a abajo las columnas, comenzando con la columna de la izquierda, y lea sólo los primeros dos dígitos en cada fila. Observe que el primer número al usar este método sería 15, el segundo 09, el tercero 41, etcétera. 2. Si llega hasta el final de la última columna de la derecha y todavía no tiene completos los 10 números de dos dígitos menores de 99 deseados, puede regresar al principio (a la parte de arriba de la columna de la izquierda) y comenzar a leer el tercero y cuarto dígitos de cada grupo o conjunto. Estos comenzarían con 81, 28 y 12.
Uso de pedazos de papel
Otra forma de seleccionar a los empleados del ejemplo sería escribir el nombre de cada uno en un pedazo de papel y depositar estos pedazos en una caja. Después de re volverlos bien, podría extraer 10 pedazos al azar. Este método funciona bien con un grupo pequeño de personas, pero presenta problemas si el número de la población llega a cantidades del orden de los miles. También está el problema adicional de no estar seguro de que los pedazos de papel estén bien revueltos. En el sorteo de reclutamiento para el servicio militar de 1970 en Estados Unidos, por ejemplo, cuando se e xtrajeron las cápsulas de una urna para determinar por fechas de nacimiento el orden de selección de los conscriptos para el servicio militar, los nacimientos en el mes de diciembre aparecieron con más frecuencia de lo que las probabilidades hubieran sugerido. Como resultó ser, las cápsulas de diciembre habían sido colocadas al último en la urna y no se habían mezclado adecuadamente. Por ello, tuvieron la más alta probabilidad de ser extraídas.
7.2: Muestreo aleatorio
211
Muestreo sistemático
Características del muestreo sistemático
Limitaciones del muestreo sistemático
En el muestreo sistemático, los elementos son seleccionados de la población dentro de un interv alo uniforme que se mide con respecto al tiempo, al orden o al espacio. Si tuviera que entrevistar a cada vigésimo estudiante de una universidad, escogería un punto de inicio aleatorio entre los primeros 20 nombres del directorio estudiantil y luego seleccionaría cada veintavo nombre de ahí en adelante. El muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento tiene igual oportunidad de ser seleccionado, pero cada muestra no tiene una posibilidad igual de ser seleccionada. Éste hubiera sido el caso si, en el anterior ejemplo, hubiera asignado números entre 00 y 99 a los empleados y luego hubiera empezado a escoger una muestra de 10, seleccionando cada décimo número; por ejemplo 1, 11, 21, 31, etc. Los empleados numerados con 2, 3, 4 y 5 no hubieran tenido ninguna oportunidad de haber sido seleccionados juntos. En el muestreo sistemático existe el problema de introducir un error en el proceso de muestreo. Suponga que estuviera muestreando el desecho de papel producido domésticamente, y decidiera muestrear 100 casas cada lunes. La probabilidad de que esa muestra no fuera representati va es alta porque la basura de los lunes incluiría, muy probablemente, el periódico dominical. Por tanto, la cantidad de desechos estaría sesgada hacia arriba por haber elegido este procedimiento de muestreo. Pero el muestreo sistemático también tiene ventajas. Aun cuando este tipo de muestreo puede ser inapropiado cuando los elementos entran en un patrón secuencial, este método puede requerir menos tiempo y, algunas veces, tiene como resultado un costo menor que el método de muestreo aleatorio simple.
Muestreo estratificado Dos formas de tomar muestras estratificadas
Cuándo usar el muestreo estratificado
Para utilizar el muestreo estratificado, dividimos la población en grupos relativamente homogéneos, llamados estratos. Después utilizamos uno de los dos planteamientos: o bien seleccionamos aleatoriamente, en cada estrato, un número específ ico de elementos correspondiente a la proporción del mismo en relación con la población completa, o extraemos el mismo número de elementos de cada estrato y después ponderamos los resultados considerando la proporción que el estrato representa con respecto a la población total. Con cualquiera de los planteamientos, el muestreo estratif icado garantiza que cada elemento de la población tenga posibilidad de ser seleccionado. El muestreo estratificado resulta apropiado cuando la población ya está dividida en grupos de diferentes tamaños y deseamos tomar en cuenta esta condición. Supongamos que los pacientes de un médico están divididos en cuatro grupos de acuerdo con su edad, como la tabla 7-4 lo muestra. El médico desea a veriguar cuántas horas duermen sus pacientes. P ara obtener una estimación de esta característica de la población, podría tomar una muestra aleatoria de cada uno de los cuatro grupos de edades y ponderar las muestras de acuerdo con el porcentaje de pacientes en ese grupo. Éste sería un ejemplo de una muestra estratificada. La ventaja de las muestras estratif icadas es que, cuando se diseñan adecuadamente, reflejan de manera más precisa las características de la población de la cual fueron ele gidas, en comparación con otro tipo de muestras.
Muestreo de racimo En el muestreo de racimo dividimos la población en grupos, o racimos, y luego seleccionamos una muestra aleatoria de estos racimos, asumiendo que cada uno de ellos es representati vo de la poblaTabla 7-4 Composición del grupo de pacientes por su edad
Grupo de edad Nacimiento-19 años 20-39 años 40-59 años 60 años y mayores
Porcentaje del total 30 40 20 10
212
CAPÍTULO 7 Muestreo y distribuciones de muestreo
Comparación del muestreo estratificado y el de racimo
ción. Si una investigación de mercado tiene la intención de determinar por muestreo el número promedio de televisores por casa en una ciudad grande, podrían usar un mapa de la ciudad para dividir el territorio en manzanas y luego escoger un cierto número de éstas (racimos) para entrevistar a sus habitantes. Cada casa perteneciente a cada una de estas manzanas sería considerada para entrevistar a sus habitantes. Un procedimiento de muestreo de racimo bien diseñado puede producir una muestra más precisa a un costo considerablemente menor que el de un muestreo aleatorio simple. Tanto en el muestreo estratif icado como en el de racimo, la población se di vide en grupos bien definidos. Usamos el muestreo estratificado cuando cada grupo tiene una pequeña variación dentro de sí mismo, pero hay una amplia variación de un grupo a otro. Usamos el muestreo de racimo en el caso opuesto, cuando hay una variación considerable dentro de cada grupo, pero los grupos son esencialmente similares entre sí.
Base de la inferencia estadística: el muestreo aleatorio simple Por qué suponemos un muestreo simple
El muestreo sistemático, el estratificado y el de racimo intentan aproximarse al muestreo aleatorio simple. Todos son métodos que han sido desarrollados por su precisión, su economía o su factibilidad. Aun así, supongamos en el resto de los ejemplos y problemas de este libro que obtenemos nuestros datos utilizando el muestreo aleatorio simple. Esto es necesario porque los principios del muestreo aleatorio simple son la base de lainferencia estadística, es decir, del proceso de hacer inferencias acerca de poblaciones a partir de información contenida en muestras. Una v ez que se han desarrollado estos principios para el muestreo aleatorio simple, su extensión a los otros métodos de muestreo es bastante simple conceptualmente, aunque algo elaborado matemáticamente. Si usted entiende las ideas básicas implicadas en un muestreo aleatorio simple, comprenderá bien lo que sucede en los otros casos, aun cuando deba dejar los detalles técnicos al estadístico profesional.
No pierda de vista que aun cuando se tomen precauciones, muchas de las muestras llamadas aleatorias en realidad no lo son. Cuando se intenta tomar una muestra aleatoria entre los compradores en un centro comercial, se obtiene una muestra sesgada porque muchas personas no están dispuestas a detenerse y hablar con el entre vistador. SUGERENCIAS Y SUPOSICIONES
En la actualidad, con los dispositivos identificadores de llamadas, cuando los entre vistadores por teléfono tratan de obtener una muestra aleatoria, con frecuencia las personas ni siquiera contestan. Existen maneras de compensar estos problemas en el muestreo aleatorio, pero muchas v eces el “arreglo” es más complicado y costoso que lo que la organización de muestreo quiere enfrentar.
Ejercicios 7-2 Ejercicios de autoevaluación EA
7-1
EA
7-2
Asuma que se tiene una población de 10,000 y se desea obtener una muestra aleatoria de 20. Emplee los dígitos aleatorios de la tabla 7-3 para seleccionar a 20 individuos de los 10,000. Proporcione una lista de los elementos seleccionados con base a la tabla de dígitos aleatorios. Un estudio del Senado sobre el asunto de la autonomía del distrito de Columbia implicó entre vistar a 2,000 personas de la población de la ciudad con respecto a su opinión sobre v arios aspectos relacionados con esa autonomía. Washington, D.C. es una ciudad en la que muchas secciones son pobres y muchas ricas, con muy pocas intermedias. Los in vestigadores que llevaron a cabo el sondeo tenían razones para creer que las opiniones expresadas en las diferentes respuestas dependían fuertemente del ingreso. ¿Qué método era más adecuado, el muestreo estratificado o el muestreo de racimo. Dé una explicación breve.
Conceptos básicos ■
7-8
En los siguientes ejemplos se muestran las distrib uciones de probabilidad para tres subgrupos naturales de una población mayor. ¿Para qué situación recomendaría usted un muestreo estratificado?
7.2: Muestreo aleatorio
(a)
■
7-9
■
7-10
■
7-11
■
7-12
213
(b)
Se desea un muestreo de 15 páginas de este libro. Use la tabla de dígitos aleatorios (tabla 7-3) para seleccionar 15 páginas aleatorias y cuente el número de palabras en letras cursi vas en cada página. Presente sus resultados. Usando un calendario, muestree sistemáticamente cada decimoctavo día del año, comenzando desde el 6 de enero. Una población está compuesta por grupos que tienen una amplia variación dentro de cada uno de ellos pero poca variación de un grupo a otro. Seleccione el tipo apropiado de muestreo para esta población. a) Estratificado. b) Sistemático. c) De racimo. d) De juicio. Consulte la tabla 7-3. ¿Cuál es la probabilidad de que un 4 aparezca como el dígito de la extrema izquierda en cada grupo de 10 dígitos?, ¿de que sea un siete?, ¿un 2? ¿Cuántas v eces esperaría usted ver cada uno de esos dígitos en la posición izquierda e xtrema? ¿Cuántas veces se encuentra cada uno de ellos en esa posición? ¿Puede explicar las diferencias que pudiera haber en el número real y el número esperado?
Aplicaciones ■
7-13
■
7-14
■
7-15
■
7-16
■
7-17
■
7-18
La compañía local de tele visión por cable está planeando agre gar un canal a su servicio básico; puede escoger de entre cinco canales y por ello desea tener la opinión de sus suscriptores. Cuenta con 20,000 suscriptores y sabe que el 35% de ellos está compuesto por estudiantes universitarios, el 45% por empleados administrativos, el 15% por obreros y el 5% por otros. Sin embar go, la compañía piensa que hay mucha variación dentro de estos grupos. ¿Cuál de los siguientes muestreos es más adecuado: aleatorio, sistemático, estratificado o de racimo? Una organización no lucrativa lleva a cabo una encuesta de opinión de puerta en puerta sobre las guarderías municipales. La organización ha diseñado un esquema para muestrear aleatoriamente las casas y planea llevar a cabo la encuesta los fines de semana desde el mediodía hasta las 17:00 horas. ¿Producirá este esquema una muestra aleatoria? Bob Peterson, gerente de Relaciones Públicas de Piedmont Power y Light, ha instrumentado una campaña publicitaria institucional para promover la racionalidad energética entre sus clientes. Peterson, ansioso por saber si la campaña ha tenido algún efecto, planea llevar a cabo una encuesta telefónica entre residentes por área. Planea buscar en el directorio telefónico y seleccionar algunos números con direcciones que correspondan al área de servicio de la compañía. ¿Esta muestra puede considerarse aleatoria? En la Casa de Moneda de Estados Unidos en Filadelfia, 10 máquinas acuñan centavos en lotes de 50. Estos lotes están dispuestos de manera secuencial en una sola banda transportadora que pasa por una estación de inspección. Un inspector decide utilizar un muestreo sistemático para revisar los centavos y trata de decidirse entre inspeccionar cada quinto o inspeccionar cada séptimo lote de centa vos. ¿Qué sería lo mejor? ¿Por qué? La Junta Estatal de Seguridad Ocupacional ha decidido hacer un estudio de los accidentes relacionados con el trabajo dentro del estado para examinar algunas de las variables implicadas en los accidentes; por ejemplo, el tipo de trabajo, la causa del accidente, el alcance del perjuicio, la hora del día y si hubo negligencia por parte del empleador. Se decidió que se hará una muestra con 250 de los 2,500 accidentes relacionados con el trabajo y reportados el año anterior en el estado. Los informes de accidentes están archivados por fecha en un archivero. Marsha Gulley, una empleada departamental, propuso que el estudio utilice una técnica de muestreo sistemático que seleccione cada décimo informe del archivo para la muestra. ¿Será apropiado en este caso su plan de muestreo sistemático? Explique su respuesta. Bob Bennett, gerente de productos de la empresa Clipper Mowers Company, está interesado en ver los tipos de podadoras de césped que se utilizan a lo largo del país. La gerente asistente de producto, MaryWilson, ha recomendado un proceso de muestreo aleatorio estratificado en el que se estudien las ciudades y
214
CAPÍTULO 7 Muestreo y distribuciones de muestreo
las comunidades separadas en sustratos, dependiendo del tamaño y de la naturaleza de la comunidad. Mary Wilson propone la siguiente clasificación: Categoría
Tipo de comunidad
Urbana Suburbana
Sección central (población 100,000+) Áreas distantes de ciudades o comunidades más pequeñas (pob. 20,000 a 100,000) Comunidades pequeñas (inferiores a 20,000 habitantes)
Rural
¿Es adecuado en este caso el muestreo aleatorio estratificado?
Soluciones a los ejercicios de autoevaluación EA
EA
7-1
7-2
A partir del primer dato de la tercera columna y eligiendo los últimos cuatro dígitos de los números de la misma, se obtiene la siguiente muestra (leyendo por renglón): 892 7695
1652 7712
2963 8136
2913 9659
3181 2526
9348 6988
7652
8559
2204
4339
6299
3397
4959 1781
El muestreo estratificado es más adecuado en este caso porque parece que hay dos grupos muy diferentes, dentro de los cuales tal vez haya una menor variación que de un grupo a otro.
7.3 Diseño de experimentos Planeación de experimentos El muestreo es sólo una parte
Si hemos de conducir experimentos que produzcan resultados significativos en forma de conclusiones aprovechables, es de suma importancia la forma en que se diseñen estos e xperimentos. En las secciones 7.1 y 7.2 se analizaron formas de ase gurar que el muestreo aleatorio realmente se había efectuado. La forma en que se conduce un muestreo es sólo una parte del diseño total de un experimento. De hecho, el diseño de experimentos es en sí mismo es tema de una gran cantidad de libros, algunos de ellos realmente formidables tanto en alcance como en volumen.
Fases del diseño experimental Se hace una afirmación
Se establecen los objetivos
Se selecciona la variable de respuesta
Para tener una mejor idea del diseño experimental sin meterse realmente con los detalles complejos, tomemos un ejemplo de los muchos que confrontamos a diario y sigámoslo desde el principio hasta el final. Se afirma que una batería Crankmaster pondrá en marcha mejor el motor de su automó vil que una batería X. Crankmaster puede diseñar su experimento de la siguiente manera: Objetivo Éste es nuestro punto de inicio. Crankmaster desea probar su batería frente a su principal competidor. Aunque es posible diseñar un experimento que pruebe las dos baterías con respecto a varias características (tiempo de vida, tamaño, poder de arranque, peso y costo, para nombrar sólo unas cuantas), Crankmaster ha decidido limitar este experimento a su poder de arranque. Lo que se medirá Esta característica se conoce también como la variable de respuesta. Si Crankmaster ha de diseñar un experimento que compare el poder de arranque de su batería con el de otra,
7.3: Diseño de experimentos
215
debe definir cómo se medirá el poder de arranque. Una vez más, existen varias formas de hacer esto. Por ejemplo, Crankmaster podría medir 1) el tiempo que tardaron las baterías en agotarse mientras ponían en marcha un motor, 2) el número total de arranques de motor que agotaron las baterías o 3) el número de meses en uso que se podría esperar duraran las dos baterías. Crankmaster decide que la variable de respuesta en este experimento será 1) el tiempo que tardan las baterías en agotarse mientras encienden motores. Cuántas probar
Las condiciones experimentales se mantienen constantes
Se analizan los datos
Qué tamaño de muestra Crankmaster desea asegurarse de que elige un tamaño de muestra lo suficientemente grande para respaldar sus afirmaciones respecto a su batería sin temor a ser desmentid o; sin embargo, sabe que mientras más baterías pruebe, el costo del experimento será más alto. Como señalaremos en la sección 7.6 de este capítulo, hay una utilidad decreciente en el muestreo: aun cuando, de hecho, el muestreo de más elementos disminuye el error estándar, puede ser que el beneficio no valga el costo. Al no desear elegir un tamaño de muestra demasiado caro, Crankmaster decide que será suficiente comparar 10 baterías de cada una de las dos compañías. Conducción del experimento Crankmaster debe tener cuidado de efectuar su e xperimento bajo condiciones controladas; es decir, debe asegurarse de estar midiendo el poder de arranque, y de que las otras variables (como la temperatura, la edad del motor y la condición de los cables de la batería, por nombrar unas cuantas) se mantengan tan constantes como sea af ctible. Al intentar lograr precisamente esto, el grupo estadístico de Crankmaster utiliza automó viles nuevos de la misma marca y modelo, lleva a cabo las pruebas a la misma temperatura externa y tiene cuidado en ser bastante preciso al medir la v ariable de tiempo. De esta manera, Crankmaster reúne los datos e xperimentales sobre el rendimiento de 20 baterías. Análisis de los datos Los datos obtenidos sobre las pruebas de las 20 baterías indi viduales están sujetos a la prueba de hipótesis, de la misma manera que lo veremos en el capítulo 9, “Prueba de hipótesis: pruebas de dos muestras”. A la compañía Crankmaster le interesa saber si e xiste una diferencia significativa entre el poder de arranque de su batería y el de su competidor. Resulta ser que la diferencia que existe entre la vida media de arranque de la batería de Crankmaster y la de su competidor sí es significativa. Crankmaster incorpora el resultado de este experimento en su publicidad.
Reacción a las afirmaciones experimentales ¿Cómo debe reaccionar el consumidor?
¿Estamos seguros?
¿Cómo debemos nosotros, como consumidores, reaccionar a las nue vas afirmaciones sobre la vida de la batería en su reciente publicidad? ¿Debemos concluir, por las pruebas que ha efectuado la compañía, que la batería de Crankmaster es superior a la batería de la competencia? Si nos detenemos por un momento a considerar la naturaleza del experimento, puede ser que no nos apresuremos a llegar a esa conclusión. ¿Cómo sabemos que las marcas y condiciones de los motores de los automóviles del experimento fueron idénticas? ¿Y estamos absolutamente seguros de que los cables de la batería eran idénticos en tamaño y resistencia a la corriente? ¿Y qué hay con respecto a las temperaturas ambientales existentes durante las pruebas? ¿Fueron iguales? Éstas son las preguntas normales que deberíamos plantearnos. ¿Cómo debemos reaccionar frente a la afirmación, si se hace, de que “sometimos los resultados experimentales a extensas pruebas estadísticas”? La respuesta a lo anterior tendrá que esperar hasta el capítulo 10, donde podremos determinar si una diferencia tal en el tiempo de vida de las baterías es demasiado grande para ser atribuida al azar. En este punto, nosotros, como consumidores, debemos ser lo suficientemente escépticos.
Otras opciones abiertas Otra ruta para Crankmaster
Claro está que la compañía Crankmaster habría tenido las mismas preocupaciones que nosotros, y con toda probabilidad no habría hecho afirmaciones publicitarias importantes solamente sobre la base del diseño experimental que acabamos de describir. Un posible curso de acción para evitar la crí-
216
CAPÍTULO 7 Muestreo y distribuciones de muestreo
tica sería asegurar que todas las variables, excepto la que se esté midiendo, hayan sido realmente controladas. A pesar del cuidado que se tuvo para producir tales condiciones controladas, resulta que estos experimentos sobrecontrolados realmente no solucionan el problema. Normalmente, en vez de invertir recursos en intentos de eliminar variaciones experimentales, se elige una ruta completamente diferente. Los siguientes párrafos muestran cómo es posible lograr lo anterior.
Experimentos factoriales Manejo de todas las condiciones de prueba al mismo tiempo
En el caso de la compañía Crankmaster, teníamos dos baterías (refirámonos a ellas como A y B) y tres condiciones de prueba que nos interesaban: 1) temperatura, 2) edad del motor y 3) condición del cable de la batería. Introduzcamos el concepto de experimentos factoriales usando esta notación: H temperatura caliente C temperatura fría
¿Cuántas combinaciones?
Niveles y factores que deben manejarse
Aleatoriedad
N motor nuevo O motor viejo
G cable bueno W cable desgastado
Desde luego, en la mayor parte de los experimentos podríamos encontrar más de dos condiciones de temperatura y, de paso, más de dos cate gorías de condiciones del motor del automó vil y del cable de la batería. Pero es mejor introducir la idea de xperimentos e factoriales usando un ejemplo simplificado en cierta medida. Entonces, como hay dos baterías, dos posibilidades de temperatura, dos posibilidades de condiciones de motor y dos posibilidades del cable de la batería, hay 2 2 2 2 = 16 combinaciones posibles de factores. Si quisiéramos escribir estas 16 posibilidades, se v erían como la tabla 7-5 lo muestra. Una vez establecidas todas las combinaciones posibles de f actores involucrados en este experimento, sería posible llevar a cabo las 16 pruebas de la tabla. Si hiciéramos esto, habríamos efectuado un experimento factorial completo, porque cada uno de los dos niveles de cada uno de los cuatro factores se habrían utilizado una vez con cada combinación posible de otros niveles de otros factores. Esta forma de diseño permite usar técnicas que veremos en el capítulo 11 para probar el efecto de cada uno de los factores. Debemos señalar, antes de terminar esta sección, que, en un experimento real, difícilmente llevaríamos a cabo las pruebas en el orden en el que aparecen en la tabla. Se acomodaron así para facilitar el conteo de las combinaciones y determinar que todas combinaciones posibles realmente estuvieran representadas. En la práctica, dejaríamos al azar el orden de las pruebas, tal vez poniendo en un sombrero 16 números y determinando el orden del experimento según fueran saliendo.
Prueba
Batería
Temperatura
Condición del motor
Condición del cable
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A A A A A A A A B B B B B B B B
H H H H C C C C H H H H C C C C
N N O O N N O O N N O O N N O O
G W G W G W G W G W G W G W G W
Tabla 7-5 Dieciséis combinaciones posibles de factores para la prueba de baterías
7.4: Intoducción a las distribuciones de muestreo
217
Logro de mayor eficiencia en el diseño experimental Un poco de eficiencia
Como vimos a partir de nuestro experimento de cuatro factores, se requirieron 16 pruebas para comparar todos los niveles con todos los factores. Si tuviéramos que comparar las mismas dos baterías, pero esta vez con cinco niveles de temperatura, cuatro mediciones de condiciones de motor y tres mediciones de condiciones del cable de la batería, serían necesarias 2 5 4 3 = 120 pruebas para un experimento factorial completo. Por fortuna, los especialistas en estadística han podido ayudarnos a reducir el número de pruebas en casos como éste. Para ilustrar cómo funciona esto, imagine una compañía de productos de consumo que desea probar en el mercado un nue vo dentífrico en cuatro ciudades, con cuatro tipos de empaques y con cuatro pautas de publicidad. En un caso así, un experimento factorial completo tomaría 4 4 4 = 64 pruebas. Sin embar go, si hacemos una planeación inteligente, podemos llevarlo a cabo, en realidad, con menos pruebas; 16, para ser precisos. Usemos la notación: A Ciudad 1 B Ciudad 2 C Ciudad 3 D Ciudad 4
El análisis estadístico
I Empaque 1 II Empaque 2 III Empaque 3 IV Empaque 4
1 Pauta publicitaria 1 2 Pauta publicitaria 2 3 Pauta publicitaria 3 4 Pauta publicitaria 4
Ahora dispongamos las ciudades, los empaques y las pautas publicitarias en un diseño llamado cuadrado latino (figura 7-1). En el diseño experimental representado por el cuadrado latino, necesitaríamos sólo 16 pruebas, en vez de las 64 calculadas originalmente. Cada combinación de ciudad, empaque y pauta publicitaria estaría representado en las 16 pruebas. El análisis estadístico real de los datos obtenidos de un diseño experimental de un cuadrado latino como el que presentamos requeriría una forma de análisis de varianza que está un poco más allá del objetivo del presente libro. Pauta publicitaria 1
2
3
4
I
C
B
D
A
II
B
C
A
D
III
D
A
B
C
IV
A
D
C
B
Empaques
Ciudades
FIGURA 7-1 Cuadrado latino
7.4 Introducción a las distribuciones de muestreo Las estadísticas difieren de una muestra a otra de la misma población Definición de la distribución de muestreo
Hasta lo que va de este capítulo, hemos examinado cómo tomar muestras de una población. Si aplicáramos lo que hemos aprendido y tomáramos varias muestras de una población, las estadísticas resultantes para cada muestra no necesariamente serían iguales, y lo más probable es que variaran de una muestra a otra. Suponga que cada una de las muestras tomadas consta de 10 mujeres de 25 años de edad residentes en una ciudad de 100,000 habitantes (una población infinita, de acuerdo con la terminología que hemos planteado). Al calcular la estatura media y la desviación estándar correspondiente en cada una
218
CAPÍTULO 7 Muestreo y distribuciones de muestreo
de estas muestras, veríamos rápidamente que la media y la desviación estándar de cada muestra serían diferentes. Una distribución de probabilidad de todas las medias posibles de las muestras es una distribución de las medias de las muestras. Los especialistas en estadística la conocen como distribución de muestreo de la media. También es posible obtener una distribución de muestreo de una proporción. Supongamos que hemos determinado la fracción de pinos infestados de escarabajos en muestras de 100 árboles, escogidos de un bosque muy grande. Hemos tomado un gran número de tales muestras de 100 elementos. Si trazamos una distribución de probabilidad de las proporciones posibles de árboles infestados en todas estas muestras, obtendríamos una distribución de las proporciones de las muestras. En estadística, a esto se le conoce como distribución de muestreo de la proporción. (Observe que el término proporción se refiere a la fracción de árboles infestados.)
Descripción de las distribuciones de muestreo Cualquier distribución de probabilidad (y, por tanto, cualquier distribución de muestreo) puede ser descrita parcialmente por su media y su desviación estándar. La tabla 7-6 describe varias poblaciones; a un lado de cada una de ellas, incluye la muestra tomada de esa población, la estadística medida y la distribución de muestreo que estaría asociada con ella. Ahora bien, ¿cómo describiríamos cada una de las distribuciones de muestreo de la tabla 7-6? En el primer ejemplo, la distrib ución de muestreo de la media puede ser descrita parcialmente por su media y su desviación estándar. La distribución de muestreo de la mediana, en el segundo ejemplo, puede ser descrita, en parte, por la media y por la desviación estándar de la distrib ución de las medianas. Y en el tercero, la distribución de muestreo de la proporción puede ser descrita parcialmente por la media y la desviación estándar de la distribución de las proporciones.
Concepto de error estándar Explicación del término error estándar
En vez de decir “la desviación estándar de la distribución de las medias de la muestra” para describir una distribución de medias de la muestra, los especialistas en estadística se ref ieren al error estándar de la media. De manera similar, la “desviación estándar de la distribución de las proporciones de la muestra” se abrevia como error estándar de la proporción. EL término error estándar se utiliza porque da a entender un significado específico. Un ejemplo ayudará a explicar el porqué del nombre. Supongamos que deseamos saber algo sobre la estatura de los alumnos de nuevo ingreso de una gran universidad estatal. Podríamos tomar una serie de muestras y calcular la estatura media de acda muestra. Es altamente improbable que todas estas medias de muestra fueran iguales; es de esperar alguna variabilidad en las medias observ adas. Esta variabilidad en las estadísticas de muestras proviene de un error de muestreo debido al azar; es decir; hay diferencias entre cada muestra y la población, y entre las diversas muestras, debido únicamente a los elementos que decidimos escoger para las muestras.
Tabla 7-6 Ejemplos de poblaciones, muestras, estadísticas de muestreo y distribuciones de muestreo
Población
Muestra
Agua de un río
Recipientes con 10 galones de agua
Todos los equipos profesionales de básquetbol Todas las partes producidas por un proceso de fabricación
Estadística de muestreo
Distribución de muestreo Distribución de muestreo de la media
Grupos de 5 jugadores
Número medio de partes de mercurio por millón de partes de agua Estatura mediana
50 partes
Proporción defectuosa
Distribución de muestreo de la proporción
Distribución de muestreo de la mediana
7.4: Intoducción a las distribuciones de muestreo
Cuando deseamos referirnos a la
Tabla 7-7 Terminología convencional usada para referirse a las estadísticas de muestra
Desviación estándar de la distribución de la medias de muestra Desviación estándar de la distribución de proporciones de muestra Desviación estándar de la distribución de medianas de muestra Desviación estándar de la distribución de rangos de muestra
219
Usamos el término convencional Error estándar de la media Error estándar de la proporción Error estándar de la mediana Error estándar del rango
La desviación estándar de la distribución de las medias de las muestras mide el grado hasta el cual es de esperar que varíen las medias de las diferentes muestras, debido a este error cometido en el proceso de muestreo. Por tanto,la desviación estándar de la distribución de una estadística de muestra se conoce como error estándar de la estadística. El error estándar indica no sólo el tamaño del error al azar que se ha cometido, sino también la probable precisión que puede obtenerse al utilizar una estadística de muestra para estimar un parámetro de población. Una distribución de medias de muestra que está menos extendida (y que tiene un error estándar pequeño) constituye una mejor estimación de la media de la población que una distribución de medias de muestra que está ampliamente dispersa y que tiene un error estándar más grande. La tabla 7-7 indica el uso adecuado del término error estándar. En el capítulo 8 discutiremos cómo estimar los parámetros de población usando estadísticas de muestra.
Uso del error estándar
Un uso del error estándar Una escuela que capacita pilotos privados para su examen de instrumentos afirma: “Nuestros egresados obtienen mejores calificaciones en el examen escrito de instrumentos que los de otras escuelas.” Para el lector confiado, esto parece perfectamente claro. Si desea tener una mejor calif icación en su examen escrito de instrumentos, entonces esta escuela es su mejor apuesta. De hecho, sin embargo, siempre que usamos pruebas, tenemos que considerar el error estándar . Específicamente, necesitamos cierta medición de la precisión del instrumento de prueba, generalmente representada por el error estándar. Esto nos diría qué tan grande tendría que ser una diferencia en las calificaciones de una escuela para que fuera estadísticamente signif icativa. Desafortunadamente, el anuncio no ofrecía datos; sólo afirmaba que “nuestros egresados lo hacen mejor”. Comprender las distribuciones muestrales permite a los especialistas en estadística tomar muestras tanto signif icativas como económicas. Debido a que la recolección de muestras grandes es muy costosa, los tomadores de decisiones tienden siempre a seleccionar la muestra más pequeña que dé resultados confiables. Al describir las distribuciones, los especialistas en estadística tienen su propia taquigrafía, y cuando usan el término error estándar para SUGERENCIAS Y SUPOSICIONES
describir una distribución se refieren a su desviación estándar. En lugar de decir “la desviación estándar de la distribución de las medias muestrales” dicen “el error estándar de la media”. Tenga en mente que el error estándar indica qué tan dispersas (separadas) están las medias de las muestras, y no pierda de vista que, aunque e xiste una relación entre el error estándar de la muestra y la desviación estándar de la población, como se verá pronto, no son lo mismo.
Ejercicios 7-4 Ejercicios de autoevaluación EA
7-3
Se sabe que una máquina que llena botellas tiene una cantidad promedio de llenado de 125 gramos y una desviación estándar de 20 gramos. El gerente de Control de calidad tomó una muestra aleatoria de bote-
220
CAPÍTULO 7 Muestreo y distribuciones de muestreo
EA
7-4
llas llenas y encontró que la media de la muestra era 130. Supuso que la muestra no era representati va. ¿Es ésta una conclusión correcta? El presidente de la Asociación Dental Estadounidense (ADE) desea determinar el número promedio de veces que cada paciente de cada dentista usa el hilo dental por día. Con ese f in, pide a 100 dentistas seleccionados al azar que encuesten de manera aleatoria a sus pacientes y comuniquen a laADE el número medio de veces que usan hilo dental por día. Estos números se calculan y se en vían al presidente de la asociación. ¿Recibe el presidente una muestra de la población de pacientes o de alguna otra distribución?
Conceptos básicos ■
7-19
■
7-20
Usted está tomando muestras de una población con una media de 2.15. ¿Qué tamaño de muestra le garantizará que a) la media de muestra sea 2.15? b) el error estándar de la media sea cero? La palabra error, en el término error estándar de la media, ¿a qué tipo de error se refiere?
Aplicaciones
■
7-22
■
7-23
■
7-24
Usted acaba de comprar una caja de cereal con pasas y cuenta el número de pasas. La compañía af irma que la cantidad de pasas por caja es, en promedio, de 2.0 tasas, con una desviación estándar de 0.2 tasas. Su caja contenía sólo 1.9 tasas. ¿Puede la compañía asegurar que afirma lo correcto? La empresa North Carolina Electric and Gas determinó que el costo del servicio eléctrico a la población residencial por 100 pies cuadrados (32 m2) es, en promedio, de $0.314 con un error estándar de $0.07. Se seleccionan dos muestras aleatoriamente y las medias son $0.30 y $0.35. El asistente a car go de la recolección de datos concluye que la segunda muestra es la mejor porque es más provechoso sobrestimar que subestimar la media real. Comente esto, ¿es “mejor” una de las medias dada la media real de la población? Una mujer que trabaja para el servicio de clasificación de Nielsen, entrevista transeúntes en una calle de Nueva York y registra la estimación de cada sujeto del tiempo promedio que ocupa en v er televisión en horario estelar por la noche. Estas entrevistas se efectúan durante 20 días y, al final de cada día, la entrevistadora calcula el tiempo promedio entre todos los entrevistados de ese día. Con los datos obtenidos de todas las entrevistas elabora una distribución de frecuencias de estas medias diarias. ¿Es ésta una distribución de muestreo de la media? Explique su respuesta. Charlotte Anne Serrus, una analista de mercado de la Florris Tobacco Company, desea evaluar el daño ocasionado a las ventas de la empresa por la aparición de un nue vo competidor. Consecuentemente, ha compilado semanalmente cifras de ventas de periodos de un año antes y después de la aparición del competidor. Charlotte representó gráficamente las correspondientes distribuciones de frecuencia de la siguiente manera: Antes
Después
28
28
24
24
20
20
Frecuencia
7-21
Frecuencia
■
16
16
12
12
8
8
4
4
1
2
3
4
5
Miles de cajas vendidas/semana
6
1
2
3
4
5
Miles de cajas vendidas/semana
6
7.5: Distribuciones de muestreo a detalle
■
7-25
■
7-26
221
Basándose en estas gráficas, ¿cuál ha sido el efecto de la aparición del competidor en las ventas semanales promedio? En tiempos de bajas calificaciones en los exámenes de aptitud escolar (EAE) y de problemas de analf abetismo funcional, el comité de admisión de una prestigiosa uni versidad está preocupado por mantener sus altos estándares de admisión. Cada año, después de tomar las decisiones de aceptación, el comité publica y distribuye estadísticas sobre los estudiantes admitidos, dando, por ejemplo, las calificaciones EAE promedio. En el informe que contiene las estadísticas f iguran las palabras “Error estándar de la media”. La secretaria que captura el informe sabe que, durante años, la calificación EAE promedio fue de aproximadamente 1,200 y ha supuesto que el error estándar de la media consistía en qué tanto el comité permitía que la calificación de un estudiante admitido se desviara de la media. ¿Es correcta su suposición? Explique su respuesta. Una compañía de distribución por correo está interesada en el nivel de satisfacción de sus clientes. El director ejecutivo seleccionó 50 gerentes regionales para sondear a sus clientes. Cada gerente elige 5 supervisores para que entrevisten a 30 clientes al azar. Se realizan las encuestas, se calculan los resultados y se envían al director ejecutivo. ¿De qué tipo de distribución se sacó la muestra?
Soluciones a los ejercicios de autoevaluación EA
7-3
EA
7-4
No, la media de una muestra por lo general no es igual a la media de la población debido al error de muestreo. La información reunida se refiere a las veces que se usa el hilo dental por día para grupos de 50 pacientes, no para pacientes individuales, de modo que es una muestra de una distribución muestral de las medias de las muestras de tamaño 50, sacadas de la población de pacientes. No es una muestra tomada de la población de pacientes.
7.5 Distribuciones de muestreo a detalle La sección 7.4 introdujo el concepto de la distrib ución de muestreo. Examinamos las razones por las que el muestreo de una población y el desarrollo de una distrib ución de estas estadísticas de la muestra produciría una distribución de muestreo, e introdujimos el concepto de error estándar. Ahora estudiaremos con más detalle estos conceptos, de tal forma que no sólo podamos comprenderlos conceptualmente, sino que también podamos manejarlos de manera operacional.
Base conceptual para muestrear distribuciones Derivación de la distribución de muestreo de la media
La distribución de muestreo de la media
La figura 7-2 nos ayudará a e xaminar las distribuciones de muestreo sin ahondar demasiado en la teoría estadística. Hemos dividido esta ilustración en tres partes. La gráfica (a) de la figura 7-2 ilustra una distribución de población. Suponga que esta población está constituida por todos los filtros de un gran sistema industrial de control de contaminación y que la distrib ución consiste en las horas de operación antes de que un filtro quede obstruido. La distribución de las horas de operación tiene una media (mu) y una desviación estándar (sigma). Supongamos que, de alguna manera, podemos tomar todas las muestras posibles de 10 filtros de la distribución de población (de hecho, habría muchas más que deberíamos tomar en cuenta).A continuación calcularíamos la media y la desviación estándar para cada una de estas muestras, como la gráfica (b) de la misma figura lo ilustra. Como resultado, cada muestra tendría su propia media, x (x barra), y su propia desviación estándar, s. Ninguna de las medias de la muestra individuales sería la misma que la media de la población. Éstas tenderían a estar cerca de la media de la población, pero rara vez quedarían exactamente en ese valor. Como último paso, elaboraríamos una distrib ución de todas las medias de cada muestra que se pudieran tomar. La gráfica (c) de la figura 7-2 ilustra dicha distribución, conocida como distribución de muestreo de la media. Esta distribución de las medias de la muestra (la distribución de muestreo) tendría su propia media x (mu x barra subíndice) y su propia desviación estándar o error estándar, x (sigma x barra subíndice).
222
CAPÍTULO 7 Muestreo y distribuciones de muestreo
Función de distribuciones de muestreo teóricas
¿Por qué usamos la distribución de muestreo de la media?
En la terminología estadística, la distrib ución de muestreo que obtendríamos al tomar todas las muestras de un tamaño dado constituye una distribución teórica de muestreo. La gráfica (c) de la figura 7-2 representa un ejemplo de este tipo. En la práctica, el tamaño y el carácter de la mayor parte de las poblaciones impiden que los responsables de las decisiones tomen todas las muestras posibles de una distribución de población. Afortunadamente, los especialistas en estadística han desarrollado fórmulas para estimar las características de estas distrib uciones teóricas de muestreo, haciendo innecesaria la recolección de grandes números de muestras. En casi todos los casos, los responsables de las decisiones sólo toman una muestra de la población, calculan estadísticas para esa muestra yde éstas infieren algo sobre los parámetros para toda la población. Ilustraremos esto brevemente. En cada ejemplo de distrib uciones de muestreo de lo que resta de este capítulo, utilizaremos la distribución de muestreo de la media. Podríamos estudiar las distribuciones de muestreo de la mediana, del rango o de la proporción, pero nos quedaremos con la media por la continuidad que añadirá a la explicación. Una vez que usted desarrolle una comprensión de cómo tratar operacionalmente con la distribución de muestreo de la media, podrá aplicarla a la distribución de cualquier otra estadística de muestra.
Muestreo de poblaciones normales Distribución de muestreo de la media de poblaciones normalmente distribuidas
Supongamos ahora que e xtraemos muestras de una población normalmente distrib uida con una media de 100 y una desviación estándar de 25, y que comenzamos por xetraer muestras de cinco ele-
La distribución de población: Ésta es la distribución de las horas de operación de todos los filtros. Tiene:
(a)
m = la media de esta distribución s = la desviación estándar de esta distribución
m Si de alguna manera pudiéramos tomar todas las muestras posibles de un tamaño dado de esta distribución de población, dichas muestras estarían representadas gráficamente por estas cuatro muestras que vienen a continuación. Aunque sólo hemos mostrado cuatro de tales muestras, en realidad habría un número grande de ellas. La distribución de frecuencia de la muestra: Ésta sólo representa al enorme número de distribuciones de muestra posibles. Cada distribución de muestra es una distribución discreta y tiene:
(b)
x
x
x
x
Ahora bien, si pudiéramos tomar las medias de todas las distribuciones de muestra y producir una distribución de estas medias de muestra, se vería así:
x = su propia media conocida como “x barra” s = su propia desviación estándar
La distribución de muestreo de la media: Esta distribución es la distribución de todas las medias de muestra y tiene:
FIGURA 7-2 Conceptos de distribución de población, distribuciones de muestra y distribución de muestreo
mx = media de la distribución de muestreo de las medias conocida como “mu x barra subíndice”
(c)
mx
sx = error estándar de la media (desviación estándar de la distribución de muestreo de la media) conocido como “sigma x barra subíndice”
7.5: Distribuciones de muestreo a detalle
223
Distribución de muestreo de la media con muestras de 5 (n = 5). sx es mucho menor que 25.
FIGURA 7-3 Relación entre la distribución de población y la distribución de muestreo de la media para una población normal
Distribución de elementos en la población. s = 25.
m 100
Distribución de muestreo de la media con muestras de 20 (n = 20). sx es mucho menor que 25.
Distribución de muestreo de la media con muestras de 5 (n = 5). sx es menor que 25.
FIGURA 7-4
Distribución de los elementos en la población. s = 25.
Relación entre la distribución de población y la distribución de muestreo de la media con n crecientes
Propiedades de la distribución de muestreo de la media
m 100
mentos cada una y calculamos sus medias. La primera media podría ser 95, la se gunda 106, la tercera 101, etc. Obviamente, habría igual oportunidad de que la media de muestra estuviera por encima de la media de población de 100 como de que estuviera por debajo de ella. Debido a que estamos promediando cinco elementos para obtener cada media de muestra, se promediarían hacia abajo valores muy grandes de la muestra y hacia arriba v alores muy pequeños. El razonamiento consistiría en que nos estaríamos extendiendo menos entre las medias de muestra que entre los elementos individuales de la población original. Esto es lo mismo que afirmar que el error estándar de la media, o la desviación estándar de la distribución de muestreo, sería menor que la desviación estándar de los elementos individuales en la población. La figura 7-3 ilustra este señalamiento. Ahora supongamos que aumenta el tamaño de muestra de 5 a 20. Esto no cambiaría la desviación estándar de los elementos de la población original, pero con muestras de 20, se incrementa el efecto de promediar en cada muestra y podría esperarse, incluso, una dispersión menor entre las medias de la muestra. La figura 7-4 ilustra lo anterior. La distribución de muestreo de una media de una población normalmente distrib uida demuestra las importantes propiedades resumidas en la tabla 7-8. Un ejemplo ilustrará más ampliamente estas propiedades. Una institución bancaria calcula que sus cuentas de ahorros individuales están normal-
Tabla 7-8 Propiedad Propiedades de la distribución de muestreo de la media cuando la población está normalmente distribuida
La distribución de muestreo tiene una media igual a la media de la población La distribución de muestreo tiene una desviación estándar (un error estándar) igual a la desviación estándar de la población dividida entre la raíz cuadrada del tamaño de la muestra
Ilustrado simbólicamente
x x n
224
CAPÍTULO 7 Muestreo y distribuciones de muestreo
mente distribuidas con una media de $2,000 y una desviación estándar de $600. Si el banco toma una muestra aleatoria de 100 cuentas, ¿cuál es la probabilidad de que la media de muestra caiga entre $1,900 y $2,050? Ésta es una pre gunta con respecto a la distrib ución de muestreo de la media; por tanto, es necesario calcular primero el error estándar de la media. En este caso, utilizaremos la ecuación para el error estándar de la media pensada para situaciones en las que la población es infinita (más tarde introduciremos una ecuación para poblaciones finitas): Error estándar de la media para poblaciones infinitas Error estándar de la media → x
n
[7-1]
en la que: • desviación estándar de la población • n tamaño de la muestra Búsqueda del error estándar de la media para poblaciones infinitas
Aplicando lo anterior a nuestro ejemplo, obtenemos: $600 x 100 $600 10 $60 ← Error estándar de la media A continuación necesitamos usar la tabla de valores z (tabla 1 del apéndice) y la ecuación 7-A, que nos permite, a su vez, utilizar la tabla de la distribución normal estándar de probabilidad. Con esto podemos determinar la probabilidad de que la media de la muestra se encuentre entre $1,900 y $2,050. x z [7-A] Esta ecuación 7A enuncia que para convertir cualquier variable aleatoria normal en una variable aleatoria normal estándar, es necesario sustraer la media de la variable que se está estandarizando y dividir el resultado entre el error estándar (la desviación estándar de dicha avriable). Por tanto, en este caso particular, la ecuación 5-6 se transforma en: Estandarización de la media de la muestra Media de muestra
Media de la población
x z x
Conversión de la media de muestra a un valor z
[7-2] . Error estándar de la media n
Ahora estamos listos para calcular los dos valores z de la siguiente manera: Para x $1,900: x z x $1,900 $2,000 $60 100 60
[7-2]
7.5: Distribuciones de muestreo a detalle
225
1.67 ← Desviaciones estándar de la
media de una distribución de probabilidad normal estándar
Para x $2,050:
x z x
[7-2]
$2,050 $2,000 $60 50 60 0.83 ← Desviación estándar de la media de una distribución de probabilidad normal estándar
La tabla 1 del apéndice presenta un área de 0.4525 correspondiente a un valor z de 1.67, lo que da un área de 0.2967 para un valor z de 0.83. Si sumamos éstos, obtenemos 0.7492 como la probabilidad total de que la media de la muestra se encuentre entre $1,900 y $2,050. La figura 7-5 ilustra este problema.
Muestreo de poblaciones no normales
La media de la distribución de muestreo de la media es igual a la media de población
En la sección anterior concluimos que cuando la población está distrib uida normalmente, la distribución de muestreo de la media también es normal. Sin embargo, los responsables de tomar decisiones deben lidiar con muchas poblaciones que no están distribuidas normalmente. ¿Cómo reacciona la distribución de muestreo de la media cuando la población de la que se extraen las muestras no es normal? Una ilustración nos ayudará a responder esta pregunta. Consideremos los datos de la tabla 7-9, referentes a cinco propietarios de motocicletas y la duración de sus llantas. Dado que están involucradas sólo cinco personas, la población es demasiado pequeña para ser aproximada por una distribución normal. Tomaremos todas las muestras posibles de los propietarios en grupos de tres, calcularemos las medias de muestra ( x), las enumeraremos y calcularemos la media de la distribución de muestreo (x). La tabla 7-10 lista estas operaciones. Estos cálculos muestran que incluso en un caso en el que la población no está normalmente distrib uida, x, la media de la distribución de muestreo sigue siendo igual a la media de la población, . Ahora remitámonos a la figura 7-6. La gráfica (a) de la misma es la distrib ución de población de la duración de las llantas para los cinco propietarios de las motocicletas, una distribución que puede ser todo menos una distribución normal. En la gráfica (b) de la figura 7-6, mostramos la distribución de muestreo de la media para un tamaño de muestra de tres, tomando la información de la tabla 7-10. Observ e
Área entre la media y una z de 0.83 = 0.2967
Área entre la media y una z de –1.67 = 0.4525
Área sombreada total = 0.7492
FIGURA 7-5 Probabilidad de que la media de muestra caiga entre 1,900 y 2,050
$1,900
m
$2,050
226
CAPÍTULO 7 Muestreo y distribuciones de muestreo
El incremento en el tamaño de muestras conduce a una distribución de muestreo más normal
la diferencia que existe entre las distribuciones de probabilidad de las gráficas (a) y (b) de la figura 7-6. En la (b), la distribución se parece un poco más a la forma de campana de la distribución normal. Si tuviéramos mucho tiempo y espacio, podríamos repetir este ejemplo y agrandar el tamaño de la población a 40. Entonces podríamos tomar muestras dediferentes tamaños. A continuación representaremos gráficamente las distribuciones de muestreo de la media que se tendría para los diferentes tamaños. Esto demostraría enfáticamente lo rápido que la distribución de muestreo de la media se acerca a la normalidad, sin importar la forma de la distrib ución de la población. La f igura 7-7 simula este proceso gráficamente sin efectuar todos los cálculos.
El teorema del límite central Resultados del incremento del tamaño de la muestra
El ejemplo de la tabla 7-10 y las cuatro distribuciones de probabilidad de la figura 7-7 deberían sugerir varias cosas. Primero, la media de la distribución de muestreo de la media será igual a la media de la población, sin importar el tamaño de la muestra, incluso si la población no es normal. Segundo, al incrementarse el tamaño de la muestra, la distribución de muestreo de la media se acercará a la normalidad, sin importar la forma de la distribución de la población.
Tabla 7-9 Experiencia de cinco propietarios de motocicletas con la duración de sus llantas
Tabla 7-10
Propietario Duración de la llanta (meses)
Carl 3
Debbie 3
Elizabeth 7
Frank 9
George 14
Total: 36 meses
36 Media 7.2 meses 5
Muestras de tres
Datos de muestras (duración de llanta)
EFG* DFG DEG DEF CFG CEG CEF CDF CDE CDG
7 9 14 3 9 14 3 7 14 37 9 3 9 14 3 7 14 37 9 33 9 33 7 3 3 14
Cálculo de la media de muestra de la duración de llanta con n 3
Media de la muestra 10 8 2⁄3 8 61⁄3 8 2⁄3 8 61⁄3 5 41⁄3 62⁄3 72 meses 72 x 10 7.2 meses
*Nombres abreviados con la inicial.
Distribución de población y distribución de muestreo de la duración media de llantas
Probabilidad
FIGURA 7-6
(b) Distribución de muestreo de la media
Probabilidad
(a) Distribución de población
3
6
9
12
Duración de la llanta en meses
15
2
4
6
8
Duración de la llanta en meses
10
7.5: Distribuciones de muestreo a detalle
n=4 Probabilidad
Probabilidad
n=2
(a)
(b)
n = 20
n=8 Probabilidad
Probabilidad
FIGURA 7-7 Efecto simulado de incrementos en el tamaño de muestra con la aparición de distribución de muestreo
227
(c)
(d)
(a)
(b) 2.05 sx
FIGURA 7-8 Distribución de la población y distribución de muestreo para los ingresos de los cajeros de un banco Significado del teorema del límite central
Uso del teorema del límite central
sx = $365.16
s = $2,000
0.5000 m = $19,000
0.4798
$19,000 mx
$19,750
Esta relación entre la forma de la distrib ución de la población y la forma de la distrib ución de muestreo se denomina teorema del límite central. El teorema del límite central es, tal vez, el más importante de toda la inferencia estadística, pues asegura que la distribución de muestreo de la media se aproxima a la normal al incrementarse el tamaño de la muestra. Hay situaciones teóricas en las que el teorema del límite central no se cumple, pero casi nunca se encuentran en la toma de decisiones práctica. De hecho, una muestra no tiene que ser muy grande para que la distrib ución de muestreo de la media se acerque a la normal. Los especialistas en estadística utilizan la distribución normal como una aproximación a la distribución de muestreo siempre que el tamaño de la muestra sea de al menos 30, pero la distrib ución de muestreo de la media puede ser casi normal con muestras de incluso la mitad de ese tamaño. La importancia del teorema del límite central es que nos permite usar estadísticas de muestra para hacer inferencias con respecto a los parámetros de población, sin saber sobr e la forma de la distribución de frecuencia de esa población más que lo que podamos obtener de la muestra . El poner en marcha esta capacidad es el objeti vo de gran parte del material que presentamos en los capítulos subsecuentes de este libro. Ilustremos el uso del teorema del límite central. La distribución de los ingresos anuales de todos los cajeros de un banco con cinco años de experiencia está sesgada de manera negativa, como la gráfica (a) de la figura 7-8 lo muestra. Esta distribución tiene una media de $19,000 y una desviación estándar de $2,000. Si extraemos una muestra aleatoria de 30 cajeros, ¿cuál es la probabilidad de que sus ganancias promedien más de $19,750 anualmente? La gráfica (b) de la figura 7-8 ilustra la distribución de muestreo de la media que resultaría, y hemos sombreado el área que representa los “ingresos por encima de $19,750”. Nuestra primera tarea es calcular el error estándar de la media de la desviación estándar de la población, de la siguiente manera:
228
CAPÍTULO 7 Muestreo y distribuciones de muestreo
x [7-1] n $2,000 30 $2,000 5.477 $365.16 ← Error estándar de la media Como estamos frente a una distribución de muestreo, ahora debemos utilizar la ecuación 7-2 y la distribución de probabilidad normal estándar (tabla 1 del apéndice). Para x $19,750: x z [7-2] x $19,750 $19,000 $365.16 $750.00 $365.16 2.05 ← Desviaciones estándar de la media de una
distribución normal estándar de probabilidad
Esto nos da un área de 0.4798 para un valor de z de 2.05. Mostramos esta área en la figura 7-8 como el área entre la media y $19,750. Puesto que la mitad, o 0.5000, del área bajo la curva cae entre la media y la cola de la derecha, el área sombreada debe ser: 0.5000 ← (Área entre la media y la cola derecha) 0.4798 ← (Área entre la media y $19,750) 0.0202 ← (Área entre la cola derecha y $19,750) Por tanto, hemos determinado que hay ligeramente más del 2% de probabilidad de que los ingresos promedio sean mayores que $19,750 anualmente en un grupo de 30 cajeros. El teorema del límite central es uno de los conceptos más poderosos de la estadística. Lo que dice en realidad es que la distribución de las medias muestrales tiende a tener una distribución normal. Esto se cumple sin importar la forma de la distribución de la población de donde se tomaron las muestras. Es recomendable que regrese y vea las figuras 7-6 y 7-7. Observe la rapidez con la que la SUGERENCIAS Y SUPOSICIONES
distribución de las medias muestrales tomadas de una población claramente no normal en la figura 7-6, comienza a verse como una distribución normal en la figura 7-7 una vez que se aumenta el tamaño de la muestra. Y en realidad no importa qué forma tiene la distribución de la población, esto ocurrirá siempre. Podría darse la demostración de este teorema, pero primero tendría que re gresar a tomar varios cursos de matemáticas avanzadas para entenderla.
Ejercicios 7-5 Ejercicios de autoevaluación EA
7-5
EA
7-6
En una muestra de 25 observaciones a partir de una distribución normal con media 98.6 y desviación estándar 17.2, a) ¿cuánto vale P(92 < x < 102)? b) encuentre la probabilidad correspondiente dada una muestra de 36. Mary Bartel, auditora de una gran compañía de tarjetas de crédito, sabe que el saldo promedio mensual de un cliente dado es $112 y la desviación estándar es $56. Si Mary audita 50 cuentas seleccionadas al azar, encuentre la probabilidad de que el saldo promedio mensual de la muestra sea a) Menor que $100. b) De entre $100 y $130.
7.5: Distribuciones de muestreo a detalle
229
Conceptos básicos ■
7-27
■
7-28
■
7-29
■
7-30
En una muestra de 16 observaciones de una distribución normal con una media de 150 y una varianza de 256, ¿cuál es a) P(x 160)? b) P(x 142)? Si, en vez de 16 observaciones, se toman sólo 9, encuentre c) P(x 160). d) P(x 142). Para una muestra de 19 observaciones de una distribución normal con media 18 y desviación estándar 4.8, calcule a) P(16 x 20). b) P(16 x 20). c) Suponga un tamaño de muestra de 48. ¿Cuál es la nueva probabilidad en el inciso a)? En una distribución normal con media de 56 y desviación estándar de 21, ¿qué tan grande se debe tomar una muestra para que haya al menos el 90% de posibilidades de que su media sea mayor que 52? En una distribución normal con media de 375 y desviación estándar de 48, ¿de qué tamaño debe tomarse una muestra para que la probabilidad sea al menos de 0.95 de que la media de la muestra caiga entre 370 y 380?
Aplicaciones ■
7-31
■
7-32
■
7-33
■
7-34
■
7-35
Un astrónomo del Observatorio del Monte Palomar observa que durante la lluvia de meteoritos Geminid, aparece un promedio de 50 de ellos cada hora, con una varianza de nueve meteoritos al cuadrado. La lluvia de meteoritos Geminid se presentará la semana siguiente. a) Si el astrónomo observa la lluvia durante cuatro horas, ¿cuál es la probabilidad de que aparezcan al menos 48 meteoritos por hora? b) Si el astrónomo observa otra hora, ¿se elevará o disminuirá esta probabilidad? ¿Por qué? El costo promedio de un estudio en condominio en el desarrollo Cedar Lakes es de $62,000 con una desviación estándar de $4,200. a) ¿Cuál es la probabilidad de que un condominio en este desarrollo cueste al menos $65,000? b) ¿La probabilidad de que el costo promedio de una muestra de dos condominios sea al menos de $65,000 es mayor o menor que la probabilidad de que un condominio cueste eso? ¿En qué cantidad? La agencia de colocaciones Robertson Employment aplica, habitualmente, una prueba estándar de inteligencia y aptitud a todas las personas que b uscan trabajo por medio de la compañía. La agencia ha recolectado datos durante varios años y ha encontrado que la distribución de resultados no es normal, sino que está sesgada a la izquierda con una media de 86 y una desviación estándar de 16. ¿Cuál es la probabilidad de que en una muestra de 75 solicitantes que realizan la prueba, el resultado medio sea menor de 84 o mayor de 90? Una refinería tiene monitores de apoyo para llevar un control continuo de los flujos de la ref inería e impedir que los desperfectos de las máquinas interrumpan el proceso de refinado. Un monitor en particular tiene una vida promedio de 4,300 horas con una desviación estándar de 730 horas. Además del monitor principal, la refinería ha instalado dos unidades de reserva, que son duplicados de la principal. En caso de un funcionamiento defectuoso de uno de los monitores, el otro tomará automáticamente su lugar . La vida operativa de cada monitor es independiente de la de los otros. a) ¿Cuál es la probabilidad de que un conjunto dado de monitores dure al menos 13,000 horas? b) ¿12,630 horas, como máximo? Un estudio reciente de un organismo de vigilancia ambiental determinó que la cantidad de contaminantes en los lagos de Minnesota (en partes por millón) tiene una distribución normal con media de 64 ppm y varianza de 17.6. Suponga que se seleccionan al azar y se toman muestras de 35 lagos. Encuentre la probabilidad de que el promedio muestral de la cantidad de contaminantes sea a) Mayor que 72 ppm. b) Entre 64 y 72 ppm. c) Exactamente 64 ppm. d) Mayor que 94 ppm.
230
CAPÍTULO 7 Muestreo y distribuciones de muestreo
■
7-36
■
7-37
■
7-38
■
7-39
e) Si en la muestra se encuentra que x 100 ppm, ¿sentiría confianza en el estudio realizado por el organismo? Dé una explicación breve. Calvin Ensor, presidente de la General Telephone Corp., está molesto por el número de teléfonos producidos por su empresa que tienen auriculares defectuosos. En promedio, 110 teléfonos al día son de vueltos por este problema, con una desviación estándar de 64. El señor Ensor ha decidido que ordenará la cancelación del proceso a menos que pueda estar 80% seguro de que en promedio, no se devolverán más de 120 teléfonos al día durante los siguientes 48 días. ¿Terminará ordenando la cancelación del proceso? Clara Voyant, cuyo trabajo es predecir el futuro de su compañía de inversiones, acaba de recibir las estadísticas que describen el rendimiento de su compañía sobre 1,800 inversiones del año pasado. Clara sabe que, en general, las inversiones generan ganancias que tienen una distribución normal con una media de $7,500 y una desviación estándar de $3,300. Aun antes de ver los resultados específicos de cada una de las 1,800 inversiones del año pasado, Clara pudo hacer algunas predicciones precisas al aplicar su conocimiento de las distribuciones de muestreo. Siga su análisis para encontrar la probabilidad de que la medida de muestra de las inversiones del último año a) exceda los $7,700. b) haya sido menor que $7,400. c) haya sido mayor que $7,275, pero menor que $7,650. El granjero Braun, quien vende granos a Alemania, posee 60 acres de campos de trigo. Basándose en su experiencia pasada, sabe que la producción de cada hectárea está normalmente distribuida con una media de 120 fanegas y una desviación estándar de 12 fanegas. Ayude al granjero Braun a planear la cosecha del siguiente año encontrando a) la media esperada de las cosechas de sus 60 hectáreas. b) la desviación estándar de la media de muestra de las cosechas de las 60 hectáreas. c) la probabilidad de que la cosecha media por hectárea exceda las 123.8 fanegas. d) la probabilidad de que la cosecha media por hectárea caiga entre las 117 y 122 fanegas. Un transbordador transporta 25 pasajeros. El peso de cada pasajero tiene una distribución normal con media de 168 libras y varianza de 361 libras cuadradas. Las reglamentaciones de seguridad establecen que, para este transbordador en particular, el peso total de pasajeros en el barco no debe e xceder las 4,250 libras más del 5% del tiempo. Como un servicio para los dueños del transbordador, encuentre a) la probabilidad de que el peso total de los pasajero del transbordador exceda las 4,250 libras. b) el 95 percentil de la distribución del peso total de pasajeros en el transbordador. ¿Cumple el transbordador con las reglamentaciones de seguridad?
Soluciones a los ejercicios de autoevaluación EA
7-5
a) n 25 98.6 17.2 x /n 17.2/2 5 3.44 92 98.6 x 102 98.6 P(92 x 102) P 3.44 x 3.44
P(1.92 z 0.99) 0.4726 0.3389 0.8115
b) n 36 x /n 17.2/36 2.87 92 98.6 x 102 98.6 P(92 x 102 P 2.87 x 2.87
P(2.30 z 1.18) 0.4893 0.3810 0.8703
EA
7-6
El tamaño de la muestra de 50 es suficientemente grande para usar el teorema de límite central.
112
56
n 50
x /n 56/50 7.920
x 100 112 a) P(x 100) P P(z 1.52) 0.5 0.4357 0.0643 x 7.920 100 112 x 130 112 b) P(100 x 130) P 7.920 x 7.920 P(1.52 z 2.27) 0.4357 0.4884 0.9241
7.6: Una consideración operacional en el muestreo...
231
7.6 Una consideración operacional en el muestreo: la relación entre el tamaño de muestra y el error estándar Precisión de la media de la muestra
Antes, en este capítulo, vimos que el error estándar, x, es una medición de dispersión de las medias de muestras alrededor de la media de población. Si la dispersión disminuye (si x, se hace más pequeña), entonces los valores tomados por la media de la muestra tienden a agruparse más cercanamente alrededor de . Por el contrario, si la dispersión se incrementa (si x, se hace más grande), los valores tomados por la media de la muestra tienden a agruparse menos cercanamente alrededor de . Podemos concebir esta relación así: al disminuir el error estándar, el valor de cualquier media de muestra probablemente se acercará al valor de la media de población. Los especialistas en estadística describen este fenómeno de otra manera: al disminuir el error estándar, se incrementa la precisión con la que se puede usar la media de muestra para estimar la media de población. Si nos remitimos a la ecuación 7-1, podemos ver que al aumentar n, x, disminuye. Esto sucede porque en la ecuación 7-1 un denominador grande (en la parte derecha) produciría unax, menor (en la parte izquierda). Dos ejemplos mostrarán esta relación; ambos suponen la misma desviación estándar de población de 100. x [7-1] n Cuando n 10: 100 x 10 100 3.162 31.63 ← Error estándar de la media Y cuando n 100:
Aumento del tamaño de la muestra: utilidad decreciente
100 x 100 100 10 10 ← Error estándar de la media
¿Qué hemos mostrado? Al aumentar nuestro tamaño de muestra de 10 a 100 (un incremento de 10 veces), el error estándar disminuyó de 31.63 a 10, lo que es sólo aproximadamente un tercio de su valor inicial. Nuestros ejemplos muestran que, debido al hecho de que x, varía inversamente con la raíz cuadrada de n, hay una utilidad decreciente en el muestreo. Es cierto que muestrear más elementos disminuye el error estándar, pero este beneficio puede no valer el costo. Un estadístico diría: “El aumento de precisión no vale el costo del muestreo adicional”. En un sentido estadístico, rara vez vale la pena tomar muestras e xcesivamente grandes. Los administradores debieran evaluar siempre tanto el valor como el costo de la precisión adicional que obtendrían de una muestra mayor antes de comprometer recursos para tomarla.
El multiplicador de población finita Modificación de la ecuación 7-1
Hasta este punto en nuestros análisis de las distribuciones de muestreo hemos utilizado la ecuación 7-1 para calcular el error estándar de la media: x [7-1] n Esta ecuación está diseñada para situaciones en las que la población es inf inita, o en las que tomamos muestras de una población finita con reemplazo (es decir, después de que se ha muestreado ca-
232
CAPÍTULO 7 Muestreo y distribuciones de muestreo
Cómo encontrar el error estándar de la media para poblaciones finitas
da elemento, éste se regresa a la población antes de elegir el siguiente elemento, de tal manera que es posible que el mismo elemento sea ele gido más de una vez). Si nos remitimos a la página, en la que introdujimos la ecuación 7-1, recordaremos nuestra nota entre paréntesis, que decía: “Más tarde introduciremos una ecuación para poblaciones finitas.” La introducción de tal ecuación es el propósito de la presente sección. Muchas de las poblaciones que examinan los responsables de las decisiones son finitas, es decir, de tamaño establecido o limitado. Ejemplos de éstas incluyen a los empleados de una compañía dada, a los clientes de una agencia de servicios sociales de una ciudad, a los estudiantes de una clase específica y a la producción de un día en una determinada planta de manufactura. Ninguna de estas poblaciones es infinita, así que necesitamos modif icar la ecuación 7-1 para trabajar con ellas. La fórmula diseñada para encontrar el error estándar de la media cuando la población es finita y el muestreo se hace sin reemplazo, es: Error estándar de la media para poblaciones finitas
x n
Nn N1
[7-3]
en la que: • N tamaño de la población • n tamaño de la muestra Este nuevo término que aparece del lado derecho de la ecuación y que multiplica a nuestro error estándar original se conoce como multiplicador de población finita: Multiplicador de población finita
Nn Multiplicador de población finita N1
[7-4]
Unos cuantos ejemplos nos ayudarán a familiarizarnos con la interpretación y el uso de la ecuación 7-3. Supongamos que estamos interesados en una población de 20 compañías textiles del mismo tamaño, todas estas fábricas experimentan una producción excesiva de trabajo. Nuestro estudio indica que la desviación estándar de la distribución de la producción anual es igual a 75 empleados. Si muestreamos cinco de estas compañías te xtiles, sin reemplazo, y deseamos calcular el error estándar de la media, usaríamos la ecuación 7-3 de la siguiente manera:
x n
Nn N1
[7-3]
20 5 75 20 1 5 (33.54)(0.888) 29.8 ← Error estándar de la media de la población finita
Algunas veces el multiplicador de población finita está cercano a 1
En este ejemplo, un multiplicador de población f inita de 0.888 redujo el error estándar de 33.54 a 29.8. En casos en los que la población es muy grande en relación con el tamaño de la muestra, este multiplicador de población finita adquiere un valor cercano a 1 y tiene poco efecto sobre el cálculo del error estándar. Digamos que tenemos una población de 1,000 elementos y que hemos tomado una muestra de 20. Si utilizamos la ecuación 7-4 para calcular el multiplicador de población finita, el resultado sería
7.6: Una consideración operacional en el muestreo...
Multiplicador de población finita
N–n
N–1
233
[7-4]
1,000 20 1,000 1
0.981 0.99 Definición de fracción de muestreo
El tamaño de muestra determina la precisión del muestreo
El uso de este multiplicador de 0.99 tendría poco efecto en el cálculo del error estándar de la media. Este último ejemplo pone de manif iesto que cuando muestreamos una pequeña fracción de la población entera (es decir, cuando el tamaño de la población N es muy grande en relación con el tamaño de la muestra n), el multiplicador de población finita toma un valor cercano a 1.0. Los especialistas en estadística se refieren a la fracción n/N como la fracción de muestreo, porque es la fracción de la población N contenida en la muestra. Cuando la fracción de muestreo es pequeña, el error estándar de la media para poblaciones f initas es tan cercano a la media para poblaciones infinitas que bien podríamos utilizar la misma fórmula para ambas desviaciones, a saber, la ecuación 7-1: x /n . La regla generalmente aceptada es: si la fracción de muestreo es menor a 0.05, no es necesario usar el multiplicador de población finita. Cuando utilizamos la ecuación 7-1, es constante, y por tanto lo es también la medida de la precisión de muestreo, x, depende sólo del tamaño de la muestra n y no de la fracción de la población muestreada. Es decir, para hacer x más pequeña sólo es necesario agrandarn. En consecuencia, resulta que el tamaño absoluto de la muestra —y no el de la fracción de la población muestr eada— es el que determina la precisión del muestreo.
Aunque la ley de la utilidad decreciente es un concepto económico, también puede aplicarse en la estadística. Éste enuncia que existe una utilidad decreciente en el muestreo. Dicho con más detalle, aunque al obtener una muestra de más elementos disminuye el error estándar (la desviación estándar de la distribución de las medias muestrales), el incremento en la precisión puede no valer el costo. Es recomendable que vea de nuevo la ecuación 7-1. Como n está en el denominador , cuando se aumenta (se toman muestras más grandes) el error estándar ( σ x) disminuye. Cuando se incrementa el tamaño de la muestra de 10 a 100 SUGERENCIAS Y SUPOSICIONES
(un aumento de 10 v eces) el error estándar baja sólo de 31.63 a 10 (cerca de dos tercios de disminución). Quizá no es una acción tan inteligente gastar tanto en aumentar el tamaño de la muestra para obtener este resultado. Eso es justo por los que los estadísticos (y los administradores astutos) se centran en el concepto del tamaño de muestra “correcto”. Otra sugerencia: al manejar los multiplicadores de población finita, recuerde que aunque se puedan contar, algunas poblaciones son tan grandes que se tratan como si fueran infinitas. Un ejemplo es el número de casas con televisión en Estados Unidos.
Ejercicios 7-6 Ejercicios de autoevaluación EA
7-7
EA
7-8
A partir de una población de 125 artículos con media de 105 y desviación estándar de 17, se eligieron 64 artículos. a) ¿Cuál es el error estándar de la muestra? b) ¿Cuál es la P(107.5 x 109)? Juanita Martínez, investigadora de la Colombian Cofee Corporation, está interesada en determinar la tasa de uso de café por hogar en Estados Unidos. Ella cree que el consumo anual por hogar tiene distrib ución normal con media desconocida y desviación estándar cercana a 1.25 libras. a) Si Juanita toma una muestra de 36 hogares y registra su consumo de café durante un año, ¿cuál es la probabilidad de que la media de la muestra se aleje de la media de la población no más de media libra?
234
CAPÍTULO 7 Muestreo y distribuciones de muestreo
b) ¿Qué tan grande debe ser la muestra que tome para tener el 98% de certidumbre de que la media de la muestra no se aleja más de media libra de la media de la población?
Conceptos básicos ■
7-40
■
7-41
■
7-42
De una población de 75 elementos con media de 364 y varianza de 18, se seleccionaron 32 elementos al azar sin reemplazo. a) ¿Cuál es el error estándar de la media? b) ¿Cuál es la P(363 x 366)? c) ¿Cuál sería su respuesta al inciso a) si la muestra fuera con reemplazo? Dada una población de tamaño N 80 con una media de 22 y una desviación estándar de 3.2, ¿cuál es la probabilidad de que una muestra de 25 tenga una media de entre 21 y 23.5? Para una población de tamaño N 80 con media de 8.2 y desviación estándar de 2.1, encuentre el error de la media para los siguientes tamaños de muestra: a) n 16. b) n 25. c) n 49.
Aplicaciones ■
7-43
■
7-44
■
7-45
■
7-46
■
7-47
■
7-48
Tread-On-Us ha diseñado una nueva llanta y no saben cuál será la vida promedio de las cuerdas. Saben que la vida de las cuerdas tiene una distribución normal con desviación estándar de 216.4 millas. a) Si la compañía toma una muestra de 800 llantas y registra la vida de sus cuerdas, ¿cuál es la probabilidad de que la media de la muestra esté entre la media verdadera y 300 millas más que la media verdadera? b) ¿Qué tan grande debe ser la muestra para tener el 95% de se guridad de que la media muestral estará a no más de 100 millas de la media verdadera? Un equipo de salvamento submarino se prepara para explorar un sitio, mar adentro frente la costa de Florida, donde se hundió una flotilla entera de 45 galeones españoles.A partir de registros históricos, el equipo espera que estos buques naufragados generen un promedio de $225,000 de ingresos cada uno cuando se exploren, con una desviación estándar de $39,000. El patrocinador del equipo, sin embargo, se muestra escéptico, y ha establecido que si no se recuperan los gastos de exploración que suman $2.1 millones con los primeros nueve galeones naufragados, cancelará el resto de la exploración. ¿Cuál es la probabilidad de que la exploración continúe una vez explorados los nueve primeros barcos? Una técnica de rayos X toma lecturas de su máquina para asegurarse de que cumple con los lineamientos federales de seguridad. Sabe que la desviación estándar de la cantidad de radiación emitida por la máquina es 150 milirems, pero quiere tomar lecturas hasta que el error estándar de la distribución muestral sea menor o igual que 25 milirems. ¿Cuántas lecturas debe tomar? Sara Gordon encabeza una campaña de recolección de fondos para el Milford College. Desea concentrarse en la generación de ex alumnos que este año tendrá su décima reunión y espera obtener contribuciones del 36% de sus 250 miembros. Según datos históricos, los ex alumnos que se reúnen por décima vez donarán 4% de sus salarios anuales. Sara cree que los miembros de la generación tienen un salario anual promedio de $32,000 con una desviación estándar de $9,600. Si sus e xpectativas se cumplen (el 36% de la clase dona el 4% de sus salarios), ¿cuál es la probabilidad de que la donación de la reunión esté entre $110,000 y $120,000? La compañía Davis Aircraft Co., está desarrollando un nuevo sistema descongelante de alas que ha instalado en 30 aerolíneas comerciales. El sistema está diseñado de tal forma que el porcentaje de hielo eliminado está normalmente distribuido con una media de 96 y una desviación estándar de 7. La Agencia Federal de Aviación efectuará una prueba selecti va de seis de los a viones que tienen instalado el nue vo sistema y aprobará el sistema si al menos, en promedio, el 98% del hielo es eliminado. ¿Cuál es la probabilidad de que el sistema reciba la aprobación de la agencia? Food Place, una cadena de 145 supermercados, fue comprada por otra mayor del mismo giro que opera a nivel nacional. Antes de que el trato sea finiquitado, la cadena mayor quiere tener alguna seguridad de que Food Place será redituable. La cadena compradora ha decidido echar un vistazo a los re gistros financieros de 36 de las tiendas de Food Place. La directiva de ésta afirma que las ganancias de cada tienda tienen
7.6: Una consideración operacional en el muestreo...
■
7-49
235
una distribución aproximadamente normal con la misma media y una desviación estándar de $1,200. Sila gerencia de Food Place está en lo correcto, ¿cuál es la probabilidad de que la media de la muestra de las 36 tiendas se encuentre cerca de los $200 de la media real? La señorita Joanne Happ, directora de consejo de la compañía de se guros Southwestern Life & Surety Corp., desea emprender una investigación sobre el gran número de las pólizas de seguros que su aseguradora ha suscrito. La compañía de la señorita Happ obtiene, anualmente sobre cada póliza, ganancias que están distribuidas con una media de $310 y una desviación estándar de $150. Sus requerimientos personales de precisión establecen que la investigación debe ser lo suficiente grande para reducir el error estándar a no más del 1.5% de la media de la población. ¿Qué tan grande debe ser la muestra?
Soluciones a los ejercicios de autoevaluación EA
7-7
N 125
105 17 n 64 Nn 61 17 a) x 1.4904 N 1 124 8 n
107.5 105 109 105 x b) (107.5 x 109) P 1.4904 1.4904 x
EA
7-8
a) 1.25
P(1.68 z 2.68) 0.4963 0.4535 0.0428 n 36 x /n 1.25/36 0.2083
0.5 0.5 x P( 0.5 x 0.5) P 0.2083 0.2083 x
P(2.4 z 2.4) 0.4918 0.4918 0.9836 0.5 0.5 b) 0.98 P( 0.5 x 0.5) P z 1.25/n 1.25/n
P(2.33 z 2.33) 0.5 Así, 2.33 0.4 n 1.25/n
y
n (2.33/0.4)2 33.93.
Su muestra debe incluir, al menos, 34 hogares.
Estadística en el trabajo Loveland Computers Caso: Muestreo y distribuciones de muestreo Con menos de una semana en el trabajo como asistente administrativo del director de Loveland Computers, Lee Azko se sentía casi agobiado ante la serie de proyectos que parecían requerir atención. Pero no tenía caso negarlo: se sentía bien al poner en práctica algunas de las técnicas que había aprendido en la escuela. Y el siguiente día de trabajo trajo consigo una nueva serie de retos. “Supongo que les caes bien a los de Producción”, le dijo Walter Azko a Lee al saludarlo junto a la cafetera. “Espero que ya hayas acabado con Compras porque Producción tiene un problema de control de calidad que requiere de tu análisis. Ve a ver otra vez a Nancy Rainwater.” Lee bajó a la línea de ensamblado y lo recibió alguien a quien todavía no conocía, Tyronza Wilson, quien se presentó.
“Nancy dijo que bajarías. Estoy a cargo de la verificación de los componentes que usamos cuando ensamblamos computadoras por pedido. Los proveedores son tan confiables para la mayor parte de los componentes, que sólo asumimos que éstos van a funcionar. En el raro caso de que haya alguna falla, la captamos al f inal de la banda, donde corremos las computadoras por la noche con un programa de ‘prueba de fuego’. Es decir, no queremos ser sorprendidos por una parte que falle después de sólo unas cuantas horas de funcionamiento.” “Últimamente, hemos tenido problemas con las unidades de disco duro de 120 megabytes. Ya ves que todo mundo se conformaba con 20 o 30 megabytes de capacidad de almacenamiento, pero los nuevos y extravagantes programas de gráficas ocupan gran cantidad de espacio en disco y muchos de los clientes están solicitando unidades más grandes para sus computadoras. Para mover grandes cantidades de datos, se vuelve muy importante el tiempo de acceso, una medida del tiempo promedio que se tarda en recuperar una cantidad estándar de datos de la unidad de disco duro. Como el rendi-
236
CAPÍTULO 7 Muestreo y distribuciones de muestreo
miento del tiempo de acceso es importante para nuestros clientes, no puedo simplemente suponer que todas las unidades de disco duro van a funcionar según las especificaciones. Si esperamos a probar el tiempo de acceso al final de la banda y encontramos que tenemos una unidad demasiado lenta, tenemos que reconstruir totalmente la computadora con una nueva unidad y un controlador de unidades. Eso signif ica muchos gastos de reelaboración que debemos evitar.” “Pero sería todavía más caro probar cada unidad al principio del proceso. La única forma en que puedo medir el tiempo de acceso de cada unidad es conectándola a una computadora y corriendo un programa de diagnóstico. Eso toma su buen cuarto de hora. No tengo personal ni máquinas para probar todas, y realmente no tiene sentido, porque la enorme mayoría pasará la inspección.” “En este momento hay más demanda que oferta de unidades de disco duro de alta capacidad, así que las hemos estado comprando a todos los distrib uidores conocidos. Como
Ejercicio de base de datos computacional HH Industries Una de las iniciativas administrativas de Hal Rodgers, cuando se hizo cargo de HH Industries, fue introducir una adquisición competitiva. Pensaba que se había mimado a los proveedores de la compañía recibiendo sin cuestionamiento alguno todos sus embarques. Un estudio minucioso del mercado reveló que un buen número de partes inventariadas de HH podían ser compradas a otros dos fabricantes por lo menos. Tres años después, Hal estaba interesado en evaluar el progreso de la compañía hacia su objetivo. Bob Ritchie, gerente de Adquisiciones, estaba a cargo del estudio, lo cual lo llevó una soleada tarde a la oficina de Laurel, cuando ésta estaba a punto de escaparse a la playa por unas cuantas horas. “Respecto a esta cuestión de la adquisición, supongo que es un problema de distribución binominal, porque cualquier orden de compra dada fue adquirida de manera competiti va o no”, comenzó Bob. “Mi principal pregunta tiene que ver con la forma exacta para seleccionar una muestra realmente aleatoria de nuestros archiveros llenos de giros postales. Peggy me ha permitido la ayuda de su asistente administrativo por unos días la semana que viene y me gustaría que empezara a trabajar.” Laurel se alegró cuando se dio cuenta de que podía manejar este problema rápidamente. Sabía que Bob era el mejor en estadística de todo el personal, así que no tendría que sumergirse en una perorata sobre distribuciones de muestreo, error estándar, etc. Rápidamente resumió las ventajas y desventa-
resultado, parece haber buenas remesas y malas remesas. Si el tiempo de acceso de una remesa es demasiado largo, la regresamos al proveedor y rechazamos su factura. Eso nos ahorra pagar lo que no podemos utilizar, pero si rechazo demasiadas remesas, nos harían falta unidades de disco para completar nuestros pedidos.” “Obviamente necesitamos algún tipo de esquema de muestreo; se requiere medir el tiempo de acceso en una muestra de cada remesa y lue go decidir sobre el lote. Pero no esto y segura de cuántas debamos probar.” “Bueno, creo que ahora conoces bien la situación”, dijo Lee, mientras sacaba un cuadernillo de apuntes. “Déjame empezar por hacerte unas cuantas preguntas.” Preguntas de estudio: ¿Qué tipos de esquemas de muestreo considerará Lee y qué f actores influirán en la elección del esquema? ¿Qué preguntas le hará a Tyronza?
jas de los diversos métodos de muestreo y le preguntó a Bob cuáles pensaba que serían adecuados. “Según lo v eo, podríamos seleccionar aleatoriamente unos pocos meses y e xaminar cada giro postal de cada mes seleccionado. Eso suena como lo que llamaste ‘muestreo de racimo’. O podríamos ver cada vigésimo giro postal, lo cual es sistemático pero me parece igual de trabajoso que revisar cada orden de compra. Por último, simplemente podríamos inspeccionar las gavetas, tomando órdenes de compra al azar hasta que tuviéramos el tamaño de muestra que queremos.” 1. ¿Qué método debe usar Bob para recolectar una muestra aleatoria de órdenes de compra? ¿Por qué? Al día siguiente, Stan interceptó a Laurel cuando ésta se dirigía a hacer algunas diligencias en su hora de almuerzo. “Gracias por la información sobre nuestros clientes”, le dijo sonriendo. “Pero tengo una pregunta. Pensé que esto de la estadística supuestamente funcionaba con muestras de datos. Usaste los datos de nuestros clientes acti vos para llegar a esas cifras. ¿Qué encontraste?” “Bueno”, respondió Laurel, “en este caso, simplemente aproveché el hecho de que ya teníamos esos datos en un formato que podía utilizar, es decir, en la computadora. Y, obviamente, mientras más grande sea el tamaño de la muestra, más exactos son los resultados. Sin embar go, si tuviera que capturar todos los datos, def initivamente tomaría un atajo y usaría una propiedad conocida como teorema del límite central. Si tienes algunos minutos esta tarde, paso y te muestro cómo funciona”. “Eso sería fantástico”, dijo Stan. “Estoy libre después de una reunión a las 2 de la tarde, ¿cómo a las 3 te parece? Muy bien. Nos vemos entonces.”
Repaso del capítulo
237
Repaso del capítulo ● Términos introducidos en el capítulo 7 Censo Medición o examen de todos los elementos de la población.
riencia personal para identificar aquellos elementos de la población que deben incluirse en la muestra.
Cuadrado latino Eficiente diseño e xperimental que hace innecesario usar un experimento factorial completo.
Muestreo de probabilidad o aleatorio Método para seleccionar una muestra de una población en el que todos los elementos de la población tienen igual oportunidad de ser elegidos en la muestra. Muestreo de racimo Método de muestreo aleatorio en el que la población se divide en grupos o racimos de elementos, y luego se selecciona una muestra aleatoria de estos racimos. Muestreo estratificado Método de muestreo aleatorio en el que la población se divide en grupos homogéneos, o estratos, y los elementos dentro de cada estrato se seleccionan al azar de acuerdo con una de dos reglas: 1) un número específico de elementos se extrae de cada estrato correspondiente a la porción de ese estrato en la población, o 2) igual número de elem entos se extraen de cada estrato, y los resultados son v alorados de acuerdo con la porción del estrato de la población total. Muestreo sin reemplazo Procedimiento de muestreo en el que los elementos no se re gresan a la población después de ser elegidos, de tal forma que ningún elemento de la población puede aparecer en la muestra más de una vez. Muestro sistemático Un método de muestreo aleatorio usado en estadística en el que los elementos que se muestrearán se seleccionan de la población en un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. Multiplicador de población finita Factor que se utiliza para corregir el error estándar de la media en el estudio de una población de tamaño finito, pequeño con respecto al tamaño de la muestra.* Parámetros Valores que describen las características de una población. Población finita Población que tiene un tamaño establecido o limitado. Población infinita Población en la que es teóricamente imposible observar todos los elementos. Precisión El grado de e xactitud con el que la media de la muestra puede estimar la media de la población, según lo revela el error estándar de la media. Racimos Grupos dentro de una población que son esencialmente similares entre sí, aunque los grupos mismos tengan una amplia variación interna. Teorema del límite central Resultado que asegura que la distribución de muestreo de la media se acerca a la normalidad cuando el tamaño de la muestra se incrementa, sin importar la forma de la distribución de la población de la que se selecciona la muestra.
Distribución de muestreo de la media Una distribución de probabilidad de todas las medias posibles de muestras de un tamaño dado, n, de una población. Distribución de muestreo de una estadística Para una población dada, distribución de probabilidad de todos los valores posibles que puede tomar una estadística, dado un tamaño de muestra. Error de muestreo Error o variación entre estadísticas de muestra debido al azar; es decir, diferencias entre cada muestra y la población, y entre varias muestras que se deben únicamente a los elementos que elegimos para la muestra. Error estándar La desviación estándar de la distrib ución de muestreo de una estadística. Error estándar de la media La desviación estándar de la distribución de muestreo de la media; una medida del grado en que se espera que v aríen las medias de las diferentes muestras de la media de la población, debido al error aleatorio en el proceso de muestreo. Estadísticas Mediciones que describen las características de una muestra. Estratos Grupos dentro de una población formados de tal manera que cada grupo es relativamente homogéneo, aunque existe una variabilidad más amplia ente los diferentes grupos. Experimento factorial Experimento en el que cada f actor involucrado se usa una vez con cada uno del resto de los f actores. En un experimento factorial completo, se utiliza cada nivel de cada factor con cada nivel de todos los demás factores. Fracción de muestreo La fracción o porción de la población contenida en una muestra. Inferencia estadística Proceso de hacer inferencias sobre poblaciones, a partir de la información contenida en muestras. Muestra Porción de elementos de una población ele gidos para su examen o medición directa. Muestreo aleatorio simple Métodos de selección de muestras que permiten a cada muestra posible una probabilidad igual de ser elegida y a cada elemento de la población completa una oportunidad igual de ser incluido en la muestra. Muestreo con reemplazo Procedimiento de muestreo en el que los elementos se regresan a la población después de ser elegidos, de tal forma que algunos elementos de la población pueden aparecer en la muestra más de una vez. Muestreo de juicio Método para seleccionar una muestra de una población en el que se usa el conocimiento o la expe-
*Los autores se refieren al hecho de que el tamaño de la población es mayor que el de la muestra en un factor de 0.5, es decir N n/0.05, y no al hecho de que N n, como podría pensarse por la redacción. (N. del T.)
238
CAPÍTULO 7 Muestreo y distribuciones de muestreo
● Ecuaciones introducidas en el capítulo 7 ■
■
■
x n
7-1
7-2
7-3
Utilice esta fórmula para deri var el error estándar de la media cuando la población es inf inita, es decir, cuando los elementos de la población no pueden ser enumerados en un plazo razonable, o cuando tomamos muestras con reemplazo. Esta ecuación explica que la distribución de muestreo tiene una desviación estándar, que también llamamos error estándar, igual a la desviación estándar de la población dividida entre la raíz cuadrada del tamaño de muestra. x z x Una versión modificada de la ecuación 7A, esta fórmula nos permite determinar la distancia de la media de la muestra x de la media de población dividiendo la diferencia entre el error estándar de la mediax. Una vez que hemos derivado un valor z, podemos usar la tabla de distrib ución de probabilidad normal estándar y calcular la probabilidad de que la media de muestra esté a esa distancia de la media de población. Debido al teorema del límite central, podemos usar esta fórmula para distribuciones no normales si el tamaño de muestra es de al menos 30. Nn x N1 n en donde,
• N tamaño de la población • n tamaño de la muestra
■
7-4
Ésta es la fórmula para encontrar el error estándar de la media cuando la población es finita, es decir, de tamaño establecido o limitado, y el muestreo se hace sin reemplazo. Nn Multiplicador de población finita N1
En la ecuación 7-3 el término (N )/ n(N ) 1, que multiplicamos por el error estándar de la ecuación 7-1, se conoce como multiplicador de población finita. Cuando la población es pequeña en relación con el tamaño de la muestra,* el multiplicador de población finita reduce el tamaño del error estándar. Cualquier disminución en el error estándar aumenta la precisión con la que la media de la muestra puede utilizarse para estimar la media de la población.
● Ejercicios de repaso ■
7-50
■
7-51
■
7-52
Crash Davis es el supervisor de línea para la planta de manufactura de patines alineados en Benicia, California. El ajuste preciso es importante para el equipo de patinaje en línea, de manera que Crash prueba la producción diaria seleccionando 13 pares de la línea y patinando hasta donde compra su café capuchino vespertino. Crash señala que selecciona cada par “al azar”. ¿Es ésta, de hecho, una muestra aleatoria de la producción del día o es “a su juicio”? Jim Ford, gerente de publicidad de una cadena de tiendas departamentales al menudeo, es responsable de elegir los anuncios comerciales finales a partir de la presentación de las muestras diseñadas por su personal. Ha estado en el ne gocio de la publicidad al menudeo durante años y ha sido responsable de la publicidad de la cadena durante algún tiempo. Su asistente, sin embargo, habiendo aprendido las últimas técnicas de medición de efectividad publicitaria durante su estancia en una agencia de Nueva York, desea hacer pruebas de efectividad para cada anuncio considerado, utilizando muestras aleatorias de consumidores en tiendas minoristas del distrito comercial. Estas pruebas serán bastante costosas. Jim está seguro de que su experiencia lo capacita para decidir cuáles anuncios son apropiados, de tal manera que ha habido algunos desacuerdos entre los dos. ¿Puede usted defender alguno de estos dos puntos de vista? Burt Purdue, gerente de la Sea Island Development Company, desea conocer lo que piensan los residentes sobre las instalaciones recreativas del desarrollo y sobre las mejoras que desearían ver puestas en mar*Vea nota anterior. (N. del T.)
Repaso del capítulo
■
7-53
■
7-54
■
7-55
239
cha. El desarrollo incluye a residentes de di versas edades y niveles de ingresos, pero gran parte de ellos son residentes de clase media de entre 30 y 50 años. Hasta ahora, Burt no está se guro de si hay diferencias entre los grupos de edad o de niveles de ingreso en cuanto a las instalaciones recreativas. ¿Sería apropiado aquí realizar un muestreo estratificado? Un fabricante de cámaras trata de saber lo que los empleados consideran que son los principales problemas de la compañía y las mejoras que ésta requiere. Para evaluar las opiniones de los 37 departamentos, la gerencia está considerando un plan de muestreo. Se le ha recomendado al director de personal que la administración adopte un plan de muestreo de racimo. La administración escogería seis departamentos y entrevistaría a todos los empleados. Después de recolectar y valorar los datos recabados, la compañía podría hacer cambios y planear áreas de mejora de trabajo. ¿El plan de muestreo de racimo es el apropiado en esta situación? Al revisar las ventas habidas desde la apertura de un restaurante hace seis meses, el dueño encontró que la cuenta promedio por pareja era de $26, con una desviación estándar de $5.65. ¿Qué tan grande tendría que ser una muestra de clientes para que la probabilidad fuera de al menos 95.44% de que el costo medio por comida para la muestra cayera entre $25 y $27? A finales de marzo de 1992 hubo las siguientes tasas de desempleo en Estados Unidos, estado por estado. Estado Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware District of Columbia Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi Missouri
Tasa de desempleo (%) 7.5 10.1 8.4 7.0 8.7 6.3 7.4 6.4 8.2 8.1 6.3 3.5 7.8 8.2 6.3 5.3 3.6 7.0 6.9 8.4 7.4 10.0 10.0 6.3 8.1 5.6
Estado
Tasa de desempleo (%)
Montana Nebraska Nevada New Hampshire New Jersey Nuevo México Nueva York Carolina del Norte Dakota del Norte Ohio Oklahoma Oregon Pennsylvania Rhode Island Carolina del Sur Dakota del Sur Tennessee Texas Utah Vermont Virginia Washington West Virginia Wisconsin Wyoming
7.3 2.8 6.8 7.5 7.5 7.6 8.5 6.4 5.3 7.8 6.8 8.6 7.6 8.9 7.1 4.0 7.0 7.4 5.0 7.1 6.8 8.3 12.9 5.7 7.5
Fuente: Sharon R: Cohany, “Current Labor Statistics: Employment Data”, en Monthly Labor Review 115 (6) (junio de 1992), págs. 80-82.
a) Calcule la media de población y la desviación estándar de los porcentajes de desempleo. b) Utilizando los estados de Alabama, Kansas, Michigan, Nebraska y Carolina del Norte como muestra aleatoria (tomada sin reemplazo), determine la media de la muestra, x. c) ¿Cuáles son la media (x) y la desviación estándar (x) de la distribución de muestreo de x, la media de la muestra de todas las muestras de tamaño n 5, tomadas sin reemplazo? d) Considere la distribución de muestreo x para muestras de tamaño n 5, tomadas sin reemplazo. ¿Es razonable suponer que esta distribución es normal o aproximadamente normal? Explique. e) No obstante su respuesta al inciso d), suponga que la distribución de muestreo de x para muestras de tamaño n 5, tomadas sin reemplazo, es aproximadamente normal. ¿Cuál es la probabilidad de que la media de esta muestra aleatoria caiga entre 5.9 y 6.5?
240
CAPÍTULO 7 Muestreo y distribuciones de muestreo
■
7-56
■
7-57
■
7-58
■
7-59
■
7-60
Joan Fargo, presidenta de Fargo-Lanna Ltd., desea ofrecer cursos videograbados para sus empleados durante la hora del almuerzo, y desea tener alguna idea de los cursos que los empleados quisieran. En consecuencia, ha diseñado un formulario que los trabajadores pueden llenar en 5 minutos, enumerando sus preferencias entre los posibles cursos. Los formularios, cuya impresión es barata, se distrib uirán junto con los cheques de pago y los resultados serán tabulados por el personal de un grupo recién disuelto dentro de la compañía. La señora Fargo planea encuestar a todo el personal. ¿Existen razones para encuestar sólo a una muestra de los empleados en vez de a la población entera? Un fabricante de medicamentos sabe que, para cierto antibiótico, el número promedio de dosis ordenadas para un paciente es de 20. Steve Simmons, vendedor de la compañía, después de ver las órdenes de prescripción de la medicina en su zona durante un día, declaró que la media de la muestra para su medicamento debía ser menor. Afirmó lo siguiente: “Para cualquier muestra, la media debería ser menor, puesto que la media de muestreo siempre subestima la media de la población debido a la v ariación de la muestra.” ¿Hay alguna verdad en lo dijo Simmons? Varias semanas después, en una reunión de ventas, Steve Simmons demostró nuevamente su experiencia en estadística. Trazó una gráfica y la presentó al grupo al tiempo que les decía: “Ésta es una distribución de muestreo de medias. Es una curva normal y representa una distribución de todas las observaciones en cada combinación de muestra posible.” ¿Tiene razón Simmons? Explique su respuesta. Low-Cal Food Company usa estimaciones del nivel de actividad de los diversos segmentos del mercado para determinar la composición nutricional de sus productos de comida dietética. Low-Cal está considerando la introducción de una comida dietética líquida para mujeres maduras, puesto que este se gmento tiene problemas especiales de peso no resueltos por la comida dietética de su competidor . Para determinar el contenido deseado de calorías de este nuevo producto, la doctora Nell Watson, investigadora de la compañía, condujo pruebas sobre una muestra de mujeres para determinar el consumo de calorías por día. Sus resultados mostraron que el número promedio de calorías consumidas diariamente por las mujeres mayores es de 1,328, con una desviación estándar de 275. La doctora Watson estima que los beneficios que obtiene con un tamaño de muestra de 25 tendrían un v alor de $1,720. Espera que al reducir el error estándar a la mitad de su valor actual se duplique el beneficio. Si el costo es de $16 por cada mujer de la muestra, ¿debería Watson reducir su error estándar? Considere la siguiente información sobre los salarios industriales en el área metropolitana de Chicago:
Puesto Ensamblador A Ensamblador B Ensamblador C Carpintero, mantenimiento Componedor químico Mezclador químico Operador desengrasador Operador de taladradora A Operador de taladradora B Operador de taladradora C Electricista Operador de trituradora A Operador de trituradora B Líder de grupo A Líder de grupo B Velador-vigilante Inspector A Inspector B Inspector C Conserje-pesado Conserje-ligero Obrero-estiba Tornero-torreta A
Salario promedio por hora (dólares) 10.72 9.13 7.98 13.58 12.64 11.19 9.11 12.01 9.89 9.51 15.37 12.92 9.89 13.55 11.28 9.86 11.55 10.11 8.57 9.19 8.26 9.26 12.66
Puesto Operador de máquina de envoltura y empacado Empacador de máquina de envoltura y empacado Empacador-pesado Empacador-ligero Pintor-mantenimiento Pintor-pulverizador Moldeador de inyección plástica Pulidor A Pulidor B Troquelista A Troquelista B Troquelista-pesado Troquelista-ligero Operador e instalador de troqueladora Recepcionista Operador de torno Instalador de torno Operador de fresadora Expedidor/recibidor Encargado de envíos Soldador A Soldador B Ingeniero estacionario
Salario promedio por hora (dólares) 9.93 9.04 10.08 8.82 12.72 9.78 9.72 10.24 9.59 12.80 11.31 9.75 8.91 11.32 9.98 16.01 12.40 10.45 9.73 10.03 5.69 9.88 16.52 (Continúa)
Repaso del capítulo
Puesto Tornero-torreta B Operador de montacargas Operador de máquinas Maquinista de mantenimiento A Maquinista de mantenimiento B Maquinista de mantenimiento C Persona de mantenimiento A Persona de mantenimiento B Modelista Operador de control numérico A Operador de control numérico B Empacador Guardalíneas A
Salario promedio por hora (dólares) 10.62 10.52 9.82 15.31 14.42 12.07 14.13 11.19 16.35 13.99 10.69 7.92 10.67
Puesto Almacenista A Almacenista B Analista subalterno de pruebas Analista superior de pruebas Mecánico y ajustador A Mecánico y ajustador B Mecánico y ajustador C Maquinista de cuarto de herramientas Camionero, operario Guardalmacén Soldador de arco-acetileno Soldador-punteador Guardalíneas B
241
Salario promedio por hora (dólares) 9.71 8.86 10.04 11.73 17.66 15.49 11.72 13.55 9.00 9.87 12.69 10.01 8.81
Fuente: John J. Bohórquez, “1992 Wage and Salary Survey”, en Crain´s Chicago Business (28 de diciembre de 1992), págs. 28-29.
■
7-61
■
7-62
■
7-63
■
7-64
a) Calcule la media de población y la desviación estándar de la tasa de salarios. b) Usando los puestos de ensamblador C, electricista, vigilante, operador de montacar gas, modelista, troquelista A, operador de fresadora y guardalíneas A como muestra aleatoria (tomada con reemplazo), determine la media de la muestra, x. c) ¿Cuál es la media ( x) y la desviación estándar ( x) de la distribución de muestreo de x, la media de la muestra de todas las muestras de tamaño n 9, tomadas con reemplazo? d) Considere la distribución de muestreo de x para muestras de tamaño n 9, tomadas con reemplazo. ¿Es razonable suponer que esta distribución es normal o aproximadamente normal? Explique su respuesta. e) Independientemente de la respuesta que dio en el inciso d), suponga que la distribución de muestreo x para muestras de tamaño n 9, tomadas con reemplazo, es aproximadamente normal. ¿Cuál es la probabilidad de que la media de una muestra aleatoria como ésta caiga entre 10.5 y 11.7? La Agencia de Aduanas de Estados Unidos revisa a todos los pasajeros que llegan del extranjero cuando entran al país. La agencia informa que en promedio se encuentra que 42 personas diarias, con una desviación estándar de 11, llevan material de contrabando al entrar a Estados Unidos a tra vés del aeropuerto John F. Kennedy de Nueva York. ¿Cuál es la probabilidad de que en cinco días en el aeropuerto, el número promedio de pasajeros que llevan contrabando excedan los 50? La HAL Corporation fabrica grandes sistemas de cómputo y siempre se ha ufanado de la confiabilidad de sus unidades de procesamiento central del Sistema 666. De hecho, la experiencia pasada ha mostrado que el tiempo improductivo mensual de las CPU del Sistema 666 promedia 41 minutos, con una desviación estándar de 8 minutos. El centro de cómputo de una gran universidad estatal mantiene una instalación formada por seis CPU del Sistema 666. James Kitchen, el director del centro, siente que se proporciona un nivel satisfactorio de servicio a la comunidad universitaria si el tiempo improductivo promedio de las seis CPU es menor que 50 minutos al mes. Dado cualquier mes, ¿cuál es la probabilidad de que Kitchen se sienta satifecho con el nivel de servicio? Los miembros de la Organización para la Acción de los Consumidores mandan más de 250 voluntarios al día a todo el estado para incrementar el apoyo para un proyecto de protección al consumidor, que está actualmente en debate en la cámara legislativa estatal. Por lo general, cada voluntario visita una casa y habla brevemente con el residente con la esperanza de que éste f irme una petición dirigida a la le gislatura estatal. En promedio, un voluntario obtendrá 5.8 firmas diarias para la petición, con una desviación estándar de 0.8. ¿Cuál es la probabilidad de que una muestra de 20 voluntarios obtengan un promedio de entre 5.5 y 6.2 firmas diarias? Jill Johnson, gerente de producción de las alarmas de humo de Southern Electric, está preocupada por las quejas que ha recibido recientemente de grupos de consumidores acerca de la corta vida del dispositi vo. Ha decidido recabar e videncia para contrarrestar las quejas probando una muestra de las alarmas. En cuanto a la prueba, su costo es de $4 por unidad en la muestra. La precisión es deseable para presentar evidencia estadística persuasiva a los grupos de consumidores, de tal manera que Johnson considera que los beneficios que recibirá para diversos tamaños de muestras son determinados por la fórmula: Benef i-
242
CAPÍTULO 7 Muestreo y distribuciones de muestreo
■
7-65
■
7-66
■
7-67
cios $5,249/x. Si la señorita Johnson desea aumentar su muestra hasta que el costo sea igual al beneficio, ¿cuántas unidades debe muestrear? La desviación estándar de la población es de 265. Setenta capturistas del departamento de v ehículos automotores cometen un promedio de 18 errores por día, distribuidos según una normal con desviación estándar de 4. Un auditor de campo puede verificar el trabajo de 15 empleados por día. Encuentre la probabilidad de que el número de errores promedio en un grupo de 15 empleados verificados en un día sea a) menor que 15.5. b) mayor que 20. Los fondos de inversión mutua son populares entre los pequeños in versionistas estadounidenses: a mediados de 1995, más de 2 billones de dólares se in virtieron en fondos de in versión. Conforme las corporaciones se han alejado de los planes de pensión como prestación hacia los planes def inidos como contribución, muchos empleados se han unido a los programas en los que los ahorros para la pensión se invierten de manera automática en fondos comunes mediante la compra de fondos mutuos; $687 miles de millones de todos los fondos mutuos correspondían a planes de pensiones. El Investment Company Institute (un grupo comercializador) informó que en agosto de 1995 se habían comprado $13.2 miles de millones en fondos de in versión mutua, una disminución al compararlos con $13.9 miles de millones en julio y $14.1 miles de millones un año antes. Los analistas del mercado de acciones están interesados en dar seguimiento a estos flujos como un indicador del sentimiento del pequeño inversionista; pero las cifras mensuales pueden variar debido a factores irrelevantes como el número de días de pago que caen incluye un mes dado. Suponga que dispone de un conjunto completo de datos para los flujos a los fondos de in versión y que, para un periodo muy largo, calcula un flujo medio de $13.9 miles de millones por mes y una desviación estándar de $0.5 miles de millones. a) ¿Es ésta una muestra o una enumeración completa? b) ¿La población es finita o infinita? Fuente: Ellen Schultz, “Tidal Wave Retirement Cash Anchors Mutual Funds”. The Wall Street Journal (27 de septiembre de 1995): C1.
El gobernador de California, Pete Wilson, presentó su candidatura con la promesa de servir durante el término completo de cuatro años y después anunció su intención de ser candidato a la presidencia de Estados Unidos. Su ausencia del estado le costó la aprobación de muchos v otantes y un periódico publicó lo siguiente: “La campaña de Pete Wilson para la nominación presidencial republicana está deteriorando la calificación de su desempeño en el trabajo se gún un nuevo sondeo en todo el estado. Cuatro de cada 10 californianos dicen que lo está haciendo mal o muy mal.” Hay cerca de 32 millones de personas en California, entre 10 y 11 millones de los cuales v otaron en elecciones generales recientes. a) La afirmación de “cuatro de cada 10 californianos”, ¿es estrictamente cierta desde el punto de vista estadístico? b) ¿Qué tipo de muestreo —sistemático, estratificado o de racimo— supondría que se usó en este caso? c) ¿La población de California es infinita? Fuente: “Presidential Run Drags Governor’s Ratin Daown”, Oakland Tribune (5 de septiembre de 1995): A14.
capítulo
8
ESTIMACIÓN
Objetivos •
•
•
Aprender cómo hacer estimaciones de ciertas características de una población a partir de muestras Aprender las fortalezas y limitaciones de las estimaciones puntuales y las estimaciones de intervalo Calcular qué tan precisas son en realidad nuestras estimaciones
•
•
Aprender a utilizar la distribución t para hacer estimaciones de intervalo en algunos casos en los que la distribución normal no se puede utilizar Calcular el tamaño de muestra requerido para cualquier nivel deseado de precisión en la estimación
Contenido del capítulo 8.1 Introducción 244 8.2 Estimaciones puntuales 247 8.3 Estimaciones de intervalo: conceptos básicos 251 8.4 Estimaciones de intervalo e intervalos de confianza 255 8.5 Cálculo de estimaciones de intervalo de la media a partir de muestras grandes 258 8.6 Cálculo de estimaciones de intervalo de la proporción a partir de muestras grandes 263 8.7 Estimaciones de intervalos con la distribución t 267
8.8 Determinación del tamaño de muestra para la estimación 273 • Estadística en el trabajo 279 • Ejercicio de base de datos computacional 279 • Del libro de texto al mundo real 281 • Términos introducidos en el capítulo 8 282 • Ecuaciones introducidas en el capítulo 8 283 • Ejercicios de repaso 283
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
244
CAPÍTULO 8 Estimación
omo parte del proceso de asignar el presupuesto del año siguiente, el administrador de la planta generadora de energía eléctrica Far Point debe estimar la cantidad de carbón que requerirá para este año. El año anterior, la planta casi se quedó sin combustible, de modo que el administrador está reticente a solicitar el mismo presupuesto de nuevo. Sin embargo, el administrador de la planta siente que el uso de los datos registrados le ayudará para estimar el número de toneladas de carbón que debe pedir. Una muestra aleatoria de 10 semanas de operación de la planta seleccionadas de los últimos cinco años produjo un consumo medio de 11,400 toneladas semanales, con una desviación estándar de la muestra de 700 toneladas por semana. Con los datos que tiene a su disposición y los métodos que se estudian en este capítulo, el administrador de la planta puede hacer una buena estimación de la cantidad que debe pedir este año, e incluso tener una idea de qué tan precisa es la estimación. ■
C
8.1 Introducción
Razones para hacer estimaciones
Elaboración de inferencias estadísticas
Uso de muestras
Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace una estimación de la velocidad del automóvil que se acerca, de la distancia que hay entre usted y el auto y de su propia velocidad. Habiendo hecho rápidamente todas estas estimaciones,usted decide si espera, camina o corre. Los administradores también deben hacer estimaciones rápidas. El resultado de estas estimaciones puede afectar sus organizaciones de manera tan seria como el resultado de su decisión de cruzar la calle. Los jefes de departamento de una universidad hacen estimaciones acerca de las inscripciones para el semestre siguiente en las materias. Los directores de crédito estiman si un cliente pagará o no sus débitos. Los futuros compradores de casa hacen estimaciones concernientes al comportamiento de las tasas de interés de los préstamos hipotecarios. Todas estas personas hacen estimaciones sin preocuparse de si son científicas o no, pero con la esperanza de que las estimaciones tengan una semejanza razonable con el resultado. Los administradores utilizan estimaciones porque, hasta en los asuntos más tri viales, deben tomar decisiones racionales sin contar con la información pertinente completa y con una gran incertidumbre de lo que el futuro pueda deparar . Como ciudadanos instruidos y profesionales, podremos hacer estimaciones más útiles si aplicamos las técnicas descritas en este capítulo y los que le siguen. El material sobre teoría de probabilidad que se presentó en el capítulo 7 constituye la base de la inferencia estadística, rama de la estadística que se ocupa del uso de los conceptos de probabilidad para manejar la incertidumbre en la toma de decisiones. La inferencia estadística está basad a en la estimación, concepto que se introduce en este capítulo, y en las pruebas de hipótesis, que es el tema de los capítulos 9 y 10. Tanto en la estimación como en las pruebas de hipótesis, haremos inferencias acerca de las características de las poblaciones a partir de la información proporcionada por las muestras. ¿De qué manera los administradores utilizan estadísticas para estimar los parámetros de una población? El jefe de departamento de alguna uni versidad intenta estimar el número de inscripciones que tendrá el siguiente semestre a partir de las inscripciones actuales en los mismos cursos. El director de un departamento de crédito intentará estimar el valor crediticio de los futuros clientes a partir de una muestra de sus hábitos de pago. El comprador de una casa intenta estimar el curso futuro de las tasas de interés mediante la observación de su comportamiento actual. En cada caso,alguien trata de inferir algo acerca de una población a partir de la información adquirida de una muestra.
8.1: Introducción
Estimación de parámetros
245
En este capítulo introducimos métodos que nos permiten estimar con precisión razonable la proporción de la población (la fracción de la población que posee una característica dada) y la media de la población. Calcular la proporción exacta o la media exacta sería una meta imposible. Pero, a pesar de ello, seremos capaces de hacer una estimación, establecer una afirmación respecto al error que tal v ez acompañará a esta estimación, y poner en marcha algunos controles para evitar dicho error en la medida de lo posible. Como tomadores de decisiones, nos veremos forzados, en ocasiones, a confiar en nuestros presentimientos. Sin embargo, en otras situaciones, en las que dispongamos de información y podamos aplicar los conceptos de estadística, tendremos mejores resultados.
Tipos de estimaciones Definición de estimación puntual
Limitaciones de las estimaciones puntuales
Definición de estimación de intervalo
Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación puntual y una estimación de intervalo. Una estimación puntual es un solo número que se utiliza para estimar un parámetro de población desconocido. Si, mientras observa al primer integrante de un equipo de fútbol americano salir al campo de juego, se dice: “¡Caramba! Apuesto a que el peso promedio de los jugadores defensivos es de 125 kilogramos”, usted ha hecho una estimación puntual. El jefe de departamento de una universidad estaría haciendo una estimación puntual si afirmara: “Nuestros datos actuales indican que en esta materia tendremos 350 estudiantes el siguiente semestre.” A menudo, una estimación puntual es insuf iciente debido a que sólo tienen dos opciones: es correcta o está equivocada. Si le dicen solamente que la afirmación sobre la inscripción está equivocada, no sabe qué tanto está mal y no puede tener la certeza de que la estimación es confiable. Si se entera de que sólo está errada por 10 estudiantes, podría aceptar a 350 estudiantes como una buena estimación de la inscripción futura. Pero si está equi vocada en 90 estudiantes, la rechazaría como estimación de la inscripción futura. Entonces, una estimación puntual es mucho más útil si viene acompañada por una estimación del error que podría estar implicado. Una estimación de intervalo es un rango de valores que se utiliza para estimar un parámetro de la población. Una estimación de este tipo indica el error de dos maneras:por la extensión del intervalo y por la probabilidad de que el v erdadero parámetro poblacional se encuentre dentro del intervalo. En este caso, el jefe de departamento diría algo como lo siguiente: “Estimo que la inscripción real de este curso para el próximo semestre estará entre 330 y 380, y es muy probable que la inscripción exacta caiga dentro de este intervalo.” Con esto tiene una mejor idea de la confiabilidad de su estimación. Si el curso se imparte en grupos de 100 estudiantes cada uno y si, tentativamente, se han programado cinco cursos, entonces, de acuerdo con la estimación, puede cancelar uno de los grupos y abrir uno optativo.
Estimador y estimaciones Definición de estimador
Definición de estimación
Cualquier estadístico de la muestra que se utilice para estimar un parámetro poblacional se conoce como estimador, es decir, un estimador es un estadístico de la muestra utilizado para estimar un parámetro poblacional. La media de la muestra x puede ser un estimador de la media de la población , y la proporción de la muestra se puede utilizar como un estimador de la proporción de la población. También es posible emplear el rango de la muestra como un estimador del rango de la población. Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese valor como una estimación. En otras palabras, una estimación es un v alor específico observado de un estadístico. Hacemos una estimación si tomamos una muestra y calculamos el v alor que toma nuestro estimador en esa muestra. Suponga que calculamos la lectura media de un odómetro (kilometraje) a partir de una muestra de taxis en servicio y encontramos que es 156,000 kilómetros. Si utilizamos este valor específico para estimar el kilometraje de la flotilla de taxis completa, el valor obtenido de 156,000 kilómetros sería una estimación. En la tabla 8-1 ilustramos varias poblaciones, parámetros, estimadores y estimaciones.
246
CAPÍTULO 8 Estimación
Tabla 8-1 Poblaciones, parámetros, estimadores y estimaciones
Población en la que estamos interesados
Parámetros de población que deseamos estimar
Empleados de una fábrica de muebles Candidatos a gerente la ciudad de Chapel Hill Adolescentes de una comunidad dada
Rotación media de empleados por año Educación formal media (años) Proporción que tiene antecedentes penales
Estadístico de la muestra que utilizaremos como estimador Rotación media de empleados en un mes Educación formal media de cada quinto solicitante Proporción de una muestra de 50 adolescentes que tiene antecedentes penales
Estimación que realizamos 8.9% de rotación por año 17.9 años de educación formal 0.02, o 2%, tienen antecedentes penales
Criterios para seleccionar un buen estimador Cualidades de un buen estimador
Algunos estadísticos son mejores estimadores que otros. Afortunadamente, podemos evaluar la calidad de un estadístico como estimador mediante el uso de cuatro criterios: 1. Insesgado. Ésta es una propiedad deseable para un b uen estimador. El término insesgado se refiere al hecho de que una media de la muestra es un estimador no sesgado de una media de la población porque la media de la distrib ución muestral de las medias de las muestras tomadas de la misma población es igual a la media de la población misma . Podemos decir que un estadístico es un estimador insesgado (o no sesgado) si, en promedio, tiende a tomar valores que están arriba del parámetro de la población que se está estimando con la misma frecuencia y la misma extensión con la que tiende a asumir valores abajo del parámetro poblacional que se está estimando. 2. Eficiencia. Otra propiedad deseable de un buen estimador es que sea eficiente. La eficiencia se refiere al tamaño del error estándar del estadístico. Si comparamos dos estadísticos de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más ef iciente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución muestral. Suponga que escogemos una muestra de un tamaño determinado y debemos decidir si utilizamos la media de la muestra o la mediana de la muestra para estimar la media de la población. Si calculamos el error estándar de la media de la muestra y encontramos que es 1.05, y luego calculamos el error estándar de la mediana de la muestra y tenemos que éste es 1.6, diríamos que la media de la muestra es un estimador más eficiente de la media poblacional ya que su error estándar es menor. Tiene sentido pensar que un estimador con un error estándar menor (con menos variación) tendrá mayor oportunidad de producir una estimación más cercana al parámetro poblacional que se está considerando. 3. Consistencia. Una estadística es un estimador consistente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro poblacional. Si un estimador es consistente, se vuelve más confiable al tener tamaños de muestra más grandes. Si usted se pre gunta acerca de la posibilidad de aumentar el tamaño de la muestra para obtener más información sobre un parámetro poblacional, averigüe primero si su estadístico es un estimador consistente o no. Si no lo es, desperdiciará tiempo y dinero al tomar muestras más grandes. 4. Suficiencia. Un estimador es suficiente si utiliza tanta información de la muestra que ningún otro estimador puede extraer información adicional acerca del parámetro de población que se está estimando. Presentamos estos criterios con anticipación para que no pierda de vista el cuidado que los especialistas en estadística deben tener al elegir un estimador.
8.2: Estimaciones puntuales
Búsqueda del mejor estimador
247
Un estadístico de la muestra dado no siempre es el mejor estimador de su parámetro poblacional correspondiente. Considere una población con distribución simétrica, en la que los valores de la mediana y de la media coinciden. En este caso, la media de la muestra sería un estimador imparcial de la mediana de la población. También, la media de la muestra sería un estimador consistente de la mediana de la población puesto que, al aumentar el tamaño de la muestra, el valor de la media de la muestra tenderá a acercarse bastante a la mediana de la población.Y la media de la muestra sería un estimador más eficiente de la mediana de la población que la mediana de la muestra misma, ya que en muestras grandes, la media de la muestra tiene un error estándar menor que la de la mediana de la muestra. Al mismo tiempo, la mediana de la muestra de una población con distribución simétrica sería un estimador imparcial y consistente de la media de la población, pero no el más eficiente, porque en muestras grandes su error estándar es mayor que el de la media de la muestra.
Ejercicios 8.1 ■ ■
8-1 8-2
■
8-3
■ ■ ■
8-4 8-5 8-6
¿Cuales son las dos herramientas básicas que se utilizan al hacer inferencias estadísticas? ¿Por qué los que toman decisiones a menudo miden muestras en lugar de medir poblaciones completas? ¿Cuál es la desventaja? Explique una limitación que se presenta al hacer una estimación puntual, pero que no se presenta al hacer una estimación de intervalo. ¿Qué es un estimador? ¿En qué se diferencia un estimador de una estimación? Dé una lista de los criterios de un buen estimador y descríbalos brevemente. ¿Qué papel juega la consistencia en la determinación del tamaño de la muestra?
8.2 Estimaciones puntuales Uso de la media de la muestra para estimar la media de la población
La media de la muestra x es el mejor estimador de la media de la población . Es insesgada, consistente, el estimador más eficiente y, siempre y cuando la muestra sea suficientemente grande, su distribución muestral puede ser aproximada por medio de la distribución normal. Si conocemos la distribución muestral de x , podemos obtener conclusiones respecto a cualquier estimación que podamos hacer a partir de la información muestral. Considere el caso de una compañía de suministros clínicos que produce jeringas desechables. Cada jeringa está cubierta por una envoltura estéril que a su vez se empaca en grandes cajas de cartón corrugado. Debido al proceso de empaque, las cajas de cartón contienen distintas cantidades de jeringas. Como las jeringas se v enden por pieza, la compañía necesita una estimación del número de piezas que hay por caja,para propósitos de facturación. Tomamos una muestra aleatoria de 35 cajas y registramos el número de jeringas contenidas en cada caja. La tabla 8-2 ilustra los resultados. La media de la muestra, x , sumando todos los resultados, x, y dividiendo esta suma entre n, el número de cajas muestreadas: x x n
[8-A]
Utilizando esta ecuación para resolver el problema, tenemos: 3,570 x 35 x 102 jeringas Así, al usar la media de la muestra, x como estimador, la estimación puntual de la media de la población, , es 102 jeringas por caja. El precio de fabricación de cada jeringa hipodérmica desecha-
248
CAPÍTULO 8 Estimación
Tabla 8-2 Resultados obtenidos a partir de una muestra de 35 cajas (jeringas por caja)
101 105 97 93 114
103 100 100 98 97
112 97 110 106 110
102 107 106 100 102
98 93 110 112 98
97 94 103 105 112
93 97 99 100 99
ble es bastante bajo (alrededor de 25 centavos), de modo que tanto el comprador como el vendedor aceptarían esta estimación puntual como base para la facturación, y el fabricante puede ahorrarse el tiempo y el gasto de contar las jeringas contenidas en las cajas.
Estimación puntual de la varianza y la desviación estándar de la población Uso de la desviación estándar de la muestra para estimar la desviación estándar de la población
Suponga que la administración de la compañía de suministros clínicos desea estimar la varianza y/o la desviación estándar de la distrib ución del número de jeringas empacadas por caja. El estimador más utilizado para estimar la desviación estándar de la población , es la desviación estándar de la muestra, s. Podemos calcular la desviación estándar de la muestra como lo hicimos en la tabla 8-3 y descubrir que es 6.01 jeringas. Si en lugar de considerar (x x)2 s2 n1
¿Por qué el divisor es n 1?
como nuestra varianza de la muestra, hubiéramos usado la ecuación: (x x)2 s2 n el resultado habría tenido algo de sesgo como estimador de la v arianza de la población; específ icamente, hubiera tendido a ser demasiado bajo. Utilizar en el divisor n 1, nos da un estimador imparcial de 2. En consecuencia, usaremos s2 (según se define en la ecuación 8-B) y s (ecuación 8-C) para estimar 2 y .
Estimación puntual de la proporción de la población Uso de la proporción de la muestra para estimar la proporción de la población
La proporción de unidades de una población dada que tiene una característica particular se denota por p. Si conocemos la proporción de unidades de una muestra que tiene la misma característica ( denotada por pˆ, podemos utilizar esta pˆ como estimador de p. Se puede demostrar que pˆ tiene todas las características deseables analizadas; es insesgado (no sesgado), consistente, eficiente y suficiente. Continuando con nuestro ejemplo del fabricante de suministros médicos, intentaremos hacer una estimación de la proporción de la población a partir de la proporción de la muestra. Suponga que la administración de la empresa desea estimar el número de cajas que lle garán dañadas a su destino por mal manejo en el traslado. Podemos verificar una muestra de 50 cajas a partir del punto de embarque hasta su arribo al punto de destino, y luego registrar la presencia o ausencia de daños. En este caso, si encontramos que la proporción de cajas dañadas en la muestra es 0.08, diríamos que: pˆ 0.08 ← Proporción de la muestra dañada Y, debido a que la proporción de la muestra pˆ es un estimador conveniente de la proporción de la población p, podemos estimar que la proporción de cajas dañadas de toda la población será también 0.08.
8.2: Estimaciones puntuales
Tabla 8-3 Cálculo de la varianza y de la desviación estándar de la muestra para el número de jeringas por caja
Valores de x (jeringas por caja) (1) 101 105 97 93 114 103 100 100 98 97 112 97 110 106 110 102 107 106 100 102 98 93 110 112 98 97 94 103 105 112 93 97 99 100 99 3,570 [8-B]
x2 (2)
Media de la muestra x (3)
10,201 11,025 9,409 8,649 12,996 10,609 10,000 10,000 9,604 9,409 12,544 9,409 12,100 11,236 12,100 10,404 11,449 11,236 10,000 10,404 9,604 8,649 12,100 12,544 9,604 9,409 8,836 10,609 11,025 12,544 8,649 9,409 9,801 10,000 9,801 365,368
102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 Suma de los cuadrados de todas las diferencias
n x 2 x2 s2 n1 n1 365,368 35(102)2 34 34 1,228 34
←o→
Suma de los cuadrados de las diferencias entre 34, el número de piezas de la muestra 1 (varianza de la muestra)
(x – x ) (4) (1) – (3)
(x – x )2 (5) (4)2
1 3 5 9 12 1 2 2 4 5 10 5 8 4 8 0 5 4 2 0 4 9 8 10 4 5 8 1 3 10 9 5 3 2 3 (x – x)2
1 9 25 81 144 1 4 4 16 25 100 25 64 16 64 0 25 16 4 0 16 81 64 100 16 25 64 1 9 100 81 25 9 4 9 1,228
→
249
(x x )2 → 36.12 n 1
36.12 [8-C]
s s2
[3-18]
s 36.12
[3-18]
s 6.01 jeringas
Desviación estándar de la muestra s
(x x )2 → 6.01 jeringas n1
250
CAPÍTULO 8 Estimación
Dejando de lado todas las def iniciones, la razón para estudiar los estimadores es aprender acerca de las poblaciones mediante el muestreo, sin contar cada elemento de la población. Por supuesto, tampoco en este caso el viaje es gratis, y al decidir no contar todo, se pierde cierta exactitud. Los administradores desearían saber la exactitud que se logra cuando se hace un muestreo, y si usamos SUGERENCIAS Y SUPOSICIONES
las ideas de este capítulo, podemos decírselo. Los estadísticos pueden establecer cómo se comporta el error estándar conforme aumenta o disminuye el tamaño de la muestra y los investigadores de mercados pueden determinar el costo de tomar más muestras o de hacerlas más grandes; pero deberá usar su propio juicio para combinar estos dos datos y tomar una decisiones gerencial correcta.
Ejercicios 8.2 Ejercicios de autoevaluación EA
8-1
El Greensboro Coliseum estudia la posibilidad de ampliar su capacidad de asientos y necesita conocer tanto el número promedio de personas que asisten a los eventos como la variabilidad de este número. Los datos se refieren a la asistencia (en miles) a nueve eventos deportivos seleccionados al azar. Encuentre las estimaciones puntuales de la media y la varianza de la población de la que se tomó la muestra. 8.8
EA
8-2
14.0
21.3
7.9
12.5
20.6
16.3
14.1
13.0
La Autoridad para Distribución de Pizzas (ADP) ha desarrollado un buen negocio en Carrboro entregando órdenes de pizzas con prontitud. La ADP garantiza que sus pizzas se entregarán en 30 minutos o menos a partir del momento en que se toma el pedido y, si la entrega se retrasa, la pizza es gratis. El tiempo de entrega de cada pedido se registra en el “libro oficial de tiempo de pizza” (LOTP); el tiempo de entrega con retraso se registra como “30 minutos” en LOTP. Se enumeran 12 registros aleatorios del LOTP. 15.3 10.8
29.5 12.2
30.0 14.8
10.1 30.0
30.0 22.1
19.6 18.3
a) Encuentre la media de la muestra. b) ¿De qué población se obtuvo esta muestra? c) ¿Puede usarse esta muestra para estimar el tiempo promedio que toma aADP entregar una pizza? Explique.
Aplicaciones ■
8-7
A Joe Jackson, un meteorólogo que trabaja para la estación de televisión WDUL, le gustaría informar sobre la precipitación pluvial promedio para ese día en el noticiero de la tarde. Los datos siguientes corresponden a las mediciones de precipitación pluvial (en centímetros) para 16 años en la misma fecha, tomados al azar. Determine la precipitación pluvial media de la muestra. 0.47 0.00
■
8-8
8-9
0.13 0.34
0.54 0.26
0.00 0.17
0.08 0.42
0.75 0.50
0.06 0.86
El National Bank of Lincoln quiere determinar el número de cajeros disponibles durante las horas pico del almuerzo los viernes. El banco ha recolectado datos del número de personas que entraron al banco los viernes de los últimos 3 meses entre las 11 A.M. y la 1 P.M. Utilice los siguientes datos para encontrar las estimaciones puntuales de la media y la desviación estándar de la población de donde se tomó la muestra. 242
■
0.27 1.05
275
289
306
342
385
279
245
269
305
294
328
La empresa Electric Pizza está considerando la distribución a nivel nacional de su producto que ha tenido éxito a nivel local y para ello recabó datos de venta pro forma. Las ventas mensuales promedio (en miles de dólares) de sus 30 distrib uidores actuales se listan a continuación. Tratando estos datos como a) una muestra y b) como una población, calcule la desviación estándar.
251
8.3: Estimaciones de intervalo: conceptos básicos
7.3 2.8 6.7 6.9 2.1
5.8 3.8 7.7 3.7 5.0
4.5 6.5 5.8 6.6 7.5
8.5 3.4 6.8 7.5 5.8
5.2 9.8 8.0 8.7 6.4
4.1 6.5 3.9 6.9 5.2
■
8-10
En una muestra de 400 trabajadores textiles, 184 de ellos expresaron gran insatisfacción con el plan propuesto para modificar las condiciones de trabajo. Como el descontento de este grupo fue lo suf icientemente fuerte para hacer que la administración de la fábrica considerara la reacción al plan como altamente negativa, tienen curiosidad de conocer la proporción del total de trabajadores en contra. Dé una estimación puntual de esta proporción.
■
8-11
La red Amigos de los Videntes cobra $3 por minuto para conocer los secretos que pueden cambiar su vida. La red sólo cobra por minutos completos y redondea hacia arriba para beneficiar a la compañía. Así, una llamada de 2 minutos 10 segundos cuesta $9. Se da una lista de 15 cobros seleccionados al azar 3
9
15
21
42
30
6
9
6
15
21
24
32
9
12
a) Encuentre la media de la muestra. b) Encuentre una estimación puntual de la varianza de la población. c) ¿Puede esta muestra usarse para estimar la duración promedio de una llamada? Si es así, ¿cuál es la estimación? Si no, ¿qué se puede estimar con esta muestra?
Soluciones a los ejercicios de autoevaluación EA
8-1
x 2 2003.65
x 128.5
n9
128.5 x 14.2778 miles de personas x n 9 2003.65 9(14.2778)2 1 s2 (x 2 nx2) 8 n1 21.119 (miles de personas)2 EA
8-2
x 247.7 a) x 20.225 minutos. n 12 b) La población de tiempos registrados en el LOTP. c) No, no se puede. Debido a que el tiempo de entrega mayor que 30 minutos se registra como 30 minutos, usar estos datos subestimará en forma consistente el promedio del tiempo de entrega.
8.3 Estimaciones de intervalo: conceptos básicos
Iniciamos con, la estimación puntual
El propósito de tomar muestras es conocer más acerca de una población. Podemos calcular esta información a partir de las muestras como estimaciones puntuales, que acabamos de analizar, o como estimaciones de intervalo, que son el tema del resto de este capítulo. Una estimación de intervalo describe un rango de valores dentro del cual es posible que esté un parámetro de la población. Suponga que el director de estudios de mercado de una fábrica de ref acciones automotrices necesita hacer una estimación de la vida promedio de las baterías para automóvil que produce su compañía. Seleccionamos una muestra aleatoria de 200 baterías, registramos el nombre y dirección de los propietarios de los automóviles, como están en los re gistros de ventas, y entrevistamos a estas personas con respecto a la duración de la batería de su automóvil. Nuestra muestra de 200 usuarios tiene una vida media de las baterías de 36 meses. Si utilizamos la estimación puntual de la media de
252
CAPÍTULO 8 Estimación
Búsqueda del error probable de esta estimación
la muestra x como el mejor estimador de la media de la población , informaríamos que la vida media de las baterías de la empresa es 36 meses. Pero el director también pide una conclusión acerca de la incertidumbre que acompañará a esta estimación; es decir, una afirmación acerca del intervalo dentro del cual es probable que esté la media de la población desconocida. P ara proporcionar tal afirmación, necesitamos encontrar el error estándar de la media. En el capítulo 7 aprendimos que si seleccionamos y graf icamos un número grande de medias de muestras de una población, la distribución de estas medias se aproximará a la curva normal. Además, la media de las medias muestrales será la misma que la media de la población. Nuestro tamaño de muestra de 200 baterías es suficientemente grande para poder aplicar el teorema central del límite; como se hizo de manera gráfica en la figura 8-1. Para medir la extensión, o dispersión, de nuestra distribución de medias muestrales, podemos utilizar la siguiente fórmula* y calcular el error estándar de la media:
x n
Error estándar de la media para una población infinita
Desviación estándar de la población
[7-1]
Suponga que ya se estimó la desviación estándar de la población de baterías y se informó que es 10 meses. Con esta desviación estándar y la primera ecuación del capítulo 6, podemos calcular el error estándar de la media:
x n
[7-1]
10 200 10 14.14
x 0.707 meses ← Un error estándar de la media Obtención de la estimación de intervalo
Ahora, podemos informar al director que nuestra estimación de la vida útil de las baterías de la compañía es 36 meses y que el error estándar que acompaña a esta estimación es 0.707. En otras palabras, la vida útil real para todas las baterías puede estar en alguna parte de la estimación de intervalo comprendida entre 35.293 y 36.707 meses. Esto es útil pero no es suf iciente información para el director. Necesitamos calcular la posibilidad de que la duración real de las baterías esté en este intervalo o en otros intervalos de diferentes anchos que podamos escoger , 2 (2 0.707), 3 (3 0.707), y así sucesivamente.
m = 36 meses n = 200
FIGURA 8-1 Distribución muestral de la media para muestras de 200 baterías
m = 36
* No se usó el multiplicador de población finita para calcular el error estándar de la media porque la población de baterías es lo suficientemente grande para considerarla infinita.
8.3: Estimaciones de intervalo: conceptos básicos
253
Probabilidad de que el verdadero parámetro poblacional caiga dentro de la estimación del intervalo
Búsqueda de la probabilidad de que la media caiga en esta estimación del intervalo
Para empezar a resolver este problema, debemos trabajar con la distribución normal de probabilidad y las porciones específicas del área bajo la curv a normal están localizadas entre más-menos cierto número de desviaciones estándar a partir de la media. Afortunadamente, podemos aplicar estas propiedades al error estándar de la media y af irmar lo siguiente acerca del rango de valores que se utilizaron para hacer una estimación de interv alo en nuestro problema de las baterías. La probabilidad es 0.955 de que la media de una muestra de 200 baterías esté dentro de2 errores estándar de la media de la población. Dicho de manera diferente, el 95.5% de todas las medias muestrales está dentro de 2 errores estándar de y, en consecuencia, está dentro de 2 errores estándar del 95.5% de todas las medias muestrales . Teóricamente, si seleccionamos 1,000 muestras al azar de una población dada y lue go construimos un intervalo de 2 errores estándar alrededor de la media de cada una de esas muestras,cerca de 955 de estos intervalos incluirán a la media de la población. De manera parecida,la probabilidad de que la media de la muestra esté dentro de 1 error estándar de la media de la población es 0.683, y así sucesivamente. Este concepto teórico es fundamental para nuestro estudio sobre la construcción de interv alos y la inferencia estadística. La figura 8-2 ilustra el concepto de manera gráfica e indica cinco de esos intervalos. Únicamente el intervalo construido alrededor de la media de la muestra x4 no contiene a la media de la población. En palabras, los estadísticos describirían las estimaciones de intervalos representadas en la figura 8-2 como sigue: “La media de la población , estará localizada dentro de 2 errores estándar de la media muestral el 95.5% de las veces.” En lo que concierne a cualquier intervalo particular de la figura 8-2, éste contiene a la media de la población o no la contiene, pues la media de la población es un parámetro fijo. Como sabemos que el 95.5% de todas las muestras el intervalo contendrá a la media de la población, decimos que hay 95.5% de confianza de que el intervalo contenga a la media de la población.
95.5% de la media
m– 2x
x1
x5
x3 m
x2
m + 2sx x4
2sx
FIGURA 8-2 Cierto número de intervalos construidos alrededor de las medias muestrales; todos, excepto uno, incluyen a la media de la población
intervalo para la muestra 1 2sx
x1 2sx intervalo para la muestra 2
intervalo para la muestra 3
x3
2sx
intervalo para la muestra 4
2sx intervalo para la muestra 5
x2
x5
x4
254
CAPÍTULO 8 Estimación
Una estimación más útil de la vida de las baterías
Con la aplicación de lo anterior al ejemplo de las baterías, podemos dar un informe al director . Nuestra mejor estimación de la vida útil de las baterías de la compañía es 36 meses,y tenemos 68.3% de confianza de que la vida útil se encuentra en el intervalo que abarca de 35.293 a 36.707 meses (36 1 x). Similarmente, tenemos 95.5% de conf ianza de que la duración caiga dentro del interv alo comprendido entre 34.586 y 37.414 meses (36 2x), y tenemos el 99.7% de confianza de que la vida útil de una batería estará dentro del intervalo que va de 33.879 a 38.121 meses (36 3x).
Cada vez que se hace una estimación existe un error implícito en ella. P ara que las personas lo entiendan, es una práctica común describirlo con una afirmación como “nuestra mejor estimación de la vida de estas llantas es 40,000 millas y tenemos una se guridad del 90% de que la vida estará entre 35,000 y 45,000 millas”. Pero si su jefe quiere saber cuál es la vida promedio e xacta de un conjunto de llantas, y no supiera de muestreo, tendría que SUGERENCIAS Y SUPOSICIONES
observar cientos de miles de conjuntos de llantas hasta que se desgastaran, y después calcular cuánto duraron en promedio. Advertencia: incluso en este caso estaría haciendo un muestreo porque es imposible observ ar y medir todos los juegos de llantas que están en uso. Es mucho menos costoso y más rápido usar el muestreo para encontrar la respuesta. Si entiende las estimaciones, puede decirle a su jefe qué riesgos implica usar una muestra para estimar la vida útil real de la llanta.
Ejercicios 8.3 Ejercicios de autoevaluación EA
8-3
EA
8-4
Para una población con una varianza conocida de 185, una muestra de 64 individuos lleva a 217 como estimación de la media. a) Encuentre el error estándar de la media. b) Establezca una estimación de intervalo que incluya la media de la población el 68.3% del tiempo. Eunice Gunterwal es una ahorradora estudiante de licenciatura de la universidad del estado que está interesada en comprar un auto usado. Selecciona al azar 125 anuncios y ve que el precio promedio de un auto en esta muestra es $3,250. Eunice sabe que la desviación estándar de los precios de los autos usados en esta ciudad es $615. a) Establezca una estimación de intervalo para el precio promedio de un automóvil de manera que Eunice tenga una seguridad del 68.3% de que la media de la población está dentro de este intervalo. b) Establezca una estimación de intervalo para el precio promedio de un auto de modo que la señorita Gunterwal tenga el 95.5% de certeza de que la media de la población está dentro de este intervalo.
Conceptos básicos ■
8-12
■
8-13
De una población que se sabe tiene una desviación estándar de 1.4, se toma una muestra de 60 indi viduos. Se encuentra que la media de esta muestra es 6.2. a) Encuentre el error estándar de la media. b) Construya una estimación de intervalo alrededor de la media de la muestra, utilizando un error estándar de la media. De una población con desviación estándar conocida de 1.65, una muestra de 32 elementos dio como resultado 34.8 como estimación de la media. a) Encuentre el error estándar de la media. b) Calcule un intervalo estimado que incluya la media de la población el 99.7% del tiempo.
Aplicaciones ■
8-14
La Universidad de Carolina del Norte está llevando a cabo un estudio sobre el peso promedio de los adoquines que conforman los andadores del campus. Se en vía a algunos trabajadores a desenterrar y pesar
8.4: Estimaciones de intervalo e intervalos de confianza
■
8-15
■
8-16
■
8-17
■
8-18
255
una muestra de 421 adoquines, y el peso promedio de la muestra resulta ser 14.2 libras. Todo mundo sabe que la desviación estándar del peso de un adoquín es 0.8 libras. a) Encuentre el error estándar de la media. b) ¿Cuál es el interv alo alrededor de la media de la muestra que incluirá la población de la media el 95.5% de las veces? Debido a que el dueño del restaurante recientemente abierto, El Refugio del Bardo ha tenido dificultades al estimar la cantidad de comida que debe preparar cada tarde, ha decidido determinar el número medio de clientes a los que atiende cada noche. Seleccionó una muestra de 30 noches que le arrojaron una media de 71 clientes. Se llegó a la conclusión de que la desviación estándar de la población es 3.76. a) Dé una estimación de intervalo que tenga el 68.3% de probabilidad de incluir a la media de la población. b) Dé una estimación de intervalo que tenga el 99.7% de probabilidad de incluir a la media de la población. La administradora del puente Neuse River está preocupada acerca de la cantidad de automóviles que pasan sin pagar por las casetas de cobro automáticas del puente, y está considerando cambiar la manera de cobrar, si el cambio permite solucionar el problema. Muestreó al azar 75 horas para determinar la tasa de violación. El número promedio de violaciones por hora fue 7. Si se sabe que la desviación estándar de la población es 0.9, estime un intervalo que tenga el 95.5% de probabilidad de contener a la media verdadera. Gwen Taylor, administradora de los departamentos WilowWood, desea informar a los residentes potenciales cuánta energía eléctrica pueden esperar usar durante el mes de agosto. Selecciona 61 residentes aleatorios y descubre que su consumo promedio en agosto es 894 kilowatts hora (kwh). Gwen piensa que la varianza del consumo es alrededor de 131 (kwh)2. a) Establezca una estimación de intervalo para el consumo promedio de ener gía eléctrica en el mes de agosto para que Gwen pueda tener una se guridad del 68.3% de que la media v erdadera de la población está dentro de este intervalo. b) Repita la parte a) para una certeza del 99.7%. c) Si el precio por kilowatt es $0.12, ¿dentro de qué intervalo puede Gwen estar 68.3% segura que caerá el costo promedio de agosto por consumo de electricidad? La Junta Directiva de Escuelas Estatales del condado Pesimismo considera que su tarea más importante es mantener el tamaño promedio de los grupos de sus escuelas menor que el tamaño promedio de los grupos de Optimismo, el condado vecino. Dee Marks, la superintendente de escuelas de Pesimismo, acaba de recibir información confiable que indica que el tamaño del grupo promedio en Optimismo este año es 30.3 estudiantes. Todavía no tiene los datos correspondientes de los 621 grupos de su propio sistema escolar, de modo que Dee se ve forzada a basar sus cálculos en los 76 grupos que han informado acerca de su tamaño de grupo, que producen un promedio de 29.8 estudiantes. Dee sabe que el tamaño de grupo de las escuelas de Pesimismo tiene una distribución con media desconocida y una desviación estándar de 8.3 estudiantes. Suponiendo que la muestra de 76 estudiantes que tiene la señorita Marks es una muestra aleatoria de la población de los grupos del condado Pesimismo: a) Encuentre un intervalo en el cual Dee Marks pueda tener el 95.5% de certeza de que contendrá a la media real. b) ¿Usted cree que la señora Dee ha conseguido su objetivo?
Soluciones a lo ejercicios de autoevaluación EA
8-3
EA
8-4
2 185 185 13.60 n 64 x 217 1.70 a) x /n 13.60/64 b) x x 217 1.70 (215.3, 218.7) 615 n 125 x /n 615/125 55.01 x 3,250 a) x x 3,250 55.01 ($3,194.99, $3,305.01) b) x 2x 3,250 2(55.01) 3,250 110.02 ($3,139.98, $3,360.02)
8.4 Estimaciones de intervalo e intervalos de confianza Al utilizar estimaciones de intervalo no nos estamos limitando a 1, 2 y 3 errores estándar. De acuerdo con la tabla 1 del apéndice, 1.64 errores estándar, por ejemplo, incluyen aproximadamente el
256
CAPÍTULO 8 Estimación
Definición de nivel de confianza
90% del área bajo la curva y, así, 0.4495 del área a ambos lados de la media en una distribución normal. De manera parecida, 2.58 errores estándar incluyen alrededor de 99% del área o el 49.51% a cada lado de la media. En estadística, la probabilidad que asociamos con una estimación de intervalo se conoce como nivel de confianza. Esta probabilidad indica qué tanta confianza tenemos de que la estimación de intervalo incluya al parámetro de población. Una probabilidad más alta implica una mayor confianza. En la estimación, los niveles de confianza que se utilizan con más frecuencia son 90, 95 y 99%, pero somos libres de aplicar cualquier nivel de confianza. En la figura 8-2, por ejemplo, utilizamos un nivel de confianza del 95.5%. El intervalo de confianza es el rango de la estimación que estamos haciendo. Si informamos que tenemos el 90% de confianza de que la media de la población de ingresos de las personas que viven en una cierta comunidad está entre $8,000 y $24,000, entonces el rango $8,000-$24,000 es nuestro intervalo de confianza. A menudo, sin embargo, expresaremos el intervalo de confianza en términos de errores estándar, más que con valores numéricos. Así, expresaremos los intervalos de confianza de esta forma: x 1.64x , donde: x 1.64x límite superior del intervalo de confianza x 1.64 x límite inferior del intervalo de confianza
Entonces, los límites de confianza son los límites superior e inferior del interv alo de confianza. En este caso, x 1.64x se conoce como límite superior de confianza (LSC) y x 1.64x es el límite inferior de confianza (LIC).
Relación entre nivel de confianza e intervalo de confianza Podría pensarse que deberíamos utilizar un alto nivel de confianza, como 99%, en todos los problemas sobre estimaciones. Después de todo, parece ser que un alto nivel de confianza significa un alto grado de precisión en lo que a la estimación concierne. En la práctica, sin embargo, altos niveles de confianza producen intervalos de confianza grandes, y éstos, de hecho, dan estimaciones bastante imprecisas. Considere, por ejemplo, el caso de un cliente de una tienda de electrodomésticos que pre gunta sobre la entrega de una nueva lavadora de ropa. En la tabla 8-4 presentamos varias preguntas que el cliente podría hacer y las respuestas probables. Esta tabla indica la relación directa que e xiste entre el nivel de confianza y el intervalo de confianza de cualquier estimación. A medida que el cliente va estableciendo un intervalo de confianza cada vez más estrecho, el administrador de la tienda consiente en un nivel de confianza cada vez más bajo. Note, también, que cuando el intervalo de confianza es demasiado amplio, como en el caso en que la entre ga tarda un año, la estimación puede tomar un valor real muy pequeño, a pesar, incluso, de que el administrador le da un nivel de confianza del 99% a dicha estimación. De manera parecida, si el intervalo de confianza es muy reducido (¿Llegará la nueva lavadora a mi casa antes que yo?), la estimación está asociada a un nivel de confianza tan bajo (l%) que cuestionamos su valor.
Uso de muestreo y estimación de intervalos de confianza Estimación a partir de una sola muestra
En nuestro análisis de los conceptos básicos de la estimación de intervalos, particularmente en la figura 8-2, describimos muestras de una población tomadas de manera repetida con el f in de estimar un parámetro. Mencionamos, también, la selección de un gran número de medias muestrales de una población. En la práctica, sin embargo, a menudo resulta difícil o costoso tomar más de una muestra de una población. Con base en una sola muestra estimamos el parámetro de la población. Debemos tener cuidado, entonces, en la interpretación de los resultados de este proceso. Suponga que calculamos, en el ejemplo de las baterías y a partir de una sola muestra, el intervalo de confianza y el nivel de confianza: “Tenemos el 95% de confianza de que la vida media de las
8.4: Estimaciones de intervalo e intervalos de confianza
Respuesta del administrador de la tienda
Tabla 8-4 lustración de la relación entre nivel de confianza e intervalo de confianza
Pregunta del cliente ¿Llegará la lavadora antes de un año? ¿Me entregarán la lavadora antes de un mes? ¿Me entregarán la lavadora antes de una semana? ¿Tendré la lavadora en mi casa mañana? ¿Llegará la nueva lavadora a mi casa antes que yo?
Tengo la absoluta certeza de ello. Estoy casi seguro que la recibirá en este mes. Estoy bastante seguro de que saldrá en esta semana. No tengo la certeza de poder hacerlo. Hay una pequeña posibilidad.
Nivel de confianza implicado
Intervalo de confianza implicado
Mayor que 99%
Un año
Al menos 95%
Un mes
Alrededor del 80%
Una semana
Alrededor del 40%
Un día
Cercano al 1%
257
Una hora
baterías de la población se encuentra entre 30 y 42 meses.” Esta afirmación no significa que se tiene 0.95 de probabilidad de que la vida media de todas las baterías caiga dentro del intervalo establecido para esta muestra. Más bien, indica que si seleccionamos muchas muestras aleatorias del mismo tamaño y calculamos un inter valo de confianza para cada una de esas muestras, entonces en alrededor del 95% de los casos la media de la población caerá dentr o de dicho intervalo. Nada es gratis en lo que respecta a niveles e intervalos de confianza. Cuando obtiene más de uno, deberá tener menos del otro. Es recomendable, para comprender esta importante relación, que regrese a la tabla 8-4. Si desea que la estimación del tiempo de entrega tenga una exactitud perfecta del (100%), deberá sacrificar precisión SUGERENCIAS Y SUPOSICIONES
en el intervalo de confianza y aceptar una promesa amplia de tiempo de entre ga (“en algún momento del año”). Por otro lado, si no le preocupa la e xactitud de la estimación, su personal de entre ga podría decir “tengo una se guridad del 1% de que podemos entre garle en menos de 1 hora”. No se puede tener las dos cosas al mismo tiempo.
Ejercicios 8.4 Ejercicios de autoevaluación EA
8-5
Dados los siguientes niveles de confianza, exprese los límites inferior y superior del intervalo de confianza para estos niveles en términos de x y x. a) 54%. b) 75%. c) 94%. d) 98%.
Conceptos básicos 8-19 8-20 8-21 8-22
Defina el nivel de confianza para una estimación de intervalo. Defina el intervalo de confianza. Suponga que desea utilizar un nivel de confianza del 80%. Dé el límite superior del intervalo de confianza en términos de la media de la muestra, x, y del error estándar, x. ¿De qué forma podría una estimación ser menos significativa debido a a) un alto nivel de confianza? b) un estrecho nivel de confianza?
258
CAPÍTULO 8 Estimación
8-23
8-24 8-25
Suponga que se toma una muestra de 50 elementos de una población con desviación estándar de 27, y que la media de la muestra es 86. a) Establezca una estimación de intervalo para la media de la población que tenga el 95.5% de certeza de incluir a la media verdadera de la población. b) Suponga, ahora, que el tamaño de la muestra es 5,000 elementos. Establezca un intervalo para la media de la población que tenga el 95.5% de certeza de incluir a la media verdadera de la población. c) ¿Por qué la estimación del inciso a) sería preferible a la del inciso b)? ¿Por qué la estimación del inciso b) sería mejor que la del inciso a)? El nivel de confianza para una estimación, ¿está basado en el interv alo obtenido a partir de una sola muestra? Dados los siguientes niveles de confianza, exprese los límites inferior y superior del intervalo de confianza en términos de x y de x. a) 60%. b) 70%. c) 92%. d) 96%.
Aplicaciones 8-26
Steve Klippers, dueño de la peluquería Steve´s, se ha formado una buena reputación entre los residentes de Cullowhee. Cuando un cliente entra a su establecimiento, Steve grita los minutos que el cliente deberá esperar antes de que se le atienda. El único estadístico del pueblo, después de frustrarse por las poco precisas estimaciones puntuales de Steve, ha determinado que el tiempo de espera real de cualquier cliente está distribuido normalmente con una media igual a la estimación de Ste ve en minutos y una desviación estándar igual a 5 minutos di vididos entre la posición del cliente en la f ila de espera. Ayude a los clientes de Steve´s a establecer intervalos con el 95% de probabilidad para las situaciones siguientes: a) El cliente es el segundo en la fila y la estimación de Steve es 25 minutos. b) El cliente es el tercero y la estimación de Steve es 15 minutos. c) El cliente es el quinto de la fila, y la estimación de Steve es 38 minutos. d) El cliente es el primero de la fila, y la estimación de Steve es 20 minutos. ¿Qué diferencia existe entre estos intervalos y los intervalos de confianza?
Soluciones a los ejercicios de autoevaluación EA
8-5
a) x 0.74 x.
b) x 1.15 x.
c) x 1.88 x.
d) x 2.33 x.
8.5 Cálculo de estimaciones de intervalo de la media a partir de muestras grandes Búsqueda de un intervalo de confianza del 95%
Desviación estándar de la población
Un mayorista de refacciones automotrices necesita una estimación de la vida media que puede esperar de los limpiadores de parabrisas en condiciones normales de manejo. La administración de la empresa ya ha determinado que la desviación estándar de la vida útil de la población es 6 meses. Suponga que seleccionamos una sola muestra aleatoria de 100 limpiadores, tomamos los datos referentes a su vida útil y obtenemos los siguientes resultados: n 100 ← Tamaño de la muestra x 21 meses ← Media de la muestra 6 meses ← Desviación estándar de la población Como el distribuidor utiliza decenas de miles de limpiadores al año, nos pide que encontremos una estimación de intervalo con un nivel de confianza del 95%. El tamaño de la muestra es mayor que 30, de modo que el teorema central del límite nos permite usar la distrib ución normal como distri-
8.5: Cálculo de estimaciones de intervalo de la media a partir de muestras grandes
259
bución de muestreo, aun cuando nuestra población no tenga distrib ución normal. Calculamos el error estándar de la media con la ecuación 7-1:
x n
[7-1]
6 meses 100 6 10 0.6 meses ← Error estándar de la media para una población infinita
Cálculo de los límites de confianza
A continuación consideraremos el nivel de confianza con el cual estamos trabajando. Como un ni vel del 95% de confianza incluirá el 47.5% del área que se encuentra a ambos lados de la media de la distribución de muestreo, podemos buscar en el cuerpo de la tabla 1 del apéndice el v alor correspondiente a 0.475. Descubrimos que 0.475 del área bajo la curv a normal está contenida entre la media y un punto situado a 1.96 errores estándar a la derecha de la media. Por consiguiente, sabemos que (2)(0.475) 0.95 del área está localizada entre 1.96 errores estándar de la media y que nuestros límites de confianza son: x 1.96 x ← Límite superior de confianza x 1.96x ← Límite inferior de confianza Luego sustituimos valores numéricos en estas dos expresiones: x 1.96x 21 meses 1.96(0.6 meses) 21 1.18 meses 22.18 meses ← Límite superior de confianza x 1.96 x 21 meses 1.96(0.6 meses) 21 1.18 meses 19.82 meses ← Límite inferior de confianza
Nuestra conclusión
Ahora podemos informar que estimamos la vida media de la población de limpiadores de parabrisas entre 19.82 y 22.18 meses con un 95% de confianza.
Cuando no se conoce la desviación estándar de la población Búsqueda de un intervalo de confianza del 90%
Un problema más complejo de estimación de intervalo proviene del departamento de servicio social de una dependencia gubernamental local. El departamento está interesado en estimar el ingreso medio anual de 700 familias que viven en una sección de cuatro manzanas de una comunidad. Tomamos una muestra aleatoria simple y encontramos los siguientes resultados: n 50 ← Tamaño de muestra x $11,800 ← Media de la muestra s $950 ← Desviación estándar de la muestra El departamento nos pide que calculemos una estimación de intervalo del ingreso anual medio de las 700 familias, de modo que pueda tener el 90% de confianza de que la media de la población
260
CAPÍTULO 8 Estimación
Estimación de la desviación estándar de la población
se encuentra dentro de ese intervalo. El tamaño de la muestra es mayor que 30, de manera que, de nuevo, el teorema central del límite nos permite utilizar la distribución normal como la distribución de muestreo. Observe que una parte de este problema es diferente de los ejemplos anteriores; no conocemos la desviación estándar de la población y, por tanto, utilizaremos la desviación estándar de la muestra para estimar la desviación estándar de la población: Estimación de la desviación estándar de la población
ˆ s
Estimación de la desviación estándar de la población
(x x)2 n1
[8-1]
El valor de $950.00 es nuestra estimación de la desviación estándar de la población. El símbolo para representar este valor estimado es ˆ, que se conoce como sigma gorro. Ahora podemos estimar el error estándar de la media. Como tenemos un tamaño de población finito y nuestra muestra constituye más del 5% de la población, utilizaremos la fórmula para derivar el error estándar de la media de poblaciones finitas:
x n Estimación del error estándar de la media
Nn
N1
[7-3]
Ya que estamos calculando el error estándar de la media mediante una estimación de la desviación estándar de la población, volvemos a escribir esta ecuación de modo que los símbolos sean correctos: Estimación del error estándar de la media de una población finita Símbolo que indica un valor estimado
Estimación de la desviación estándar de la población
ˆ ˆ x n
Nn
N1
[8-2]
$950.00 Continuando con nuestro ejemplo, encontramos que ˆ x 50 $950.00 7.07
700 – 50
700 – 1
650
699
($134.37)(0.9643) $129.57 ← Estimación del error estándar de la media de una población finita (derivada de una estimación de la desviación estándar de la población)
En seguida consideramos el nivel de confianza del 90%, que incluiría el 45% del área que se encuentra a ambos lados de la media de la distribución de muestreo. Si observamos la tabla 1 del apéndice y buscamos el valor correspondiente a 0.45, encontramos que aproximadamente 0.45 del área bajo la curva normal está localizada entre la media y un punto alejado de ésta 1.64 errores estándar. En consecuencia, el 90% del área está localizada entre 1.64 errores estándar de la media, y nuestros límites de confianza son:
8.5: Cálculo de estimaciones de intervalo de la media a partir de muestras grandes
261
x 1.64ˆ x $11,800 1.64 ($129.57) $11,800 $212.50 $12,012.50 ← Límite de confianza superior x 1.64ˆ x $11,800 1.64($129.57) $11,800 $212.50 $11,587.50 ← Límite de confianza inferior Nuestra conclusión
El informe que podríamos dar al departamento de servicio social sería: “Con una confianza del 90%, estimamos que el ingreso anual promedio de las 700 familias que viven en una sección de cuatro manzanas se encuentra entre $11,587.50 y $12,012.50.”
Es sencillo entender cómo comenzar a resolver estos ejercicios si re gresa a la figura 8-2 un momento. Cuando alguien establece un nivel de confianza, se refiere al área sombreada de la figura, que se define por cuántas x (errores estándar o desviaciones estándar de la distribu ción de medias muestrales) hay a cada lado de la media. La tabla 1 del apéndice convierte cualquier nivel de confianza SUGERENCIAS Y SUPOSICIONES
deseado en errores estándar. Como se cuenta con la información necesaria para calcular un error estándar, es posible calcular los puntos terminales del área sombreada; éstos son los límites del interv alo de confianza. Recuerde que cuando no se conoce la dispersión de la población (la desviación estándar de la población) puede usar la ecuación 8-1 para estimarla.
Ejercicios 8.5 Ejercicios de autoevaluación EA
8-6
EA
8-7
Se toma una muestra de 60 indi viduos a partir de una población de 540. De esta muestra, se encuentra que la media es 6.2 y la desviación estándar es 1.368. a) Encuentre la estimación del error estándar de la media. b) Construya un intervalo del 96% de confianza para la media. En una prueba de seguridad automovilística realizada por el Centro de Investigación Carretera de Carolina del Norte, la presión promedio de las llantas para una muestra de 62 llantas fue 24 libras por pulgada cuadrada y la desviación estándar fue 2.1 libras por pulgada cuadrada. a) ¿Cuál es la desviación estándar estimada para esta población? (Existen cerca de un millón de automóviles registrados en Carolina del Norte). b) Calcule el error estándar estimado de la media.
Conceptos básicos ■
8-27
■
8-28
c) Construya un intervalo de confianza del 95% para la media de la población. El gerente de la división de bombillas de la Cardinal Electric debe estimar el número promedio de horas que durarán los focos fabricados por cada una de las máquinas. Fue ele gida una muestra de 40 focos de la máquina A y el tiempo promedio de funcionamiento fue 1,416 horas. Se sabe que la desviación estándar de la duración es 30 horas. a) Calcule el error estándar de la media. b) Construya un intervalo de confianza del 90% para la media de la población. Después de recolectar una muestra de 250 elementos de una población con una desviación estándar conocida de 13.7, se encuentra que la media es 112.4. a) Encuentre un intervalo de confianza del 95% para la media. b) Encuentre un intervalo de confianza del 99% para la media.
262
CAPÍTULO 8 Estimación
Aplicaciones ■
8-29
■
8-30
■
8-31
■
8-32
■
8-33
■
8-34
La enfermera de la secundaria de Westview está interesada en conocer la estatura promedio de los estudiantes del último año, pero no tiene suficiente tiempo para examinar los registros de los 430 estudiantes. Por ello, selecciona 48 al azar y encuentra que la media de la muestra es 64.5 pulgadas y la desviación estándar es 2.3 pulgadas. a) Encuentre la estimación del error estándar de la media. b) Construya un intervalo de confianza del 90% para la media. Jon Jackobsen, un pasante de posgrado muy dedicado, acaba de terminar una primera versión de su tesis de 700 páginas. Jon mecanografió el trabajo por sí mismo y está interesado en conocer el número promedio de errores tipográficos por página, pero no quiere leer todo el documento. Como sabe algo acerca de estadística para la administración, Jon leyó 40 páginas seleccionadas de manera aleatoria y encontró que el promedio de errores tipográficos por página fue 4.3 y la desviación estándar de la muestra fue 1.2 errores por página. a) Calcule el error estándar estimado de la media. b) Calcule un intervalo de confianza del 90% para el número promedio verdadero de errores por página en su trabajo. La Autoridad para la Televisión por Cable de Nebraska (A TCN) realizó una prueba para determinar el tiempo que las personas pasan frente al televisor por semana. La ATCN encuestó a 84 suscriptores y encontró que el número promedio de horas que ven televisión por semana es 11.6 horas con una desviación estándar de 1.8 horas. a) ¿Cuál es la desviación estándar de la población estimada para esta población? (Existen cerca de 95,000 personas con televisión por cable en Nebraska.) b) Calcule el error estándar estimado de la media. c) Construya un intervalo de confianza del 98% para la media de la población. Joel Friedlander es un corredor de la Bolsa de Valores de Nueva York y tiene curiosidad acerca del tiempo que transcurre entre la colocación de una orden de v enta y su ejecución. Joel hizo un muestreo de 45 órdenes y encontró que el tiempo medio para la ejecución fue 24.3 minutos, con una desviación estándar de 3.2 minutos. Ayude a Joel con la construcción de un intervalo de confianza del 95% para el tiempo medio para la ejecución de una orden. Oscar T. Grady es el gerente de producción de la compañía Citrus Gro ves, localizada justo al norte de Ocala, Florida. Oscar está preocupado debido a que las heladas tardías de los últimos tres años han estado dañando los 2,500 naranjos que posee la Citrus Gro ves. Con el fin de determinar el grado del daño ocasionado a los árboles, Oscar ha recogido una muestra del número de naranjas producidas por cada árbol para 42 naranjos y encontró que la producción promedio fue 525 naranjas por árbol, con una desviación estándar de 30 naranjas por árbol. a) Estime la desviación estándar de la población a partir de la desviación estándar de la muestra. b) Estime el error estándar de la muestra de esta población finita. c) Construya un intervalo de confianza del 98% para la producción media por árbol del total de 2,500 árboles. d) Si la producción media de naranjas por árbol fue 600 frutas hace cinco años, ¿qué puede decir Oscar acerca de la posible existencia de daños en el presente? La jefa de policía, Kathy Ackert, recientemente estableció medidas enérgicas para combatir a los traf icantes de droga de su ciudad. Desde que se pusieron en funcionamiento dichas medidas, han sido capturados 750 de los 12,368 traficantes de droga de la ciudad. El valor promedio, en dólares, de las drogas decomisadas a estos 750 traficantes es $250,000. La desviación estándar del valor de la droga de esos 750 traficantes es $41,000. Elabore para la jefa Ackert un intervalo de confianza del 90% para el valor medio en dólares de las drogas que están en manos de los traficantes de la ciudad.
Soluciones a los ejercicios de autoevaluación EA
8-6
ˆ 1.368
N 540
ˆ a) ˆ x
n
x 6.2 1.368 Nn 540 60 0.167 6 0 N1 540 1
n 60
b) x 2,05ˆ x 6.2 2.05(0.167) 6.2 0.342 (5.86, 6.54)
8.6: Cálculo de estimaciones de intervalo de la proporción a partir de muestras grandes
EA
8-7
s 2.1
n 62
263
x 24
a) ˆ s 2.1 psi 2.1/6 2 0.267 psi b) ˆ x ˆ /n c) x 1.96ˆ x 24 1.96(0.267) 24 0.523 (23.48, 24.52) psi
8.6 Cálculo de estimaciones de intervalo de la proporción a partir de muestras grandes Repaso de la distribución binomial
Los especialistas en estadística, a menudo, utilizan una muestra para estimar la proporción de ocurrencias de un evento en una población. Por ejemplo, el gobierno estima, mediante un procedimiento de muestreo, el índice de desempleo o la proporción de personas sin trabajo de la fuerza laboral del país. La distribución binomial es una distribución de datos discretos no continuos de dos fórmulas para derivar la media y la desviación estándar de la distribución binomial:
np
[8-D]
npq
[8-E]
donde, • n número de ensayos o intentos • p probabilidad de éxito • q 1 p probabilidad de falla
Limitaciones de la distribución binomial
Búsqueda de la media de la proporción de la muestra
Teóricamente, la distribución binomial es la distribución correcta a utilizar en la construcción de intervalos de confianza para estimar una proporción de población. Debido a que el cálculo de probabilidades binomiales es demasiado tedioso (recuerde que la probabilidad de obtener r éxitos en n ensayos es [n!/r!(n r)!][prqnr]), el uso de la distribución binomial para elaborar estimaciones de intervalo de la proporción de una población es una proposición complicada. Afortunadamente, conforme aumenta el tamaño de la muestra, la distribución binomial puede aproximarse por una distribución normal apropiada, que podemos utilizar para aproximar la distribución muestral. Los estadísticos recomiendan que en la estimación, n sea lo suficientemente grande para que tanto np como nq sean al menos 5 cuando se utiliza la distrib ución normal como sustituto de la binomial. Expresemos en símbolos la proporción de éxitos en una muestra con pˆ (se lee p gorro). Luego modifiquemos la ecuación 8-D de manera que podamos utilizarla para derivar la media de la distribución de muestreo de la proporción de éxitos. En palabras, np muestra que la media de la distribución binomial es igual al producto del número de ensayos, n, por la probabilidad de obtener un éxito, p; esto es, np es igual al número medio de éxitos. Para cambiar este número de éxitos a la proporción de éxitos, dividimos np entre n y obtenemos sólo el valor de p. La media, que se encuentra al lado izquierdo de la ecuación se convierte en pˆ , es decir, en la media de la distribución de muestreo de la proporción de éxitos.
Media de la distribución muestral de la proporción
pˆ p
[8-3]
264
CAPÍTULO 8 Estimación
Búsqueda de la desviación estándar de la proporción de la muestra
De forma parecida podemos modificar la fórmula para la desviación estándar de la distribución binomial, npq, que mide la desviación estándar del número de éxitos. Para cambiar el número de éxitos a la proporción de éxitos, dividimos n pq, entre n y obtenemos pq/ n. En términos estadísticos, la desviación estándar de la proporción de éxitos en una muestra se expresa en símbolos como: Error estándar de la proporción
pˆ
Error estándar de la proporción
pq
n
[8-4]
y se conoce como el error estándar de la proporción. Podemos ilustrar cómo utilizar estas fórmulas si, para una organización muy grande, hacemos la estimación de qué proporción de sus empleados prefieren planificar su propios beneficios de retiro en lugar de se guir un plan patrocinado por la compañía. Primero, tomamos una pequeña muestra aleatoria de 75 empleados y encontramos que el 0.4 de ellos están interesados en seguir sus propios planes de retiro. Nuestros resultados son: n 75 ← Tamaño de muestra pˆ 0.4 ← Proporción de la muestra a favor qˆ 0.6 ← Proporción de la muestra en contra Estimación de la proporción de una población
A continuación, la administración solicita que utilicemos esta muestra para encontrar un intervalo en el que puedan tener el 99% de confianza de que contiene a la proporción verdadera de la población. Pero, para la población, ¿qué son pˆ y qˆ? Podemos estimar los parámetros de la población mediante la sustitución de los estadísticos correspondientes de la muestra, pˆ y qˆ (p gorro y q gorro) en la fórmula del error estándar de la proporción.* Al hacer esto obtenemos: Error estándar estimado de la proporción Símbolo que indica que se está estimando el error estándar de la proporción
Estadístico de la muestra
ˆ pˆ
pˆ qˆ
n
[8-5]
(0.4)(0.6)
75
0.0 032 0.057← Error estándar estimado de la proporción
Cálculo de los límites de confianza
Ahora estamos en posibilidades de proporcionar la estimación que la administración necesita, usando el mismo procedimiento que se guimos con anterioridad. Un ni vel de confianza del 99% incluiría 49.5% del área que se encuentra a cualquier lado de la media de la distribución de muestreo. El cuerpo de la tabla 1 del apéndice nos dice que 0.495 del área bajo la curva normal está localizada entre la media y un punto que se encuentra a 2.58 errores estándar de la media. En consecuencia, 99% del área está contenida entre más y menos 2.58 errores estándar de la media. Nuestros límites de confianza entonces son: * Note que no utilizamos el multiplicador de población finita, debido a que nuestra población es muy grande en comparación con el tamaño de la muestra.
8.6: Cálculo de estimaciones de intervalo de la proporción a partir de muestras grandes
265
pˆ 2.58 ˆ pˆ 0.4 2.58(0.057) 0.4 0.147 0.547 ← Límite superior de confianza pˆ 2.58 ˆ pˆ 0.4 2.58(0.057) 0.4 0.147 0.253 ← Límite inferior de confianza Nuestra conclusión
Entonces, estimamos a partir de nuestra muestra de 75 empleados que, con el 99% de conf ianza, creemos que la proporción de la población total de empleados que desean establecer sus propios planes de retiro está entre 0.253 y 0.547.
Las mismas suposiciones, sugerencias y advertencias establecidas en la página 263 se aplican en este caso. La única diferencia es que ahora, como se trata de una proporción, la distribución binomial es la distribución muestral correcta. Recuerde, que mientras n sea suficientemente grande para que tanto np como nq sean al menos 5, SUGERENCIAS Y SUPOSICIONES
se puede usar la distribución normal para aproximar la binomial. Si éste es el caso, se procede justo como se hizo con las estimaciones de intervalo de la media. Advertencia: como el error estándar exacto de la proporción depende de la proporción desconocida de la población ( p), debe estimar p mediante pˆ, y usar pˆ, en la ecuación 8.5 para estimar el error estándar de la proporción.
Ejercicios 8.6 Ejercicios de autoevaluación EA
8-8
EA
8-9
Cuando se sondeó una muestra de 70 ejecutivos de ventas respecto al bajo desempeño durante noviembre en la industria de ventas al menudeo, el 66% pensó que la disminución en las v entas se debía a las temperaturas inusualmente altas, haciendo que los consumidores retrasaran sus compras de artículos de invierno. a) Estime el error estándar de la proporción de ejecuti vos de ventas que culpan al clima caliente de las bajas ventas. b) Encuentre los límites de confianza superior e inferior para esta proporción dado un 95% de ni vel de confianza. El doctor Benjamin Shockley, un psicólogo social reconocido, entrevistó a 150 ejecutivos de alto nivel y encontró que 42% de ellos no podía sumar fracciones correctamente. a) Estime el error estándar de la proporción. b) Construya un intervalo de confianza del 99% para la proporción verdadera de ejecutivos de alto nivel que no puede sumar fracciones correctamente.
Aplicaciones ■
8-35
■
8-36
Pascal Inc., una tienda de computación que compra al mayoreo chips sin probar para computadora, está considerando cambiar a su proveedor por otro que se los ofrece probados y con garantía,a un precio más alto. Con el fin de determinar si éste es un plan costeable, Pascal debe determinar la proporción de chips defectuosos que le entrega el proveedor actual. Se probó una muestra de 200 chips y 5% tenía defectos. a) Estime el error estándar de la proporción de chips defectuosos. b) Construya un intervalo de confianza del 98% para la proporción de chips defectuosos adquiridos. General Cinema obtuvo una muestra de 55 personas que vieron Caza Fantasmas 8 y les preguntaron si planeaban verla de nuevo. Sólo 10 de ellos pensaron que valía la pena ver la película por segunda vez. a) Estime el error estándar de la proporción de asistentes al cine que verán la película por segunda vez. b) Construya un intervalo de confianza del 90% para esta proporción.
266
CAPÍTULO 8 Estimación
■
8-37
■
8-38
■
8-39
■
8-40
■
8-41
■
8-42
■
8-43
La encargada de publicidad para el nue vo postre garapiñado de lima-limón de los productos Clear´n Light está intranquila por el mal desempeño del postre en el mercado y por su futuro en la empresa. Preocupada porque su estrategia de comercialización no ha producido una identificación apropiada de las características del producto, tomó una muestra de 1,500 consumidores y encontró que 956 de éstos pensaban que el producto era una cera para pulir pisos. a) Estime el error estándar de la proporción de personas que tuv o esta grave interpretación errónea del postre. b) Construya un intervalo de confianza del 96% para la proporción verdadera de la población. Michael Gordon, un jugador profesional de básquetbol, lanzó 200 tiros de castigo y encestó 174 de ellos. a) Estime el error estándar de la proporción de todos los tiros que Michael falla. b) Construya un intervalo de confianza del 98% para la proporción de todos los tiros de castigo que Michael falla. Hace poco SnackMore encuestó a 95 consumidores y encontró que el 80% compraba galletas sin grasa de SnackMore cada mes. a) Estime el error estándar de la proporción. b) Construya un intervalo del 95% de confianza para la proporción verdadera de personas que compran las galletas cada mes. El dueño de la empresa Home Loan Compan y investigó aleatoriamente 150 de las 3,000 cuentas de la compañía y determinó que el 60% estaba en una posición excelente. a) Encuentre un intervalo de confianza del 95% para la proporción de cuentas que están en posición excelente. b) Con base en el inciso anterior, ¿qué tipo de estimación de intervalo podría dar para el número absoluto de cuentas que cumplen con el requisito de excelencia, manteniendo el mismo nivel de confianza del 95%? Durante un año y medio las ventas han estado disminuyendo de manera consistente en las 1,500 sucursales de una cadena de comida rápida. Una empresa de asesores ha determinado que el 31% de una muestra de 95 sucursales tiene claros signos de una mala administración. Construya un intervalo de confianza del 98% para esta proporción. El consejo estudiantil de una universidad tomó una muestra de 45 libros de texto de la librería universitaria y determinó que de ellos, 60% se vendía en más del 50% arriba de su costo al mayoreo. Dé un intervalo de confianza del 96% para la proporción de libros cuyo precio sea más del 50% mayor que el costo al mayoreo. Barry Turnbull, el famoso analista de Wall Street, está interesado en conocer la proporción de accionistas individuales que planean v ender al menos un cuarto del total de sus v alores el mes próximo. Barry ha efectuado una inspección aleatoria de 800 individuos que poseen acciones y ha establecido que el 25% de su muestra planea vender al menos la cuarta parte de sus acciones el mes siguiente. Barry está a punto de publicar su esperado informe mensual, “Pulso de Wall Street: indicador de cotizaciones”, y le gustaría poder dar un intervalo de confianza a sus lectores. Está más preocupado por estar en lo correcto que por el ancho del intervalo. Construya un intervalo de confianza del 90% para la proporción verdadera de accionistas individuales que planean vender al menos un cuarto de sus acciones durante el siguiente mes.
Soluciones a los ejercicios de autoevaluación EA
8-8
n 70 a) ˆ pˆ
pˆ 0.66 pˆ qˆ
0.66(0.34)
0.0566 n 70
b) pˆ 1.96ˆ pˆ 0.66 1.96(0.0566) 0.66 0.111 (0.549, 0.771) EA
8-9
n 150 a) ˆ pˆ
pˆ 0.42 pˆ qˆ
0.42(0.58)
0.0403 n 150
b) pˆ 2.58ˆ pˆ 0.42 2.58(0.0403) 0.42 0.104 (0.316, 0.524)
8.7: Estimaciones de intervalos con la distribución t
267
8.7 Estimaciones de intervalos con la distribución t
A veces la distribución normal no es apropiada
Antecedentes históricos de la distribución t
Condiciones para usar la distribución t
En los tres ejemplos anteriores, los tamaños de la muestra eran todos mayores a 30. Muestreamos 100 limpiadores de parabrisas, 50 familias residentes de una área de cuatro manzanas de una comunidad y 75 empleados de una empresa grande. En cada ejemplo, la distribución normal era la distribución de muestreo adecuada para determinar intervalos de confianza. Sin embargo, no siempre es éste el caso. ¿Cómo podríamos tratar estimaciones en las que la distribución normal no es la distribución de muestreo adecuada, es decir, cuando se estima la desviación estándar de la población y el tamaño de muestra es 30 o menos? Por ejemplo,en el problema con que abrimos el capítulo, referente al uso del carbón, tenemos datos que sólo comprenden 10 semanas. Afortunadamente, existe otra distribución que sí es apropiada para estos casos. Se conoce como distribución t. Los primeros trabajos teóricos sobre la distribución t fueron realizados por W. S. Gosset, a principios del siglo XX. Gosset era empleado de la Cervecería Guinness en Dublín, Irlanda; la empresa no permitía que los empleados publicaran sus hallazgos de investigación con su propio nombre. De modo que Gosset adoptó el seudónimo de Student para publicar. En consecuencia, la distribución t se conoce como distribución t de Student o simplemente distribución de Student. Debido a que se usa cuando el tamaño de la muestra es 30 o menos, los especialistas en estadística, suelen asociar la distribución t con estadísticas de muestras pequeñas. Esto es una mala interpretación porque el tamaño de la muestra es sólo una de las condiciones que nos llevan a utilizar la distribución t; la segunda es que la desviación estándar de la población debe ser desconocida.El uso de la distribución t para hacer estimaciones se requiere siempre que el tamaño de la muestra sea menor o igual que 30 y la desviación estándar de la población no se conozca. Además, al utilizar la distribución t, suponemos que la población es normal o aproximadamente normal.
Características de la distribución t La distribución t comparada con la distribución normal
Sin derivar la distribución t de manera matemática, podemos entender en forma intuitiva la relación que existe entre la distribución t y la distribución normal. Ambas son simétricas. En general, la distribución t es más plana que la distrib ución normal y hay una distrib ución t diferente para cada tamaño posible de muestra. Aún así, conforme el tamaño de muestra se hace más grande, la forma de la distribución t deja de ser plana y se aproxima más a la distribución normal. De hecho, para tamaños de muestra mayores que 30, la distribución t se asemeja tanto a la normal que utilizaremos la normal para aproximar a la distribución t. La figura 8-3 compara una distribución normal con dos distribuciones t para tamaños de muestra diferentes. En esta figura se muestran dos características de las distribuciones t. Una distribución t es menor en la media y may or en las colas que una distrib ución normal. La figura también muestra cómo la distribución de Student tiene, proporcionalmente, una parte mayor de su área en las colas que la distribución normal; por esto será necesario alejarse más de la media de una distribución t para poder incluir la misma área bajo la curv a. Entonces, los anchos de intervalo de una distribución de Student son mayores que los basados en la distribución normal.
Grados de libertad Definición de grados de libertad
Se afirmó que existe una distribución t diferente para cada tamaño de muestra. En un lenguaje estadístico apropiado, diríamos: “existe una distribución t distinta para cada uno de los grados de libertad posibles”. ¿Qué son los grados de libertad? Podemos definirlos como el número de valores que podemos escoger libremente.
268
CAPÍTULO 8 Estimación
FIGURA 8-3 Distribución normal y distribución t para una muestra n 15, y distribución t para una muestra de tamaño n 2
Distribución normal
Distribución t para un tamaño de muestra n = 15
Distribución t para un tamaño de muestra n = 2
Suponga que se manejan dos valores de muestra, a y b, y sabemos que tienen una media de 18. En símbolos, la situación es: a b 18 2 ¿Cómo podemos encontrar los v alores que a y b pueden tomar en esta situación? La respuesta es que a y b pueden ser cualesquiera dos valores cuya suma sea 36, ya que 36 2 18. Suponga que sabemos que el valor de a es 10. Ahora b ya no es libre de tomar cualquier valor, sino que debe ser 26, ya que: Si entonces de modo que por tanto
Otro ejemplo
a 10 10 b 18 2 10 b 36 b 26
Este ejemplo nos muestra que cuando hay dos elementos en una muestra y conocemos la media muestral de esos dos elementos, entonces somos libres de especif icar sólo uno de los elementos, porque el otro estará determinado por el hecho de que los dos elementos suman el doble de la media de la muestra. En un lenguaje estadístico decimos que “tenemos un grado de libertad”. Veamos otro ejemplo. Existen siete elementos en nuestra muestra y sabemos que la media de estos elementos es 16. En símbolos tenemos la siguiente situación: a b c d e f g 16 7
Función de los grados de libertad
En este caso, los grados de libertad o el número de variables que podemos especificar libremente es 7 1 6. Tenemos la libertad de asignar v alores a seis variables, y luego ya no tenemos libertad de especificar el valor de la séptima variable; ésta queda determinada automáticamente. Con dos valores de muestra tenemos un grado de libertad (2 1 1), y con siete v alores de muestra tenemos seis grados de libertad (7 1 6). Entonces, en cada uno de estos dos ejemplos tenemos n 1 grados de libertad, si n es el tamaño de la muestra. Similarmente, una muestra de 23 elementos nos daría 22 grados de libertad. Utilizaremos los grados de libertad cuando elijamos una distribución t para estimar una media de población, y utilizaremos n 1 grados de libertad, cuando n es igual al tamaño de la muestra. Por ejemplo, si utilizamos una muestra de 20 para estimar una media de población, usaremos 19 grados de libertad para elegir la distribución t apropiada.
8.7: Estimaciones de intervalos con la distribución t
269
Uso de la tabla de distribución t La tabla t comparada con la tabla z: tres diferencias
La tabla de los valores de la distribución t (tabla 2 del apéndice) difiere en su construcción de la tabla z que usamos antes. La tabla t es más compacta y muestra áreas y valores de t sólo para algunos porcentajes (10, 5, 2 y 1%). Debido a que hay una distribución t diferente para cada número de grados de libertad, una tabla más completa sería bastante grande. A pesar de que nos damos cuenta de la necesidad de una tabla más completa, de hecho la tabla 2 del apéndice contiene todos los valores de la distribución t que más se utilizan. La segunda diferencia de la tabla t es que no se concentra en la probabilidad de que el parámetro de población que se está estimando se encuentre dentro del intervalo de confianza. En lugar de ello, mide la probabilidad de que el parámetro de población que estamos estimando no esté dentro de nuestro intervalo de confianza (es decir, la probabilidad de que esté fuera). Si estamos haciendo una estimación a un nivel de confianza del 90%, buscaríamos en la tabla t en la columna de 0.10 (100% 90% 10%). Esta probabilidad de 0.10 del error se representa con el símbolo , la letra griega alfa. Encontraríamos los valores t apropiados para intervalos de confianza del 95, 98 y 99% en las columnas con títulos 0.05, 0.02 y 0.01, respectivamente. La tercera diferencia al utilizar la tabla t es que debemos especificar los grados de libertad que se manejan. Suponga que hacemos una estimación a un ni vel de confianza del 90% con una muestra de tamaño 14, que tiene 13 grados de libertad. Busque en la tabla 2 del apéndice, en la columna de 0.10, hasta que encuentre el renglón 13. Del mismo modo que el v alor z, el valor t de 1.771 indica que si señalamos una distancia de más menos 1.771 ˆ x (errores estándar estimados de x) a ambos lados de la media, el área bajo la curva que se encuentra entre estos dos límites será el 90% del área total, y el área que se encuentra fuera de estos límites (la posibilidad de error) será el 10% del área total (vea la figura 8-4). Recuerde que en el problema con que abrimos el capítulo, el administrador de la planta generadora de energía deseaba estimar la cantidad de carbón que requeriría este año, y tomó una muestra midiendo la cantidad de carbón utilizado durante 10 semanas. Los datos de la muestra son: n 10 semanas ← Tamaño de la muestra gl 9 ← Grados de libertad x 11,400 toneladas ← Media de la muestra s 700 toneladas ← Desviación estándar de la muestra
Uso de la tabla t para calcular límites de confianza
El administrador de la planta desea una estimación de interv alo del consumo medio de carbón, y quiere estar 95% seguro de que el consumo medio se encuentre dentro de dicho intervalo. Este problema requiere el uso de una distribución t, porque el tamaño de la muestra es menor que 30, no se conoce la desviación estándar de la población y el administrador piensa que la población es aproximadamente normal. n = 14 gl = 13
FIGURA 8-4
0.05 del área bajo la curva
0.90 del área bajo la curva
–1.771x
Distribución t para 13 grados de libertad que muestra un intervalo de confianza del 90%
0.05 del área bajo la curva
grados de libertad
+1.771x
270
CAPÍTULO 8 Estimación
Como primer paso para resolv er este problema, recuerde que estimamos la desviación estándar de la población a partir de la desviación estándar de la muestra; por consiguiente:
ˆ s
[8-1]
700 toneladas Con esta estimación de la desviación estándar de la población,podemos estimar el error estándar de la media si modificamos la ecuación 8-2 para omitir el multiplicador de población finita (debido a que el tamaño de muestra de 10 semanas es menor que el 5% de cinco años, 260 semanas, periodo para el que se tienen datos disponibles): Error estándar estimado de la media de una población infinita
ˆ ˆ x n
[8-6]
700 Prosiguiendo con nuestro ejemplo, encontramos que ˆ x 10 700 3.162 221.38 toneladas ← Error estándar estimado de la media de una población infinita
Ahora buscamos en la tabla 2 del apéndice en la columna 0.05 (100% 95% 5%) y el renglón de 9 grados de libertad (10 1 9). Vemos que el valor t es 2.262 y con él podemos establecer nuestros límites de confianza: x 2.262ˆ x 11,400 toneladas 2.262(221.38 toneladas) 11,400 500.76 11,901 toneladas ← Límite superior de confianza x 2.262ˆ x 11,400 toneladas − 2.262(221.38 toneladas) 11,400 500.76 10,899 toneladas ← Límite inferior de confianza Nuestra conclusión
El intervalo de confianza se ilustra en la figura 8-5. Ahora podemos informar al administrador de la planta con el 95% de confianza que el consumo medio semanal de carbón se encuentra entre 10,899 y 11,901 toneladas, y el administrador puede utilizar la cifra de 11,901 toneladas para estimar la cantidad de carbón a ordenar. La única diferencia entre el proceso utilizado para hacer esta estimación y los procedimientos para resolver los problemas anteriores es el uso de la distrib ución t como la distribución adecuada. Recuerde que en cualquier problema de estimación donde el tamaño de la muestra sea menor o igual que 30, la desviación estándar de la población no se conozca y la población en cuestión sea normal o aproximadamente normal, utilizamos la distribución t.
Resumen de los límites de confianza en condiciones diferentes En la tabla 8-5 resumimos los diferentes planteamientos para la estimación introducidos en este capítulo y los límites de confianza apropiados para cada uno.
8.7: Estimaciones de intervalos con la distribución t
n = 10 gl = 9
FIGURA 8-5
0.95 del área bajo la curva
0.025 del área bajo la curva
x =11,400
10,899
11,901
Problema del carbón: distribución t con 9 grados de libertad y un intervalo de confianza del 95%
0.025 del área bajo la curva
– 2.262sx
+ 2.262sx
Cuando la población es finita (y n/N 0.05)
Tabla 8-5 Resumen de las fórmulas para límites de confianza en la estimación de la media y la proporción
Estimación de (la media de la población): Cuando (la desviación estándar de la población) se conoce
Cuando (la desviación estándar de la población) no se conoce ˆ s) Cuando n (el tamaño de la muestra) es mayor que 30
Cuando n (el tamaño de la muestra) es 30 o menos y la población es normal o aproximadamente es normal*
Estimación de p (la proporción de la población): Cuando n (el tamaño de la muestra) es mayor que 30
ˆ pˆ
n
pˆqˆ
Cuando la población es infinita (o n/N 0.05)
Límite superior: x z n
N–1
Límite inferior: x z n
N–n
x z n
N–1
N–n
x z n
ˆ Límite superior: x z n
N–1
N–n
ˆ x z n
ˆ Límite inferior: x z n
N–1
N–n
ˆ x z n
Este caso está más allá del objetivo del libro; consulte a un especialista en estadística.
Este caso está más allá del objetivo del libro; consulte a un especialista en estadística.
*Recuerde que la distribución t apropiada es la que tiene n l grados de libertad.
ˆ x t n ˆ x t n
pˆ zˆ pˆ
pˆ zˆ pˆ
271
272
CAPÍTULO 8 Estimación
El concepto de grados de libertad suele ser difícil de entender al principio. Sugerencia: piense en los grados de libertad como el número de opciones con que cuenta. Si hay mantequilla de maní y queso en el refrigerador, se puede elegir un emparedado de mantequilla de maní o uno de queso (a menos que le gusten los emparedados de mantequilla de maní con queso). Si al abrir la puerta ve que ya no hay queso, el señor Gosset tal v ez diría, “ahora SUGERENCIAS Y SUPOSICIONES
tiene cero grados de libertad”. Esto es, si desea almorzar, no tiene opciones; come mantequilla de maní o muere de hambre. Advertencia: aunque la distribución t está asociada con las estadísticas de muestras pequeñas, recuerde que un tamaño de muestra menor que 30 es sólo una de las condiciones para usarla. Las otras son que no se conozca la desviación estándar de la población y que la población siga una distribución normal o una aproximadamente normal.
Ejercicios 8.7 Ejercicios de autoevaluación EA
8-10
EA
8-11
Para los siguientes tamaños de muestra y ni veles de confianza, encuentre los valores t adecuados para construir intervalos de confianza: a) n 28; 95%. b) n 8; 98%. c) n 13; 90%. d) n 10; 95%. e) n 25; 99%. f) n 10; 99%. Se obtuvo una muestra aleatoria de siete amas de casa y se determinó que las distancias caminadas al realizar las tareas domésticas dentro de la casa tenían un promedio de 39.2 millas por semana y una desviación estándar de la muestra de 3.2 millas por semana. Construya un interv alo de confianza del 95% para la media de la población.
Conceptos básicos ■
8-44
■
8-45
■
8-46
■
8-47
Para los siguientes tamaños de muestra y ni veles de confianza, encuentre los valores t adecuados para construir intervalos de confianza: a) n 15; 90%. b) n 6; 95%. c) n 19; 99%. d) n 25; 98%. e) n 10; 99%. f) n 41; 90%. Dados los siguientes tamaños de muestra y los valores t utilizados para construir intervalos de confianza, encuentre los niveles de confianza correspondientes: a) n 27; t 2.056. b) n 5; t 2.132. c) n 18; t 2.898. Una muestra de 12 elementos tiene una media de 62 y una desviación estándar de 10. Construya un intervalo de confianza del 95% para la media de la población. La siguiente muestra de ocho observ aciones fue tomada de una población inf inita con distribución normal: 75.3
76.4
83.2
91.0
80.1
a) Encuentre la media. b) Estime la desviación estándar de la población. c) Construya un intervalo de confianza del 98% para la media.
77.5
84.8
81.0
8.8: Determinación del tamaño de muestra en estimación
273
Aplicaciones ■
8-48
■
8-49
■
8-50
Las autoridades de la parte norte del condado de Orange han encontrado,para consternación de los comisionados del condado, que la población presenta severos problemas relacionados con placa dentobacteriana. Cada año, el departamento de salud dental local examina una muestra tomada de los habitantes del condado y registra la condición de la dentadura de cada paciente en una escala de 1 a 100, donde 1 indica que no hay placa dentobacteriana y 100 indica que es muy grande. Este año, el departamento de salud dental examinó a 21 pacientes y encontró que tenían un promedio de placa dentobacteriana de 72 con una desviación estándar de 6.2. Construya un intervalo de confianza del 98% para la media del índice de placa dentobacteriana de la parte norte de Orange. Se obtuvo una muestra aleatoria de 12 cajeros de banco y se determinó que cometían un promedio de 3.6 errores por día con una desviación estándar muestral de 0.42 errores. Construya un intervalo del 90% de confianza para la media de la población de errores por día. ¿Qué suposición está implícita acerca del número de errores que cometen los cajeros? La senadora Hanna Rowe ha ordenado que se haga una investigación acerca del gran número de accidentes en bote que han ocurrido en el estado durante los últimos v eranos. Siguiendo sus instrucciones, su ayudante, Geoff Spencer, ha seleccionado al azar 9 meses de verano entre los últimos años y ha recabado datos acerca de los accidentes en bote ocurridos en cada uno de esos meses. El número medio de accidentes que se presentaron en los 9 meses fue 31, y la desviación estándar de esta muestra fue 9 accidentes por mes. Se pidió a Geoff que construyera un intervalo de confianza del 90% para el número real de accidentes por mes, pero él mismo sufrió un accidente en bote recientemente, por lo que usted tendrá que terminar su trabajo.
Soluciones a los ejercicios de autoevaluación EA
8-10
EA
8-11
a) 2.052. b) 2.998. c) 1.782. d) 2.262. e) 2.797. f) 3.250. s 3.2 n7
ˆ x s/n 3.2/7 1.2095 x 39.2 ˆ x 39.2 2.447(1.2095) 39.2 2.9596 x t (36.240, 42.160) millas
8.8 Determinación del tamaño de muestra en estimación
¿Cuál es el tamaño adecuado de la muestra?
En todos los análisis hechos hasta ahora, hemos utilizado el símbolo n en lugar de un número específico. Ahora necesitamos saber cómo determinar el número que se debe usar. ¿Qué tan grande deberá ser la muestra? Si ésta es muy pequeña, podemos fallar en el logro de los objetivos de nuestro análisis; si es demasiado grande, desperdiciamos recursos al tomar la muestra. Se presentará cierto grado de error de muestreo por no estudiar a la población completa. Siempre que tomamos una muestra, perdemos algo de información útil de la población. Si queremos tener un alto nivel de precisión (esto es, si deseamos estar bastante seguros de nuestra estimación), debemos muestrear la población lo suf iciente para asegurarnos que obtuvimos la información requerida. El error de muestreo se puede controlar si seleccionamos una muestra con el tamaño adecuado. En general, cuanta más precisión se quiera, más grande será el tamaño necesario de la muestra. Examinemos algunos métodos útiles en la determinación del tamaño necesario de muestra para cualquier nivel específico de precisión.
274
CAPÍTULO 8 Estimación
Tabla 8-6
Límite inferior de confianza
Límite superior de confianza
a. x $500 b. x zx
a. x $500 b. x zx
Comparación de dos maneras de expresar los mismos límites de confianza
Tamaño de muestra para estimar una media
Dos maneras de expresar un límite de confianza
Suponga que una universidad está efectuando una in vestigación acerca de los ingresos anuales de los estudiantes del último año de su escuela de administración. Se sabe,por experiencia, que la desviación estándar de los ingresos anuales de la población completa (1,000 estudiantes) de los egresados es alrededor de $1,500. ¿Qué tan grande debe ser la muestra que debe tomar la universidad con el fin de estimar el ingreso medio anual de los estudiantes graduados el año pasado, dentro de más menos $500 y con un nivel de confianza del 95%? ¿Exactamente qué se pide en este problema? La universidad va a tomar una muestra de cierto tamaño, determinará la media de la muestra, x , y la usará como estimación puntual de la media de la población. Quiere tener la certeza del 95% de que el ingreso medio anual real de la generación de graduados el año pasado no esté más de $500 arriba o abajo de la estimación puntual. El renglón a de la tabla 8-6 resume, en símbolos, la forma en que la universidad define sus límites de confianza. En el renglón b se muestran los símbolos para expresar los límites de confianza para una población infinita. Cuando comparamos estos dos conjuntos de límites de confianza, podemos ver que: zx $500 Así, la directiva de la universidad en realidad está diciendo que desea que zx sea igual a $500. Si buscamos en la tabla 1 del apéndice el valor necesario de z para un nivel de confianza del 95%, vemos que es 1.96. Paso a paso: si
zx $500
y
z 1.96
entonces y
1.96x $500 $500 x 1.96 $255 ← Error estándar de la media
Recuerde que la fórmula para el error estándar es la ecuación 7-1:
x ← Desviación estándar de la población n Búsqueda de un tamaño de muestra adecuado
[7-1]
Utilizando la ecuación 7-1, podemos sustituir el valor conocido de la desviación estándar de la población, $1,500, y el valor calculado del error estándar de $255 y despejar n:
x n $1,500 $255 n
[7-1]
8.8: Determinación del tamaño de muestra en estimación
275
(n)($255) $1,500 $1,500 $255
n n 5.882; ahora elevamos al cuadrado ambos lados n 34.6 ← Tamaño de muestra para la precisión especificada
Estimación de la desviación estándar a partir del rango
Por tanto, como n debe ser mayor o igual que 34.6, la universidad deberá tomar una muestra de 35 graduados el año pasado de la escuela de administración para obtener la precisión que desea en la estimación del ingreso medio anual de la generación. En el ejemplo anterior conocíamos la desviación estándar de la población, pero en muchos otros casos no está disponible. Recuerde, también, que todavía no hemos tomado la muestra y que estamos intentando decidir de qué tamaño va a ser. No podemos estimar la desviación estándar de la población utilizando los métodos presentados en la primera parte del capítulo. Pero si tenemos idea de cuál es el rango de la población, podemos utilizarlo para obtener una estimación burda pero manejable de la desviación estándar. Suponga que estamos estimando el índice de salarios de manuf actura por hora en una ciudad, y que tenemos bastante seguridad de que existe una diferencia de $4.00 entre el índice más alto y el más bajo. Sabemos que más y menos 3 desviaciones estándar incluyen el 99.7% del área total bajo la curva normal, esto es, más 3 desviaciones estándar y menos 3 desviaciones estándar de la media incluyen a casi toda el área de la distribución. Para representar esta relación, hemos construido la figura 8-6, en la cual $4.00 (el rango) es igual a 6 desviaciones estándar (más 3 y menos 3). Por consiguiente, una estimación burda de la desviación estándar de la población sería: 6 ˆ $4.00 $4.00 ˆ 6 Estimación de la desviación estándar de la población
→ ˆ $0.667
La estimación de la desviación estándar de la población obtenida con este método burdo, no es una estimación precisa, pero puede significar la diferencia entre obtener una idea que funcione del tamaño requerido de la muestra y no saber nada con respecto a ese tamaño de muestra.
Tamaño de muestra para estimar una proporción Los procedimientos utilizados para determinar los tamaños de muestra para estimar una proporción de la población son parecidos a los que se utilizan para estimar una media de población. Suponga que deseamos encuestar a estudiantes de una universidad grande. Deseamos determinar qué proporción de éstos está a favor de un nuevo sistema de evaluación. Nos gustaría contar con un tamaño de muestra que nos permita tener una certeza del 90% de que estamos estimando la proporción verdadera de la población de 40,000 estudiantes a favor del nuevo sistema de evaluación, más menos 0.02.
FIGURA 8-6 Relación aproximada entre el rango y la desviación estándar de la población
–3 s
+ 3s Alcance ($4.00)
276
CAPÍTULO 8 Estimación
Empezamos a resolver este problema buscando en la tabla 1 del apéndice un v alor de z correspondiente a un nivel de confianza del 90%. Tal valor es 1.64 errores estándar a partir de la media. Queremos que nuestra estimación esté dentro de 0.02, de modo que podemos simbolizar el proceso paso a paso de la siguiente manera: Si y entonces
zpˆ 0.02 z 1.64 1.64pˆ 0.02
Si ahora sustituimos los valores que se tienen para pˆ en la parte derecha de la ecuación 8-4,obtenemos: 1.64
pq
0.02 n pq
0.0122; ahora elevamos al cuadrado ambos lados n pq 0.00014884; ahora multiplicamos ambos lados por n n pq 0.00014884n pq n 0.00014884 Para hallar n, todavía necesitamos una estimación de los parámetros p y q de la población. Si tenemos una buena idea de la proporción real de estudiantes que están a favor del nuevo sistema, podemos utilizarla como nuestra mejor estimación para calcular n. Pero si no tenemos idea del valor de p, entonces nuestra mejor estrategia es darle un valor de manera tal que escogemos n en forma conservadora (es decir, de modo que el tamaño de la muestra sea lo suficientemente grande para darnos, al menos, la precisión que necesitamos sin importar el verdadero valor de p). En este punto del problema, n es igual al producto de p y q dividido entre 0.00014884. La manera de obtener la n más grande es generando el numerador más grande posible de esa expresión, lo cual sucede cuando elegimos p 0.5 y q 0.5. Entonces n se convierte en: pq n 0.00014884 (0.5)(0.5) 0.00014884 0.25 0.00014884 1,680 ← Tamaño de muestra para la precisión especificada
Selección de la proporción más conservadora
Como respuesta, para tener una seguridad del 90% de que estimamos la proporción verdadera dentro de 0.02, debemos escoger una muestra aleatoria simple de 1,680 estudiantes para entrevistar. En el problema que acabamos de resolver, hemos tomado un valor para p que representó la estrategia más conservadora; el valor de 0.5 generó la muestra más grande posible. Habríamos utilizado otro valor de p si hubiéramos podido estimar uno o si hubiésemos tenido una buena idea de su valor. Siempre que estas dos últimas soluciones estén ausentes, tome el valor más conservador posible de p, a saber, p 0.5.
8.8: Determinación del tamaño de muestra en estimación
Tabla 8-7 Tamaño de muestra n asociado con diferentes valores de p y q
Escoja este valor para p
Valor de q o 1p
pq 0.00014884
0.2
0.8
(0.2)(0.8) (0.00014884)
1,075
0.3
0.7
(0.3)(0.7) (0.00014884)
1,411
0.4
0.6
(0.4)(0.6) (0.00014884)
1,613
0.5
0.5
(0.5)(0.5) (0.00014884)
1 ,680 ← El más conservador
0.6
0.4
(0.6)(0.4) (0.00014884)
1,613
0.7
0.3
(0.7)(0.3) (0.00014884)
1,411
0.8
0.2
(0.8)(0.2) (0.00014884)
1,075
277
Tamaño de muestra
Para ilustrar que 0.5 produce el valor más grande posible para el tamaño de la muestra, en la tabla 8-7 se resuelve el problema del sistema de evaluación utilizando varios valores de p. Del tamaño de las muestras asociado con esos valores, puede ver que para el intervalo de valores de p que va de 0.3 a 0.7, el cambio en el tamaño de muestra correspondiente es relati vamente pequeño. Por tanto, aunque ya hubiera sabido que la proporción de población v erdadera es 0.3 y de todos modos usara 0.5, hubiera muestreado solamente 269 personas más (1,680 1,411) de lo que era realmente necesario para el grado de precisión deseado. Obviamente, adivinar valores de p en casos como éste no es tan crítico como parecía a primera vista. Desde una perspecti va de sentido común, si la desviación estándar de una población es muy pequeña, los valores se agrupan muy cerca de la media y casi cualquier tamaño de muestra los captará y producirá información precisa. Por otro lado, si la desviación estándar de la población es muy grande y los v alores están bastante dispersos, será necesaria una muestra muy grande para inSUGERENCIAS Y SUPOSICIONES
cluirlos y obtener información correcta. ¿Cómo puede tenerse una idea de la desviación estándar de la población antes de iniciar el muestreo? Las compañías que planean realizar estudios de mercado casi siempre hacen una investigación preliminar de la población para estimar la desviación estándar. Si el producto se parece a otro que ha estado en el mercado, a menudo es posible apoyarse en los datos anteriores acerca de la población sin más estimaciones.
Ejercicios 8.8 Ejercicios de autoevaluación EA
8-12
EA
8-13
Para un mercado de prueba, encuentre el tamaño de la muestra requerido para estimar la proporción verdadera de consumidores satisfechos con cierto producto dentro de 0.04 en un ni vel de confianza del 90%. Suponga que no se tiene una idea buena acerca de cuál es la proporción. Un curso de lectura rápida garantiza cierto aumento en la velocidad de lectura en 2 días. El profesor sabe que algunas personas no podrán lograr este incremento, de manera que antes de establecer el porcentaje garantizado de personas que lograrán el incremento en la velocidad de lectura, desea tener una confianza del 98% de que el porcentaje se ha estimado dentro de 5% del valor verdadero. ¿Cuál es el tamaño de muestra más conservador necesario en este problema?
278
CAPÍTULO 8 Estimación
Conceptos básicos ■
8-51
■
8-52
■
8-53
Si la desviación estándar de la población es 78, encuentre el tamaño de muestra necesario para estimar la media verdadera dentro de 50 puntos, para un nivel de confianza del 95%. Se tienen fuertes indicios de que la proporción es alrededor de 0.7. Encuentre el tamaño de muestra necesario para estimar la proporción dentro de 0.02 con un nivel de confianza del 90%. Dada una población con una desviación estándar de 8.6, ¿qué tamaño de muestra es necesario para estimar la media de la población dentro de 0.5 con un nivel de confianza del 99%?
Aplicaciones ■
8-54
■
8-55
■
8-56
■
8-57
■
8-58
Debe votarse una propuesta importante y un político desea encontrar la proporción de personas que están a favor de la propuesta. Encuentre el tamaño de muestra requerido para estimar la proporción v erdadera dentro de 0.05 con un nivel de confianza del 95%. Suponga que no se tiene idea de cuál es la proporción. ¿Cuál sería el cambio en el tamaño de la muestra si pensara que cerca del 75% de las personas f avorece la propuesta? ¿Cuál sería el cambio si sólo alrededor del 25% favorece la propuesta? La administración de la empresa Southern Textiles, recientemente ha sido atacada por la prensa debido a los supuestos efectos de deterioro en la salud que ocasiona su proceso de f abricación. Un sociólogo ha aventurado la teoría de que los empleados que mueren por causas naturales muestran una marcada consistencia en la duración de su vida: los límites superior e inferior de la duración de sus vidas no dif ieren en más de 550 semanas (alrededor de 10 1/2 años). Para un nivel de confianza del 98%, ¿qué tan grande debe ser la muestra, dentro de 30 semanas, que ha de examinarse para encontrar la vida promedio de estos empleados dentro de 30 semanas? Food Tiger, una tienda local, vende bolsas de plástico para basura y ha recibido unas cuantas quejas respecto a su resistencia. Parece que las bolsas que vende son menos resistentes que las de su competidor y, en consecuencia, se rompen más a menudo. John C. Tiger, gerente de adquisiciones, está interesado en determinar el peso máximo promedio que puede resistir las bolsas para basura sin que se rompan. Si la desviación estándar del peso límite que rompe una bolsa es 1.2 kg,determine el número de bolsas que deben ser probadas con el fin de que el señor Tiger tenga una certeza del 95% de que el peso límite promedio está dentro de 0.5 kg del promedio verdadero. La universidad está considerando la posibilidad de elevar la colegiatura con el fin de mejorar las instalaciones; para ello, sus autoridades desean determinar qué porcentaje de estudiantes están a f avor del aumento. La universidad necesita tener una confianza del 90% de que el porcentaje se determinó dentro del 2% del valor verdadero. ¿Qué tamaño de muestra se requiere para garantizar esta precisión independientemente del porcentaje verdadero? Wicks y Ticks, una tienda local especializada en velas y relojes está interesada en obtener una estimación de intervalo para el número medio de clientes que entran a la tienda diariamente. Los dueños tienen una seguridad razonable de que la desviación estándar real del número diario de clientes es 15. Ayude a Wicks y Ticks a salir de un bache determinando el tamaño de muestra que deberán utilizar para desarrollar un intervalo de confianza del 96% para la media verdadera que tenga un ancho de sólo ocho clientes.
Soluciones a los ejercicios de autoevaluación EA
8-12
Suponga que p q 0.5. 0.04 = 1.64
EA
8-13
pq 1.64 n
0.5(0.5) 1.64(0.5) así n = n 0.04
2
420.25 es decir, n 421.
Suponga que p q 0.5. 0.05 2.33
pq 2.33 n
0.5(0.5) 2.33(0.5) así n n 0.05
2
542.89 es decir, n 543.
Por tanto, debe tomarse una muestra de al menos 543 registros de estudiantes anteriores.
Ejercicio de base de datos computacional
Estadística en el trabajo Loveland Computers Caso: Estimación Aunque Lee Azko se ha sentido un tanto nervioso en su primer trabajo, las tareas que se le han encomendado en producción y adquisiciones le han mostrado cómo aplicar lo que aprendió en los libros. El siguiente trabajo introdujo a Lee en otro departamento de Lo veland Computers y lo enfrentó con el enfoque sin sentido de su directora, Margot Derby. “Déjame explicarte la situación”, comenzó Margot, dejando de lado cualquier preámbulo. “Ya sabes que nos consideramos, principalmente, distribuidores de equipos de cómput o: computadoras personales que la gente utiliza en sus ne gocios y casas. Cuando empezamos, dejamos que el cliente buscara el software. En algunas ocasiones, compran sus programas a las compañías que los diseñan o a distrib uidores nacionales que atienden pedidos por teléfono. Ahora ya hay algunos distribuidores al menudeo locales; casi todos los centros comerciales suburbanos tienen al menos una tienda que vende programas de computación. “La razón por la cual no v endemos software es que ya había demasiados programas en el mercado, y no queríamos adivinar cuál de ellos iba a ser el producto de mayor v enta, equivocarnos y terminar con un in ventario de programas inútiles. Pero la situación ha cambiado. Después de algunas sacudidas en el mercado del software, han surgido dos o tres líderes notables en cada campo; por ejemplo, hojas de cálculo y procesadores de palabras. Para equilibrar la competencia, empezamos a incluir algo de softw are en nuestras computadoras con fines de promoción. “El año pasado, empezamos a cargar los programas en el disco duro para ciertos clientes. Podemos darles precios bas-
Ejercicio de base de datos computacional HH Industries Al inicio de la siguiente semana, Bob regresó a la of icina de Laurel. “Bueno, hemos empezado a encuestar a nuestra muestra”, comentó. “¿Podrías ayudarme a tener una idea de cuántos debemos examinar? Estoy interesado en un ni vel de confianza del 95% de estar dentro de más menos 0.05 de la proporción verdadera de la población. Pienso que v as a estar de acuerdo conmigo en que, para fines prácticos, podemos considerar a nuestra población como infinita.”
279
tante competitivos por el softw are, y los programas precargados se convirtieron en una característica importante que mucha gente busca en el producto. Con estos antecedentes, estoy considerando nuevamente el software para ver si cambiamos nuestra estrategia y hacemos algo más en esa línea. Para darme una idea del mercado, pedí que interrogaran a 500 clientes que tienen una computadora Lo veland desde hace aproximadamente un año; les pre guntaron cuánto gastaron, en total, en software durante el primer año. “Tengo todos los datos aquí; no me lle vó ni dos minutos calcular la media y la desviación estándar con nuestro programa de hoja de cálculo. Los banqueros in versionistas de Nueva York le echaron una mirada a un borrador de mi plan de comercialización de software y, cuando vinieron la semana pasada, me preguntaron qué tan segura podía estar de que los resultados de mi investigación telefónica eran exactos. “Cada vez que tomo el periódico, veo alguna encuesta de opinión en la que se dice algo como ‘esta encuesta está basada en un sondeo de 1,200 adultos y tiene un margen de error del 3%’. ¿Cómo es que saben eso? ¿T ienen registros de todos los investigados y de cuándo están en lo correcto o no? Sólo tengo este conjunto de resultados y no v eo cómo responder a las preguntas de los inversionistas.” “No debe ser muy difícil”, respondió Lee al tiempo que inspeccionaba el escritorio para asegurarse de que había a la mano una calculadora y un conjunto de tablas estadísticas. “¿Por qué no me muestras los datos que tienes? Tal vez podamos darnos una idea de la respuesta ahora mismo.” Preguntas de estudio: ¿Qué distribución supondrá Lee que tienen los resultados de la encuesta telefónica, y qué tabla estadística será más útil? ¿Cómo puede Lee def inir margen de error para Margot? ¿Es probable que Lee recomiende una muestra más grande?
“Creo que tienes razón”, acordó Laurel. “¡Ya vi la fila de archiveros! Para estimar el número a encuestar, sería de gran ayuda que tuviéramos una idea fundada del parámetro real de la población, pero al menos podremos obtener un intervalo de tamaños de muestra.” l. Determine un tamaño de muestra apropiado para satisfacer las condiciones de Bob, si el valor real de p (la proporción de órdenes de compra hechas de manera competitiva) es aproximadamente 0.2, 0.3, 0.4 o 0.5. ¿Cuál deberá escoger Bob? Aproximadamente una semana después, Bob tocó en la puerta de Laurel. “Aquí están los datos sin procesar. El objetivo de Hal, en este punto, es que tengamos al menos el 60%
280
CAPÍTULO 8 Estimación
de las órdenes de compra hechas de manera competiti va. ¿Crees que esto lo pondrá contento?” “Calculemos nuestro intervalo de confianza y ya v eremos”, respondió Laurel. 2. Estime la proporción y el error estándar de la proporción para las órdenes de compra competiti vas utilizando los datos de los archivos CH07A.xxx que se encuentran en el sitio www.pearsoneducacion.net/levin. Elabore un intervalo de confianza del 95% para la proporción. Bob observó escéptico los resultados. “¿Existe alguna manera de reducir esos límites del intervalo de confianza?”, preguntó. “Sin hacer un esfuerzo adicional de muestreo,estamos limitados a disminuir el nivel de confianza”, explicó Laurel. 3. Calcule los límites del intervalo de confianza si Bob está dispuesto a contentarse con un nivel del 90%. “La otra opción es emplear una muestra más grande”, continuó ella. “Como el muestreo, en este caso, es relativamente poco costoso, ¿por qué no intentamos obtener un intervalo más pequeño, digamos más menos 0.03? Podemos utilizar nuestra proporción inicial como nuestra “v alor fundamentado” con respecto a la proporción verdadera de la población y mantener nuestro nivel de confianza del 95%.” “¿Pero qué tanto más grande deberá ser la muestra?”, preguntó Bob. “Te lo diré en un segundo”, respondió Laurel al tiempo que sacaba su calculadora. 4. Con estas nuevas condiciones, ¿cuántas órdenes de adquisición más necesitan examinar? “Buenas noticias”, anunció Bob a Laurel varios días más tarde. “La nueva muestra más grande arrojó una proporción de 0.58. Eso significa que puedo decirle al jefe que estamos entre 0.55 y 0.61 con una certeza del 95%. Estoy planeando hacer una pequeña presentación juntos para el día de la reunión de la junta directiva.” “Suena bien”, dijo Laurel, “solamente ten cuidado en la forma en que utilizas los términos. Recuerda que hicimos unas cuantas triquiñuelas estadísticas en nuestros cálculos y no sería bueno que les causes una mala impresión”. 5. Verifique los cálculos de Bob. ¿Qué piensa acerca de la preocupación de Laurel? ¿Cómo enfocaría la presentación si fuera Bob? La presentación de Bob salió bien en la junta directi va del lunes siguiente. Hal hizo unas cuantas preguntas, pero en
general se mostró complacido con los resultados. Luego pasó al siguiente punto a tratar. “Como la mayoría de ustedes saben, hace aproximadamente un año introdujimos en nuestro inventario refacciones métricas. Con el flujo de equipo hidráulico portátil fabricado en el extranjero por compañías como Toyota, Nissan y Komatsu, el mercado de refacciones métricas parece estar maduro. Y hasta donde yo sé, fuimos los primeros en nuestro ramo en tener varias líneas completas. En cualquier caso, es hora de que veamos cómo estamos y de estimar las ventas potenciales para el año siguiente. Laurel, me temo que no te dejaremos descansar mucho, pero puedes darte cuenta que ¡definitivamente te necesitamos aquí!” De regreso a su of icina, Laurel se puso a re visar lo que sabía de las líneas de refacciones métricas de HH Industries. Peggy estaba en proceso de pasarle un informe que le daría los detalles sobre las ventas del año anterior. Desafortunadamente, cuando se incorporaron las ref acciones métricas, no se les asignó un código único de producto, lo cual hizo un tanto difícil aislar las v entas. Sin embargo, Laurel hizo lo que pudo. 6. Basándose en los datos de los archi vos CH07B.xxx que se encuentran en el sitio www .pearsoneducacion. net/levin, estime la media de la población y la desviación estándar de las v entas de refacciones métricas por semana. 7. Estime el error estándar de la media para esta muestra. 8. Construya un intervalo de confianza del 95% para las ventas semanales medias de refacciones métricas. 9. ¿Deberá HH Industries continuar ofreciendo refacciones métricas si Hal desea tener el 95% de conf ianza de que las ventas del año siguiente sean de al menos $300,000? Suponga que habrá 50 semanas hábiles durante el siguiente año. l0. Stan argumentó que el uso de los 12 meses de datos sobre ventas de refacciones métricas daba una estimación demasiado baja, porque incluía los meses en que fueron introducidas. Está con vencido que el uso de los datos correspondientes a los segundos seis meses mostrarán una predicción más precisa, ya que las ventas se habrían ni velado. Laurel está de acuerdo. Repita los cálculos anteriores sólo con los datos de las segundas 25 semanas.
Del libro de texto al mundo real
Del libro de texto al mundo real Fondo de Ingeniería en Berkeley* Establecido en 1979, el Fondo de Ingeniería en Berkeley solicita contribuciones para apoyar al Colegio de Ingenieros de la Universidad de California, en Berkeley. Los administradores utilizan la información disponible acerca del número de donaciones, regalos y contribuciones en efectivo como entrada de un modelo matemático que predice las contribuciones al mes y al final del año. De acuerdo con la información obtenida ajustan los esfuerzos de obtención de fondos. El modelo utiliza una distribución binomial para la cantidad de donaciones y regalos, y una distribución de Poisson compuesta para la cantidad de dinero donada. Desde 1982,han registrado los datos de las cuentas de los donadores,periodicidad de las donaciones, tamaño de las donaciones, y la información equivalente de los re galos que hacen padres de f amilia, exalumnos, académicos y los amigos del Colegio. Estimación de parámetros Los pronósticos están basadas en datos tomados de campañas anteriores. Como desde 1982 a 1984 se usó la misma correspondencia, las proporciones mensuales de las donaciones totales han sido estables de año en año. Para cada fecha de en vío postal, los encargados de pronósticos determinan distribuciones para el número de do-
naciones de cada uno de los cuatro subgrupos, así como las estimaciones de la media y la varianza de las cantidades donadas. Evaluación del modelo Los datos sobre los padres de familia, de 1982-1983 y 1983-1984 se utilizaron para probar la suposición de Poisson sobre la que se basa el modelo. Utilizando tanto las tablas de Poisson como una aproximación normal, se calcularon intervalos de confianza del 95% para el número de donaciones hechas por padres de f amilia. Las figuras MR8-1 y MR8-2 muestran estos interv alos para 1982-1983 y 1983-1984. Sólo en septiembre de ambos años las cuentas reales de los donadores cayeron fuera de los intervalos de confianza del 95%. Esto apo ya la suposición de que se trata de una distribución de Poisson. Resultados El modelo funcionó bien para pronosticar totales de fin de año, pero su desempeño fue un poco menor para los pronósticos mensuales. Las predicciones de las cuentas de donadores y de donaciones totales fueron más precis as para los padres, académicos y grupos de amigos que en el caso de los exalumnos. Los administradores pudieron entender mejor los efectos de los contactos personales y de los envíos por correo. Debido a que el modelo proporcionó una manera de predecir los efectos de los cambios en las técnicas de recaudación de fondos, los administradores se animaron a diseñar estrategias dirigidas a los grupos específicos.
Distribución de Poisson (número de donaciones mensuales) 50 45
+
40
Número de donantes
35 30 25
+
20
+ 15
FIGURA MR8-1 Cuentas de las donaciones mensuales hechas por padres de familia durante 1982-1983
+
+
10 5
+
+
+
+
0 1 1982-1983
3
+
5 7 Meses (empezando en julio) 1983-1984 Límite superior
* Fuente: Mark Britto y Robert M. Oli ver, “Forecasting Donors and Donations”, Journal of Forecasting 5(1986): 39-55.
281
9
+
+ 11 Límite inferior
282
CAPÍTULO 8 Estimación
Distribución de Poisson (número de donaciones mensuales) 60
50
+
Número de donaciones
40
+ 20
10
FIGURA MR8-2 Cuentas de las donaciones mensuales hechas por padres durante 1983-1984
+
30
+ +
+
+
+
+
+
+
9
11
+ 0 1 1982-1983
3
+
5 7 Meses (empezando en julio) 1983-1984 Límite superior
Límite inferior
Repaso del capítulo ● Términos introducidos en el capítulo 8 Distribución t de Student Familia de distribuciones de probabilidad que se distinguen por sus grados de libertad individuales; es parecida, en forma, a la distribución normal y se utiliza cuando se desconoce la desviación estándar de la población y el tamaño de la muestra es relati vamente pequeño (n 30). Estimación Valor específico observado de un estimador. Estimación de intervalo Un rango de valores utilizado para estimar un parámetro de población desconocido. Estimación puntual Un solo número que se utiliza para estimar un parámetro de población desconocido. Estimador Estadístico de muestra utilizada para estimar un parámetro de población. Estimador consistente Estimador que produce valores que se acercan más al parámetro de la población conforme aumenta el tamaño de la muestra. Estimador eficiente Estimador con un error estándar menor que algún otro estimador del parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador, más eficiente será.
Estimador no sesgado Estimador de un parámetro de población que, en promedio, toma valores mayores que el parámetro de la población con la misma frecuencia, y al mismo grado, con que tiende a tomar v alores menores que el parámetro de la población. Estimador suficiente Estimador que utiliza toda la información disponible en los datos correspondientes a un parámetro. Grados de libertad Número de valores de una muestra que podemos especificar libremente, una vez que se sabe algo sobre dicha muestra. Intervalo de confianza Un rango de v alores que tiene designada una probabilidad de que incluya el v alor verdadero del parámetro de la población. Límites de confianza Límites inferior y superior de un intervalo de confianza. Nivel de confianza Probabilidad que los estadísticos asocian a una estimación de intervalo de un parámetro y que indica qué tan seguros están de que la estimación de intervalo incluirá al parámetro de la población.
Repaso del capítulo
283
● Ecuaciones introducidas en el capítulo 8 ■
8-1
Estimación de la desviación estándar de la población
ˆ s
∑(x x)2 n1
Esta fórmula indica que la desviación estándar de la muestra puede utilizarse para estimar la desviación estándar de la población. ■
ˆ ˆ x n
8-2
N–n
N–1
Esta fórmula nos permite derivar un error estándar estimado de la media de una población finita a partir de una estimación de la desviación estándar de la población. El símbolo ^ llamado gorro, indica que el valor es una estimación. La ecuación 8-6 es la fórmula correspondiente para una población infinita. ■
8-3
pˆ p Utilice esta fórmula para derivar la media de la distribución de muestreo de la proporción de éxitos. La parte derecha, p, es igual a (n p)/n, en donde el numerador es el número esperado de éxitos en n ensayos, y el denominador es el número de ensayos. En símbolos, la proporción de éxitos de una muestra se escribe como pˆ y se lee p gorro.
■
8-4
pˆ
pq
n
Para obtener el error estándar de la proporción, obtenga la raíz cuadrada del producto de las probabilidades de éxito y de fracaso dividido entre el número de ensayos. ■
■
8-5
8-6
ˆ pˆ
pˆqˆ
n
Ésta es la fórmula que se utiliza para derivar un error estándar estimado de la proporción, cuando se desconoce la proporción de la población y uno se ve forzado a utilizar p y q, las proporciones de la muestra de éxitos y fracasos. ˆ ˆ x n Esta fórmula nos permite derivar un error estándar estimado de la media de una población infinita a partir de una estimación de la desviación estándar de la población. Es bastante parecida a la ecuación 8-2, excepto porque carece del multiplicador de población finita.
● Ejercicios de repaso ■
8-59
Para una muestra de 42 gasolineras en todo el estado,el precio promedio de un galón de gasolina sin plomo es $1.12 y la desviación estándar es $0.04 por galón. ¿Para qué intervalo puede tenerse el 99.74% de confianza de que incluirá la media estatal verdadera del precio por galón de gasolina sin plomo?
■ ■
8-60 8-61
■
8-62
■
8-63
¿Cuáles son las ventajas de utilizar una estimación de intervalo en lugar de una estimación puntual? ¿Por qué es importante el error estándar de un estadístico cuando se utiliza como estimador? ¿Con qué característica de los estimadores se relaciona esto? Suzanne Jones, secretaria general del sistema universitario, necesita saber qué proporción de estudiantes tienen promedios de calif icación menores que 2.0. ¿Cuántas calif icaciones de estudiantes debe re visar con el fin de determinar la proporción que busca dentro de 0.01 con una confianza del 95%? Un intervalo de confianza del 95% para la media de la población está dado por (94, 126) y un intervalo de confianza del 75% está dado por (100.96, 119.04). ¿Cuáles son las v entajas y desventajas de cada una de estas estimaciones de intervalo?
284
CAPÍTULO 8 Estimación
■
8-64
■
8-65
■
8-66
■
8-67
■
8-68
■
8-69
■
8-70
■
8-71
El límite de velocidad establecido en el Cross-Bronx Expressway es 55 mph. La congestión hace que la velocidad real sea mucho menor. Una muestra aleatoria de 57 vehículos dio un promedio de 23.2 mph y una desviación estándar de 0.3 mph. a) Estime la desviación estándar de la población. b) Estime el error estándar de la media para esta población. c) ¿Cuáles son los límites superior e inferior del intervalo de confianza para la velocidad media dado un nivel de confianza deseado de 0.95? Dada una media de la muestra de 8, una desviación estándar de la población de 2.6 y una muestra de tamaño 32, encuentre el nivel de confianza asociado con cada uno de los siguientes intervalos: a) (7.6136, 8.3864). b) (6.85, 9.15). c) (7.195, 8.805). Basándose en el conocimiento acerca de las cualidades deseables de los estimadores, ¿por qué razones debe considerarse a x como el “mejor” estimador de la media verdadera de la población? El presidente de la Offshore Oil ha estado preocupado acerca del número de peleas ocurridas en las instalaciones a su cargo y está considerando varios cursos de acción. En un esfuerzo por entender qué causa las peleas en alta mar, tomó una muestra aleatoria de 41 días en los que un equipo de trabajadores regresa a trabajar después de un permiso para ir a tierra f irme. Para esta muestra, la proporción promedio de trabajadores que intervinieron en peleas cada día es 0.032, y la desviación estándar asociada es 0.0130. a) Dé una estimación puntual de la proporción promedio de trabajadores que intervinieron en peleas en un día cualquiera en que la planta de trabajadores regresa de tierra firme. b) Estime la desviación estándar de la población asociada con este índice de peleas. c) Encuentre un intervalo de confianza del 90% para la proporción de trabajadores que regresan e intervienen en peleas. Dadas las siguientes expresiones para los límites de un intervalo de confianza, encuentre el nivel de confianza asociado con el intervalo: a) x 1.25 x a x 1.25 x. b) x 2.4 x a x 2.4 x. c) x 1.68 x a x 1.68 x. La empresa Harris Polls, Inc., se dedica a investigar amas de casa. De encuestas anteriores, se sabe que la desviación estándar del número de horas por semana que un ama de casa dedica a ver televisión es de 1.1 horas. Harris Polls desea determinar el número promedio de horas por semana que un ama de casa en Estados Unidos dedica a ver televisión. La precisión es importante y, en consecuencia, Harris Polls quiere tener una certeza del 98% de que el número de muestra promedio de horas caerá dentro de0.3 horas del promedio nacional. Conservadoramente, ¿qué tamaño de muestra deberá utilizar Harris Polls? John Bull acaba de adquirir un programa de computación que afirma escoger acciones que aumentarán su precio durante la semana siguiente con un índice de precisión del 85%. ¿En cuántas acciones deberá John probar el programa con el fin de estar el 98% seguro de que el porcentaje de acciones que realmente subirán de precio la semana próxima estará dentro de 0.05 de la proporción de la muestra? Gotchya es un centro de entretenimiento con instrumentos láser donde adultos y adolescentes rentan equi po y se enfrentan en un combate simulado. La instalación se usa a toda su capacidad los fines de semana. Los tres dueños quieren evaluar la efectividad de una nueva campaña de publicidad dirigida a aumentar su utilización entre semana. El número de clientes en 27 noches aleatorias entre semana está dado en la siguiente tabla. Encuentre un intervalo de confianza del 95% para el número medio de clientes en una noche entre semana. 61 59 61
8-72
57 50 54
53 60 50
60 60 54
64 57 61
57 58 51
54 62 53
58 63 62
63 60 57
Los contadores de Gotchya, el centro de entretenimiento del ejercicio 8-71, han informado a los dueños que necesitan tener al menos 55 clientes para salir a mano en una noche entre semana. Los socios están dispuestos a continuar operando entre semana si pueden tener una certeza del 95% o más de que saldrán a mano, al menos la mitad del tiempo. Use los datos del ejercicio 8-71 para encontrar un intervalo de confianza del 95% para la proporción de noches entre semana en que Gotchya saldrá a mano. ¿Deben continuar operando entre semana? Explique.
Repaso del capítulo
■
■
■
■
■
■
285
The Wall Street Journal proporciona información financiera diariamente respecto a más de 3,000 fondos de inversión mutua. La tabla MR8-1 da información de una muestra aleatoria de 35 de ellos y su desempeño al cierre del viernes 14 de mayo de 1993. Emplee esta información contestar los ejercicios del 8-73 al 8-76. 8-73 a) Estime el cambio promedio en el valor del activo neto (VAN) del 14 de mayo de 1993 para todos los fondos listados en The Wall Street Journal. b) Estime la desviación estándar del cambio en el valor del activo neto para todos los fondos del inciso a). c) Encuentre un intervalo de confianza del 95% para el cambio promedio en el v alor del activo neto. ¿Qué suposiciones necesita hacer acerca de la distribución del cambio individual en el valor del activo neto, con el fin de derivar el intervalo de confianza? 8-74 a) Estime la desviación estándar del cambio porcentual actualizado en valor (%ACT), de todos los fondos listados. b) Suponiendo que la desviación estándar que estimó en el inciso a) es cercana a la desviación estándar real de la población, ¿qué tan grande deberá ser una muestra para estimar el cambio porcentual promedio actualizado en valor, dentro de 0.5% con el 99% de confianza? 8-75 Los fondos para los cuales el precio de oferta (PO) es el mismo que el valor del activo neto (VAN) se conocen como fondos “no cargados”. Utilice la muestra de 35 fondos para estimar qué fracción de todos los fondos listados en The Wall Street Journal son fondos no cargados. Dé un intervalo de confianza del 98% para esta fracción. 8-76 Usted cree que los fondos no car gados no deberían agruparse con los demás. Suponiendo que los cambios porcentuales actualizados individuales en valor para los fondos no cargados tienen una distribución aproximadamente normal, encuentre un intervalo de confianza del 95% para su cambio porcentual promedio actualizado en valor. ¿Es necesario suponer la distribución normal? Explique su respuesta. 8-77 Al evaluar la efectividad de un programa federal de rehabilitación, en una investigación de 52 de los 900 internos de una prisión se encontró que el 35% de éstos era reincidente. a) Estime el error estándar de la proporción de reincidentes. b) Construya un intervalo de confianza del 90% para la proporción de reincidentes entre los internos de esta prisión. 8-78 Durante la cosecha de manzanas, se revisaron por separado 150 fanegas de la fruta en busca de manzanas en mal estado (debido, como usted sabe, a que una manzana mala puede echar a perder a todo el canasto) y se encontró que había un promedio de 3.2 manzanas malas por fanega. Se sabe que la desviación estándar de manzanas malas por fanega es de 0.2 para este tipo de manzana. a) Calcule el error estándar de la media. b) Establezca una estimación de intervalo alrededor de la media, utilizando una ˆ x. 8-79 De una muestra aleatoria de 60 autobuses, la oficina de transporte colectivo de la ciudad de Montreal ha calculado que el número medio de pasajeros por kilómetro es 4.1. De estudios anteriores se sabe que la desviación estándar de la población es 1.2 pasajeros por kilómetro. a) Encuentre el error estándar de la media. (Suponga que la flotilla de autobuses es muy grande.) b) Construya un intervalo de confianza del 95% para el número medio de pasajeros por kilómetro para la población. 8-80 Recientemente, el Servicio de Impuestos de Estados Unidos tomó una muestra de 200 de voluciones de impuestos y encontró que el reembolso promedio de impuestos de la muestra llegaba a $425.39, con una desviación estándar de la muestra de $107.10. a) Estime el reembolso medio de impuestos y la desviación estándar de la población. b) Utilizando las estimaciones hechas en el inciso anterior, construya un intervalo con el 95% de certeza de que la media de la población estará en él. 8-81 Physicians Care Group opera varias clínicas que atienden sin cita. Los expedientes de los pacientes indican la hora en que llega a la clínica y la hora en que un médico atiende a ese paciente. El administrador Val Likmer acaba de recibir una desagradable llamada telefónica de un paciente que se quejó de una espera excesiva en la clínica de Rockridge. Val saca 49 expedientes al azar de la semana pasada y calcula un tiempo de espera promedio de 15.2 minutos. Un estudio anterior de gran escala del tiempo de espera en varias clínicas obtuvo una desviación estándar de 2.5 minutos. Elabore un interv alo de confianza para el tiempo de espera promedio con nivel de confianza del a) 90%. b) 99%. 8-82 Bill Wenslaff, un ingeniero de una planta purificadora de agua, mide diariamente el contenido de cloro en 200 muestras diferentes. En un periodo de varios años, ha establecido que la desviación estándar de la po-
286
CAPÍTULO 8 Estimación
Nombre del fondo
Tabla MR8-1 Datos financieros para una muestra de 35 fondos mutuos
VAN
PO
VAN
%ACT
AHA Balanced
12.54
12.54
0.01
3.9
Ambassador Index Stock
11.36
11.36
0.01
1.9
American Capital Global Equity (A)
10.44
11.08
0.01
8.2
American Capital Municipal Bond
10.33
10.85
0.01
5.1
Atlas Growth & Income
13.69
14.04
0.05
2.2
Babson Enterprise
16.13
16.13
0.08
6.0
Blanchard Flexible Income
5.11
5.11
0.00
5.9
Colonial Growth
14.08
14.94
0.05
0.1
Columbia Common Stock
14.54
14.54
0.02
3.8
Evergreen Total Return
19.96
19.96
0.07
5.9
Fidelity Equity-Income
31.24
31.88
0.14
8.6
Fidelity Spartan Municipal Income
11.02
11.02
0.00
5.9
First Union Value (B)
17.30
18.02
0.04
1.8
Flag Investors Value
10.89
11.40
0.05
2.9
Fortis Capital
17.48
18.35
0.03
5.3
9.11
9.56
0.03
7.1
Helmsman Equity Index
11.68
11.68
0.02
1.8
Homestead Value
13.48
13.48
0.01
7.9
IAI Emerging Growth
13.64
13.64
0.09
2.8
John Hancock Tax Exempt
11.32
11.85
0.00
5.1
Kemper Blue Chip
13.30
14.11
0.02
0.2
6.50
6.50
0.01
8.0
GT Global Europe
Keystone International
9.90
9.90
0.03
1.9
MAS Equity
54.37
54.37
0.11
1.9
MFS Research
12.86
13.64
0.01
4.6
9.24
9.24
0.02
0.5
PFAMCo MidCap Growth
12.51
12.51
0.03
2.8
Pilgrim GNMA
14.02
14.45
0.01
3.2
PIMCO Short Term
10.03
10.03
0.01
1.8
Prudential Municipal Maryland
11.35
11.35
0.00
4.8
8.18
8.68
0.01
10.1
31.07
32.62
0.02
1.2
Marshall Stock
MIM Bond Income
Putnam Global Growth Rightime Blue Chip Schwab 1000
12.11
12.11
0.01
1.3
Shearson Appreciation (A)
10.72
11.28
0.03
0.6
Weiss Peck Greer Tudor
24.90
24.90
0.19
0.2
VAN
Valor del activo neto, precio (en dólares) al cual un inversionista puede redimir acciones del fondo.
PO
Precio de oferta, precio (en dólares) que paga un inversionista para adquirir acciones del fondo.
VAN
Cambio en el VAN respecto al día anterior.
%ACT
Cambio porcentual actualizado en el valor de una inversión en el fondo, suponiendo que todos los dividendos se reinvierten.
Fuente: The Wall Street Journal (17 de mayo de 1993), págs. C16-C19.
Repaso del capítulo
■
8-83
■
8-84
■
8-85
■
8-86
■
8-87
■
8-88
287
blación es de 1.4 miligramos de cloro por litro. Las últimas muestras arrojaron un promedio de 4.6 miligramos de cloro por litro. a) Encuentre el error estándar de la media. b) Establezca el intervalo alrededor de 5.2, la media de la población, que incluirá a la media de la muestra con una probabilidad del 68.3%. Ellen Harris, una ingeniera industrial, estuvo acumulando tiempos normales para v arias tareas sobre un proceso de ensamble de trabajo intensivo. Este proceso incluía 300 estaciones de trabajo diferentes, cada una efectuando las mismas acti vidades de ensamble. Muestreó siete estaciones y obtuv o los siguientes tiempos de ensamble, en minutos, para cada estación: 1.9, 2.5, 2.9, 1.3, 2.6, 2.8 y 3.0. a) Calcule el tiempo medio de ensamble y la desviación estándar correspondiente para la muestra. b) Estime la desviación estándar de la población. c) Dé un intervalo de confianza del 98% para el tiempo medio de ensamble. Larry Culler, inspector federal de granos en un puerto marítimo,encontró que había partes echadas a perder en 40 de 120 lotes de avena, elegidos aleatoriamente, embarcados en el puerto. Construya un intervalo de confianza del 95% para la proporción real de lotes con partes echadas a perder en embarques hechos desde ese puerto. La compañía de confección de ropa High F ashion Marketing está considerando la recolocación en el mercado de corbatas de lana de cachemira. Con el f in de evitar un fracaso, la High Fashion entrevistó a 90 jóvenes ejecutivos (su principal mercado) y encontró que de los 90 entre vistados, 79 creían que las corbatas de cachemira estaban de moda y les interesaba comprarse una. Use un ni vel de confianza del 98% para dar un interv alo de confianza para la proporción de todos los jóv enes ejecutivos que piensan que las corbatas de cachemira están de moda. El Departamento de Transporte ha ordenado que la velocidad promedio de los automóviles en la carretera interestatal no debe sobrepasar las 67 millas por hora, para que los departamentos de carreteras del estado puedan retener su presupuesto federal. Agentes de la policía de caminos de Carolina del Norte, en automóviles sin insignias, tomaron una muestra de 186 coches y encontraron que la velocidad promedio era 66.3 millas por, con una desviación estándar de 0.6 millas por hora. a) Encuentre el error estándar de la media. b) ¿Cuál es el intervalo alrededor de la media de la muestra que contendría a la media de la población el 95.5% de las veces? c) ¿Puede el departamento de transporte de Carolina del Norte informar con veracidad que la velocidad promedio real de sus carreteras es 67 millas por hora o menos con el 95.5% de confianza? Mark Semmes, dueño del restaurante Aurora, está considerando la compra de nue vo mobiliario. Como ayuda para decidir sobre la cantidad que puede invertir en mesas y sillas, desea determinar el ingreso por cliente. Tomó una muestra aleatoria de nueve clientes, cuyo consumo promedio fue $18.30 con una desviación estándar de $3.60. Elabore un interv alo de confianza del 95% para la cantidad promedio por cliente en la nota de consumo. John Deer, un horticultor de la Universidad Estatal de Northern Carrboro, sabe que cierta especie de maíz siempre produce entre 80 y 140 fanegas por hectárea. Para un nivel de confianza del 90%, ¿cuántas muestras de una hectárea debe tomar con el fin de estimar la producción promedio por hectárea dentro de 5 fanegas por hectárea?
capítulo
9
PRUEBA DE HIPÓTESIS: PRUEBA DE UNA SOLA MUESTRA
Objetivos •
•
•
Aprender cómo usar las muestras para decidir si una población posee una característica dada Determinar qué tan improbable es que una muestra observada provenga de una población hipotética Comprender los dos tipos de errores posibles que se producen al probar las hipótesis
• • •
Aprender cuándo usar pruebas de una cola y cuándo pruebas de dos colas Aprender el proceso de cinco pasos para probar hipótesis Aprender cómo y cuándo usar las distribuciones t y normal para probar hipótesis sobre medias y proporciones de población
Contenido del capítulo 9.1 Introducción 290 9.2 Conceptos básicos en el procedimiento de prueba de hipótesis 291 9.3 Prueba de hipótesis 294 9.4 Pruebas de hipótesis de medias cuando se conoce la desviación estándar de la población 301 9.5 Medición de la potencia de una prueba de hipótesis 308 9.6 Prueba de hipótesis para proporciones: muestras grandes 311
9.7 Prueba de hipótesis de medias cuando no se conoce la desviación estándar de la población 317 • Estadística en el trabajo 321 • Ejercicio de base de datos computacional 321 • Del libro de texto al mundo real 322 • Términos introducidos en el capítulo 9 323 • Ejercicios de repaso 323
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
290
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
l contrato para techar un nuevo complejo deportivo de San Francisco fue otorgado a Parkhill Associates, una compañía constructora grande. Las especificaciones de construcción indican un techo móvil de aproximadamente 10,000 láminas de aluminio con un grosor de 0.04 pulgadas (pulg). Las láminas de aluminio no pueden ser considerablemente más gruesas que 0.04 pulg porque la estructura podría no soportar el peso adicional. Y tampoco pueden ser más delgadas porque la fuerza estructural del techo sería inadecuada. Debido a estas restricciones en el grosor, Parkhill revisa cuidadosamente las láminas de aluminio de su proveedor. Es claro que Parkhill no desea medir cada lámina, así que toma una muestra aleatoria de 100. Las láminas de la muestra tienen un grosor medio de 0.0408 pulg. Por experiencia con este proveedor, Parkhill cree que esas láminas provienen de una población que tiene una desviación estándar de 0.004 pulg de grosor. Con base en estos datos, Parkhill debe decidir si las 10,000 láminas cumplen con las especificaciones. En el capitulo 8, utilizamos estadísticas muestrales para estimar parámetros de población. Ahora, para resolver problemas como el de Parkhill, aprenderemos cómo utilizar las características de las muestras para probar una suposición acerca de la población de la que se tomó dicha muestra. Nuestra prueba para Parkhill, más adelante en este capítulo, llevará a que la constructora acepte el cargamento de láminas o que lo rechace por no cumplir con las especificaciones arquitectónicas. ■
E
9.1 Introducción Función de la prueba de hipótesis
Cuándo aceptar o rechazar la hipótesis
El problema básico es manejar la incertidumbre
La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos acerca de un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas muestrales y usamos esta información para decidir qué tan probable es que nuestro parámetro de población hipotético sea correcto. Digamos que suponemos un cierto valor para una media de población. Para probar la validez de esa suposición recolectamos datos de muestra y determinamos la diferencia entre el valor hipotético y el v alor real de la media de la muestra. Después juzgamos si la diferencia obtenida es significativa o no. Mientras más pequeña sea la diferencia, mayor será la probabilidad de que nuestro valor hipotético para la media sea correcto. Mientras mayor sea la diferencia,más pequeña será la probabilidad. Desafortunadamente, la diferencia entre el parámetro de población hipotético y la estadística real rara vez es tan grande que rechacemos automáticamente nuestra hipótesis o tan pequeña que la aceptamos con la misma rapidez. Así, en las pruebas de hipótesis como en la mayoría de las decisiones importantes de la vida real, las soluciones claras o bien definidas son la excepción, no la regla. Supongamos que una administradora de un gran centro comercial nos dice que la ef iciencia de trabajo promedio de sus empleados es de al menos 90%. ¿Cómo podemos probar la validez de su hipótesis? Utilizando los métodos de muestreo aprendidos en el capítulo 7, podríamos calcular la eficiencia de una muestra de sus empleados. Si hiciéramos esto y el estadístico de la muestra resultara ser 95%, aceptaríamos sin demora la afirmación de la administradora. Sin embargo, si el estadístico de la muestra resultara ser el 46%,rechazaríamos su afirmación por falsa. Podemos interpretar estos dos resultados, 95 y 46%, si utilizamos el sentido común. Ahora supongamos que nuestro estadístico revela una eficiencia del 88%. Este valor es relativamente cercano al 90%. Pero, ¿es suficientemente cercano para que aceptemos como correcta la hipótesis de la administradora? Ya sea que aceptemos o rechacemos su hipótesis,no podemos estar ab-
9.2: Conceptos básicos en el procedimiento de prueba de hipótesis
291
solutamente seguros de que nuestra decisión es correcta; por consiguiente, tendremos que aprender cómo manejar la incertidumbre en nuestra toma de decisiones. No podemos aceptar o r echazar una hipótesis sobr e un parámetr o de población sólo por intuición. Más bien, necesitamos aprender cómo decidir objetivamente si aceptamos o rechazamos una corazonada, con base en la información de la muestra.
Se sacan grandes conclusiones Proyección excesiva
Condiciones de prueba diferentes
Los estudiantes universitarios a menudo buscan anuncios que ofrecen ayuda para el aprendizaje. Una de las más populares de estas ayudas es una combinación de descripciones breves, una guía de estudio y un juego de preguntas para varios cursos. Los anuncios de estos artículos, con frecuencia, afirman que se pueden obtener mejores calif icaciones en los exámenes con menos tiempo de estudio. Supongamos que una guía de estudio para un curso de estadística básica está disponible a través de una organización que produce tales guías para 50 cursos diferentes. Si esta guía de estudio para estadística básica ha sido probada (y supongamos que adecuadamente), la compañía podría anunciar: “ha sido probado estadísticamente que nuestras guías de estudio aumentan las calif icaciones y disminuyen el tiempo de estudio”. Desde luego que esta afirmación es bastante cierta, pero sólo en lo que se refiere a la experiencia de estadística básica. Puede ser que no haya evidencia alguna con significado estadístico que establezca el mismo tipo de resultados para las otras 49 guías. Otro producto puede anunciar que elimina la hierba silvestre que crece en el césped y puede afirmar que el producto ha sido “minuciosamente probado” en céspedes reales. Aun si suponemos que se utilizaron efectivamente los procedimientos estadísticos adecuados durante las pruebas,tales afirmaciones siguen siendo “grandes conclusiones”. Supongamos que el terreno de prueba estaba en Florida, y el césped con problemas se encuentra en Utah. Las diferencias de lluvia,fertilidad del suelo, contaminantes del aire, temperatura, horas de inactividad y condiciones de germinación pueden variar ampliamente entre estos dos lugares. Afirmar ciertos resultados para una prueba estadísticamente válida para un conjunto de condiciones de prueba completamente diferente es algo que no posee valor alguno. Una prueba de este tipo no puede medir la efecti vidad en una amplia variedad de condiciones ambientales.
Ejercicios 9.1 ■
9-1
■
9-2
■ ■ ■
9-3 9-4 9-5
¿Por qué es necesario que manejemos la incertidumbre en nuestra toma de decisiones,incluso cuando usamos técnicas estadísticas? Teóricamente, ¿cómo probaría la hipótesis de que una moneda no está alterada? ¿O de que un dado no está cargado? ¿Es posible que se acepte una hipótesis falsa? ¿Cómo explicaría esto? Describa el proceso de prueba de hipótesis. ¿Cómo explicaría que se tuviera una gran diferencia entre un parámetro de población hipotético y un estadístico si, en efecto, la hipótesis es cierta?
9.2 Conceptos básicos en el procedimiento de prueba de hipótesis Problema del complejo deportivo
Antes de introducir los términos y procedimientos estadísticos formales, analizaremos completamente nuestro problema del complejo deportivo que abre el capítulo. Recordemos que es necesario que las láminas de aluminio del techo tengan un grosor de 0.04 pulg y que serán insatisf actorias si resultan demasiado gruesas o demasiado delgadas. El contratista toma una muestra de 100 láminas y determina que el grosor medio de la muestra es 0.0408 pulg. Con base en su experiencia, sabe que la desviación estándar de la población es 0.004 pulg. ¿Esta e videncia de muestra indica que el lote de 10,000 láminas de aluminio es adecuado para construir el techo del nuevo complejo deportivo?
292
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Formulación de la hipótesis
Cálculo del error estándar de la media
Si suponemos que el grosor medio real es 0.04 pulg y sabemos que la desviación estándar de la población es 0.004 pulg, ¿qué tan probable es que obtengamos una media de la muestra de 0.0408 o más a partir de la población? En otras palabras,si la media real es 0.04 pulg y la desviación estándar es 0.004 pulg, ¿cuáles son las posibilidades de obtener una media de la muestra que difiera de 0.04 pulg en 0.0008 pulg (= 0.0408 0.04) o más? Estas preguntas muestran que para determinar si la media de la población es realmente 0.04 pulg debemos calcular la probabilidad de que una muestra aleatoria con una media de 0.0408 pulg sea seleccionada de una población con una de 0.04 pulg y una de 0.004 pulg. Esta probabilidad indicará si es razonable observar una muestra como ésta si la media de población es realmente 0.04 pulg. Si esta probabilidad es demasiado baja, debemos concluir que la afirmación de la compañía de aluminio es falsa y que el grosor medio de las láminas de aluminio no es 0.04 pulg. Respondamos a la pregunta ilustrada en la figura 9-1: si la media de población hipotética es 0.04 pulg y la desviación estándar de la población es 0.004 pulg,¿cuáles son las posibilidades de obtener una media de la muestra (0.0408 pulg) que dif iera de 0.04 pulg en 0.0008 pulg? Primero, calculemos el error estándar de la media a partir de la desviación estándar de la población:
x n 0.004 pulg 100 0.004 pulg 10
[7-1]
0.0004 pulg A continuación usamos la ecuación 7-2 para descubrir que la media de nuestra muestra (0.0408 pulg) cae dos errores estándar a la derecha de la media hipotética de la población: x z x
[7-2]
0.0408 – 0.04 0.0004 2 ← Errores estándar de la media Interpretación de la probabilidad asociada con esta diferencia
El papel del tomador de decisiones en la formulación de hipótesis
Riesgo de rechazo
Usando la tabla 1 del apéndice, sabemos que 4.5% es la probabilidad total de que nuestra media muestral difiera de la media de población en dos o más errores estándar, esto es, la probabilidad de que la media de la muestra sea 0.0408 pulg o mayor, o 0.0392 pulg o menor es sólo 4.5% (P(z 2 o z 2) 2(0.5 0.4772) 0.0456 o alrededor de 4.5%). Con esta posibilidad tan baja, Parkhill podría concluir que no es probable que una población con una media real de 0.04 pulg produzca una muestra como ésta. El supervisor del proyecto rechazaría la afirmación de la compañía de aluminio respecto al grosor medio de las láminas. En este caso, la diferencia entre la media de la muestra y la media hipotética de la población es demasiado grande, y la probabilidad de que la población pr oduzca una muestra aleatoria semejante es demasiado baja. Por qué esta probabilidad de 4.5% es demasiado baja, o errónea, es un juicio que deben hacer los tomadores de decisiones. Ciertas situaciones demandan que los tomadores de decisiones estén muy se guros respecto a las características de los elementos que se están probando, y en ese caso incluso 2% es demasiado alto para ser atribuible al azar. Otros procesos permiten una libertad o variación más amplia, y el tomador de decisiones puede aceptar una hipótesis con una probabilidad del 4.5% de variación aleatoria. En cada situación, es necesario determinar los costos resultantes de tomar una decisión incorrecta y el nivel preciso de riesgo que estamos dispuestos a correr. En nuestro ejemplo, rechazamos el argumento de la compañía de techos de aluminio que dice que la media de la población es 0.04 pulg. Pero, supongamos por un momento que la media de la pobla-
9.2: Conceptos básicos en el procedimiento de prueba de hipótesis
293
sx = 0.0004 pulg
95.5% del área
2.25% de área bajo la curva
FIGURA 9-1
–2sx
Probabilidad de que x difiera de la hipotética en 2 errores estándar
0.0392"
2.25% de área bajo la curva
+2sx
0.0396"
0.04"
0.0404"
Media hipotética de la población
0.0408" Media de la muestra
ción fuera realmente 0.04 pulg. Si nos atuviéramos a nuestra regla de rechazo de dos o más errores estándar (la probabilidad del 4.5% o menos en las colas de la f igura 9-1), rechazaríamos un lote de láminas de aluminio en perfectas condiciones 4.5% de las v eces. En consecuencia, nuestro estándar mínimo para una probabilidad aceptable, 4.5%, también es el riesgo que corremos de rechazar una hipótesis que es cierta. En ésta o cualquier otra toma de decisiones, no puede haber transacciones libres de riesgo. Aunque realizar pruebas de hipótesis se oye como un término estadístico formal sin relación con la toma de decisiones de negocios, de hecho los administradores proponen y prueban hipótesis todo el tiempo. “Si bajamos $1,500 el precio de este modelo de auto, venderemos 50,000 de ellos este año” es una hipótesis. P ara probarla, será necesario esperar al f inal del año y contar las v entas. SUGERENCIAS Y SUPOSICIONES
Las hipótesis administrativas se basan en la intuición; el mercado decide si esa intuición era correcta. Sugerencia: una prueba de hipótesis se refiere a hacer inferencias acerca de la población a partir de una muestra muy pequeña. Lo más importante de las pruebas de hipótesis es que nos permiten preguntarnos (y después decidir) si es probable que una población como la que creemos que es ésta producirá una muestra como la que buscamos.
Ejercicios 9.2 Ejercicios de autoevaluación EA
9-1
EA
9-2
¿Cuántos errores estándar alrededor del valor hipotético deben usarse para estar 99.44% se guros de que se acepta una hipótesis cuando es cierta? Un fabricante de automóviles asegura que un modelo específico rinde 28 millas por galón. LaAgencia de Protección Ambiental usó una muestra de 49 autos de este modelo y encontró un media de la muestra de 26.8 millas por galón. De estudios anteriores se sabe que la desviación estándar de la población es 5 millas por galón. ¿Es razonable esperar (dentro de 2 errores estándar) que se puede seleccionar esa muestra si en realidad la media verdadera de la población es 28 millas por galón?
Conceptos básicos ■ ■
9-6 9-7
■
9-8
■
9-9
¿Qué queremos decir cuando rechazamos una hipótesis con base en una muestra? Explique por qué no se usa un solo nivel estándar de probabilidad para rechazar o aceptar en la prueba de hipótesis. Si rechazamos un valor hipotético porque difiere de un estadístico de la muestra en más de 1.75 errores estándar, ¿cuál es la probabilidad de que hayamos rechazado una hipótesis que de hecho es cierta? ¿Cuántos errores estándar alrededor del v alor hipotético debemos usar para estar 98% se guros de que aceptamos la hipótesis cuando es cierta?
294
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Aplicaciones ■
9-10
■
9-11
■
9-12
El magnate deportivo y de los medios Ned Sterner está interesado en comprar el equipo de los Stalwarts de Atlanta, si puede estar razonablemente seguro de que su manejo no será demasiado costoso. Piensa que la asistencia promedio aproximada tendría que ser de 28,500 aficionados por juego para que la compra le resultara atractiva. Ned elige al azar 64 juegos en casa entre los realizados durante los cuatro años anteriores y encuentra, de las cifras reportadas en Sporting Reviews, que la asistencia promedio a estos juegos fue de 26,100 aficionados. Un estudio que encargó anteriormente al comprar un equipo mostró que la desviación estándar de la población de asistentes a eventos similares había sido bastante estable durante los 10 años anteriores, en alrededor de 6,000 aficionados. Utilizando dos errores estándar como el criterio de decisión, ¿debería Ned comprar el equipo de los Stalwarts? ¿Puede pensar en alguna(s) razón(es) por las que su conclusión tal vez no sea válida? La revista Computing World ha declarado que el propietario promedio de una computadora personal pasa 23.9 horas a la semana usando su máquina,con una desviación estándar de 12.6 horas a la semana. Un muestreo aleatorio de 81 suscriptores reveló una media muestral de 27.2 horas por semana. Con base en esta muestra, ¿es razonable concluir (usando dos errores estándar como criterio de decisión) que los suscriptores de Computing World son distintos de los propietarios promedio de computadoras personales? Una tienda de abarrotes ha empacado naranjas en bolsas especiales y asegura que una bolsa rinde 2.5 litros de jugo. Después de seleccionar al azar 42 bolsas, el empacador encontró que la producción promedio de jugo por bolsa era 2.2 litros. Datos históricos establecen que la desviación estándar de la población es de 0.2 litros. Usando esta muestra y un criterio de decisión de 2.5 errores estándar, ¿se puede concluir que la afirmación de la tienda es correcta?
Soluciones a los ejercicios de autoevaluación EA
9-1
EA
9-2
Para dejar una probabilidad de 1 0.9944 0.0056 en las colas, el valor absoluto de z debe ser mayor o igual que 2.77, de manera que el intervalo debe ser 2.77 errores estándar alrededor del valor hipotético. 5 n 49 x 26.8 28
2 x 2/n 28 2(5)/49 28 1.429 (26.571, 29.429)
Dado que x 26.8 26.57, es razonable obtener esos resultados de la muestra si es realmente 28 mpg.
9.3 Prueba de hipótesis Declaración formal de la hipótesis nula
En una prueba de hipótesis, debemos establecer el valor supuesto o hipotético del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula y se simboliza H0, o “H sub-cero”. Supongamos que deseamos probar la hipótesis de que la media de la población es igual a 500. En símbolos se escribe como sigue y se lee “la hipótesis nula es que la media de población es igual a 500”: H0: 500
¿Por qué se llama “hipótesis nula”?
El término hipótesis nula surge de las primeras aplicaciones agrícolas y médicas de la estadística. Con el fin de probar la efectividad de un nuevo fertilizante o de una nueva medicina, la hipótesis que se probaba era que no hubo efecto, es decir, no hubo diferencia entre las muestras tratadas y las no tratadas. Si en un problema usáramos un valor hipotético de una media de población, en símbolos sería:
H0 Esto se lee, “valor hipotético de la media de la población”. Si los resultados de nuestra muestra no respaldan la hipótesis nula,debemos concluir que se cumple alguna otra cosa. Siempre que rechazamos la hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa cuyo símbolo es H1 (“H sub-uno”). Para la hipótesis nula: H0: 200 (Se lee: “la hipótesis nula es que la media de población es igual a 200”)
9.3: Prueba de hipótesis
295
consideraremos tres hipótesis alternativas posibles: Declaración formal de la hipótesis alternativa
• H1: 200 ← “La hipótesis alternativa es que la media de población no es igual a 200” • H1: 200 ← “La hipótesis alternativa es que la media de población es mayor que 200” • H1: 200 ← “La hipótesis alternativa es que la media de población es menor que 200”
Interpretación del nivel de significancia Objetivo de la prueba de hipótesis
Función del nivel de significancia
Área en la que no existe una diferencia significativa
También llamada área de aceptación de la hipótesis nula Las hipótesis son aceptadas, no demostradas
El propósito de la prueba de hipótesis no es cuestionar el v alor calculado del estadístico de la muestra, sino hacer un juicio r especto a la diferencia entre ese estadístico y un parámetr o hipotético de la población. El siguiente paso después de establecer las hipótesis nula y alternativa, entonces, consiste en decidir qué criterio utilizar para confirmar si se acepta o se rechaza la hipótesis nula. En nuestro ejemplo del complejo deportivo, decidimos que una diferencia observada entre la media de la muestra x y la media hipotética de la población H0 tenía sólo 4.5%, o 0.045, de probabilidad de ocurrir. Por tanto, rechazamos la hipótesis nula de que la media de la población fuera de 0.04 pulg (H0: 0.04 pulg). En términos estadísticos, el valor 0.045 se conoce como nivel de significancia. ¿Qué pasa si probamos una hipótesis con 5% de nivel de significancia? Esto quiere decir que rechazaremos la hipótesis nula si la diferencia entre el estadístico y el parámetro hipotético de la población es tan grande que ésta u otra diferencia mayor ocurrirá,en promedio, sólo cinco o menos veces en cada 100 muestras,cuando el parámetro hipotético de la población es correcto.Si suponemos que la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias muestrales que está fuera de ciertos límites. (Recuerde que en estimación, el nivel de confianza indicaba el porcentaje de medias muestrales que caían dentro de los límites de confianza definidos.) La figura 9-2 ilustra cómo interpretar un nivel de significancia del 5%. Observe que el 2.5% del área bajo la curva está localizado en cada cola. De la tabla 1 del apéndice, podemos determinar que el 95% de toda el área bajo la curva está incluido en un intervalo que se extiende 1.96 x a cada lado de la media hipotética. Así pues, en el 95% del área no hay diferencia significativa entre el valor observado del estadístico de la muestra y el v alor hipotético del parámetro de población. En el 5% restante (las regiones sombreadas de la figura 9-2) sí existe una diferencia significativa. La figura 9-3 examina este mismo ejemplo de otra manera. Aquí, 0.95 del área bajo la curva cae en la región donde aceptaríamos la hipótesis nula. Las dos partes sombreadas bajo la curva, que representan un total del 5% del área, son las regiones donde rechazaríamos la hipótesis nula. Resulta conveniente hacer un advertencia en este punto. Aunque el estadístico de la figura 9-3 cae en la región no sombreada (la re gión que comprende 95% del área bajo la curv a), esto no prueba que nuestra hipótesis nula (H0) sea cierta; simplemente no nos proporciona evidencia estadísRegión en la que no hay una diferencia significativa entre el estadístico de la muestra y el parámetro hipotético de la población
FIGURA 9-2 Regiones de diferencia significativa y de diferencia no significativa para un nivel de significancia del 5%
0.95 del área
0.025 del área
0.025 del área
mH +1.96 sx
m H –1.96 sx
0
0
mH
0
En estas dos regiones, sí hay una diferencia significativa entre el estadístico de muestral y el parámetro hipotético de la población
296
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Aceptamos la hipótesis nula si el estadístico cae en esta región (no rechazamos H0)
0.95 del área
0.025 del área
0.025 del área
FIGURA 9-3 Un nivel de significancia del 5%, con regiones designadas de aceptación y rechazo
mH +1.96 sx
mH –1.96sx
0
0
mH
0
Rechazamos la hipótesis nula si el estadístico cae en estas dos regiones
tica para rechazarla. ¿Por qué? Porque la única forma en que puede aceptarse la hipótesis con seguridad es que conozcamos el parámetro de población y,desafortunadamente, esto no es posible. Por consiguiente, siempre que afirmemos que aceptamos la hipótesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo del término aceptar, en vez de no rechazar, se ha convertido en el estándar. Significa simplemente que cuando los datos de la muestra no hacen que rechacemos una hipótesis nula,nos comportamos como si esa hipótesis fuera cierta.
Selección de un nivel de significancia Trueque al escoger un nivel de significancia
No existe un nivel de significancia único estándar o universal para probar hipótesis. En algunos casos, se utiliza un ni vel de significancia del 5%. Ciertos resultados de in vestigaciones publicados a menudo prueban hipótesis para un nivel de significancia del 1%. Es posible probar una hipótesis a cualquier nivel de significancia. Pero recordemos que nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que corremos al rechazar una hipótesis nula cuando es cierta. Cuanto más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar la hipótesis nula cuando es cierta. Al examinar este concepto, nos referiremos a la figura 9-4. Ésta ilustra una prueba de hipótesis para tres niveles de significancia: 0.01, 0.10 y 0.50. También hemos indicado la ubicación de la misma media de muestra x en cada distribución. En las gráficas (a) y (b), aceptaríamos la hipótesis nula de que la media de población es igual al valor hipotetizado. Pero observe que en la gráfica (c), rechazaríamos esta misma hipótesis nula. ¿Por qué? Nuestro ni vel de significancia de 0.50 en esta parte es tan alto que rara vez aceptaríamos la hipótesis nula cuando no es cierta, pero, al mismo tiempo, con frecuencia la rechazaríamos aunque lo sea.
Errores de tipo I y tipo II Definición de los errores tipo I y tipo II
Los especialistas en estadística usan definiciones y símbolos específicos para el concepto ilustrado en la figura 9-4. Rechazar una hipótesis nula cuando es cierta se denomina error tipo I, y su probabilidad (que, como hemos visto, es también el nivel de significancia de la prueba) se simboliza con
(alfa). Por otro lado, aceptar una hipótesis nula cuando es f alsa se le llama error tipo II , y su probabilidad se simboliza con (beta). Existe una relación entre estos dos tipos de errores: la probabilidad de cometer un tipo de error puede reducirse sólo si estamos dispuestos a aumentar la probabilidad de cometer el otro tipo de error . Observe en la gráfica (c) de la figura 9-4, que la región de aceptación es bastante pequeña (0.50 del área bajo la curva). Con una región de aceptación así de pequeña, rara vez aceptaremos una hipótesis nula cuando no sea cierta,pero como precio de esta segu-
9.3: Prueba de hipótesis
297
(a) Nivel de significancia 0.01
0.005 del área
0.005 del área
0.99 del área
mH
0
x
(b) Nivel de significancia 0.10
0.05 del área
0.05 del área
0.90 del área
mH
0
x
(c) Nivel de significancia 0.50
FIGURA 9-4 Tres niveles de significancia distintos
Preferencia por el error tipo I
Preferencia por el error tipo II
0.25 del área
0.25 del área
0.50 del área
mH
0
x
ridad, a menudo rechazaremos una hipótesis nula cuando sea cierta. Puesto de otra manera, con el fin de obtener una baja, tendremos que tolerar una alta. Para lidiar con este trueque o intercambio en situaciones personales y profesionales, los tomadores de decisiones deciden el nivel de significancia adecuado examinando los costos o la penalización vinculados con ambos tipos de error. Suponga que cometer el error tipo I (rechazar una hipótesis nula cuando es cierta) implica el tiempo y los problemas de volver a trabajar un lote de compuestos químicos que debieran haberse aceptado. Al mismo tiempo, cometer un error tipo II (aceptar una hipótesis nula cuando es falsa) significa arriesgarse a que todo un grupo de consumidores de este compuesto químico se en venenen. Evidentemente, la administración de esta compañía preferirá el error tipo I sobre el de tipo II y , como resultado, establecerá niveles de significancia muy altos en sus pruebas para obtener betas () bajas. Suponga, por otra parte, que cometer un error tipo I implica desarmar todo un motor en la fábrica, pero cometer un error tipo II implica que los distribuidores de automóviles realicen reparaciones de garantía relativamente baratas. Entonces es más probable que el f abricante prefiera el error tipo II y que establezca menores niveles de significancia en sus pruebas.
Decisión de qué tipo de distribución usar en la prueba de hipótesis Selección de la distribución correcta antes de la prueba
Uso del multiplicador de población finita
Después de decidir el nivel de significancia a utilizar, nuestra siguiente tarea en la prueba de hipótesis consiste en determinar la distribución de probabilidad adecuada. Tenemos la opción de escoger entre la distribución normal, tabla 1 del apéndice, y la distribución t, tabla 2 del apéndice. Las reglas para elegir la distribución adecuada son similares a las que encontramos en el capítulo 8 sobre estimación. La tabla 9-1 resume las situaciones en las que es posible usar la distrib ución normal y la distribución t al hacer pruebas de medias. Más adelante, en este capítulo, examinaremos las distribuciones apropiadas para probar hipótesis sobre proporciones. Recuerde otra regla que debe cumplirse al probar el valor hipotético de una media. Al igual que en la estimación, utilice el multiplicador de población finita siempre que la población sea finita en tamaño, el muestreo se haga sin reemplazo y la muestra sea de más del 5% de la población.
298
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Pruebas de hipótesis de dos colas y de una cola Descripción de una prueba de hipótesis de dos colas
En ocasiones debemos usar una prueba de una cola
Pruebas de cola izquierda
Pruebas de cola derecha
En las pruebas de las siguientes medias hipotéticas de población, ilustraremos pruebas de dos colas y de una cola. Estos nuevos términos requieren explicación. Una prueba de dos colas rechaza la hipótesis nula si la media de muestra es significativamente mayor o menor que la media hipotética de la población. Por tanto, en una prueba de dos colas, existen dos regiones de rechazo. La figura 9-5 ilustra esto. Una prueba de dos colas es apropiada cuando la hipótesis nula es H0 (en donde H0 es algún valor especificado) y la hipótesis alternati va es H0. Suponga que un f abricante de focos desea producirlos con una vida media de H0 1,000 horas. Si el tiempo de vida es más corto, perderá clientes en favor de su competencia; si el tiempo de vida es más largo, tendrá un costo de producción muy alto porque los filamentos serán excesivamente gruesos. Para verificar que su proceso de producción sea adecuado, toma una muestra de la producción con el fin de probar la hipótesis H0: 1,000. Como no quiere desviarse significativamente de 1,000 horas en ninguna dirección, la hipótesis alternativa adecuada es H1: 1,000, y utiliza una prueba de dos colas. Esto es,rechaza la hipótesis nula si la vida media de los focos de la muestra está muy por arriba de 1,000 horas o muy por abajo de 1,000 horas. Sin embargo, existen situaciones en las que no es apropiada una prueba de dos colas y debemos usar una prueba de una cola. Consideremos el caso de un mayorista que compra focos al fabricante del ejemplo anterior. El mayorista los compra en grandes lotes y no desea aceptar un lote de focos a menos que su vida media sea 1,000 horas o más. Cada vez que llega una remesa, el mayorista prueba una muestra para decidir si la acepta o no. La compañía rechazará el en vío sólo si le parece que su vida media es menor que las 1,000 horas. Si cree que los focos son mejores que lo esperado (con una vida media superior a 1,000 horas), es claro que no rechazará la remesa, porque la vida más larga no tiene un costo adicional. Así que las hipótesis del mayorista son H 0: 1,000 horas y H1: 1,000 horas. Rechaza H 0 sólo si la vida media de los focos muestreados es signif icativamente menor que 1,000 horas. La figura 9-6 ilustra esta situación. En ella podemos ver por qué esta prueba se conoce como prueba de cola izquierda (o prueba de cola inferior). En general, se utiliza una prueba de cola izquierda (de cola inferior) si las hipótesis son H0: H0 y H1: H0. En este caso, la evidencia muestral con la media de la muestra significativamente menor que la media hipotética de la población es la que nos lle va a rechazar la hipótesis nula en favor de la hipótesis alternativa. Dicho de otro modo,la región de rechazo está en la cola inferior (cola izquierdo) de la distribución de la media muestral, y ésa es la razón por la que la llamamos prueba de cola inferior. La prueba de cola izquierda es uno de los dos tipos de pruebas de una cola. Como quizá habrá adivinado, el otro tipo de prueba de una cola es unaprueba de cola derecha (o prueba de cola superior). Una prueba de cola superior se utiliza cuando las hipótesis son H0: µH0 y H1: H0. Sólo los valores de la media de la muestra que son significativamente mayores que la media hipotética de la población harán que rechacemos la hipótesis nula en favor de la hipótesis alternativa. Esta prueba se denomina prueba de cola superior porque la región de rechazo está en la cola superior de la distribución de la media muestral.
Tabla 9-1 Condiciones para usar las distribuciones normal y t en la prueba de hipótesis sobre medias
El tamaño de muestra n es mayor que 30 El tamaño de muestra n es 30 o menos y suponemos que la población es normal o aproximadamente normal
Cuando se conoce la desviación estándar de la población
Cuando no se conoce la desviación estándar de la población
Distribución normal, tabla z Distribución normal, tabla z
Distribución normal, tabla z Distribución t, tabla t
9.3: Prueba de hipótesis
299
Si la media de la muestra cae en esta región, aceptamos la hipótesis nula
FIGURA 9-5 Prueba de hipótesis de dos colas, que muestra las dos regiones de rechazo
mH
0
Rechazamos la hipótesis nula si la media de la muestra cae en cualquiera de estas dos regiones Si la media de muestra cae en esta región, aceptamos la hipótesis nula
FIGURA 9-6 Pruebas de cola izquierda (prueba de cola inferior) con la región de rechazo en el lado izquierdo (lado inferior)
Si la media de muestra cae en esta región, rechazamos la hipótesis nula
1,000 horas
La figura 9-7 ilustra la siguiente situación; requiere el uso de una prueba de cola superior. Un administrador ha pedido a sus agentes de ventas que observen un límite en sus gastos de viaje. El administrador espera mantener los gastos en un promedio de $100 diarios por vendedor. Un mes después de imponer el límite, se toma una muestra de gastos diarios entre gados para ver si se ha observado el límite. La hipótesis nula es H0: $100.00, pero al administrador sólo le importan los gastos excesivamente altos. Por tanto, la hipótesis alternativa apropiada en este caso es H1: $100.00, y se utiliza una prueba de cola superior . La hipótesis nula se rechaza (y se toman medidas correcti vas) sólo si la media de la muestra es significativamente mayor que $100.00. Si la media de muestra cae en esta región, rechazamos la hipótesis nula
FIGURA 9-7 Prueba de cola derecha (de cola superior)
$100 Si la media de muestra cae en esta región, aceptamos la hipótesis nula
300
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Por último, debemos recordarle de nuevo, que en cada ejemplo de pruebas de hipótesis, cuando aceptamos una hipótesis nula con base en la información de la muestra, en realidad estamos diciendo que no hay e videncia estadística para rechazarla. No estamos afirmando que la hipótesis nula sea cierta. La única forma de probar una hipótesis nula es conocer el parámetro, y eso no es posible cuando se trata de muestreo. Así, aceptamos la hipótesis nula y nos comportamos como si fuera cierta, simplemente porque no podemos encontrar evidencia para rechazarla.
El aceptar H0 no garantiza que H0 sea cierta
Advertencia: no debe usar los resultados de la muestra para decidir entre usar una prueba de dos colas, de cola superior o de cola inferior. Antes de recolectar los datos, se determina la forma de la prueba a partir de lo que piensa o desea detectar el tomador de decisiones. Sugerencia: si los investigadores de mercados sospechan que las SUGERENCIAS Y SUPOSICIONES
personas que compran cereal escarchado también compran más azúcar que quienes compran cereales sin endulzar, intentarán verificar su creencia sometiendo los datos a una prueba de cola superior. En caso de que la media de la muestra (sorprendentemente) fuera menor que el v alor hipotético, esto no la con vierte en una prueba de cola inferior, es sólo que los datos no apoyan la creencia original.
Ejercicios 9.3 Ejercicios de autoevaluación EA
9-3
EA
9-4
Para los siguientes casos, especifique qué distribución de probabilidad usar en una prueba de hipótesis: a) H0: 27, H1: 27, x 33, ˆ 4, n 25. b) H0: 98.6, H1: 98.6, x 99.1, 1.5, n 50. c) H0: 3.5, H1: 3.5, x 2.8, ˆ 0.6, n 18. d) H0: 382, H1: 382, x 363, 68, n 12. e) H0: 57, H1: 57, x 65, ˆ 12, n 42. Martha Inman, una ingeniera de seguridad en carreteras, decide probar la capacidad de carga de un puente que tiene 20 años. Dispone de una gran cantidad de datos de pruebas similares en el mismo tipo de puente. ¿Qué es adecuado, una prueba de una o de dos colas? Si la capacidad de car ga mínima de este puente debe ser 10 toneladas, ¿cuáles son las hipótesis nula y alternativa?
Conceptos básicos ■
9-13
■
9-14
■ ■ ■
9-15 9-16 9-17
■ ■
9-18 9-19
■
9-20
Formule las hipótesis nula y alternativa para probar si la nevada anual promedio en Buffalo, Nueva York, excede 45 pulg. Describa qué representan normalmente las hipótesis nula y las alternativa en el proceso de prueba de hipótesis. Defina el término nivel de significancia. Defina los errores tipo I y tipo II. En un juicio, la hipótesis nula es que un individuo es inocente de cierto crimen. ¿Preferirá el sistema legal cometer un error tipo I o un error tipo II con esta hipótesis? ¿Cuál es la relación entre el nivel de significancia de una prueba y el error tipo I? Si su objetivo es aceptar la hipótesis nula 36.5, con 96% de certeza cuando es cierta, y nuestro tamaño de muestra es 50, grafique las regiones de aceptación y rechazo para las siguientes hipótesis alternativas: a) ≠ 36.5. b) 36.5. c) 36.5. Para los siguientes casos, especifique qué distribución de probabilidad debe usarse en una prueba de hipótesis: a) H0: 15, H1: 15, x 14.8, ˆ 30, n 35. b) H0: 9.9, H1: 9.9, x 10.6, 2.3, n 16.
9.4: Prueba de hipótesis de medias cuando se conoce la desviación estándar de la población
■
9-21
■ ■
9-22 9-23
301
c) H0: 42, H1: 42, x 44, 4.0, n 10. d) H0: 148, H1: 148, x 152, ˆ 16.4, n 29. e) H0: 8.6, H1: 8.6, x 8.5, ˆ 0.15, n 24. Su hipótesis nula es que la batería de un marcapasos tiene una vida promedio de 300 días, con una hipótesis alternativa de que la vida de la batería es más de 300 días. Usted es ingeniero de control de calidad del fabricante de baterías. a) ¿Preferiría cometer un error tipo I o un error tipo II? b) Basándose en la respuesta al inciso anterior, ¿debería usar un nivel de significancia alto o bajo? ¿En qué condiciones es apropiado utilizar una prueba de una cola? ¿Y una de dos? Si usted decidió que una prueba de una cola es la apropiada, ¿cómo decide si debe ser una prueba de cola inferior o una de cola superior?
Aplicaciones ■
9-24
■
9-25
El departamento de estadística instaló, el año pasado, luces, calentadores y aire acondicionado eficientes en el consumo de energía. Ahora desean determinar si el consumo promedio mensual de ener gía ha disminuido. ¿Deben realizar una prueba de una o de dos colas? Si el consumo promedio mensual anterior era 3,124 kilowatts hora, ¿cuáles son la hipótesis nula y alternativa? El doctor Ross Darrow opina que la nicotina de los cigarros ocasiona que los fumadores tengan ritmos cardiacos promedio más acelerados que los no fumadores. También piensa que los fumadores ansían la nicotina de los cigarros más que sólo fumar por la satisf acción física del acto y, en consecuencia, que el fumador promedio fumará más cigarros al día si cambia de una marca con un alto contenido de nicotina a otra con un contenido menor. a) Suponga que Ross sabe que los no fumadores tienen un ritmo cardiaco de 78 pulsaciones por minuto. ¿Cuáles son las hipótesis nula y alternativa adecuadas para probar su primera opinión? b) Durante los tres meses anteriores, ha estado observando una muestra de 48 individuos que fuman un promedio diario de 15 cigarros con alto contenido de nicotina. Les acaba de cambiar la marca de cigarros por otra con un bajo contenido de nicotina. Establezca las hipótesis nula y alternativa para probar su segunda opinión.
Soluciones a los ejercicios de autoevaluación EA
9-3
EA
9-4
a) t con 24 gl. b) Normal. c) t con 17 gl. d) Normal. e) t con 41 gl (entonces se usa una tabla normal). La ingeniera estará interesada en si un puente de esta edad puede soportar las capacidades mínimas de carga necesarias desde el punto de vista de seguridad. Entonces, quiere que su capacidad sea mayor que cierto nivel mínimo y usará una prueba de una cola (específicamente una prueba de cola superior o derecha). Las hipótesis son: H0: 10 toneladas
H1: 10 toneladas
9.4 Pruebas de hipótesis de medias cuando se conoce la desviación estándar de la población Pruebas de dos colas de medias: prueba en la escala de la variable original Un fabricante surte los ejes traseros para los camiones del Servicio Postal de Estados Unidos. Estos ejes deben soportar 80,000 libras por pulgada cuadrada en pruebas de car ga, pero un eje excesivamente fuerte eleva los costos de producción de manera significativa. La larga experiencia indica que la desviación estándar de la resistencia de sus ejes es 4,000 libras por pulgada cuadrada. El abricanf
302
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Cómo plantear el problema en símbolos
te selecciona una muestra de 100 ejes de la producción, los prueba y encuentra que la capacidad de carga media de la muestra es 79,600 libras por pulgada cuadrada. Escritos en símbolos,los datos en este caso son µH0 80,000 ← Valores hipotetizados de la media de población 4,000 ← Desviación estándar de la población n 100 ← Tamaño de muestra x 79,600 ← Media de la muestra Si el fabricante de ejes utiliza un ni vel de significancia ( ) de 0.05 en la prueba, ¿satisfarán los ejes sus requerimientos de carga? En símbolos, podemos establecer el problema como: H0: 80,000 ← Hipótesis nula: la media real es 80,000 libras por pulgada cuadrada H1: 80,000 ← Hipótesis alternativa: la media real no es 80,000 libras por pulgada cuadrada
0.05 ← Nivel de significancia para probar esta hipótesis
Cálculo del error estándar de la media
Como conocemos la desviación estándar de la población, y como el tamaño de la población es suficientemente grande para considerarlo infinito, podemos utilizar la distribución normal en nuestra prueba. Primero, calculamos el error estándar de la media usando la ecuación 7-1:
x n
[7-1]
4,000 100 4,000 10 400 libras por pulgada cuadrada ← Error estándar de la media Ilustración del problema Determinación de los límites de la región de aceptación
La figura 9-8 ilustra este problema, muestra el nivel de significancia de 0.05 como las dos regiones sombreadas que contienen, cada una, 0.025 del área. La región de aceptación de 0.95 contiene dos áreas iguales de 0.475 cada una. De la tabla de la distrib ución normal (tabla 1 del apéndice) podemos ver que el valor z apropiado para 0.475 del área bajo la curva es 1.96. Ahora podemos determinar los límites de la región de aceptación:
H0 1.96 x 80,000 1.96(400) 80,000 784 80,784 libras por pulgada cuadrada ← Límite superior
mH +1.96 sx
m H –1.96sx
0
0
FIGURA 9-8 Prueba de hipótesis de dos colas al nivel de significancia de 0.05
0.025 del área
0.025 del área 0.475 del área
0.475 del área
mH = 80,000 0
9.4: Prueba de hipótesis de medias cuando se conoce la desviación estándar de la población
303
Región de aceptación Aceptamos H0 si el valor de la muestra está en esta región
FIGURA 9-9 Prueba de hipótesis de dos colas al nivel de significancia de 0.05; muestra la región de aceptación y la media de la muestra
Media de muestra de 79,600 libras por pulgada cuadrada
x 79,216
m H = 80,000
80,784
0
y
H0 1.96x 80,000 1.96(400) 80,000 784 79,216 libras por pulgada cuadrada ← Límite inferior Interpretación de los resultados
Observe que hemos definido los límites de la región de aceptación (80,784 y 79,216) y la media de la muestra (79,600), y que se ilustran en la figura 9-9 en la escala de la variable original (libras por pulgada cuadrada). En la siguiente sección veremos otra forma de definir los límites de la región de aceptación y el valor de la media de la muestra. Evidentemente, la media de la muestra cae dentro de la región de aceptación; el fabricante debe aceptar la hipótesis nula porque no hay diferencia significativa entre la media hipotética de 80,000 y la media observ ada de los ejes de la muestra. Con base en esta muestra, el fabricante debe aceptar que la corrida de producción satisf ace los requerimientos de carga.
Prueba de hipótesis usando la escala estandarizada
Conversión del valor observado a la escala estandarizado
En la prueba de hipótesis que acabamos de concluir se requirieron dos números para tomar la decisión: un valor observado calculado a partir de la muestra, y un valor crítico que define la frontera entre las regiones de aceptación y de rechazo. Veamos con cuidado cómo obtuvimos ese valor critico. Después de establecer el nivel de significancia de 0.05, buscamos en la tabla 1 del apéndice, la distribución de probabilidad normal estándar, para encontrar que 1.96 son los valores z que dejaban 0.025 de probabilidad en cada extremo de la distribución. En vez de medir la variable en sus unidades originales, la variable estandarizada z nos dice a cuántas desviaciones estándar arriba (z 0) o abajo (z 0) de la media se encuentra nuestra observación. Entonces hay dos escalas de medición, la escala original o sin procesar y la escala estandarizada. La figura 9-10 es igual a la f igura 9-9, pero incluye ambas escalas. Observe que nuestra media muestral de 79,600 libras por pulgada cuadrada está dada en la escala sin procesar,pero los valores críticos z de 1.96 están dados en la escala estandarizada. Como estos dos números se dan en dos escalas distintas, no podemos compararlos directamente cuando probamos nuestras hipótesis. Debemos convertir uno de ellos a la escala del otro. Hicimos nuestra prueba de hipótesis en la escala original al con vertir los valores z críticos de 1.96 a los v alores críticos de x en la escala original. Entonces, como el v alor observado de x (79,600) cayó entre los límites inferior y superior de la re gión de aceptación (79,216 y 80,784),aceptamos la hipótesis nula. En lugar de convertir los valores críticos z a la escala original, para ob-
304
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Región de aceptación Aceptamos H0 si el valor de la muestra está en esta región
FIGURA 9-10 Prueba de hipótesis de dos colas al nivel de significancia de 0.05, que muestra la región de aceptación y la media de la muestra en las escalas sin procesar y estandarizada
Media de muestra de 79,600 libras por pulgada cuadrada
x (Escala sin procesar) 79,216
80,784
m H = 80,000 0
z= –1.96 Valor crítico z Media de la muestra estandarizada
–1.00
0
1.96 Valor crítico z
x–m (Escala estandarizada) sx
tener números directamente comparables con el valor observado de x, podríamos haber convertido nuestro valor observado de x a la escala estandarizada, utilizando la ecuación 7-2 para obtener un valor z observado, un número directamente comparable con los valores críticos z: x H0 z x El error estándar de la media de la ecuación 7-1
79,600 80,000 400 1.00
¿En qué difieren los dos métodos?
La media de la muestra está a un error estándar abajo de la media de la población
La figura 9-10 también ilustra este valor observado en la escala estandarizada. Observe que el valor cae entre 1.96 de los límites inferior y superior de la región de aceptación de esta escala. Una vez más concluimos que se debe aceptar H0: el fabricante debe aceptar que la corrida de producción reúne los requisitos de carga. ¿Cuál es la diferencia entre los dos métodos que acabamos de utilizar para probar nuestras hipótesis? Sólo en que definimos las unidades (o escala de medición) de manera distinta en cada método. Sin embargo, los dos métodos siempre llevarán a las mismas conclusiones. Algunas personas se sienten mejor usando la escala de la v ariable original; otras prefieren la estandarizada, que acabamos de explicar. Los resultados de la mayoría de los paquetes estadísticos de cómputo usan la escala estandarizada. En lo que resta del capítulo y en el capítulo 10,haremos las pruebas usando la escala estandarizada. Otra sugerencia: utilice el método que le resulte más cómodo.
El proceso de cinco pasos para la prueba de hipótesis usando la escala estandarizada La tabla 9-2 resume el proceso de cinco pasos que utilizaremos en el resto de este capítulo y en todo el capítulo 10 para probar hipótesis.
Prueba de una cola para las medias Para una prueba de una cola para una media, suponga que un hospital usa grandes cantidades de dosis envasadas de un medicamento particular. La dosis individual de esta medicina tiene 100 cm3 (100 cc).
305
9.4: Prueba de hipótesis de medias cuando se conoce la desviación estándar de la población
Paso
Tabla 9-2 Resumen del proceso de cinco pasos
1. 2. 3. 4. 5.
Acción Decida si ésta es una prueba de dos colas o de una. Establezca sus hipótesis. Seleccione un nivel de significancia apropiado para esta decisión. Decida qué distribución (t o z) es la adecuada (vea la tabla 9-1) y encuentre el (los) valor(es) crítico(s) para el nivel de significancia elegido en la tabla adecuada. Calcule el error estándar del estadístico muestral. Use el error estándar para convertir el valor observado del estadístico en un valor estandarizado. Bosqueje la distribución y marque la posición del valor de la muestra estandarizado y del valor o valores críticos para la prueba. Compare el valor del estadístico muestral estandarizado con el (los) valor(es) crítico(s) para esta prueba e interprete el resultado.
La acción del medicamento es tal que el cuerpo tolera dosis excesivas sin sufrir daño. Por otra parte, las dosis insuficientes no producen el efecto médico deseado e interfieren con el tratamiento del paciente. El hospital ha adquirido la cantidad de medicamento que necesita al mismo fabricante durante varios años y sabe que la desviación estándar de la población es 2 cc. El hospital inspecciona, aleatoriamente, 50 dosis, tomadas de un envío muy grande y encuentra que la media de estas dosis es 99.75 cc. H0 l00 ← Valores hipotéticos de la media de la población 2 ← Desviación estándar de la población n 50 ← Tamaño de la muestra x 99.75 ← Media de la muestra
Paso 1: Establezca sus hipótesis, tipo de prueba y nivel de significancia
Paso 2: Elija la distribución apropiada y encuentre el valor crítico
Paso 3: Calcule el error estándar y estandarice el estadístico muestral
Si el hospital establece un nivel de significancia de 0.10 y nos pregunta si las dosis de esta entrega son demasiado pequeñas, ¿cómo podemos hallar la respuesta? Para empezar, podemos expresar el problema en símbolos: H0: 100 ← Hipótesis nula: la media de las dosis de la remesa es 100 cc H1: 100 ← Hipótesis alternativa: la media es menor que 100 cc
0.10 ← Nivel de significancia para probar esta hipótesis Como conocemos la desviación estándar de la población y n es mayor que 30, podemos utilizar la distribución normal. De la tabla 1 del apéndice podemos determinar que el valor de z para el 40% del área bajo la curva es 1.28, de modo que el valor crítico para la prueba de cola inferior es –1.28. El hospital desea saber si las dosis reales son de 100 cc o si,por el contrario, las dosis son demasiado pequeñas. El hospital debe determinar que las dosis contienen más de una cierta cantidad, o debe rechazar el envío. Ésta es una prueba de cola izquierda, que se ilustra en la figura 9-11. Observe que la región sombreada corresponde al nivel de significancia de 0.10. También note que la región de aceptación consta del 40% en el lado izquierdo de la distrib ución y todo el lado derecho (50%), para un área total del 90%. Ahora podemos calcular el error estándar de la media,utilizando la desviación estándar de la población que conocemos y la ecuación 7-1 (debido a que el tamaño de población es suf icientemente grande para considerarla infinito):
x n 2 50 2 7.07 0.2829 cc ← Error estándar de la media
[7-1]
306
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Valor crítico z = –1.28
FIGURA 9-11 Prueba de hipótesis de cola izquierda a un nivel de significancia de 0.10
0.10 del área 0.40 del área
0.50 del área
z 0
Región de aceptación Se acepta H0 si el valor de la muestra está en esta región
FIGURA 9-12 Prueba de hipótesis de cola izquierda al nivel de significancia de 0.10; muestra la región de aceptación y la media muestral estandarizada
Media muestral estandarizada
z –1.28
–0.88
0
Ahora usamos la ecuación 7-2 para estandarizar la media de la muestra, x, restando H0, la media hipotética, y dividiendo entre x, el error estándar de la media: x H0 z x
[7-2]
99.75 100 0.2829 0.88 Paso 4: Bosqueje la distribución y señale el valor de muestra y el valor crítico Paso 5: Interprete el resultado
Al colocar el valor estandarizado en la escala z se observa que esta media muestral cae de lleno en la región de aceptación, como se muestra en la figura 9-12, Por tanto, el hospital debe aceptar la hipótesis nula, porque la media observada de la muestra no es significativamente menor que la media hipotética de 100 cc. Con base en esta muestra de 50 dosis, el hospital debe concluir que las dosis de la entrega son suficientes.
Existen muchas situaciones administrativas que requieren una prueba de una cola. Por ejemplo, un promotor de conciertos se interesa en atraer suf icientes seguidores para salir a mano o ganar. Si llena el estadio y tiene que rechazar clientes, aumenta el prestigio del evento y no hay costo para él. Pero si no atrae suficientes asistentes puede tener problemas financieros. Él establecería una prueba de una cola, en palabras, “mayor o igual que 10,000 SUGERENCIAS Y SUPOSICIONES
asistentes” (si 10,000 es su punto de equilibrio). Un distrito acuífero que está diseñando los límites de presión en su sistema de suministro tiene otra perspecti va. Al ingeniero hidráulico le interesa mantener la presión de agua cerca de cierto valor y usará una prueba de dos colas. Sugerencia:si la pregunta que debe responder se pone en palabra como menor que, mayor que, menor o igual que, o mayor o igual que, una prueba de una cola es apropiada. Si la pregunta se refiere a diferente a, o cambio de use una prueba de dos colas.
9.4: Prueba de hipótesis de medias cuando se conoce la desviación estándar de la población
307
Ejercicios 9.4 Ejercicios de autoevaluación EA
9-5
EA
9-6
Hinton Press tiene la hipótesis de que la vida promedio de su prensa rotativa más grande es de 14,500 horas. Saben que la desviación estándar de la vida de una prensa es 2,100 horas. A partir de una muestra de 25 prensas, la compañía encuentra una media muestral de 13,000 horas. A un nivel de significancia de 0.01, ¿deben concluir que la vida promedio de las prensas es menor que las 14,500 horas hipotéticas? American Theaters sabe que cierta película de éxito se exhibió un promedio de 84 días en cada ciudad y que la desviación estándar correspondiente fue 10 días. El administrador del distrito sureste se interesó en comparar la popularidad de la película en su región con la que tuvo en otros cines de Estados Unidos. Eligió 75 salas al azar en su región y encontró que exhibieron la película un promedio de 81.5 días. a) Establezca las hipótesis adecuadas para probar si hubo una diferencia significativa en la duración de la exhibición entre los teatros del sureste y el resto de Estados Unidos. b) Pruebe estas hipótesis para un nivel de significancia del 1%.
Aplicaciones ■
9-26
■
9-27
■
9-28
■
9-29
■
9-30
■
9-31
■
9-32
Atlas Sporting Goods ha puesto en marcha una promoción especial para su estufa de propano y siente que la promoción debe provocar un cambio en el precio para el consumidor. Atlas sabe que antes de que comenzara la promoción, el precio promedio al menudeo de la estufa era $44.95, con una desviación estándar de $5.75. Atlas muestrea a 25 de sus minoristas después de iniciada la promoción y encuentra que el precio medio de las estufas es ahora $42.95. A un nivel de significancia de 0.02, ¿tiene Atlas razones para creer que el precio promedio al menudeo para el consumidor ha disminuido? De 1980 a 1985, la tasa promedio de precios/utilidades (P/U) de los aproximadamente 1,800 valores inscritos en la Bolsa de Valores de Nueva York fue 14.35, con una desviación estándar de 9.73. En una muestra de 30 valores de la Bolsa,seleccionados al azar, la tasa P/U promedio en 1986 fue 11.77. ¿Esta muestra presenta evidencia suficiente para concluir (a un nivel de significancia de 0.05) que en 1986 la tasa P/U promedio para los valores de la Bolsa cambió su valor anterior? Generally Electric ha desarrollado un nue vo foco cuyas especificaciones de diseño requieren una salida de luz de 960 lúmenes comparado con un modelo anterior que producía sólo 750 lúmenes. Los datos de la compañía indican que la desviación estándar de la salida de luz para este tipo de foco es 18.4 lúmenes. Para una muestra de 20 focos, el comité de pruebas encontró una salida de luz promedio de 954 lúmenes por foco. A un nivel de significancia de 0.05, ¿puede concluir Generally Electric que su nue vo foco produce la salida especificada de 950 lúmenes? Maxwell’s Hot Chocolate está preocupado por el efecto que la campaña de publicidad de café,de todo el año, pueda tener en las ventas de chocolate caliente. Las ventas semanales promedio de chocolate caliente hace dos años eran 984.7 libras y la desviación estándar era 72.6 libras. Maxwell seleccionó una muestra aleatoria de 30 semanas del año pasado y encontró ventas promedio de 912.1 libras. a) Establezca las hipótesis adecuadas para probar si las ventas de chocolate han disminuido. b) A un nivel de significancia del 2%, pruebe estas hipótesis. La comisión promedio que cobran las compañías de corretaje de servicio completo en una venta de valores comunes es $144, con una desviación estándar de $52. Joel Freelander tomó una muestra aleatoria de 121 transacciones de sus clientes y determinó que habían pagado una comisión promedio de $151. A un nivel de significancia de 0.10, ¿puede concluir Joel que las comisiones de sus clientes son mayores que el promedio de la industria? Históricamente, cada día, el Servicio de Aduanas de Estados Unidos intercepta alrededor de $28 millones en bienes de contrabando introducidos a ese país, con una desviación estándar de $16 millones al día. En 64 días de 1992,elegidos al azar, el Servicio de Aduanas interceptó un promedio de $30.3 millones enbienes de contrabando. ¿Indica esta muestra (a un ni vel de significancia del 5%) que el Comisionado de Aduanas debería preocuparse por el incremento del contrabando por encima de su nivel histórico? Antes del embargo petrolero de 1973 y los subsecuentes incrementos en el precio del petróleo crudo, el consumo de gasolina en Estados Unidos había aumentado a una tasa de ajuste estacional del 0.57% mensual, con una desviación estándar del 0.10% mensual. En 15 meses elegidos aleatoriamente entre 1975 y
308
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
■
9-33
1985, el consumo de gasolina tiene una tasa promedio de aumento de sólo 0.33% al mes. Para un nivel de significancia de 0.01, ¿puede concluir que el aumento en el uso de la gasolina se redujo como resultado del embargo y sus consecuencias? Bay City Bigleaguers, un equipo de béisbol semiprofesional, tiene al jugador líder de la liga en promedio de bateo durante muchos años. Durante los últimos años, el promedio de bateo de Joe Carver ha sido de .343, con una desviación estándar de .018. Sin embargo, este año, el promedio de Joe fue sólo .306. Joe está renegociando su contrato para el año siguiente, y el salario que podrá obtener depende en gran medida de su habilidad de convencer al dueño del equipo de que su promedio de bateo de este año no fue significativamente peor que en años anteriores. Si el dueño desea usar un nivel de significancia de 0.02, ¿reducirán el salario de Joe para el año próximo?
Soluciones a los ejercicios de autoevaluación EA
9-5
2,100
n 25
H0: 14,500
x 13,000 H1: 14,500
0.01
El límite inferior de la región de aceptación es z 2.33, o 2.33(2,100) x H0 z/n 14,500 13,521.4 horas 25
EA
9-6
13,000 14,500 x H0 3.57 2.33 Debido al valor z observado 2,100/25 /n (es decir, x 13,521.4), debe rechazarse H0. La vida promedio es significativamente menor que el valor hipotético. 10 n 75 x 8.15 H0: = 84
H1: 84
0.01
Los límites de la región de aceptación son z 2.58 o 2.58(10) x H0 z/n 84 (81.02, 86.98) días 75 81.5 84 x H0 2.17, este valor y x están en la región Debido a que el valor z observado 10/75 /n de aceptación, de manera que no se rechaza H0. La duración de la exhibición no es significativamente diferente de la de otras regiones.
9.5 Medición de la potencia de una prueba de hipótesis ¿Qué debe hacer una buena prueba de hipótesis?
Significado de y1
Ahora que hemos considerado dos ejemplos de pruebas de hipótesis,resulta apropiado retroceder un poco para analizar lo que una buena prueba de hipótesis debe hacer. Idealmente, tanto como (las probabilidades de los errores tipo I y tipo II) deben ser pequeñas. Recuerde que un error tipo I se presenta cuando rechazamos una hipótesis nula que es cierta, y que (el nivel de significancia de la prueba) es la probabilidad de cometer un error tipo I. En otras palabras,una vez que decidimos el nivel de significancia, no hay nada que podamos hacer respecto a . Un error tipo II ocurre cuando aceptamos una hipótesis nula que es f alsa; la probabilidad de un error tipo II es . ¿Qué podemos decir respecto a ? Suponga que la hipótesis nula es falsa. Entonces los administradores desearían que la prueba de hipótesis la rechazara siempre. Desafortunadamente, las pruebas de hipótesis no pueden ser inf alibles; algunas veces, cuando la hipótesis nula es f alsa, una prueba no la rechaza y, por tanto, se comete un error tipo II. Cuando la hipótesis nula es f alsa, (la media verdadera de la población) no
9.5: Medición de la potencia de una prueba de hipótesis
Interpretación de los valores de 1
Cálculo de los valores de 1
Interpretación de un punto en la curva de potencia
es igual a H0 (la media hipotética de la población); es igual a algún otro valor. Por cada valor de para el que la hipótesis alternativa es cierta hay una probabilidad diferente () de aceptar incorrectamente la hipótesis nula. Claro que desearíamos que esta (la probabilidad de aceptar una hipótesis nula cuando es f alsa) fuera lo más pequeña posible o, de manera equivalente, nos gustaría que 1 (la probabilidad de rechazar una hipótesis nula cuando es falsa) fuera lo más grande posible. Puesto que rechazar una hipótesis nula cuando es falsa es justo lo que debe hacer una buena prueba, un valor alto de 1 (algo cerca de 1.0) significa que la prueba trabaja bastante bien (rechaza la hipótesis nula cuando es falsa); un valor bajo de 1 (cerca de 0.0) significa que la prueba trabaja muy mal (no r echaza la hipótesis nula cuando es falsa). Como el v alor de 1 es la medida de qué tan bien trabaja la prueba, recibe el nombre de potencia de la prueba. Si graficamos los valores de 1 para cada valor de para el que la hipótesis alternativa es cierta, la curva resultante se conoce como curva de potencia. La gráfica (a) de la figura 9-13 reproduce la prueba de cola izquierda de la figura 9-11, pero con la escala sin procesar. La gráfica (b) de la figura 9-13 muestra la curva de potencia asociada con esta prueba. No es difícil calcular los v alores 1 para graficar la curva de potencia; tres de estos puntos se muestran en la gráfica (b) de la figura 9-13. Recuerde que con esta prueba intentábamos decidir si se aceptar o no una entrega de medicamentos. Nuestra prueba dictaba que debíamos rechazar la hipótesis nula si la media estandarizada de la muestra era menor que 1.28, esto es, si la dosis media de la muestra era menor que 100.00 1.28 (0.2829), o 99.64 cc. Considere el punto C de la curva de potencia presentada en la gráfica (b) de la figura 9-13. La dosis media de la población es 99.42 cc; dado este v alor, debemos calcular la probabilidad de que la media de una muestra aleatoria de 50 dosis de esta población sea menor que 99.64 cc (el punto abajo del cual decidimos rechazar la hipótesis nula). Ahora considere la gráfica (c) de la figura 9-13. Antes calculamos el error estándar de la media como 0.2829 cc, así que 99.64 cc está a (99.64 99.42)/ 0.2829, o 0.78 errores estándar arriba de 99.42 cc. Utilizando la tabla 1 del apéndice, podemos ver que la probabilidad de observar una media muestral menor que 99.64 cc y, por consiguiente, rechazar la hipótesis nula, es 0.7823, el área sombreada de la gráfica (c). Entonces, la potencia de la prue(a) Región de rechazo
(b) 1.00
Región de aceptación
Curva de potencia (gráfica de probabilidades de rechazar la hipótesis nula cuando la hipótesis alternativa es cierta)
Probabilidad de rechazar H0
C
a = 0.10
0.75
D 0.50 1–b = 0.7823
E
1–b = 0.5438
0.25
F
1–b = 0.2843 99.42 cc
99.64 cc m H = 100.00 cc
99.61 cc
99.80 cc
100.00 cc
O
Media de la población (m)
Media de muestra (x ) (c)
(d) 0.78 errores estándar
FIGURA 9-13 Prueba de hipótesis de cola izquierda, curva de potencia asociada y tres valores de
309
(e)
0.5438 del área
0.7823 del área
99.42 m
99.64
0.57 errores estándar
0.11 errores estándar 0.2843 del área
99.61 m
99.64
99.64
99.80 m
310
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Punto terminal de la curva de potencia
Interpretación de la curva de potencia
ba (1 ) en 99.42 es 0.7823. Esto sólo significa que si 99.42, la probabilidad de que esta prueba rechace la hipótesis nula cuando es falsa es 0.7823. Ahora observe el punto D de la gráfica (b) de la figura 9-13. Para esta dosis media de la población de 99.61 cc, ¿cuál es la probabilidad de que la media de una muestra aleatoria de 50 dosis de esta población sea menor que 99.64 cc y que esto ocasione que la prueba rechace la hipótesis nula? Vea la gráfica (d) de la figura 9-13. En ella 99.64 cc está a (99.64 99.61)/0.2829, o 0.11 errores estándar arriba de 99.61 cc. Utilizando de nuevo la tabla 1 del apéndice, podemos ver que la probabilidad de observar una media muestral menor que 99.64 y por consiguiente de rechazar la hipótesis nula es 0.5438, el área sombreada de la gráfica (d) de la figura 9-13. Por tanto, la potencia de la prueba (1 ) para 99.61 cc es 0.5438. Con el mismo procedimiento para el punto E, encontramos que la potencia de la prueba en 99.80 cc es 0.2843; esto se ilustra como el área sombreada de la gráfica (e) de la figura 9-13. Los valores de 1 continúan disminuyendo a la derecha del punto E. ¿Qué tan abajo llegan? Al acercarse cada vez más la media de población a 100.00 cc, la potencia de la prueba (1 ) debe acercarse cada vez más a la probabilidad de rechazar la hipótesis nula cuando la media de población es exactamente 100.00 cc, y sabemos que esa probabilidad es nada menos que el nivel de significancia de la prueba, en este caso, 0.10. Así, la curva termina en el punto F, que está a una altura de 0.10 directamente arriba de la media de la población. ¿Qué nos dice la curva de potencia de la gráfica (b) de la figura 9-13? Sólo que cuando la entrega es menos satisfactoria (al disminuir las dosis del en vío), nuestra prueba es más poderosa (tiene una mayor probabilidad de reconocer que la entre ga es insatisfactoria). Pero también nos muestra que debido al error de muestreo, cuando la dosis es sólo ligeramente menor que 100.00 cc,la potencia de la prueba para reconocer esta situación es bastante baja.Así, si resultara completamente insatisfactorio tener cualquier dosis con menos de 100.00 cc, la prueba analizada no sería apropiada.
Por supuesto, siempre es mejor usar las pruebas de hipótesis con la mayor potencia. Pero también se sabe que cierta proporción del tiempo, todas las pruebas de hipótesis fallan y no rechazan la hipótesis nula cuando es falsa o no la aceptan cuando es cierta (éste es el lenguaje estadístico para decir que cuando una prueba f alla, nos convencerá de que las cosas no han cambiado cuando de hecho SUGERENCIAS Y SUPOSICIONES
cambiaron, o nos convencerá de que cambiaron cuando en realidad no lo hicieron). Ése es el precio que se paga al usar muestreo en las pruebas de hipótesis. El fracaso de una prueba para obtener el resultado correcto se debe a errores de muestreo. La única manera de evitar tales errores es examinar toda la población y eso es físicamente imposible, o bien, demasiado costoso.
Ejercicios 9.5 Ejercicios de autoevaluación EA
9-7
Vea el ejercicio 9-32. Calcule la potencia de la prueba para 0.50, 0.45 y 0.40% por mes.
EA
9-8
En el ejercicio 9-32, ¿qué ocurre con la potencia de la prueba para 0.50, 0.45 y 0.40% por mes si se cambia el nivel de significancia a 0.04?
Aplicaciones ■ ■ ■
9-34 9-35 9-36
■
9-37
Vea el ejercicio 9-31. Calcule la potencia de la prueba para $28, $29 y $30 millones. Vea el ejercicio 9-30. Calcule la potencia de la prueba para $140, $160 y $175. En el ejercicio 9-31, ¿qué sucede con la potencia de la prueba para $28, $29 y $30 millones si el nivel de significancia se cambia a 0.02? En el ejercicio 9-30, ¿qué le ocurre a la potencia de la prueba para $140, $160 y $175 al mes si el nivel de significancia se cambia a 0.05?
9.6: Prueba de hipótesis para proporciones: muestras grandes
311
Soluciones a los ejercicios de autoevaluación EA
9-7
Del ejercicio 9-32, se tiene 0.10, n = 15, H0: 0.57, H1: 0.57. Para 0.01, el límite inferior de la región de aceptación es
H0 2.33/n 0.57 2.33(0.10)/15 0.510 a) Para 0.50, la potencia de la prueba es 0.510 0.50) P(x 0.510) P(z P(z 0.39) 0.5 0.1517 0.6517 0.10/15 b) Para 0.45, la potencia de la prueba es 0.510 0.45) P(x 0.510) P(z P(z 2.32) 0.5 0.4898 0.9898 0.10/15 c) Para 0.40, la potencia de la prueba es 0.510 0.40) P(x 0.510) P(z P(z 4.26) 1.0000 0.10/15 EA
9-8
Para 0.04, el límite inferior de la región de aceptación es
H0 1.75/ n 0.57 1.75(0.10)/15 0.525 a) Para 0.50, la potencia de la prueba es 0.525 0.50) P(x 0.525) P(z P(z 0.97) 0.5 0.3340 0.8340 0.10/15 b) Para 0.45, la potencia de la prueba es 0.525 0.45) P(x 0.525) P(z P(z 2.90) 0.5 0.4981 0.9981 0.10/15 c) Para 0.40, la potencia de la prueba es 0.525 0.40) P(x 0.525) P(z P(z 4.84) 1.0000 0.10/15
9.6 Prueba de hipótesis para proporciones: muestras grandes Pruebas de dos colas para proporciones Manejo de proporciones
En esta sección, lo aprendido respecto a las pruebas de medias, se aplicará a las pruebas para proporciones (esto es, la proporción de ocurrencias en una población). Pero antes re visaremos las importantes conclusiones a las que llegamos en el capítulo 8. Primero, recordemos que la binomial es la distribución teóricamente correcta para usarse al trabajar con proporciones, porque los datos son discretos, no continuos. Al aumentar el tamaño de la muestra, la distribución binomial se aproxima a la normal en sus características y podemos utilizar la distribución normal para aproximar la distribución de muestreo. Específicamente, np y nq cada una debe ser al menos 5 para poder utilizar la distribución normal como aproximación de la binomial. Imagine, por ejemplo, una compañía que está evaluando a cuáles de sus empleados ascender, determinando la proporción de aquellos cuya capacidad, capacitación y experiencia de supervisión los califican para pasar al siguiente nivel administrativo. El director de recursos humanos dice al presidente que aproximadamente el 80%, o 0.8, de los empleados de la compañía son “aptos para un as-
312
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
censo”. El presidente reúne un comité especial para evaluar la capacidad de ascenso de todos los empleados. Este comité hace entrevistas a fondo con 150 empleados y encuentra que, a su juicio, sólo el 70% de la muestra está calificada para el ascenso. pH0 0.8 ← Valor hipotético de la proporción de éxitos de la población (considerados aptos para el ascenso, en este caso) qH0 0.2 ← Valor hipotético de la proporción de fracasos de la población (considerados no aptos para el ascenso) n 150 ← Tamaño de muestra p 0.7 ← Proporción apta para el ascenso de la muestra q 0.3 ← Proporción no apta para el ascenso de la muestra Paso 1: Establezca sus hipótesis, tipo de prueba y nivel de significancia
Paso 2: Elija la distribución apropiada y encuentre el valor crítico
Paso 3: Calcule el error estándar y estandarice el estadístico de la muestra
El presidente desea probar al nivel de significancia de 0.05 la hipótesis de que 0.8 de los empleados son aptos para el ascenso: H0: p 0.8 ← Hipótesis nula: 80% de los empleados es apto H1: p 0.8 ← Hipótesis alternativa: la proporción de empleados aptos no es el 80%
0.05← Nivel de significancia En este caso, la compañía desea saber si la proporción v erdadera es mayor o menor que la proporción hipotética. Por consiguiente, resulta adecuado efectuar una prueba de dos colas para una proporción; la figura 9-14 muestra la gráfica. El nivel de significancia corresponde a las dos regiones sombreadas, cada una con 0.025 del área. La re gión de aceptación de 0.95 se ilustra como dos áreas de 0.475 cada una. Puesto que np y nq son cada una mayores que 5, podemos utilizar la aproximación normal de la distribución binomial. De la tabla 1 del apéndice,podemos determinar que el valor crítico de z para 0.475 del área bajo la curva es 1.96. Podemos calcular el error estándar de la proporción, utilizando los valores hipotéticos de pH0 y qH0 en la ecuación 8-4: pH qH 00 n (0.8)(0.2) 150
p
[8-4]
0.0 010666 0.0327 ← Error estándar de la proporción A continuación estandarizamos la proporción de la muestra dividiendo la diferencia entre la proporción de la muestra observ ada p y la proporción hipotética, pH0, entre el error estándar de la proporción.
Valor crítico z = – 1.96
Valor crítico z = + 1.96
FIGURA 9-14 Prueba de hipótesis de dos colas para una proporción al nivel de significancia de 0.05
0.025 del área
0.025 del área 0.475 del área
0.475 del área
z 0
9.6: Prueba de hipótesis para proporciones: muestras grandes
313
p pH z 0 p 0.7 0.8 0.0327 3.06 Paso 4: Bosqueje la distribución y señale el valor de la muestra y los valores críticos Paso 5: Interprete el resultado
Al señalar la proporción de la muestra estandarizada que se calculó,3.06, en un bosquejo de la distribución muestral, es claro que esta muestra cae fuera de la región de aceptación, como se ve en la figura 9-15. Entonces, en este caso, el presidente debe rechazar la hipótesis nula y concluir que existe una diferencia significativa entre la proporción hipotética de empleados aptos para ascenso (0.8) del director de recursos humanos y la proporción observada de empleados aptos en la muestra. De esto, debe inferir que la proporción real de empleados aptos en toda la compañía no es el 80%.
Pruebas de una cola para proporciones
Paso 1: Establezca sus hipótesis, tipo de prueba y nivel de significancia
Una prueba de una cola para una proporción es conceptualmente equi valente a una prueba de una cola para una media, como puede ilustrarse con este ejemplo. Un miembro de un grupo de interés público preocupado por la contaminación ambiental af irma, en una audiencia pública, que “menos del 60% de las plantas industriales de esta área cumple con los estándares de cuidado del ambiente”. A la reunión asistió una funcionaria de 1a Agencia de Protección Ambiental (APA) quien cree que el 60% de las plantas sí cumple con los estándares; decide probar esa hipótesis al ni vel de significancia de 0.02. H0: p 0.6 ← Hipótesis nula: la proporción de plantas que cumplen con los estándares de contaminación ambiental es 0.6 H1: p 0.6 ← Hipótesis alternativa: la proporción que cumple con los estándares de contaminación ambiental es menor que 0.6
0.02← Nivel de significancia para probar la hipótesis La funcionaria realiza una investigación completa de los registros de su oficina. Muestrea 60 plantas de una población de más de 10,000 y encuentra que 33 cumple con los estándares de cuidado del ambiente. ¿Es válida la afirmación del miembro del grupo de interés público? Comencemos por resumir el caso con símbolos: pH0 0.6 ← Valor hipotético de la proporción de población que cumple con los estándares de contaminación ambiental qH0 0.4 ← Valor hipotético de la proporción de población que no cumple y que, por tanto, está contaminando n 60 ← Tamaño de la muestra p 33/60 o 0.55 ← Proporción de muestra que no contamina q 27/60 o 0.45 ← Proporción de muestra que contamina Región de aceptación Acepte Ho si el valor de la muestra se encuentra en esta región
FIGURA 9-15 Prueba de hipótesis de dos colas para una proporción al nivel de significancia de 0.05; indica la región de aceptación y la proporción estandarizada de la muestra
Proporción estandarizada de la muestra
z –3.06
–1.96
0
+1.96
314
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Valor crítico z = – 2.05
FIGURA 9-16 Prueba de hipótesis de una cola para una proporción al nivel de significancia de 0.02
Paso 2: Elija la distribución apropiada y encuentre el valor crítico Paso 3: Calcule el error estándar y estandarice el estadístico de la muestra
0.02 del área 0.50 del área
0.48 del área
z 0
Ésta es una prueba de una cola: la funcionaria de APA se pregunta sólo si la proporción real es menor que 0.6. Específicamente, ésta es una prueba de cola izquierda. Para rechazar la hipótesis nula que establece que la proporción verdadera de plantas que cumplen es el 60%, la representante de APA debe aceptar la hipótesis alternativa que dice que menos de 0.6 cumplen. La figura 9-16 ilustra esta prueba de hipótesis. Como np y nq son cada uno mayores que 5, podemos usar la aproximación normal de la distribución binomial. El valor crítico de z de la tabla 1 del apéndice para 0.48 del área bajo la curva es 2.05. A continuación, podemos calcular el error estándar de la proporción usando la proporción hipotética de la población de la siguiente manera:
p
pH0qH0
n
[8-4]
(0.6)(0.4)
6 0
0.0 04 0.0632 ← Error estándar de la proporción Y estandarizamos la proporción de la muestra dividiendo la diferencia entre la población de la muestra observada, p, y la proporción hipotética, pH0, entre el error estándar de la proporción. p pH0 z p 0.55 0.6 0.0632 10.79 Paso 4: Bosqueje la distribución y señale el valor de la muestra y los valores críticos Paso 5: Interprete el resultado
La figura 9-17 ilustra dónde se encuentra la proporción de la muestra en relación con el valor crítico, 2.05. Al observar esta figura, podemos ver que la proporción de la muestra cae dentro de la región de aceptación. Entonces, la funcionaria de APA debe aceptar la hipótesis nula de que la proporción real de plantas que cumplen es 0.6. Aunque la proporción observada de la muestra es menor que 0.6, no es significativamente menor que 0.6, es decir, no está tan abajo de 0.6 para aceptar la afirmación del miembro del grupo de interés público.
9.6: Prueba de hipótesis para proporciones: muestras grandes
315
Región de aceptación Acepte H0 si el valor de la muestra está en esta región
FIGURA 9-17 Prueba de hipótesis de una cola (cola izquierda) al nivel de significancia de 0.02; indica la región de aceptación y la proporción estandarizada de la muestra
Proporción estandarizada de la muestra
z –2.05
–0.79
0
Advertencia: cuando se realizan pruebas de hipótesis que in volucran proporciones, se usa la distribución binomial como la distribución muestral, a menos que np y nq sean ambos al menos 5. En ese caso se puede usar la distribución normal como una aproximación de la binomial SUGERENCIAS Y SUPOSICIONES
sin problemas. Por fortuna,en la práctica, las pruebas de hipótesis para proporciones casi siempre usan muestras suficientemente grandes, de manera que esta condición se cumple. Aun cuando no sea así, no es tan difícil la aritmética de la distribución binomial o el uso de la tabla binomial.
Ejercicios 9.6 Ejercicios de autoevaluación EA
9-9
EA
9-10
Un fabricante de salsa de tomate está en proceso de decidir si produce o no una versión picante. El departamento de investigación de mercados de la compañía usó un sondeo telefónico nacional de 6,000 casas y encontró que 335 de ellos comprarían la salsa con picante. Un estudio más extenso hecho dos años antes mostró que el 5% de las casas compraría la marca. Con un ni vel de significancia del 2%, ¿debe la compañía concluir que hay un incremento en el interés por el sabor con picante? Steve Cutter desea comparar la confiabilidad de las podadoras Big Blade que v ende en su ferretería con la de las vendidas por la marca en todo el país. Steve sabe que sólo el 15% de todas las podadoras Big Blade necesitan reparaciones durante el primer año. Una muestra de 120 de los clientes de Ste ve reveló que exactamente 22 de ellos requirieron reparaciones en el primer año. Con un nivel de significancia de 0.02, ¿existe evidencia de que la confiabilidad de las podadoras Big Blade que v ende Steve difiera de las que se venden en el todo el país?
Aplicaciones ■
9-38
■
9-39
Grant, Inc., un fabricante de blusas de vestir para mujer, sabe que su marca se vende en 19% de las tiendas de ropa para mujer ubicadas al este del río Mississippi. Grant muestreó recientemente 85 tiendas de ropa para mujer en la ribera oeste del río y encontró que 14.12% de las tiendas vendía la marca. A un nivel de significancia del 0.04, ¿existe evidencia de que Grant tenga peor distribución en la ribera oeste que en la este del Mississippi? De un total de 10,200 préstamos otorgados por una unión de crédito de empleados del Estado en el último periodo de cinco años, se muestrearon 350 para determinar qué proporción de los préstamos se otorgaron a mujeres. Esta muestra indicó que el 39% de los créditos fue dado a empleadas. Un censo completo de préstamos de hace cinco años mostraba que el 41% de los prestatarios eran mujeres. A un nivel de significancia del 0.02, ¿puede concluir que la proporción de préstamos otor gados a mujeres ha cambiado significativamente en los últimos cinco años?
316
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
■
9-40
■
9-41
■
9-42
■
9-43
Los laboratorios Feronetics se especializan en el uso de técnicas de reproducción de genes para lograr nuevos compuestos farmacéuticos. Recientemente desarrolló un atomizador nasal que contiene interferón, con el que se cree habrá de limitarse la transmisión del catarro común en las f amilias. En la población general, a 15.1% de todos los indi viduos les dará catarro ocasionado por un rino virus una vez que otro miembro de la familia lo haya contraído. El atomizador de interferón fue probado en 180 personas, en cuyas familias uno de los miembros contrajo posteriormente un catarro ocasionado por un rino virus. Sólo 17 de los sujetos de la prueba desarrollaron catarros similares. a) A un nivel de significancia de 0.05, ¿debería concluir Feronetics que el nue vo atomizador efectivamente reduce la transmisión de catarros? b) ¿Qué debería concluir en el nivel 0.02? c) Con base en estos resultados, ¿cree que se le debería permitir a Feronetics comercializar el nuevo atomizador? Explique su respuesta. Algunos teóricos financieros creen que los precios diarios del mercado de valores constituyen una “caminata aleatoria con tendencia positiva”. Si esto es correcto, entonces el promedio industrial Dow Jones debería mostrar una ganancia en más del 50% de todos los días de acti vidad financiera. Si el promedio se incrementó en 101 de 175 días escogidos aleatoriamente, ¿qué piensa de la teoría sugerida? Use un nivel de significancia de 0.01. MacroSwift estimó el año pasado que el 35% de los compradores potenciales de software planeaba esperar hasta que se liberara una actualización de Window Panes para comprar el nue vo sistema operativo. Después de una campaña publicitaria para dar confianza al público, MacroSwift encuestó a 3,000 personas y encontró que 950 toda vía se mostraban renuentes. Con el 5% de ni vel de significancia, ¿puede la compañía concluir que la proporción de personas renuentes ha disminuido? Rick Douglas, el nuevo gerente de Food Barn, está interesado en el porcentaje de clientes totalmente satisfechos con la tienda. El gerente anterior tenía el 86% de clientes totalmente satisfechos y Rick asegura que lo mismo se cumple hoy. Rick obtuvo una muestra de 187 clientes y encontró que 157 estaban satisfechos por completo. Con un nivel de significancia del 1%, ¿existe evidencia de que la afirmación de Rick es válida?
Soluciones a los ejercicios de autoevaluación EA
9-9
n 6,000 H0: p 0.05
p 335/6,000 0.05583 H1: p 0.05
0.02
El límite superior de la región de aceptación es z 2.05, o pH0qH0 0.05(0.95) p pH0 z 0.05 2.05 0.05577 n 6,000
0.05583 0.05 p pH0 Debido a que el v alor z observado 2.07 2.05 (o p
0 .0 5(0 .9 5)/ 6,0 00 pH qn / 0 H0
EA
9-10
0.05577), debe rechazarse H0 (pero por poco). El interés actual es significativamente mayor que el interés hace 2 años. n 120 p 22/120 0.1833 H0: p 0.15
H1: p 0.15
0.02
Los límites de la región de aceptación son z 2.33, o pH0qH0 0.15(0.85) p pH0 z 0.15 2.33 (0.0741, 0.2259) n 120
0.1833 0.15 p pH0 Debido a que el valor z observado 1.02 2.33 (o p 0.1833, 0.1 5(0 .8 5)/ 120 pH qn / 0 H0 que está entre 0.0741 y 0.2259), no se rechaza H0. Las podadoras de Steve no son significativamente diferentes en confiabilidad de las vendidas en todo el país.
9.7: Pruebas de hipótesis de medias cuando no se conoce la desviación estándar de la población
317
9.7 Pruebas de hipótesis de medias cuando no se conoce la desviación estándar de la población Cuándo usar la distribución t
Cuando estimamos los interv alos de confianza en el capítulo 8, aprendimos que la diferencia de tamaño entre muestras grandes y pequeñas es importante cuando no se conoce la desviación estándar de la población y es necesario estimarla a partir de la desviación estándar de la muestra. Si el tamaño de la muestra n es 30 o menos y se desconoce, debemos utilizar la distribución t. La distribución t apropiada tiene n 1 grados de libertad. Estas reglas también se aplican a la prueba de hipótesis.
Prueba de dos colas para medias usando la distribución t La especialista en recursos humanos de una importante corporación está reclutando un gran número de empleados para un proyecto en el extranjero. Durante el proceso de selección, la administración le pregunta cómo van las cosas, y ella responde: “Bien. Creo que la puntuación promedio en la prueba de aptitudes será aproximadamente 90.” Cuando la administración revisa 20 de los resultados de la prueba, encuentra que la puntuación media es 84, y la desviación estándar de esta puntuación es 11.
H0 90 ← Valores hipotéticos de la media de población n 20 ← Tamaño de la muestra x 84 ← Media de la muestra s 11 ← Desviación estándar de la muestra Si la administración desea probar su hipótesis al nivel de significancia de 0.10, ¿cuál es el procedimiento a seguir? H0: 90 ← Hipótesis nula: la puntuación media real de población es 90 H1: 90 ← Hipótesis alternativa: la puntuación media no es 90
0.10 ← Nivel de significancia para probar esta hipótesis
Paso 1: Establezca sus hipótesis, tipo de prueba y nivel de significancia
Paso 2: Elija la distribución apropiada y encuentre el valor crítico
La figura 9-18 ilustra la gráfica de este problema. Puesto que la administración está interesada en saber si la puntuación media verdadera es mayor o menor que la puntuación hipotética, es apropiado usar una prueba de dos colas. El nivel de significancia de 0.10 se indica en la figura 9-18 como las dos áreas sombreadas; cada una contiene 0.05 del área bajo la distribución t. Como el tamaño de muestra es 20, el número apropiado de grados de libertad es 19, es decir, 20 1. Entonces, buscamos en la tabla de la distribución t del apéndice, en la columna de 0.10 y el renglón correspondiente a 19 grados de libertad. Encontramos que el valor crítico de t es 1.729. Valor crítico t = –1.729
Valor crítico t = +1.729
FIGURA 9-18 Prueba de hipótesis de dos colas al nivel de significancia de 0.10 usando la distribución t
0.05 del área
0.05 del área
t 0
318
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
Como no se conoce la desviación estándar de la población, debemos estimarla usando la desviación estándar de la muestra y la ecuación 8-1:
ˆ s 11 Paso 3: Calcule el error estándar y estandarice el estadístico de la muestra
[8-1]
Ahora podemos calcular el error estándar de la media. Como estamos usando ˆ, una estimación de la desviación estándar de la población, el error estándar de la media también será una estimación. Podemos utilizar la ecuación 8-6, como sigue:
ˆ ˆ x n
[8-6]
11 20 11 4.47 2.46 ← Error estándar estimado de la media A continuación estandarizamos la media de la muestra, x, restando µH0, la media hipotética, y dividiendo entre ˆ x , el error estándar estimado de la media. Como nuestra prueba de hipótesis se basa en la distribución t, usamos t para denotar el estadístico estandarizado. x H0 t ˆ x 84 90 2.46 2.44 Paso 4: Bosqueje la distribución y señale el valor de la muestra y los valores críticos Paso 5: Interprete el resultado
Una diferencia respecto a las tablas z
Al señalar este resultado en una gráfica de la distribución muestral, nos damos cuenta de que la media de la muestra cae fuera de la región de aceptación, como se ve la figura 9-19. Por tanto, la administración debe rechazar la hipótesis nula (la aseveración de la directora del departamento de personal acerca de que la puntuación media real de los empleados xeaminados es 90).
Pruebas de una cola para medias usando la distribución t El procedimiento para una prueba de hipótesis de una cola utilizando la distrib ución t es el mismo, conceptualmente, que para una prueba de una cola usando la distribución normal y la tabla z. Sin embargo, realizar esas pruebas de una cola puede conllevar algunas dificultades. Observe que los encaRegión de aceptación Acepte Ho si el valor de la muestra está en esta región
FIGURA 9-19 Prueba de hipótesis de dos colas al nivel de significancia de 0.10; se observa la región de aceptación y la media estandarizada de la muestra
Media estandarizada de la muestra
t –2.44
–1.729
0
+1.729
9.7: Pruebas de hipótesis de medias cuando no se conoce la desviación estándar de la población
Uso de la tabla t para pruebas de una cola
Lo que viene
319
bezados de las columnas de la tabla 2 del apéndice representan el área en ambas colas combinada. Por tanto, es apropiado usarlos en una prueba de dos colas con dos regiones de rechazo. Si utilizamos la distribución t para una prueba de una cola,necesitamos determinar el área localizada sólo en una de ellas. Así, para encontrar el valor t apropiado para una prueba de una cola a un nivel de significancia de 0.05, con 12 grados de libertad, buscaríamos en la tabla 2 del apéndice en la columna con 0.10 el renglón de 12 grados de libertad. La respuesta en este caso es 1.782. Esto es cierto porque la columna 0.10 representa 0.10 del área bajo la curva contenida en ambas colas combinadas, y por ende, también representa 0.05 del área bajo la curva contenida en cada cola por separado. En el siguiente capítulo continuaremos nuestro trabajo sobre pruebas de hipótesis,con el estudio de situaciones en las que deben tomarse decisiones con base en dos muestras que pueden provenir o no de la misma población.
Realizar pruebas de hipótesis con la distribución t no es diferente a hacerlo con la distribución normal, excepto porque se usa una tabla distinta y debe darse el número de grados de libertad. Sugerencia: el número de grados de libertad en una prueba de una sola muestra es SUGERENCIAS Y SUPOSICIONES
siempre una unidad menos que el tamaño de la muestra. Advertencia: use la distribución t siempre que el tamaño de la muestra sea menor que 30, la desviación estándar de la población no se conozca y la población sea normal o aproximadamente normal.
Ejercicios 9.7 Ejercicios de autoevaluación EA
9-11
EA
9-12
Dado que la media de la muestra es 83, la desviación estándar de la muestra es 12.5 y el tamaño de la muestra es 22, pruebe la hipótesis de que el valor de la media de la población es 70 contra la hipótesis alternativa de que es mayor que 70. Use un nivel de significancia de 0.025. Picosoft, Ltd., un proveedor de sistemas operativos para computadoras personales, planea la oferta pública inicial de sus acciones a fin de reunir suficiente capital de trabajo para financiar el desarrollo de un sistema integrado de la séptima generación radicalmente nue vo. Con los ingresos actuales de $1.61 por acción, Picosoft y sus aseguradores contemplan un precio de oferta de $21, o cerca de 13 veces los ingresos. Para verificar si este precio es apropiado eligieron al azar siete empresas de softw are en el mercado de valores y encontraron que su cociente promedio precio/utilidades era 11.6 y la desviación estándar de la muestra era 1.3. Para 0.02, ¿puede Picosoft concluir que las acciones de las empresas de software en el mercado de valores tiene una razón promedio P/U que es significativamente diferente de 13?
Conceptos básicos ■
9-44
■
9-45
Dada una media de la muestra de 94.3,una desviación estándar de la muestra de 8.4 y un tamaño de muestra de 6, pruebe la hipótesis de que el valor de la media de la población es 100, contra la hipótesis alternativa de que es menor que 100. Use un nivel de significancia de 0.05. Si una muestra de 25 observaciones revela una media muestral de 52 y una varianza muestral de 4.2, pruebe la hipótesis de que la media de la población es 65, contra la hipótesis alternativa de que es algún otro valor. Use el nivel de significancia de 0.01.
Aplicaciones ■
9-46
La corredora de bienes raíces Elaine Snyderman tomó una muestra aleatoria de 12 hogares de un prestigiado suburbio de Chicago y encontró que el valor de mercado promedio estimado era $780,000,con una desviación estándar de $49,000. Pruebe la hipótesis de que para todas las casas del área, el valor estimado medio es $825,000, hipótesis alternativa de que es menor que $825,000. Utilice el nivel de significancia de 0.05.
320
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
■
9-47
■
9-48
■
9-49
■
9-50
■
9-51
Para una muestra de 60 mujeres, tomadas de un población de más de 5,000 inscritas en un programa de reducción de peso de una cadena nacional de balnearios de aguas termales, la presión sanguínea diastólica media de la muestra es 101 y la desviación estándar de la muestra es 42. Para un nivel de significancia de 0.02, ¿puede concluir que, en promedio, las mujeres inscritas en el programa tienen una presión sanguínea diastólica que excede el valor de 75 recomendado por diversas sociedades médicas? El departamento de procesamiento de datos de una compañía de se guros grande instaló nuevas terminales de video de color para reemplazar las unidades monocromáticas que tenían. Los 95 operadores capacitados para usar las nuevas máquinas promediaron 7.2 horas antes de lograr un desempeño satisfactorio. Su varianza muestral fue 16.2 horas al cuadrado. La larga experiencia de los operadores con las viejas terminales monocromáticas indicaba un promedio de 8.1 horas en las máquinas antes de que su desempeño fuera satisfactorio. Al nivel de significancia de 0.01, ¿debería el supervisor del departamento concluir que es más fácil aprender a operar las nuevas terminales? Con la caída del mercado petrolero de principios de 1986, los educadores de Texas se preocuparon por la forma en que las pérdidas resultantes en los ingresos del Estado (estimadas en cerca de $100 millones por cada disminución de un dólar en el precio del barril de petróleo) afectarían sus presupuestos. La directiva estatal de educación pensaba que la situación no sería crítica en tanto pudieran estar razonablemente seguros de que el precio permanecería arriba de $18 por barril. Encuestaron a 13 economistas especializados en el mercado del petróleo, elegidos al azar, y les pidieron que predijeran qué tanto bajarían los precios antes de repuntar. Las 13 predicciones promediaron $21.60, con una desviación estándar de $4.65. Para un ni vel 0.01, ¿es la predicción promedio signif icativamente mayor que $18.00? ¿Debe la directiva de educación concluir que es improbable una crisis presupuestaria? Explique su respuesta. Un documental televisivo acerca de comer en exceso afirmaba que los estadounidenses tienen un sobrepeso aproximado de 10 libras en promedio. Para probar esta afirmación, examinaron a 18 individuos elegidos aleatoriamente, y encontraron que su sobrepeso promedio era 12.4 libras, con una desviación estándar de la muestra de 2.7 libras. A un nivel de significancia de 0.01, ¿hay alguna razón para dudar de la validez del valor afirmado de 10 libras? XCO, un fabricante multinacional, usa un proceso por lotes para producir objetos. La producción de cada lote toma 8 horas y tiene costos de material y mano de obra de $8,476. Debido a la ariación v en la eficiencia de la máquina y la pureza del material,el número de objetos por lote es aleatorio. Todos los objetos se pueden vender en $2.50 cada uno y la producción es rentable siempre que los lotes se v endan en más de $12,500 en promedio. XCO hizo un muestreo de 16 lotes y encontró 5,040 objetos por lote en promedio, con una desviación estándar de 41.3 objetos. Para 0.025, ¿puede XCO concluir que su operación de objetos es rentable?
Soluciones a los ejercicios de autoevaluación EA
9-11
s 12.5
n 22
x 83 H1: 70
= 0.025
H0: = 70
El límite superior de la región de aceptación es t 2.080, o x H0 t s/n 70 2.080(12.5)/22 75.54 83 70 x H Debido a que el valor t observado 0 4.878 2.080 (o x 75.54), se rechaza 12.5/22 H . s/n 0
EA
9-12
s 1.3
n7
H0: 13
x 11.6 H1: 13
0.02
El límite superior de la región de aceptación es t 3.143, o x H0 t s/n 13 3.143(1.3)/7 (11.46, 14.54) 11.6 13 x H Debido a que el valor t observado 0 = 2.849 3.143 (o x 11.6, que es1.3/7 s/n ta entre 11.46 y 14.54), no se rechaza H 0. El cociente promedio P/U de las empresas de softw are en el mercado de valores no es significativamente diferente a 13.
Ejercicio de base de datos computacional
Estadística en el trabajo Loveland Computers Caso: Pruebas de hipótesis de una muestra “Ésta es la otra cosa que me ha puesto a pensar más sobre la posibilidad de abrir un departamento de software”, dijo Margot Derby, la jefa de comercialización de Lo veland Computers, mientras sacaba una columna de The Wall Street Journal del cajón de su escritorio. “Como sabes, los precios de las PC han estado bajando. Pero, para sorpresa de todos, los compradores parecen estar gastando lo mismo en total; están compensando el precio de descuento con la compra de más monerías y más software. “El artículo cita una cifra de la cantidad promedio gastada en software durante el primer año después de la adquisición de una máquina. Ésa es la misma cifra que buscábamos cuando hicimos nuestra encuesta telefónica, pero nuestro número salió mucho menor que la cantidad en el artículo. El problema es que no esto y segura de cuál cifra usar para hacer el plan comercial para un nuevo departamento de software.”
Ejercicio de base de datos computacional HH Industries Hal pasó a ver a Laurel al día siguiente de la reunión del personal. “Tengo una pregunta”, empezó diciendo, “es sobre el estudio que hicieron tú y Bob respecto a la licitación competitiva de las órdenes de compra. Sé que soy un novato en estadística y estoy esforzándome por entender los intervalos de confianza y esas cosas, pero, ¿no hay alguna manera de obtener un sí o un no a la pregunta que hicimos?”, hizo una pausa y prosiguió: “no quise hacer preguntas tontas en la reunión de ayer, porque realmente siento como si mi f alta de conocimientos fuera lo que me hace cuestionar los resultados. Trata de verlo desde mi punto de vista: la cifra que quiero, 60%, está en el intervalo de confianza, pero enfrentémoslo, la mayor parte del intervalo es menor que 0.6. ¿Ves a lo que me refiero?” Laurel asintió y sonrió. “Entiendo e xactamente lo que quieres decir”, dijo. “No eres tan novato como piensas y no es una pregunta tonta. Los intervalos de confianza son, por naturaleza, algo confusos. Tengo un libro de te xto que me gustaría prestarte para que tengas un poco más de información. Y en cuanto a la respuesta de sí o no, déjame que te presente a las pruebas de hipótesis.” Laurel prosiguió explicándole las pruebas de hipótesis de una y dos colas,ilustrándolas con la situación que tenían a la mano.
321
“Bueno, ¿por qué saldría tu número diferente?”, preguntó Lee Azko. “No pretendemos atraer a todo el mundo”, respondió Margot. “Tal vez tenemos una imagen más ‘técnica’, y por consiguiente, nuestros clientes pueden ser diferentes al cliente ‘promedio’ del que hablan en ese artículo. Tal vez utilizan programas hechos por ellos mismos.” “O tal vez la diferencia no significa nada y es sólo el resultado de un error de muestreo”, sugirió Lee. “Pero no sé cómo decidir con seguridad. Hemos calculado la media y la desviación estándar de nuestra muestra telefónica, pero el artículo del Journal sólo nos da la media. Y recuerdo lo suficiente de mi curso de estadística de la universidad para saber que no podemos hacer una prueba si no conocemos la desviación estándar de la población. Preguntas de estudio: Suponga que la cifra media de gastos de software citada en el periódico es una media de población confiable. ¿Tiene razón Mar got en que Lee también debe conocer la desviación estándar de la población para realizar una prueba? ¿Qué idea es la que Margot está explorando aquí? ¿Cómo se establecería esta idea en términos de pruebas de hipótesis?
1. Efectúe una prueba de hipótesis de una cola para determinar si la proporción de órdenes de compra licitadas en forma competitiva es realmente menor que 0.6, usando los valores p 0.58 y n 1,052. Pruebe al nivel de significancia de 0.01. Gary le abrió la puerta a Laurel una mañana. “No te he visto en un buen tiempo, exceptuando nuestras reuniones semanales de personal”, dijo sonriendo. “De hecho, creo que fue desde que me ayudaste con el estudio de códigos postales, poco después de que llegaste aquí. ¡He oído que te tienen ocupada!” “Ha estado bastante agitado”, convino Laurel. “Pero la estoy pasando bien. ¡Estar ocupada es mejor que estar ab urrida! Aunque hace poco, el ritmo bajó un poco, lo cual está bien, y ya pronto serán mis vacaciones. Voy a esquiar en las Montañas Rocallosas, lo que constituirá un buen descanso.” “¡Suena divertido! ¿Crees tener tiempo antes de irte para ayudarme con un pequeño problema?”, Laurel asintió. Gary continuó, “hemos estado observando algunos indicadores de un mal control de calidad de uno de nuestros pro veedores de sellos O-Ring. El ajuste de este tipo particular de sello es crucial, como tal vez sepas. En consecuencia, cuando Stan me dice que uno o dos de nuestros clientes se han quejado, necesitamos hacer una verificación cuidadosa”. “¿Tienen procedimientos de inspección al recibir?”, preguntó Laurel, al tiempo que entraba a su oficina. “Buena pregunta”, Gary hizo una mueca. “Hacemos lo que podemos, e inspeccionamos cada una de las refacciones grandes en pequeñas cantidades. Pero cosas como los sellos,
322
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
nos llegan miles al mismo tiempo y a menudo todo lo que podemos hacer es inspeccionar un puñado. Realmente me gustaría establecer procedimientos más rigurosos como un objetivo a largo plazo.” “Parece que el problema de los sellos O-Ring es un buen lugar para empezar. Te informaré de los datos que v amos a necesitar y los pasos del análisis, y tal vez puedas partir de allí para evaluar otros productos.” Laurel, sabía que poco a poco se ganaba la confianza del personal, no sólo en cuanto a su capacidad, sino en especial con respecto a la validez y a la utilidad del análisis estadístico. “Me voy a dar una vuelta por tu oficina al rato para obtener más detalles.” Más tarde, Laurel encontró a Gary en el taller . “Eres muy oportuna”, dijo Gary. “Éste es el último lote, está llegando en este momento. ¿Ves el tamaño?”, sacó uno de los sellos de la
Del libro de texto al mundo real Prueba de hipótesis: impacto de la relajación del reglamento en la administración de ferrocarriles
caja y señaló la abertura interna. “El promedio requerido es 0.140 pulg. Históricamente hemos tenido una desviación estándar de 0.003 pulg. Tenemos un instrumento de calibración para medirlos. ¿Y si les pido a mis muchachos que re gistren los datos de este lote y que te los entreguen en tu oficina mañana?” “Eso estaría bien”, respondió Laurel. “Sólo para mi propia información, ¿es igual de malo que queden demasiado justos o demasiado sueltos?” “Sip. De cualquier forma puede resultar desastroso para el usuario”, le explicó Gary. 2. A un ni vel de signif icancia de 0.05, ¿debería concluir Laurel que los sellos O-Ring están fuera de tolerancia? Use los datos proporcionados en los archi vos CH08.xxx que se encuentran en el sitio www .pearsoneducacion. net/levin.
Prueba de hipótesis Curtis Grimm, James Kling y K en Smith de la Universidad de Maryland probaron la hipótesis de que la desre gulación forzaría una modernización de las actitudes administrativas. Se probaron varias hipótesis específicas para determinar la validez de las aseveraciones gubernamentales de que la desregulación mejoraba la competitividad. Algunas de las hipótesis probadas son:
Los momentos de cambio a menudo estimulan los estudios estadísticos. Éste fue el caso de la industria ferrocarrilera durante la década de los años 80 en Estados Unidos, cuando el Decreto de Eficiencia y la desregulación que le siguió incrementaron la competencia en una industria antes prote gida y estancada. En 1987, los analistas probaron la hipótesis general de que las características observables y la estructura de la administración de ferrocarriles habían comenzado a cambiar junto con la reciente reforma al reglamento. Se analizaron las características de administración para 1977 y 1983. El estudio indicó que los administradores eran signif icativamente más jóvenes y mejor preparados, con menos años de servicio en compañías e industrias. Estos resultados mostraron que la desregulación tuvo éxito en rejuvenecer una industria decadente, enfrentándola al reto de atraer administradores que pudieran adaptarse a un entorno cambiante.
l. Se supuso que la edad promedio de los administradores en 1983 era signif icativamente menor que en 1977. Un entorno competitivo requiere que los ferrocarriles recluten administradores más jóvenes con mayor probabilidad de ser más innovadores y agresivos. Se dijo que la edad era un indicador de la flexibilidad propia y de la propensión a aceptar riesgos. 2. La segunda hipótesis referente a los administradores era que el número promedio de años de empleo con su actual empleador ferrocarrilero debería ser signif icativamente menor en 1983 que en 1977. Los años de e xperiencia pueden actuar como un obstáculo para el cambio organizacional en una industria con nueva reglamentación. 3. También se supuso que el administrador promedio tendría menos años de empleo en la industria ferrocarrilera en 1983 que en 1977. La desregulación requeriría que los ferrocarriles buscaran administradores con e xperiencia en entornos competitivos.
Antecedentes Desde principios del siglo XX, los niveles de empleo y el porcentaje de tráf ico de carga dentro de Estados Unidos han caído drásticamente. Debido a que la reglamentación federal altamente restricti va permitía que la estructura de administración de los ferrocarriles estadounidenses fuera estática y b urocrática, la industria tuv o bajos niveles de rentabilidad y competiti vidad. Históricamente, pocos administradores de ferrocarriles provenían de fuera de la industria. Para mejorar los prospectos financieros se relajó el reglamento de la industria durante los ochenta.
Resultados Los resultados del estudio de Maryland demostraron que la administración de ferrocarriles había cambiado como respuesta a la reforma al reglamento. La edad promedio de los administradores de ferrocarriles declinó en más de 1 año completo, de 51.68 años en 1977 a 50.66 años en 1983. Esta tendencia hacia una administración más joven respaldó la primera hipótesis. Se encontró que el ejercicio promedio de los administradores de ferrocarriles era 25 años en 1977 y 21.33 años en 1983. Esta caída de 3.77 años era significativa aun con tan pequeña como 0.001 y respaldó la segunda hi-
Repaso del capítulo
pótesis. La caída comparati vamente mayor en el tiempo de servicio contra la edad indicó que sólo la llegada de administradores más jóvenes no era responsable de la disminución de los años de servicio. Los ferrocarriles evidentemente ahora incluían gerentes de fuera de la compañía con más frecuencia que en el pasado. También se reveló un fuerte respaldo para la tercera hipótesis. El número promedio de años en la industria declinó de 27.23 años en 1977 a 24.88 años en 1983, estadísticamente significativo al nivel de 0.001. Es claro que, los resultados respaldaron la hipótesis de que la administración de ferrocarriles sería más jo ven y cambiante después de la desregulación. Conclusiones Los ferrocarriles, las aerolíneas y las compañías de transportes motorizados han experimentado desregu-
323
laciones sustanciales durante la última década, mismas que crearon un ímpetu por el cambio administrativo dentro de estas industrias. La prueba de hipótesis y otros métodos estadísticos proporcionan un medio para determinar los efectos de la reforma regulatoria en las industrias. Esta investigación puede ser benéfica para el desarrollo de estructuras administrativas exitosas en las compañías de todas las industrias, en la búsqueda de prosperidad en entornos altamente competitivos. Fuente: Curtis M. Grimm, James A. Kling y Ken G. Smith, “The Impact of U.S. Rail Regulatory Reform on Railroad Management and Or ganizational Structure”, en Transportation Research-A 21A(2), (1987): 8794.
Repaso del capítulo ● Términos introducidos en el capítulo 9 Alfa ( ) Probabilidad de cometer un error tipo I. Beta () Probabilidad de cometer un error tipo II.
niendo que la hipótesis nula es correcta; es decir, la probabilidad de rechazar la hipótesis nula cuando es cierta.
Curva de potencia Gráfica de los valores de la potencia de una prueba para cada valor de , u otro parámetro de población para el que la hipótesis alternativa es cierta.
Potencia de la prueba de hipótesis Probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, una medida de qué tan bien funciona la prueba de hipótesis.
Error tipo I Rechazo de una hipótesis nula cuando es v erdadera.
Prueba de dos colas Prueba de hipótesis en la que la hipótesis nula se rechaza si el valor de la muestra es significativamente mayor o menor que el v alor hipotético del parámetro de población; prueba que involucra dos regiones de rechazo.
Error tipo II Aceptación de una hipótesis nula cuando es falsa. Escala estandarizada Medición expresada en desviaciones estándar a partir de la media de la variable. Escala sin procesar Medición en las unidades originales de la variable. Hipótesis Suposición o especulación que hacemos respecto a un parámetro de población. Hipótesis alternativa Conclusión que aceptamos cuando los datos no respaldan la hipótesis nula. Hipótesis nula Hipótesis o suposición respecto a un parámetro de población que deseamos probar, generalmente una suposición sobre el status quo. Nivel de significancia Valor que indica el porcentaje de valores de la muestra que están fuera de ciertos límites, supo-
Prueba de cola derecha (o prueba de cola superior) Prueba de hipótesis de una cola en la que un v alor de la muestra significativamente mayor que el valor hipotético de la población nos llevará a rechazar la hipótesis nula. Prueba de cola izquierda (o prueba de cola inferior)Prueba de hipótesis de una cola en la que un v alor de la muestra que es significativamente menor que el valor hipotético de la población nos llevará a rechazar la hipótesis nula. Prueba de una cola Prueba de hipótesis en la que sólo hay una región de rechazo, es decir, sólo nos interesa si el valor observado se desvía del valor hipotético en una dirección. Valor crítico Valor del estadístico estándar ( z o t) más allá del cual rechazamos la hipótesis nula; el límite entre las regiones de aceptación y de rechazo.
● Ejercicios de repaso ■
9-52
Para las situaciones siguientes establezca las hipótesis nula y alternativa apropiadas. a) La Oficina del Censo de Estados Unidos desea determinar si el porcentaje de personas que carecen de hogar en la ciudad de Nueva York es el mismo que el promedio nacional. b) El dueño de una ferretería local desea determinar si las ventas de herramientas para jardín resultaron mejores de lo normal después de una promoción de primavera.
324
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
■
9-53
■
9-54
■
9-55
■
9-56
■
9-57
■
9-58
■
9-59
■
9-60
c) El canal del clima desea saber si el promedio de ne vadas en los años 80 fue significativamente diferente del promedio de 8 pulg registrado en los últimos 100 años. d) Una revista para el consumidor se cuestiona acerca de si el rendimiento de combustible de un nuevo automóvil subcompacto es significativamente menor que las 34 millas por galón que anuncia la etiqueta que lleva pegada a la ventanilla. La compañía Health Electronics, Inc., fabricante de baterías para marcapasos, especifica que la vida de cada batería es mayor o igual que 28 meses. Si el calendario de cirugía para remplazar las baterías se ha de basar en esta afirmación, explique a la administración de esta empresa las consecuencias que se tendrían al cometer errores tipo I y tipo II. Un fabricante de ropa deportiva para mujeres pequeñas ha supuesto que el peso promedio de las mujeres que compran su ropa es 110 libras. La compañía tomó dos muestras de sus clientas y encontró que una estimación muestral de la media de la población es 98 libras, y que la otra muestra produce un peso medio de 122 libras. En la prueba de hipótesis de la compañía de que la media de la población es 110 libras contra la hipótesis de que la media no es igual a 110 libras, ¿es más probable que alguno de estos valores de la muestra nos lleve a aceptar la hipótesis nula? ¿Por qué sí o por qué no? Muchas ciudades estadounidenses han establecido carriles para Vehículos de Alta Ocupación (VAO) para acelerar el transporte hacia los distritos de negocios del centro. Para la autoridad de tráfico, la planeación de tránsito ha dependido de un bien establecido promedio de 3.4 ocupantes porVAO. Sin embargo, un becario de la institución observa que dado que muchas empresas están patrocinando transporte corporativo en camionetas, el número promedio de pasajeros por v ehículo puede ser mayor . El becario tomó una muestra de 23 vehículos que pasan por el carril VAO en una caseta de pago y reporta una media muestral de 4.3 pasajeros con una desviación estándar de 1.5 pasajeros. Al nivel 0.01 de significancia, ¿sugiere la muestra que la media del número de pasajeros se ha incrementado? En el ejercicio EV 9-5, ¿cuál sería la potencia de la prueba para 14,000, 13,500 y 13,000 si el nivel de significancia se cambia a 0.10? En un día promedio, alrededor del 5% de las acciones de la Bolsa deValores de Nueva York muestran una nueva alza para ese año. El viernes 18 de septiembre de 1992, el promedio industrial Dow Jones cerró en 3,282 con un fuerte volumen de más de 136 millones de títulos negociados. Una muestra aleatoria de 120 títulos determinó que 16 de ellos habían mostrado nuevas alzas anuales ese día. Usando un nivel de significancia de 0.01, ¿deberíamos concluir que más títulos de los habituales tuvieron nuevas alzas anuales ese día? En respuesta a las críticas por correspondencia perdida, el Servicio Postal estadounidense puso en marcha nuevos procedimientos para disminuir el problema. Al director general de correos se le ase guró que dicho cambio reduciría los extravíos a menos del histórico índice de pérdidas del 0.3%. Después de dos meses de implantar los nuevos procedimientos, el servicio postal patrocinó una investigación en la que se envió un total de 8,000 piezas de correspondencia desde diferentes partes del país. Dieciocho de estas piezas de prueba no llegaron a su destino. A un nivel de significancia de 0.10, ¿puede el director general de correos concluir que los nuevos procedimientos consiguieron su objetivo? ¿Cuál es la probabilidad de que estemos rechazando una hipótesis nula verdadera cuando rechazamos el valor hipotético debido a que a) La estadística de muestra difiere del valor hipotético en más de 2.15 errores estándar en cualquier dirección. b) El valor del estadístico de la muestra es mayor en más de 1.6 errores estándar. c) El valor del estadístico de la muestra es menor que el valor hipotético en más de 2.33 errores estándar. Los distribuidores de fondos de in versión mutua abiertos venden acciones adicionales a los indi viduos que desean invertir en estos fondos. Estas acciones están v aluadas como valores de activo neto, el valor de estos títulos representado por las acciones de los fondos,más una comisión (o cargo) en el intervalo de 0 a 8%. Los fondos cerrados, por otra parte, tienen un número fijo de acciones. Estas acciones se negocian en varias bolsas de valores a precios determinados por el mercado. Si el precio es mayor que el valor activo neto, se dice que la acción se vende con prima: si sucede lo contrario se vende con descuento. Una muestra aleatoria de 15 fondos cerrados el 4 de junio de 1993, encontró los descuentos (valores negativos) y las primas (valores positivos) expresados en porcentajes y enumerados en la tabla MR9-1. Utilice esta información para responder los ejercicios 9-60 y 9-61. ¿Se venden significativamente menos fondos de acciones de interés variable con descuentos que con primas? Pruebe a un nivel 0.01.
Repaso del capítulo
Tabla MR9-1 Descuentos y primas para una muestra de 15 fondos mutualistas cerrados
Nombre del título
325
Descuento/prima
Blue Chip Value Gabelli Equity Trust Liberty AII-Star Central Fund of Canada Global Health Sciences Patriot Global Dividend Preferred Income Austria Fund Emerging Mexico First Australia Germany Fund Japan Equity Latin America Equity Morgan Stanley Emerging Markets Turkish Investment
4.7 0.7 5.3 9.2 0.3 0.3 5.0 0.4 1.9 0.5 5.8 8.2 9.4 10.3 1.7
Fuente: The Wall Street Journal (17 de junio de 1993): B8.
■
9-61
■
9-62
■
9-63
■
9-64
■
9-65
■
9-66
■
9-67
■
9-68
Un profesor de finanzas desarrolló una teoría que predice que los fondos de acciones de interés v ariable cerrados se deberían vender con una prima cercana al 5% en promedio. suponiendo que la población descuento/prima tiene una distrib ución aproximadamente normal, ¿apoya la información muestreada esta teoría? Pruebe con 0.05. ¿Si deseamos aceptar la hipótesis nula como correcta el 85% de las veces, ¿a cuánto errores estándar alrededor de la media hipotética debe encontrarse la media muestral para estar en la región de aceptación? ¿Y si deseamos estar 98% seguros de aceptar la hipótesis nula cuando es cierta? Los estatutos ambientales federales aplicables a cierta planta nuclear especifican que el agua reciclada no debe, en promedio, exceder los 84°F (28.9°C) antes de que se arroje al río que corre junto a la planta. De 70 muestras, se encontró que la temperatura promedio del agua reciclada era 86.3°F (30.2°C) Si la desviación estándar de la población es 13.5°F (7.5°C), ¿debería la planta ser multada por exceder las limitaciones del estatuto? Formule y pruebe las hipótesis apropiadas con 0.05. Inspectores del gobierno, al investigar los car gos levantados contra una embotelladora de refrescos de Lousiana, que no llenaba bien sus productos, muestrearon 200 botellas y encontraron que el promedio de llenado es 31.7 onzas líquidas. Se anuncia que las botellas contienen 32 onzas líquidas. Se sabe que la desviación estándar de le población es 1.5 onzas líquidas. ¿Deberían concluir los inspectores, a un nivel de significancia del 2%, que las botellas están tienen menos contenido? En 1995, la tarifa aérea promedio con dos semanas de anticipación en el vuelo entre Raleigh-Durham,Carolina del Norte y la ciudad de Nueva York era $235. La desviación estándar de la población era $68. En una encuesta hecha en 1996 a 90 viajeros, elegidos al azar, entre estas dos ciudades se encontró que habían pagado en promedio, $218.77 por sus boletos. ¿Cambió significativamente la tarifa aérea promedio en esta ruta entre 1995 y 1996? ¿Cuál es el mayor v alor de alfa para el que podría concluir que la tarif a promedio observada no es significativamente diferente de $235? Audio Sounds maneja una cadena de tiendas que venden sistemas y componentes estéreo de audio. Ha tenido mucho éxito en muchos pueblos uni versitarios, pero también algunos fracasos. El análisis de estas fallas la ha llevado a adoptar la política de no abrir una tienda a menos que estén razonablemente seguros de que al menos el 15% de los estudiantes del lugar tienen sistemas estéreo con un costo de $1,100 o más. En una encuesta hecha a 300 de los 2,400 estudiantes de una pequeña escuela de artes en el medio oeste de Estados Unidos se descubrió que 57 de ellos tienen un sistema estéreo con un costo mayor o igual que $1,100. Si Audio Sounds desea correr un riesgo de fracaso del 5%,¿debería abrir una tienda en este lugar? La ciudad de Oakley recoge un impuesto de transferencia del 1.5% al cerrar las transacciones de bienes raíces. En una semana promedio, suelen cerrarse 32 transacciones, con una desviación estándar de 2.4. Con un nivel de significancia de 0.10, ¿estaría de acuerdo con la conclusión del recaudador de impuestos de que “las ventas están fuera de lugar este año” si una muestra de 16 semanas tiene una media de 28.25 transacciones cerradas? En 1996, se estimó que alrededor del 72% de los hogares de Estados Unidos es suscriptor de tele visión por cable. Los editores de la revista Newstime estaban seguros de que sus lectores tenían suscripción por
326
CAPÍTULO 9 Prueba de hipótesis: prueba de una sola muestra
■
9-69
■
9-70
9-71 9-72 9-73 ■ ■
9-74 9-75
■ ■
9-76 9-77
■
9-78
■
9-79
■
9-80
cable en un promedio más alto que la población en general y querían usar este hecho para ayudar a v ender espacio de publicidad para los canales de estreno en cable. P ara verificar esto, muestrearon a 250 de los suscriptores del Newstime y encontraron que 194 de ellos tenían suscripción a tele visión por cable. Con un nivel de significancia del 2%, ¿los datos de la encuesta apoyan el parecer de los editores? Una compañía, recientemente criticada por no pagar lo mismo a hombres que a mujeres que realizan el mismo trabajo, declara que el sueldo promedio pagado a todos los empleados es $23,500 anuales. De una muestra aleatoria de 29 mujeres que laboran en la compañía, se calculó que el salario promedio era $23,000. Si se sabe que la desviación estándar de la población es $1,250 para estos trabajos,determine si es razonable esperar (con dos errores estándar) que la media de la muestra sea $23,000 si, en efecto, es cierto lo declarado por la compañía. Drive-a-Lemon, renta automóviles en buenas condiciones mecánicas, pero más antiguos que los que ofrecen las grandes cadenas nacionales de renta de coches. Como resultado, anuncia que sus tarifas son considerablemente más bajas que las de sus competidores grandes. Una encuesta de la industria estableció que el cargo total promedio por renta en una de las compañías más importantes es $77.38. Una muestra aleatoria de 18 transacciones realizadas por Dri ve-a-Lemon mostró un cargo total promedio de $87.61, con una desviación estándar muestral de $19.48. Verifique que para 0.025, el cargo total promedio de Drive-a-Lemon es significativamente más alto que el de las compañías grandes. ¿Indica este resultado que las tarifas de Drive-a-Lemon, en efecto, no son más bajas que las de las cadenas nacionales importantes? Explique su respuesta. Una muestra aleatoria de 20 corporaciones privadas de Carolina del Norte reveló los datos de la tabla MR9-2 acerca de sus directores ejecutivos. Use esta información para responder a los ejercicios 9-71 a 9-73. Suponiendo que la población tiene una distribución aproximadamente normal, ¿es razonable concluir, con un nivel de significancia del 5%, que la edad promedio de los directores ejecutivos de todas las corporaciones de Carolina del Norte es significativamente mayor que 50 años? La mediana del número de niños en los hogares de Estados Unidos es de 2. Con un nivel de significancia del 10%, ¿debería concluir que la proporción de familias de directores ejecutivos con más de 2 niños es significativamente diferente de 0.5? Alrededor del 65% de todos los adultos de Estados Unidos son casados. ¿La proporción de directores ejecutivos casados es significativamente mayor que la de la población general? Pruebe con 0.02. Regrese al ejercicio 9-26 y calcule la potencia de la prueba para $41.95, $42.95 y $43.95. Un jefe de personal piensa que el 18% de los empleados de la compañía trabaja horas extra cada semana. Si la proporción observada esta semana es 13% en una muestra de 250 de los 2,500 empleados, ¿podemos aceptar que su opinión es razonable o debemos concluir que es más apropiado algún otro valor? Use
0.05. Regrese al ejercicio EV 9-5 y calcule la potencia de la prueba para 14,000, 13,500 y 13,000. Una corredora de bolsa afirma que puede predecir, con el 85% de certeza, el ascenso o caída, durante el mes siguiente, de un valor del mercado de v alores. Para probarlo, predice el resultado de 60 v alores y acierta en 45 de sus predicciones. ¿Presentan estos datos evidencia concluyente (con 0.04) de que la exactitud de sus predicciones es significativamente menor que el 85% declarado? En el ejercicio 9-26, ¿cuál sería la potencia de la prueba para $41.95, $42.95 y $43.95, si el nivel de significancia se cambiara a 0.05? Un fabricante de suplementos vitamínicos para recién nacidos incluye un cupón para una muestra gratis de este producto en la canasta distribuida a los nuevos padres en los hospitales. Históricamente, cerca del 18% de los cupones se canjean. Dada la tendencia actual de tener menos hijos e iniciar una f amilia más tarde, la empresa se imagina que los padres actuales están mejor informados en promedio y, como resultado, es más probable que utilicen un suplemento vitamínico para sus hijos. Una muestra de 1,500 nuevos padres canjeó 295 cupones. ¿Respalda este hecho,a un nivel de significancia del 2%, la opinión de la compañía respecto a los nuevos padres actuales? Un innovador de la industria automotriz pensó que su nuevo automotor eléctrico captaría el 48% del mercado regional en un año, debido al bajo precio y el rendimiento superior de su producto. Existen 5,000 usuarios de automotores en la región. Después de muestrear el 10% de estos usuarios un año después de lanzar su producto al mercado, la compañía encontró que el 43% de ellos usaba los nuevos motores. Con un nivel 0.01, ¿deberíamos concluir que la compañía fracasó en alcanzar su objetivo de participación en el mercado?
Repaso del capítulo
Tabla MR9-2 Datos personales de una muestra de 35 directores ejecutivos
Nombre de la compañía
Edad
Estado
327
Niños
Parkdale Milis Inc. 68 M SAS Institute Inc. 50 M Cogentrix Inc. 65 M House of Raeford Farms Inc. 66 M Harriet & Henderson Yarns Inc. 52 M Harvey Enterprises and Affiliates 44 M Radiator Specialty Co. 77 M Parrish Tire Co. 43 M Spectrum Dyed Yarns Inc. 59 M Southeastern Hospital Supply Corp. 45 M Miller Building Corp. 55 M Pneumafil Corp. 55 S Kroehler Furniture Industries Inc. 50 M Carolina Petroleum Distributors Inc. 42 D Tanner Cos. 64 M Raycom Inc. 43 M Cummins Atlantic Inc. 57 M W. R. Bonsal Co. 62 M Maola Milk & Ice Cream Co. 67 M Waste Industries Inc. 56 M Estado estado civil (soltero, S; casado, M; o divorciado, D) Niños número de hijos
3 3 3 3 1 4 3 2 2 4 3 O 3 2 4 2 4 3 2 2
Fuente: “Geffing a Grip an Clasely Held Campanies”, Bussines North Carolina 13(2) (junio de 1993): 28-63.
■
9-81
Según las especificaciones, las máquinas tragamonedas de palanca en los casinos deben pagar una vez cada 11.6 giros, con una desviación estándar de 2.7 giros. Un abogado piensa que las máquinas en Casino World están arre gladas y observ a un pago de una v ez cada 12.4 giros en más de 36 máquinas. P ara
0.01, ¿está en lo correcto el abogado al concluir que las máquinas tienen una frecuencia de pago más baja?
capítulo
10
PRUEBA DE HIPÓTESIS: PRUEBAS DE DOS MUESTRAS
Objetivos •
•
• •
Aprender a utilizar muestras de dos poblaciones para probar hipótesis acerca de cómo se relacionan esas poblaciones Aprender cómo la prueba de hipótesis para las diferencias entre medias de población toman diferentes formas, dependiendo de si las muestras son grandes o pequeñas Diferenciar muestras independientes y muestras dependientes cuando se comparan dos medias Aprender cómo reducir una prueba de hipótesis para la diferencia de medias,
•
• •
desde muestras dependientes hasta una prueba acerca de una sola media Aprender cómo probar hipótesis que comparan las proporciones de dos poblaciones con el mismo atributo de interés Entender cómo se pueden usar los valores P en las pruebas de hipótesis Conocer el tipo de resultados que producen los paquetes de software para estadística en pruebas de hipótesis
Contenido del capítulo 10.1 Prueba de hipótesis para diferencias entre medias y proporciones 330 10.2 Pruebas para diferencias entre medias: muestras grandes 332 10.3 Pruebas para diferencias entre medias: muestras pequeñas 336 10.4 Prueba de diferencias entre medias con muestras dependientes 342 10.5 Pruebas para diferencias entre proporciones: muestras grandes 348
10.6 Valor P: otra manera de ver las pruebas de hipótesis 356 10.7 Uso de computadoras para pruebas de hipótesis 360 • Estadística en el trabajo 362 • Ejercicio de base de datos computacional 362 • Del libro de texto al mundo real 364 • Términos introducidos en el capítulo 10 365 • Ecuaciones introducidas en el capítulo 10 365 • Ejercicios de repaso 366
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
330
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
n fabricante de computadoras personales tiene un gran número de empleados de la comunidad de habla hispana. Con el fin de mejorar la productividad de su fuerza de trabajo, el fabricante desea aumentar la sensibilidad de sus administradores en cuanto a las necesidades de este grupo minoritario. Primero, programó varias sesiones de preguntas y respuestas con los líderes de la comunidad en cuestión. Después, diseñó un programa de una serie de sesiones formales en un salón de clases para promover el contacto entre sus administradores, psicólogos y sociólogos profesionales. El nuevo programa es mucho más caro que el anterior y el presidente de la compañía desea saber si el gasto ha tenido como resultado una mayor sensibilización. En este capítulo mostraremos cómo probar si estos dos métodos han tenido, en esencia, los mismos efectos sobre la sensibilidad de los administradores o si el gasto hecho en el nuevo programa queda justificado por sus resultados mejorados. ■
U
10.1 Prueba de hipótesis para diferencias entre medias y proporciones Comparación de dos poblaciones
En muchas situaciones de toma de decisiones, las personas necesitan determinar si los parámetros de dos poblaciones son iguales o diferentes. Una empresa, por ejemplo, puede tener la intención de probar si sus empleadas reciben un salario menor que el de sus empleados varones por realizar el mismo trabajo. Un director de capacitación puede querer determinar si la proporción de empleados que están listos para ascensos en una dependencia gubernamental es diferente de la proporción en otra. Un fabricante de medicinas puede tener la necesidad de saber si un nue vo medicamento ocasiona una reacción en un grupo de animales para experimentación y otra reacción distinta en otro grupo. En cada uno de estos ejemplos,los tomadores de decisiones están interesados en los parámetros de dos poblaciones; no están tan preocupados por el valor real de los parámetros como de larelación entre sus valores; es decir, cuáles son las diferencias. ¿Las empleadas ganan menos que los empleados por hacer el mismo trabajo? ¿ Es la proporción de empleados susceptibles de promoción de una dependencia diferente a la proporción de otra? ¿Un grupo de animales para experimentación reacciona de manera diferente que otro grupo? En este capítulo introduciremos métodos mediante los cuales se puede dar respuesta a estas preguntas, utilizando procedimientos de pruebas de dos muestras.
Distribución de muestreo para la diferencia entre dos parámetros de población: conceptos básicos
Derivación de la distribución de muestreo de la diferencia entre medias muestrales
En el capítulo 7 introdujimos el concepto de distribución de muestreo o muestral para la media como la base del trabajo que podemos hacer en estimación y pruebas de hipótesis. P ara ver un resumen de la distribución de muestreo de la media, consulte la figura 7-2. Debido a que ahora deseamos estudiar dos poblaciones,no nada más una,la distribución de muestreo que nos interesa es la distribución muestral de la diferencia entre medias muestrales. La figura 10-1 puede ayudarnos a conceptualizar esta distribución de muestreo particular. En la parte superior de la figura se presentan dos poblaciones, identificadas como población 1 y población 2. Éstas tienen medias 1 y 2 y desviaciones estándar 1 y 2, respectivamente. Debajo de cada población se observa la distribución muestral de la media para la población correspondiente. En la parte inferior de la figura se encuentra la distribución muestral de la diferencia entre las medias muestrales. Las dos distribuciones muestrales de la media teóricas de la figura 10-1 están construidas a partir de todas las muestras posibles de un tamaño dado que pueden obtenerse de la distribución de la pobla-
10.1: Prueba de hipótesis para diferencias entre medias y proporciones
Población 1
Población 2 Desviación estándar = s2
Desviación estándar = s1
m1
m2 Distribución muestral de la media de la población 2
Distribución muestral de la media de la población 1 Error estándar = sx1
Ésta es la distribución de todos los valores posibles de x1
331
Error estándar = sx
Ésta es la distribución de todos los valores posibles de x2
mx1 = m1
2
mx2 = m2 Distribución de muestreo de la diferencia entre las medias muestrales
FIGURA 10-1 Conceptos básicos de distribuciones de población, distribuciones muestrales de la media y distribuciones muestrales de la diferencia entre las medias de las muestras
Parámetros de esta distribución de muestreo
Error estándar: sx1 – x2 Ésta es la distribución de todos los valores posibles de x1 – x2
mx1 – x2
ción correspondiente. Ahora bien, suponga que tomamos una muestra aleatoria de la distribución de la población 1 y otra muestra aleatoria de la distribución de la población 2. Si luego restamos las dos medias de las muestras, obtenemos: x1 x2 ← Diferencia entre las medias de las muestras Esta diferencia será positiva si x1 es mayor que x2, y negativa si x2 es mayor que x1. Al construir una distribución de todas las diferencias posibles de las muestras,x1 x2, terminamos con la distribución muestral de la diferencia entre las medias de las muestras, que se ilustran la parte inferior de la figura 10-1. La media de la distribución muestral de la diferencia entre las medias muestrales se representan por x1 x2 y es igual a x1 x2, que, como vimos en el capítulo 7, es igual que 1 2. Si 1 2, entonces x1 x2 0. La desviación estándar de la distribución de las diferencias entre las medias de las muestras se conoce como error estándar de la diferencia entre dos medias y se calcula con la siguiente fórmula: Error estándar de la diferencia entre dos medias Varianza de la población 2
Varianza de la población 1
x1 x2 Tamaño de la muestra de la población 1
12 22 n1 n2
Tamaño de la muestra de la población 2
[10-1]
332
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
Cómo estimar el error estándar de esta distribución de muestreo
Si no conocemos las dos desviaciones estándar de la población, podemos estimar el error estándar de la diferencia entre dos medias. Podemos utilizar el mismo método de estimación del error estándar que hemos usado, haciendo que las desviaciones estándar de la muestra estimen las desviaciones estándar de la población de la siguiente manera:
ˆ s ← Desviación estándar de la muestra
[8-1]
Entonces, la fórmula para el error estándar estimado de la diferencia entre dos medias es Error estándar estimado de la diferencia entre dos medias Varianza estimada de la población 1
ˆ x1 x2
Varianza estimada de la población 2
ˆ 12 ˆ 22 n1 n2
[10-2]
Como veremos en las siguientes secciones,dependiendo de los tamaños de muestra,utilizaremos diferentes estimaciones para ˆ1 y ˆ 2 en la ecuación 10-2.
10.2 Pruebas para diferencias entre medias: muestras grandes
Paso 1: Establezca su hipótesis, tipo de prueba y nivel de significancia
Cuando ambos tamaños de muestra son mayores que 30, este ejemplo ilustra cómo hacer una prueba de dos colas de una hipótesis acerca de la diferencia entre dos medias. A un especialista en estadística que estudia el desarrollo de recursos humanos se le pide que determine si los salarios por hora de los obreros semicalif icados son los mismos en dos ciudades distintas. El resultado de esta investigación se presenta en la tabla 10-1. Suponga que la empresa desea probar la hipótesis al nivel 0.05 de que no hay diferencia entre los salarios por hora de los trabajadores semicalif icados de las dos ciudades: H0: 1 2 ← Hipótesis nula: no hay diferencia H1: 1 2 ← Hipótesis alternativa: existe diferencia 0.05 ← Nivel de significancia para probar esta hipótesis
Paso 2: Escoja la distribución apropiada y encuentre el valor crítico
Como la compañía sólo está interesada en saber si las medias son o no iguales,ésta es una prueba de dos colas. Podemos ilustrar esta prueba de hipótesis gráficamente. En la figura 10-2, el nivel de significancia 0.05 corresponde a las dos áreas señaladas, cada una contiene una fracción de 0.025 del área. La región de aceptación contiene dos áreas iguales,cada una de 0.475 del área total. Como ambas muestras son grandes, podemos utilizar la distribución normal. En la tabla 1 del apéndice determinamos que el valor crítico de z para 0.475 del área bajo la curva es 1.96. No se conocen las desviaciones estándar de las dos poblaciones. Por consiguiente, el primer paso es estimarlas de la siguiente manera:
ˆ1 s1 $0.40
[8-1]
Ciudad
Salarios medios por hora de la muestra
Desviación estándar de la muestra
Tamaño de la muestra
Apex Eden
$8.95 $9.10
$0.40 $0.60
200 175
Tabla 10-1 Datos de una encuesta con muestreo de salarios por hora
ˆ2 s2 $0.60
10.2: Pruebas para diferencias entre medias: muestras grandes
Valor crítico z = –1.96
333
Valor crítico z = +1.96
FIGURA 10-2 Prueba de hipótesis de dos colas de la diferencia entre dos medias a un nivel de significancia de 0.05 Paso 3: Calcule el error estándar y estandarice el estadístico de la muestra
0.025 del área
0.025 del área 0.475 del área
0.475 del área
z 0
Ahora podemos determinar el error estándar estimado de la diferencia entre las dos medias:
ˆ x1x2
ˆ 12 ˆ 22 n1 n2
[10-2]
(0.60)2 (0.40)2 200 175
0.0 0286 $0.053 ← Error estándar estimado A continuación, estandarizamos la diferencia de las medias de las muestras,x1 – x2. Primero, calculamos (1 – 2)H0, la diferencia hipotética de las medias de las poblaciones. Luego dividimos entre ˆ x1 x2, el error estándar estimado de la diferencia entre las medias muestrales. (x1 x2) – (1 2)H0 z ˆ x1x2 (8.95 – 9.10) – 0 0.053 2.83 Paso 4: Grafique la distribución y señale el valor de la muestra y los valores críticos
Señalamos la diferencia estandarizada en una gráf ica de la distribución de muestreo y la comparamos con el valor crítico, como se ve en la figura 10-3, que señala que la diferencia estándar entre las dos medias de las muestras se encuentra fuera de la región de aceptación. Así, rechazamos la hipótesis nula de que no hay diferencia y llegamos a la conclusión de que las medias de las poblaciones (los salarios de obreros semicalificados de las dos ciudades) son diferentes. Región de aceptación Se acepta Ho si el valor de la muestra está en esta región
FIGURA 10-3 Prueba de hipótesis de dos colas de la diferencia entre dos medias a un nivel de significancia de 0.05, que indica la región de aceptación y la diferencia estandarizada entre las medias de las muestras
Diferencia estandarizada entre las medias de las muestras
z –2.83
–1.96
0
+1.96
334
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
Paso 5: Interprete el resultado Prueba de la diferencia entre medias cuando 1 – 2 ≠ 0
En este ejemplo, y en la mayoría de los que veremos, se probará si dos poblaciones tienen la misma media. Si esto ocurre (1 – 2)H0, la diferencia hipotetizada entre las dos medias es cero. Sin embargo, podemos investigar si los salarios promedio son alrededor de 10 centavos por hora más bajos en la ciudad de Apex que en Eden. En ese caso, nuestras hipótesis serían: H0: 1 2 0.10 ← Hipótesis nula: los salarios son $0.10 más bajos en Apex que en Eden H1: 1 ≠ 2 0.10 ← Hipótesis alternativa: los salarios no son $0.10 más bajos en Apex que en Eden En este caso, la diferencia hipotética entre las dos medias sería ( 1 – 2)H0 0.10, y la diferencia estandarizada entre las medias de las muestras sería: (x1 x2) – (1 2)H0 z ˆ x1 x2 (0.95 9.10) (0.10) 0.053 0.94
Pruebas de una cola de la diferencia entre medias
De acuerdo con este resultado, no rechazaríamos la hipótesis nula. Aunque el ejemplo fue de una prueba de dos colas,también podemos realizar pruebas de una cola de la diferencia entre dos medias de poblaciones. Los resultados de pruebas de una cola son conceptualmente parecidos a las pruebas de una cola de una sola media que analizamos en el capítulo 9. Por ejemplo, si hubiéramos querido probar si los salarios en Apex son menores que en Eden (o, de manera equivalente, si los salarios en Eden son mayores que en Apex), nuestras hipótesis hubieran sido: H0: 1 2 ← Hipótesis nula: los salarios son iguales en Apex y Eden H1: 1 < 2 ← Hipótesis alternativa: los salarios son más bajo en Apex que en Eden Ésta sería una prueba de una cola con (1 2)H0 0. Por último, si hubiéramos deseado probar si los salarios en Apex son 10 centavos por hora mayores que los salarios en Eden, entonces nuestras hipótesis hubieran sido: H0: 1 2 0.10 ← Hipótesis nula: los salarios son $0.10 más bajos en Apex que en Eden H1: 1 < 2 0.10 ← Hipótesis alternativa: los salarios son más de $0.10 más bajos en Apex que en Eden Ésta sería una prueba de una cola con (1 2)H0 0.10.
Sugerencia: al probar las diferencias entre dos medias, debe elegir si usa una prueba de hipótesis de una cola o de dos colas. Si la prueba se refiere a si dos medias son iguales o no son iguales, use la prueba de dos coSUGERENCIAS Y SUPOSICIONES
las que medirá si una media es diferente de la otra (mayor o menor). Si la prueba se ref iere a si una media es significativamente mayor o significativamente menor que la otra, una prueba de una cola es apropiada.
Ejercicios 10.2 Ejercicios de autoevaluación EA
10-1
Se recolectaron dos muestras independientes de observaciones. Para la primera muestra de 60 elementos, la media fue 86 y la desviación estándar 6. La segunda muestra de 75 elementos tenía una media de 82 y una desviación estándar de 9. a) Calcule el error estándar estimado de la diferencia entre las dos medias.
10.2: Pruebas para diferencias entre medias: muestras grandes
EA
10-2
335
b) Con 0.01, pruebe si es razonable que se considere que las dos muestras vienen de poblaciones con la misma media. En 1993, el Consejo de Estándares para Contabilidad Financiera (CECF) consideró una propuesta para requerir que las compañías informaran el efecto potencial de la opción de compra de acciones de los empleados sobre los ingresos por acción (IPA). Una muestra aleatoria de 41 empresas de alta tecnología (A T) reveló que la nueva propuesta reduciría el IPA en un promedio del 13.8%,con una desviación estándar del 18.9%. Una nuestra aleatoria de 35 productores de bienes de consumo (BC) mostró que la propuesta reduciría el IPA en 9.1% en promedio, con desviación estándar del 8.7%. Con base en estas muestras, ¿es razonable concluir (para 0.10) que la propuesta de la CECF causaría una mayor reducción en el IPA para las empresas de alta tecnología que para los productores de bienes de consumo?
Conceptos básicos ■
10-1
Se tomaron dos muestras independientes. Para la primera de 42 elementos, la media fue 32.3 y la varianza 9. La segunda muestra de 57 elementos tenía media de 34 y varianza de 16. a) Calcule el error estándar estimado de la diferencia entre las dos medias. b) Con 0.05, pruebe si existe suficiente evidencia para mostrar que la segunda población tiene una media mayor.
Aplicaciones ■
10-2
Block, una compañía fabricante de chips para computadoras, está en proceso de decidir si sustituye su línea de ensamble semiautomática por otra completamente automatizada. Block ha reunido algunos datos de pruebas preliminares acerca de la producción de chips por hora que se resumen en la tabla siguiente y desea saber si debe actualizar su línea de ensamble. Establezca (y pruebe con 0.02) las hipótesis apropiadas para ayudar a Block a tomar una decisión. Línea semiautomática Línea automática
■
10-3
■
10-4
■
10-5
■
10-6
x
s
n
198 206
32 29
150 200
Dos laboratorios de investigación han producido, de manera independiente, medicamentos que alivian las molestias de la artritis. El primer medicamento fue probado en un grupo de 90 personas que sufren la enfermedad y produjo un promedio de 8.5 horas de alivio, con desviación estándar de 1.8 horas. El segundo fue probado en 80 artríticos y produjo una media de 7.9 horas de ali vio, con desviación estándar de 2.1 horas. A un nivel de significancia de 0.05, ¿el segundo medicamento proporciona un periodo de alivio significativamente más corto? El 1 de enero de 1996 se tomó una muestra de 32 fondos mutualistas de la bolsa de v alores, y se encontró que la tasa promedio de rendimiento anual durante los 30 días anteriores fue del 3.23%, con una desviación estándar de la muestra del 0.51%. Un año antes,una muestra de 38 fondos mutualistas indicó una tasa promedio de rendimiento del 4.36%, con una desviación estándar de la muestra del 0.84%. ¿Es razonable llegar a la conclusión (a un nivel 0.05) de que las tasas de interés del mercado de dinero declinaron durante 1995? En septiembre de 1995, la Confederación Automovilística de las Carolinas investigó al azar a 75 gasolineras en Carolina del Norte y Carolina del Sur y determinó que el precio promedio de la gasolina regular sin plomo en las bombas de autoservicio fue $1.059, con una desviación estándar de 3.9 centa vos. Tres meses después, en otra investigación aleatoria de 50 gasolineras, se encontró un precio promedio de $1.089, con una desviación estándar de 6.8 centavos. A un nivel 0.02, ¿cambió significativamente el precio de la gasolina regular sin plomo en estos dos estados durante estos tres meses? A pesar de la Ley de Pagos Igualitarios de 1963, en 1993 todavía parecía que los hombres ganaban más que las mujeres en trabajos similares. En una muestra aleatoria de 38 operadores v arones de máquinasherramienta se encontró que el salario medio por hora era $11.38, con una desviación estándar de la muestra de $1.84. Se tomó una muestra aleatoria de 45 operadoras de máquinas-herramienta y se obtuvo un salario medio por hora de $8.42,con desviación estándar de la muestra de $1.31. Según estas dos muestras, ¿es razonable llegar a la conclusión (a un nivel 0.01) de que los operadores ganan más de $2.00 por hora que las operadoras?
336
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
■
10-7
La tienda de descuento BullsEye está orgullosa del servicio que presta a sus clientes. La tienda espera que toda la cadena esté dando el mismo nivel de servicio de costa a costa,así que encuestaron algunos clientes. En el sureste, una muestra aleatoria de 97 clientes dio una calificación de la satisfacción global promedio de 8.8 sobre 10 puntos con desviación estándar de la muestra de 0.7. En el noreste,la muestra aleatoria de 84 clientes dio una calificación promedio de 9.0 y la desviación estándar de la muestra fue 0.6. ¿Puede concluir BullsEye, con 0.05, que los niveles de satisfacción de los clientes en los dos mercado son significativamente diferentes?
Soluciones a los ejercicios de autoevaluación EA
10-1
s1 6
n1 60
a) ˆx1 x2
s2 9 n2 75 x1 86 2 s2 81 36 1.296 n1 n2 60 75 s12
x2 82
H1: 1 2 0.01 b) H0: 1 2 Los límites de la región de aceptación son z 2.58, o x1 x2 0 zˆx1x2 2.58(1.296) 3.344 (x1 x2) (1 2)H0 Debido a que el valor z observado ˆx1x2 (86 82) 0 1.296
EA
10-2
3.09 2.58 (o x1 x2 86 82 4 3.344), se rechaza H0. Es razonable concluir que las dos muestras vienen de poblaciones diferentes. n1 41 Muestra 1 (empresas de AT): s1 18.9 x1 13.8 n2 35 Muestra 2 (productores de BC): s2 8.7 x2 9.1 H1: 1 2 0.10 H0: 1 2
ˆ x1 x2
s12 s22 n1 n2
(8.7)2 (18.9)2 3.298% 41 35
El límite superior de la región de aceptación es z 1.28, o x1 x2 0 zˆ x1x2 1.28(3.298) 4.221% (13.8 9.1) 0 (x1 x2) (1 2)H0 Como el valor z observado 1.43 > 1.28 (o x1 3.298 ˆ x x 1
2
x2 4.7 4.221), se rechaza H0 y se concluye que la propuesta de la CECF causará una reducción significativamente mayor en el IPA de las empresas de alta tecnología.
10.3 Pruebas para diferencias entre medias: muestras pequeñas Cuando los tamaños de muestra son pequeños,debemos hacer dos cambios técnicos en el procedimiento para probar las diferencias entre medias. El primero tiene que ver con la forma en que calculamos el error estándar estimado de la diferencia entre dos medias muestrales. El se gundo le recordará lo que hicimos en el capítulo 9 con las pruebas de muestras pequeñas de una sola media. De nue vo, basaremos nuestras pruebas de muestra pequeña en la distrib ución t, más que en la distrib ución normal. Para explorar los detalles de estos cambios,regresemos al ejemplo introductorio del presente capítulo, concerniente a la sensibilización de los administradores de una fábrica de computadoras personales con respecto a las necesidades de sus trabajadores de habla hispana. Recuerde que la compañía ha estado in vestigando dos programas educati vos para aumentar la sensibilidad de sus directores. El programa original consistía en v arias sesiones informales de pre-
10.3: Pruebas para diferencias entre medias: muestras pequeñas
337
guntas y respuestas con los líderes de la comunidad hispana. En años recientes, se ha desarrollado un programa que implica clases formales con psicólogos y sociólogos profesionales. El nue vo programa es considerablemente más caro, y el presidente de la empresa desea saber, a un nivel de 0.05 de significancia, si este gasto ha aumentado la sensibilidad de sus administradores. Probemos lo siguiente: Paso 1: Establezca su hipótesis, tipo de prueba y nivel de significancia
Posponga el paso 2 hasta saber cuántos grados de libertad usar
H0: 1 2 ← Hipótesis nula: no hay diferencia en los niveles de sensibilidad logrados por los dos programas H1: 1 2 ← Hipótesis alternativa: el nuevo programa da resultados en niveles de sensibilidad más altos 0.05 ← Nivel de significancia para probar esta hipótesis La tabla 10-2 contiene los datos obtenidos de una muestra de administradores capacitados en ambos programas. Debido a que sólo se dispone de un número limitado de datos para los dos programas, las desviaciones estándar de la población se estiman a partir de los datos. El nivel de sensibilidad se mide como porcentaje en una escala psicométrica estándar. La compañía desea probar si la sensibilidad adquirida después de tomar el nue vo programa es significativamente mayor que la adquirida con el programa informal anterior. Para rechazar la hipótesis nula (un resultado que desea la compañía), la diferencia observada de las medias de las muestras necesitaría encontrarse suficientemente alejada en la cola derecha de la distribución. Entonces aceptaríamos la hipótesis alternativa de que el nuevo programa lleva a mayores niveles de sensibilidad y que los gastos adicionales hechos en este programa están justificados. El segundo paso de nuestro proceso de cinco pasos para la prueba de hipótesis requiere elegir la distribución apropiada y encontrar el valor crítico. Recuerde que en el primer párrafo de esta sección afirmamos que la prueba estaría basada en una distribución t, pero aún no sabemos cuál debemos utilizar. ¿Cuántos grados de libertad existen? La respuesta se hará más evidente después de ver cómo se calcula el error estándar estimado. Nuestra primera tarea al efectuar la prueba consiste en calcular el error estándar de la diferencia entre las dos medias. Como no se conocen las desviaciones estándar de las poblaciones, debemos utilizar la ecuación 10-2. ˆ 12 ˆ 22 ˆx1x2 [10-2] n1 n2
Estimación de 2 con muestras pequeñas
En el ejemplo anterior, donde los tamaños de muestra eran grandes (ambos mayores que 30),usamos la ecuación 8-1 y estimamos ˆ 12 mediante s12, y ˆ 22 mediante s22. En este caso, con muestras pequeñas, el procedimiento no es adecuado. Si podemos suponer que las varianzas de población desconocidas son iguales (esta suposición puede probarse con un método analizado en la sección 6 del capítulo 11), entonces podemos seguir adelante. Si no podemos suponer que 12 22, entonces el problema está más allá del nivel de este libro. Supongamos, por el momento, que 12 22, ¿de qué manera podemos estimar la varianza común 2 ? Si utilizamos s12 o s22, obtenemos un estimador imparcial de 2, pero no usamos toda la información que tenemos disponible, ya que se ignora una de las muestras. En su lugar, usamos un promedio ponderado de s12 y s22, en el cual los pesos son el número de grados de libertad de cada muestra. A este promedio ponderado se le conoce como “estimación conjunta” de 2 y está dado por:
Estimación conjunta de 2 (n1 1)s12 (n2 1)s22 s2p n1 n2 – 2 Para esta prueba, tenemos n1 n2 2 grados de libertad
[10-3]
Como tenemos que usar las varianzas de la muestra para estimar el valor desconocido de 2, la prueba estará basada en la distribución t. Este caso es igual a probar una sola media de tamañon, cuando no conocemos el valor de 2. Ahí utilizamos una distribución t con n 1 grados de libertad, debido
338
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
Tabla 10-3 Datos de las muestras de dos programas de sensibilización
Programa muestreado
Sensibilidad media después del programa
Número de administradores observados
Desviación estándar estimada de la sensibilidad después del programa
92% 84%
12 15
15% 19%
Formal Informal
Regreso al paso 2: seleccione la distribución apropiada y encuentre el valor crítico
Inicio del paso 3: calcule el error estándar
a que una vez que conocemos la media de la muestra sólo n 1 observaciones se pueden especificar libremente. (Tal vez desee repasar el análisis de grados de libertad en el capítulo 8.)Ahora, tenemos n1 1 grados de libertad en la primera muestra y n2 1 grados de libertad en la segunda, de modo que cuando las unimos para estimar 2, obtenemos n1 n2 2 grados de libertad. Así, la distribución de muestreo apropiada para la prueba de los dos programas de sensibilidad es la distrib ución t con 12 15 2 25 grados de libertad. Debido a que estamos efectuando una prueba de cola superior a un nivel de significancia de 0.05, el valor crítico de t es 1.708, de acuerdo con la tabla 2 del apéndice. La figura 10-4 ilustra la prueba de hipótesis, ahora que ya tenemos el valor crítico para la misma. La región sombreada que se encuentra a la derecha de la distribución representa el nivel 0.05 de significancia de la prueba. En el paso 3, insertamos la fórmula para sp2 de la ecuación 10-3 en la ecuación 10-2 y simplificamos el resultado para obtener una ecuación para el error estándar estimado de x1 x2: Error estándar estimado de la diferencia entre dos medias muestrales, con muestras pequeñas y varianzas de población iguales
ˆ x1x2 sp
1
1
1
2
n n
[10-4]
Aplicando estos resultados a nuestro ejemplo de sensibilidad: (n1 1)s12 (n2 1)s22 sp2 n1 n2 – 2 (12 1)(15)2 (15 1)(19)2 12 15 2 11(225) 14(361) 25 301.160 Sacando la raíz cuadrada en ambos lados, obtenemos sp 3 01.1 60, o 17.354, y por tanto: Valor crítico t = +1.708
FIGURA 10-4 Prueba de hipótesis de cola derecha para la diferencia entre dos medias a un nivel de significancia de 0.05
0.05 del área 0.50 del área
0.45 del área
t 0
[10-3]
10.3: Pruebas para diferencias entre medias: muestras pequeñas
ˆ x1xx2 sp
1
1
1
2
n n
17.354
1
339
[10-4] 1
12 15
17.354(0.387) 6.721 ← Error estándar estimado de la diferencia Conclusión del paso 3: estandarice el estadístico de la muestra
A continuación estandarizamos la diferencia de las medias de las muestras, x1 x2. Primero, restamos (1 2)H0, la diferencia hipotética de las medias muestrales. Lue go dividimos entre ˆ x1x2, el error estándar estimado de la diferencia entre las medias muestrales. (x1 x2) – (1 2)H0 t ˆ x1x2 (92 84) 0 6.721 1.19
Paso 4: Grafique un diagrama de la distribución y señale el valor de la muestra y el valor crítico Paso 5: Interprete el resultado
Debido a que nuestra prueba de hipótesis está basada en la distribución t, utilizamos t para representar al estadístico estandarizado. Después, señalamos la diferencia estándar en una gráfica de la distribución de muestreo y la comparamos con el valor crítico t 1.708, como se ilustra en la f igura 10-5. En ella podemos apreciar que la diferencia estandarizada entre las dos medias de las muestras se encuentra dentro de la región de aceptación. Así, aceptamos la hipótesis nula de que no existe una diferencia significativa entre los niveles de sensibilidad logrados por los dos programas. Los gastos de la empresa en el programa formal no han producido un incremento significativo en el nivel de sensibilidad de sus administradores. Región de aceptación Acepte Ho si el valor de la muestra está en esta región
FIGURA 10-5 Prueba de una cola de la diferencia entre dos medias al nivel 0.05 de significancia; indica la región de aceptación y la diferencia estandarizada entre las medias muestrales
Diferencia estandarizada entre las dos medias de muestra
t 0
Sugerencia: debido a que los tamaños de muestra son pequeños (menos de 30) y no se conocen las desviaciones estándar de las poblaciones, será adecuado usar la distribución t. Al igual que en la prueba t de una sola muestra que se estudió, en este caso también es necesario determinar los grados de libertad. En la prueba de una muestra, los grados de libertad eran el tamaño de la muestra menos uno. Ahora, como se usan dos muestras,los grados de liberSUGERENCIAS Y SUPOSICIONES
+1.19 +1.708
tad correctos son el tamaño de la primera muestra menos uno más el tamaño de la segunda muestra menos uno: n1 n2 2. Suposición: se parte del supuesto de que las varianzas de las dos poblaciones son iguales. Si no es así, no se puede realizar esta prueba usando los métodos descritos. Advertencia: para usar el método explicado en esta sección, las dos muestras (una de cada población) deben haberse elegido de manera que sean independientes entre sí.
340
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
Ejercicios 10.3 Ejercicios de autoevaluación EA
10-3
EA
10-4
Una organización de investigación de mercados selecciona varios modelos de automóviles cada año y evalúa su eficiencia en el consumo de combustible. Este año, en el análisis de dos modelos subcompactos similares de dos fabricantes distintos, el millaje promedio de 12 autos de la marcaA fue 27.2 millas por galón, y la desviación estándar fue 3.8 mpg. Los 9 autos de la marca B que se probaron promediaron 32.1 mpg con desviación estándar de 4.3 mpg. Para 0.01, ¿se puede concluir que la marca A da un millaje promedio menor que la marca B? Connie Rodriguez, la decana de estudiantes en el Midstate College, se pregunta cuál será la distribución de calificaciones en la escuela. Ha oído quejas de que el promedio general en la escuela de administración está cerca de 0.25 más abajo que en las universidades de artes y ciencias. Un muestreo aleatorio rápido produjo los siguientes promedios generales. Administración: Artes y ciencias:
2.86 3.35
2.77 3.32
3.18 3.36
2.80 3.63
3.14 3.41
2.87 3.37
3.19 3.45
3.24 3.43
2.91 3.44
3.00 3.17
2.83 3.26
3.18
3.41
¿Indican estos datos que existe una base para las quejas? Establezca y pruebe las hipótesis adecuadas para 0.02.
Aplicaciones ■
10-8
■
10-9
Una organización de crédito y seguros ha desarrollado un nuevo método de alta tecnología para capacitar al nuevo personal de ventas. La compañía obtuvo una muestra de 16 empleados capacitados de la manera original y encontró ventas diarias promedio de $688 con desviación estándar de la muestra de $32.63. También tomaron una muestra de 11 empleados capacitados con el método nuevo y encontraron un promedio de ventas diarias de $706 con desviación estándar de la muestra de $24.84. Para 0.05, ¿puede la compañía concluir que el promedio diario de ventas aumenta con el nuevo plan? Una empresa grande de corretaje de acciones desea determinar qué tanto éxito han tenido sus nuevos ejecutivos de cuenta en la consecución de clientes. Después de terminar su capacitación, los nuevos ejecutivos pasan varias semanas haciendo llamadas a posibles clientes, tratando de que los prospectos abran cuentas con la empresa. Los datos siguientes dan el número de cuentas nue vas abiertas durante las primeras dos semanas por 10 ejecuti vas y 8 ejecuti vos de cuenta escogidos aleatoriamente. A un nivel de 0.05, ¿parece que las mujeres son más efectivas que los hombres para conseguir nuevas cuentas? Número de cuentas nuevas Ejecutivas de cuenta Ejecutivos de cuenta
■ 10-10
■ 10-11
■ 10-12
12 13
11 10
14 11
13 12
13 13
14 12
13 10
12 12
14
12
Para celebrar su primer aniversario, Randy Nelson decidió comprar un par de aretes de diamantes para su esposa Debbie. Le enseñaron 9 pares de aretes con gemas que pesaban aproximadamente 2 quilates por par. Debido a las diferencias en color y calidad de las piedras, los precios variaban de una joya a otra. El precio promedio fue $2,990, con una desviación estándar de la muestra de $370. Además le enseñaron 6 pares con piedras en forma de gota, también con un peso aproximado de 2 quilates por par. Estos pendientes tenían un precio promedio de $3,065 con desviación estándar de $805. Con base en esta e videncia, ¿puede Randy llegar a la conclusión (a un ni vel de significancia de 0.05) de que los diamantes con forma de gota cuestan más, en promedio, que los otros? Una muestra de tasas hipotecarias convencionales a 30 años tomadas al azar en 11 bancos de California produjo una tasa media del 7.61% y una desviación estándar del 0.39%. Una muestra parecida tomada aleatoriamente en ocho bancos de Pennsylvania tuvo una tasa media del 7.43%, con desviación estándar del 0.56%. ¿Estas muestras proporcionan evidencia para llegar a la conclusión (a un ni vel 0.10) de que las tasas de hipotecas convencionales de California y Pennsylvania provienen de poblaciones con medias distintas? Debido a que los reembolsos de impuestos se pagan con más rapidez cuando se solicitan electrónicamente, el comisionado del Servicio Interno de Contribuciones se preguntaba si los reembolsos por devolución de impuestos solicitados por correo eran menores que los solicitados electrónicamente. Observando sola-
10.3: Pruebas para diferencias entre medias: muestras pequeñas
■ 10-13
341
mente los reembolsos reclamados, una muestra de 17 solicitados por correo tuvo un reembolso medio de $563 y una desviación estándar de $378. Los reembolsos promedio reclamados en 13 solicitudes electrónicas fueron de $958, con desviación estándar de la muestra de $619. A un nivel 0.01, ¿estos datos apoyan la especulación del Comisionado? En la actualidad, Llantas Greatyear produce sus neumáticos en la planta de Wilmington, Carolina del Norte, con dos turnos de 12 horas. Los empleados del turno de noche planean pedir un aumento porque piensan que están produciendo más llantas por turno que el turno de día. “Como la compañía gana más durante el turno de noche, esos empleados también deben ganar más”, declara el representante de ese turno. I. M. Checking, el supervisor de producción de Greatyear, selecciona al azar algunas corridas de producción diarias de cada turno con los resultados que se presentan en la tabla (en miles de llantas producidas). Turno
Producción (en miles)
Día
107.5
118.6
124.6
101.6
113.6
119.6
120.6
109.6
105.9
Noche
115.6
109.4
121.6
128.7
136.6
125.4
121.3
108.6
117.5
¿Indican estos datos, para 0.01, que el turno de noche produce más llantas por turno?
Soluciones a los ejercicios de autoevaluación EA
10-3
sA 3.8
nA 12
H0: A B sp
xA 27.2
H1: A B
sB 4.3
nB 9
xB 32.1
0.01
(nA 1)s2A (nB 1)s2B nA nB 2
11(3.8)2 8(4.3)2 4.0181 mpg 19
El límite inferior de la región de aceptación es t 2.539, o xA xB 0 tsp
2.539(4.0181) n n 12 9 1
1
A
1
1
B
4.499 mpg (xA xB) (A B)H (27.2 32.1) 0 Como el valor observado t 0 1 1 1 1 4.0181 sp 9 12 nA nB
EA
10-4
2.766 < 2.539 (o xA xB 4.9 4.499), se rechaza H0. La marca B entrega un millaje significativamente mayor que el de la marca A. nB 11 Muestra 1 (administración): sB 0.176 xB 2.98 nA 13
Muestra 2 (artes y ciencias): sA 0.121 H0: B A 0.25 sp
H1: B A 0.25
(nB 1)s2B (nA 1)s2A nB nA 2
xA 3.368 0.02
10(0.176)2 12(0.121)2 0.1485 22
Los límites de la región de aceptación son t 2.508, o xB xA (B A)H0 tsp 1
1
1
1
0.25 n n B
A
(0.4026, 0.0974) 11 13
2.508(0.1485)
342
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
(xB xA) (B A)H0 Como el valor observado t 1 1 sp nB nA
(2.980 3.368) 0.25 1 1 0.1485 11 13
2.268 2.508 (o xB xA 0.388 0.403), no se rechaza H0. El promedio general en la escuela de administración está alrededor de 0.25 abajo del de las universidades de artes y ciencias.
10.4 Prueba de diferencias entre medias con muestras dependientes Condiciones para las cuales las muestras apareadas ayudan al análisis
Paso 1: Establezca sus hipótesis, tipo de prueba y nivel de significancia
En los ejemplos de las secciones 10.2 y 10.3,las muestras fueron escogidas de manera independiente una de otra. En el ejemplo de los salarios, se tomaron en dos ciudades distintas; en el de la sensibilidad de los administradores, se obtuvieron entre funcionarios que habían cursado dos programas de capacitación diferentes. En ciertas ocasiones, sin embargo, tiene sentido tomar muestras que no son independientes entre sí. A menudo, el uso de muestras dependientes (o apareadas) permite llevar a cabo un análisis más preciso,porque permite controlar factores externos. Con muestras dependientes, todavía se sigue el procedimiento básico adoptado en todas las pruebas de hipótesis. Las únicas diferencias consisten en que se emplea una fórmula distinta para el error estándar estimado de las diferencias muestrales y que es necesario que ambas muestras sean del mismo tamaño. Un balneario de aguas curativas anuncia un programa de reducción de peso y afirma que el participante promedio pierde más de 17 libras. Un ejecutivo un tanto sobrado de peso está interesado en el programa, pero duda de lo que afirma el anuncio y solicita evidencia más fuerte. El balneario le permite elegir al azar los registros de 10 participantes y anotar su peso (en libras) antes y después del programa. Estos datos se presentan en la tabla 10-3. En este ejemplo tenemos dos muestras (una muestra de antes y una de después) que son claramente dependientes entre sí, pues la muestra de 10 personas se observó dos veces. El ejecutivo desea probar, a un nivel de significancia del 5%, la pérdida promedio de peso anunciada de más de 17 libras. Formalmente, este problema se plantea: H0: 1 2 17
← Hipótesis nula: la pérdida promedio de peso es sólo 17 libras
H1: 1 2 5 17 ← Hipótesis alternativa: la pérdida promedio de peso excede 17 libras 0.05 ← Nivel de significancia Comprensión del concepto de diferencias
Lo que en realidad nos interesa no son los pesos antes y después del tratamiento, sino en sus diferencias. Conceptualmente, lo que tenemos no son dos muestras de peso antes y después, sino más bien una muestra de pérdidas de peso. Si la población de pérdidas de peso tiene una media l, podemos replantear nuestra hipótesis como: H0: l 17 H1: l 17
Tabla 10-3 Pesos antes y después de un programa de reducción de peso (libras)
Antes Después
189 170
202 179
220 203
207 192
194 172
177 161
193 174
202 187
208 186
233 204
10.4: Prueba de diferencias entre medias con muestras dependientes
Paso 2: Escoja la distribución apropiada y encuentre el valor crítico
Cálculo de las diferencias por pares
La figura 10-6 ilustra este problema. Como deseamos saber si la pérdida media de peso excede 17 libras, es apropiada una prueba de cola superior . El nivel de significancia de 0.05 aparece en la figura 10-6 como el área sombreada bajo la distribución t. Utilizamos la distribución t debido a que el tamaño de la muestra es sólo 10; el número correcto de grados de libertad es 9 (10 1). En la tabla 2 del apéndice se da el valor critico de t, 1.833. Empezamos con el cálculo de las pérdidas individuales, su media y su desviación estándar, y procedemos de la misma manera que al probar hipótesis sobre una sola media. Los cálculos se muestran en la tabla 10-4. A continuación, utilizamos la ecuación 8-1 para estimar la desviación estándar desconocida de la población:
ˆ s 4.40 Paso 3: Calcule el error estándar y estandarice el estadístico de la muestra
[8-1]
y ahora podemos estimar el error estándar de la media: ˆ ˆ x n
Antes
Después
189 202 220 207 194 177 193 202 208 233
170 179 203 192 172 161 174 187 186 204
Búsqueda de la media de pérdidas de peso y su desviación estándar
[8-6]
Pérdida x
Tabla 10-4
Pérdida al cuadrado x2
19 23 17 15 22 16 19 15 22 0029 x 1 9 7 x x [8-A] n
361 529 289 225 484 256 361 225 484 0000841 x2 40 ,5 5
s
x2
FIGURA 10-6
19.7
19 .3 4
0.05 del área 0.50 del área
0.45 del área
t 0
[8-C]
4,055 10(19.7)2 9 9
197 10
Valor crítico t = +1.833
nx2
n1 1 n
4.40
Prueba de hipótesis de una cola al nivel 0.05 de significancia
343
344
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
Paso 4: Grafique la distribución y señale el valor de la muestra y el valor crítico
Región de aceptación Acepte Ho si el valor de la muestra está en esta región
FIGURA 10-7 Prueba de hipótesis de una cola al nivel 0.05 de significancia, en la que se indica la región de aceptación y la media de la muestra estandarizada
Media de la muestra estandarizada
t 0
+1.833 +1.94
4.40 10 4.40 3.16 1.39 ← Error estándar estimado de la media En seguida, estandarizamos la pérdida media de peso observada, x 19.7 libras, restándole H0, la pérdida media hipotética, y dividiendo el resultado entre ˆ x, el error estándar estimado de la media: x H0 t ˆx 19.7 17 1.9 1.94
Paso 5: Interprete el resultado
¿En qué es distinta la prueba de diferencias por pares?
Una estimación conjunta de 2
Debido a que nuestra prueba de hipótesis se basa en la distribución t, utilizamos t para representar el estadístico estandarizado. La figura 10-7 ilustra la localización de la pérdida media de peso en la escala estandarizada. Vemos que la media de la muestra se encuentra fuera de la re gión de aceptación, de modo que el ejecutivo puede rechazar la hipótesis nula y llegar a la conclusión de que la pérdida de peso anunciada con el programa es legítima. Veamos en qué esta prueba de diferencias por pares es distinta de una prueba de la diferencia de las medias de dos muestras independientes. Suponga que los datos de la tabla 10-4 representan dos muestras independientes, una de 10 individuos que entran al programa y otra distinta de 10 individuos elegidos al azar que terminan el programa. Las medias y varianzas de las dos muestras se dan en la tabla 10-5. Como se trata de muestras pequeñas, utilizamos la ecuación 10-3 para obtener una estimación conjunta de 2 y la ecuación 10-4 para estimar x1xx2: (n1 1)s12 (n2 1)s22 sp2 n1 n2 – 2 (10 1)(253.61) (10 1)(201.96) 10 10 2 2282.49 1817.64 18 227.79 ← Estimación de la varianza de la población común
[10-3]
10.4: Prueba de diferencias entre medias con muestras dependientes
1
1
1
2
n n 1 1 2 27.7 9 10 10
ˆ x1x2 sp
345
[10-4]
15.09(0.45) 6.79 ← Estimación de x x 1
2
La prueba apropiada está basada, ahora, en la distribución t con 18 grados de libertad (10 10 2). Con un nivel de significancia de 0.05, el valor crítico de t, de la tabla 2 del apéndice,es 1.734. La diferencia observada de las medias muestrales es: x1 – x2 202.5 182.8 19.7 libras Ahora bien, cuando estandarizamos la diferencia de las medias de las muestras para esta prueba de muestras independientes, obtenemos: (x1 x2) – (1 2)H t 0 ˆ x1x2 (202.5 182.8) 17 6.79 0.40 Con muestras independientes, H0 no puede ser rechazada
Explicación de los resultados diferentes
¿Debemos tratar las muestras como dependientes o como independientes?
De nuevo, debido a que nuestra prueba de hipótesis se basa en la distribución t, utilizamos t para representar el estadístico estandarizado. Al comparar la diferencia estandarizada de las medias de las muestras (0.40) con el valor crítico de t (1.734), vemos que el estadístico estandarizado de la muestra ya no se encuentra fuera de la región de aceptación, de modo que esta prueba no rechazará a H0. ¿Por qué estas dos pruebas producen resultados distintos? En la prueba de muestras apareadas,la desviación estándar de la muestra de las diferencias individuales era relativamente pequeña, de manera que 19.7 libras era una cantidad significativamente mayor que la pérdida de peso hipotética de 17 libras. Sin embargo, con muestras independientes, la desviación estándar estimada de la diferencia entre las medias dependía de las desviaciones estándar de los pesos antes y después del programa. Como ambas desviaciones eran relativamente grandes, ˆx1x2 también era grande y, en consecuencia, 19.7 ya no es significativamente mayor que 17. La prueba de muestras por pares controla esta variabilidad inicial y final de los pesos al enfocar su atención solamente en los cambios indi viduales de peso. Debido a esto, pudo detectar mejor la significancia de la pérdida de peso. Concluimos esta sección con dos ejemplos que muestran cuándo tratar dos muestras de igual tamaño como dependientes o independientes: 1. Un departamento de fomento agrícola del gobierno de Estados Unidos desea determinar si una nueva semilla híbrida de maíz tiene una mayor producción que la vieja variedad estándar. Si el departamento pide a 10 granjeros que registren la producción de un acre sembrado con la nueva variedad de semilla y a otros 10 que registren la producción de un acre plantado con la vieja variedad, las dos muestras son independientes. Sin embar go, si le pide a 10 granjeros que planten un acre con cada variedad de semilla y registren los resultados, entonces las muestras Tabla 10-5 Medias y varianzas antes y después
Muestra
Tamaño
Media
Varianza
Antes Después
10 10
202.5 182.8
253.61 201.96
346
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
son dependientes, y la prueba de diferencia por pares es la adecuada. En el último caso,se pueden controlar las diferencias debidas al tipo de fertilizante e insecticida, la cantidad de lluvia y otros, debido a que cada granjero trata sus dos acres de la misma manera. En consecuencia, cualquier diferencia en la producción se puede atribuir exclusivamente a la variedad plantada. 2. La directora de recursos secretariales de una oficina grande de abogados desea determinar si la velocidad de captura de un documento depende del tipo de procesador de textos que utilice una secretaria. Si prueba a siete secretarias que utilizan el programa PicosoftWrite y siete que utilizan WritePerfect, trataría a sus muestras como independientes. Si prueba a las mismas siete secretarias dos veces (cada vez con un procesador distinto), entonces las dos muestras son dependientes. En la prueba de diferencias apareadas, las diferencias entre las secretarias no son un factor adicional, y las diferencias entre las velocidades de captura se puede atribuir a los diferentes procesadores de palabras. A menudo, al probar las diferencias entre medias tiene sentido tomar muestras que no sean independientes entre sí. Por ejemplo, si se tratara de medir el efecto de un antioxidante en las tuberías de metal, por lo general, se tomaría una muestra de la oxidación en las tuberías antes y después de aplicar el antioxidante. Al hacerlo se controSUGERENCIAS Y SUPOSICIONES
larían los efectos para distintos sitios, calor y humedad. Puesto que algunas tuberías se incluirían dos v eces, las muestras no serían independientes. Sugerencia: si se mide la oxidación en cada tubería antes y seis meses después de la aplicación, se tiene una sola muestra de los gramos de oxidación que aparecieron desde la aplicación.
Ejercicios 10.4 Ejercicios de autoevaluación EA
EA
10-5
10-6
Sherri Welch es una ingeniera de control de calidad de la división de limpiaparabrisas de Emsco, Inc. La empresa estudia dos nuevos hules sintéticos para sus limpiadores y Sherri es la encargada de determinar si los hules con los dos nuevos compuestos se desgastan igual. Equipa 12 autos de empleados de Emsco con un limpiador de cada uno de los compuestos. En los autos 1 a 6,el limpiador derecho está fabricado con el compuesto A y el izquierdo con el B; en los autos 7 a 12, el compuesto A se colocó en el limpiador izquierdo. Los carros se usaron en condiciones normales de operación hasta que los hules no realizaban un trabajo satisfactorio al limpiar el parabrisas. Los datos presentados se ref ieren a la vida útil (en días) de los hules. Para 0.05, ¿es igual el desgaste de los dos compuestos? Auto
1
2
3
4
5
6
7
8
9
Limp. izq. Limp. der.
162 183
323 347
220 247
274 269
165 189
271 257
233 224
156 178
238 263
10
11
12
211 199
241 263
154 148
Se pidió a nueve distribuidores de componentes de computadora en un área metropolitana importante que proporcionaran sus precios de dos impresoras a color de inyección de tinta. Los resultados de la encuesta se dan en la tabla (con precios en dólares). P ara 0.05, ¿es razonable asegurar que en promedio la impresora Apson es menos costosa que la Okaydata? Distribuidor
1
2
3
4
5
6
7
8
9
Precio de Apson Precio de Okaydata
$250 $270
319 325
285 269
260 275
305 289
295 285
289 295
309 325
275 300
Aplicaciones ■ 10-14
Los datos de la tabla corresponden a una muestra aleatoria de nueve empresas tomadas de la sección “Digest of Earnings Reports” (Resumen de Informes de Ingresos) del The Wall Street Journal del 6 de febrero de 1992:
347
10.4: Prueba de diferencias entre medias con muestras dependientes
a) Encuentre el cambio medio en los ingresos por acción, entre 1991 y 1992. b) Encuentre la desviación estándar del cambio y la desviación estándar del error de la media. c) ¿Fueron diferentes los ingresos medios por acción en 1991 y 1992? Pruebe con un nivel 0.02.
■ 10-15
■ 10-16
■ 10-17
■ 10-18
■ 10-19
Empresa
1
2
3
4
5
6
7
8
9
Ingreso de 1991 Ingreso de 1992
1.38 2.48
1.26 1.50
3.64 4.59
3.50 3.06
2.47 2.11
3.21 2.80
1.05 1.59
1.98 0.92
2.72 0.47
Jeff Richardson, el encargado de recepción de un distribuidor de productos químicos, se enfrenta con el problema continuo de recibir tubos de ensaye, platos Petri y matraces rotos. Jeff determinó algunas precauciones adicionales de empaque que se pueden tomar para prevenir la rotura de las piezas y ha pedido al director de adquisiciones que informe a los pro veedores de las nuevas medidas. En la tabla se dan los datos de 8 proveedores en términos del número promedio de piezas rotas por en vío. ¿Indican los datos, para 0.05, que las nuevas medidas han disminuido el número promedio de piezas rotas? Proveedor
1
2
3
4
5
6
7
8
Antes Después
16 14
12 13
18 12
7 6
14 9
19 15
6 8
17 15
Additives-R-Us desarrolló un aditi vo para mejorar la ef iciencia del combustible en camiones de car ga pesada. Probaron el aditivo seleccionando al azar 18 camiones y agrupándolos en nue ve pares. En cada par, ambos camiones llevaban el mismo tipo de carga en la misma carretera, pero sólo se puso el nuevo aditivo a uno de ellos. Cada par siguió rutas distintas y lle vó diferentes cargas. ¿Indican los datos, al nivel 0.01, que los camiones que usaron aditivo lograron una eficiencia en el uso de combustible significativamente mejor que los camiones con combustible normal? Par
1
2
3
4
5
6
7
8
9
Normal Aditivo
5.7 6.0
6.1 6.2
5.9 5.8
6.2 6.6
6.4 6.7
5.1 5.3
5.9 5.7
6.0 6.1
5.5 5.9
El club deportivo Aquarius Health anuncia un riguroso programa de acondicionamiento físico. El club asegura que después de un mes de seguir el programa, un participante promedio será capaz de hacer 8 “lagartijas” más en 2 minutos que las que podía hacer al principio. ¿La muestra aleatoria de 10 participantes en el programa, cuyos datos se dan en la tabla siguiente,apoya la afirmación del club? Utilice un nivel de significancia de 0.025. Participante
1
2
3
4
5
6
7
8
9
10
Antes Después
38 45
11 24
34 41
25 39
17 30
38 44
12 30
27 39
32 40
29 41
Donna Rose es supervisora de producción de la línea de ensamble de unidades de disco de Winchester Technologies. Recientemente, Winchester instaló un sistema de audio para música ambiental en sus instalaciones, con la idea de que la música relajara a sus obreros y condujera a una mayor producti vidad. Donna duda de esta hipótesis, teme que la música sea un foco de distracción y produzca una baja en la productividad. Muestreó la producción semanal de los mismos seis trabajadores antes de tener música ambiental y después instalar el sistema. Sus datos se presentan a continuación.A un nivel 0.02, ¿ha cambiado la producción promedio? Empleado
1
2
3
4
5
6
Semana sin música Semana con música
219 235
205 186
226 240
198 203
209 221
216 205
La velocidad de transmisión de un módem se mide en baudios,que se definen como el número de bits por segundo que puede transmitir. Debido a la intervención de varios factores técnicos, la rapidez de transmisión real varía de un archivo a otro. Anne Evans está en proceso de adquirir un módem de 28,800 baudios. Al probar dos de ellos para decidir cuál comprar, transmitió 7 archivos elegidos al azar utilizando ambos módems y registró las siguientes velocidades de transmisión (en miles de baudios). Archivo
1
2
3
4
5
6
7
Haynes Ultima 28.8 Extel PerFAXtion 28.8
9.52 10.92
10.17 11.46
10.33 11.18
10.02 12.21
10.72 10.42
9.62 11.36
9.17 10.47
348
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
La revista PC Reports afirma que en pruebas hechas por su equipo se ha encontrado que el Extel PerF AXtion es significativamente más rápido que el Haynes Ultima. Para 0.01, ¿los resultados obtenidos por Anne confirman la conclusión de la revista?
Soluciones a los ejercicios de autoevaluación EA
10-5 Auto
1
2
3
4
5
Limp. A Limp. B Diferencia
183 162 21
347 323 24
247 220 27
269 274 5
189 165 24
6 257 271 14
7
8
9
10
11
12
233 224 9
156 178 22
238 263 25
211 199 12
241 263 22
154 148 6
x 35 x 2.9167 días n 12
1 1 s2 ( x2 nx2) (4397 12(2.9167)2) 390.45, s s2 n1 11 19.76 días ˆx s/n 19.76/12 4.7042 días H0: A B
H1: A B
0.05
Los límites de la región de aceptación son t 2.201, o x 0 tˆ x 2.201(5.7042) 12.55 días 2.9167 0 x H Como el valor observado t 0 0.511 2.201 5.7042 ˆ x EA
10-6
(o x 2.9167 12.55), no ser rechaza H0. Los dos compuestos no son significativamente diferentes respecto a la vida útil. Distribuidor Precio de Apson Precio de Okaydata Diferencia
1
2
3
4
5
6
7
8
9
250 270 20
319 325 6
285 269 16
260 275 15
305 289 16
295 285 10
289 295 6
309 325 16
275 300 25
x 46 x $5.1111 n 9 1 1 2 s2 $15.63 s ( x2 nx2) (2,190 9(5.1111)2) 244.36, s 8 n1 ˆx s/n 15.63/9 $5.21 H0: O A
H1: O A
0.05
El límite superior de la región de aceptación es t 1.860, o x 0 tˆ x 1.860(5.21) $9.69 x H0 5.1111 0 Como el valor observado t 0.981 1.860 (o x $5.11 < $9.69), no se re5.21 ˆ x chaza H0. En promedio, la impresora de inyección de tinta Apson no es significativamente menos costosa que la Okaydata.
10.5 Pruebas para diferencias entre proporciones: muestras grandes Suponga que está interesado en averiguar si el Partido Republicano de Estados Unidos es más fuerte en Nueva York que en California. O tal vez desearía saber si las mujeres tienen la misma posibili-
10.5: Pruebas para diferencias entre proporciones: muestras grandes
349
dad que los hombres de adquirir automóviles deporti vos. Para llegar a conclusiones en situaciones como éstas, usted puede tomar muestras de cada uno de los dos grupos en cuestión (v otantes en Nueva York y en California, o mujeres y hombres) y utilizar las proporciones de muestra para probar la diferencia entre las dos poblaciones. El procedimiento general a seguir es muy parecido a lo que hicimos en la sección 10.2, cuando comparamos dos medias utilizando muestras independientes: estandarizamos la diferencia entre las dos proporciones de muestra y basamos nuestras pruebas en la distrib ución normal. La única diferencia importante se dará en la forma en que encontremos una estimación para el error estándar de la diferencia entre las dos proporciones de muestra. Veamos algunos ejemplos.
Pruebas de dos colas para diferencias entre proporciones Considere el caso de una compañía que fabrica productos medicinales y que está probando dos nuevos compuestos destinados a reducir los niveles de presión sanguínea. Los compuestos se administran a dos conjuntos de animales de laboratorio. En el grupo uno, 71 de 100 animales respondieron a la droga 1 con niveles menores de presión arterial. En el grupo dos, 58 de 90 animales respondieron a la droga 2 con menores niveles de presión sanguínea. La compañía desea probar a un nivel de significancia de 0.05 si e xiste una diferencia en la ef icacia de las dos medicinas. ¿De qué manera debemos proceder con respecto a este problema?
Paso 1: Establezca sus hipótesis, tipo de prueba y nivel de significancia
Paso 2: Escoja la distribución apropiada y encuentre el valor crítico
Paso 3: Calcule el error estándar y estandarice el estadístico de la muestra
p1 0.71 ← Proporción muestral de éxitos con la droga 1 q1 0.29 ← Proporción muestral de fracasos con la droga 1 n1 100 ← Tamaño de la muestra para probar la droga 1 p2 0.644← Proporción muestral de éxitos con la droga 2 q2 0.356← Proporción muestral de fracasos con la droga 2 n2 90 ← Tamaño de la muestra para probar la droga 2 H0: p1 p2 ← Hipótesis nula: no existe diferencia entre las dos drogas H1: p1 p2 ← Hipótesis alternativa: sí existe diferencia entre ellas 0.05 ← Nivel de significancia para probar esta hipótesis La figura 10-8 ilustra esta prueba de hipótesis. Debido a que la administración de la compañíaarf macéutica desea saber si existe una diferencia entre los dos compuestos, se trata de una prueba de dos colas. El nivel de significancia de 0.05 corresponde a las regiones sombreadas de la figura. Ambas muestras son suficientemente grandes para justificar el uso de la distribución normal para aproximar a la binomial. En la tabla 1 del apéndice podemos determinar que el v alor crítico de z para 0.475 del área bajo la curva es 1.96. Como en los ejemplos anteriores, empezamos por calcular la desviación estándar de la distribución de muestreo para la prueba de hipótesis. En este ejemplo, la distribución binomial es la distribución de muestreo correcta. Deseamos encontrar el error estándar de la diferencia entre dos proporciones; por tanto, debemos recordar la fórmula para el error estándar de la proporción: pq p [8-4] n Utilizando esta fórmula y procediendo como lo hicimos en la ecuación 10-1 para el error estándar de la diferencia entre dos medias, obtenemos:
Error estándar de la diferencia entre dos proporciones
p1 p2
p1q1
p2q2
n n 1
2
[10-5]
350
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
Valor crítico z = +1.96
Valor crítico z = –1.96
FIGURA 10-8 Prueba de hipótesis de dos colas de la diferencia entre dos proporciones al nivel de significancia de 0.05 Cómo estimar este error estándar
0.025 del área
0.025 del área 0.475 del área
0.475 del área
z 0
Para probar los dos compuestos, no conocemos los parámetros de la población p1, p2, q1 y q2, entonces, necesitamos estimarlos a partir de los estadísticos de la muestra p1, p2, q2 y q2. En este caso, podríamos suponer que la fórmula más práctica sería: Error estándar estimado de la diferencia entre dos proporciones Proporciones muestrales para la muestra 1
ˆp1 p 2
p1q1
Proporciones muestrales para la muestra 2
p2q2
n n 1
[10-6]
2
Pero pensemos en esto un poco más. Después de todo, si establecemos la hipótesis de que no hay diferencia entre las dos proporciones de población, entonces la mejor estimación de la proporción global de éxitos en la población es, tal vez, la proporción combinada de éxitos en ambas muestras, esto es: Mejor estimación de la número de éxitos número de éxitos proporción global de éxitos en en la muestra 1 en la muestra 2 la población con la hipótesis de tamaño total de ambas muestras que las dos proporciones son iguales
Y en el caso de los dos compuestos, utilizamos esta ecuación: Proporción global estimada de éxitos en dos poblaciones n1p1 n2p2 pˆ n1 n2 (100)(0.71) (90)(0.644) 100 90 71 58 190 0.6789 ← Estimación de la proporción global de éxitos en las poblaciones combinadas utilizando las proporciones combinadas de ambas muestras (qˆ sería 1 – 0.6789 = 0.3211)
[10-7]
10.5: Pruebas para diferencias entre proporciones: muestras grandes
351
Ahora podemos modificar la ecuación 10-6 usando los valores de pˆ y qˆ tomados de la ecuación 10-7. Error estándar estimado de la diferencia entre dos proporciones usando estimaciones combinadas de ambas muestras Estimaciones de las proporciones de población usando proporciones combinadas de ambas muestras
ˆp1 p 2
pˆ qˆ
pˆ qˆ
1
2
n n
[10-8]
(0.6789)(0.3211)
(0.6789)(0.3211)
100 90
100 90
0.2180
0.2180
0 .0 04602 0.0678 ← Error estándar estimado de la diferencia entre dos proporciones
Estandarizamos la diferencia entre las dos proporciones de la muestra observ adas, p1 – p2, dividiéndola entre el error estándar estimado de la diferencia entre dos proporciones: (p 1 p2) (p1 p2)H0 z ˆp1p2 (071 0.644) 0 0.0678 0.973 Paso 4: Bosqueje la distribución y señale el valor de la muestra y los valores críticos Paso 5: Interprete el resultado
Trazamos el valor estandarizado en una gráfica de la distribución de muestro, como la figura 10-9. En la figura 10-9 podemos ver que la diferencia estandarizada entre las dos proporciones de la muestra se encuentra dentro de la región de aceptación. Así, aceptamos la hipótesis nula y concluimos que las dos drogas nuevas producen efectos en la presión sanguínea que no son significativamente diferentes.
Pruebas de una cola para diferencias entre proporciones Conceptualmente, la prueba de una cola para la diferencia entre dos proporciones de la población es parecida a la prueba de una cola para la diferencia entre dos medias. Suponga que con f ines de imRegión de aceptación Acepte Ho si el valor de la muestra se encuentra en esta región
FIGURA 10-9 Prueba de hipótesis de dos colas de la diferencia entre dos proporciones al nivel 0.05 de significancia; se indican la región de aceptación y la diferencia estandarizada entre las proporciones de la muestra
Diferencia estandarizada entre las dos proporciones de la muestra
z –1.96
0
+0.973
+1.96
352
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
puestos, el gobierno de una ciudad ha utilizado dos métodos para re gistrar las propiedades. El primero requiere que el dueño de la propiedad se presente para proporcionar la información; el se gundo método permite que el dueño de la propiedad envíe por correo una forma fiscal con la información requerida. El alcalde de la ciudad piensa que el método que requiere la presencia de la persona produce menos errores que el otro. Autoriza un estudio de 50 listas hechas con el primer método y de 75 listas tomadas de los datos enviados por correo. El 10% de las formas llenadas ante el representante fiscal tiene errores; el 13.3% de las formas enviadas por correo tiene errores. Los resultados del muestreo pueden resumirse de la siguiente manera: p1 0.10 ← Proporción de formas entregadas en persona que contienen errores q1 0.90 ← Proporción de formas entregadas en persona que no contienen errores n1 50 ← Tamaño de la muestra de formas entregadas en persona p2 0.133 ← Proporción de formas enviadas por correo que contienen errores q2 0.867 ← Proporción de formas enviadas por correo que no contienen errores n2 75 ← Tamaño de la muestra de formas enviadas por correo El alcalde de la ciudad desea probar, al nivel de significancia de 0.15, la hipótesis de que el método de entrega personal produce una proporción menor de errores. ¿Qué deberá hacer? H0: p1 p2 H1: p1 < p2
Paso 1: Establezca sus hipótesis, tipo de prueba y nivel de significancia Paso 2: Escoja la distribución apropiada y encuentre el valor crítico
Paso 3: Calcule el error estándar y estandarice la estadística de la muestra
← Hipótesis nula: no existe diferencia entre los dos métodos ← Hipótesis alternativa: el método de entrega personal tiene una
proporción menor de errores que el método de entrega por correo
0.15 ← Nivel de significancia para probar la hipótesis Con muestras de este tamaño, podemos utilizar la distribución normal estándar y la tabla 1 del apéndice para determinar el valor crítico de z para 0.35 del área bajo la curva (0.50 0.15). Este valor, 1.04, es el límite de la región de aceptación. La figura 10-10 ilustra esta prueba de hipótesis. Como el alcalde de la ciudad desea probar si el método de entrega personal es mejor que el de envío por correo, lo apropiado es una prueba de una cola. Específicamente, se trata de una prueba de cola izquierda, ya que para rechazar la hipótesis nula, el resultado de la prueba debe caer en la región sombreada de la cola izquierda,lo cual indica que existen significativamente menos errores en las formas entregadas personalmente. Esta región sombreada de la figura 10-10 corresponde al nivel de significancia de 0.15. Para estimar el error estándar de la diferencia entre dos proporciones, primero utilizamos las proporciones combinadas de ambas muestras para estimar la proporción global de éxitos: n1 p1 n2 p2 pˆ n1 n2
[10-7]
(50)(0.10) (75)(0.133) 50 75 Valor crítico z = –1.04
FIGURA 10-10 Prueba de hipótesis de una cola para la diferencia entre dos proporciones al nivel de significancia de 0.15
0.15 del área 0.35 del área
0.50 del área
z 0
10.5: Pruebas para diferencias entre proporciones: muestras grandes
353
5 10 125 0.12 ← Estimación de la proporción global de éxitos en la población, utilizando proporciones combinadas de ambas muestras
Esta respuesta se puede usar para calcular el error estándar de la diferencia entre las dos proporciones. Con la ecuación 10-8, obtenemos:
ˆp1 p 2
pˆ qˆ pˆ qˆ n1 n2
[10-8]
(0.12)(0.88) (0.12)(0.88) 50 75 0.10560 0.10560 50 75
0 .0 0352 0.0593 ← Error estándar estimado de la diferencia entre dos proporciones, utilizando estimaciones combinadas
Utilizamos el error estándar estimado de la diferencia, ˆp1 p 2, para convertir la diferencia observada entre las dos proporciones de muestra, p1 – p2, en un valor estandarizado: ( p1 p2) (p1 p2)H0 z ˆp1 p2 (0.10 0.133) 0 0.0593 0.556 Paso 4: Bosqueje la distribución y señale el valor de la muestra y el valor crítico Paso 5: Interprete el resultado
En la figura 10-11 se muestra el lugar donde se encuentra esta diferencia estandarizada, en comparación con el valor crítico. Esta figura ilustra que la diferencia estandarizada entre las proporciones de la muestra se encuentra muy adentro de la región de aceptación y el alcalde de la ciudad debe aceptar la hipótesis nula de que no existe diferencia entre los dos métodos de recabar información. Así, si el método de envío por correo es considerablemente menos caro que el otro, el alcalde deberá pensar en aumentar su uso.
Región de aceptación Acepte Ho si el valor de la muestra se encuentra en esta región
FIGURA 10-11 Prueba de hipótesis de una cola de la diferencia entre dos proporciones, al nivel de significancia de 0.15; se indica la región de aceptación y la diferencia estandarizada entre las proporciones de muestra
Diferencia estandarizada entre las dos proporciones de la muestra
z –1.04
–0.556 0
354
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
El procedimiento es casi igual que el usado al comparar las diferencias entre dos medias de muestras independientes. La única diferencia en este caso es que primero se usan las proporciones combinadas de ambas muestras para estimar la proporción global, después la resSUGERENCIAS Y SUPOSICIONES
puesta sirve para estimar el error estándar de la diferencia entre las dos proporciones. Sugerencia: si la prueba se refiere a si una proporción es significativamente diferente de la otra, se usa la prueba de dos colas; si la prueba pregunta si una proporción es significativamente mayor o menor que la otra, entonces una prueba de una cola es adecuada.
Ejercicios 10.5 Ejercicios de autoevaluación EA
10-7
EA
10-8
Una cadena de hoteles grande intenta decidir si debe convertir más de sus cuartos en habitaciones de no fumar. El año pasado, en una muestra aleatoria de 400 huéspedes, 166 pidieron cuartos de no fumar. Este año, 205 huéspedes en una muestra de 380 prefirieron que no se fumara en su habitación. ¿Recomendaría que la cadena hotelera convirtiera más habitaciones en lugares de no fumar?Apoye su recomendación con la hipótesis adecuada a un nivel de significancia de 0.01. Dos áreas diferentes de una gran ciudad del este de Estados Unidos se estudian como sitios para abrir guarderías. De 200 casas encuestadas en una sección,la proporción de ellas en las que la madre trabaja tiempo completo es 0.52. En otra sección, el 40% de las 150 casas del estudio tiene madres que trabajan tiempo completo. Para un nivel de significancia de 0.04, ¿existe una diferencia significativa en las proporciones de madres que trabajan tiempo completo en las dos áreas de la ciudad?
Aplicaciones ■ 10-20
■ 10-21
■ 10-22
■ 10-23
El viernes, aumentó el precio (avanzaron) de 11 acciones de una muestra aleatoria de 40 tomada de las 2,500 acciones negociadas en la Bolsa de Valores de Nueva York. En una muestra tomada el jueves, de 60 acciones de la misma Bolsa, 24 acciones avanzaron. A un nivel 0.10, ¿puede llegar a la conclusión de que una proporción menor de las acciones de la Bolsa de Valores avanzaron el viernes con respecto al jueves? MacroSwift acaba de liberar al mercado un nuevo procesador de textos y la compañía está interesada en determinar si las personas en el grupo de edad 30-39 calif ican al programa de manera distinta a las del grupo 40-49. MacroSwift muestreó al azar a 175 personas del grupo 30-39 que compraron el producto y encontró que 87 calificaron al programa como excelente; de ellos, 52 comprarían una actualización. También muestreó a 220 personas del grupo 40-49 y encontró que 94 calificaron al software como excelente; de ellos, 37 comprarían una actualización. ¿Hay una diferencia signif icativa en las proporciones de personas en los dos grupos de edad que califican al programa como excelente al nivel 0.05? ¿Es cierto el mismo resultado en cuanto a las proporciones de personas que planean comprar una actualización? Una planta de energía impulsada por carbón está considerando dos sistemas diferentes para reducir la emisión de contaminantes. El primer sistema reduce la emisión a ni veles aceptables el 68% del tiempo, según 200 muestras de aire. El segundo sistema, más costoso, la reduce a niveles aceptables el 76% del tiempo, de acuerdo con 250 muestras. Si el sistema costoso es signif icativamente más efectivo que el otro al reducir la emisión de contaminantes a niveles aceptables, entonces la administración de la planta instalará el sistema costoso. ¿Qué sistema se debe instalar si la administración usa un ni vel de significancia de 0.02 al tomar su decisión? Un grupo de investigadores médicos está llevando a cabo pruebas en pacientes para determinar la efectividad de una nueva medicina contra la hipertensión. Se eligieron al azar pacientes con alta presión sanguínea y se asignaron, también en forma aleatoria, a un grupo de control (que recibió un conocido medicamento contra la hipertensión) o al grupo de tratamiento (que recibió la nue va medicina). Los médicos registraron el porcentaje de pacientes cuya presión arterial se redujo a un nivel normal después de un año de tratamiento. Al nivel de significancia de 0.01, pruebe las hipótesis apropiadas para determinar si la nueva medicina es significativamente más efectiva para reducir la presión sanguínea que la medicina conocida.
10.5: Pruebas para diferencias entre proporciones: muestras grandes
■ 10-24
■ 10-25
Grupo
Proporción que mejoró
Número de pacientes
Tratamiento Control
0.45 0.36
120 150
355
La librería de la universidad se enfrenta a una competencia significativa con librerías fuera de ella y está considerando dirigir sus ventas a una generación específica para retener a los estudiantes como clientes. Se realizó un muestreo aleatorio de 150 estudiantes de primer año y 175 de segundo. Encontraron que el 46% de primer año y el 40% de segundo compraban todos sus libros de texto en la librería universitaria. Para 0.10, ¿existe una diferencia significativa en las proporciones de estudiantes de primero y segundo año que compran todo en la librería de la universidad? Como parte de la preparación para las negociaciones de renovación del contrato colectivo de trabajo, el Sindicato Unido de Manufactureros hizo una investigación entre sus afiliados para ver si hay preferencia por un aumento grande en los benef icios para el retiro y un menor incremento al salario. En un grupo de 1,000 miembros masculinos que fueron entrevistados, 743 estaban a favor de un aumento en los beneficios de retiro. De 500 miembros femeninos del sindicato, 405 estaban a favor del aumento en los beneficios de retiro. a) Calcule p. ˆ b) Calcule el error estándar de la diferencia entre las dos proporciones. c) Pruebe la hipótesis de que igual proporción de hombres que de mujeres están a favor de un aumento en los beneficios de retiro. Utilice un nivel de significancia de 0.05.
Soluciones a los ejercicios de autoevaluación EA
10-7
n1 400 H0: p1 p2
n2 380 p1 0.415 p2 0.5395 H1: p1 p2 0.01 400(0.415) 380(0.5395) n1p1 n2p2 pˆ 0.4757 400 380 n1 n2
ˆp1 p 2
1
1
1
2
1
1
0.4757(0.5243) 0.0358 pˆqˆ n n 400 380
El límite inferior de la región de aceptación es z 2.33, o p1 p2 0 zˆp1 p2 2.33(0.0358) 0.0834 0.415 0.5395 p1 p2 3.48 2.33 (o p p 0.1245 Como el valor observado z 1 2 0.0358 ˆp p 1
EA
10-8
2
0.0834), se rechaza H 0. La cadena de hoteles debe con vertir más cuartos en habitaciones de no fumar puesto que hay un incremento signif icativo en la proporción de huéspedes que piden estos cuartos respecto al año pasado. n2 150 n1 200 p1 0.52 p2 0.40 H1: p1 p2 0.04 H0: p1 p2 200(0.52) 150(0.40) n1p1 n2p2 0.4686 pˆ 200 150 n1 n2
ˆp1 p2
1
1
1
2
1
1
0.4686(0.5314) 0.539 pˆ qˆ n n 200 150
Los límites de la región de aceptación son z 2.05, o
p1 p2 0 zˆp1 p 2 2.05(0.0539) 0.1105 0.52 0.40 p1 p2 2.23 2.05 (o p1 p2 0.12 0.1105), se Como el valor observado z 0.0539 ˆp p 1
2
rechaza H0. Las proporciones de madres que trabajan en las dos áreas difieren de manera significativa.
356
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
10.6 Valor P: otra manera de ver las pruebas de hipótesis
¿Cómo escogemos un nivel de significancia?
Decisiones antes de tomar una muestra
Valores de prueba P
Otra ventaja
En el trabajo realizado sobre pruebas de hipótesis hasta ahora, una de las primeras cosas que tuvimos que hacer fue escoger un nivel de significancia, , para la prueba. Se ha vuelto tradicional seleccionar un nivel de significancia de 10, 5, 2 o 1%, y casi todos nuestros ejemplos se han resuelto con esos niveles. Pero, ¿por qué utilizar solamente esos valores? Cuando analizamos los errores tipo I y tipo II, vimos que la elección del nivel de significancia dependía de un trueque entre los costos de cada tipo de error. Si el costo de un error tipo I (rechazo incorrecto de H0) es relativamente alto, intentamos evitar este tipo de error y, en consecuencia, escogemos un valor pequeño de . Por otro lado, si un error tipo II (aceptación incorrecta de H0) es relativamente más caro, es preferible cometer un error tipo I, y escogemos un valor alto de . Sin embargo, entender la naturaleza del trueque no nos dice cómo escoger un nivel de significancia. Cuando probamos las hipótesis: H0: H0 H1: H0 0.05 tomamos una muestra, calculamos x y rechazamos H0 si x está tan alejada de H0 que la probabilidad de encontrarse un valor de x tan lejos (o más) de H0 es menor que 0.05. En otras palabras, antes de tomar la muestra especificamos qué tan improbables deberán ser los resultados observados para que rechacemos H0. Existe otra forma de enfocar la decisión de aceptar o rechazar H0 que no requiere especificar el nivel de significancia antes de tomar la muestra. Veamos cómo es que funciona. Suponga que tomamos una muestra, calculamos x y luego nos preguntamos: “suponiendo que H0 es cierta, ¿cuál es la probabilidad de obtener un v alor de x a esta distancia o mayor de H0?” Esta probabilidad se conoce como valor P. Mientras que antes nos preguntábamos, “¿es menor que la probabilidad de lo que observamos?”, ahora nos preguntamos, “¿qué tan improbable es el resultado que observamos?”. Una vez que se informa el valor P de la prueba, en ese momento el tomador de decisiones puede evaluar los factores relevantes y decidir si acepta o rechaza H0, sin que lo limite un nivel de significancia especificado. Otro beneficio de utilizar valores P es que proporcionan más información. Si se sabe que se ha rechazado H0 al nivel 0.05, solamente sabe que x se encuentra al menos 1.96 errores estándar alejado de H0. Sin embargo, un valor P de 0.05 nos dice que x está exactamente a 1.96 errores estándar de H0. Veamos un ejemplo.
Valores P de dos colas cuando se conoce
Planteamiento del problema en símbolos
Se utiliza una máquina para cortar bloques de queso suizo con un peso específico. Con base en una larga experiencia, se ha observado que el peso de los bloques sigue una distribución normal con desviación estándar de 0.3 onzas. La máquina está ajustada para cortar bloques de 12 onzas. En una muestra de nueve bloques se encontró que el peso promedio es 12.25 onzas. ¿Debemos concluir que la máquina cortadora necesita reajustarse? Escrito con símbolos, los datos del problema son:
H0 12 0.3 n9 x 12.25
← Valor hipotético de la media de la población ← Desviación estándar de la población ← Tamaño de la muestra ← Media de la muestra
Las hipótesis que deseamos probar son: H0: 12 ← Hipótesis nula: el peso medio verdadero de la población es 12 onzas H1: 12 ← Hipótesis alternativa: el peso medio verdadero de la población no es de 12 onzas
10.6: Valor P: otra manera de ver las pruebas de hipótesis
357
Como se trata de una prueba de dos colas, el valor P es la probabilidad de observar un valor de x alejado de la media 12 (en cualquier dirección) hasta 12.25, si H0 es cierta. En otras palabras, el valor P es la probabilidad de obtener x 12.25 o x 11.75 si H0 es cierta. Para encontrar esta probabilidad, primero utilizamos la ecuación 7-1 para calcular el error estándar de la media:
x n 0.3 9 0.3 3
Cálculo del error estándar de la media
[7-1]
0.1 onza ← Error estándar de la media Éste se usa para convertir x en un resultado z estándar: x z x
Búsqueda del resultado z del valor P
[7-2]
12.25 – 12 0.1 0.25 0.1 2.5
Relación entre los valores P y los niveles de significancia
En la tabla 1 del apéndice observamos que la probabilidad de que z sea mayor que 2.5 es 0.5000 0.4938 0.0062. En consecuencia, como se trata de una prueba de dos colas, el valor P es 2(0.0062) 0.0124. La figura 10-12 ilustra estos resultados. Dada esta información, el empacador de queso puede ahora decidir si recalibra la máquina (rechaza H0) o no (acepta H0). ¿Cómo se relaciona esto con lo que hicimos cuando especif icamos un nivel de significancia? Si hubiéramos adoptado un nivel de significancia de 0.05, habríamos rechazado H 0. Esto puede verse en la figura 10-12. Para un nivel de significancia de 0.05, rechazamos H0 si x se encuentra tan alejada de H0 menos de 0.05 del área bajo la curva se queda en las dos colas. Como el valor observado de x 12.25 sólo deja 0.0124 del área total en las colas, rechazaríamos H0 a un nivel de significancia 0.05. [También puede verificar este resultado observando en la tabla 1 del apéndice que los valores críticos z para 0.05 son 1.96. Así, el valor estandarizado de x (2.5) está fuera de la región de aceptación.] Valor crítico z = –1.96
Región de aceptación Acepte Ho si el valor de la muestra se encuentra en esta región
Valor crítico z = +1.96
Media de la muestra estandarizada
FIGURA 10-12 Prueba de hipótesis de dos colas; indica el valor P de 0.0124 (en ambas colas combinadas)
0.0062 del área
0.0062 del área
z –2.5
0
+2.5
358
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
De manera parecida, podemos ver que a un nivel de significancia de 0.01, hubiéramos aceptado H0 debido a que x 12.25 deja más de 0.01 del área bajo la curv a en las colas (en este caso, los valores críticos z para 0.01 serían 2.58, y el valor estandarizado de x, 2.5, se estaría dentro de la región de aceptación). De hecho, a cualquier nivel de mayor que 0.0124 rechazaríamos la hipótesis nula H0. Así, vemos que el valor P es precisamente el nivel máximo de significancia para el cual aceptaríamos H0.
Valores P para otras condiciones En nuestro ejemplo, hicimos una prueba de hipótesis de dos colas utilizando la distribución normal. ¿Cómo hubiéramos procedido con otras condiciones? Valores P de una cola
Uso de la distribución t
1. Si fuera conocida y estuviéramos realizando una prueba de una cola, habríamos calculado el valor P exactamente de la misma manera, con la excepción de que no multiplicaríamos por dos la probabilidad obtenida en la tabla 1 del apéndice, pues esa tabla da las probabilidades de una cola directamente. 2. Si no se conociera , habríamos utilizado la distribución t con n 1 grados de libertad y la tabla 2 del apéndice. Esta tabla da probabilidades de dos colas, pero sólo unas cuantas, de modo que no podemos obtener v alores P exactos. Por ejemplo, para una prueba de dos colas, si H0 50, x 49.2, s 1.4 y n 16, encontramos que:
ˆ ˆx n 1.4 16
[8-6]
0.35
Valores P en otros contextos
y que x se encuentra a 2.286 errores estándar abajo de H0 [(49.2 50)/0.35 2.286]. En el renglón de 15 grados de libertad en la tabla 2 del apéndice, vemos que 2.286 se encuentra entre 2.131 ( 0.05) y 2.602 ( 0.02). Nuestro valor P es entonces algún valor que está entre 0.02 y 0.05, pero no podemos ser más precisos. La mayoría de los paquetes estadísticos de computadora dan como resultado v alores P exactos, no nada más para pruebas de medias basadas en la distribución normal, sino también para otras pruebas como ji-cuadrada y análisis de varianza (que estudiaremos en el capítulo 11) y pruebas en el contexto de la regresión lineal (que se verán en los capítulos 12 y 13). El análisis hecho en esta sección le permitirá entender los valores P también en esos contextos. Aunque se tengan diferentes estadísticos y distribuciones, las ideas son las mismas.
Los valores P y las computadoras han suprimido la necesidad de b uscar valores en las tablas de la distribución z o t, y eliminan el trabajo tedioso de las pruebas de hipótesis. Advertencia: cuanto más pequeño sea el valor P, mayor será la signif icancia del estudio. Sugerencia: se SUGERENCIAS Y SUPOSICIONES
puede evitar la confusión aquí al recordar que un valor P es la probabilidad de que el resultado obtenido haya podido ocurrir por el error de muestreo; así, los valores P más pequeños significan menor posibilidad de error de muestreo y mayor significancia.
Ejercicios Ejercicios de autoevaluación EA
10-9
El Instituto del Café asegura que más del 40% de los adultos de Estados Unidos toma una taza de café en el desayuno. Una muestra aleatoria de 450 individuos reveló que 200 de ellos toman café de manera ha-
10.6: Valor P: otra manera de ver las pruebas de hipótesis
EA 10-10
359
bitual en el desayuno. ¿Cuál es el valor P para una prueba de hipótesis que busca mostrar que la afirmación del Instituto del Café es correcta? (Sugerencia: pruebe H0: p 0.4, contra H1: p > 0.4.) ¿Cuál es el valor P aproximado para la prueba del ejercicio de verificación 10-3?
Aplicaciones ■ 10-26
■ 10-27
■ 10-28
■ 10-29
■ ■ ■ ■ ■ ■ ■ ■
10-30 10-31 10-32 10-33 10-34 10-35 10-36 10-37
Una vendedora de automóviles usados piensa que un fabricante de llantas exagera cuando afirma que sus llantas tienen una duración de 40,000 millas. Re gistra cuidadosamente el número de millas obtenido de una muestra de 64 llantas. Obtiene una media de 38,500 millas. El fabricante había calculado desviación estándar de la vida de todas las llantas de este tipo en 7,600 millas. Suponiendo que el número de millas tiene una distribución normal, determine el nivel de significancia más alto al cual aceptaríamos la afirmación del fabricante, es decir, el nivel al cual no concluiríamos que el número de millas es signif icativamente menor que 40,000 millas. El Departamento de Transporte de Carolina del Norte ase gura que, cuando mucho, el 18% de los autos excede 70 mph en la interestatal 40, entre Raleigh y Durham. Una muestra aleatoria de 300 automóviles encontró que 48 autos excedían las 70 mph. ¿Cuál es el v alor P para una prueba de hipótesis que b usca mostrar que la afirmación del DTCN es correcta? En el taller mecánico de Kelly utilizan una sierra de motor para cortar el tubo que se usa en la manuf actura de dispositivos de medición de presión. La longitud de los segmentos de tubo está distribuida normalmente con una desviación estándar de 0.06 pulg. Se cortaron 25 piezas de tubo con la sierra calibrada para secciones de 5.00 pulg. Cuando se midieron estas piezas, se encontró que su longitud media era 4.97 pulg. Utilice valores P para determinar si la máquina debe ser recalibrada debido a que la longitud media es significativamente diferente de 5.00 pulg. Un centro de asesoría académica anuncia que el 80% de las veces, su curso de regularización incrementa el resultado individual de un alumno que presenta los e xámenes de admisión a la universidad al menos 50 puntos, respecto al resultado combinado de las pruebas oral y escrita. Lisle Johns, gerente de comercialización del centro de asesoría, desea saber si su anuncio es razonable. Revisó los resultados de 125 estudiantes que tomaron el curso y encontró que 94 de ellos,efectivamente, aumentaron sus resultados 50 puntos o más. Utilice valores P para determinar si los anuncios del centro de asesoría deben cambiarse debido a que el porcentaje de estudiantes que aumentan su calificación es significativamente distinto del 80%. ¿Cuál es el valor P para la prueba del ejercicio 10-2? ¿Cuál es el valor P para la prueba del ejercicio 10-3? ¿Cuál es el valor P aproximado para la prueba del ejercicio 10-8? ¿Cuál es el valor P aproximado para la prueba del ejercicio 10-11 ? ¿Cuál es el valor P aproximado para la prueba del ejercicio 10-14? ¿Cuál es el valor P aproximado para la prueba del ejercicio 10-15? ¿Cuál es el valor P para la prueba del ejercicio 10-22? ¿Cuál es el valor P para la prueba del ejercicio 10-25?
Soluciones a los ejercicios de autoevaluación EA
10-9
n 450
p 200/450 0.4444 H1: p 0.4 H0: p 0.4
El valor P es la probabilidad de que p 0.4444, es decir, 0.4444 0.4 P z P(z 1.92) 0.5 0.4726 0.0274 0 .4 (0 .6 )/450
EA 10-10
De la solución del ejercicio EA 10-3, se tiene t 2.766, con 12 9 2 19 grados de libertad. Del renglón para 19 grados de libertad de la tabla 2 del apéndice, se ve que 2.766 está entre 2.861 (que corresponde a una probabilidad de 0.01/2 0.005 en la cola inferior) y 2.539 (que corresponde a una probabilidad de 0.02/2 0.01 en la cola inferior). Por tanto, el valor P para la prueba está entre 0.005 y 0.01.
360
CAPÍTULO 10 Prueba de hipótesis: pruebas de dos muestras
10.7 Uso de computadoras para las pruebas de hipótesis Cuando se diseñó el examen final del curso de estadística impartido durante el otoño de 1995,se esperaba que la calificación promedio aproximada fuera 75% (56.25 puntos de un resultado máximo posible de 75). Probemos (a un nivel 0.05) si ocurrió lo que esperábamos. H0: 56.25 ← El examen tenía la dificultad deseada H1: 56.25 ← No se logró la dificultad deseada 0.05 ← Nivel de significancia para esta prueba
Planteamiento del problema en símbolos
Interpretación de los resultados
En la figura 10-13 utilizamos Minitab para analizar los datos del apéndice 10. El v alor observado de t para esta prueba fue 15.45, con un valor P (de dos colas) asociado de 0.0000. Como este valor P es menor que nuestro ni vel de significancia de 0.05, debemos rechazar H 0 y concluir que la prueba no logró el nivel deseado de dificultad (de hecho, el examen resultó ser mucho más difícil de lo que intentamos). La universidad ha estado recibiendo muchas quejas sobre la calidad de la enseñanza que imparten los estudiantes de posgrado que son ayudantes de profesor. Como resultado, nos preguntamos si los estudiantes que acudían a secciones que impartían los ayudantes salían más bajos en el e xamen que aquellos que iban a las secciones impartidas por profesores. Si las secciones de ayudantes son la muestra 1 y las de profesores la muestra 2,entonces las hipótesis apropiadas para probar esta preocupación son: H0: 1 2 ← La preocupación no está apoyada por los datos H1: 1 5 2 ← La preocupación está apoyada por los datos
Establecimiento del problema de manera simbólica
La salida de Minitab para este prueba se da en la f igura 10-14. Observe que los resultados de la prueba se presentan suponiendo que las v arianzas de las dos poblaciones son iguales. Si podemos suponer esto, entonces la prueba que reporta Minitab es la prueba estudiada en las páginas 346-347, donde se calculó una estimación combinada para 2.
Prueba T de la media FIGURA 10-13 Uso de Minitab para probar hipótesis sobre una media de población
Prueba de mu = 56.250 vs mu no = 56.250 Variable Final
N 199
Media 45.281
DesvEst 10.014
EEst Media 0.710
T -15.45
Valor P 0.0000
Prueba T de dos muestras e intervalo de confianza Dosmuestras T para FINAL NUMINSTR N Media 1 89 44.93 2 110 45.6
DesvEst 9.76 10.2
EEst Media 1.0 0.98
FIGURA 10-14
I.C. 95% para mu 1 - mu 2: (-3.5, 2.19)
Uso de Minitab para probar hipótesis sobre la diferencia entre dos medias
Prueba T mu 1 = mu 2 (vs 7.779. Los datos no se describen bien mediante una distrib ución normal con 71 y 15. Jeff está equivocado.
11.4 Análisis de varianza Función del análisis de varianza
Situaciones en las que podemos utilizar ANOVA
Antes, en este capítulo, utilizamos la prueba ji-cuadrada para examinar las diferencias entre más de dos proporciones muestrales y para hacer inferencias acerca de si las muestras se tomaron de poblaciones que contenían la misma proporción. En esta sección, aprenderemos una técnica conocida como análisis de varianza (a menudo abreviada ANOVA: analysis of variance), que permite probar la significancia de las diferencias entre más de dos medias muestrales. Usando el análisis de varianza, podremos hacer inferencias acerca de si nuestras muestras se tomaron de poblaciones que tienen la misma media. El análisis de varianza será útil en situaciones tales como la comparación del kilometraje logrado por cinco clases diferentes de gasolina; la prueba de cuál de cuatro métodos de capacitación produce el aprendizaje más rápido; o en la comparación de los ingresos del primer año de los graduados de una media docena de escuelas de administración. En cada caso, se pueden comparar las medias de más de dos muestras.
Planteamiento del problema Cálculo de la gran media
En el problema del director de capacitación con que iniciamos el capítulo, se querían evaluar tres métodos de capacitación para determinar si había alguna diferencia en su efectividad. Después de terminar el periodo de capacitación, los especialistas en estadística de la compañía tomaron 16 nuevos empleados asignados aleatoriamente a los tres métodos de capacitación.* Con*Aunque en la práctica, 16 personas no constituyen una muestra estadística,hemos limitado el número para poder ilustrar las técnicas básicas del análisis de varianza y evitar cálculos tediosos.
11.4:Análisis de varianza
395
tando los resultados de la producción de estos 16 empleados,el personal de estadística resumió los datos y calculó su producción media (vea la tabla 11-12). Ahora bien, si deseamos determinar la gran media o x (la media del grupo completo de 16 empleados nuevos), podemos utilizar uno de dos métodos: 5 18 19 22 11 22 27 18 21 17 18 24 19 16 22 15 1. x 16 304 16 19 ← Gran media utilizando todos los datos 2. x (5/16)(17) (5/16)(21) (6/16)(19) 304 6 19 ← Gran media como promedio ponderado de las medias muestrales, utilizando los tamaños relativos de las muestras como pesos
Planteamiento de las hipótesis En este caso, la razón para utilizar análisis de varianza es decidir si estas tres muestras (una muestra es el pequeño grupo de empleados capacitados por cualquier método) se tomaron de poblaciones (una población es el número total de empleados que pudieron ser capacitados por ese método) que tienen las mismas medias. Debido a que estamos probando la efecti vidad de los tres métodos de capacitación, debemos determinar si las tres muestras, representadas por las medias muestrales, x1 17, x2 21 y x3 19, pudieron haberse tomado de poblaciones con la misma media, . Un planteamiento formal de las hipótesis nula y alternativa que deseamos probar sería: H0: 1 2 3 ← Hipótesis nula H1: 1, 2 y 3 no son todas iguales ← Hipótesis alternativa
Planteamiento del problema en símbolos Interpretación de los resultados
Si podemos concluir, a partir de nuestra prueba, que las medias de las muestras no dif ieren significativamente, podemos inferir que la selección del método de capacitación no influye en la productividad del empleado. Por otro lado, si encontramos entre las medias muestrales diferencias demasiado grandes para atribuirlas al error aleatorio de muestreo,podemos inferir que el método utilizado para capacitar a los trabajadores sí influye en su producti vidad. En ese caso, ajustaríamos nuestro programa de capacitación de acuerdo con los resultados.
Análisis de varianza: conceptos básicos Suposiciones hechas en el análisis de varianza
Con el fin de utilizar el análisis de varianza, debemos suponer que cada una de las muestras se toma de una población normal y que cada una de estas poblaciones tiene la misma v arianza, 2. Sin emTabla 11-12 Producción diaria de 16 empleados nuevos
Método 1
Método 2
15 18 19 22 11 85
5 17 x1 n1 5
022 027 018 021 017 105
5 21 x2 n2 5
Método 3 018 024 019 016 022 015 114
6 19 x3 ← Medias muestrales n3 6 ← Tamaños de muestra
396
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
bargo, si los tamaños de muestra son lo suf icientemente grandes, no necesitamos la suposición de normalidad. En el problema de los métodos de capacitación, la hipótesis nula establece que las tres poblaciones tienen la misma media. Si esta hipótesis es v erdadera, no es necesario clasificar los datos en tres columnas, como en la tabla 11-12, y el conjunto entero de 16 mediciones de productividad puede considerarse como una muestra de una sola población. Esta población total tiene también una varianza 2. El análisis de varianza está basado en una comparación de dos estimaciones difer entes de la varianza, 2, de nuestra población total. En este caso, podemos calcular una de esas estimaciones examinando la varianza entre las tres medias muestrales, que son 17, 21 y 19. La otra estimación de la varianza de la población está determinada por la variación dentro de las tres muestras mismas, esto es (15, 18, 19, 22, 1l), (22, 27, 18, 21, 17) y (18, 24, 19, 16, 22, 15). Entonces comparamos estas dos estimaciones de la varianza de la población. Como ambas son estimaciones de 2, deben tener un valor aproximadamente igual cuando la hipótesis nula sea verdadera. Si la hipótesis nula no es verdadera, estas dos estimaciones diferirán de manera considerable. Entonces,los tres pasos del análisis de varianza son: Pasos del análisis de varianza
1. Determinar una estimación de la varianza de la población a partir de la varianza entre las medias de las muestras. 2. Determinar una segunda estimación de la varianza de la población a partir de la varianza dentro de las muestras. 2. Comparar estas dos estimaciones. Si su valor es aproximadamente igual, se acepta la hipótesis nula. En lo que resta de esta sección, aprenderemos cómo calcular estas dos estimaciones de la varianza de la población, cómo compararlas y cómo efectuar una prueba de hipótesis e interpretar los resultados. A medida que aprendamos a hacer estos cálculos, no pierda de vista que todos ellos están basados en los tres pasos anteriores.
Cálculo de la varianza entre las medias muestrales Búsqueda de la primera estimación de la varianza de la población
El paso 1 en el análisis de varianza indica que debemos obtener una estimación de la varianza de la población a partir de la varianza entre las tres medias de las muestras. En lenguaje estadístico, esta estimación se conoce como varianza entre columnas. En el capítulo 8 utilizamos la ecuación 8-B para calcular la varianza de la muestra: Varianza de la muestra →
Primero encuentre la varianza entre las medias muestrales
(x x)2 s 2 n1
[8-B]
Ahora bien, como estamos trabajando con tres medias muestrales y una gran media, sustituyamos x por x, x por x, y k (el número de muestras) por n, para obtener una fórmula para la varianza entre las medias de las muestras: Varianza entre medias muestrales 2
(x x) s2x k1
Después, encuentre la varianza de la población utilizando la varianza entre las medias muestrales
[11-4]
Ahora podemos regresar un momento al capítulo 7, en donde definimos el error estándar de la media como la desviación estándar de todas las muestras posibles de un tamaño dado. La fórmula para derivar el error estándar de la media es la ecuación 7-1: Error estándar de la media (desviación estándar de todas las medias muestrales posibles de un tamaño de muestra dado)
Desviación estándar de la población
x n
Raíz cuadrada del tamaño de la muestra
[7-1]
11.4:Análisis de varianza
397
Podemos simplificar esta ecuación con la multiplicación cruzada y luego elevando ambos lados al cuadrado para convertir la desviación estándar de la población, , en la varianza de la población, 2: Varianza de la población
2 x2 n
[11-5]
Error estándar elevado al cuadrado (ésta es la varianza entra las medias muestrales)
Para el problema de los métodos de capacitación, no tenemos toda la información necesaria para utilizar esta ecuación y encontrar 2. Específicamente, no conocemos 2x. Sin embargo, podríamos calcular la varianza entre las medias de las muestras, s 2x , con la ecuación 11-4. Así, ¿por qué no sustituir sx2 en lugar de 2x en la ecuación 11-5 y calculamos una estimación de la varianza de la población? Esto nos da:
n(x x)2 ˆ 2 s 2x n k1 Qué tamaño de muestra utilizar
Existe una pequeña dificultad al utilizar esta ecuación tal como está. En la ecuación 7-1, n representa el tamaño de la muestra, pero, ¿qué tamaño de muestra debemos usar cuando las diferentes muestras tienen diferentes tamaños? Resolv emos este problema con la ecuación 11-6, en la que cada (xj x)2 se multiplica por su propia nj. Estimación de la varianza entre columnas Primera estimación de la varianza de la población
nj(xj x)2 → ˆ b2 k1
[11-6]
donde, 2 • ˆ b nuestra primera estimación de la varianza de la población, basada en la varianza entre las medias de las muestras (la varianza entre columnas) • nj tamaño de la j-ésima muestra • xj media muestral de la j-ésima muestra • x gran media • k número de muestras
Ahora podemos utilizar la ecuación 11-6 y los datos de la tabla 11-12 para calcular la v arianza entre columnas. En la tabla 11-13 se muestra cómo hacer dichos cálculos. Tabla 11-13
n
x
x
x – x
Cálculo de la varianza entre columnas
5 5 6
17 21 19
19 19 19
17 19 2 21 19 2 19 19 0
nj(xj x )2 40 ˆ 2b 31 k1
[11-6]
40 2 20 Varianza entre columnas
( x – x )2 (2)2 4 (2)2 4 (0)2 0
n (x
– x )2
5 4 20 5 4 20 6 0 00
nj (xj x )2 40
398
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Cálculo de la varianza dentro de las muestras Búsqueda de la segunda estimación de la varianza de la población
El paso 2 en ANOVA requiere una segunda estimación de la varianza de la población, basada en la varianza dentro de las muestras. En términos estadísticos, se le puede llamar varianza dentro de columnas. El problema de capacitación tiene tres muestras de cinco o seis elementos cada una. Podemos calcular la varianza dentro de estas tres muestras usando la ecuación 8-B: Varianza de la muestra
n(x x)2 → s2 n1
[8-B]
Dado que hemos supuesto que la varianza de nuestras tres poblaciones es la misma, podemos utilizar cualquiera de las tres varianzas muestrales (s21, s22 o s23) como la segunda estimación de la varianza de la población. En términos estadísticos, podemos obtener una mejor estimación de la varianza de la población mediante un promedio ponderado de las tres v arianzas de muestra. La fórmula general para esta segunda estimación de 2 es Estimación de la varianza dentro de columnas Segunda estimación de la varianza de la población
nj 1 2 → ˆ w s2j nT k
[11-7]
donde, 2 • ˆw nuestra segunda estimación de la varianza de la población, basada en las varianzas dentro de las muestras (la varianza dentro de columnas) • nj tamaño de la j-ésima muestra 2 • s j varianza muestral de la j-ésima muestra • k número de muestras • nT nj tamaño de la muestra total
Uso de toda la información disponible
Esta fórmula utiliza toda la información que tenemos a nuestra disposición, no nada más una parte de ella. De haber tenido siete muestras en lugar de tres,habríamos tomado un promedio ponderadode las siete. Más adelante explicaremos los pesos usados en la ecuación 11-7. En la tabla 11-14 se ilustra cómo calcular esta se gunda estimación de la v arianza de la población, utilizando las varianzas dentro de las tres muestras.
Prueba de hipótesis F : cálculo e interpretación del estadístico F Búsqueda del cociente F
En el paso 3 de ANOVA se comparan estas dos estimaciones de la varianza de la población mediante el cálculo de su cociente como sigue: primera estimación de la varianza de la población basada en la varianza entre las medias muestrales F segunda estimación de la varianza de la población basada en las varianzas dentro de las muestras
[11-8]
Si sustituimos con la terminología estadística, en el numerador y el denominador de este cociente, la ecuación 11-8 se convierte en: Estadístico F varianza entre columnas ˆ 2 F 2b varianza dentro de columnas ˆ w
[11-9]
399
11.4:Análisis de varianza
Método de capacitación 1 Media muestral: x 17
Tabla 11-14 Cálculo de las varianzas dentro de las muestras y la varianza dentro de columnas
xx 15 17 2 18 17 1 19 17 2 22 17 5 11 17 6
Método de capacitación 2 Media muestral: x 21
(x x )2
xx
(2)2 4 (1)2 1 (2)2 4 (5)2 25 (6)2 36 (x – x )2 70
(x x) 2
22 21 1 27 21 6 18 21 3 21 21 0 17 21 4
(x x)2 70 n1 51
(1)2 1 (6)2 36 (3)2 9 (0)2 0 (4)2 16 (x – x)2 62
18 19 1 24 19 5 19 19 0 16 19 3 22 19 3 15 19 4
Varianza de la muestra → s22 15.5
nj 1
(x x)2 (1)2 1 (5)2 25 (0)2 0 (3)2 9 (3)2 09 (4)2 16 (x – x)2 60
(x x)2 70 n1 61
62 4
Varianza de la muestra → s21 17.5
ˆ 2
xx
(x x)2 62 n1 51
70 4
Y:
Método de capacitación 3 Media muestral: x 19
60 5 Varianza de la muestra → s23 12.0
s (4/13)(17.5) (4/13)(15.5) (5/13)(12.0) n k 2 j
[11-7]
T
192 13
Segunda estimación de la varianza de la población basado en las varianzas dentro de las muestras 14.769 ← (la varianza dentro de columnas)
Ahora podemos encontrar el cociente F para el problema del método de capacitación que hemos estado manejando: varianza entre columnas ˆ 2b F 2 varianza dentro de columnas ˆ w
[11-9]
20 14.769 1.354 ← Cociente F Interpretación del cociente F
Una vez encontrado el cociente F, 1.354, ¿cuál es su interpretación? Primero examinamos el denominador, que está basado en la varianza dentro de las muestras. El denominador es un buen estimador de 2 (la varianza de la población) ya sea que la hipótesis nula sea verdadera o no. ¿Qué sucede con el numerador? Si la hipótesis nula de que los métodos de capacitación tienen el mismo efecto en la producción es verdadera, entonces el numerador, o la variación entre las medias de la muestras de los tres métodos, es también una buena estimación de 2 (la varianza de la población). Como resultado, el denominador y el numerador deben ser aproximadamente iguales si la hipótesis nula es verdadera. Cuanto más cercano a 1 esté el cociente F, más nos inclinamos a aceptar la hipótesis nula. Al contrario, conforme el cociente F crece, nos inclinaremos más a rechazar la hipótesis nula y a aceptar la alternativa (de que existe una diferencia en los efectos sobre la producción de los tres métodos de capacitación). Dentro de poco aprenderemos una manera más formal de decidir cuándo aceptar o rechazar la hipótesis nula. Pero incluso en este momento, debe entender la lógica básica que apoya el estadístico F. Cuando las poblaciones no son las mismas,la varianza entre columnas (derivada a partir de la varianza entre las medias muestrales) tenderá a ser mayor que la varianza dentro de columnas (derivada a partir de la varianza dentro de las muestras),y el valor de F tenderá a ser grande. Esto nos conducirá a rechazar la hipótesis nula.
400
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
La distribución F Descripción de la distribución F
Como otros estadísticos que hemos estudiado,si la hipótesis nula es verdadera, entonces el estadístico F tiene una distribución de muestreo específica. Al igual que las distribuciones t y ji-cuadrada, la distribución F es en realidad una familia completa de distribuciones, tres de las cuales se observan en la figura 11-8. Note que cada una está identificada por un par de grados de libertad, a diferencia de las distribuciones t y ji-cuadrada, que solamente tienen un valor para el número de grados de libertad. La primera cantidad se refiere a los grados de libertad del numerador del cociente F; la segunda, a los grados de libertad del denominador. Como podemos ver en la figura 11-8, la distribución F tiene una sola moda. La forma específica de una distrib ución F depende del número de grados de libertad tanto del numerador como del denominador del cociente F. Pero, en general, la distribución está sesgada a la derecha y tiende a hacese más simétrica conforme aumenta el número de grados de libertad en el numerador y el denominador.
Uso de la distribución F : grados de libertad Cálculo de los grados de libertad Búsqueda de los grados de libertad del numerador
Como se mencionó, cada distribución F tiene un par de grados de libertad, uno para el numerador del cociente F y el otro para el denominador. ¿Cómo podemos calcularlos? Primero, piense en el numerador, la varianza entre columnas. En la tabla 11-13 utilizamos tres valores de x x, uno para cada muestra, para calcular nj(xj x)2. Una vez conocidos dos de estos valores de x x, el tercero queda automáticamente determinado y no se puede determinar libremente. Así, se pierde un grado de libertad cuando calculamos la varianza entre columnas, y el número de grados de libertad para el numerador del cociente F siempre es una unidad menor que el número de muestras. La regla, entonces, es: Grados de libertad del numerador Número de grados de libertad en el (número de muestras 1) numerador del cociente F
Búsqueda de los grados de libertad del denominador
Ahora, ¿qué pasa con el denominador? Observ e un momento la tabla 11-14. Calculamos las varianzas dentro de las muestras, y utilizamos las tres muestras. Para la j-ésima muestra, usamos nj valores de (x xj) para calcular (x xj)2 para esa muestra. Cuando tenemos todos los valores de (x xj), excepto uno, el último queda determinado automáticamente y no se podría especificar libremente. En consecuencia, perdimos un grado de libertad en los cálculos de cada muestra, lo que deja 4, 4 y 5 grados de libertad en las muestras. Como tenemos tres muestras, nos quedamos con (25,25) grados de libertad
FIGURA 11-8 Tres distribuciones F (el primer valor entre paréntesis es igual al número de grados de libertad del numerador del cociente F; el segundo, al número de grados de libertad del denominador)
[11-10]
(5,5) grados de libertad
(2,1) grados de libertad
11.4:Análisis de varianza
401
4 4 5 13 grados de libertad (que también pueden calcularse como 5 5 6 3 13). Podemos establecer la regla de la siguiente manera: Grados de libertad del denominador Número de grados de libertad en (n 1) n k j T el denominador del cociente F
[11-11]
donde, • nj tamaño de la j-ésima muestra • k número de muestras • nT nj tamaño de la muestra total Ahora vemos que el peso asignado a sj2 en la ecuación 11-7 es justo la fracción del número total de grados de libertad del denominador del cociente F.
Uso de la tabla F Para llevar a cabo pruebas de hipótesis F debemos utilizar una tabla F, en la cual las columnas representan el número de grados de libertad del numerador y los renglones el número de grados de libertad del denominador. Existen tablas separadas para cada nivel de significancia. Suponga que estamos probando una hipótesis al ni vel de significancia de 0.01, usando la distribución F. Nuestros grados de libertad son 8 para el numerador y 11 para el denominador . En este caso, vamos a la tabla 6(b) del apéndice. En el cuerpo de dicha tabla, el valor apropiado para 8 y 11 grados de libertad es 4.74. Si nuestro valor calculado de F excede este valor de la tabla, rechazamos la hipótesis nula. Si no es mayor, la aceptamos.
Prueba de hipótesis Búsqueda de el estadístico F y los grados de libertad
Ahora podemos probar nuestra hipótesis de que los tres métodos de capacitación producen resultados idénticos, utilizando el material desarrollado hasta este punto. Empecemos por re visar cómo calcular el cociente F: primera estimación de la varianza de población basada en la varianza entre las medias muestrales F segunda estimación de la varianza de la población basada en las varianzas dentro de las muestras 20 14.769 1.354 ← Estadístico F
[11-8]
A continuación, calculamos el número de grados de libertad del numerador del cociente F, con la ecuación 11-10 como sigue: Número de grados de libertad en el numerador del cociente F (número de muestras 1)
[11-10]
31 2 ← Grados de libertad en el numerador Y podemos calcular los grados de libertad del denominador del cociente F, utilizando la ecuación 11-11:
402
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Número de grados de libertad en el denominador del cociente F (nj 1) nT k (5 1) (5 1) (6 1) 445 13 ← Grados de libertad en el denominador Búsqueda del límite de la región de aceptación Interpretación de los resultados
[11-11]
Suponga que el director de capacitación desea probar al nivel de significancia de 0.05 la hipótesis de que no existen diferencias entre los tres métodos. Podemos buscar en la tabla 6(a) del apéndice para 2 grados de libertad en el numerador y 13 en el denominador . El valor que encontramos es 3.81. La figura 11-9 ilustra esta prueba de hipótesis con una gráfica. La región sombreada es el nivel de significancia. El valor encontrado en la tabla, 3.81, establece el límite superior de la re gión de aceptación. Como el valor de la muestra calculado para F, 1.354, se encuentra dentro de la región de aceptación, aceptamos la hipótesis nula y concluimos que, según la información de las muestras que poseemos, no existen diferencias significativas en los efectos de los tres métodos de capacitación sobre la productividad de un empleado.
Precauciones acerca del uso de la prueba F Use tamaños de muestra grandes
Controle todos los factores, menos el que se está probando
Una prueba para un solo factor
Como se estableció, nuestros tamaños de muestra en este problema son demasiado pequeños para poder llegar a inferencias válidas con respecto a la efectividad de los métodos de capacitación. Escogimos muestras pequeñas para explicar la lógica del análisis de varianza sin tener que efectuar cálculos tediosos. En la práctica real, nuestra metodología sería la misma, pero las muestras serían más grandes. En nuestro ejemplo, hemos supuesto la ausencia de muchos factores que podrían haber afectado nuestras conclusiones. Por ejemplo, aceptamos como un hecho que todos los empleados nuevos de la muestra demostraron la misma aptitud para el aprendizaje, lo cual puede ser o no cierto. Supusimos que todos los instructores de los tres métodos tienen la misma habilidad para enseñar y manejar a las personas, lo cual puede no ser cierto. Y supusimos que el personal de estadística de la compañía reunió los datos de productividad durante periodos de trabajo similares en cuanto a la hora del día, el día de la semana, la época del año, etc. Para poder tomar decisiones significativas basadas en el análisis de varianza, necesitamos tener la certeza de que todos los af ctores mencionados están controlados de manera efectiva. Por último, note que solamente estudiamos el análisis de v arianza en un sentido, o de un factor. El problema examinó el efecto del tipo de método de capacitación sobre la producti vidad de los empleados y nada más. Si deseáramos medir el efecto de dos factores, como el programa de capacitación y la edad del empleado, necesitaríamos usar análisis de varianza en dos sentidos, un método estadístico que se estudia en textos más avanzados.
Región de aceptación Acepte la hipótesis nula si el valor de la muestra está en esta región
FIGURA 11-9 Prueba de hipótesis al nivel de significancia de 0.05, utilizando la distribución F; indica la región de aceptación y el valor F de la muestra
Valor F de la muestra, 1.354
0.05 del área
3.81
11.4:Análisis de varianza
403
Uso de la computadora para el análisis de varianza Uso del paquete SPSS para ANOVA
Una vez más, repetimos que usamos muestras pequeñas en el ejemplo de ANOVA, con el fin de explicar la lógica del método sin abrumarnos con cálculos tediosos. P ara un problema más realista, sería muy conveniente usar las rutinas de ANOVA que se pueden encontrar en todos los paquetes estadísticos de uso común. Para comparar uno de estos paquetes con el análisis hecho a mano, la figura 11-10 presenta la salida del paquete SPSS, usado para analizar los datos del problema del método de capacitación. Veamos la columna de la tabla ANOVA producida por SPSS que tiene el encabezado “MEDIA CUADRADA”. En el renglón correspondiente a “MODELO”, esta columna contiene el v alor 20.000, que reconocemos como la varianza entre columnas calculada en la tabla 11-13. En el renglón de “ERROR”, de la figura 11-10 encontramos el valor 14.769, que es la varianza dentro de columnas calculada en la tabla 11-14. Note también la columna con “GL” (que significa grados de libertad). Nos dice que la MEDIA CUADRADA DEL MODELO (la varianza entre columnas) tiene 2 grados de libertad, y que el ERROR MEDIO CUADRADO (la varianza dentro de columnas) tiene 13 grados de libertad. La última línea de la salida de SPSS da el valor del estadístico F, F 1.35, y el valor p, 0.2923, que es la probabilidad de obtener un estadístico F igual o mayor que 1.35 si H0 es verdadera. Como el valor p es mayor que nuestro nivel de significancia, 0.05, de nuevo concluimos que no podemos rechazar H0. Con base en la evidencia de la muestra, estos tres métodos de capacitación no parecen tener efectos significativamente diferentes sobre la productividad de los empleados. La figura 11-11 ilustra el uso de Minitab para realizar la misma prueba. Minitab proporciona, en esencia, la misma tabla ANOVA, junto con n, x y s para las tres muestras. Ahora que hemos visto cómo interpretar los resultados obtenidos con SPSS y Minitab, analicemos un ejemplo mucho más realista. A pesar de la conclusión dada en la sección 10.7,de que los esEJEMPLO DEL USO DE SPSS PARA ANOVA ¿LA PRODUCTIVIDAD DEPENDE DEL MÉTODO DE CAPACITACIÓN? PROCEDIMIENTO DE ANÁLISIS DE VARIANZA VARIABLE DEPENDIENTE: UNIDADES
FIGURA 11-10 Salida de SPSS para el problema de la capacitación de empleados
UNIDADES PROD. POR EL EMPLEADO
FUENTE
GL
SUMA DE CUADRADOS
MEDIA CUADRADA
MODELO
2
40.00000000
20.00000000
ERROR
13
192.00000000
14.76923077
TOTAL CORREGIDO
15
232.00000000
1.35
F DEL MODELO =
PR > F = 0.2923
Análisis de varianza en un sentido Análisis de varianza Fuente GL SC Factor 2 40.0 Error 13 192.0 Total 15 232.0
FIGURA 11-11 Salida de Minitab para el problema de capacitación de empleados
Nivel MÉTODO 1 MÉTODO 2 MÉTODO 3
N 5 5 6
Media 17.000 21.000 19.000
DesvEst agrupada = 3.843
MC 20.0 24.8
DesvEst 4.183 3.937 3.464
F 1.35
p 0.292
404
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
tudiantes que tomaron el curso de estadística con profesores no obtenían significativamente mejores resultados en el examen final que los estudiantes que tomaron el curso con ayudantes de profesor , todavía se recibieron quejas. “Estoy en la clase del señor Jackson, y mis amigos que están en el grupo del profesor Rubín han aprendido mucho más que yo”, era una queja típica. No preguntamos entonces si, tal vez, había diferencias significativas entre las secciones de un mismo curso, incluso si los ayudantes de profesor como grupo no eran significativamente diferentes de los profesores como grupo. Utilizamos ANOVA de Minitab para verificar lo anterior. El planteamiento formal de nuestras hipótesis fue: H0: Las seis son iguales (no hay diferencia entre secciones) H1: Las seis no son iguales (los cursos difieren de manera significativa) Conclusiones acerca de las quejas de los estudiantes
Uso de ANOVA con los datos de ingresos
La figura 11-12 contiene los resultados de este análisis. El valor calculado del estadístico F es 1.75, y la probabilidad de observar un valor tan grande de F si H0 es verdadera (el valor p para esta prueba) es 0.126. Con un valor p tan grande, debemos aceptar H0 y llegar a la conclusión de que no hay diferencias significativas en el desempeño de los estudiantes de las seis secciones en el e xamen final. Usemos Minitab para hacer un análisis de v arianza con los datos de ingresos de la tabla 11 del apéndice. Recuerde que en la sección 10.7 se usó Minitab para probar si los cambios de un año a otro en los ingresos del último trimestre de las acciones de la Bolsa de Valores de Nueva York (NYSE)
Análisis de varianza en un sentido Análisis de varianza para FINAL Fuente GL SC MC SECCIÓN 5 859.4 171.9 Error 193 18996.8 98.4 Total 198 19856.2
FIGURA 11-12 Salida de Minitab para ANOVA de las calificaciones en exámenes finales
Nivel 1 2 3 4 5 6
N 27 46 37 26 36 27
Media 45.741 44.761 49.081 44.923 44.333 42.111
F 1.75
p 0.126
DesvEst 10.679 11.900 7.365 8.064 10.373 9.435
DesvEst agrupada = 9.921
Análisis de varianza en un sentido Análisis de varianza para CAMBIO Fuente GL SC MC MERCADO 2 1.421 0.711 Error 221 177.906 0.805 Total 223 179.327 FIGURA 11-13 Uso de Minitab para calcular la ANOVA de cambios en ganancias
Nivel 1 2 3
N 111 38 75
Media -0.1120 0.0876 0.0156
DesvEst agrupada = 0.8972
DesvEst 0.5195 0.9121 1.2598
F 0.88
p 0.415
11.4:Análisis de varianza
405
tenían medias diferentes que los cambios en los ingresos del último trimestre del American Stock Exchange (ASE) y de otras bolsas. Se agruparon los últimos dos porque en ese punto todavía no sabíamos cómo comparar más de dos medias. Ahora se verán los tres grupos por separado y se usará análisis de varianza para ver si las tres medias difieren de manera significativa. H0: OTRO ASE NYSE (sin diferencias por transacción) H1: Las no son iguales (las transacciones difieren significativamente) Interpretación de los resultados
Se usó el comando ONEWAY (un sentido) en Minitab para realizar este análisis de varianza. Recuerde que la variable MERCADO es 1 para OTRO, 2 para ASE y 3 para NYSE. Los resultados se dan en la figura 11-13. El valor calculado del estadístico F es 0.88 y el valor p para probar la hipótesis es 0.415. Como este valor p es más grande que todos los niveles de significancia usuales ( 0.10, 0.05, 0.01, etc.), no se puede rechazar H0; se concluye que los valores medios de los cambios de un año a otro en los ingresos del último trimestre para los tres mercados de v alores no difieren de manera significativa uno de otro.
El análisis de varianza se centra en probar si tres o más muestras se han obtenido de poblaciones que tienen la misma media. El análisis de varianza es importante en investigaciones como la evaluación de nuevos medicamentos, donde deben medirse, en un solo estudio, los efectos de dosis, la frecuencia de medicación,los efectos de otras drogas y las diferencias entre pacientes. Una estimación se obtiene de la varianza entre las medias de las muesSUGERENCIAS Y SUPOSICIONES
tras, la otra de la varianza dentro de las muestras mismas. Si son aproximadamente iguales, se tienen altas posibilidades de que las muestras v engan de la misma población. Advertencia: es vital no hacer a un lado el sentido común al interpretar los resultados. Mientras que quizá sea cierto que un estudio puede identif icar diferencias en las preferencias de marca del café instantáneo que se aplican a la compra de café entre semana en la mañana, es difícil decir qué debe hacer la compañía de café con esta información.
Ejercicios 11.4 Ejercicios de autoevaluación EA
11-5
Un estudio compara los efectos sobre las v entas de 4 promociones de un mes en el punto de v enta. Presentamos las ventas unitarias de 5 tiendas que utilizaron las 4 promociones en meses distintos: Muestras gratis Regalo de un paquete Descuento Reembolso por correo
EA
11-6
78 94 73 79
87 91 78 83
81 87 69 78
89 90 83 69
85 88 76 81
a) Calcule las ventas unitarias medias para cada promoción y luego determine la gran media. b) Estime la varianza de la población utilizando la varianza entre columnas (ecuación 11-6). c) Estime la varianza de la población utilizando la varianza dentro de columnas calculada a partir de la varianza dentro de muestras. d) Calcule el cociente F. Al nivel de significancia de 0.01, ¿las promociones producen diferentes efectos sobre las ventas? Una compañía de investigación diseñó tres sistemas diferentes para limpiar manchas de aceite. La siguiente tabla contiene los resultados, medidos por el área (en metros cuadrados) que se limpia en una hora. Los datos se encontraron al probar cada método en varios ensayos. ¿Tienen la misma efectividad los tres métodos? Use un nivel de significancia de 0.05. Sistema A Sistema B Sistema C
55 57 66
60 53 52
63 64 61
56 49 57
59 62
55
406
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Aplicaciones ■ 11-26
Un estudio compara el número de horas de alivio que proporcionan cinco marcas de antiácidos administrados a 25 personas diferentes, cada una con acidez estomacal considerada fuerte. Los resultados son los siguientes: Marca
■ 11-27
D
E
4.4 4.6 4.5 4.1 3.8
5.8 5.2 4.9 4.7 4.6
4.8 5.9 4.9 4.6 4.3
2.9 2.7 2.9 3.9 4.3
4.6 4.3 3.8 5.2 4.4
45 59 41
40 43 37
15 12 11 13
50 47 43
39 51 40
53 39 52
44 49 37
17 10 14 12
14 13 13 12
12 17 15 14
12 10
9
Dadas las siguientes mediciones de cuatro muestras, ¿podemos concluir que vienen de poblaciones que tienen el mismo valor medio? Utilice el nivel de significancia de 0.01. Muestra 1 Muestra 2 Muestra 3 Muestra 4
■ 11-30
C
Al nivel de significancia de 0.05, ¿los tres métodos de entrenamiento llevan a diferentes niveles de productividad? Los datos siguientes indican el número de solicitudes de pago de se guro procesadas diariamente por un grupo de cuatro empleados de aseguradoras observados durante cierto número de días. Pruebe la hipótesis de que las solicitudes medias de los empleados por día son las mismas. Utilice un nivel de significancia de 0.05. Empleado 1 Empleado 2 Empleado 3 Empleado 4
■ 11-29
B
a) Calcule el número medio de horas de alivio para cada marca y determine la gran media. b) Estime la varianza de la población usando la varianza entre columnas (ecuación 11-6). c) Estime la varianza de la población usando la varianza dentro de columnas calculada a partir de la varianza dentro de las muestras. d) Calcule el cociente F. Para un nivel de significancia de 0.05, ¿las marcas producen cantidades significativamente diferentes de alivio a las personas con acidez estomacal fuerte? Se compararon tres métodos de capacitación para v er si los empleados tienen una mayor producti vidad después de capacitarse. Los datos que se presentan a continuación son medidas de la productividad de los individuos capacitados por cada método. Método 1 Método 2 Método 3
■ 11-28
A
16 29 14 21
21 18 15 28
24 20 21 20
28 19 19 22
29 30 28 18
21 17
El gerente de una línea de ensamble de una planta manuf acturera de relojes decidió estudiar de qué manera las diferentes velocidades de la banda transportadora afectan la tasa de unidades defectuosas producidas en un turno de 8 horas. Para ello, corrió la banda a 4 velocidades distintas en 5 turnos de 8 horas cada uno y registró el número de unidades defectuosas encontradas al final de cada turno. Los resultados del estudio son los siguientes: Velocidad 1 37 35 38 36 34
Unidades defectuosas por turno Velocidad 2 Velocidad 3 27 32 32 34 30
32 36 33 34 40
Velocidad 4 35 27 33 31 29
11.4:Análisis de varianza
■ 11-31
407
a) Calcule el número medio de unidades defectuosas, x, para cada velocidad; luego determine la gran media, x . b) Utilizando la ecuación 11-6, estime la varianza de la población (la varianza entre columnas). c) Calcule las varianzas dentro de las muestras y estime la varianza de la población basándose en estas varianzas (la varianza dentro de columnas). d) Calcule el cociente F. Al nivel 0.05 de significancia, ¿las cuatro velocidades de la banda transportadora producen la misma tasa media de relojes defectuosos por turno? Estamos interesados en probar la diferencia en sabor de tres salsas condimentadas: A, B y C. Para cada producto se tomó una muestra de 25 personas. Cada persona calif icó el producto de 3 (terrible) a 3 (excelente). El paquete SPSS produjo el siguiente informe: PROCEDIMIENTO DE ANÁLISIS DE VARIANZA VARIABLE DEPENDIENTE:
CALIFICACIÓN (-3 A +3)
FUENTE
GL
MODELO ERROR TOTAL CORREGIDO F DEL MODELO =
■ 11-32
SUMA DE CUADRADOS
MEDIA CUADRADA
2
15.68
7.84
72
94.4
1.31111111
74
110.08
5.98
PR > F = 0.004
a) Establezca las hipótesis nula y alternativa explícitas. b) Pruebe sus hipótesis con la salida de SPSS. Use 0.05. c) Establezca una conclusión explícita. El supervisor de seguridad de una tienda departamental grande desea saber si el personal de seguridad sorprende a una cantidad relativamente mayor de ladrones durante la temporada navideña que en las semanas anteriores o posteriores. Reunió datos correspondientes al número de ladrones aprehendidos en la tienda durante los meses de noviembre, diciembre y enero, durante los seis años anteriores. La información es: Número de ladrones Noviembre Diciembre Enero
■ 11-33
43 54 36
37 41 28
59 48 34
55 35 41
38 50 30
48 49 32
Al nivel de significancia de 0.05, ¿es el número medio de ladrones sorprendidos el mismo durante estos tres meses? Un curso de introducción a la economía se ofrece en 3 secciones, cada una con diferente instructor. Las calificaciones finales del semestre de primavera se presentan en la tabla. ¿Existe una diferencia significativa en los promedios de calificaciones dadas por los instructores? Establezca las pruebas de hipótesis adecuadas para 0.01. Sección 1
Sección 2
Sección 3
98.4 97.6 84.7 88.5 77.6 84.3 81.6 88.4 95.1 90.4 89.4 65.6 94.5 99.4 68.7 83.4
97.6 99.2 82.6 81.2 64.5 82.3 68.4 75.6
94.5 92.3 92.4 82.3 62.6 68.6 92.7 82.3 91.2 92.6 87.4
408
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
■ 11-34
Los fabricantes de chips de silicio requieren los llamados cuartos limpios,donde el aire se filtra de manera especial para mantener el número de partículas de polv o al mínimo. La Outel Corporation desea asegurarse de que cada uno de sus cinco cuartos limpios tenga el mismo número de partículas de polv o. Se tomaron cinco muestras de aire en cada cuarto. Se midió el “ni vel de polvo” en una escala de 1 (bajo) a 10 (alto). Al nivel de significancia de 0.05, ¿tienen los cuartos el mismo nivel promedio de polvo? Nivel de polvo (1 a 10) Cuarto 1 Cuarto 2 Cuarto 3 Cuarto 4 Cuarto 5
■ 11-35
5 3 1 8 1
4 4 3 7 3.5
7 4.5 2.5 6 1.5
6 3 4 7.5 3
Una compañía maderera está preocupada por saber cómo las tasas de interés crecientes afectan a la construcción de casas nuevas en el área. Para explorar esta cuestión, la compañía ha reunido datos con respecto a nuevas construcciones durante los tres trimestres pasados en tres de los municipios circundantes. Esta información se presenta en la siguiente tabla. Al nivel de significancia de 0.05, ¿existen diferencias en el número de nuevas construcciones de casas durante los tres trimestres? Trimestre 1 Trimestre 2 Trimestre 3
■ 11-36
6.5 6 1.5 9.5 2
41 45 34
53 51 44
54 48 46
55 43 45
43 39 51
La compañía Genes-and-Jeans, Inc., ofrece clones de cuatro marcas famosas de pantalones jeans: Generic, ADN, ARN y Oops. La tienda desea v er si existen diferencias en el número de pantalones v endidos de cada marca. El gerente ha contado los pantalones v endidos de cada marca en varios días. Al nivel de significancia de 0.05, ¿son iguales las ventas de las cuatro marcas? Pantalones vendidos Generic ADN ARN Oops
■ 11-37
17 27 13 18
21 13 15 25
13 29 17 15
27 9 23 27
12 10 12
21
La Oficina de Contabilidad del Gobierno (OCG) de Estados Unidos está interesada en ver si las oficinas de tamaño parecido gastan cantidades similares en personal y equipo. (Las of icinas que gastan más tendrán una auditoría especial.) Se examinaron los gastos mensuales de tres oficinas: una de ellas en el Departamento de Agricultura, otra en el Departamento de Estado y la última en el Departamento del Interior . Los datos se presentan en la tabla. Al nivel de significancia de 0.01, ¿existen diferencias en los gastos de las distintas oficinas? Gastos mensuales (en miles de dólares) durante algunos meses Agricultura Estado Interior
■ 11-38
10 15 8
8 9 16
11 8 12
9 10
12 13
13
En la ciudad de Bigville, una cadena de comida rápida está adquiriendo una mala reputación debido a que tardan mucho en servir a los clientes. Como la cadena tiene cuatro restaurantes en esa ciudad, quiere saber si los cuatro restaurantes tienen el mismo tiempo promedio de servicio. Uno de los dueños de la cadena ha decidido visitar cada local y registrar el tiempo de servicio para 5 clientes escogidos al azar. En sus cuatro visitas al medio día registró los siguientes tiempos de servicio en minutos: Restaurante 1 Restaurante 2 Restaurante 3 Restaurante 4
3 3 2 3
4 3.5 3.5 4
5.5 4.5 5 5.5
3.5 4 6.5 2.5
4 5.5 6 3
a) Utilice un nivel de significancia de 0.05, ¿todos los restaurantes tienen el mismo tiempo medio de servicio? b) Según sus resultados, ¿deberá el dueño hacer algunas recomendaciones a cualquiera de los administradores de los restaurantes?
11.4:Análisis de varianza
409
Soluciones a los ejercicios de autoevaluación EA
11-5
a)
Gratis 78 87 81 89 085 420 5 84 35,360 20
x n x x 2 s2
Regalo 94 91 87 90 088 450 5 90 40,530 7.5
Descuento 73 78 69 83 076 379 5 75.8 28,839 27.7
Reembolso 79 83 78 69 081 390 5 78 30,536 29
420 450 379 390 Gran media x 81.95 20
nj (xj x)2 5[(84 81.95)2 (90 81.95)2 (75.8 81.95)2 (78 81.95)2] b) ˆ b2 4 1 k1 612.15 204.05 3 4(20 7.5 27.7 29) 336.8 nj 1 2 c) ˆ w s2j 21.05 20 4 16 nT k
204.05 d) F 9.69 21.05
EA
11-6
Con 3 grados de libertad en el numerador, 16 grados de libertad en el denominador y 0.01, el valor crítico de F es 5.29, de manera que se rechaza H0 porque 9.69 > 5.29. Las promociones tienen efectos significativamente diferentes sobre las ventas. Sistema A Sistema B Sistema C
n
x
6 5 4
58 57 59
s2 10.4000 38.5000 35.3333
6(58) 5(57) 4(59) 57.9333 x 654
nj (xj x)2 ˆ b2 k1 6(58 57.9333)2 5(57 57.9333)2 4(59 57.9333)2 31 8.9333 4.4667 2 5(10.4) 4(38.5) 3(35.3333) nj 1 312 2 s2j 26 ˆw 15 3 nT k 12
2 ˆw 4.4667 F 2 0.17 ˆw 26
Con 2 grados de libertad en el numerador, 12 grados de libertad en el denominador y 0.05, el valor crítico de F es 3.89, de manera que no se rechaza H 0 porque 0.17 < 3.89. La efectividad de los sistemas no tiene diferencias significativas.
410
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
11.5 Inferencias acerca de una varianza de población Es necesario tomar decisiones acerca de la variabilidad en una población
En los capítulos 8 a 10, aprendimos cómo formar intervalos de confianza y probar hipótesis de una o dos medias o proporciones de población. Antes en este capítulo, utilizamos las pruebas ji-cuadrada y F para hacer inferencias respecto a más de dos medias o proporciones. Pero no siempre estamos interesados en medias o proporciones. En muchas situaciones,los tomadores de decisiones responsables tienen que hacer inferencias sobre la variabilidad de una población. Con el fin de programar la fuerza de trabajo en la temporada de cosecha, un cultivador de duraznos necesita conocer no sólo el tiempo medio que tardan los duraznos en madurar, sino también su varianza alrededor de ese tiempo medio. Un sociólogo que investiga el efecto de la educación en el poder adquisitivo desea saber si los ingresos de los egresados de la universidad son más variables que los egresados de bachillerato. Los instrumentos de precisión que se utilizan en el trabajo de laboratorio deben ser bastante precisos en promedio; pero, además, las mediciones repetidas deberán mostrar poca v ariación. En esta sección veremos cómo hacer inferencias acerca de una sola varianza de población; la siguiente trata problemas que implican las varianzas de dos poblaciones.
La distribución de la varianza de la muestra
Determinación de la incertidumbre asociada a las estimaciones de la desviación estándar de la población
En respuesta a muchas quejas respecto a la tardanza del correo, el director general del servicio postal inicia una investigación preliminar. Un investigador da seguimiento a nueve cartas desde Nueva York hasta Chicago, para estimar la desviación estándar del tiempo de entrega. La tabla 11-15 da los datos y calcula x, s2 y s. Como vimos en el capítulo 8, se usa s para estimar . Podemos decirle al director general que la desviación estándar de la población, estimada a partir de la desviación estándar de la muestra es, aproximadamente, 23 horas. Pero también desea saber qué tan precisa es esa estimación y qué incertidumbre se le asocia. En otras palabras, quiere un intervalo de confianza, no nada más una estimación puntual de . Para encontrar dicho intervalo, debemos conocer la distribución muestral de s. Es tradicional hablar de s2 más que de s, pero esto no ocasiona problemas, debido a que siempre podemos pasar de s2 y de 2 a s y , obteniendo la raíz cuadrada; y podemos ir en la otra dirección elevando al cuadrado.
Tabla 11-15 Tiempo de entrega (en horas) para las cartas que van de Nueva York a Chicago
Tiempo x 50 45 27 66 43 96 45 90 069 x 531 531
x x n 9 59 horas
x
x x
59 59 59 59 59 59 59 59 59
9 14 32 7 16 37 14 31 10
[8-A]
(x x)2 81 196 1,024 49 256 1,369 196 961 00100
(x x )2 4,232
(x x)2 4,232 s2 n1 8
[8-B]
529 horas al cuadrado s s2 5 29 23 horas
[8-C]
11.5:Inferencias acerca de una varianza de población
411
Estadístico ji-cuadrada para inferencias sobre una varianza (n 1)s2 2 2
[11-12]
Si la varianza de la población es 2, entonces el estadístico tiene una distrib ución ji-cuadrada con n 1 grados de libertad. Este resultado es exacto si la población es normal; pero,incluso para muestras tomadas de poblaciones no normales, suele ser una buena aproximación. Podemos ahora usar la distribución ji-cuadrada para formar intervalos de confianza y probar hipótesis respecto a 2.
Intervalos de confianza para la varianza de población Construcción de un intervalo de confianza para una varianza
Suponga que queremos un intervalo de confianza del 95% para el problema de entrega de correo. La figura 11-14 muestra cómo empezar a formarlo. Distribución 2
0.025 del área
0.025 del área
FIGURA 11-14 Construcción de un intervalo de confianza para 2
L2
U2
Localizamos dos puntos en la distrib ución 2: 2U corta 0.025 del área en la cola superior de la distribución y 2L corta 0.025 del área en la cola inferior de la distribución. (Para un intervalo de confianza del 99%, tendríamos 0.005 del área en cada cola y otras mitades similares para otros ni veles de confianza.) Los valores de 2L, y de 2U se pueden encontrar en la tabla 5 del apéndice. En el problema de entrega de correo, con 9 1 8 grados de libertad, 2L 2.180 y 2U 17.535. Ahora, la ecuación 11-12 da 2 en términos de s2, n y 2. Para obtener un intervalo de confianza para 2, despejamos 2 de la ecuación 11-12: Límites superior e inferior para el intervalo de confianza
(n 1)s2 2 2
[11-13]
y, entonces, nuestro intervalo de confianza está dado por: Intervalo de confianza para 2 (n 1)s2 2L ← Límite inferior de confianza 2U
[11-14]
2
(n 1)s 2U ← Límite superior de confianza 2L 2 Note que, debido a que 2 aparece en el denominador de la ecuación 11-13, podemos usar U para 2 2 2 encontrar L y L para encontrar U. Continuando con el problema del director general del servicio postal, vemos que puede tener una certeza del 95% de que la v arianza de la población está entre 241.35 y 1,941.28 horas al cuadrado:
412
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
(n 1)s2 8(529) 2L 241.35 2 U 17.535
2L
(n 1)s2 8(529) 1,941.28 2 U 2.180
[11-14]
Así que un intervalo del 95% de confianza para sería de 241.3 5 a l, 941.2 8 horas, es decir, de 15.54 a 44.06 horas.
Prueba de dos colas de una varianza Prueba de hipótesis acerca de una varianza: pruebas de dos colas
Un profesor de administración ha diseñado meticulosamente sus exámenes. Con el fin de estar razonablemente seguro de que un examen distingue bien las diferencias en el logro de los estudiantes,la desviación estándar de los resultados del examen no puede ser demasiado pequeña. Por el otro lado, si la desviación estándar es muy grande, habrá una tendencia a tener muchas calificaciones muy bajas, lo cual es deprimente para el ánimo de los estudiantes. Experiencias pasadas han hecho que el profesor crea que una desviación estándar de aproximadamente 13 puntos para un e xamen de 100, indica que el examen logra un buen equilibrio de estos dos objetivos. El profesor acaba de hacer un examen a su grupo de 31 estudiantes de primero y segundo año. La calificación promedio fue 72.7 y la desviación estándar de la muestra fue 15.9. ¿Este examen cumple con el criterio del profesor de un buen examen? Podemos resumir los datos:
H0 13 ← Valor hipotetizado de la desviación estándar de la población s 15.9 ← Desviación estándar de la muestra n 31 ← Tamaño de la muestra Si el profesor utiliza un nivel de significancia de 0.10 en la prueba de su hipótesis,podemos plantear el problema en símbolos: Planteamiento del problema en símbolos
H0: 13 ← Hipótesis nula: la desviación estándar real es 13 puntos H1: 13 ← Hipótesis alternativa: la desviación estándar real no es 13 puntos 0.10 ← Nivel de significancia para probar estas hipótesis Lo primero que se hace es utilizar la ecuación 11-12 para calcular el estadístico 2:
Cálculo del estadístico ji-cuadrada
(n 1)s2 2 2
[11-12]
30(15.9)2 (13)2 44.88 Interpretación de los resultados
Este estadístico tiene una distribución 2 con n 1 ( 30, en este caso) grados de libertad.Aceptaremos la hipótesis nula si ji-cuadrada no es demasiado grande ni demasiado pequeña. De la tabla de la distribución 2 (tabla 5 del apéndice), podemos ver que los valores apropiados de 2 para que 0.05 del área se encuentre en cada cola de la curv a son 18.493 y 43.773. Estos dos límites de la re gión de aceptación y el estadístico de la muestra observ ada ( 2 44.88) se ilustran en la f igura 11-15. Vemos que el valor muestral de 2 no se encuentra en la región de aceptación, de modo que el profesor deberá rechazar la hipótesis nula; el examen no cumple con su criterio de un buen examen.
Prueba de una cola para la varianza Prueba de hipótesis de la varianza: pruebas de una cola
La empresa Precision Analytics fabrica una amplia línea de instrumentos de precisión y tiene una buena reputación en el mercado por la calidad de sus instrumentos. Con el fin de conservar su repu-
11.5:Inferencias acerca de una varianza de población
413
Región de aceptación Acepte la hipótesis nula si el valor de la muestra está en esta región
FIGURA 11-15 Prueba de hipótesis de dos colas al nivel 0.10 de significancia; señala la región de aceptación y ji-cuadrada de la muestra
0.05 del área
2 de la muestra de 44.88 18.493
0.05 del área
43.773
tación, mantiene un estricto control de calidad en todos sus productos. No pone a la v enta una balanza analítica, por ejemplo, a menos que muestre una variabilidad significativamente menor que un microgramo (para 0.01) cuando se pesan cantidades de aproximadamente 500 gramos. La línea de producción acaba de entregar una nueva balanza a la división de control de la calidad. Se prueba la nueva balanza utilizándola para pesar el mismo peso estándar de 500 gramos 30 veces. La desviación estándar de la muestra fue 0.73 microgramos. ¿Se deberá vender la balanza? Hacemos un resumen de los datos: H0 1 ← Valor hipotético de la desviación estándar de la población s 0.73 ← Desviación estándar de la muestra n 30 ← Tamaño de la muestra y planteamos el problema: H0: 1 ← Hipótesis nula: la desviación estándar verdadera es 1 microgramo H1: < 1 ← Hipótesis alternativa: la desviación estándar verdadera es menor que 1 microgramo 0.01 ← Nivel de significancia para probar estas hipótesis
Planteamiento del problema en símbolos
Cálculo del estadístico 2
Empezamos por utilizar la ecuación 11-12 para calcular el estadístico 2: (n 1)s2 2 2 29(0.73)2 (1)2 15.45 Región de aceptación Acepte la hipótesis nula si el valor de la muestra está en esta región
FIGURA 11-16 Prueba de hipótesis de una cola al nivel de significancia de 0.01; indica la región de aceptación y la 2 de la muestra
0.01 del área
2 cuadrada de la muestra de 15.45
14.256
[11-12]
414
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Interpretación de los resultados
Rechazamos la hipótesis nula y enviamos la balanza a ventas si este estadístico es lo suficientemente pequeño. De la tabla 5 del apéndice,vemos que con 29 grados de libertad (30 l), el valor 2 que deja un área de 0.01 en la cola inferior de la curva es 14.256. La región de aceptación y el valor observado de ji-cuadrada se ilustran en la f igura 11-16. Vemos que no podemos rechazar la hipótesis nula. La balanza se tendrá que regresar a la línea de producción para ajustes.
Hasta ahora, se ha visto cómo hacer inferencias acerca de una, dos o varias medias o proporciones. Pero también es interesante hacer inferencias acerca de la variabilidad de la población. Para una población, esto se logra con la varianza de la muestra y la distribución ji-cuadraSUGERENCIAS Y SUPOSICIONES
da. Advertencia: la prueba de ji-cuadrada puede ser de una o dos colas. Sugerencia: si la pregunta que debe contestarse incluye las palabras menor que, mayor que, menor o igual que o mayor o igual que, se usa la prueba de una cola; si la pregunta se refiere a diferente de o cambio de, se usa la prueba de dos colas.
Ejercicios 11.5 Ejercicios de autoevaluación EA
11-7
EA
11-8
Dado que 127 es la varianza de la muestra para un conjunto de 9 observaciones, construya un intervalo de confianza del 95% para la varianza de la población. Un gerente de producción siente que la tasa de producción de los empleados con e xperiencia es seguramente mayor que la de los nuevos empleados, pero no espera que la variabilidad en las tasas de producción difiera entre los dos grupos. En estudios anteriores se ha encontrado que la producción promedio por hora para los nuevos empleados en este tipo de trabajo específico es 20 unidades por hora con una varianza de 56 unidades al cuadrado. Para un grupo de 20 empleados con 5 años de experiencia, la producción promedio en este mismo tipo de trabajo es 30 unidades por hora con varianza muestral de 28 unidades al cuadrado. ¿Parecería que la v ariabilidad en la producción dif iere entre los dos ni veles de experiencia? Pruebe las hipótesis para un nivel de significancia de 0.05.
Conceptos básicos ■ 11-39 ■ 11-40 ■ 11-41
Una muestra de 20 observaciones de una distribución normal tiene media de 37 y varianza de 12.2. Construya un intervalo de confianza del 90% para la varianza verdadera de la población. Se tiene la hipótesis de que la desviación estándar de una distribución es 50. Si una muestra observada de 30 elementos produce una desviación estándar de muestra de 57, ¿deberemos rechazar la hipótesis nula de que la desviación estándar verdadera es 50? Utilice un nivel de significancia de 0.05. Dada una desviación estándar muestral de 6.4 para una muestra de 15 observaciones, construya un intervalo de confianza del 90% para la varianza de la población.
Aplicaciones ■ 11-42
■ 11-43
Un fabricante de telescopios desea que sus aparatos tengan desviaciones estándar en su resolución que sean significativamente menores que 2 al enfocar un objeto a una distancia de 500 años luz. Cuando se usa un nuevo telescopio para enfocar un objeto a una distancia de 500 años luz 30 veces, la desviación estándar de la muestra resulta ser 1.46. ¿Debe el fabricante vender este telescopio? a) Establezca las hipótesis nula y alternativa explícitas. b) Pruebe las hipótesis para 0.01. c) Establezca una conclusión explícita. MacroSwift diseñó un nuevo sistema operativo que revolucionará la industria de la computación. El único problema es que la compañía espera que el tiempo promedio requerido para aprender a manejarlo sea 124 horas. Aun cuando este tiempo de aprendizaje es lar go, la compañía está en verdad preocupada por la varianza de ese tiempo. Los datos preliminares indican que la v arianza es 171 horas al cuadrado. En pruebas recientes con 25 personas se encontró un tiempo promedio de aprendizaje de 123 horas y una va-
11.6:Inferencias acerca de las varianzas de dos poblaciones
■ 11-44
■ 11-45
■ 11-46
■ 11-47
415
rianza de la muestra de 196.5 horas al cuadrado. ¿Indican estos datos que la variabilidad en el tiempo de aprendizaje es diferente de la estimación previa? Pruebe sus hipótesis a un nivel de significancia de 0.02. Un sicólogo está al tanto de los estudios que indican que la v ariabilidad en lapso de atención de los pacientes de cinco años de edad se puede resumir por 2 64 minutos al cuadrado. Se pregunta si el lapso de atención de pacientes de seis años es diferente. Una muestra de 20 pacientes de seis años da s2 28 minutos al cuadrado. a) Establezca explícitamente las hipótesis nula y alternativa. b) Pruebe sus hipótesis para 0.05. c) Establezca una conclusión explícita. Al verificar sus automóviles para saber si cumplen con las normas de emisión de contaminantes establecidas por el gobierno, un fabricante de automóviles midió la emisión de 30 vehículos. Encontró que el número promedio de partículas de contaminantes emitidas estaba dentro de los ni veles requeridos, pero la varianza de la muestra fue 50. Encuentre un intervalo de confianza del 90% para la varianza en la emisión de partículas para estos automóviles. Un banco está considerando estrategias de reducción de costos asociados con las cuentas de ahorro. Ha encontrado que la varianza en el número de días entre transacciones para esas cuentas es 80 días al cuadrado. El banco desea reducir la varianza desalentando el uso de las cuentas para guardar dinero por poco tiempo. Por tanto, después de implantar una nueva política que penaliza al cliente con cargos de servicio por más de un retiro al mes,el banco decide probar si hubo un cambio en la varianza de los días entre transacciones. Para una muestra de 25 cuentas de ahorro, se encuentra que la varianza entre transacciones es 28 días al cuadrado. ¿Está justificado el banco al asegurar que la nueva política reduce la varianza de días entre transacciones? Pruebe las hipótesis al nivel de significancia de 0.05. Sam Bogart, dueño de la compañía de aparatos de audio, Play-It-Again, ofrece un año de garantía en todos los estéreos que vende su compañía. Para los 30 aparatos a los que se les dio servicio de garantía el año anterior, el costo promedio de compostura fue $75 y la desviación estándar de la muestra fue $15. Calcule un intervalo de confianza del 95% para la desviación estándar real del costo de reparación. Sam ha decidido que a menos que la desviación estándar verdadera sea menor que $20, comprará sus aparatos de audio a otro mayorista. Ayude a Sam a probar las hipótesis adecuadas, utilizando un nivel de significancia de 0.01. ¿Debe cambiar de proveedor?
Soluciones a los ejercicios de autoevaluación EA
11-7
Para un intervalo de confianza del 95% con 8 grados de libertad: (n 1)s2 8(127) L2 57.941 2U 17.535 (n 1)s2 8(127) U2 466.055 2L 2.180
EA
11-8
Así, el intervalo de confianza es (57.941, 466.055). Para probar H0: 2 56 contra H1: 2 ≠ 56 para 0.05, los límites de la región de aceptación son
2 8.907
y
2 32.852
2
(n 1)s 19(28) 9.5, y no se rechaza H0; la variabilidad no es signifiEl valor observado es 2 2 56 cativamente diferente.
11.6 Inferencias acerca de las varianzas de dos poblaciones Comparación de las varianzas de dos poblaciones
En el capítulo 10 vimos v arias situaciones en las que deseábamos comparar las medias de dos poblaciones distintas. Recuerde que hicimos esto buscando la diferencia de las medias de dos muestras tomadas de dichas poblaciones. Aquí, queremos comparar las varianzas de dos poblaciones. Sin em-
416
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
bargo, más que buscar la diferencia de dos varianzas muestrales, es más conveniente estudiar su cociente. Los siguientes dos ejemplos muestran cómo se hace esto.
Prueba de una cola de dos varianzas Una prominente socióloga de una importante uni versidad del medio oeste estadounidense cree de que los ingresos de los graduados de la universidad tienen una variabilidad mucho mayor que los ingresos de las personas que no cursaron la uni versidad. Con el fin de probar esta teoría, envía a dos ayudantes de investigación a Chicago a in vestigar los ingresos de estas dos poblaciones. El primer ayudante toma una muestra aleatoria de 21 graduados de la universidad y encuentra que sus ingresos tienen una desviación estándar de la muestra s1 $17,000. El segundo ayudante toma una muestra de 25 no graduados y obtiene una desviación estándar en los ingresos s2 $7,500. Los datos de nuestro problema se pueden resumir de la siguiente manera: Datos del problema
Por qué es apropiada la prueba de una cola
Planteamiento de las hipótesis
s1 17,000 n1 21 s2 7,500 n2 25
← Desviación estándar de la primera muestra ← Tamaño de la primera muestra ← Desviación estándar de la segunda muestra ← Tamaño de la segunda muestra
Debido a que la socióloga tiene la teoría de que los ingresos de los e gresados de la universidad son más variables que los ingresos de las personas que no cursaron la universidad, una prueba de una cola es apropiada. La socióloga desea verificar su teoría al nivel de significancia de 0.01. Podemos establecer de manera formal sus hipótesis: H0: 12 22 (o 12/22 1) H1: 12 22 (o 12/22 1)
← Hipótesis nula: las dos varianzas son iguales ← Hipótesis alternativa: los ingresos de los egresados de la universidad tienen una varianza más grande
0.01← Nivel de significancia para probar estas hipótesis Sabemos que s12 se puede utilizar para estimar 12, y s 22 se puede usar para estimar 22. Si la hipótesis alternativa es verdadera, esperaríamos que s12 fuera mayor que s 22 (o de manera equivalente que s12/s22 fuera mayor que uno). Pero, ¿qué tanto deberá ser mayor s12 para que podamos rechazar la hipótesis nula? Para responder a esta pregunta, debemos conocer la distribución de s12/s22. Si suponemos que las dos poblaciones están razonablemente bien descritas por distribuciones normales, entonces el cociente: Cociente F para inferencias acerca de dos varianzas Descripción del estadístico F
s 12 F s 22
[11-15]
tiene una distribución F con n1 1 grados de libertad en el numerador y n2 1 grados de libertad en el denominador. En el problema de los ingresos calculamos el estadístico F de la muestra: s 12 F s 22 (17,000)2 (7,500)2 289,000,000 56,250,000 5.14
[11-15]
11.6:Inferencias acerca de las varianzas de dos poblaciones
417
Región de aceptación Acepte la hipótesis nula si el valor de la muestra está en esta región
FIGURA 11-17 Prueba de hipótesis de una cola al nivel de significancia de 0.01; indica la región de aceptación y el estadístico F Interpretación de los resultados
Manejo de pruebas de cola inferior en la tabla 6 del apéndice
Estadístico F de la muestra, 5.14
0.01 del área
2.74
Para 20 grados de libertad (21 1) en el numerador y 24 grados de libertad (25 1) en el denominador, la tabla 6 del apéndice nos indica que el valor crítico que separa a las regiones de aceptación y de rechazo es 2.74. La f igura 11-17 muestra la región de aceptación y el estadístico F observado de 5.14. Nuestra socióloga rechaza la hipótesis nula y concluye que los datos de la muestra apo yan su teoría. En este punto son necesarias unas palabras de advertencia respecto al uso de la tabla 6 del apéndice. Se habrá dado cuenta de que la tabla da los v alores del estadístico F que son apropiados sólo para pruebas de cola superior. ¿De qué manera podemos manejar hipótesis alternativas de la forma 12 22 (o 12/22 l)? Es sencillo si notamos que 12/22 1 es equivalente a 22/12 1. Así, todo lo que necesitamos es calcular el cociente s22/s12, que también sigue una distribución F (pero con n2 1 grados de libertad en el numerador y n1 1 grados de libertad en el denominador), y después usamos la tabla 6 del apéndice. Existe otra forma de decir lo mismo: siempre que realice una prueba de una cola de dos v arianzas, numere las poblaciones de modo que la hipótesis alternativa tenga la forma: H0: 12 22 (o 12/22 1) y luego proceda como en el ejemplo de los ingresos.
Una prueba de dos colas de dos varianzas Búsqueda del valor crítico en una prueba de dos colas
El procedimiento para la prueba de dos colas de dos varianzas es parecido al de la prueba de una cola. El único problema surge en la búsqueda del valor crítico de la cola inferior. Éste se relaciona con el problema de las pruebas de cola inferior analizadas en el último párrafo,y lo resolveremos de manera parecida. Un criterio para la evaluación de anestésicos orales odontológicos es la variabilidad de la cantidad de tiempo entre la inyección y la pérdida completa de sensibilidad en el paciente. (Esto se conoce como tiempo de demora del efecto.) Una compañía afrmacéutica grande ha desarrollado dos nuevos anestésicos orales, que comercializará con los nombres de Oralcaine y Novasthetic. A partir de similitudes en la estructura química de los dos compuestos,se ha predicho que deben mostrar la misma varianza en el tiempo de demora del efecto. En la tabla 11-16 se presentan los datos para las pruebas sobre los dos compuestos (en las que se controlaron otras variables como la edad y el peso del paciente).
Anestésico
Tamaño de muestra (n)
Varianza de muestra (segundos al cuadrado) (s2)
Oralcaine Novasthetic
31 41
1,296 0,784
Tabla 11-16 Tiempos de demora del efecto de dos anestésicos
418
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
La compañía desea probar a un nivel de significancia del 2% si los dos anestésicos tienen la misma varianza en el tiempo de demora del efecto. En símbolos, las hipótesis son: H0: 12 22 (o 12/22 1) ← Hipótesis nula: las dos varianzas son iguales H1: 12 22 (o 12/22 1) ← Hipótesis alternativa: las dos varianzas son diferentes 0.02)← Nivel de significancia de la prueba
Planteamiento de las hipótesis
Cálculo del estadístico F
Para probar estas hipótesis, de nuevo hacemos uso de la ecuación 11-15: s12 F s22
[11-15]
1,296 784 1.65 Este estadístico viene de una distribución F con n1 1 grados de libertad en el numerador (30, en este caso) y n2 1 grados de libertad en el denominador (40, en este caso). Usemos la notación: Notación útil para la prueba
F(n, d, ) para denotar el valor de F con n grados de libertad en el numerador, d grados de libertad en el denominador y un área en la cola superior. En nuestro problema, la región de aceptación se extiende de F(30, 40, 0.99) a F(30, 40, 0.01), como se ilustra en la figura 11-18. Podemos obtener el valor de F(30, 40, 0.01) directamente de la tabla 6 del apéndice; éste es 2.20. Sin embargo, el valor de F(30, 40, 0.99) no está en la tabla.Ahora bien, F(30, 40, 0.99) corresponderá a un valor pequeño de s12/s22 y, por tanto, a un valor grande de s22/s21, que es justo el recíproco de s12/s22. Dado el análisis de las pruebas de cola inferior que acabamos de hacer, podríamos sospechar que: Valor de cola inferior de F para pruebas de dos colas 1 F(n, d, ) F(d, n, 1 )
[11-16]
y esto resulta ser verdadero. Podemos utilizar esta ecuación para encontrar F(30, 40, 0.99): 1 F(30, 40, 0.99) F(40, 30, 0.01) 1 2.30 0.43 Interpretación de los resultados
FIGURA 11-18 Prueba de hipótesis de dos colas al nivel de significancia de 0.02
En la figura 11-19 se ilustró la región de aceptación para esta prueba de hipótesis y el v alor observado de F. Vemos ahí que la hipótesis nula se acepta, de modo que concluimos que la diferencia ob-
0.01 del área
F (30, 40, 0.99)
0.01 del área
F (30, 40, 0.01)
11.6:Inferencias acerca de las varianzas de dos poblaciones
419
Región de aceptación Acepte la hipótesis nula si el valor de la muestra está en esta región
FIGURA 11-19 Prueba de hipótesis de dos colas al nivel de significancia de 0.02; indica la región de aceptación y el estadístico F de la muestra
Estadístico F de la muestra, 1.65
0.43
2.20
servada en las varianzas de muestras de los tiempos de demora del efecto para los dos anestésicos no es estadísticamente significativa. Sugerencia: si desea hacer una prueba decola inferior, asegúrese de convertirla a una prueba de cola superior como se hizo un par de páginas atrás. Si desea hacer una prueba de dos colas, utilice la ecuación 11-16 para convertir un valor de cola superior de la tabla en el de cola inferior requerido para la prueba.
Esta sección se refiere al uso de la prueba F para comparar las varianzas de dos poblaciones examinando el cociente de las varianzas de dos muestras. Adevertencia: la tabla 6 del apéndice proporciona valores de F que son apropiados sólo para las pruebas de la cola superior. SUGERENCIAS Y SUPOSICIONES
Ejercicios 11.6 Ejercicios de autoevaluación EA
11-9
Un supervisor de control de calidad de una empresa af bricante de automóviles está preocupado por la uniformidad del número de defectos en los automóviles que salen de la línea de ensamble. Si una línea de ensamble tiene una variabilidad significativamente mayor en el número de defectos, entonces es necesario hacer cambios. El supervisor reunió los siguientes datos: Número de defectos Línea de ensamble A Línea de ensamble B Media Varianza Tamaño de muestra
EA 11-10
10 9 20
11 25 16
¿La línea de ensamble B tiene una variabilidad significativamente mayor en el número de defectos? Pruebe al nivel de significancia de 0.05. Techgene, Inc. está preocupada por la variabilidad en el número de bacterias producidas por distintos cultivos. Si los cultivos tienen una variabilidad significativamente diferente, entonces se crea confusión en los experimentos y se producen resultados extraños (se entiende que la directiva de la compañía se ponga ansiosa cuando los científicos comienzan a producir cosas extrañas). Se ha recopilado la siguiente información: Número de bacterias (en miles) Cultivo A Cultivo B
91 62
89 76
83 90
101 75
93 88
98 99
144 110
118 140
108 145
125 130
138 110
a) Calcule s2A y s2B. b) Establezca las hipótesis nula y alternativa explícitas, y pruebe al nivel de significancia de 0.02.
420
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Conceptos básicos ■ 11-48
■ 11-49
■ 11-50
Para dos poblaciones que se piensa tienen la misma varianza, se tiene la siguiente información. Una muestra de 16 tomada de la población 1 exhibe una varianza muestral de 3.75, y una muestra de 10 tomada de la población 2 exhibe una varianza de 5.38. a) Calcule el cociente F para la prueba de igualdad de varianzas. b) Encuentre el valor F crítico para la cola superior, con un nivel de significancia de 0.10. c) Encuentre el valor F correspondiente a la cola inferior. d) Establezca la conclusión de su prueba. En un estudio de comparación entre las medias de dos grupos, se observó que la forma más común de la prueba t de dos grupos para la diferencia entre dos medias supone que las varianzas de población para los dos grupos son iguales. Un experimentador, usando una condición de control y una condición experimental en su estudio de reacción a la droga,desea verificar que esta suposición se cumple, es decir, que el tratamiento administrado afecta sólo a la media, y no a la varianza de la variable que se investiga. A partir de estos datos, calculó la varianza del grupo experimental en 25.8 y la del grupo de control en 20.6. El grupo experimental tenía 25 sujetos, mientras que el del grupo de control, 31. ¿Puede el experimentador proceder a usar la prueba t, que supone varianzas iguales para los dos grupos? Utilice 0.10. De una muestra de 25 observaciones, la estimación de la desviación estándar de la población fue 15.0. Para otra muestra de 14 observaciones, la estimación fue 9.7. ¿Podemos aceptar la hipótesis de que las dos muestras provienen de poblaciones con varianzas iguales o debemos concluir que la varianza de la segunda población es menor? Utilice el nivel de significancia de 0.01.
Aplicaciones ■ 11-51
■ 11-52
■ 11-53
El señor Raj, un inversionista, ha reducido su búsqueda de un fondo mutualista a los fondos Opp y y MLPFS. La tasa de rendimiento de Oppy es más baja, pero parece más estable que la de MLPFS. Si la variabilidad en la tasa de rendimiento de Oppy es, en efecto, significativamente más baja que la de MLPFS, entonces invertirá su dinero en la primera. Si no hay una diferencia signif icativa en la variabilidad, hará la inversión en MLPFS. Para tomar una decisión, Raj ha obtenido una muestra de 21 tasas mensuales de rendimiento de ambas empresas. Para Oppy la desviación estándar fue 2, y para MLPFS fue 3. ¿En qué empresa invertirá su dinero el señor Raj? Pruebe para 0.05. Una compañía de seguros está interesada en la duración de la hospitalización por v arias enfermedades. Seleccionaron una muestra aleatoria de 20 pacientes del hospital A y 25 del hospital B internados por la misma enfermedad. El tiempo que pasaron en el hospital A tuvo un promedio de 2.4 días con desviación estándar de 0.6 días. El tiempo de tratamiento en el hospital B promedió 2.3 días con desviación estándar de 0.9 días. ¿Los pacientes del hospital A tiene significativamente menor variabilidad en su tiempo de recuperación? Pruebe para un nivel de significancia de 0.01. La Nation’s Broadcasting Company está interesada en el número de personas que sintonizan sus programas de éxito Buddies y Ride to Nowhere; más importante, la compañía está muy preocupada por la variabilidad en el número de personas que ven los programas. Los anunciantes quieren televidentes consistentes con la esperanza de que la e xposición constante a los anuncios ayude a v ender sus productos. Los datos son los siguientes (en millones de televidentes) para los últimos meses. Número de televidentes (millones) Buddies Ride to Nowhere
■ 11-54
57.4 64.5
62.6 58.2
54.6 39.5
52.4 24.7
60.5 40.2
61.8 41.6
71.4 38.4
67.5 33.6
62.6 34.4
58.4 37.8
a) Calcule s2BUDDIES y s2RIDE. b) Establezca las hipótesis explícitas para determinar si la variabilidad es la misma entre las dos poblaciones. Pruebe para 0.10 de nivel de significancia. La HAL Corporation está a punto de poner en el mercado una computadora personal nue va más rápida, PAL, que sustituirá a su viejo modelo, CAL. Aunque, en promedio, PAL es más rápida que CAL, la velocidad de procesamiento de la nue va computadora parece más v ariable. (La velocidad de procesamiento depende del programa que se esté corriendo, la cantidad de datos de entrada y la cantidad de datos de sa-
11.6:Inferencias acerca de las varianzas de dos poblaciones
421
lida.) Se suministraron a PAL y CAL dos muestras de 25 corridas que cubrían la variedad de tareas esperadas (una muestra a cada una). Los resultados fueron los siguientes: Tiempo de procesamiento (en centésimas de segundo) PAL CAL Media Desviación estándar
■ 11-55
■ 11-56
50 20
75 10
Al nivel de significancia de 0.05, ¿es la velocidad de procesamiento de PAL significativamente más variable que la de CAL? Dos gerentes de marca estaban en desacuerdo respecto a si las amas de casas urbanas tienen mayor variabilidad en sus patrones de compra de abarrotes que las amas de casa rurales. P ara probar sus ideas contrapuestas, tomaron muestras aleatorias de 70 amas de casa de áreas urbanas y 60 de áreas rurales. Encontraron que la varianza en días al cuadrado entre salidas de compras para las amas de casa urbanas fue 14, y la varianza de la muestra para las amas de casa rurales fue 3.5. ¿Es significativa la diferencia de las varianzas en días entre salidas de compras al nivel 0.0l? Dos tiendas de helado competidores, Yum-Yum y Goody, anuncian la venta de bolas de helado de 1/4 de libra. Existe cierta preocupación por la variabilidad del tamaño de las bolas, de modo que dos miembros de un grupo de consumidores locales muestrearon 25 raciones de helado de laYum-Yum y 11 raciones de helado de la Goody. Desde luego, ambos miembros ahora sufren dolor de estómago, de manera que debe ayudarles. ¿Existe alguna diferencia en la varianza del peso de las raciones de helado entre la Yum-Yum y la Goody? Se han recolectado los datos siguientes. Pruebe al nivel 0.10. Peso por ración (en centésimos de libra) Yum-Yum Goody Media Varianza
25 16
25 10
Soluciones a los ejercicios de autoevaluación EA
11-9
H0: 2B A2 H1: 2B > A2
s2B 25 F observada 2.778 s2A 9 FCRIT F0.05 (15, 19) 2.23 Entonces, se rechaza H0; la línea de ensamble B tiene una variabilidad significativamente mayor en el número de defectos, por lo que deberán hacerse algunos cambios. (Nota: sólo se está verificando la uniformidad; los autos pueden estar uniformemente mal.) EA 11-10
a) s2A 423.4
s2B 755.818
b) H0: A2 B2 H1: A2 B2 s2B 423.4 F observada 0.56 755.818 s2A F0.01(10, 10) 4.85 1 1 F0.99(10, 10) 0.21 F (10, 10, 0.01) 4.85 Entonces, se acepta H 0; la administración no tiene que preocuparse por cosas e xtrañas en el laboratorio.
422
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Estadística en el trabajo Loveland Computers Caso: ji-cuadrada y ANOVA Tom Hodges ha sido supervisor del equipo de apo yo técnico de la empresa Lo veland Computers durante un poco más de un año. Como muchas proveedoras de computadoras, Loveland contrató a una compañía de servicios a nivel nacional para proporcionar un año de reparaciones a domicilio. Esta garantía fue importante para inducir a los clientes a comprar computadoras por teléfono. Pero Loveland ha encontrado que más del 90% de los problemas de los clientes podría haberse solucionado con leer el manual de instrucciones incluido con cada máquina,y el 95% de todos los problemas podría haberse resuelto con instrucciones por teléfono si se animara a los clientes a llamar la atención al cliente antes de pedir la reparación a domicilio. Para ahorrar en costos de garantía, la Loveland invirtió fuertes sumas en su centro de apo yo al cliente, en donde 24 técnicos responderían a las llamadas. El personal de apoyo al cliente era de dos tipos. La mayoría no tenía mucha experiencia con computadoras. Este personal de apoyo en primer nivel fue reclutado por sus habilidades en el trato telefónico y se capacitó internamente para verificar una lista de rutina de los problemas más comunes. Cuando no podían corregir el problema de un cliente con el protocolo estándar, o cuando un cliente llamaba con una pregunta “difícil”, la llamada se transfería a un técnico.Algunos técnicos eran empleados de tiempo completo, pero Hodges había descubierto que podía encontrar suf iciente ayuda de tiempo parcial entre los estudiantes de las carreras de ciencias de la computación e ingeniería de la uni versidad local. Para ajustarse al horario de sus clases, la mayoría trabajaba en un turno que empezaba a las 4:00 p.m. Entre los problemas que manejaba el personal de primer nivel se incluía ayudar a los clientes a car gar programas al disco duro desde discos flexibles y a verificar las conexiones de los cables. Los técnicos manejaban problemas como la incompatibilidad de algunos programas “residentes en memoria” y cómo recuperar datos “perdidos”. Los directores de varios departamentos se reunían para planear una estrategia con el fin de mejorar el apoyo por teléfono. La clasificación del servicio de Loveland ha bajado de “excelente” a “bueno”, según una encuesta de realizada por una
Ejercicio de base de datos computacional HH Industries Stan Hutchings, director de ventas, metió la cabeza en la oficina de Laurel una mañana, un par de semanas después de la
compañía de investigación de mercados. Walter Azko pidió a Lee que “asistiera a la reunión para ver si podía ayudar”. Margot Derby, directora de comercialización, empezó la junta con aire de determinación: “Tom, el problema es obvio. Cuando llamamos a las personas que nos enviaron cartas de reclamación, dicen que nunca pueden comunicarse con un técnico. Hablan con el personal de apoyo de primer nivel y luego esperan para siempre. Es obvio que son los clientes de las empresas grandes quienes tienen preguntas ‘difíciles’ que no puede contestar el personal de primer ni vel. Lo único que tienes que hacer es programar más técnicos en los turnos matutinos.” Hodges respondió, “por el contrario, Margot. Son los usuarios domésticos los que necesitan hablar con los técnicos, de manera que la mayoría de las llamadas llega en el turno de la tarde. Nos hacen pre guntas ‘científicas’ mientras juegan con sus máquinas al regresar del trabajo. En cualquier caso, los técnicos están ocupados en el turno de la tarde; obtendré un informe impreso de su tiempo total en el teléfono.” “Sí, pero te apuesto a que si observas el tiempo promedio de llamadas, es más alto por las tardes. Creo que tus técnicos se ponen a platicar con los clientes para llenar el tiempo.” “Bueno, es claro que necesitamos saber cuándo entran las llamadas ‘difíciles’”, intervino Lee con la esperanza de que la discusión tuviera una dirección más productiva. “Como nadie habla con un técnico sin antes hablar con alguien del personal de primer nivel, podemos hacer que este personal clasif ique cada pregunta como fácil o difícil para reunir datos de cada turno. Luego podemos hacer una prueba para ver si realmente hay más preguntas técnicas en la mañana o en la tarde.” “No olvides que son mis clientes de empresas quienes tienen más preguntas difíciles”, dijo Margot. “Todavía creo que no tienes razón.Y a propósito, tengo el presentimiento de que los días de la semana influyen en que las cosas sean diferentes”, añadió Tom. “Recibimos un montón de llamadas técnicas al inicio de la semana,pero se reducen al final.” Preguntas de estudio: ¿En qué formato deberán tabularse los datos? ¿Qué prueba estadística podría ser útil si Lee enfoca su atención en la cuestión de los turnos (hace a un lado los comentarios de los clientes corporativos y el día de la semana)? ¿Y qué técnica sería más útil para e xaminar los efectos del tipo de cliente, turno y día de la semana? ¿Qué podría distorsionar los datos que Lee pide al grupo de apoyo al cliente que recolecte?
reunión de ventas. “¿Tienes unos minutos? Quiero pre guntarte sobre cierto asunto.” “Claro”, respondió Laurel, haciendo a un lado una pila de papeles con datos. “¿Qué puedo hacer por ti?” “Desde hace algún tiempo estamos jugando con la idea de instituir un programa de comisiones por ‘ventas desde adentro’. Como están las cosas, sólo nuestros dos representantes externos de ventas trabajan con un salario más comisiones.
Ejercicio de base de datos computacional
Sin embargo, la gente que trabaja en los teléfonos dentro de la compañía son los responsables de casi el 75% de las ventas totales, y han estado pidiendo un pequeño incenti vo en forma de comisión. Salió a colación en la junta directi va pasada, y se propusieron algunas b uenas ideas. Debo mencionar que alguna vez intentamos poner en práctica un programa de este tipo, pero no funcionó. El truco es que las llamadas se reciben aleatoriamente y las contesta el representante de ventas que en ese momento esté libre. Algunas personas sólo llaman para pedir información y otras para hacer un pedido. Como suele suceder, a menudo un cliente llama más de una vez y, tal vez habla con varios representantes, el resultado es una complicación al asignar la comisión a una sola persona. La solución que propusieron es en realidad innovadora. “Como ya lo sabes, cada mes nos fijamos un objetivo de ventas”, continuó Stan. “El plan propuesto implica mantener las cosas como están hasta que lleguemos al 95% de nuestro objetivo mensual. Después de eso, se agrupará un porcentaje del dinero de las ventas y se repartirá por igual al final del mes. Nuestro propósito es propiciar un espíritu de equipo, eliminando la competencia malsana que suelen propiciar los programas de comisiones.” “Suena bien”, comentó Laurel. “Pero, ¿cómo puedo ayudar?” “Bueno, en aras de la justicia, necesitamos estar seguros de que las ventas realmente siguen un comportamiento aleatorio. Es decir, si mi suposición es correcta, el promedio diario de ventas de cada representante deberá ser el mismo a la larga.” “Ah”, exclamó Laurel. “Ya veo qué necesitas. Si quieres conseguirme algunos datos para los diferentes v endedores internos, podría verificar algunos datos para ver cuál es la posibilidad de que en realidad v engan de la misma distrib ución.” “Lotería. Pensé que podrías ayudarnos. Te voy a conseguir los datos ahora mismo. Gracias, Laurel”, Stan se dirigió a la puerta de la oficina. En los archivos CH11.xxx que se encuentran en el sitio www.pearsoneducacion.net/levin, hallará los datos de seis meses de ventas diarias de los cuatro representantes internos de tiempo completo.
423
2. Verifique la conclusión de Stan respecto a Mik e, observando las medias y las desviaciones estándar por v endedor. Pruebe si los datos correspondientes a Debbie, Jeff y Barry parecen indicar poblaciones con la misma media. (Utilice el nivel de significancia del 1%.) Más tarde, con unos cuantos minutos de tiempo libre, Laurel decidió regresar y verificar sus suposiciones sobre el estudio del personal que había realizado para Stan. Ella sabía que las recomendaciones se basaban con mucho en suponer una distribución de Poisson para la lle gada de las llamadas. 3. Verifique los datos de las llamadas telefónicas de los archivos CH05.xxx que se encuentran en el sitio www . pearsoneducacion.net/levin, podrá ver si parecen se guir una distribución de Poisson. Utilice los interv alos 0-20, 21-25, 26-30, 31-35, 36. Pruebe al nivel de significancia del 5%. “Maldita sea”, murmuró Laurel para sí. “Espero no haberme equivocado mucho con esa suposición. Si tengo suerte y los datos en realidad siguen una distribución normal, podría verificarlo. Por lo menos tengo que comunicárselo a Stan y Hal.” Laurel no se emocionaba al tener que reconocer un error. 4. Verifique la suposición de que los datos siguen una distribución normal. Pruebe al nivel de significancia de 0.05. 5. Si la suposición de normalidad parece razonable, vuelva a estimar el número de vendedores que se necesitan para atender los teléfonos.
1. ¿Los datos muestreados provienen de poblaciones con la misma media? Pruebe esta suposición al nivel de significancia del 1%.
Stan miró los datos de Laurel con interés. “Sabía que algo no andaba bien con nuestras conclusiones originales, pero no podía decir qué era. Fue b uena idea mantener a nuestros seis vendedores”, sonrió. Laurel suspiró aliviada. “Sin embargo”, continuó él, “esto trae a colación una nueva pregunta. Estos datos parecen indicar , y lo sé por e xperiencia, que definitivamente hay algunas horas pico. Me pregunto si podemos llegar a una solución menos costosa si utilizamos una combinación de representantes de v entas de tiempo completo y de tiempo parcial. ¿Tú qué crees?” “Quizá tengas razón”, asintió Laurel. “Déjame hacer unos cuantos cálculos más y le llevamos los resultados a Hal para que nos dé su opinión.”
Stan observó los resultados. “Hmmm, parece que Mike está solo en una categoría. Bueno, tiene más tiempo en esto que los demás y hay ciertos clientes que preguntan específicamente por él. ¿Qué tal si trabajamos un programa de comisiones para él solo y echamos a andar la propuesta para los otros tres? ¿Se vale hacerlo?” “Tendré que hacer otra corrida para estar segura”, respondió Laurel, “pero creo que sería mejor de esa forma”.
6. Calcule el promedio y la desviación estándar del número de llamadas recibidas durante cada hora. Suponiendo que, durante cada hora, el número de llamadas recibidas tienen una distribución normal, calcule los niveles recomendados de personal con el fin de estar 98% seguros de que un representante de ventas solamente tiene que atender ocho llamadas por hora. ¿Qué combinación de v endedores de tiempo completo y tiempo parcial parece ser apropiada?
424
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Del libro de texto al mundo real Control estadístico de procesos Los profesionales de mercadotecnia utilizan la estadística para analizar datos y determinar la efectividad de diferentes técnicas de comercialización. Las agencias de in vestigación en mercadotecnia pueden recolectar datos comerciales mediante entrevistas intensivas por teléfono o en persona. Además, las encuestas por correo pueden proporcionar una opción de bajo costo relativo para la recolección de información en poblaciones ampliamente dispersas. Uno de los inconvenientes principales de las encuestas por correo es que su nivel de respuesta es,por lo general, más bajo que el de las entrevistas en persona o telefónicas; así, su sesgo por no recibir respuesta es más aguda. En 1987, se realizó un experimento en Londres para v er si podían mejorar los niveles de respuesta a las encuestas por correo adjuntando un pequeño incenti vo monetario y/o un folleto informativo junto con la encuesta. Antes de 1987, las agencias de investigación inglesas preferían realizar encuestas por teléfono, y únicamente el 4% de las compañías en Inglaterra habían utilizado incentivos monetarios en sus encuestas por correo. El experimento se diseñó para probar las siguientes hipótesis nulas: H1: La respuesta a las encuestas comerciales por correo es independiente de la inclusión de un incentivo monetario. H2: La respuesta a las encuestas comerciales por correo es independiente de la inclusión de un folleto informativo. El experimento La muestra consistió en 159 altos ejecutivos de empresas de construcción. Los cuestionarios se asignaron aleatoriamente incluyendo con ellas: 1. 2. 3. 4.
incentivo monetario, sin folleto, incentivo monetario, con folleto, sin incentivo monetario, con folleto, sin incentivo monetario, sin folleto.
En la carta que contenía una moneda de 20 centavos, utilizada como incentivo monetario, se sugería que el dinero podría utilizarse para comprar una taza de café y facilitar la tarea de llenar el cuestionario. La carta adjunta al folleto indicaba que
Tabla RW 11-1 Fuente de variación Efectos principales Incentivo monetario Folleto
Resultados ANOVA para la tasas de respuesta Suma de cuadrados
GL
Media al cuadrado
F
1.04 0.87 0.16
2 1 1
0.052 0.87 0.16
2.26 3.76* 0.71
*Denota nivel de significancia de 0.05.
contenía una explicación de la importancia de la encuesta para la investigación. Los resultados Se utilizó el análisis de varianza para probar los efectos de los tratamientos sobre las tasas de respuesta. Como verificación, se usó también la prueba ji-cuadrada para probar la asociación de los efectos principales sobre la tasa de respuesta. Esta tasa de respuesta global a la encuesta por correo fue 36.5%. Sin embargo, la tasa de respuesta asociada con la moneda de 20 centa vos fue 44.2% (contra el 29.3% para las encuestas sin incentivo monetario) y con el folleto fue 33.3% (contra el 40.0% para las encuestas sin folleto). En la tabla MR11-1 se presentan los resultados de ANOVA. El aumento del 14.9% en la tasa de respuesta a las encuestas con moneda fue significativo para 0.05. La diferencia folleto/no folleto no fue significativa. La prueba jicuadrada confirmó los resultados de ANOVA. Relevancia práctica Los profesionales de Gran Bretaña han externado su escepticismo respecto a las encuestas por correo debido al sesgo por no recibir respuestas. El experimento indicó que un pequeño incentivo monetario podría mejorar las tasas de respuesta a las encuestas por correo sin afectar la calidad de la respuesta. Los folletos,que son costosos, no tienen un efecto significativo en la tasa de respuesta; de hecho, esta tasa fue mayor para los cuestionarios sin folleto. Esta evidencia sugiere que las encuestas por correo son un medio viable para obtener información de mercado y que el tiempo y el esfuerzo implicados en la producción de un folleto puede invertirse mejor en incentivos monetarios. Fuente: David Jobber, Karl Birro y Stuart Sanderson, “A Factorial Investigation of Methods of Stimulating Response to a Mail Survey”, European Journal of Operational Research 37 (1988): 158-163.
Repaso del capítulo ● Términos introducidos en el capítulo 11 Análisis de varianza (ANOVA) Técnica estadística utilizada para probar la igualdad de tres o más medias muestrales y hacer inferencias sobre si las muestras pro vienen de poblaciones que tienen la misma media. Cociente F Cociente utilizado en el análisis de varianza, entre otras pruebas, para comparar la magnitud de dos estimaciones de la varianza de la población para determinar si las
dos estimaciones son aproximadamente iguales; en ANOVA se usa el cociente de la varianza entre columnas dividido entre la varianza dentro de columnas. Distribución F Familia de distrib uciones diferenciadas por dos parámetros (gl del numerador, gl del denominador), utilizada principalmente para probar hipótesis sobre v arianzas.
Repaso del capítulo
425
Distribución ji-cuadrada Familia de distribuciones de probabilidad, diferenciadas por sus grados de libertad, que se utiliza para probar v arias hipótesis diferentes acerca de v arianzas, proporciones y bondad de ajuste de distribuciones.
Prueba de independencia Prueba estadística de proporciones de frecuencias que se usa para determinar si la pertenencia a las categorías de una variable es diferente como función de la pertenencia a las categorías de una segunda variable.
Frecuencias esperadas Frecuencias que esperaríamos v er en una tabla de contingencia o distribución de frecuencias si la hipótesis nula es verdadera.
Tabla de contingencia Tabla que contiene R renglones y C columnas. Cada renglón corresponde a un nivel de una variable; cada columna, a un nivel de otra variable. Los elementos del cuerpo de la tabla son las frecuencias con que ocurre cada combinación de variables.
Gran media La media para el grupo completo de sujetos provenientes de todas las muestras del experimento. Prueba de bondad de ajuste Prueba estadística para determinar si existe una diferencia significativa entre una distribución de frecuencias observ adas y una distrib ución de probabilidad teórica hipotética para describir la distribución observada.
Varianza dentro de columnas Estimación de la varianza de la población basada en las v arianzas dentro de k muestras, utilizando un promedio ponderado dek varianzas muestrales. Varianza entre columnas Estimación de la v arianza de la población derivada de la v arianza entre las medias de las muestras.
● Ecuaciones introducidas en el capítulo 11 ■
11-1
( fo fe)2 2 fe Esta fórmula dice que el estadístico ji-cuadrada ( 2) es igual a la suma ( ) que obtendremos si: 1. Restamos las frecuencias esperadas, fe, de las frecuencias observadas, fo, para cada categoría de la tabla de contingencia. 2. Elevamos al cuadrado cada diferencia. 3. Dividimos cada diferencia al cuadrado entre fe. 4. Sumamos todos los resultados obtenidos en el paso 3.
■
11-2
Número de grados de libertad (número de renglones 1)(número de columnas 1) Para calcular el número de grados de libertad de una prueba de independencia ji-cuadrada, multiplique el número de renglones (menos 1) por el número de columnas (menos 1).
■
11-3
RT CT fe n Con esta fórmula podemos calcular la frecuencia esperada para cualquier celda de una tabla de contingencia. RT es el total por renglón para el renglón que contiene a la celda, CT es el total por columna para la columna que contiene a la celda y n es el número total de observaciones.
■
11-4
(x x )2 s 2x k1 Para calcular la varianza entre las medias muestrales, utilice esta fórmula.
■
11-5
2 2x n La varianza de la población es igual al producto del cuadrado del error estándar de la media y el tamaño de la muestra.
■
■
11-6
11-7
nj(xj x )2 ˆ 2b k1 Una estimación de la varianza de la población (la varianza entre columnas) puede obtenerse con esta ecuación. La ecuación se obtiene sustituyendo primero sx2 por x2 en la ecuación 11-5, y luego ponderando cada (xj x )2 con su tamaño de muestra adecuado (nj). nj 1 2 ˆ w s2j nT k
426
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Una segunda estimación de la varianza de la población (la varianza dentro de las columnas) se obtiene con esta ecuación. Esta ecuación utiliza un promedio ponderado de todas las v arianzas muestrales. En esta formulación, nT nj, el tamaño de muestra total.
■
11-8
primera estimación de la varianza de la población basada en la varianza entre las medias muestrales F segunda estimación de la varianza de la población basada en las varianzas dentro de las muestras Este cociente permite comparar las dos estimaciones de la v arianza de la población, calculadas con las ecuaciones 11-6 y 11-7. En una prueba de hipótesis basada en una distribución F, tenemos más probabilidad de aceptar la hipótesis nula si este cociente F o estadístico F tiene un valor cercano a 1. Conforme el cociente F aumenta, es más probable que se rechace la hipótesis nula.
■
11-9
ˆ 2b varianza entre columnas F ˆ w2 varianza dentro de columnas Ésta es otra forma de plantear la ecuación 11-8, utilizando símbolos estadísticos para el numerador y el denominador del cociente F.
■ 11-10
Número de grados de libertad en el numerador del cociente F (número de muestras 1) Para realizar un análisis de varianza, calculamos el número de grados de libertad en la varianza entre columnas (el numerador del cociente F) restando 1 al número de muestras tomadas.
■ 11-11
Número de grados de libertad en el denominador del cociente F (nj 1) nT k Esta ecuación sirve para calcular el número de grados de libertad en el denominador del cociente F. Éste es igual al tamaño total de las muestras, nT, menos el número de muestras, k.
■ 11-12
(n 1)s2 2 2 Con una varianza de población 2, el estadístico 2 dado por esta ecuación tiene una distribución ji-cuadrada con n 1 grados de libertad. Este resultado es exacto si la población es normal, pero aun en muestras tomadas de poblaciones no normales, a menudo es una buena aproximación.
■ 11-13
(n 1)s2 2 2 Para obtener un intervalo de confianza para 2, se despeja 2 de la ecuación 11-12.
■ 11-14
(n 1)s2 L2 ← Límite inferior de confianza U2 (n 1)s2 U2 ← Límite superior de confianza L2 Estas fórmulas dan los límites de confianza inferior y superior de un intervalo de confianza para 2. (No2 para encontrar L2, y 2L para encontrar te que debido a que 2 aparece en el denominador, utilizamos U 2 U.)
■ 11-15
s12 F s22 Este cociente tiene una distribución F con n1 1 grados de libertad en el numerador y n2 1 grados de libertad en el denominador. (Esto supone que las dos poblaciones están razonablemente bien descritas por distribuciones normales.) Se usa para probar hipótesis de dos varianzas de población.
■ 11-16
1 F(n, d, ) F(d, n, 1 ) La tabla 6 del apéndice sólo da valores de F para pruebas de hipótesis de extremo superior, pero esta ecuación permite encontrar los valores F apropiados para pruebas de cola inferior y de dos colas.
Ejercicios de repaso
427
Ejercicios de repaso ■ 11-57
La oficina de correos está preocupada por la variabilidad en el número de días que toma a una carta ir de la costa este a la costa oeste de Estados Unidos. Se envió por correo una muestra de cartas desde la costa este y se registró el tiempo que tardaron en llegar a su destino en la costa oeste. Los datos obtenidos son: Tiempo para llegar al destino (en días) 2.2
■ 11-58
1.7
3.0
2.9
1.9
Obrero Oficinista Profesional
■ 11-60
■ 11-61
4.2
1.5
4.0
2.5
Actitud hacia la legislación social A favor Neutral Opuesto
Ocupación
■ 11-59
3.1
Encuentre un intervalo de confianza del 90% para la varianza en los tiempos de llegada. Para la siguiente tabla de contingencia, calcule las frecuencias observadas y esperadas y el estadístico jicuadrada. Establezca y pruebe las hipótesis apropiadas al nivel de significancia de 0.05.
19 15 24
16 22 11
37 46 32
Los vendedores saben que los gustos difieren en las diferentes regiones del país. En el negocio de renta de automóviles, un experto de la industria opina que existen fuertes preferencias regionales en cuanto al tamaño del auto y da los siguientes datos para apoyar ese punto de vista: Tipo de auto preferido
Noreste
Grande Mediano Todos los demás
105 120 025
Región del país Sureste Noroeste 120 100 030
Suroeste
105 130 015
070 150 030
a) Establezca las hipótesis nula y alternativa apropiadas. b) ¿Apoyan los datos la opinión del experto para un nivel de significancia de 0.05? c) ¿Y para un nivel de significancia de 0.20? ¿Qué distribución de probabilidad se utiliza en cada uno de los siguientes tipos de pruebas estadísticas? a) Comparación de dos proporciones de población. b) Valor de una sola varianza de población. c) Comparación de tres o más medias de población. d) Comparación de dos medias de población a partir de muestras dependientes pequeñas. Gap vende ropa informal para adulto con una estrategia de “valor”: buena calidad a un precio razonable. En 1986, la compañía inició una nueva división, Gap Kids, con tiendas separadas que ofrecen ropa similar para niños de entre 2 y 12 años. Después de varios años de expansión rápida en Estados Unidos, Gap empezó a abrir tiendas en Canadá y el Reino Unido. P ara el tercer trimestre de 1992, el número de tiendas en operación era: Gap (adultos) Gap Kids
Estados Unidos
Inglaterra
Canadá
822 240
20 8
31 14
Fuente: Company data, informe de Salomon Bros., 23 de diciembre de 1992.
■ 11-62
Pruebe para 0.01 si Gap está poniendo el mismo énfasis al abrir tiendas Gap Kids en los tres países. ¿Por qué tiene sentido esta estrategia de negocios? Los inventores y las compañías internacionales saben del v alor de una patente estadounidense para proteger sus ideas, y en años recientes, han recibido casi la mitad de las patentes otor gadas. A partir de los datos de la siguiente tabla,¿ha habido un cambio significativo en la proporción de patentes originadas fuera de Estados Unidos en los últimos 10 años? Pruebe para 0.05. Patentes concedidas
1981
1991
Originadas en EUA Originadas fuera de EUA
39,223 26,548
51,183 45,331
Fuente: U.S. Patent Office, informe de Business Week (18 de enero de 1993): 79.
428
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
■ 11-63
Existen 33 orquestas sinfónicas importantes en Estados Unidos. El número de conciertos dados por cada una durante 1989 se lista y resume en la siguiente tabla. No queda claro de manera inmediata si estas orquestas pueden considerarse representativas de una sola población o si e xisten varios tipos diferentes (pequeña, media y grande), diferenciadas por el número de conciertos que dan al año. Si existen diferentes tipos de orquestas, una compañía editora de música podría querer desarrollar diferentes programas de comercialización para manejarlas. Por ejemplo, las orquestas sinfónicas podrían tener representantes de ventas asignados a ellas, pero un solo representante podría encar garse de varias orquestas sinfónicas más pequeñas. Para darse una primera idea de si las 33 orquestas se pueden considerar un solo grupo,utilice la información de la tabla para probar para 0.025, si el número de conciertos dados en 1989 están bien descritos por una distribución normal con 182.3 (la media de la muestra) y 57 (la desviación estándar de la muestra). Número de conciertos (datos sin procesar) 325
300
267
263
250
230
216
215
200
200
200
200
190
185
185
180
180
180
180
175
175
164
160
160
157
150
135
120
115
105
100
84
70
Distribución de frecuencias Clase
100
101-150
151-200
201-250
251-300
301
3
5
17
4
3
1
Frecuencia
Fuente: Richard Boyer y David Savageau, Places Rated Almanac (Nueva York: Prentice Hall Travel, 1989): 226.
■ 11-64
■ 11-65
¿Qué distribución de probabilidad se utiliza en cada una de las siguientes pruebas estadísticas? a) Comparación de las medias de dos muestras pequeñas de poblaciones con varianza desconocida. b) Comparación de dos varianzas de población. c) Valor de una sola media de población basado en muestras grandes. d) Comparación de tres o más proporciones de población. Las tiendas establecen sus precios,pero los fabricantes tienen interés en el precio de venta final como parte de su estrategia de promoción. El gerente de mercadotecnia de los bolígrafos marca C se queja de que el resultado de un recorte de precios excesivo en las tiendas es que la marca C se percibe como una “pluma corriente”. El gerente de ventas contesta que “todos dan descuentos,todas las marcas, hasta cierto punto”. Durante las llamadas de ventas recolectaron datos del precio final de cuatro marcas de bolígrafos, incluyendo la de ellos, en cinco tiendas diferentes. Para un nivel de confianza de 0.05, ¿existe una variación significativa en el precio entre las marcas? Marca A
■ 11-66
Precio (en centavos de dólar) Marca B Marca C
Marca D
61
52
47
67
55
58
52
63
57
54
49
68
60
55
49
59
62
58
57
65
Una compañía publicitaria de espectaculares debe saber si hay v olúmenes de tránsito significativamente distintos que pasen frente a anuncios situados en tres lugares en Newark, debido a que la compañía cobra precios diferentes dependiendo de la cantidad de autos que pasan frente al anuncio. Se mide el v olumen del tránsito en los tres sitios durante intervalos de 5 minutos elegidos aleatoriamente. La tabla muestra los datos obtenidos. Al nivel de significancia de 0.05, ¿son iguales los volúmenes de autos que pasan frente los tres anuncios? Volumen de tránsito Anuncio 1
30
45
26
44
18
38
42
29
Anuncio 2
29
38
36
21
36
18
17
30
Anuncio 3
32
44
40
43
24
28
18
32
Ejercicios de repaso
■ 11-67
429
Un inversionista está interesado en ver si existen diferencias significativas en las tasas de rendimiento de acciones, bonos y fondos mutuos. Ha tomado muestras aleatorias de cada tipo de inversión y ha registrado los siguientes datos: Tasa de rendimiento (porcentaje) Acciones Bonos Fondos mutuos
■ 11-68
■ 11-69
2.0 4.0 3.5
6.0 3.1 3.1
2.0 2.2 2.9
2.1 5.3 6.0
6.2 5.9
2.9
a) Establezca las hipótesis nula y alternativa. b) Pruebe sus hipótesis al nivel de significancia de 0.05. c) Establezca una conclusión explícita. Para la siguiente tabla de contingencia: a) Construya una tabla de frecuencias observadas y esperadas. b) Calcule el estadístico ji-cuadrada. c) Establezca las hipótesis nula y alternativa. d) Al nivel de significancia de 0.05, ¿deberá rechazarse la hipótesis nula? Concurrencia a la iglesia
Bajo
Nivel de ingresos Mediano
Alto
Nunca Ocasionalmente Regularmente
27 25 22
48 63 74
15 14 12
La Overseas Shipholding Group, Inc. (OSG), tiene tres tipos de embarcaciones: navíos cargueros, transportadores de productos petroleros (TPP) y b uques-tanque. Algunos de estos barcos están contratados a largo plazo y transportan bienes para un proveedor durante varios años. Otros barcos se contratan por viaje. La ventaja principal de un contrato a largo plazo es que se tienen ingresos fijos, al costo de renunciar a la oportunidad de cobrar un precio más alto si las fuerzas del mercado ponen a las embarcaciones en una demanda alta. La existencia de contratos a largo plazo afectará las estimaciones de los analistas financieros respecto a los ingresos futuros de la OSG. ¿Los siguientes datos de frecuencias indican que los tres tipos de embarcaciones tienen la misma probabilidad de ser contratados a largo plazo? Pruebe para 0.10. Navíos cargueros
TPP
Buques-tanque
7 15
7 10
20 4
Contrato a largo plazo Sin contrato a largo plazo
Fuente: Overseas Shipholding Group, Inc., 1991. Informe anual.
11-70
Los promedios Dow-Jones para la industria, el transporte y los servicios de luz, agua y gas se basan en el precio de las acciones de 30 empresas industriales, 20 empresas de transporte y 15 de servicios de luz, agua y gas, de la Bolsa de Valores de Nueva York, que se consideran representativas de todas las compañías que forman parte de sus grupos. La tabla da una lista de los cambios en los precios de las acciones para estas 65 compañías el día 21 de junio de 1993. P ara 0.05, ¿es razonable concluir que los tres grupos tuvieron cambios promedio significativamente diferentes en los precios de sus acciones ese día? Compañía
Promedio industrial Cambio Compañía
Alcoa Allied Signal American Express AT&T Bethlehem Steel Boeing Caterpillar Chevron Coca Cola Disney
0.125 1.625 0.375 0.250 0.500 0.375 1.500 1.000 0.250 0
Goodyear IBM International Paper McDonald’s Merck Minnesota Mining & Mfg. JP Morgan Philip Morris Procter & Gamble Sears
Cambio 0.125 0.125 0.125 0.250 0 1.375 0.375 0.125 0.375 0.500 (Continúa)
430
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Compañía
Promedio industrial (continuación) Cambio Compañía
Cambio
DuPont Eastmon Kodak Exxon General Electric General Motors
0.250 0.250 0.125 1.000 1.125
Compañía
Promedio de transporte Cambio Compañía
Cambio
AMR Airborne Freight Alaska Air American President Burlington Northern CSX Carolina Freight Consolidated Freightways Conrail Delta Air lines
0.500 0 0.125 0.250 0.625 1.125 0.125 0.125 0.625 0.125
0.375 0.250 0.250 0.125 1.000 0.625 1.500 0.375 0 0
Compañía
1.000 0.125 0.750 0 0.250
Texaco Union Carbide United Technologies Westinghouse Woolworth
Federal Express Norfolk Southern Roadway Services Ryder System Santa Fe Pacific Southwest Airlines UAL Union Pacific USAir XTRA
Promedio de servicios de luz, agua y gas Cambio Compañía 0.375 0.125 0.125 0.625 0.250 0.250 0.375 0.125
American Electric Power Arkla Centerior Energy Commonwealth Edison Consolidated Edison Consolidated Natural Gas Detroit Edison Houston Inclustries
Cambio 0.500 0.125 0.625 0.375 0.250
Niagara Mohawk Power Pacific Gas & Electric Panhandie Eastern Peopies Energy Philadelphia Electric Public Service Enterprise Group SCEcorp
0.250 0.125
Fuente: The Wall Street Journal (22 de junio de 1993): C3.
■ 11-71
■ 11-72
Para la siguiente tabla de contingencia: a) Construya una tabla de frecuencias observadas y esperadas. b) Calcule el estadístico ji-cuadrada. c) Establezca las hipótesis nula y alternativa. d) Al nivel de significancia de 0.01, ¿deberá rechazarse la hipótesis nula? Tipo de auto
16-21
44 Auto deportivo Compacto Mediano Grande
19 9 6 11 9
Grupo de edad 22-30 31-45 23 14 8 13 13
46
15 11 7 19 22
2 7 9 24 26
Swami Zhami asegura tener poderes psíquicos. Dice que puede adivinar correctamente el palo (diamantes, picas, tréboles, corazones) de una carta escogida al azar con una probabilidad de 0.5. Debido a que las cartas se escogen aleatoriamente de una baraja, podemos suponer que las adivinanzas de Zhami son independientes. En 100 días escogidos al azar, Zhami hizo 10 adivinanzas, y se registró el número de adivinanzas correctas. Queremos ver si este número tienen una distribución binomial con n 10 y p 0.5. Se recolectaron los siguientes datos: Número de adivinanzas correctas por día Frecuencia del número de adivinanzas correctas
0-2 50
a) Establezca explícitamente las hipótesis nula y alternativa.
3-5 47
6-8 2
9-10 1
Ejercicios de repaso
■ 11-73
■ 11-74
b) Pruebe sus hipótesis. Utilice 0.10. c) Si Zharni no tiene poderes psíquicos, entonces deberá tener una probabilidad de 0.25 de adivinar correctamente una carta. (¿Por qué?) Vea si el número de adivinanzas correctas tiene distribución binomial con n 10 y p 0.25. Existe cierta evidencia sociológica de que las mujeres como grupo son más variables que los hombres en sus actitudes y creencias. Una or ganización privada de investigación efectuó un sondeo de las actitudes de los hombres sobre ciertos aspectos y encontró que la desviación estándar de esta escala de actitud era 16 puntos. Un sociólogo aplicó la misma escala a un grupo de 30 mujeres y encontró que la v arianza de la muestra era 400 puntos al cuadrado. Al nivel de significancia de 0.01, ¿existe razón para creer que en efecto las mujeres muestran una mayor variabilidad en esta escala de actitud? Jim Greek hace predicciones acerca del número de canastas que anotará su equipo de baloncesto f avorito. Estamos interesados en probar si sus errores siguen una distrib ución normal con media 0 y v arianza 16. Use los datos siguientes para establecer e xplícitamente las hipótesis nula y alternati va, pruébelas al nivel 0.05. Error Número de predicciones
■ 11-75
POB SOLO EDAD VENTAS ICE COMIDA AUTO
11-77 11-78
7 5
6 a 0 45
1a6 45
7 5
Los sicólogos a menudo se preguntan sobre los efectos de la tensión y la ansiedad en el desempeño en los exámenes. Se aplicó una prueba de actitud a dos grupos escogidos aleatoriamente de 18 estudiantes universitarios, un grupo se hallaba en situación sin tensión y en el otro de tensión. El experimentador espera que la tensión aumente la varianza de las calificaciones del examen, pues siente que algunos estudiantes tienen mejor desempeño bajo tensión,mientras que otros tienen reacciones adversas ante ella. Las varianzas calculadas para los dos grupos son s 12 23.9 para el grupo sin tensión y s22 81.2 para el grupo bajo tensión. ¿Se confirma su hipótesis? Utilice el nivel de significancia de 0.05 para probar las hipótesis. La tabla MR11-2 contiene información de 50 áreas metropolitanas de Estados Unidos con poblaciones entre 190,000 y 290,000 habitantes. Las variables de la tabla son: ÁREA ESTADO REGIÓN
11-76
431
El nombre del área. La abreviatura postal del estado. Nueva Inglaterra (NE), Atlántico Medio (AM), Central Norte (CN), Atlántico Sur (AS), Central Sur (CS), Montaña (MN) o Pacífico (PA). La población (en miles). Número de casas con un solo habitante (en miles). Edad promedio de los residentes. Ventas al menudeo en 1991 (en miles de dólares). Ingreso medio de compra efectivo por casa (en dólares). Venta total de alimentos y bebidas consumidas fuera de casa en 1991 (en miles de dólares). Ventas totales por distribuidor de automóviles en 1991 (en miles de dólares).
Utilice la información dada de SOLO,EDAD y VENTAS para responder los ejercicios 11-76 a 11-78. (El resto de la información se utilizará en los capítulos 12 y 13.) Una de las estrategias de negocios con más éxito es la llamada de “traslado”. Cuando un concepto ha sido probado exitosamente en un área, una compañía se mueve gradualmente a nuevas áreas geográficas. (Algunos ejemplos son los centros de cambio de combustible JiffyLube y las cafeterías Starbuck.) En la estrategia de traslado, las empresas intentan saturar de tiendas un área geográfica a la vez, en lugar de abrir primero en, digamos, las 12 áreas metropolitanas más grandes. Tener juntas las nuevas tiendas significa un ahorro en costos de supervisión y distribución. Suponga que una compañía tiene un nue vo producto cuyo atractivo varía con los grupos de edad de los consumidores, y está decidiendo en qué región del país deberá empezar la estrategia de traslado. ¿Las medias de las edades promedio de las áreas metropolitanas significativamente son diferentes en las regiones Central Sur, Central Norte y Atlántico Sur? Pruebe al nivel 0.05. Continuando con las estrategias de traslado, suponga que el nuevo producto está dirigido a las casas con un solo residente. ¿Los números medios de estas casas por área metropolitana son significativamente diferentes (para 0.01) en las siete regiones del país? Para las 50 áreas metropolitanas listadas, ¿la distribución de ventas totales al menudeo está bien descrita por una distribución normal?
432
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Tabla MR11-2 Datos seleccionados para 50 pequeñas áreas metropolitanas
Área Salem Rockford Evansville Fayetteville Erie Lorain-Elyria Provo-Orem Fort Pierce Brownsville-Harlingen Reno Poughkeepsie Binghamton Killeen-Temple New London-Norwich Vancouver Charleston South Bend-Mishawaka Huntsville Springfield Savannah Portland Columbus Tallahassee Johnstown Duluth Santa Cruz Anchorage Boulder-Longmont Lubbock Kalamazoo Hickory-Morganton Roanoke Niagara Falls Bradenton Galveston-Texas City Lincoln Boise Lafayette Gainesville Ocala Bremerton Biloxi-Gulfport Green Bay Fort Collins-Loveland St. Cloud Brazoria Yakima Springfield Waco Chico
Estado
Región
Pob.
Solo
OR IL IN NC PA OH UT FL TX NV NY NY TX CT WA WV IN AL MO GA ME GA FL PA MN CA AK CO TX MI NC VA NY FL TX NE ID LA FL FL WA MS WI CO MN TX WA IL TX CA
PA NC NC SA MA NC MN SA SC MN MA MA SC NE PA SA NC SC NC SA NE SA SA MA NC PA PA MN SC NC SA SA MA SA SC NC MN SC SA SA PA SC NC MN NC SC PA NC SC PA
286.4 285.6 280.2 278.1 275.4 272.5 271.7 267.3 267.2 266.1 265.1 264.1 262.6 257.6 250.2 249.9 249.5 248.2 248.2 247.5 247.4 246.7 241.8 238.2 237.1 234.5 232.4 230.0 226.5 226.1 226.0 225.0 220.7 220.5 219.8 217.6 210.9 209.9 208.9 206.4 199.4 198.5 197.4 196.4 196.0 194.3 191.7 191.4 191.2 190.1
25.6 26.4 28.6 18.3 26.3 20.4 9.0 24.4 12.3 29.9 20.7 26.1 18.0 22.1 20.9 26.4 25.1 23.3 24.7 23.2 24.7 21.3 24.3 23.7 27.5 20.7 19.8 24.2 21.5 21.3 19.6 24.2 22.6 26.1 20.4 23.6 19.0 18.0 22.5 19.4 16.4 17.6 18.0 17.4 13.9 12.3 15.3 22.8 18.6 19.3
Edad
Ventas
ICE
Comida
Auto
34.2 33.8 34.5 27.6 33.3 33.1 22.5 40.9 27.6 33.9 33.8 34.3 27.5 32.9 33.1 36.7 33.3 32.3 33.1 32.3 34.1 30.5 29.7 37.6 36.1 33.2 29.8 31.7 29.3 31.4 35.0 36.8 35.0 43.5 32.8 31.1 32.1 29.8 29.4 40.4 32.1 31.6 31.8 31.2 28.7 31.1 31.8 34.7 31.5 34.2
1,928,316 2,257,983 2,110,287 1,719,843 1,788,155 1,712,808 1,173,520 2,066,935 1,442,992 2,584,652 2,261,077 1,905,840 1,398,926 1,839,535 1,392,459 1,825,939 1,988,189 1,938,007 2,111,044 1,912,718 3,058,969 1,686,624 1,850,854 1,315,957 1,786,197 1,899,989 2,518,807 2,012,188 2,025,939 1,799,240 1,563,932 2,090,618 1,462,303 1,671,344 1,587,897 1,579,558 1,550,437 1,667,771 1,658,143 1,482,843 1,178,139 1,180,632 1,758,825 1,430,687 2,613,718 1,135,072 1,233,242 1,513,666 1,430,358 1,139,717
28,947 35,334 29,197 26,590 29,682 31,041 30,441 30,024 19,881 32,561 44,063 31,276 27,301 39,019 34,132 26,982 30,211 35,828 27,465 27,537 34,729 24,366 27,203 23,617 25,546 38,972 46,573 37,543 26,553 33,068 28,795 29,611 30,540 26,626 30,652 33,698 33,548 26,508 23,460 23,116 34,372 24,294 34,218 30,815 30,257 36,422 25,603 34,403 25,958 24,138
216,166 220,669 224,795 164,397 182,161 149,020 90,884 185,405 128,964 211,024 174,207 169,295 127,669 210,759 170,967 172,694 205,020 185,320 178,733 197,581 301,664 170,745 196,719 112,797 154,514 234,696 419,996 222,162 204,994 184,597 142,331 179,906 137,316 190,590 171,136 172,109 172,069 176,663 168,526 144,218 117,136 135,468 161,551 190,590 118,871 90,314 132,055 134,863 137,323 125,090
319,221 440,350 179,264 450,351 387,164 248,501 408,123 377,386 515,363 400,512 304,383 344,267 374,750 392,641 294,343 390,643 266,560 376,236 410,634 313,408 474,168 323,467 348,439 296,473 543,951 259,757 390,938 365,778 357,671 487,152 413,278 266,968 457,468 430,663 373,363 355,544 298,075 288,170 282,377 305,251 297,804 551,037 263,043 204,079 477,988 168,512 246,556 223,719 366,036 441,586
Fuente: Adoptado de Sales & Marketing Management (24 de agosto de 1992).
Ejercicios de repaso
■ 11-79
433
Con el fin de determinar la respuesta de las mujeres profesionales a las marcas de guardarropa de trabajo, On the Job, una boutique local, encuestó grupos de mujeres agentes de bienes raíces, secretarias, empresarias y ejecutivas de cuenta con respecto al estilo de ropa que usaban con más frecuencia (A, B, C, D). Se recolectaron los siguientes datos: Estilo
■ 11-80
Ocupación
A
B
C
D
Agente de bienes raíces Secretaria Empresaria Ejecutiva de cuenta
5 10 8 12
7 15 12 14
6 12 21 20
8 8 25 25
Al nivel de significancia de 0.10, pruebe si el estilo que prefieren las mujeres depende de sus actividades. En el desarrollo de nuevas medicinas para el tratamiento de la ansiedad, es importante verificar el efecto de los medicamentos sobre varias funciones motrices, una de las cuales es conducir un automóvil. La compañía farmacéutica Confab está probando cuatro ansiolíticos diferentes respecto a su efecto sobre las capacidades para conducir. Los sujetos toman una prueba de manejo simulada y su calif icación refleja los errores cometidos. Los errores más graves producen calificaciones más altas. Los resultados de estas pruebas se presentan en la siguiente tabla: Medicina 1 Medicina 2 Medicina 3 Medicina 4
■ 11-81
■ 11-82
258 276 232 253
239 263 225 237
241 274 247 246
226 240
Al nivel de significancia de 0.05, ¿los cuatro medicamentos afectan de manera diferente las habilidades de manejo? James Clark acaba de adquirir dos fábricas de papel y está preocupado porque tienen una ariabilidad v significativamente diferente en sus producciones, aun cuando las dos plantas producen aproximadamente la misma cantidad promedio de papel cada día. La siguiente información se obtuv o para ver si las preocupaciones del señor Clark son justificadas. Al nivel de significancia 0.02, ¿las dos plantas revelan la misma varianza en su producción? Planta
n
s2
Número 1 Número 2
31 41
1,984 toneladas al cuadrado 1,136 toneladas al cuadrado
Los costos de combustible son importantes para alcanzar la rentabilidad en las líneas aéreas. Un pequeño transportista regional opera tres tipos de equipo y recolectó los siguientes datos de sus 14 aviones, expresados en costo de combustible (en centavos de dólar) por asiento-milla disponible. Tipo A Tipo B Tipo C
■ 11-83
245 277 215 241
7.3 5.6 7.9
8.3 7.6 9.5
7.6 7.2 8.7
6.8
8.0
8.3
9.4
8.4
A un nivel de significancia de 0.01, ¿se puede concluir que no existe una diferencia verdadera en los costos del combustible entre los tipos de aviones? Una muestra aleatoria de 50 jugadores de las ligas mayores de béisbol dio los siguientes promedios de bateo: Jugador Martínez Baines Hamilton Córdova Thorne Buhner Franco González
Liga Americana Equipo División Seattle Oeste Chicago Centro Texas Oeste Minnesota Centro Cleveland Centro Seattle Oeste Cleveland Centro Texas Oeste
Promedio 0.345 0.325 0.320 0.311 0.309 0.305 0.304 0.294
Jugador Grudsielanek Mabry Lansing Joyner Rodríguez Kendall McGee Hunter
Liga Nacional Equipo División Montreal Este St. Louis Centro Montreal Este San Diego Oeste Montreal Este Pittsburgh Centro St. Louis Centro Houston Centro
Promedio 0.346 0.330 0.324 0.322 0.311 0.303 0.302 0.295 (continúa)
434
CAPÍTULO 11 Ji-cuadrada y análisis de varianza
Jugador Roberts Suhoff Cordero Tettleton Leunitz Canseco Ripken Nieves Nixon Baerga Snow Davis Hoiles Howard Young Becker
Liga Americana Equipo División Kansas Centro Baltimore Este Boston Este Texas Oeste Nueva York Este Boston Este Baltimore Este Detroit Este Toronto Este Cleveland Centro California Oeste Seattle Oeste Baltimore Este Kansas Centro Oakland Oeste Minnesota Centro
Promedio 0.293 0.293 0.287 o.287 0.278 0.275 0.269 0.269 0.266 0.256 0.254 0.245 0.237 0.236 0.225 0.208
Liga Nacional Equipo División Oakland Oeste Kansas Centro Colorado Oeste Philadelphia Este San Diego Oeste Chicago Centro Los Ángeles Oeste San Francisco Oeste Nueva York Este Cincinnati Centro Pittsburgh Centro Florida Este Philadelphia Este Florida Este San Diego Oeste Los Ángeles Oeste
Jugador Battle Hamelin Castilla Zeile Finley McRae Butler Thompson Brogna Branson Bell Veras Santiago Johnson Cedeno Fonville
Promedio 0.207 0.196 0.277 0.276 0.267 0.265 0.265 0.254 0.252 0.243 0.242 0.241 0.228 0.226 0.224 0.216
Fuente: The News & Observer (2 de junio de 1996): C9.
■ 11-84 ■ 11-85
¿Existe una evidencia significativa para concluir, a un nivel de significancia del 5%, que los jugadores en las seis divisiones tienen diferentes medias de promedio de bateo? Dick y Dave discutían sobre la variabilidad en las ligas mayores. Dick insistía en que no había diferencia en esa variabilidad entre las dos ligas. Dave aseguraba de la misma manera que había más variabilidad en la Liga Americana. Use los datos del ejercicio 11-83 (con 0.10) para resolver la disputa. Un domingo, las secciones de clasificados en el News & Observer (N&O) de Raleigh, The Chapel Hill News (CHN) y el Village Advocate (VA) de Chapel Hill contenían los siguientes números de anuncios de venta de autos nacionales, autos extranjeros y camionetas/camiones ligeros.
Autos nacionales Autos extranjeros Camionetas/camiones ligeros
N&O
CHN
VA
543 576 494
32 59 20
36 73 31
Fuente: The Newa & Observer (2 de junio de 1996): I42-54; The Chapel Hill News (2 de junio de 1996): B9; Village Advocate (Chapel Hill, NC) (2 de junio de 1996): 4, 8, 17, 26, 27.
a) Para 0.01, pruebe si las proporciones de los tres tipos de anuncios varían significativamente entre los tres periódicos. b) ¿Ayuda su conclusión del inciso a) para decidir qué periódico consultar si vive en Chapel Hill y está interesado en comprar un auto usado? Explique su respuesta.
capítulo
12
REGRESIÓN SIMPLE Y CORRELACIÓN
Objetivos •
• • •
Conocer cuántas decisiones comerciales dependen del conocimiento de la relación específica entre dos o más variables Utilizar diagramas de dispersión para visualizar la relación entre dos variables Emplear el análisis de regresión para estimar la relación entre dos variables Utilizar la ecuación de estimación de mínimos cuadrados para predecir valores futuros de la variable dependiente
•
•
•
Aprender cómo el análisis de correlación describe el grado en el cual dos variables están relacionadas linealmente entre sí Comprender el coeficiente de determinación como una medida de la fuerza de la relación entre dos variables Conocer las limitaciones de la regresión y del análisis de correlación y las advertencias sobre su uso
Contenido del capítulo 12.1 Introducción 436 12.2 Estimación mediante la recta de regresión 442 12.3 Análisis de correlación 461 12.4 Inferencias sobre parámetros de población 471 12.5 Uso del análisis de regresión y correlación: limitaciones, errores y advertencias 477 • Estadística en el trabajo 479
• • • • •
Ejercicio de base de datos computacional 479 Del libro de texto al mundo real 480 Términos introducidos en el capítulo 12 481 Ecuaciones introducidas en el capítulo 12 481 Ejercicios de repaso 483
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
436
CAPÍTULO 12 Regresión simple y correlación
l vicepresidente de investigación y desarrollo (ID) de una gran compañía química y de fabricación de fibras cree que las ganancias anuales de la empresa dependen de la cantidad gastada en ID. El nuevo presidente de la compañía no está de acuerdo y ha solicitado pruebas. Los datos de seis años son los siguientes:
E
Año
Millones gastados en investigación y desarrollo
Ganancia anual (millones)
1990 1991 1992 1993 1994 1995
2 3 5 4 11 5
20 25 34 30 40 31
El vicepresidente de ID desea una ecuación para pronosticar los beneficios anuales derivados de la cantidad presupuestada para ID. Con los métodos de este capítulo, podremos proporcionarle esa herramienta para la toma de decisiones y orientarlo respecto a la precisión que puede esperar al usarla. ■
12.1 Introducción Relación entre variables
Diferencia entre la ji-cuadrada y los temas de este capítulo
Origen de los términos regresión y regresión múltiple
Desarrollo de una ecuación de estimación
Todos los días, los administradores toman decisiones personales y profesionales basadas en predicciones de sucesos futuros. Para hacer estos pronósticos,se basan en la relación (intuitiva y calculada) entre lo que ya se sabe y lo que se debe estimar. Si los responsables de la toma de decisiones pueden determinar cómo lo conocido se relaciona con el evento futuro, pueden ayudar considerablemente al proceso de toma de decisiones. Ése es el objetivo de este capítulo: cómo determinar la relación entre variables. En el capítulo 11, utilizamos pruebas de ji-cuadrada de independencia para determinar si existía una relación estadística entre dos variables. La prueba ji-cuadrada nos dice si existe tal relación, pero no nos dice cuál es esa relación. Los análisis de regresión y correlación nos mostrarán cómo determinar tanto la naturaleza como la fuerza de una relación entre dos variables. De esta forma, aprenderemos a pronosticar, con cierta precisión, el valor de una variable desconocida basándonos en observaciones anteriores de ésa y otras variables. El término regresión fue utilizado por primera vez como un concepto estadístico en 1877 por sir Francis Galton, quien llevó a cabo un estudio que mostró que la estatura de los niños nacidos de padres altos tiende a retroceder o “regresar” hacia la estatura media de la población. Designó la palabra regresión como el nombre del proceso general de predecir una variable (la estatura de los niños) a partir de otra (la estatura del padre o de la madre). Más tarde,los estadísticos acuñaron el término regresión múltiple para describir el proceso mediante el cual se utilizan varias variables para predecir otra. En el análisis de regresión, desarrollaremos una ecuación de estimación, esto es, una fórmula matemática que relaciona las variables conocidas con la variable desconocida. Después de conocer el patrón de esta relación, podremos aplicar el análisis de correlación para determinar el grado en el que las variables se relacionan. El análisis de correlación, entonces, nos indica qué tan bien la ecuación de estimación describe realmente la relación.
Tipos de relaciones Variables independientes y dependientes
Los análisis de regresión y de correlación se basan en la relación,o asociación, entre dos (o más) variables. La variable (o variables) conocida(s) se llaman variable(s) independiente(s); la que tratamos de predecir es la variable dependiente.
12.1: Introducción
(a) Relación directa
(b) Relación inversa
Relación directa entre X y Y
Relación inversa entre X y Y
Relaciones de asociación, no de causa y efecto
Y Emisores de contaminación
Relaciones directas e inversas entre la variable independiente X y la variable dependiente Y
Ventas en dólares
Y
FIGURA 12-1
437
Pendiente positiva
Pendiente negativa
X Publicidad en dólares
X Gastos contra la contaminación
Los científicos saben, por ejemplo, que existe una relación entre las v entas anuales de latas de aerosoles y la cantidad de fluorocarburos liberados a la atmósfera cada año. Si estudiáramos esta relación, “el número de latas de aerosol vendidas cada año” sería la variable independiente y “la cantidad de fluorocarburos liberados anualmente” sería la variable dependiente. Consideremos otro ejemplo. Los economistas pueden basar sus predicciones del producto interno bruto anual, o PIB, en el gasto final de consumo dentro de la economía. Por tanto, “el consumo final” es la variable independiente y “el PNB” la variable dependiente. En regresión, podemos tener sólo una variable dependiente en la ecuación de estimación. Sin embargo, podemos usar más de una v ariable independiente. A menudo, cuando agregamos variables independientes, mejoramos la exactitud de nuestra predicción. Los economistas, por ejemplo, con frecuencia añaden una segunda variable independiente, “el nivel de gasto de inversión”, para mejorar su estimación del PIB. Los dos ejemplos de fluorocarburos y PIB son ilustraciones de asociaciones directas entre variables independientes y dependientes. Al incrementarse la variable independiente, la variable dependiente también lo hace. De manera similar , esperamos que las ventas de una compañía se incrementen al aumentar el presupuesto de publicidad. Podemos graficar una relación directa de este tipo colocando la variable independiente en el eje X y la variable dependiente en el eje Y. La gráfica (a) de la figura 12-1 muestra esto. Note cómo la pendiente de la recta sube cuandoX toma valores cada vez más grandes. Se dice que la pendiente de esta recta es positiva, porque Y crece si X crece. Las relaciones pueden ser inversas en vez de directas. En estos casos, la variable dependiente disminuye al aumentar la variable independiente. El gobierno supone que existe una asociación inversa entre un mayor gasto anual de una compañía en dispositivos anticontaminantes y menores emisiones contaminantes. La gráfica (b) de la figura 12-1 ilustra este tipo de relación,que se caracteriza por una pendiente negativa (la variable dependiente Y disminuye al aumentar la variable independiente X). A menudo encontramos una relación causal entre variables, esto es, la variable independiente “causa” cambios en la variable dependiente. Éste es el caso en el ejemplo de la contaminación. Pero en muchos casos, otros factores ocasionan los cambios tanto en las variables dependientes como en las independientes. Podríamos predecir las v entas de aretes de diamantes observando las de Cadillacs nuevos, pero no podríamos decir que una origina a la otra. Más bien,nos damos cuenta que otro factor, como el nivel de ingresos disponibles, es la causa de los niveles de ventas tanto de Cadillacs como de aretes de diamantes. Por esta razón, es importante considerar que las relaciones encontradas por la regresión son relaciones de asociación, pero no necesariamente de causa y efecto. A menos que tenga razones específicas para creer que los valores de la variable dependiente se originan por los valores de las variables independientes, no infiera causalidad en las relaciones encontradas por la regresión.
Diagramas de dispersión Diagrama de dispersión
El primer paso para determinar si e xiste una relación entre dos v ariables es examinar la gráfica de los datos observados (o conocidos). Esta gráfica, o dibujo, se llama diagrama de dispersión.
438
CAPÍTULO 12 Regresión simple y correlación
Tabla 12-1 Estudiante Calificaciones de examen de admisión (100 = máxima calificación posible) Promedio general acumulado (4.0 A)
Calificaciones de estudiantes en exámenes de admisión y promedios de generales acumulados al graduarse
A
B
C
D
E
F
G
H
74 2.6
69 2.2
85 3.4
63 2.3
82 3.1
60 2.1
79 3.2
91 3.8
90
95
Y
FIGURA 12-2 Diagrama de dispersión de las calificaciones de estudiantes en exámenes de admisión graficadas contra el promedio general acumulado
Transferencia de información tabular a una gráfica
Trazo, o “ajuste”, de una línea recta a través del diagrama de dispersión
Promedio general acumulado
4.00 3.75 3.50 3.25 3.00 2.75 2.50 2.25 2.00 50
X 55
60
65
70
75
80
85
Calificaciones del examen de admisión
Un diagrama de dispersión nos puede dar dos tipos de información. Visualmente, podemos identificar patrones que indiquen que las variables están relacionadas. Si esto sucede, podemos ver qué tipo de línea, o ecuación de estimación, describe esta relación. Desarrollaremos y utilizaremos un diagrama de dispersión específico. Suponga que el director de admisiones de una universidad nos pide determinar si existe una relación entre las calificaciones de un estudiante en su examen de admisión y su promedio general al graduarse. El director ha reunido una muestra aleatoria de datos de los registros de la universidad. La tabla 12-1 contiene esta información. Para comenzar, debemos transferir la información de la tabla 12-1 a una gráfica. Puesto que el director desea utilizar las calificaciones de los exámenes para pronosticar éxitos en la universidad, hemos colocado el promedio de calificaciones acumulado (la variable dependiente) en el eje vertical o Y, y la calificación del examen de admisión (la variable independiente) en el eje horizontal o X. La figura 12-2 nos muestra el diagrama de dispersión completo. A primera vista se sabe por qué llamamos así al diagrama de dispersión. El patrón de puntos resulta al registrar cada par de datos de la tabla 12-1 como un punto. Cuando vemos todos estos puntos juntos, podemos visualizar la relación que existe entre las dos variables. Como resultado, podemos trazar, o “ajustar” una línea recta a través de nuestro diagrama de dispersión para representar la relación; la figura 12-3 ilustra esto. Es común intentar trazar estas líneas de forma tal que un número igual de puntos caiga en cada lado de la línea. Y
FIGURA 12-3 Diagrama de dispersión en donde la línea recta representa la relación entre X y Y “ajustada”
Promedio global acumulado
4.00 3.75 3.50 3.25 3.00 2.75 2.50 2.25 2.00 50
X 55
60
65
70
75
80
85
Calificaciones de examen de admisión
90
95
12.1: Introducción
439
Y 1,000 horas
FIGURA 12-4 Relación curvilínea entre el tiempo de construcción de una nuevo avión y el número de unidades producidas Interpretación de la línea recta
Relaciones curvilíneas
Repaso de las relaciones posibles
Número de horas por avión
1000
800 horas 750
640 horas 512 horas
500
250
X
0
5
10
15
20
25
30
35
40
45
Número de aviones producidos
En este caso, la línea trazada a través de los puntos representa una relación directa, porque Y se incrementa al aumentar X. Como los puntos están relativamente cerca de esta línea, podemos decir que existe un alto grado de asociación entre las calificaciones de exámenes y el promedio de calificaciones acumulativo. En la figura 12-3, podemos ver que la relación descrita por los puntos está bien descrita por una línea recta. Por tanto, podemos decir que es una relación lineal. La relación entre las variables X y Y también puede tomar la forma de una curva. Los especialistas en estadística la llaman relación curvilínea. Los empleados de muchas industrias, por ejemplo, experimentan lo que se denomina “curva de aprendizaje”, es decir, al fabricar un nuevo producto, el tiempo requerido para producir una unidad se reduce en alguna proporción f ija al duplicarse el número total de unidades. Una industria de este tipo es la a viación. El tiempo de fabricación por unidad de una nueva aeronave tiende a disminuir un 20% cada vez que se duplica el número de nuevos aviones terminados. La f igura 12-4 ilustra la relación curvilínea de este fenómeno de “curv a de aprendizaje”. La dirección de la curva puede indicar si la relación curvilínea es directa o in versa. La curva de la figura 12-4 describe una relación inversa porque Y disminuye al aumentar X. Para repasar las relaciones posibles en un diagrama de dispersión, examinemos las gráficas de la figura 12-5. Las gráficas (a) y (b) muestran relaciones lineales directas e inversas. Las gráficas (c) y (d) son ejemplos de relaciones curvilíneas que indican asociaciones directas e in versas entre variables, respectivamente. La gráfica (e) ilustra una relación lineal inversa con un patrón de puntos ampliamente disperso. Esta mayor dispersión indica que existe menor grado de asociación entre las va(a) Recta directa
(b) Recta inversa
Y
(c) Curvilínea directa
Y
Y
X
X
X
(e) Recta inversa con más dispersión
(d) Curvilínea inversa
Y
(f) Ninguna relación
Y
Y
FIGURA 12-5 Relaciones posibles entre X y Y en diagramas de dispersión
X
X
X
440
CAPÍTULO 12 Regresión simple y correlación
riables independiente y dependiente que el existente en la gráfica (b). El patrón de puntos en la gráfica (f ) parece indicar que no existe relación entre las dos variables; por tanto, conocer el pasado referente a una variable no nos permitirá pronosticar ocurrencias futuras de la otra.
Ejercicios 12.1 Ejercicios de autoevaluación EA
12-1
Un instructor está interesado en saber cómo se relaciona el número de estudiantes ausentes con la temperatura media del día. Usó una muestra aleatoria de 10 días para el estudio. Los siguientes datos indican el número de estudiantes ausentes (AUS) y la temperatura media (TEMP) para cada día. AUS TEMP
a) b) c) d) e)
8 10
7 20
5 25
4 30
2 40
3 45
5 50
6 55
8 59
9 60
Establezca la variable dependiente (Y) y la variable independiente (X). Dibuje un diagrama de dispersión para estos datos. ¿La relación entre las variables parece lineal o curvilínea? ¿Qué tipo de curva puede dibujar a través de los datos? ¿Cuál es la explicación lógica para la relación observada?
Conceptos básicos ■ ■ ■ ■ ■ ■ ■ ■ ■
12-1 12-2 12-3 12-4 12-5 12-6 12-7 12-8 12-9
¿Qué es el análisis de regresión? En el análisis de regresión, ¿qué es una ecuación de estimación? ¿Cuál es el propósito del análisis de correlación? Defina qué son las relaciones directas e inversas. ¿A qué se refiere el término relación causal? Explique la diferencia entre relaciones lineales y curvilíneas. Explique por qué y cómo se construye un diagrama de dispersión. ¿Qué es análisis de regresión múltiple? Para cada uno de los siguientes diagramas de dispersión, indique si existe una relación y, en caso afirmativo, si es de tipo directo o inverso, y si es lineal o curvilínea.
(a)
(b)
(c)
Aplicaciones ■ 12-10
Un profesor intenta mostrar a sus estudiantes la importancia de los exámenes cortos, aun cuando el 90% de la calificación final esté determinada por los exámenes parciales. Él cree que cuanto más altas sean las calificaciones de los exámenes cortos, más alta será la calificación final. Seleccionó una muestra aleatoria de 15 estudiantes de su clase con los siguientes datos: Promedio de exámenes cortos 59 92 72 90 95
Promedio final 65 84 77 80 77 (Continúa)
12.1: Introducción
Promedio de exámenes cortos
Promedio final
87 89 77 76 65 97 42 94 62 91
■ 12-11
■ 12-12
441
81 80 84 80 69 83 40 78 65 90
a) Establezca la variable dependiente (Y) y la variable independiente (X). b) Dibuje un diagrama de dispersión para estos datos. c) ¿La relación entre las variables parece lineal o curvilínea? d) ¿Parece justificarse la idea del profesor? Explique su razonamiento. William Hawkins, vicepresidente de personal de la International Motors,trabaja en la relación entre el salario de un trabajador y el porcentaje de ausentismo. Hawkins dividió el intervalo de salarios de International en 12 grados o niveles (1 es el de menor grado, 12 el más alto) y después muestreó aleatoriamente a un grupo de trabajadores. Determinó el grado de salario de cada trabajador y el número de días que ese empleado había faltado en los últimos 3 años. Categoría de salario Ausencias
11 18
10 17
8 29
5 36
9 11
9 26
7 28
3 35
Categoría de salario Ausencias
11 14
8 20
7 32
2 39
9 16
8 26
6 31
3 40
Elabore un diagrama de dispersión para estos datos e indique el tipo de relación. El Instituto Nacional de Ciencias para la Salud Ambiental (NIEHS, por sus siglas en inglés) ha estudiado las relaciones estadísticas entre muchas v ariables diferentes y el resfriado común. Una de las v ariables analizadas es el uso de pañuelos desechables (X) y el número de días de síntomas de resfrío mostrados Y () por siete personas en un periodo de 12 meses. ¿Qué relación, si la hay, parece existir entre las dos variables? ¿Indica esto algún efecto causal? X Y
2,000 60
1,500 40
500 10
750 15
600 5
900 25
1,000 30
Soluciones a los ejercicios de autoevaluación 12-1
a) Se desea ver si las ausencias (AUS) dependen de la temperatura (TEMP). b) 10 8 Ausencias
EA
6 4 2
10
20
30
40 Temperatura
50
60
70
c) Curvilínea. d) Una curva cuadrática (parábola). e) Cuando hace mucho frío o mucho calor hay muchos ausentes. Para temperaturas moderadas, no hay tantos estudiantes ausentes.
442
CAPÍTULO 12 Regresión simple y correlación
12.2 Estimación mediante la recta de regresión Cálculo de la línea de regresión usando una ecuación
Ecuación para una línea recta
En los diagramas de dispersión que hemos utilizado hasta ahora,se colocaron las líneas de regresión ajustando las líneas visualmente entre los puntos de datos. En esta sección,aprenderemos a calcular la línea de regresión de manera más precisa,usando una ecuación que relaciona las dos variables matemáticamente. Aquí, examinaremos sólo relaciones lineales entre dos v ariables; estudiaremos las relaciones entre más de dos variables en el siguiente capítulo. La ecuación para una línea recta donde la v ariable dependiente Y está determinada por la variable independiente X es: Ecuación para una línea recta Variable dependiente
Variable independiente
Y a bX Variable ordenada Y
Interpretación de la ecuación
Cálculo de Y a partir de X usando la ecuación de la recta
[12-1] Pendiente de la recta
Usando esta ecuación, podemos tomar un valor dado de X y calcular el valor de Y. La a se denomina la “ordenada Y” porque su valor es el punto en el cual la línea de re gresión cruza el eje Y, es decir, el eje vertical. La b en la ecuación 12-1 es la “pendiente” de la recta. Representan qué tanto cada cambio de una unidad de la variable independiente X hace que cambie la variable dependiente Y. Tanto a como b son constantes numéricas porque para cualquier línea recta dada, sus valores no cambian. Supongamos que sabemos que a es 3 y b es 2. Determinemos cuál sería Y para X igual a 5. Al sustituir los valores de a, b y X en la ecuación 12-1, encontramos que el valor correspondiente de Y es Y a bX 3 2(5) 3 10 13 ← Valor de Y dada X = 5
Y 8 7
Segundo punto (X2, Y2), o (2, 7) porque X2 = 2 y Y2 = 7
6 5
Primer punto (X1, Y1), o (1, 5) porque X1 = 1 y Y1 = 5
4 3
FIGURA 12-6 Línea recta con pendiente positiva, con la ordenada Y y dos puntos en la línea designada
2
a=3 1
1
2
3
4
5
6
X
[12-1]
12.2: Estimación mediante la recta de regresión
443
Uso de la ecuación de estimación para una línea recta Búsqueda de los valores de a y b
¿Cómo podemos encontrar los valores de las constantes numéricas, a y b? Para ilustrar este proceso, se usará la recta de la figura 12-6. Podemos encontrar a visualmente (la ordenada Y) localizando el punto donde la recta cruza el eje Y. En la figura 12-6, esto sucede cuando a 3. Para encontrar la pendiente de la recta, b, debemos determinar cómo cambia la v ariable dependiente, Y, al cambiar la variable independiente, X. Podemos empezar por elegir dos puntos sobre la línea de la figura 12-6. Ahora, debemos encontrar los valores de X y Y (las coordenadas) de ambos puntos. Podemos llamar a las coordenadas de nuestro primer punto ( X1, Y1) y (X2, Y2) a las del segundo. Al examinar la figura 12-6, podemos ver que (X1, Y1) (1, 5) y (X2, Y2) (2, 7). Entonces podemos calcular el valor de b, usando esta ecuación: La pendiente de una línea recta Y2 Y1 b X2 X1
[12-2]
75 b 21 2 1 2 ← Pendiente de la recta Escritura y uso de la ecuación de una recta
De esta manera, podemos conocer los v alores de las constantes numéricas, a y b, y escribir la ecuación de la recta. La línea de la figura 12-6 puede describirse por la ecuación 12-1,en la que a 3 y b 2. Por tanto, Y a bX
[12-1]
y Y 3 2X Usando esta ecuación, podemos determinar el valor correspondiente de la variable dependiente para cualquier valor de X. Supongamos que deseamos encontrar el v alor de Y cuando X 7. La respuesta sería Y a bX
[12-1]
3 2(7) 3 14 17 Relación directa; pendiente positiva
Si sustituye más valores de X en la ecuación, observará que Y se incrementa al aumentar X. Por tanto, la relación entre las variables es directa y la pendiente es positiva. Ahora consideremos la línea de la figura 12-7. Vemos que cruza el eje Y en 6. Por tanto, sabemos que a 6. Si seleccionamos los dos puntos donde (X1, Y1) (0, 6) y (X2, Y2) (1, 3), encontraremos que la pendiente de la recta es Y2 Y1 b X2 X1
[12-2]
444
CAPÍTULO 12 Regresión simple y correlación
36 10 3 1 3 Relación inversa; pendiente negativa
Observe que cuando b es negativa, la recta representa una relación inversa, y la pendiente es negativa (Y disminuye al aumentar X). Una vez determinados los valores numéricos de a y b, podemos sustituirlos en la ecuación general de la línea recta: Y a bX 6 (3)X 6 3X
Encontrar Y dado X
[12-1]
Suponga que deseamos encontrar el v alor de la variable dependiente que corresponde a X 2. Sustituyendo en la ecuación 12-1 obtenemos: Y 6 (3)(2) 66 0 Por tanto, cuando X 2, Y debe ser igual a 0. Si consultamos la línea de la ifgura 12-7, podemos ver que el punto (2, 0) sí está en la recta.
El método de mínimos cuadrados Ajuste matemático de una recta de regresión
Introducción de Yˆ
Ahora que hemos visto cómo determinar la ecuación de una línea recta,pensemos cómo calcular una ecuación para una línea dibujada en medio de un conjunto de puntos de un diagrama de dispersión. ¿Cómo podemos “ajustar” una recta matemáticamente si ninguno de los puntos está sobre ella? Para un especialista en estadística, la línea tendrá un “buen ajuste” si minimiza el error entre los puntos estimados en la recta y los puntos observados reales que se utilizaron para trazarla. Antes de proceder, necesitamos introducir un nuevo símbolo. Hasta ahora, hemos utilizado Y para representar los valores individuales de los puntos observados medidos a lo largo del eje Y. Ahora deY 8 7 6
Primer punto (X1, Y1) = (0, 6)
5 4
a=6
Segundo punto (X2, Y2) = (1, 3)
3 2
FIGURA 12-7 Línea recta con pendiente negativa
1
El punto (2, 0)
1
2
3
4
5
6
X
12.2: Estimación mediante la recta de regresión
445
bemos comenzar a usar Yˆ (ye gorro) para simbolizar los valores individuales de los puntos estimados, esto es, aquellos puntos que están en la línea de estimación. En consecuencia, escribiremos la ecuación para la línea de estimación como La línea de estimación Yˆ a bX ¿Qué línea se ajusta mejor?
Uso del error total para determinar el mejor ajuste
[12-3]
En la figura 12-8, tenemos dos líneas de estimación que se han ajustado al mismo conjunto de tres puntos. Estos tres puntos dados, u observados, se muestran en negro. Se han trazado dos líneas muy diferentes para describir la relación entre las dos variables. Obviamente, necesitamos una forma de decidir cuál de estas líneas nos proporciona un mejor ajuste. Una forma en que podemos “medir el error” de nuestra línea de estimación es sumando todas las diferencias, o errores, individuales entre los puntos estimados mostrados en círculo y los puntos observados mostrados en negro. En la tabla 12-2, calculamos las diferencias individuales entre las Y correspondientes y Yˆ, y luego encontramos la suma de estas diferencias.
Gráfica (a) Y Yˆ
Gráfica (b) Y Yˆ
8 6 2 1 5 4 6 4 2 6 4 0 ← Error total
8 2 6 1 5 4 6 8 2 6 4 0 ← Error total
Tabla 12-2 Suma de errores de las dos líneas de estimación de la figura 12-8
Gráfica (a) |Y Yˆ |
Gráfica (b) |Y Yˆ |
|8 6| 2 |1 5| 4 |6 4| 2 |6 4| 8 ← Error absoluto total
|8 2| 6 |1 5| 4 |6 8| 02 |6 4| 12 ← Error absoluto total
Tabla 12-3 Suma de los valores absolutos del error de las dos líneas de estimación de la figura 12-8
(a)
Y
(b)
Y
= Puntos en la línea de estimación = Puntos reales (observados) utilizados para ajustar la línea de estimación
10
10
8
Línea de estimación
8 Error = 2
Error = –2
6
6 Error = 2
Error = 6
4
4 Error = –4
Error = –4 2
2
Línea de estimación
X 2
4
6
8
10
12
14
X 2
4
6
8
10
12
14
FIGURA 12-8 Dos líneas de estimación diferentes ajustadas a los mismos tres puntos observados; se muestran errores en ambos casos
446
CAPÍTULO 12 Regresión simple y correlación
Uso del valor absoluto del error para medir el mejor ajuste
Dar más peso a los puntos más lejanos; elevar el error al cuadrado
Uso de mínimos cuadrados como una medida del mejor ajuste
Un rápido examen visual de las dos líneas de estimación de la f igura 12-8 revela que la línea de la gráfica (a) se ajusta a los tres puntos de datos mejor que la línea de la gráf ica (b).* Sin embargo, nuestro proceso de suma de las diferencias individuales de la tabla 12-2 indica que ambas líneas describen los datos igualmente bien (el error total en ambos casos es cero). Por tanto,debemos concluir que el proceso de suma de las diferencias individuales para calcular el error no es una forma confiable de juzgar la bondad de ajuste de una línea de estimación. El problema al sumar los errores individuales es el efecto de cancelación de los valores positivos y negativos. De esto, podríamos deducir que el criterio adecuado para juzgar la bondad del ajuste sería sumar los valores absolutos (los valores sin los signos algebraicos) de cada error. Hemos hecho esto en la tabla 12-3. (El símbolo del valor absoluto son dos líneas verticales paralelas, ||.) Como el error absoluto en la gráfica (a) es menor que el error absoluto en la gráfica (b), dado que buscamos el “mínimo error absoluto”, confirmamos nuestra impresión intuitiva de que la línea de estimación de la gráfica (a) es el mejor ajuste. Con base en este éxito, podríamos concluir que la minimización de la suma de los valores absolutos de los errores es el mejor criterio para encontrar un buen ajuste. Pero antes de sentirnos demasiado cómodos con él, debemos examinar una situación distinta. La figura 12-9 nuevamente presenta dos diagramas de dispersión idénticos con dos líneas de estimación diferentes ajustadas a los tres datos puntuales. En la tabla 12-4,sumamos los valores absolutos de los errores y encontramos que la línea de estimación de la gráfica (a) es un mejor ajuste que la de la gráfica (b). Intuitivamente, sin embargo, pareciera que la línea de la gráfica (b) es la mejor línea de ajuste, porque se ha movido verticalmente para tomar el punto medio en consideración. La gráfica (a), por otra parte, parece ignorar completamente el punto medio. Así que tal vez descartaríamos este segundo criterio para encontrar el mejor ajuste. ¿Por qué?La suma de los valores absolutos no hace hincapié en la magnitud del error. Parece razonable que mientras más lejos esté un punto de la línea de estimación, más serio es el error. Preferiríamos tener varios errores absolutos pequeños que uno grande,como vimos en el ejemplo anterior. En efecto, deseamos encontrar una forma de “penalizar” errores absolutos grandes, para poder evitarlos. Podemos lograr esto si elevamos al cuadrado los errores individuales antes de sumarlos. Los cuadrados de cada término logran dos objetivos: 1. Magnifica, o penaliza, los errores más grandes. 2. Cancela el efecto de los valores positivos y negativos (un error negativo al cuadrado sigue siendo positivo). Como estamos buscando la línea de estimación que minimiza la suma de los cuadrados de los errores, a esto le llamamos método de mínimos cuadrados. (a)
Y
(b)
Y = Puntos en la línea de estimación = Puntos reales (observados) utilizados para ajustar la línea de estimación 8
8
6
6
FIGURA 12-9 Dos líneas de estimación diferentes ajustadas a los mismos puntos observados; se muestran errores en ambos casos
Error = 3
Error = 4 Error = 0
4
Línea de estimación
4 Línea de estimación Error = –1
2
Error = –1
2 Error = 0
X 2
4
6
8
10
X 2
4
6
8
10
* Podemos razonar que esto es así al observar que mientras ambas líneas de estimación se separan del segundo y tercer punto (de izquierda a derecha) una distancia igual, la línea de la gráfica (a) se separa del primer punto una distancia mucho menor que la línea de la gráfica (b).
12.2: Estimación mediante la recta de regresión
Tabla 12-4 Suma de los valores absolutos de los errores de las dos líneas de estimación de la figura 12-9
Gráfica (b) |Y Yˆ |
|4 4| 0 |7 3| 4 |2 2| 0 |2 2| 4 ← Error absoluto total
|4 5| 1 |7 4| 3 |2 3| 1 |2 2| 5 ← Error absoluto total
Gráfica (a) (Y Yˆ )2
Tabla 12-5 Aplicación del criterio de mínimos cuadrados a las líneas de estimación
Cómo encontrar matemáticamente la recta de mínimos cuadrados que mejor se ajusta
Gráfica (a) |Y Yˆ |
447
Gráfica (b) (Y Yˆ )2
(4 4)2 (0)2 0 (7 3)2 (4)2 16 (2 2)2 (0)2 00 (7 3)2 (4)2 16 ← Suma de cuadrados
(4 5)2 (1)2 1 (7 4)2 (3)2 9 (2 3)2 (1)2 01 (7 3)2 (4)2 11 ← Suma de cuadrados
Apliquemos el criterio de mínimos cuadrados al problema de la figura 12-9. Una vez que organizamos los datos y sumamos los cuadrados de la tabla 12-5, vemos que, tal como lo pensamos, la línea de estimación en la gráfica (b) es el mejor ajuste. Usando el criterio de los mínimos cuadrados, podemos determinar si una línea de estimación es mejor ajuste que otro. Pero para un conjunto de puntos a través de los cuales podríamos trazar un número infinito de líneas de estimación, ¿cómo podemos saber cuándo hemos encontrado la recta del mejor ajuste? Los estadísticos han desarrollado dos ecuaciones que podemos utilizar para encontrar la pendiente y la ordenada Y de la recta de regresión de mejor ajuste. La primera fórmula calcula la pendiente: Pendiente de la recta de regresión de mejor ajuste
Pendiente de la recta de regresión de mínimos cuadrados
XY nX Y b 2 X2 nX
[12-4]
donde, • • • •
b pendiente de la línea de estimación de mejor ajuste X valores de la variable independiente Y valores de la variable dependiente X media de los valores de la variable independiente
• Y media de los valores de la variable dependiente • n número de puntos (es decir, el número de pares de valores de las variables independiente y dependiente) La segunda fórmula calcula la ordenada Y de la recta cuya pendiente calculamos usando la ecuación 12-4: Ordenada Y de la recta de regresión de mejor ajuste
Ordenada de la recta de regresión de mínimos cuadrados
a Y bX donde, • a ordenada Y • b pendiente de la ecuación 12-4
[12-5]
448
CAPÍTULO 12 Regresión simple y correlación
• Y media de los valores de la variable dependiente media de los valores de la variable independiente • X Con estas dos ecuaciones, podemos encontrar la recta de regresión de mejor ajuste para cualquier conjunto de puntos para dos variables.
Uso del método de mínimos cuadrados en dos problemas
Ejemplo del método de mínimos cuadrados
Suponga que la directora del Departamento de Salubridad de Chapel Hill está interesada en la relación que existe entre la antigüedad de un camión de basura y los gastos anuales de reparación que debe esperar. Con el fin de determinar esta relación, la directora ha reunido información de cuatro d e los camiones de la ciudad (tabla 12-6). El primer paso para calcular la recta de re gresión de este problema es organizar los datos como se resumen en la tabla 12-7. Esto nos permite sustituirlos directamente en las ecuaciones 12-4 y 12-5 para encontrar la pendiente y la ordenada Y de la recta de regresión de mejor ajuste. Con la información de la tabla 12-7, podemos usar las ecuaciones para la pendiente (ecuación 12-4) y para la ordenada Y (ecuación 12-5) con el fin de encontrar las constantes numéricas para la recta de regresión. La pendiente es: XY nX Y b 2 X2 nX 78 (4)(3)(6) 44 (4)(3)2 78 72 4436 6 8
Búsqueda del valor de b
0.75 ← Pendiente de la línea Y la ordenada Y es: a Y bX
Búsqueda del valor de a
[12-5]
6 (0.75)(3) 6 2.25 3.75 ← Ordenada Y
Determinación de la ecuación de estimación
Ahora, para obtener la ecuación de estimación que describe la relación entre la antigüedad de un camión y sus gastos anuales de reparación, podemos sustituir los valores de a y b en la ecuación general para una línea recta: Yˆ a bX
[12-3]
3.75 0.75X
Tabla 12-6 Gastos anuales de reparación de camiones
Número del camión
Antigüedad del camión en años (X)
Gastos de rep. durante el último año en cientos de dólares (Y)
101 102 103 104
5 3 3 1
7 7 6 4
12.2: Estimación mediante la recta de regresión
Tabla 12-7 Cálculo de los datos para las ecuaciones 12-4 y 12-5
Camiones (n 4) (1)
Antigüedad (X ) (2)
Gastos de reparación (Y) (3)
XY (2) (3)
X2 (2)2
101 102 103 104
5 3 3 01 X 12
7 7 6 04 Y 24
35 21 18 04 X Y 78
25 9 9 01 X 2 44
X
449
X n
12 4 3 ← Media de los valores de la variable independiente X Y n 24 6 6 ← Media de los valores de la variable dependiente
Año
Millones de dólares gastados en investigación y desarrollo (X)
Ganancia anual (millones de dólares) (Y)
1995 1994 1993 1992 1991 1990
5 11 4 5 3 2
31 40 30 34 25 20
Tabla 12-8 Relación anual entre investigación, desarrollo y ganancias
Uso de la ecuación de estimación
Utilizando esta ecuación de estimación (que podríamos graficar como una recta de regresión si así lo deseáramos), la directora del Departamento de Salubridad puede estimar los gastos anuales de reparación, dada la antigüedad de su equipo. Si, por ejemplo, la ciudad tiene un camión de 4 años de antigüedad, la directora podría usar la ecuación para predecir los gastos anuales de reparación para este camión de la siguiente manera: Yˆ 3.75 0.75(4) 3.75 3 6.75 ← Gastos anuales de reparación esperados de $675.00
Otro ejemplo
Así, se calcularía que la ciudad gasta aproximadamente $675 al año en reparaciones de un camión d e 4 años de antigüedad. Ahora podemos resolver el problema del inicio del capítulo, referente a la relación entre el dinero gastado en investigación y desarrollo y las ganancias anuales de la compañía química. La tabla 12-8 presenta la información de los 6 años anteriores. Con esto,podemos determinar la ecuación de regresión que describe la relación. Nuevamente, podemos facilitar la recolección de la información necesaria si realizamos los cálc ulos de la tabla 12-9.
450
CAPÍTULO 12 Regresión simple y correlación
Con esta información, estamos listos para encontrar las constantes numéricas a y b para la ecuación de estimación. El valor de b es: XY nX Y b X 2 nX 2
Cálculo de b
[12-4]
1,000 (6)(5)(30) 200 (6)(5)2 1,000 900 200 150 100 50 2 ← Pendiente de la recta
Y el valor de a es:
a Y bX
Cálculo de a
[12-5]
30 (2)(5) 30 10 20 ← Ordenada Y Determinación de la ecuación de estimación
Entonces podemos sustituir estos valores de a y b en la ecuación 12-3 y obtener: Yˆ a bX
[12-3]
20 2X Uso de la ecuación de estimación para pronosticar
Al utilizar esta ecuación de estimación, el vicepresidente de investigación y desarrollo puede predecir las ganancias futuras anuales a partir de la cantidad presupuestada para ID. Si la compañía gastó 8 millones de dólares para ID en 1996, entonces debió ganar aproximadamente 36 millones de dólares durante ese año:
Tabla 12-9 Cálculo de los datos para las ecuaciones 12-4 y 12-5
Año (n 6) 1995 1994 1993 1992 1991 1990
Gastos de ID (X) 5 11 4 5 3 02 X 30 X X n
Ganancias anuales (Y) 31 40 30 34 25 020 Y 180
XY
X2
155 440 120 170 75 0,040 XY 1,000
25 121 16 25 9 004 X 2 200
[8-A]
30 6 5 ← Media de los valores de la variable independiente Y Y n
[8-A]
180 6 30 ← Media de los valores de la variable dependiente
12.2: Estimación mediante la recta de regresión
451
Yˆ 20 2(8) 20 16 36 ← Ganancia anual esperada (millones de dólares) Deficiencia de la ecuación de estimación para predecir
Las ecuaciones de estimación no son pronosticadores perfectos. En la f igura 12-10, que grafica los puntos encontrados en la tabla 12-8, la estimación de 36 millones de ganancia para 1996 es sólo eso, una estimación. Aun así, la regresión sí nos da una idea de qué esperar para el siguiente año.
Verificación de la ecuación de estimación Una forma de verificar la ecuación de estimación
Otra forma de verificar la ecuación de estimación
Ahora que sabemos cómo calcular la línea de re gresión, podemos aprender cómo verificar nuestro trabajo. Una forma burda de verificar la exactitud de la ecuación de estimación es examinar la gráfica de los puntos de la muestra. Como podemos ver del problema anterior, la línea de regresión de la figura 12-10 parece seguir la trayectoria descrita por los puntos de la muestra. Un método más sofisticado surge de una de las propiedades matemáticas de una recta ajustada por el método de mínimos cuadrados, es decir, los errores individuales positivos y negativos deben sumar cero. Usando la información de la tabla 12-9, verifique que la suma de los errores en el último problema sea igual a cero. Esto se hace en la tabla 12-10. Como la suma de los errores de la tabla 12-10 sí es igual a cero, y puesto que la línea de re gresión parece “ajustarse” a los puntos de la f igura 12-10, podemos estar razonablemente seguros de que no hemos cometido errores matemáticos serios al determinar la ecuación de estimación para este problema. Yˆ (es decir, 20 2X )
Tabla 12-10 Y Cálculo de la suma de los errores individuales de la tabla 12-9
31 40 30 34 25 20
[20 (2)(5)] [20 (2)(11)] [20 (2)(4)] [20 (2)(5)] [20 (2)(3)] [20 (2)(2)]
Error individual
1 2 2 4 1 4 0 ← Error total
Y
Ganancia anual (millones de dólares)
42
FIGURA 12-10 Dispersión de puntos alrededor de la línea de regresión
40 38 36
Punto estimado para el año entrante
34 32 30 28 26
^ Ecuación de regresión: Y = 20 + 2X
24 22 20 18 16
1
2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gastos de investigación y desarrollo (millones de dólares)
X
452
CAPÍTULO 12 Regresión simple y correlación
El error estándar de la estimación Medición de la confiabilidad de la ecuación de estimación
Definición y uso del error estándar de la estimación
El siguiente proceso que debemos aprender en nuestro estudio del análisis de regresión es cómo medir la confiabilidad de la ecuación de estimación desarrollada. Aludimos a este tema cuando introdujimos los diagramas de dispersión; en ese punto, nos dimos cuenta intuitivamente de que una línea será más exacta como estimador cuando los datos puntuales caen cerca de la línea [como en la gráfica (a) de la figura 12-11] que cuando los puntos están alejados de la línea [como en la gráf ica (b) de la figura 12-1l]. Para medir la confiabilidad de la ecuación de estimación, los especialistas en estadística han desarrollado el error estándar de la estimación. Este error estándar se simboliza por se y es similar a la desviación estándar, en cuanto a que ambas son medidas de dispersión. Recordará que la desviación estándar se utiliza para medir la dispersión de un conjunto de observ aciones respecto a la media. El error estándar de la estimación, por otra parte, mide la variabilidad, o dispersión, de los valores observados alrededor de la recta de regresión. Aun así, verá la similitud entre el error estándar de la estimación y la desviación estándar si compara la ecuación 12-6, que define el error estándar de la estimación, con la ecuación 8-C, que define la desviación estándar:
Error estándar de la estimación
Ecuación para calcular el error estándar de la estimación
se
(Y Yˆ)2 n 2
[12-6]
donde, • • • n 2 es el divisor en la ecuación 12-6
Y valores de la variable dependiente Yˆ valores estimados con la ecuación de estimación que corresponden a cada valor de Y n número de puntos utilizados para ajustar la línea de regresión
Observe que, en la ecuación 12-6, la suma de las desviaciones al cuadrado se divide entre n 2 y no entre n. Esto sucede porque perdimos dos grados de libertad al estimar la recta de regresión. Podemos razonar que, dado que los valores de a y b se obtuvieron de una muestra de datos puntuales, perdemos dos grados de libertad cuando usamos estos puntos para estimar la recta de regresión. Ahora, no referiremos de nuevo al ejemplo anterior de la directora del Departamento de Salubridad que relacionaba la antigüedad de sus camiones con la cantidad de reparaciones anuales. Encontramos que la ecuación de estimación en esa situación era: Yˆ 3.75 0.75X
(a) Esta línea de regresión es un estimador más exacto de la relación entre X y Y
(b) Esta línea de regresión es un estimador menos exacto de la relación entre X y Y
Y
Y
FIGURA 12-11 Grados contrastantes de dispersión de datos puntuales y el efecto resultante en la precisión de la recta de regresión
X
X
12.2: Estimación mediante la recta de regresión
Cálculo del error estándar de la estimación
453
donde X es la antigüedad del camión y Yˆ la cantidad estimada de reparaciones anuales (en cientos de dólares). Para calcular se para este problema, primero debemos determinar el valor de ∑(Y Yˆ)2, esto es, el numerador de la ecuación 12-6. Hicimos esto en la tabla 12-11, usando (3.75 0.75X) para Yˆ , siempre que fue necesario. Como ∑(Y Yˆ )2 es igual a 1.50, podemos usar la ecuación 12-6 para encontrar el error estándar de la estimación: se
(Y Yˆ 2) n2
[12-6]
1.50
42
0 .7 5 0.866 ← Error estándar de la estimación de $86.60
Uso de un método abreviado para calcular el error estándar de la estimación Para usar la ecuación 12-6, debemos hacer la tediosa serie de cálculos descritos en la tabla 12-11. Para cada valor de Y, debemos calcular el valor correspondiente de Yˆ. Entonces debemos sustituir estos valores en la expresión ∑(Y Yˆ )2. Afortunadamente, podemos eliminar algunos pasos de esta tarea al usar el camino corto proporcionado por la ecuación 12-7, esto es:
Método abreviado para encontrar el error estándar de la estimación Una forma más rápida de calcular se
se
Y2 aY bXY n2
[12-7]
donde, • • • • •
X valores de la variable independiente Y valores de la variable dependiente a ordenada Y de la ecuación 12-5 b pendiente de la ecuación de estimación de la ecuación 12-4 n número de puntos
Esta ecuación es un atajo, porque al organizar primero los datos de este problema para calcular la pendiente y la ordenada Y (tabla 12-7), determinamos cada valor que necesitamos para la ecuación
X (1)
Y (2)
Yˆ (es decir, 3.75 0.75X) (3)
Error individual ˆ (Y Y) (2) (3)
5 3 3 1
7 7 6 4
3.75 (0.75)(5) 3.75 (0.75)(3) 3.75 (0.75)(3) 3.75 (0.75)(1)
7 7.5 0.5 0.25 7 6.0 1.0 1.00 6 6.0 0.0 0.00 4 4.5 0.5 0.25 (Y Yˆ )2 1.50 ← Suma de los cuadrados de los errores
Tabla 12-11 Cálculo del numerador de la fracción en la ecuación 12-6
ˆ 2 (Y Y) [(2) (3)]2
454
CAPÍTULO 12 Regresión simple y correlación
Tabla 12-12 Calculo de los datos para la ecuación 12-7
Camiones n=4 (1) 101 102 103 104
Antigüedad (X) (2) 5 3 3 1 X 12
Gastos de reparación (Y) (3) 7 7 6 4 Y 24
XY (2) (3)
X2 (2)2
Y2 (3)2
35 21 18 4 XY 78
25 9 9 1 X2 44
49 49 36 16 Y2 150
12-7, excepto uno: el valor de ∑Y2. La tabla 12-12 es una repetición de la tabla 12-7, añadiendo la columna Y2. Ahora podemos consultar la tabla 12-12 y nuestros cálculos anteriores de a y b, con el fin de calcular se usando el método abreviado: se
∑Y2 a∑Y b∑XY n2
[12-7]
150 (3.75)(24) (0.75)(78)
42
2
150 90 58.5
0 .7 5 0.866 ← Error estándar de $86.60 Este resultado es igual al obtenido usando la ecuación 12-6, ¡pero piense en cuántos pasos nos ahorramos!
Interpretación del error estándar de la estimación Interpretación y uso del error estándar de la estimación
Uso de se para formar límites alrededor de la línea de regresión
Suposiciones para usar se
Como ocurría en el caso de la desviación estándar , mientras más grande sea el error estándar de la estimación, mayor será la dispersión de los puntos alrededor de la línea de regresión. De manera inversa, si se 0, esperamos que la ecuación de estimación sea un estimador “perfecto”de la variable dependiente. En ese caso, todos los puntos caerían directamente sobre la línea de regresión y no habría puntos dispersos alrededor. Usaremos el error estándar de la estimación como una herramienta,de la misma forma que podemos usar la desviación estándar. Esto es, suponiendo que los puntos observados siguen una distribución normal alrededor de la recta de regresión, podemos esperar encontrar el 68% de los puntos dentro de 1se (o más menos 1 error estándar de la estimación), el 95.5% de los puntos dentro de 2se y el 99.7% de los puntos dentro de 3se. La figura 12-12 ilustra estos “límites” alrededor de la línea de regresión. Otra cosa que debemos observar en la figura 12-12 es que el error estándar de la estimación se mide a lo largo del eje Y, y no perpendicularmente desde la recta de regresión. En este punto, debemos establecer las suposiciones necesarias, ya que pronto haremos algunas afirmaciones probabilísticas. Específicamente: 1. Los valores observados para Y tienen distribución normal alrededor de cada valor estimado de Yˆ. 2. La varianza de las distribuciones alrededor de cada valor posible de Yˆ es la misma. Si esta segunda suposición no fuera cierta, entonces el error estándar en un punto de la recta de regresión podría diferir del error estándar en otro punto.
12.2: Estimación mediante la recta de regresión
455
Y Y = a + bX + 3se Y = a + bX + 2se Y = a + bX + 1se ^ Y = a + bX (línea de regresión)
se Variable dependiente
Y = a + bX – 1se Y = a + bX – 2se Y = a + bX – 3se
± 3se (99.7% de todos los puntos debe caer en esta región)
FIGURA 12-12
± 2se (95.5% de todos los puntos debe caer en esta región)
límites alrededor de la línea de regresión de 1se 2se y 3se
± 1se (68% de todos los puntos debe caer en esta región)
X Variable independiente
Intervalos de confianza para la estimación (o el valor esperado) Utilización de se para generar intervalos de confianza
Podemos concebir al error estándar de la estimación como la herramienta estadística que podemos usar para hacer afirmaciones de probabilidad acerca del intervalo alrededor del valor estimado de Yˆ, dentro del cual cae el valor real de Y. En la figura 12-12 podemos ver, por ejemplo, que hay una seguridad del 95.5% de que el valor real de Y caerá dentro de dos errores estándar del valor estimado de Yˆ. Llamamos a estos intervalos alrededor de la Yˆ estimada, intervalos de confianza para la estimación. Tienen la misma función que los intervalos de confianza en el capítulo 8. Ahora, aplicando el concepto de intervalos de confianza para la estimación al problema de la directora del Departamento de Salubridad, sabemos que la ecuación de estimación usada para predecir el gasto anual de reparación es: Yˆ 3.75 0.75X
Aplicación de los intervalos de confianza para la estimación (o valor esperado)
Intervalo de confianza para la estimación de un error estándar
Y sabemos que si el departamento tiene un camión de cuatro años de antigüedad, predecimos que tendrá un gasto de reparaciones anuales de $675: Yˆ 3.75 0.75(4) 3.75 3.00 6.75 ← Gasto anual de reparaciones esperado de $675 Por último, recordará que calculamos el error estándar de la estimación como se 0.866 ($86.60). Ahora podemos combinar estas dos piezas de información y decir que estamos seguros aproximadamente el 68% del tiempo, de que el gasto real de reparaciones estará dentro de 1 error estándar de la estimación de Yˆ. Podemos calcular los límites superior e inferior de este intervalo de confianza para el gasto de reparación de la siguiente manera: Yˆ 1se $675 (1)($86.60) y
$761.40 ← Límite superior del intervalo de predicción Yˆ 1se $675 (1)($86.60) $588.40 ← Límite inferior del intervalo de predicción
Intervalo de confianza para la estimación de dos errores estándar
Si, en lugar de esto, decimos que estamos seguros aproximadamente el 95.5% del tiempo de que el gasto real de reparaciones estará dentro de 2 errores estándar de la estimación de Yˆ, podríamos calcular los límites de este nuevo intervalo de confianza de la siguiente manera:
456
CAPÍTULO 12 Regresión simple y correlación
Yˆ 2se $675 (2)($86.60) y
$848.20 ← Límite superior Yˆ 2se $675 (2)($86.60) $501.80 ← Límite inferior
n es demasiado pequeña para usar la distribución normal
Utilización de la distribución t para intervalos de confianza para la estimación Un ejemplo del uso de la distribución t para calcular intervalos de confianza para la estimación
Recuerde que los estadísticos aplican los intervalos de confianza para la estimación basados en la distribución normal (el 68% para lse, el 95.5% para 2se y el 99.7% para 3se) sólo para muestras grandes, esto es, cuando n > 30. En este problema, nuestro tamaño de muestra es demasiado pequeño (n 4). Por tanto, nuestras conclusiones son inexactas. Pero de todos modos el método que hemos utilizado demuestra el principio involucrado en los intervalos de confianza para la estimación. Si deseamos evitar inexactitudes ocasionadas por el tamaño de la muestra, necesitamos usar la distribución t. Recuerde que esta distribución t es apropiada cuando n es menor que 30 y la desviación estándar de la población no se conoce. Estas dos condiciones, se cumplen puesto que n 4, y se es una estimación y no la desviación estándar conocida de la población. Ahora suponga que la directora del Departamento de Salubridad desea tener una seguridad aproximada del 90% de que los gastos anuales de reparación caerán en el interv alo de la estimación. ¿Cómo calculamos este intervalo? Como la tabla de distribución t se concentra en la probabilidad de que el parámetro que estamos estimando caerá fuera del intervalo de predicción, necesitamos consultar la tabla 2 del apéndice en la columna de 100% 90% 10%. Una vez localizada la columna, buscamos el renglón para 2 grados de libertad; porque n 4 y sabemos que perdemos 2 grados de libertad (al estimar los valores de a y b), entonces n 2 2. Encontraremos que el valor apropiado t es 2.920. Ahora, usando este valor de t, podemos hacer un cálculo más exacto de los límites del intervalo de la estimación, de la siguiente manera: Yˆ t(se) $675 (2.920)($86.60) $675 $252.87 $927.87 ← Límite superior y Yˆ t(se) $675 (2.920)($86.60) $675 $252.87 $422.13 ← Límite inferior Así, la directora puede estar 90% se gura de que los gastos anuales de reparación de un camión de cuatro años de antigüedad estarán entre $422.13 y $927.87. Debemos resaltar que estos intervalos de la estimación es lo que se espera que ocurra. De hecho, los especialistas en estadística pueden calcular el error estándar exacto para calcular intervalos de estimación sp, usando la fórmula: sp se
2 1 (X0 X) 1 n X2 nX2
donde X0 es el valor específico de X para el que deseamos predecir el valor de Y. Observe que si usamos esta fórmula, sp será diferente para cada valor de X0. En particular, si X0 2 está lejos de X , entonces sp será grande, porque (X X ) será grande. Si, por otra parte, X0 está cerca de X, y n es moderadamente grande (mayor que 10), entonces sp estará cerca de se. Esto sucede porque 1/n es pequeño y (X0 X )2 también lo es. Por tanto, el valor dentro de la raíz cuadrada es cercano a 1, la raíz cuadrada es aún más cercana a 1 y sp, estará muy cerca de se. Esto justifica nuestra utilización de se para calcular intervalos de estimación aproximados.
12.2: Estimación mediante la recta de regresión
Sugerencia: antes de dedicar tiempo al cálculo de una recta de re gresión para un conjunto de datos, tiene sentido dibujar un diagrama de dispersión para esos puntos. Esto permite investigar los puntos distantes porque quizá algunos datos no representen el problema que se desea resolver. Por ejemplo, el gerente de una cadena de restaurantes cerca de la universidad, quien quiere examinar la hipótesis de que las ventas a la hora del almuerzo bajan en
457
días calurosos, puede encontrar que los datos reunidos durante vacaciones y días festivos distorsionan una regresión que de otra manera sería útil. No pierda de vista que es peligroso escoger entre los datos sólo porque se “ajusten” o no a una idea preconcebida de cuál debe ser la conclusión. En el análisis de regresión, la selección cuidadosa y el uso consistente de la mejor base de datos lleva a la ecuación de estimación más valiosa.
SUGERENCIAS Y SUPOSICIONES
Ejercicios 12.2 Ejercicios de autoevaluación EA
12-2
Para el siguiente conjunto de datos: a) dibuje un diagrama de dispersión, b) desarrolle la ecuación de estimación que mejor describa los datos, c) pronostique Y para X 10, 15, 20. X Y
EA
12-3
13 6.2
16 8.6
14 7.2
11 4.5
17 9.0
9 3.5
13 6.5
17 9.3
18 9.5
12 5.7
A menudo, quienes hacen la contabilidad de costos estiman los gastos generales con base en el ni vel de producción. En Standard Knitting Co., han reunido información acerca de los gastos generales y las unidades producidas en diferentes plantas, y ahora desean estimar una ecuación de re gresión para predecir los gastos generales futuros. Gastos generales Unidades
191 40
170 42
272 53
155 35
280 56
173 39
234 48
116 30
a) Desarrolle una ecuación de regresión para contabilidad de costos. b) Pronostique los gastos generales cuando se producen 50 unidades. c) Calcule el error estándar de la estimación.
Conceptos básicos ■ 12-13
■ 12-14
Para los siguientes datos: a) trace un diagrama de dispersión, b) desarrolle la ecuación de estimación que mejor describa los datos, c) pronostique Y para X 6, 13.4, 20.5. X Y
2.70 16.66
4.80 16.92
5.6 22.3
18.40 71.80
19.60 80.88
21.5 81.4
18.70 77.46
X Y
11.60 50.48
10.90 47.82
18.4 71.5
19.70 81.26
12.30 50.10
6.8 39.4
13.80 52.80
Usando los datos dados a continuación, a) trace el diagrama de dispersión, b) desarrolle la ecuación de estimación que mejor describa los datos, c) pronostique Y para X 5, 6, 7. X Y
■ 12-15
16 4.4
Dado el siguiente conjunto de datos: a) encuentre la línea de mejor ajuste,
6 8.0
10 2.1
5 8.7
12 0.1
14 2.9
14.3 48.7
153 37
178 40
458
CAPÍTULO 12 Regresión simple y correlación
b) calcule el error estándar de la estimación, c) encuentre un intervalo de la estimación aproximada (con el 95% de nivel de confianza) para la variable dependiente dado que X es 44. X Y
56 45
48 38.5
42 34.5
58 46.1
40 33.3
39 32.1
50 40.4
Aplicaciones ■ 12-16
Las ventas de línea blanca varían según el estado del mercado de casas nuevas: cuando las ventas de casas nuevas son buenas, también lo son las de la vaplatos, lavadoras de ropa, secadoras y refrigeradores. Una asociación de comercio compiló los siguientes datos históricos (en miles de unidades) de las ventas de línea blanca y la construcción de casas. Construcción de casas (miles) 2.0 2.5 3.2 3.6 3.3 4.0 4.2 4.6 4.8 5.0
0 0 0 0 0
■ 12-17
■ 12-18
Ventas de línea blanca (miles) 05.0 05.5 06.0 07.0 07.2 07.7 08.4 09.0 09.7 10.0
a) Desarrolle una ecuación para la relación entre las ventas de línea blanca (en miles) y la construcción de casas (en miles). b) Interprete la pendiente de la recta de regresión. c) Calcule e interprete el error estándar de la estimación. d) La construcción de casas durante el año próximo puede ser mayor que el intervalo registrado; se han pronosticado estimaciones hasta de 8.0 millones de unidades. Calcule un interv alo de predicción de 90% de confianza para las ventas de línea blanca, con base en los datos anteriores y el nuevo pronóstico de construcción de casas. Durante partidos recientes de tenis, Diane ha observado que sus lanzamientos no han sido eficaces, pues sus oponentes le han regresado algunos de ellos. Algunas de las personas con las que juega son bastante altas, así que se pregunta si la estatura de su contrincante podría e xplicar el número de lanzamientos no regresados durante un partido. Los siguientes datos se sacaron de cinco partidos recientes. Estatura del oponente (H )
Lanzamientos no regresados (L)
5.0 5.5 6.0 6.5 5.0
9 6 3 0 7
a) ¿Cuál es la variable dependiente? b) ¿Cuál es la ecuación de estimación de mínimos cuadrados para estos datos? c) ¿Cuál es su mejor estimación del número de lanzamientos no regresados en su partido de mañana con un oponente de 5.9 pies de estatura? Un estudio elaborado por el Departamento deTransporte de Atlanta, Georgia, acerca del efecto de los precios de boletos de autobús sobre el número de pasajeros produjo los siguientes resultados: Precio del boleto (centavos) Pasajeros por 100 millas
25 800
30 780
35 780
40 660
45 640
a) Grafique estos datos. b) Desarrolle la ecuación de estimación que mejor describa estos datos.
50 600
55 620
60 620
459
12.2: Estimación mediante la recta de regresión
■ 12-19
c) Pronostique el número de pasajeros/100 millas si el precio del boleto fuera de 50 centavos. Utilice un intervalo de predicción del 95% de aproximación. William C. Andrews, consultor de comportamiento organizacional de Victory Motorcycles, ha diseñado una prueba para mostrar a los supervisores de la compañía los peligros de sobrevigilar a sus trabajadores. Un trabajador de la línea de ensamble tiene a su cargo una serie de tareas complicadas. Durante el desempeño del trabajador, un inspector lo interrumpe constantemente para ayudarlo a terminar las tareas. El trabajador, después de terminar su trabajo, recibe una prueba sicológica diseñada para medir la hostilidad del trabajador hacia la autoridad (una alta puntuación implica una hostilidad baja). A ocho distintos trabajadores se les asignaron las tareas y luego se les interrumpió para darles instrucciones útiles un número variable de veces (línea X). Sus calificaciones en la prueba de hostilidad se dan en el renglón Y. X (número interrupciones al trabajador) Y (calificación del trabajador en la prueba de hostilidad)
■ 12-20
■ 12-22
10 41
10 45
15 27
15 26
20 12
20 16
25 3
a) Grafique estos datos. b) Desarrolle la ecuación que mejor describa la relación entre el número de interrupciones y la calificación de la prueba. c) Pronostique la calificación esperada de la prueba si el trabajador es interrumpido 18 veces. El editor en jefe de un importante periódico metropolitano ha intentado convencer al dueño para que mejore las condiciones de trabajo en la imprenta. Está convencido de que, cuando trabajan las prensas,el grado de ruido crea niveles no saludables de tensión y ansiedad. Recientemente hizo que un sicólogo realizara una prueba durante la cual situaron a los prensistas en cuartos con niveles variables de ruido y luego les hicieron otra prueba para medir niveles de humor y ansiedad. La siguiente tabla muestra el índice de su grado de ansiedad o nerviosismo y el ni vel de ruido al que se vieron e xpuestos (1.0 es bajo y 10.0 es alto). Nivel de ruido Grado de ansiedad
■ 12-21
5 58
4 39
3 38
1 16
2 18
6 41
7 45
2 25
3 38
a) Grafique estos datos. b) Desarrolle una ecuación de estimación que describa los datos. c) Pronostique el grado de ansiedad que podríamos esperar cuando el nivel de ruido es 5. Una compañía administra a sus vendedores en capacitación una prueba de ventas antes de salir a trabajar. La administración de la compañía está interesada en determinar la relación entre las calif icaciones de la prueba y las ventas logradas por esos vendedores al final de un año de trabajo. Se recolectaron los siguientes datos de 10 agentes de ventas que han estado en el campo un año. Núm. de vendedor
Calif. de la prueba (T )
Núm. de unidades vendidas (S )
1 2 3 4 5 6 7 8 9 10
2.6 3.7 2.4 4.5 2.6 5.0 2.8 3.0 4.0 3.4
95 140 85 180 100 195 115 136 175 150
a) Encuentre la recta de regresión de mínimos cuadrados que podría usarse para predecir las evntas a partir de las calificaciones en la prueba de capacitación. b) ¿En cuánto se incrementa el número esperado de unidades vendidas por cada incremento de 1 punto en una calificación de la prueba? c) Utilice la recta de regresión de mínimos cuadrados para predecir el número de unidades que vendería un capacitando que obtuvo una calificación promedio en la prueba. El consejo municipal de la ciudad de Bowie, Maryland, ha recabado datos del número de accidentes menores de tráfico y el número de partidos de fútbol de jóvenes que tienen lugar en la ciudad el fin de semana. X (partidos de fútbol) Y (accidentes menores)
20 6
30 9
10 4
12 5
15 7
25 8
34 9
460
CAPÍTULO 12 Regresión simple y correlación
■ 12-23
a) Grafique estos datos. b) Desarrolle la ecuación de estimación que mejor describa estos datos. c) Pronostique el número de accidentes menores de tráfico que ocurrirán en un fin de semana durante el cual tendrán lugar 33 partidos de fútbol en Bowie. d) Calcule el error estándar de la estimación. En economía, la función de demanda de un producto a menudo se estima mediante una re gresión de la cantidad vendida (Q) sobre el precio (P). La compañía Bamsy está tratando de estimar la función de demanda para su nueva muñeca “Ma’am”, y ha recabado los siguientes datos: P Q
■ 12-24
20.0 125
17.5 156
16.0 183
14.0 190
12.05 212
10.0 238
8.0 250
6.5 276
a) Grafique estos datos. b) Calcule la recta de regresión de mínimos cuadrados. c) Trace la recta de regresión ajustada en su gráfica del inciso a). Una compañía fabricante de llantas está interesada en eliminar contaminantes de los tubos de emisión de su fábrica y el costo es una preocupación. La compañía ha recolectado datos de otras compañías respecto al monto gastado en medidas ambientales y la cantidad de contaminantes eliminada que resultó (como porcentaje de la emisión total). Dinero gastado (miles de dólares) Porcentaje de contaminantes
8.4 35.9
10.2 31.8
16.5 24.7
21.7 25.2
9.4 36.8
8.3 35.8
Dinero gastado (miles de dólares) Porcentaje de contaminantes
18.4 25.4
16.7 31.4
19.3 27.4
28.4 15.8
4.7 31.5
12.3 28.9
11.5 33.4
a) Calcule la ecuación de regresión. b) Pronostique el porcentaje de contaminantes eliminados si se gastan $20,000 en medidas de control. c) Calcule el error estándar de la estimación.
Soluciones a los ejercicios de autoevaluación EA
12-2
a)
10 8 6 4 2 8
b)
10
12
14
16
18
X
Y
XY
X2
13 16 14 11 17 9 13 17 18 012 X 140
6.2 8.6 7.2 4.5 9.0 3.5 6.5 9.3 9.5 05.7 Y 70.0
80.6 137.6 100.8 49.5 153.0 31.5 84.5 158.1 171.0 00068.4 XY 1,035.0
169 256 196 121 289 81 169 289 324 00144 X2 2,038
12.3: Análisis de correlación
461
Y 70.0/10 7.0 X 140/10 14 1,035.0 10(14)(7.0) XY nX Y b 0.7051 2 2,038 10(14)2 X2 nX a Y bX 7.0 (0.7051)(14) 2.8714 ˆ Entonces, Y 2.8714 0.7051X. Si usa un paquete de re gresión de computadora para hacer los cálculos, es posible que obtenga Yˆ 2.8718 0.7051X Esta pequeña diferencia ocurre porque la mayoría de los paquetes de software hacen sus cálculos con más de diez lugares decimales, y aquí se redondeó b antes de calcular a. Para casi todas las situaciones prácticas, esta pequeña diferencia (es decir, a 2.8724 en lugar de 2.8718) es intrascendente. c) X 10, Yˆ 2.8714 0.7051(10) 4.1796 X 15, Yˆ 2.8714 0.7051(15) 7.7051 EA
12-3 a)
X 20, Yˆ 2.8714 0.7051(20) 11.2306 En este problema, Y gastos generales y X unidades producidas. X 40 42 53 35 56 39 48 30 37 40 X 420
Y 191 170 272 155 280 173 234 116 153 178 X 1,922
X2
XY 7,640 7,140 14,416 5,425 15,680 6,747 11,232 3,480 5,661 7,120 XY 84,541
1,600 1,764 2,809 1,225 3,136 1,521 2,304 900 1,369 1,600 X 2 18,228
Y2 36,481 28,900 73,984 24,025 78,400 29,929 54,756 13,456 23,409 31,684 Y 2 395,024
420 1,922 X Y 192.2 42 10 10 84,541 10(42)(192.2) XY nX Y b 6.4915 2 2 18,228 10(42)2 X nX a Y bX 192.2 6.4915(42) 80.4430 Entonces, Yˆ 80.4430 6.4915X (con software: Yˆ 80.4428 6.4915X). b) Yˆ 80.4430 6.4915(50) 244.1320 Y2 aY bXY n2
395,024 (80.4430)(1,922) 6.4915(84,541) 10.2320 8
c) se
12.3 Análisis de correlación Qué hace el análisis de correlación
El análisis de correlación es la herramienta estadística que podemos usar para describirel grado en el que una variable está linealmente relacionada con otra.Con frecuencia, el análisis de correlación se utiliza junto con el de regresión para medir qué tan bien la línea de regresión explica los cambios de la variable dependiente, Y. Sin embargo, la correlación también se puede usar sola para medir el grado de asociación entre dos variables.
462
CAPÍTULO 12 Regresión simple y correlación
Dos medidas que describen la correlación
Los estadísticos han desarrollado dos medidas para describir la correlación entre dos variables: el coeficiente de determinación y el coeficiente de correlación. Presentar estas dos medidas de asociación es el objetivo de esta sección.
El coeficiente de determinación Desarrollo del coeficiente de determinación muestral
El coeficiente de determinación es la principal forma en que podemos medir el grado, o fuerza, de la asociación que existe entre dos variables, X y Y. Debido a que usamos una muestra de puntos para desarrollar rectas de regresión, nos referimos a esta medida como el coeficiente de determinación muestral. El coeficiente de determinación muestral se deriva de la relación entre dos tipos de variación: la variación de los valores Y en un conjunto de datos alrededor de 1. la recta de regresión ajustada; 2. su propia media. El término variación en estos dos casos se utiliza en su sentido estadístico usual para e xpresar “la suma de los cuadrados de un grupo de desviaciones”. Usando esta def inición, entonces, es razonable expresar la variación de los valores Y alrededor de la recta de regresión con esta ecuación: Variación de los valores de Y alrededor de la recta de regresión Variación de los valores de Y alrededor de la recta de regresión (Y Yˆ)2
[12-8]
La segunda variación, la de los valores de Y alrededor de su propia media, está determinada por: Variación de los valores de Y alrededor de su propia media Variación de los valores de Y alrededor de su propia media (Y Y)2
[12-9]
Uno menos la razón entre estas dos variaciones es el coeficiente de determinación muestral, que se denota por r 2: Coeficiente de determinación muestral (Y Yˆ)2 r 2 1 2 (Y Y )
[12-10]
Las siguientes dos secciones mostrarán que r 2, según la definición de la ecuación 12-10, es una medida del grado de asociación lineal entre X y Y.
Una interpretación intuitiva de r 2
Ecuación de estimación apropiada para un ejemplo de correlación perfecta
Considere las dos formas extremas en las que las variables X y Y pueden relacionarse. En la tabla 12-13, cada valor observado de Y cae en la línea de estimación, como puede verse en la figura 12-13. Ésta es una correlación perfecta. La ecuación de estimación apropiada para estos datos es fácil de determinar. Dado que la recta de regresión pasa por el origen, sabemos que la ordenada Y es cero; como Y se incrementa en 4 cada vez que X se incrementa en 1, la pendiente debe ser igual a 4. Por tanto, la recta de regresión es: Yˆ 4X
12.3: Análisis de correlación
Tabla 12-13
Punto de datos
Valor de X
o
1 2 3 4 5 6 7 8
1 2o 3o 4o 5o 6o 7o 8o
Ilustración de una correlación perfecta entre dos variables, X y Y
463
Valor de Y 4 8 12 16 20 24 28 032 Y 144
144 Y 18 ← Media de los valores de Y 8
Y 32 28
^ Y = 4X
24 20
Y = 18 16
FIGURA 12-13 Correlación perfecta entre X y Y: todos los puntos caen en la recta de regresión Desarrollo del coeficiente de determinación de la muestra para el ejemplo de una correlación perfecta
12 8 4 0 0
1
2
3
4
5
6
7
8
X
Ahora, para establecer el coeficiente de determinación de la muestra para la recta de regresión de la figura 12-13, primero calculamos el numerador de la fracción en la ecuación 12-10: Variación de los valores de Y alrededor de la recta de regresión (Y Yˆ )2 (0)2 0
[12-8]
Como cada valor de Y está sobre la recta de regresión, la diferencia entre Y y Yˆ es cero en cada caso
Entonces podemos encontrar el denominador de la fracción: Variación de los valores de Y alrededor de su propia media (Y Y)2 2
[12-9] 2
(14 18) (14) 196 (18 18)2 (10)2 100 (12 18)2 (16)2 136 (16 18)2 (12)2 194 (20 18)2 (12)2 194 (24 18)2 (16)2 136 (28 18)2 (10)2 100 (32 18)2 (14)2 196 672 ← (Y – Y )2
464
CAPÍTULO 12 Regresión simple y correlación
Tabla 12-14
Dato puntual
Valor de X
Valor de Y
1° 2° 3° 4° 5° 6° 7° 8°
1 1 3 3 5 5 7 7
6 12 6 12 6 12 6 12
Ilustración de la correlación cero entre dos variables, X y Y
Y 72 72 Y 8 9← Media de los valores de Y Y 12 10 8
FIGURA 12-14 Correlación cero entre X y Y: los mismos valores de Y aparecen para distintos valores de X
^ Y=9
Y=9
6 4 2
X 1
2
3
4
5
6
7
8
Al sustituir estos valores en la ecuación 12-10, podemos encontrar que el coeficiente de determinación de la muestra es igual a 1: (Y Yˆ )2 r 2 1 [12-10] (Y Y)2 0 1 672 10 1 ← Coeficiente de determinación de la muestra cuando hay una correlación perfecta 2
Cálculo del coeficiente de determinación de la muestra para la correlación cero
De hecho, r es igual a l siempre que la recta de regresión sea un estimador perfecto. Una segunda forma extrema en que las variables X y Y pueden relacionarse es aquella donde los puntos podrían caer a distancias iguales en ambos lados de una línea de regresión horizontal, como se ve en la figura 12-14. Este conjunto de datos consiste en los ocho puntos registrados en la tabla 12-14. En la figura 12-14, podemos ver que la recta de regresión de mínimos cuadrados apropiada para estos datos está dada por la ecuación Yˆ 9. La pendiente de la recta es cero, porque los mismos valores de Y aparecen para todos los valores de X. Tanto la ordenada Y como la media de los valores de Y son iguales a 9. Ahora calcularemos las dos variaciones usando las ecuaciones 12-8 y 12-9, para poder calcular el coeficiente de determinación de la muestra para esta recta de regresión. Primero calculamos la variación de los valores de Y alrededor de la línea de estimación Yˆ 9:
12.3: Análisis de correlación
Variación de los valores de Y alrededor de la recta de regresión (Y Yˆ)2 (16 9)2 (3)2 9 (12 9)2 (3)2 9 (16 9)2 (3)2 9 (12 9)2 (3)2 9 (16 9)2 (3)2 9 (12 9)2 (3)2 9 (16 9)2 (3)2 9 (12 9)2 (3)2 9 72 ← (Y Yˆ )2 Variación de los valores de Y alrededor de su propia media (Y Yˆ)2 (16 9)2 (3)2 9 (12 9)2 (3)2 9 (16 9)2 (3)2 9 (12 9)2 (3)2 9 (16 9)2 (3)2 9 (12 9)2 (3)2 9 (16 9)2 (3)2 9 (12 9)2 (3)2 9 ← (Y Y )2 72
465
[12-8]
[12-9]
Sustituyendo estos dos valores en la ecuación 12-10, vemos que el coeficiente de determinación de la muestra es 0: (Y Yˆ)2 r2 1 [12-10] (Y Y)2 72 1 72 11 0 ← coeficiente de determinación de la muestra cuando no hay correlación 2
Interpretación de los valores r 2
Por tanto, el valor de r es cero cuando no hay correlación. En los problemas con que se topa la mayoría de los responsables de la toma de decisiones,r 2 caerá en alguna parte entre estos dos extremos de 1 y 0. Recuerde, no obstante, que r 2 cercana a 1 indica una fuerte correlación entre X y Y, mientras que r 2 cercana a 0 significa que existe poca correlación entre estas dos variables. Un punto que debemos resaltar es que r 2 mide sólo la fuerza de una relación lineal entre dos variables. Por ejemplo, si tuviéramos muchos puntos X y Y, y todos cayeran en la circunferencia de un círculo, aunque dispersos aleatoriamente, claramente habría una relación entre estos puntos (todos están en el mismo círculo). Pero en este caso, si calculáramos r 2, resultaría estar cerca de cero, porque los puntos no tienen una relación lineal entre ellos.
Otra interpretación de r 2 Otra forma de interpretar el coeficiente de determinación de la muestra
Los estadísticos también interpretan el coeficiente de determinación de la muestra viendo la cantidad de la variación en Y que se explica por la recta de regresión. Para entender este significado de r 2, consideremos la recta de regresión de la figura 12-15. Aquí, separamos un valor observado de Y, mostrado como el círculo negro superior. Si usamos la media de los valores de Y, Y, para estimar este
466
CAPÍTULO 12 Regresión simple y correlación
Desviación explicada y no explicada
Variación explicada y no explicada
valor de Y, del círculo negro, entonces la desviación total de esta Y lejos de su media sería (Y Y ). Observe que si usamos la recta de regresión para estimar este valor de Y del círculo negro, obtendríamos una mejor estimación. Sin embargo, aun cuando la recta de regresión justifica, o explica (Yˆ Y) de la desviación total, la porción restante de la desviación total (Y Yˆ ) sigue sin explicarse. Pero consideremos un conjunto completo de valores Y observados en vez de un solo valor. La variación total, esto es, la suma de los cuadrados de las desviaciones totales,de estos puntos alrededor de su media sería: (Y Y)2 [12-9] y la porción explicada de la variación total, o la suma de los cuadrados de las desviaciones explicadas de estos puntos alrededor de su media, sería: (Yˆ Y)2 La porción no explicada de la variación total (la suma de los cuadrados de las desviaciones no e xplicadas) de estos puntos respecto a su recta de regresión sería: (Y Yˆ )2 [12-8] Si deseamos expresar la fracción de la variación total que queda no explicada, dividiríamos la variación no explicada, (Y Yˆ )2, entre la variación total, (Y Y)2, de la siguiente manera: (Y Yˆ )2 2 ← Fracción de la variación total no explicada (Y Y) y, finalmente, si restamos de 1 la fracción de la variación total que sigue no explicada, tendremos la fórmula para encontrar la fracción de la v ariación total de Y que es explicada por la recta de regresión. Esa fórmula es: (Y Yˆ )2 r2 1 2 [12-10] (Y Y)
Método abreviado para calcular r 2
la misma ecuación que usamos para calcular r2. Es en este sentido que r2 mide qué tan bien X explica Y, esto es, el grado de asociación entre X y Y. Una observación final respecto al cálculo de r2. Para obtener r2 usando las ecuaciones 12-8, 12-9 y 12-10, se requiere una serie de cálculos tediosos; para evitarlos, los estadísticos han desarrollado una versión abreviada, usando valores que habríamos determinado de antemano en el análisis de regresión. La fórmula es: Método abreviado para obtener el coeficiente de determinación de la muestra r 2 calculada por el método corto
aY bXY nY 2 → r2 Y 2 nY 2
Y Un valor observado de la variable dependiente (Y )
FIGURA 12-15 Desviación total, desviación explicada y desviación no explicada para un valor observado de Y
Desviación total de esta Y de su media Y (Y – Y ) ^ (Y ) sión e r g re a de Líne
Desviación no explicada de esta Y, de su media Y (Y – Y^ )
Desviación explicada de esta Y, de su media Y (Y^ – Y ) Y
Valor estimado de esta Y ^ por la recta de regresión (Y )
X
[12-11]
12.3: Análisis de correlación
Ganacia anual (Y) (3)
Tabla 12-15 Año (n 6) (1)
Cálculo de los datos para la ecuación 12-11
1995 1994 1993 1992 1991 1990
Gastos de ID (X) (2) 5 11 4 5 3 02 X 30
31 40 30 34 25 020 Y 180
XY (2) (3) 155 440 120 170 75 0,040 XY 1,000
X2 (2)2 25 121 16 25 9 004 X 2 200
467
Y2 (3)2 961 1,600 900 1,156 625 0 ,400 Y 2 5,642
180 Y 6 30 ← Media de los valores de la variable dependiente
donde, 2 • r coeficiente de determinación de la muestra • a ordenada Y • b pendiente de la línea de estimación de mejor ajuste • n número de puntos de datos • X valores de la variable independiente • Y valores de la variable dependiente • Y media de los valores observados de la variable dependiente
Aplicación del método abreviado
Para ver por qué esta fórmula constituye un método abreviado, la aplicaremos a la regresión que relaciona los gastos de investigación y desarrollo con las ganancias. En la tabla 12 -15, repetimos las columnas de la tabla 12-9, añadiendo una columna Y 2. Recuerde que cuando encontramos los valores para a y b, la recta de regresión para este problema era: Yˆ 20 2X Usando esta recta y la información de la tabla 12-15, podemos calcular r 2 de la siguiente manera: 2
aY bXY nY r 2 Y2 nY2
[12-11]
(20)(180) (2)(1,000) (6)(30)2 5,642 (6)(30)2 3,600 2,000 5,400 5,642 5,400 200 242 0.826 ← Coeficiente de determinación de la muestra Interpretación de r 2
Así, podemos concluir que la variación en los gastos de investigación y desarrollo (la variable independiente X) explica el 82.6% de la variación en las ganancias anuales (la variable dependiente Y).
468
CAPÍTULO 12 Regresión simple y correlación
El coeficiente de correlación Coeficiente de correlación de la muestra
El coeficiente de correlación es la segunda medida que podemos usar para describir qué tan bien explica una variable a otra. Cuando tratamos con muestras, el coeficiente de correlación de la muestra se denota por r y es la raíz cuadrada del coeficiente de determinación de muestra: Coeficiente de correlación de la muestra r r2
Interpretación de r
Cálculo de r para el problema de investigación y desarrollo
[12-12]
Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada positiva, pero si b es negativa, r es la raíz cuadrada negativa. Entonces, el signo de r indica la dirección de la relación entre las dos variables X y Y. Si existe una relación inversa —esto es, si Y disminuye al aumentar X—, entonces r caerá entre 0 y 1. De manera similar, si existe una relación directa (si Y aumenta al aumentar X), entonces r será un valor en el intervalo de 0 a 1. La figura 12-16 ilustra estas características de r. El coeficiente de correlación es más difícil de interpretar quer2. ¿Qué significa r 0.9? Para responder esta pregunta, debemos recordar que r 0.9 es lo mismo que r2 0.81. Esto último nos dice que el 81% de la variación en Y es explicada por la recta de regresión. De esta forma, vemos que r es sólo la raíz cuadrada de r2, y su significado es qué tanto se relacionan las v ariables x y y. Por lo que r 0.9 significa que el 90% de los datos se relacionan entre sí. Ahora encontremos el coeficiente de correlación del problema que relaciona gastos de investigación y desarrollo con ganancias anuales. En la sección anterior , encontramos que el coeficiente de determinación de la muestra es r2 0.826, de manera que podemos sustituir este valor en la ecuación 12-12 y encontrar que r r2
[12-12]
0.8 26 0.909 ← Coeficiente de correlación de la muestra La relación entre las dos variables es directa y la pendiente es positiva; por tanto, el signo de r es positivo. (a) r 2 = 1 y r = 1
(b) r 2 = 1 y r = –1
Y
Y
La pendiente es positiva
La pendiente es negativa
X
X
(c) r 2 = 0.81 y r = 0.9
(d) r 2 = 0.81 y r = – 0.9
Y
Y La pendiente es positiva
(e) r 2 = 0 y r = 0
Y
La pendiente es negativa
Pendiente = 0
FIGURA 12-16 Varias características de r, el coeficiente de correlación de la muestra
Y=Y
X
X
X
12.3: Análisis de correlación
Advertencia: como ya sabe que el coeficiente de determinación ( r2) es el cuadrado del coef iciente de correlación, r, debe tener cuidado de usar todo, menos las correlaciones más altas, como base para tomar decisiones. Sugerencia: si se encuentra que la cantidad gastada en películas se correlaciona a 0.6 con el ingreso f amiliar, parece una correlación bastante fuerte (0.6 está más cerca de SUGERENCIAS Y SUPOSICIONES
469
1.0 que de cero). Pero cuando se ele va al cuadrado, se ve que es responsable sólo de 0.6 0.6 0.36 o el 36% de la variación en la cantidad de dinero que gastan las f amilias en películas. Si diseña su estrategia de mercado dirigida sólo a f amilias con altos ingresos perderá muchos clientes potenciales. Sugerencia: en su lugar, intente averiguar qué más influye en las decisiones de películas de las familias.
Ejercicios 12.3 Ejercicios de autoevaluación EA
EA
12-4
12-5
Las librerías de la universidad han vendido el libro Believe or Not: Wonders of Statistics Guide durante 12 semestres y desean estimar la relación entre las ventas y el número de secciones de estadística elemental que se enseñan en cada semestre. Se recolectaron los siguientes datos: Ventas (unidades) Número de secciones
33 3
38 7
24 6
61 6
52 10
45 12
Ventas (unidades) Número de secciones
65 12
82 13
29 12
63 13
50 14
79 15
a) Desarrolle la ecuación de estimación que mejor se ajuste a los datos. b) Calcule el coeficiente de determinación de la muestra y el coeficiente de correlación de la muestra. Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación de la muestra para los datos del ejercicio EA 12-3.
Conceptos básicos ■ 12-25
■ 12-26 ■ 12-27 ■ 12-28 ■ 12-29 ■ 12-30
¿Qué tipo de correlación (positiva, negativa o cero) debe esperarse de estas variaciones? a) Habilidad de los supervisores y producción de sus subordinados. b) Edad en el primer trabajo de tiempo completo y años de educación. c) Peso y presión sanguínea. d) Promedio general en la universidad y estatura del estudiante. En los siguientes ejercicios, calcule el coeficiente de determinación de la muestra y el coeficiente de correlación para los ejercicios especificados. Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación para los datos del ejercicio 12-17. Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación para los datos del ejercicio 12-18. Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación para los datos del ejercicio 12-19. Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación para los datos del ejercicio 12-20. Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación para los datos del ejercicio 12-21.
Aplicaciones ■ 12-31
El Bank of Lincoln está interesado en reducir el tiempo que las personas esperan para v er a su banquero personal. También le interesa la relación entre el tiempo de espera (Y) en minutos y el número de banqueros atendiendo (X). Los clientes se seleccionaron al azar con los datos siguientes:
470
CAPÍTULO 12 Regresión simple y correlación
■ 12-32
X
2.0
3.0
5.0
4.0
2.0
6.0
1.0
3.0
4.0
3.0
3.0
2.0
4.0
Y
12.8
11.3
3.2
6.4
11.6
3.2
8.7
10.5
8.2
11.3
9.4
12.8
8.2
a) Calcule la ecuación de regresión que mejor se ajusta a estos datos. b) Calcule el coeficiente de determinación de la muestra y el coeficiente de correlación de muestra. Zippy Cola está estudiando el efecto de su última campaña publicitaria. Se escogieron personas al azar y se les llamó para preguntarles cuántas latas de Zippy Cola habían comprado la semana anterior y cuántos anuncios de Zippy Cola habían leído o visto durante el mismo periodo. X (número de anuncios) Y (latas compradas)
3 11
7 18
4 9
2 4
0 7
4 6
1 3
2 8
a) Desarrolle la ecuación de estimación que mejor ajuste los datos. b) Calcule el coeficiente de determinación de la muestra y el coeficiente de correlación.
Soluciones a los ejercicios de autoevaluación EA
12-4
En este problema, Y ventas y X número de secciones. a) X Y XY 3 7 6 6 10 12 12 13 12 13 14 15 X 123
33 38 24 61 52 45 65 82 29 63 50 79 Y 0,621
99 266 144 366 520 540 780 1,066 348 819 700 1,185 XY 6 ,833
X2
9 49 36 36 100 144 144 169 144 169 196 225 X 2 1 ,421
Y2 1,089 1,444 576 3,721 2,704 2,025 4,225 6,724 841 3,969 2,500 6,241 Y 2 3 6,059
123/12 10.25 X
Y 621/12 51.75 6,833 12(10.25)(51.75) XY nX Y b 2.9189 2 2 1,421 12(10.25)2 X nX
51.75 2.9189(10.25) 21.8313 a Y bX Entonces, Yˆ 21.8313 2.9189X (con software: Yˆ 21.8315 2.9189X). aY bXY nY 2 b) r 2 2 2 Y nY 21.8313(621) 2.9189(6,833) 12(51.75)2 0.3481 b) r2 36,059 12(51.75)2 EA
12-5
481 0.5900 r 0.3 De la solución del ejercicio EA 12-3, se tiene n 10, Y 1,922, Y 192.2, XY 84,541, Y 2 395,024, a 80.4430 y b 6.4915. Por tanto, aY bXY nY 2 r 2 Y 2 nY 2 80.4430(1,922) 6.4915(84,541) 10(192.2)2 395,024 10(192.2)2 0.9673
673 0.9835 r 0.9
12.4: Inferencias sobre parámetros de población
471
12.4 Inferencias sobre parámetros de población Relación de la recta de regresión de la muestra y la recta de regresión de la población
Hasta ahora, hemos usado los análisis de re gresión y correlación para relacionar dos v ariables con base en la información de la muestra. Pero los datos de una muestra sólo representan una parte de la población total. Debido a esto, podemos concebir nuestra recta de regresión de la muestra estimada como una estimación de una recta de re gresión de la población verdadera, aunque desconocida, de la forma: Recta de regresión de la población Y A BX
[12-13]
Recuerde nuestro problema acerca de la directora del Departamento de Salubridad que trataba de usar la antigüedad de un camión para e xplicar su gasto anual de reparaciones. Ese gasto probablemente consiste en dos partes: 1. Mantenimiento regular independiente de la antigüedad del camión: afinación, cambio de aceite y lubricación. Este gasto es captado en el término de la ordenada A de la ecuación 12-13. 2. Gastos por reparaciones debidos a la antigüedad: realineación de frenos, revisión de motor y transmisión, y pintura. Tales gastos tenderán a incrementarse con la antigüedad del camión, y son captados en el término BX de la recta de regresión de la población Y A BX de la ecuación 12-13. ¿Por qué los datos puntuales (o puntos) no caen exactamente en la recta de regresión?
Claro está que no todos los frenos de todos los camiones se desgastan al mismo tiempo, y algunos de los camiones funcionarán durante años sin revisiones de motor. Debido a esto,los puntos individuales probablemente no caerán exactamente en la recta de regresión de población. Algunos estarán arriba; otros, abajo. Así que, en vez de satisfacer Y A BX
[12-13]
los puntos individuales satisfarán la fórmula: Recta de regresión de la población con variación aleatoria Y A BX e Variación aleatoria e y su comportamiento
Inferencias sobre B a partir de b
[12-13a]
donde e es una perturbación o variación aleatoria de la recta de re gresión de la población. En promedio, e es igual a cero, porque las variaciones arriba de la recta de regresión poblacional se anulan con las variaciones abajo de esa recta. Podemos expresar la desviación estándar de estas variaciones individuales mediante e. El error estándar de la estimación se, entonces, es una estimación de e, la desviación estándar de las variaciones. Veamos con más cuidado las ecuaciones 12-13 y 12-13a. La ecuación 12-13a expresa los valores de Y (en este caso, el gasto anual de reparaciones) en términos de los v alores individuales de X (la antigüedad de un camión) y la variación aleatoria (e). Puesto que las variaciones arriba de la recta de regresión de población se anulan por aquéllas situadas abajo, sabemos que el valor esperado de e es cero, y vemos que si tuviéramos v arios camiones de la misma antigüedad, X, esperaríamos que el gasto anual de reparaciones para estos camiones fuera Y A BX. Esto nos muestra que la recta de regresión de la población (ecuación 12 -13) proporciona el valor medio de Y asociado con cada valor de X. Puesto que nuestra recta de regresión de la muestra, Yˆ a bX (ecuación 12-3), estima la recta de regresión de la población, Y A BX (ecuación 12-13), deberíamos poder usarla para hacer inferencias acerca de la recta de regresión de la población. Entonces, en esta sección haremos infe-
472
CAPÍTULO 12 Regresión simple y correlación
rencias respecto a la pendiente B de la ecuación de regresión “verdadera” (de toda la población), basadas en la pendiente b de la ecuación de regresión estimada a partir de una muestra de valores.
Pendiente de la recta de regresión de la población Diferencia entre la ecuación de regresión verdadera y la estimada a partir de observaciones de la muestra Prueba de hipótesis respecto a B
La recta de regresión se deriva de una muestra y no de una población entera. Como resultado,no podemos esperar que la ecuación de regresión, Y A BX (de toda la población), sea exactamente la misma que la ecuación estimada a partir de observaciones de la muestra, o Yˆ a bX. Aun así, podemos usar el valor de b, la pendiente que calculamos a partir de una muestra para probar hipótesis respecto al valor de B, la pendiente de la recta de regresión para toda la población. El procedimiento para probar una hipótesis respecto a B es similar a los procedimientos presentados en los capítulos 9 y 10, de pruebas de hipótesis. Para comprender este proceso, regresemos al problema de la relación entre los gastos anuales de investigación y desarrollo, y las ganancias. En la página 450, señalamos que b 2. El primer paso es encontrar algún valor para B con el fin de compararlo con b 2. Supongamos que durante un periodo extenso, la pendiente de la relación entre X y Y fue 2.1. Para probar si éste es todavía el caso, podríamos definir las hipótesis como H0: B 2.1 ← Hipótesis nula H1: B 2.1 ← Hipótesis alternativa
Error estándar del coeficiente de regresión
Entonces, de hecho estamos probando para saber si los datos actuales indican queB ha cambiado de su valor histórico de 2.1. Para encontrar el estadístico de prueba para B, es necesario primero encontrar el error estándar del coeficiente de regresión. Aquí, el coeficiente de regresión con el que estamos trabajando es b, así que el error estándar de este coeficiente se expresa como sb. La ecuación 12-14 presenta la fórmula matemática para sb: Error estándar de b se sb 2 X n X2
[12-14]
donde, • • • • • Estandarización del coeficiente de regresión
sb error estándar del coeficiente de regresión se error estándar de la estimación X valores de la variable independiente X media de los valores de la variable independiente n número de datos
Una vez calculado sb, podemos utilizar la ecuación 12-15 para estandarizar la pendiente de nuestra ecuación de regresión: Valor estandarizado de b b BH0 t sb en la que, • b pendiente de la regresión ajustada • BH0 pendiente real hipotética para la población • sb error estándar del coeficiente de regresión
[12-15]
12.4: Inferencias sobre parámetros de población
473
Como la prueba estará basada en la distribución t con n 2 grados de libertad, usamos t para denotar la estadística estandarizada. Un vistazo a la tabla 12-15 nos permite calcular los valores de X2 y nX2. Para obtener se, podemos tomar un método abreviado, de la siguiente manera: Cálculo de se
se
Y2 aY bXY n2
[12-7]
5,642 (20)(180) (2)(1,000) 62 42 4
10.5
3.24 ← Error estándar de la estimación Ahora podemos determinar el error estándar del coeficiente de regresión: Cálculo de sb
se sb 2 X n X2
[12-14]
3.24 2 200 (6)(5) 3.24 50 3.24 7.07 0.46 ← Error estándar del coeficiente de regresión Estandarización del coeficiente de regresión
Ahora usamos el error estándar del coeficiente de regresión para calcular el estadístico de prueba estandarizado: b BH0 t [12-15] sb 2.0 2.1 0.46 0.217 ← Coeficiente de regresión estandarizado
Conducción de la prueba de hipótesis
Suponga que tenemos razones para probar nuestra hipótesis al 10% de nivel de significancia. Como tenemos seis observaciones en nuestra muestra, sabemos que tenemos n 2 o 6 2 4 grados de libertad. Consultamos la tabla 2 del apéndice bajo la columna de 10% y bajamos hasta encontrar el renglón de 4 grados de libertad. Allí vemos que el valor t adecuado es 2.132. Puesto que nos interesa si b (la pendiente de la recta de regresión de la muestra) es significativamente diferente de B (la pendiente hipotética de la recta de regresión de la población), ésta es una prueba de dos colas, y los valores críticos son 2.132. El coeficiente de regresión estandarizado es 0.217, que está dentro de la región de aceptación de nuestra prueba de hipótesis. Por tanto,aceptamos la hipótesis nula de que B sigue siendo igual a 2.1. En otras palabras, no existe suficiente diferencia entre b y 2.1 para que concluyamos que B ha cambiado de su valor histórico. Por esto, sentimos que cada millón de dólares adicional gastado en investigación y desarrollo todavía aumentará las ganancias anuales aproximadamente $2.1 millones, como sucedía en el pasado.
474
CAPÍTULO 12 Regresión simple y correlación
Además de la prueba de hipótesis, también podemos construir un intervalo de confianza para el valor de B. De la misma forma que b es una estimación puntual de B, estos intervalos de confianza son estimaciones de intervalo de B. El problema que acabamos de resolv er, y para el cual hicimos una prueba de hipótesis, ilustrará el proceso de construir un interv alo de conf ianza. Encontramos que: b 2.0 sb 0.46 t 2.132 ← Nivel de significancia del l0% y 4 grados de libertad Intervalo de confianza para B
Con esta información, podemos calcular intervalos de confianza como éste: b t(sb) 2 (2.132)(0.46) 2 0.981 2.981 ← Límite superior b t(sb) 2 (2.132)(0.46) 2 0.981 1.019 ← Límite inferior
Interpretación del intervalo de confianza
En esta situación, entonces, estamos 90% seguros de que el valor verdadero de B cae entre 1.019 y 2.981, esto es, cada millón de dólares adicional gastado en investigación y desarrollo incrementa las ganancias anuales en una cantidad entre $1.02 millones y $2.98 millones.
En esta sección se usaron observaciones de la muestra para calcular b, la pendiente de la recta de regresión de la muestra, que después utilizamos para probar la hipótesis acerca de B, la pendiente verdadera de la recta de regresión de la población. Sugerencia: se usa se para calcular el error estándar del coeficiente de regresión tal como se usó la desviación estándar para calcular el error estándar de la media en el capítulo 7. Advertencia: cuando use su computadora para desarrollar una recta de regresión, no olvide preguntar, “¿es este coeficiente de regresión significaSUGERENCIAS Y SUPOSICIONES
tivamente diferente de cero?”. Si no lo es, no importa qué tan bien se vea la salida de la computadora, no ha demostrado una relación significativa entre las variables y deberá seguir buscando relaciones más útiles. Por ejemplo, si tiene un salón para bronceado con luz ultravioleta y tiene idea de que llegan más personas en días nublados, puede hacer una regresión del “número de visitas” con las “horas de sol”. Si lo hace y obtiene una recta de re gresión con una pendiente que no es significativa, estar al tanto del clima no le ayudará en su negocio.
Ejercicios 12.4 Ejercicios de autoevaluación EA
12-6
En finanzas, es de interés observar la relación entre Y, el rendimiento promedio de las acciones, y X, el rendimiento global del mercado. El coeficiente de la pendiente calculada por una regresión lineal se conoce como la beta de las acciones por los analistas de inversiones. Una beta mayor que 1 indica que la acción es relativamente sensible a cambios en el mercado, mientras que una beta menor que 1 indica que la acción es relativamente insensible. Para los datos siguientes, calcule la beta y pruebe si ésta es signif icativamente menor que 1. Use 0.05. Y (%) X (%)
EA
12-7
10 11
12 15
8 3
15 18
9 10
11 12
8 6
10 7
13 18
11 13
En un problema de regresión con un tamaño de muestra de 17, se encontró que la pendiente era 3.73 y el 2 error estándar de la estimación era 28.654. La cantidad (X 2 nX ) 871.56. a) Encuentre el error estándar del coeficiente de la pendiente de regresión.
12.4: Inferencias sobre parámetros de población
475
b) Construya un intervalo de confianza del 98% para la pendiente de la población. c) Interprete el intervalo de confianza de la parte b).
Conceptos básicos ■ 12-33
En un problema de regresión con un tamaño de muestra de 25, se encontró que la pendiente es 1.12 y el 2) 327.52. error estándar de la estimación, 8.516. La cantidad (X2 nX a) Encuentre el error estándar del coeficiente de pendiente de regresión. b) Pruebe si el coeficiente de regresión es diferente de 0 para un nivel de significancia de 0.05. c) Construya un intervalo de confianza del 95% para la pendiente de la población.
Aplicaciones ■ 12-34
■ 12-35
■ 12-36 ■ 12-37
Ned’s Beds está considerando contratar a una compañía de publicidad para estimular el negocio. Fred, el hermano de Ned, investigó el campo de la publicidad de camas y recolectó los siguientes datos de la cantidad de ganancias (Y) que logra una compañía de camas y la cantidad gastada en publicidad (X). Si Fred calcula la ecuación de regresión, la pendiente de la recta indicará el incremento en la ganancia por dólar gastado en publicidad. Ned hará la publicidad sólo si la ganancia de cada $1 in vertido excede $1.50. Calcule la pendiente de la ecuación de regresión y pruebe si es mayor que 1.50. Para un nivel de significancia de 0.05, ¿debe Ned hacer la publicidad? Cantidad de publicidad (X ), en cientos de dólares
3.60
4.8
9.70
12.60
11.50
10.90
Ganancia (Y ), en cientos de dólares
12.13
14.7
22.83
28.40
28.33
27.05
Cantidad de publicidad (X ), en cientos de dólares
14.60
18.2
3.70
9.80
12.40
16.90
Ganancia (Y ), en cientos de dólares
33.60
40.8
9.40
24.84
30.17
34.70
Un corredor de una empresa de inversión local ha estudiado la relación entre el incremento en el precio del oro (X) y las peticiones de sus clientes de liquidar las acciones ( Y). Del conjunto de datos basado en 15 observaciones, se encontró que la pendiente de la muestra era 2.9. Si el error estándar del coef iciente de la pendiente de regresión es 0.18, ¿existe una razón para pensar (a 0.05 de nivel de significancia) que la pendiente cambió de su valor anterior de 3.2? Para una muestra de 25, se encontró que la pendiente era 1.685 y el error estándar del coef iciente de regresión era 0.11. ¿Hay razones para creer que la pendiente ha cambiado de su valor anterior de 1.50? Utilice el nivel de significancia de 0.05. Los corredores de bienes raíces a menudo están interesados en v er cómo el avalúo de una casa varía de acuerdo con su tamaño. A continuación se muestran algunos datos del área (en miles de pies cuadrados) y el avalúo (en miles de dólares) para una muestra de 11 casas. Área Valor
■ 12-38
1.1 75
1.5 95
1.6 110
1.6 102
1.4 95
1.3 87
1.1 82
1.7 115
1.9 122
1.5 98
1.3 90
a) Estime la regresión de mínimos cuadrados para predecir el valor según el avalúo a partir del tamaño b) Generalmente, los corredores de bienes raíces sienten que el v alor de una casa sube 50,000 dólares por cada 1,000 pies cuadrados de área. Para esta muestra, ¿se cumple esta relación? Utilice 0.10. En 1969, una agencia de salud del gobierno estadounidense encontró que en cierto número de condados, la relación entre fumadores y muertes, por enfermedades del corazón, por cada 100,000 habitantes tenía una pendiente de 0.08. Un estudio reciente de 18 condados produjo una pendiente de 0.147 y un error estándar del coeficiente de pendiente de regresión de 0.032. a) Construya una estimación del intervalo de confianza del 90% para la pendiente de la recta de re gresión verdadera. ¿El resultado de este estudio indica que la pendiente verdadera ha cambiado?
476
CAPÍTULO 12 Regresión simple y correlación
■ 12-39
■ 12-40
b) Construya una estimación de intervalo de confianza del 99% para la pendiente de la recta de re gresión verdadera. ¿Indica el resultado de este estudio que la pendiente verdadera ha cambiado? La compañía local de teléfonos siempre ha supuesto que el número promedio de llamadas diarias aumenta en 1.5 por cada persona adicional en una casa. Se ha sugerido que la gente es más platicadora que lo que esto refleja. Se tomó una muestra de 64 casas y se calculó que la pendiente de regresión de Y (número promedio de llamadas diarias) sobre X (tamaño de la casa) era 1.8 con un error estándar del coeficiente de la pendiente de re gresión de 0.2. Pruebe si se hacen signif icativamente más llamadas por persona adicional de lo que la compañía de teléfonos supone; use 0.05. Establezca las hipótesis y la conclusión explícitas. Los funcionarios universitarios responsables de la admisión constantementebuscan variables con las cuales predecir los promedios de calificaciones de los aspirantes. Una variable de uso común es el promedio de calificaciones del bachillerato. Para una universidad, los datos anteriores indicaban que la pendiente era 0.85. Un pequeño estudio reciente de 20 estudiantes encontró que la pendiente de la muestra era 0.70 2) era igual que 0.25. Al nivel de y que el error estándar de la estimación era 0.60. La cantidad (X2 nX significancia de 0.01, ¿debería concluir la universidad que la pendiente ha cambiado?
Soluciones a los ejercicios de autoevaluación EA
12-6
X 11 15 3 18 10 12 6 7 18 13 X 113
113 X 11.3 10
Y 10 12 8 15 9 11 8 10 13 11 Y 107
XY 110 180 24 270 90 132 48 70 234 143 XY 1,301
X2 121 225 9 324 100 144 36 49 324 169 X 2 1,501
Y2 100 144 64 225 81 121 64 100 169 121 Y 2 1,189
107 Y 10.7 10
XY nX Y 1,301 10(11.3)(10.7) b 0.4101 2 2 X nX 1,501 10(11.3)2 10.7 0.4101(11.3) 6.0659 a Y bX (con software: 6.0660) se
Y2 aY bXY n2
1,189 6.0659(107) 0.4101(1,301) 0.8950 8 (con software: 0.8953) se 0.8950 sb 0.060 224 .1 X2 n X2 H1: B < 1 0.05 H0: B 1
b BH 0.4101 1 El estadístico estandarizado es t 0 9.83. Debido a que el valor crítico de sb 0.06 t(1.860) es mayor que 9.83, se rechaza H0. Las acciones son insensibles a los cambios en el mercado (la pendiente es significativamente 1). EA
12-7
28.654 se 0.9706 a) sb 2 2 X n X 871.5 6
12.5: Uso del análisis de regresión y correlación: limitaciones, errores y advertencias
477
b) El intervalo de confianza del 98% es b t(sb) 3.73 2.602(0.9706) 3.73 2.53 (1.20, 6.26). c) En el muestreo repetido, 98 de cada 100 intervalos construidos como se acaba de hacer contienen la pendiente verdadera desconocida de la población, B. Para una sola muestra, se puede decir que se tiene el 98% de seguridad de que el intervalo calculado contiene a B.
12.5 Uso del análisis de regresión y correlación: limitaciones, errores y advertencias Uso incorrecto de regresión y correlación
Los análisis de regresión y correlación son herramientas estadísticas que, cuando se utilizan de forma correcta, pueden prestar una ayuda significativa a las personas que toman decisiones. Desafortunadamente, con frecuencia se utilizan de manera incorrecta. Como resultado, los responsables de la toma de decisiones a menudo hacen predicciones ine xactas y toman decisiones menos que deseables. Con la esperanza de que los e vite, mencionaremos los errores más comunes cometidos en el uso de regresión y correlación.
Extrapolación más allá del rango de los datos observados Límites específicos del rango para el que se cumple la ecuación de regresión
Un error común es suponer que la línea de estimación puede aplicarse en cualquier intervalo de valores. Los administradores de hospitales pueden utilizar adecuadamente el análisis de regresión para predecir la relación entre costos por cama y niveles de ocupación para varios niveles. Algunos administradores, sin embargo, utilizan incorrectamente la misma ecuación de regresión para predecir los costos por cama para niveles de ocupación que son significativamente más altos que los empleados para estimar la línea de regresión. Aun cuando una relación se cumpla para el intervalo de puntos de la muestra, puede existir una relación completamente distinta para un intervalo diferente. Como resultado, estas personas toman decisiones sobre un conjunto de costos y encuentran que cambian drásticamente al incrementarse la ocupación (debido a factores como los costos de tiempos extra y limitaciones de capacidad). Recuerde que una ecuación de estimación es válida sólo para el mismo rango dentro del cual se tomó la muestra inicialmente.
Causa y efecto Los análisis de regresión y correlación no determinan la causa y el efecto
Otro error que podemos cometer al utilizar el análisis de regresión es suponer que un cambio en una variable es “ocasionado” por un cambio en la otra variable. Como se vio, los análisis de regresión y correlación no pueden, de ninguna manera, determinar la causa y el efecto. Si decimos que existe una correlación entre las calif icaciones de los estudiantes en la uni versidad y sus ingresos anuales cinco años después de graduarse, no estamos diciendo que uno ocasiona al otro. Más bien, otros factores pueden ser la causa de ambos,como los antecedentes sociológicos, las actitudes paternas, la calidad de los profesores, la efectividad del proceso de entrevista para el trabajo y las condiciones económicas de los padres, por nombrar sólo unos cuantos factores potenciales. Hemos utilizado extensamente el ejemplo relativo a los gastos de investigación y desarrollo y las ganancias anuales para ilustrar diversos aspectos del análisis de regresión. Pero, en realidad, es altamente improbable que las ganancias de un año dado estén ocasionadas por los gastos de ID en ese año. Ciertamente, sería temerario que el vicepresidente de ID sugiriera al director general que las ganancias podrían incrementarse de inmediato simplemente incrementando los gastos de ID. P articularmente en las industrias de alta tecnología, la actividad de ID puede usarse para explicar ganancias, pero una forma mejor de hacerlo sería predecir ganancias actuales en términos de gastos anteriores en investigación y desarrollo, así como en términos de condiciones económicas,dólares gastados en publicidad y otras variables. Esto puede hacerse utilizando las técnicas de regresión múltiple que se analizarán en el siguiente capítulo.
478
CAPÍTULO 12 Regresión simple y correlación
Uso de tendencias anteriores para estimar tendencias futuras Las condiciones cambian e invalidan la ecuación de regresión
Los valores de las variables cambian con el tiempo
Debemos reevaluar los datos históricos que se usarán para estimar la ecuación de re gresión. Las condiciones pueden cambiar y violar una o más de las suposiciones de las cuales depende nuestro análisis de regresión. Antes en este capítulo, hicimos notar que se supuso que la v arianza de la perturbación o variación e alrededor de la media es constante. En muchas situaciones, sin embargo, esta varianza cambia de un año a otro. Otro error que puede surgir del uso de datos históricos se refiere a la dependencia de algunas variables en el tiempo. Supongamos que una compañía utiliza el análisis de regresión para determinar la relación entre el número de empleados y el v olumen de producción. Si las observaciones usadas en el análisis se remontan a varios años, la recta de regresión resultante puede estar demasiado inclinada porque puede no reconocer el efecto de los cambios en la tecnología.
Interpretación errónea de los coeficientes de correlación y determinación Mala interpretación de r y r 2
Si r 0.6, es incorrecto afirmar que la ecuación de regresión “explica” el 60% de la variación total en Y. Más bien, si r 0.6, entonces r 2 debe ser 0.6 0.6 0.36. Sólo el 36% de la variación total se explica por la recta de regresión. El coeficiente de determinación se malinterpreta si usamosr2 para describir el porcentaje de cambio en la variable dependiente ocasionado por un cambio en la variable independiente. Esto es incorrecto porque r 2 es una medida sólo de qué tan bien una variable describe a la otra, no de qué tanto cambio en una variable es originado por la otra variable.
Descubrimiento de relaciones cuando no existen Relaciones que no tienen un vínculo común
Descubrimiento de cosas que no existen
Al aplicar el análisis de regresión, la gente algunas veces encuentra una relación entre dos variables que, de hecho, no tienen un vínculo común. Aun cuando una variable no “ocasiona” un cambio en la otra, piensan que debe haber algún factor común a ambas variables. Sería posible, por ejemplo, encontrar una relación estadística entre una muestra aleatoria del número de millas por galón consumidas por ocho carros distintos y la distancia de la tierra a cada uno de los otros ocho planetas. Pero dado que no existe en absoluto un vínculo común entre la distancia recorrida por galón y la distancia a otros planetas, esta “relación” no tendría sentido. A este respecto, si uno tuviera que desarrollar un gran número de regresiones entre muchos pares de variables, probablemente sería posible obtener algunas “relaciones”sugeridas bastante interesantes. Tal vez fuera posible, por ejemplo, encontrar una relación estadística entre su ingreso y la cantidad de cerveza consumida en Estados Unidos, o incluso entre la longitud de un tren (en carros) y el clima. Pero en ninguno de estos casos existe un factor común a ambas variables; por tanto, tales “relaciones” carecen de sentido. Como en la mayor parte de otras situaciones estadísticas, se requiere el conocimiento de las limitaciones inherentes a la técnica que se está empleando además de una gran dosis de sentido común para evitar llegar a conclusiones injustificadas.
Advertencia: los administradores inteligentes deben poder razonar para llegar a una conexión de sentido común entre dos variables aun antes de realizar el análisis de regresión sobre esas v ariables. Pero las re gresiones de computadora para bases de datos grandes,en ocasiones dan resultados sorprendentes en términos de relaciones no esSUGERENCIAS Y SUPOSICIONES
peradas. Eso no invalida para nada el sentido común; lo que sugiere es que esos mismos administradores inteligentes prueben de nuevo estas “sorpresas” con una nueva muestra para ver si la relación “sorprendente” continúa siendo cierta. Sugerencia: piense que lo que podría tener entre manos es un problema de datos, no uno que contradice el sentido común.
Ejercicio de base de datos computacional
479
Ejercicios 12.5 ■ 12-41 ■ 12-42 ■ 12-43 ■ 12-44
Explique por qué una ecuación de estimación es válida sólo en el intervalo de valores usados para su desarrollo. Explique la diferencia entre el coeficiente de determinación y el coeficiente de correlación. ¿Por qué debemos ser cautos al usar datos históricos para predecir tendencias futuras? ¿Por qué no debemos atribuir causalidad en una relación aun cuando e xista una fuerte correlación entre las variables o eventos?
Estadística en el trabajo Loveland Computers Caso: Regresión y correlación simples Loveland Computers estaba operando su línea de producción más seguido para ensamblar computadoras a partir de componentes ya disponibles, debido al crecimiento de la demanda de computadoras de alto rendimiento. Walter Azko tenía muy claro que esto era sólo ensamble, no “fabricación real”. A menudo bromeaba que la única parte exclusiva de Loveland Computers era la base plástica para el teclado,adornada con el logotipo de Loveland (la silueta de las Rocallosas, justo como se ve desde la ventana de la oficina de Walt). La base consta de dos partes que embonan a presión. Y ése era el siguiente problema canalizado a Lee Azko. Nancy Rainwater, la supervisora de producción, explicaba sus frustraciones a Lee. “Cuando empezamos a ensamblar este modelo el verano pasado, las bases del teclado parecían embonar perfectamente. Ahora tenemos que rechazar muchas de ellas porque las pequeñas pestañas que sostienen la parte alta de la base se rompen cuando el operador las presiona para unirlas. Cuando eso sucede, tenemos que tirar ambas piezas. No contamos con forma de reciclar ese tipo de plástico,y no parece correcto estar mandando todo eso al relleno sanitario, por no mencionar lo que le está haciendo a nuestros costos. “Hablé con compras e hice que Tyronza Wilson inspeccionara las bases al recibirlas. Las medidas de las pestañas
Ejercicio de base de datos computacional HH Industries Hal buscó a Laurel poco después de su regreso de las Rocallosas. “Realmente te ves descansada”, comentó. “Probablemente a mí también me vendrían bien unas vacaciones, pero me temo que tendré que esperar un tiempo. ¡La época más atareada del año está por lle gar! A propósito, quisiera que vieras algo por mí. Estamos en posición de contratar perso-
cumplen exactamente con las especificaciones, y la compañía de plásticos que nos las fabrica hizo cierto trabajo de laboratorio. Dicen que no encontraron defectos en el plástico que están usando. “Noté que teníamos más roturas temprano en la mañana, así que me pre gunté si esto sucedía simplemente porque la gente no tenía cuidado en la línea. Incluso lle gué a preguntarme si no sería porque los empleados no tuvieran la capacitación adecuada; pero el hecho es que esta gente tiene más experiencia ahora que el verano pasado, realmente no hemos tenido mucha rotación de personal. “Tyronza se preguntaba si esto sucede porque el plástico está demasiado frío. Eso lo explicaría todo si hubiera más defectos en invierno. Pero el almacén tiene un par de calentadores, así que no estoy segura de que eso sea correcto. Y yo realmente no puedo andar con un termómetro,verificando la temperatura de cada juego de partes para las bases antes de enviarlas a la línea, ¿o sí?”. “Tal vez haya otra forma de resolv er esto”, dijo Lee, recordando que había sido bastante simple obtener estadísticas climáticas del Servicio Meteorológico Nacional. “Registraste el número de bases desechadas por cada día de operación de la línea de producción, ¿o no?” Preguntas de estudio: ¿Cómo investigaría Lee la relación entre el clima y el problema con las bases de plástico? ¿“Probará” esto que la explicación de Tyronza es correcta?
nal adicional para el almacén, tanto aquí como en nuestras sucursales, sobre todo para tareas ‘no calif icadas’ como envío, recepción, empaque, despacho de pedidos, etc. Lo que quisiera saber es si hay alguna ‘fórmula’ que la estadística nos pudiera demostrar que es mejor que otras. Hemos tenido resultados mezclados en el pasado. Resulta caro en estos días contratar y capacitar gente, y nuestros costos de personal se reducen considerablemente cuando reducimos la rotación. ¿Crees poder ayudarnos?” “Suena como que se pudiera aplicar un poco de análisis de regresión”, dijo Laurel. “Hablaré con Gary, ya que estamos hablando de su personal, y veré qué puedo obtener.”
480
CAPÍTULO 12 Regresión simple y correlación
Hal sonrió. “Magnífico. Mi secretaria, Mary, tiene todos los archivos de personal sobre empleados actuales y anteriores. Sé que no somos una compañía enorme, pero al menos tenemos algunos datos puntuales para que analices.” Laurel se dirigió al almacén para ver a Gary. “Te haré saber qué encuentro”, le dijo por encima del hombro. Gary, ocupado con un embarque que acababa de llegar, no tenía mucho tiempo para platicar . Después de fijar una cita para la siguiente tarde, logró darle una idea de dónde empezar a Laurel. “Hemos tenido éxito con nuestro programa de contratación de jubilados. Son trabajadores estables, contentos de poder estar ocupados en algo, ¡y hay muchos aquí en Florida! Tal vez la edad podría ser el tipo de característica que buscas. Sin embargo, te prometo que antes de mañana pensaré más en ello.” “Gracias”, dijo Laurel. “Y siento haberte interrumpido.” “No hay problema”, Gary le sonrió brevemente y regresó a su tarea. Después de recabar los datos adecuados con Mary , Laurel se dirigió a su computadora. Para evaluar con precisión el factor de “periodo de empleo”,sabía que lo más probable era que tuviera que usar los datos de exempleados. Sin embargo, unos cuantos empleados actuales del almacén tenían v arios años con la compañía, y sentía que eran bastante importantes
Del libro de texto al mundo real
como para incluirlos. Después de un corto estudio de la información disponible, decidió incluir a los empleados actuales con cinco años o más de servicio. 1. Realice una regresión lineal de mínimos cuadrados sobre los datos proporcionados en los archivos CH12.XXX que se encuentra en el sitio www.pearsoneducacion.net/levin. ¿Cuál es el error estándar de la estimación? Suponiendo distribuciones normales alrededor de cada valor estimado y varianzas iguales en cada punto, calcule un intervalo de predicción aproximado del 95.5% ( 2 errores estándar) para la duración de empleo de un empleado potencial de 25 años de edad. Haga el mismo cálculo para un empleado potencial de 65 años. Dada esta información solamente, ¿podemos hacer algunas recomendaciones respecto a qué persona contratar? 2. ¿Cuáles son los coeficientes de determinación y correlación para la duración de empleo (en meses) contra edad al contratarlo (en años)? 3. Gary siempre ha sentido que (siendo los otros f actores iguales) cada año adicional de edad de un empleado potencial corresponde a un mes más de empleo en HH Industries. Pruebe la hipótesis de que la pendiente de la línea de regresión de población es 1.0 al nivel de significancia del 10%.
Aunque el uso de los métodos estadísticos es más común en las áreas de negocios, también tienen una importante función en el mundo de los deportes. Para los no iniciados, el fútbol americano se caracteriza por contrincantes fuertemente acorazados atacándose a toda velocidad y tirándose mutuamente al suelo. Debajo de esta apariencia de Neanderthal,radica un juego de notable complejidad, donde la estadística desempeña un papel importante. Los entrenadores usan las estadísticas para idear estrategias para juegos específicos, y los periodistas de deportes para clasificar equipos y predecir resultados de partidos.
el balón se deja caer y el número de pases interceptados. Estas estadísticas se llevan por individuo y por equipo. En los años sesenta, los Vaqueros de Dallas, de la Liga Nacional (NFL), comenzaron a utilizar datos de jue gos individuales para identificar las tendencias mostradas por los equipos ofensivos contrarios y para eliminar tendencias visibles en sus propios jugadores ofensi vos. Como uno podría sospechar, los Vaqueros fueron uno de los equipos más e xitosos durante ese periodo. Al revisar las estadísticas de sus contrincantes, el cuerpo técnico espera encontrar tendencias donde el equipo oponente use de manera consistente una jugada o una formación en particular . Una v ez identificado, los jugadores defensivos pueden alinearse para detener la jugada esperada. Hoy en día, los 28 equipos de la NFL utilizan métodos estadísticos para determinar jugadas defensivas y establecer estrategias ofensivas. Las estadísticas indi viduales también desempeñan un importante papel en el procedimiento de contratación de jugadores.
Implicaciones estratégicas Como cada jue go de fútbol americano empieza con un reinicio, los jugadores ofensivos y defensivos tienen una oportunidad de alinearse contra sus oponentes; por tanto, la planeación estratégica es esencial. Las estadísticas típicas incluyen la distancia promedio ganada por carrera, el porcentaje de pases completos, la distancia promedio ganada por pases completos recibidos con éxito,la distancia promedio al patear el balón,el número de veces que
Clasificación y predicciones Las predicciones automatizadas se han asociado con el fútbol americano durante más de 50 años. El “sistema” Williamsen fue ampliamente publicado en periódicos durante los años treinta.Williamsen utilizaba una técnica de mínimos cuadrados para clasificar equipos universitarios y predecir resultados. Las encuestas de servicio cablegráfico de agencias periodísticas nacionales comenzaron en 1936 después de la popularidad de los datos de Wi-
Aplicaciones de métodos estadísticos al fútbol americano
Repaso del capítulo
lliamsen. Estas encuestas, que clasifican a los 20 equipos universitarios más importantes, se siguen utilizando actualmente. Raymond Stefani, profesor de ingeniería eléctrica en la Universidad del Estado de California, proporcionó predicciones semanales sobre más de 11,000 jue gos, comenzando con la temporada 1970 -1971 y finalizando con la de 1980 -
481
1981; para ello utilizó un procedimiento de mínimos cuadrados. El empleo de mínimos cuadrados permitió a Stefani predecir el equipo ganador correcto en el 70% de esos juegos. Fuente: Raymond T. Stefani, “Applications of Statistical Methods to American Footba1l”, en Journal of Applied Statistics 14(1) (1987): 61-73.
Repaso del capítulo ● Términos introducidos en el capítulo 12 Análisis de correlación Técnica para determinar el grado en el que las variables se relacionan linealmente. Coeficiente de corr elación Raíz cuadrada del coef iciente de determinación. Su signo indica la dirección de la relación entre dos variables, directa o inversa. Coeficiente de determinación Medida de la proporción de variación en Y, la variable dependiente, que explica la recta de regresión, esto es, la relación de Y con la variable independiente. Diagrama de dispersión Gráfica de puntos en una cuadrícula; las coordenadas X y Y de cada punto corresponden a las dos mediciones hechas sobre un elemento particular de la muestra; el patrón de puntos ilustra la relación entre las dos variables. Ecuación de estimación Fórmula matemática que relaciona la variable desconocida con las variables conocidas en el análisis de regresión. Error estándar de la estimación Medida de la confiabilidad de la ecuación de estimación, que indica la variabilidad de los puntos observados alrededor de la recta de re gresión, esto es, de qué manera los valores observados difieren de sus valores pronosticados sobre la recta de regresión. Error estándar del coeficiente de regresión Medida de la variabilidad del coeficiente de regresión de la muestra alrededor del coeficiente de regresión verdadero de la población. Método de mínimos cuadrados Técnica para ajustar una línea recta a través de un conjunto de puntos de tal manera que la suma de los cuadrados de las distancias v erticales de los n puntos a la recta se minimiza.
Ordenada Y Constante para cualquier línea recta dada cuyo valor representa el valor de la variable Y cuando el valor de la variable X es 0. Pendiente Constante para cualquier línea recta dada cuyo valor representa cuánto cambia la v ariable dependiente con un cambio de una unidad de la variable independiente. Recta de regresión Una línea ajustada a un conjunto de datos para estimar la relación entre dos variables. Regresión Proceso general para predecir una variable a partir de otra mediante medios estadísticos utilizando datos históricos. Regresión múltiple Proceso estadístico mediante el cual se utilizan varias variables para predecir otra variable. Relación curvilínea Asociación entre dos variables que se describe por una línea curva. Relación directa Relación entre dos variables en donde, al aumentar el valor de la v ariable independiente, aumenta el valor de la variable dependiente. Relación inversa Relación entre dos variables en donde, al aumentar la variable independiente, la variable dependiente disminuye. Relación lineal Tipo particular de asociación entre dos v ariables que puede describirse matemáticamente mediante una línea recta. Variable dependiente La variable que tratamos de predecir en el análisis de regresión. Variables independientes Variable o v ariables conocidas en el análisis de regresión.
● Ecuaciones introducidas en el capítulo 12 ■
12-1
Y a bX Ecuación de una línea recta, donde la variable dependiente Y está “determinada” por la variable independiente X. La a se llama ordenada Y porque su valor es el punto en el cual la recta cruza el ejeY (el eje vertical). La b es la pendiente de la recta, esto es, dice cuánto cambia la v ariable dependiente Y con cada
482
CAPÍTULO 12 Regresión simple y correlación
■
12-2
■
12-3
■
12-4
■
12-5
■
12-6
cambio unitario de la variable independiente X. Tanto a como b son constantes numéricas, ya que para una línea recta dada, sus valores no cambian. Y2 Y1 b X2 X1 Para calcular la constante numérica b para una recta dada, encuentre el valor de las coordenadas, X y Y, para dos puntos que están en la recta. Las coordenadas para el primer punto son (X1, Y1,) y el segundo punto (X2, Y2). Recuerde que b es la pendiente de la recta. Yˆ a bX ˆ En el análisis de regresión, Y (Y gorro) simboliza los valores individuales de Y de los puntos estimados, esto es, los puntos que están en la línea de estimación. En consecuencia, la ecuación 12-3 es la ecuación para la línea de estimación. XY nX Y b X2 nX 2 La ecuación nos permite calcular la pendiente de la recta de regresión de mejor ajuste para cualquier conjunto de puntos de dos v ariables. Introdujimos dos nuevos símbolos en esta ecuación, XyY , que representan las medias de los valores de la variable independiente y la variable dependiente, respectivamente. Además esta ecuación contiene a n que, en este caso, es el número de puntos para los cuales se ajusta la recta de regresión. a Y bX Con esta fórmula podemos calcular la ordenada Y de la recta de regresión de mejor ajuste para un conjunto de puntos de dos variables. (Y Yˆ )2 se n2
El error estándar de la estimación , se, mide la variabilidad o dispersión de los v alores observados alrededor de la recta de re gresión. En efecto, indica la confiabilidad de la ecuación de estimación. El denominador es n 2 porque perdemos 2 grados de libertad (para los v alores a y b) al estimar la recta de regresión. ■
■
12-7
12-8
se
Y2 aY bXY n2
Como la ecuación 12-6 requiere cálculos tediosos, los estadísticos han ideado este método corto para encontrar el error estándar de la estimación. Al calcular los valores para b y a, ya se calcularon las cantidades de la ecuación 12-7, excepto Y2, es muy sencillo obtener. Variación de los valores de Y alrededor de la recta de regresión (Y Yˆ )2 La variación de los valores de Y en un conjunto de datos alrededor de la recta de regresión ajustada es una de dos cantidades a partir de las cuales se desarrolla el coef iciente de determinación de la muestra. La ecuación 12-8 indica cómo medir esta dispersión particular, que es la porción no explicada de la variación total de los valores de Y.
■
12-9
■ 12-10
Variación de los valores de Y alrededor de su propia media (Y y Y )2 Esta fórmula mide la variación total de un conjunto completo de valores de Y, esto es, la variación de estos valores de Y alrededor de su propia media. (Y Yˆ )2 2 r 1 2 (Y Y ) El coeficiente de determinación de la muestra, r 2, da la fracción de la variación total de Y que explica la recta de regresión. Es una importante medida del grado de asociación entreX y Y. Si el valor de r2 es 1, entonces la recta de regresión es un estimador perfecto. Si r 2 0, no existe correlación entre X y Y.
■ 12-11
2 aY bXY nY r 2 Y2 nY 2 Ésta es una ecuación de método corto para calcular r 2.
Repaso del capítulo
483
r r2 El coeficiente de correlación de la muestra se denota por r y se encuentra tomando la raíz cuadrada del coeficiente de determinación de la muestra. Es una segunda medida (además de r 2) que podemos utilizar para describir qué tan bien una variable explica a otra. El signo de r es igual al signo de b; indica la dirección de la relación entre las dos variables X y Y. ■ 12-13 Y A BX Toda recta de regresión de la población tiene la forma de la ecuación 12-13, donde A es la intersección Y para la población, y B es la pendiente. ■ 12-13a Y A BX e Como no todos los puntos individuales de un población están en la recta de regresión de la población, los puntos individuales satisfacen la ecuación 12-13a, en donde e es una variación aleatoria respecto a la recta de regresión de la población. En promedio, e es igual a cero, porque las variaciones arriba de la recta de regresión se cancelan con las variaciones que se encuentran abajo de ella. ■ 12-12
se sb 2 X n X2
■ 12-14
■ 12-15
Al manejar una muestra, podemos usar esta fórmula para obtener el error estándar del coeficiente de regresión, b. b BH t 0 sb Una vez calculado sb con la ecuación 12-14, podemos usar esta ecuación para estandarizar el valor observado del coeficiente de regresión. Después realizamos la prueba de hipótesis comparando este v alor estandarizado con el o los valores críticos de la tabla 2 del apéndice.
● Ejercicios de repaso ■ 12-45
Un consultor está interesado en el grado de precisión con que un nuevo índice de desempeño laboral mide lo que es importante para una corporación. Una forma de evrificarlo es analizar la relación entre el índice de evaluación del trabajo y el salario de un empleado. Se tomó una muestra de ocho empleados y se recabó información del salario (en miles de dólares) y el índice de e valuación del trabajo (1 a 10, donde 10 es la mejor calificación). Índice de evaluación del trabajo (X) Salario (Y)
■ 12-46
■ 12-48
7 25
8 33
4 15
7 28
5 19
5 20
6 22
a) Desarrolle la ecuación de estimación que mejor describa estos datos. b) Calcule el error estándar de la estimación, se, para estos datos. c) Calcule el coeficiente de determinación de la muestra, r 2, para estos datos. La Stork Foundation desea mostrar con estadísticas que, contrariamente a la creencia popular, las cigüeñas sí traen a los bebés. Para esto ha recolectado datos sobre el número de cigüeñas y el número de bebés (ambos en miles) en varias ciudades grandes de Europa central. Cigüeñas Bebés
■ 12-47
9 36
27 35
38 46
13 19
24 32
6 15
19 31
15 20
a) Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación de la muestra para estos datos. b) ¿Contradijo la ciencia estadística la creencia popular? (Llene los espacios en blanco.) Los análisis de regresión y correlación tratan la ______________ entre variables. El análisis de regresión, mediante ecuaciones ___________, nos permite ___________ una variable desconocida a partir de un conjunto de v ariables conocidas. La v ariable desconocida se llama v ariable ___________; las variables conocidas se denominan variables ___________. La correlación entre dos variables indica el ___________ de la relación lineal entre ellas y por tanto da una idea de qué tan bien el ___________ de regresión describe la relación entre las variables. Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación de la muestra para el ejercicio 12-14.
484
CAPÍTULO 12 Regresión simple y correlación
Business Week y U.S. News & World Report publican clasificaciones de las mejores 20 escuelas de administración. La clasificación global del Business Week se basa en clasificaciones obtenidas de estudiantes y compañías que reclutan maestros en administración. Junto con las clasificaciones, las publicaciones reportan información sobre el costo de obtener una maestría y los salarios iniciales promedio de los graduados. Utilice los datos de la tabla MR12-1 para responder los ejercicios 12-49 a 12-52. Tabla ER12-1 Escuela Estudios de clasificación de escuelas de administración
Northwestern Chicago Harvard Wharton Michigan Dartmouth Stanford Indiana Columbia North Carolina Virginia Duke MIT Cornell NYU UCLA Carnegie-Mellon Berkeley Vanderbilt Washington
Clasificación de 1992 BW USN&WR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
4 6 2 3 7 10 1 18 8 16 11 9 5 12 17 14 15 13 19 20
Clasificación de BW por estudiantes por compañías 3 10 12 15 9 1 5 6 18 8 2 7 14 4 16 11 23 13 19 24
1 4 3 2 6 12 7 8 5 11 15 14 10 17 13 16 9 19 20 18
Costo
Salario inicial
37,600 38,500 37,100 37,600 37,200 37,500 38,480 24,600 38,000 17,360 28,500 37,000 39,000 37,000 36,100 22,500 37,200 15,400 35,000 33,500
70,200 68,600 84,960 72,200 58,110 74,260 82,860 49,070 66,620 55,500 65,280 59,870 73,000 59,940 56,730 64,540 56,980 65,500 47,320 48,200
Fuente: Adaptado de Business Week (26 de octubre de 1992): 60 y U.S. News & World Report (23 de marzo de 1992): 66.
12-49 12-50 12-51 12-52
■ 12-53
Trace un diagrama de dispersión de la clasif icación USN&WR contra el costo del grado de la maestría. ¿Parece que las escuelas más caras obtienen mejores clasif icaciones? Calcule el coeficiente de correlación de muestra entre estas dos variables. ¿Existe una retribución por gastar más en una maestría? Graf ique un diagrama de dispersión del salario inicial contra el costo. Ajuste una ecuación de regresión a los datos y pruebe las hipótesis apropiadas respecto a su pendiente. ¿Los graduados de escuelas con clasificación más alta obtienen salarios iniciales más altos?Trace un diagrama de dispersión de salario inicial contra la clasif icación global de Business Week. Ajuste una ecuación de regresión a los datos y pruebe las hipótesis apropiadas respecto a su pendiente. ¿Qué tan fuerte es la relación entre los salarios iniciales y las clasificaciones? Calcule los coeficientes de determinación de la muestra entre los salarios iniciales y las tres clasificaciones de Business Week (globales, por estudiantes y por compañías). ¿Cuáles de estas clasif icaciones explican la mayor parte de la variación en salarios iniciales? “Nada triunfa como el éxito” es un antiguo adagio en el ne gocio de la publicidad. El presidente de una distribuidora de varias líneas de automóviles ha observado que los agentes de ventas que gana los bonos más altos al final de año son los que tienen mayor probabilidad de e xceder su cuota de ventas el año siguiente (y ganar otro bono alto). Bono el año pasado (miles de dólares) Ventas arriba de cuota este año
7.8 64
6.9 73
6.7 42
6.0 49
6.9 71
5.2 46
Bono el año pasado (miles de dólares) Ventas arriba de cuota este año
6.3 32
8.4 88
7.2 53
10.1 84
10.8 85
7.7 93
a) Desarrolle la recta que mejor se ajuste para describir estos datos. b) Calcule el error estándar de la estimación para la relación.
Repaso del capítulo
■ 12-54
c) Desarrolle un intervalo de confianza de aproximadamente el 90% para predecir las ventas arriba de la cuota para un miembro del personal que ganó un bono de $9,600 el año pasado. Para cada uno de los siguientes pares de diagramas diga cuál tiene un v alor más alto de r, el coeficiente de correlación y cuál es el signo de r. 2.
1.
1.
2.
(a)
(b)
1.
2.
1.
2.
(c)
■ 12-55
(d)
Un gerente de operaciones está interesado en predecir los costos C (en miles de dólares) con base en la cantidad de materia prima de entrada R (en miles de libras) para un fabricante de pantalones de mezclilla. Si la pendiente es significativamente mayor que 0.5 en los siguientes datos muestrales,entonces algo marcha mal con el proceso de producción y la maquinaria de la línea de ensamble debe ajustarse.Al nivel de significancia de 0.05, ¿debe ajustarse la maquinaria? Establezca e xplícitamente las hipótesis y una conclusión. C R
■ 12-56 ■ 12-57
12-58
12-59
485
10 25
7 20
5 16
6 17
7 19
6 18
Calcule el coeficiente de determinación de la muestra y el coef iciente de correlación de la muestra para el ejercicio 12-13. No debemos extrapolar para predecir valores fuera del intervalo de datos usados al construir la recta de regresión. La razón (elija una): a) La relación entre las variables puede no ser la misma para otros valores de las variables. b) La variable independiente puede no tener el efecto causal sobre la variable dependiente para estos valores. c) Los valores de las variables pueden cambiar con el tiempo. d) Tal vez no exista un vínculo común para explicar la relación. Utilice los datos de 50 áreas metropolitanas de Estados Unidos dados en la tabla MR11-2,al final del capítulo 11, para responder los ejercicios 12-58 a 12-60. A menudo, quienes planean la comercialización deben estimar la demanda geográfica de un producto de una compañía. La demanda no depende sólo del número de personas de una comunidad, sino también de la cantidad de dinero que tienen para gastar. La revista Sales & Marketing Management utiliza los datos de censos de Estados Unidos para estimar el “ingreso de compra efecti vo (ICE)” de hogares típicos estadounidenses en áreas metropolitanas del país. El ICE es la suma de sueldos y otros ingresos, menos impuestos y multas; en resumen, es una buena medida de lo que los economistas llaman “ingreso disponible”. La cantidad total de dinero disponible para gastar en una comunidad es aproximadamente proporcional al producto del ICE por la población. Calcule una nueva variable TD (POB ICE)/1,000. Calcule los coeficientes de determinación de la muestra entre VENTAS y POB y entre VENTAS y TD. ¿Cuál de estas variables explica una parte mayor de la variación en VENTAS? Ajuste una ecuación de regresión que use SOLA para predecir el valor de VENTAS. Encuentre un intervalo de predicción del 90% para las ventas totales al menudeo en un área metropolitana que tiene 20,000 casas con una sola persona. ¿Hasta qué punto sería útil este resultado para una compañía de productos de consumo que está desarrollando una nueva línea de cenas congeladas individuales?
486
CAPÍTULO 12 Regresión simple y correlación
12-60
■ 12-61
■ 12-62
■ 12-63
Suponga que desea saber si los negocios son mejores en comunidades con más gente mayor. Utilice una edad promedio para representar el número de personas mayores en cada área metropolitana, ajuste una ecuación de regresión para explicar VENTAS en términos de EDAD. ¿La pendiente de su regresión es significativamente mayor que cero? Con base en este análisis, ¿debe concluir que “los negocios no son mejores en comunidades con más personas mayores”? Explique su respuesta. Los economistas con frecuencia están interesados en estimar funciones de consumo, que se obtienen mediante la regresión del consumo Y sobre el ingreso X (para esta regresión, los economistas llaman a la pendiente la propensión marginal al consumo). Para una muestra de 25 familias, se calculó una pendiente de 0.87 y un error estándar del coeficiente de la pendiente de regresión de 0.035. Para esta muestra, ¿la propensión marginal a consumir disminuyó a menos que el estándar de 0.94? Utilice 0.05. Establezca las hipótesis explícitas y una conclusión. A diferencia del coeficiente de determinación, el coeficiente de correlación (escoja la respuesta correcta): a) Indica si la pendiente de la recta de regresión es positiva o negativa. b) Mide la fuerza de asociación entre las dos variables de manera más exacta. c) Nunca puede tener un valor absoluto mayor que 1. d) Mide el porcentaje de varianza explicado por la recta de regresión. ¿Son importantes las calificaciones en la universidad para ganar un buen sueldo? Un estudiante de estadística para la administración tomó una muestra aleatoria de sueldos iniciales y promedios de calificaciones en la universidad de algunos de sus amigos recién graduados. Los datos son los siguientes: Sueldo inicial (miles de dólares) Promedio de calificaciones
■ 12-64
12-66
30 3.0
30 3.5
24 2.0
27 3.0
33 3.5
21 2.5
27 2.5
a) Grafique estos datos. b) Desarrolle la ecuación de estimación que mejor describa los datos. c) Grafique la ecuación de estimación en el diagrama de dispersión del inciso a). Un arrendador está interesado en ver si las rentas de sus departamentos son las comunes. Para esto tomó una muestra aleatoria de 11 rentas y tamaños de departamentos en complejos de departamentos similares. Los datos son los siguientes: Renta Número de recámaras
■ 12-65
36 4.0
230 2
190 1
450 3
310 2
218 2
185 2
340 2
245 1
125 1
350 2
280 2
a) Desarrolle la ecuación de estimación que mejor describa estos datos. b) Calcule el coeficiente de determinación. c) Pronostique la renta para un departamento de dos recámaras. Muchas compañías pequeñas compran publicidad sin analizar sus efectos. La “guerra de las hamburguesas” (rivalidad sustancial de precios entre compañías de comida rápida) ha reducido las ganancias de Ethiopian Burguers en Santa Cruz, California, una cadena regional pequeña. El gerente de mercadotecnia intenta demostrar que “hay que gastar dinero para ganar dinero”. Gastar en publicidad en espectaculares, en su opinión, tiene resultados directos en las ventas. Se tienen registros de 7 meses: Gasto mensual en espectaculares (miles de dólares)
25
16
42
34
10
21
19
Rendimiento de las ventas mensuales (miles de dólares)
34
14
48
32
26
29
20
a) Desarrolle la ecuación de estimación que mejor describa estos datos. b) Calcule el error estándar de la estimación para esta relación. c) Para un mes con gastos de $28,000 en espectaculares, desarrolle un intervalo de confianza del 95% para las ventas mensuales esperadas ese mes. En 1992, las ventas totales de cereales para desayuno en Estados Unidos se estimaron en $3.842 miles de millones. Considere la siguiente información de los 10 cereales más v endidos. Encuentre la ecuación de mínimos cuadrados que usa el precio promedio al menudeo para predecir las participaciones en el mercado. ¿Cuál de las siguientes tres generalizaciones describe mejor la relación entre estas dos variables? a) Un precio menor incrementa las ventas. b) Un porcentaje de mercado mayor significa que se puede cobrar un precio más alto. c) El porcentaje de mercado no parece depender del precio.
Repaso del capítulo
Compañía
Cereal
Porcentaje de mercado
General Mills Kellogg’s General Mills Kellogg’s Kellogg’s Kellogg’s Kellogg’s Kellogg’s General Mills General Mills
Cheerios Frosted Flakes Honey Nut Cheerios Rice Krispies Corn Flakes Raisin Bran Frosted Mini-Wheats Froot Loops Lucky Charms Total
4.58 4.08 3.28 2.99 2.97 2.77 2.77 2.33 1.85 1.84
487
Precio Volumen promedio (millones de dólares) al menudeo 175.96 156.75 126.02 114.88 114.11 106.42 106.42 89.52 71.08 70.69
$2.18 $2.83 $2.99 $1.94 $1.47 $2.74 $2.91 $2.64 $3.15 $2.86
Fuente: Richard Gibson, “There Is No Way to Sugarcoat This News: Prices of Breakfast Cereals Are Going Up”, The Wall Street Journal (21 de enero de 1993): B1.
■ 12-67
■ 12-68
La autoridad aeronáutica estadounidense realizó un estudio de operaciones de aerolíneas, en 18 compañías, que reveló que la relación entre el número de pilotos empleados y el número de aviones en servicio tenía una pendiente de 4.3. Estudios anteriores indicaban que la pendiente de esta relación era 4.0. Si se calculó que el error estándar del coeficiente de pendiente de regresión es 0.17, ¿hay razones para creer, a un nivel de significancia de 0.05, que la pendiente verdadera ha cambiado? Dave Proffitt, estudiante de segundo año de la maestría en administración, elabora un estudio de compañías que entran a la bolsa de valores por primera vez. Tiene curiosidad por ver si existe o no una relación significativa entre el tamaño de la oferta (en millones de dólares) y el precio por acción. a) Dados los siguientes datos, desarrolle la ecuación de estimación que mejor ajuste los datos. Tamaño (millones de dólares) 108.00 4.40 3.50 3.60 39.00 68.40 7.50 5.50 375.00 12.00 51.00 66.00 10.40 4.00
■ 12-69
Precio (dólares) 12.00 4.00 5.00 6.00 13.00 19.00 8.50 5.00 15.00 6.00 12.00 12.00 6.50 3.00
b) Calcule el coeficiente de determinación de la muestra. ¿Debe Da ve usar esta ecuación de re gresión para pronosticar o debe buscar en otra parte variables explicativas adicionales? Un fabricante de teléfonos celulares está probando dos tipos de baterías para v er cuánto duran con una utilización normal. La siguiente tabla contiene los datos provisionales:
Horas de uso diario 2.0 1.5 1.0 0.5
Vida aproximada (meses) Litio Alcalina 3.1 4.2 5.1 6.3
1.3 1.6 1.8 2.2
a) Desarrolle dos ecuaciones de estimación lineales,una para pronosticar la vida del producto basada en el uso diario con las baterías de litio y otra para las baterías alcalinas.
488
CAPÍTULO 12 Regresión simple y correlación
■ 12-70
■ 12-71
b) Encuentre un intervalo de confianza para la estimación del 90% para la vida (en meses) con 1.25 horas de uso diario, para cada tipo de batería. ¿Puede la compañía asegurar algo respecto a qué batería proporciona la vida más larga según estos números? Se ha propuesto un estudio para investigar la relación entre el peso al nacer de bebés varones y su estatura de adultos. Usando los siguientes datos, desarrolle la ecuación de estimación de mínimos cuadrados. ¿Qué porcentaje de la variación en la altura de adultos explica esta recta de regresión? Estatura de adulto
5 lb, 8 oz 7 lb 6 lb, 4 oz 7 lb, 8 oz 8 lb, 2 oz 6 lb, 12 oz
5′9″ 6′ 5′6″ 5′11″ 6′1″ 5′10″
Muchos estudiantes universitarios se cambian de universidad el verano anterior al tercer año. Para ayudar a evaluar el potencial académico de quienes se cambian, Barbara Hoopes, la directora de admisiones del Piedmont College, realiza un análisis que compara los promedios globales de los estudiantes (PG) durante sus primeros dos años de uni versidad con los PG de sus últimos dos años, después del cambio. Usando los siguientes datos: PG de primero y segundo año PG de penúltimo y último año
■ 12-72
Peso al nacer
1.7 2.4
3.5 3.7
2.3 2.0
2.6 2.5
3.0 3.2
2.8 3.0
2.4 2.5
1.9 1.8
2.0 2.7
3.1 3.7
a) Calcule la ecuación de estimación de mínimos cuadrados que debe usar Hoopes para predecir el PG el tercero y último año de licenciatura de los estudiantes que se cambian al Piedmont College b) Hoopes no admitirá solicitantes de cambio de penúltimo año a menos que los interv alos de predicción del 90% para sus PG de penúltimo/último año definitivamente arriba de 2.0. ¿Admitirá un solicitante de cambio con un PG de primero/segundo de 2.5? Los salarios de muchos funcionarios públicos son menores que los que podrían tener con trabajos similares en la industria privada. The Wall Street Journal publicó los salarios de 10 procuradores generales y los comparó con el salario típico de un abogado al entrar a trabajar , en el mismo estado. Al responder a las siguientes preguntas, suponga que los salarios al entrar a trabajar son un b uen indicador de la tasa en el mercado para los abogados. Procurador general Vermont Wyoming Massachusetts Pennsylvania Georgia Washington California Illinois Nueva York Michigan
61,025 75,000 80,000 84,000 90,000 92,000 102,000 105,387 110,000 111,200
Abogado principiante 26,520 31,500 25,000 33,819 35,880 30,000 38,400 27,048 33,922 35,182
Fuente: “Paying States’ Attorneys General”, The Wall Street Journal (24 de julio de 1995): B8.
■ 12-73
a) ¿Varía el salario ofrecido al procurador general de acuerdo con la tasa para los abogados en cada estado? Pruebe, para 0.05, si la pendiente de la regresión ajustada es significativamente diferente de 0. b) ¿Qué proporción de variación en los salarios del procurador general se explica por la tasa para los abogados en el mercado lucrativo? c) Si un procurador general desea elevar el ingreso en todo el estado para los abogados, ¿ayudaría presionar por un aumento en el salario del procurador general? ¿Por qué sí o por qué no? Los costos de los viajes de negocios varían mucho entre las ciudades más importantes de Estados Unidos, como se muestra en la siguiente tabla. Un interventor corporativo intenta establecer tasas de viáticos que tomen en cuenta esta variación. ¿Debe el interventor considerar los costos tanto de renta de autos como de hoteles, o los costos de hoteles proporcionan suficiente información para calcular las tasas? (Sugeren-
Repaso del capítulo
489
cia: ajuste una regresión usando los costos de la renta de autos para xeplicar los costos de los hoteles. Después observe r 2.) Hotel (dólares) Atlanta Boston Chicago Cleveland Dallas Denver Detroit Houston Los Angeles Miami Minneapolis Nueva Orleans Nueva York Orlando Phoenix Pittsburgh St. Louis San Francisco Seattle Washington, D.C.
Renta de auto/día (dólares)
121 199 159 129 117 92 102 92 122 111 107 116 197 95 85 122 115 155 125 145
Fuente: “Dow Jones Travel Index”, The Wall Street Journal (4 de agosto de 1995): B7.
54 50 62 52 44 35 60 70 51 32 57 42 60 36 37 46 66 52 45 53
capítulo
13
REGRESIÓN MÚLTIPLE Y MODELADO
Objetivos •
•
•
Extender las técnicas de regresión del capítulo anterior, con el fin de manejar más de una variable explicativa para predecir una cantidad Examinar situaciones de toma de decisiones en las que se puede utilizar la regresión múltiple para hacer predicciones Interpretar los resultados obtenidos con paquetes de
• •
• •
computación que efectúan análisis de regresión Probar hipótesis acerca de las regresiones Utilizar las técnicas de modelado para incorporar variables cualitativas a las ecuaciones de regresión Aprender cómo ajustar curvas a los datos Entender la importancia de los residuos en el análisis de regresión
Contenido del capítulo 13.1 Análisis de regresión múltiple y correlación 492 13.2 Deducción de la ecuación de regresión múltiple 493 13.3 La computadora y la regresión múltiple 500 13.4 Inferencias sobre parámetros de población 508 13.5 Técnicas de modelado 521 • Estadística en el trabajo 534
• • • • •
Ejercicio de base de datos computacional 535 Del libro de texto al mundo real 535 Términos introducidos en el capítulo 13 536 Ecuaciones introducidas en el capítulo 13 537 Ejercicios de repaso 538
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
492
CAPÍTULO 13 Regresión múltiple y modelado
n fabricante de fotocopiadoras y procesadores de texto pequeños para oficina, paga a sus vendedores un salario base reducido más una comisión igual a un porcentaje fijo de las ventas de cada vendedor. Uno de ellos afirma que esta estructura salarial es discriminatoria para las mujeres. Los salarios base actuales de los nueve vendedores de la compañía son los siguientes:
U
Agentes de ventas hombres Meses como Salario base empleado (en miles de dóls.) 6 10 12 18 30
7.5 8.6 9.1 10.3 13.0
Agentes de ventas mujeres Meses como Salario base empleada (en miles de dóls.) 5 13 15 21
6.2 8.7 9.4 9.8
La directora de personal observa que el salario base depende de la antigüedad del vendedor en la compañía, pero no sabe cómo utilizar los datos obtenidos para darse cuenta de si depende también de su sexo y si existe discriminación hacia las mujeres. Los métodos que analizaremos en este capítulo le permitirán averiguarlo. ■
13.1 Análisis de regresión múltiple y correlación Uso de más de una variable independiente para estimar la variable dependiente
Ventaja de la regresión múltiple
Pasos de la regresión múltiple y la correlación
Como se mencionó en el capítulo 12, podemos utilizar más de una variable independiente para estimar la variable dependiente e intentar, de esta manera, aumentar la precisión de la estimación. Este proceso se conoce como análisis de regresión múltiple y correlación. Está basado en las mismas suposiciones y procedimientos que encontramos al utilizar la regresión simple. Considere al agente de bienes raíces que desea relacionar el número de casas que la firma vende en un mes con el monto de su publicidad mensual. Ciertamente,podemos encontrar una ecuación de estimación sencilla que relacione a estas dos variables. ¿Podemos también hacer más precisa nuestra ecuación incluyendo en el proceso de estimación el número de vendedores que emplea cada mes? Probablemente la respuesta sea sí. Y ahora, como deseamos utilizar tanto el número de agentes de ventas como los gastos de publicidad para predecir las ventas mensuales de casas, debemos utilizar regresión múltiple, no simple, para determinar la relación. La principal ventaja de la regresión múltiple es que nos permite utilizar más información disponible para estimar la variable dependiente. En algunas ocasiones, la correlación entre dos variables puede resultar insuficiente para determinar una ecuación de estimación conf iable; sin embargo, si agregamos los datos de más variables independientes, podemos determinar una ecuación de estimación que describa la relación con mayor precisión. La regresión múltiple y el análisis de correlación implican un proceso de tres pasos como el que usamos en la regresión simple. En este proceso: 1. Describimos la ecuación de regresión múltiple; 2. Examinamos el error estándar de regresión múltiple de la estimación, y 3. Utilizamos el análisis de correlación múltiple para determinar qué tan bien la ecuación de regresión describe los datos observados. Además, en la regresión múltiple podemos observar cada una de las v ariables independientes y probar si contribuyen de manera significativa a la forma en que la regresión describe los datos.
13.2: Deducción de la ecuación de regresión múltiple
Paquetes de software para regresión
493
En este capítulo, veremos cómo encontrar la ecuación de regresión de mejor ajuste para un conjunto dado de datos, y cómo analizar la ecuación obtenida. Aunque mostraremos cómo se puede hacer regresión múltiple a mano o con una calculadora, pronto será evidente que no conviene hacer ni siquiera un problema real pequeño a mano.Afortunadamente, hay muchos paquetes de software disponibles para hacer re gresiones múltiples y otros análisis estadísticos. Estos paquetes realizan las “operaciones numéricas” y lo dejan libre para concentrarse en el análisis del significado de la ecuación de estimación resultante. La regresión múltiple nos permitirá también ajustar tanto curv as como rectas. Usando las técnicas de variables ficticias, podemos incluir factores cualitativos, tales como el sexo, en nuestra regresión múltiple. Esta técnica nos permitirá analizar el problema de discriminación con que abrimos el presente capítulo. Las variables ficticias y las curvas de ajuste son solamente dos de las muchas técnicas de modelado que se pueden utilizar en la regresión múltiple para aumentar la precisión de nuestras ecuaciones de estimación.
Ejercicios 13.1 Conceptos básicos ■ ■ ■ ■
13-1 13-2 13-3 13-4
■ ■
13-5 13-6
¿Por qué utilizamos regresión múltiple en lugar de regresión simple al estimar una variable dependiente? ¿De qué manera se utilizarán las variables ficticias en nuestro estudio de regresión múltiple? ¿A qué se refiere la palabra múltiple en la frase regresión múltiple? La dueña de una cadena de almacenes desea predecir las ventas mensuales a partir del tamaño de la ciudad donde se localiza una tienda. Después de ajustar un modelo de re gresión simple, decide que desea incluir el efecto de la temporada del año en el modelo. ¿Se puede hacer esto utilizando las técnicas del presente capítulo? Describa los tres pasos del proceso de análisis de regresión múltiple y correlación. ¿Los procedimientos utilizados en la re gresión múltiple difieren mucho de los usados en re gresión simple? Explique su respuesta.
13.2 Deducción de la ecuación de regresión múltiple Un problema que ilustra la regresión múltiple
Símbolos adecuados
Veamos cómo podemos calcular la ecuación de re gresión múltiple. Por conveniencia, utilizaremos sólo dos variables independientes en el problema que trabajaremos en esta sección. Sin embar go, tenga en mente que en principio la misma clase de técnica se aplica a cualquier número de variables independientes. El Servicio Interno de Contrib uciones (IRS, Internal Revenue Service) de Estados Unidos está tratando de estimar la cantidad mensual de impuestos no pagados descubiertos por su departamento de auditorías. En el pasado,el IRS estimaba esta cantidad con base en el número esperado de horasde trabajo de auditorías de campo. En los últimos años, sin embargo, las horas de trabajo de auditorías de campo se han convertido en un pronosticador errático de los impuestos no pagados reales. Como resultado, la dependencia está buscando otro factor para mejorar la ecuación de estimación. El departamento de auditorías tiene un re gistro del número de horas que usa sus computadoras para detectar impuestos no pagados. ¿Podríamos combinar esta información con los datos referentes a las horas de trabajo de auditorías de campo y obtener una ecuación de estimación más precisa para los impuestos no pagados descubiertos cada mes? En la tabla 13-1 se presentan esos datos para los últimos 10 meses. En la regresión simple, X es el símbolo utilizado para los v alores de la variable independiente. En la regresión múltiple tenemos más de una variable independiente. Entonces, seguiremos usando X, pero agregaremos un subíndice (por ejemplo, X1, X2) para diferenciar cada una de las variables independientes.
494
CAPÍTULO 13 Regresión múltiple y modelado
Tabla 13-1 Datos de los registros de auditorías del IRS de los últimos 10 meses
Mes
X1 Horas de trabajo de auditoría de campo (dos ceros omitidos)
X2 Horas en computadora (dos ceros omitidos)
Y Impuestos reales no pagados descubiertos (millones de dólares)
45 42 44 45 43 46 44 45 44 43
16 14 15 13 13 14 16 16 15 15
29 24 27 25 26 28 30 28 28 27
Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre
Definición de las variables Ecuación de estimación para regresión múltiple
En este problema, X1 representa el número de horas de trabajo de auditoría de campo y X2 el número de horas en computadora. La variable dependiente, Y, será los impuestos reales no pagados descubiertos. Recuerde que en la regresión simple, la ecuación de estimación Yˆ a bX describe la relación entre las dos variables X y Y. En regresión múltiple, debemos extender esa ecuación, agregando un término para cada nueva variable. En símbolos, la ecuación 13-1 es la fórmula que se usa cuando tenemos dos variables independientes: Ecuación de estimación que describe la relación entre tres variables Yˆ a b1X1 b2X2
[13-1]
donde,
Visualización de la regresión múltiple
Uso del criterio de mínimos cuadrados para ajustar un plano de regresión
Yˆ valor estimado correspondiente a la variable dependiente • a ordenada Y • • X1 y X2 valores de las dos variables independientes • b1 y b2 pendientes asociadas con X1 y X2, respectivamente Podemos visualizar la ecuación de estimación simple como una recta en una gráf ica; de manera similar, podemos representar una ecuación de re gresión múltiple de dos v ariables como un plano, como el que ilustra la f igura 13-1. Se trata de una forma o f igura tridimensional, con profundidad, largo y ancho. Para obtener una idea intuitiva de esta forma tridimensional, visualice la intersección de los ejes Y, X1 y X2 como un rincón de una habitación. La figura 13-1 es una gráfica de los 10 puntos de la muestra y el plano alrededor del cual estos puntos parecen agruparse. Algunos están arriba del plano y otros abajo; del mismo modo que lospuntos estaban arriba y abajo de la recta de regresión simple. Nuestro problema consiste en decidir cuál de los planos que podemos dib ujar será el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mínimos cuadrados y localizaremos el plano que minimice la suma de los cuadrados de los errores,es decir, de las distancias de los puntos alrededor del plano a los puntos correspondientessobre el plano. Usemos nuestros datos y las siguientes tres ecuaciones para determinar los valores de las constantes numéricas a, b1 y b2. Ecuaciones normales Y na
b1X1
b2X2
[13-2]
b2X1X2
[13-3]
X1Y aX1
b1X12
X2Y aX2
b1X1X2 b2X22
[13-4]
13.1: Deducción de la ecuación de regresión múltiple
495
Punto observado
FIGURA 13-1 Y
Plano de regresión múltiple para 10 datos
Error
Punto correspondiente en el plano
Plano formado a través de los puntos de la muestra: ^ Y = a + b 1X 1 + b 2X 2
a = ordenada Y X1
X2
Obtención de a, b1 y b2 resolviendo las ecuaciones 13-2, 13-3 y 13-4
Podemos obtener a, b1 y b2, los coeficientes del plano de re gresión, resolviendo las ecuaciones 13-2, 13-3 y 13-4. Obviamente, la mejor manera de calcular todas las sumas implicadas en estas tres ecuaciones es elaborar una tabla para recolectar y organizar la información necesaria, como se hizo en la regresión simple. Esto se presenta en la tabla 13-2, para el problema del IRS. Ahora, utilizando la información de la tabla 13-2 en las ecuaciones 13-2,13-3 y 13-4, obtenemos tres ecuaciones con tres constantes desconocidas (a, b1 y b2): 272 10a
441b1 147b2
12,005 441a 19,461b1 6,485b2 4,013 147a 6,485b1 2,173b2 Cuando resolvemos estas tres ecuaciones de manera simultánea, obtenemos: a 13.828 b1 0.564 b2 1.099 Sustituyendo estos tres valores en la ecuación de regresión de dos variables (ecuación 13-l), obtenemos una ecuación que describe la relación entre el número de horas de trabajo en auditorías de campo, el número de horas de computación y los impuestos no pagados descubiertos por el departamento de auditorías: Yˆ a b1X1 b2X2 [13-1] 13.828 0.564X1 1.099X2
Uso de la ecuación de regresión múltiple para estimaciones
El departamento de auditorías puede utilizar esta ecuación mensualmente para estimar la cantidad de impuestos no pagados que va a descubrir. Suponga que el IRS desea aumentar la cantidad de detecciones de impuestos no pagados el siguiente mes. Como los auditores capacitados son escasos, el IRS no tiene la intención de contratar personal adicional. El número de horas de trabajo en auditorías, entonces, permanecerá en el nivel de oc-
496
CAPÍTULO 13 Regresión múltiple y modelado
Tabla 13-2 Valores para ajustar el plano de mínimos cuadrados, donde n 10
Y (1)
X1 (2)
X2 (3)
X1Y (2) (1)
X2Y (3) (1)
X1Y2 (2) (3)
X 12 (2)2
X 22 (3)2
Y2 (1)2
29 24 27 25 26 28 30 28 28 27 272 ↑ Y
45 42 44 45 43 46 44 45 44 43 441 ↑ X1
16 14 15 13 13 14 16 16 15 15 147 ↑ X2
1,305 1,008 1,188 1,125 1,118 1,288 1,320 1,260 1,232 1,161 12,005 ↑ X1Y
464 336 405 325 338 392 480 448 420 405 4,013 ↑ X2Y
720 588 660 585 559 644 704 720 660 645 6,485 ↑ X1X2
2,025 1,764 1,936 2,025 1,849 2,116 1,936 2,025 1,936 1,849 19,461 ↑ X 12
256 196 225 169 169 196 256 256 225 225 2,173 ↑ X 22
841 576 729 625 676 784 900 784 784 729 7,428 ↑ Y 2
27.2 Y X1 44.1 2 14.7 X
tubre, alrededor de 4,300 horas. Pero con el fin de aumentar las detecciones de impuestos no pagados, el IRS espera aumentar el número de horas en computadora a cerca de 1,600. Como resultado: X1 43 ← 4,300 horas de trabajo en auditorías de campo X2 16 ← 1,600 horas de tiempo en computadora Sustituyendo estos valores en la ecuación de re gresión para el departamento de auditorías, obtenemos: Yˆ 13.828 0.564 X1 1.099X2 Yˆ 13.828 (0.564)(43) (1.099)(16) Yˆ 13.828 24.252 17.584 Yˆ 28.008 ← Detecciones estimadas de $28,008,000 Interpretación de la estimación
a, b1 y b2 son los coeficientes de regresión estimados
Por tanto, en el pronóstico para no viembre, el departamento de auditorías espera encontrar una evasión de impuestos cercana a 28 millones de dólares, para esta combinación de factores. Hasta este punto nos hemos referido a a como la ordenada Y, y a b1 y b2 como las pendientes del plano de regresión múltiple. Pero, para ser más precisos, debemos decir que estas constantes numéricas son los coeficientes de regresión estimados. La constante a es el valor de Yˆ (en este caso, la estimación de los impuestos no pagados) si tanto X1 como X2 tienen valor cero. Los coeficientes b1 y b2 describen cómo los cambios en X1 y X2 afectan el valor de Yˆ. En el ejemplo del IRS, podemos dejar constante el número de horas de trabajo de auditoría de campo, X1, y cambiar el número de horas en computadora, X2. Cuando hacemos esto, el valor de Yˆ aumenta en $1,099,000 por cada 100 horas adicionales de tiempo en computadora. Del mismo modo, podemos fijar X2 y encontrar que por cada aumento adicional de 100 horas en el número de horas de trabajo de auditorías de campo, Yˆ aumenta $564,000.
Sugerencia: si tiene problemas para visualizar lo que hace en realidad la regresión múltiple, piense en el capítulo 12 y recuerde que una recta de regresión describe la relación entre dos variables. En la regresión múltiple, el plano de regresión, como el que se v e en la página anterior, describe la relación entre tres variables, Y, X1 y X2. El concepto del plano de re gresión adecuado es el mismo SUGERENCIAS Y SUPOSICIONES
que el de la recta de regresión adecuada, es decir, el que minimiza la suma de los cuadrados de las distancias v erticales entre los puntos de los datos y el plano,en este caso. Tal vez sea útil recordar que cada variable independiente puede ser responsable de cierta variación en la v ariable dependiente. La regresión múltiple es sólo una manera de usar varias variables independientes para hacer un pronóstico mejor de la variable dependiente.
13.2: Deducción de la ecuación de regresión múltiple
497
Ejercicios 13.2 Ejercicios de autoevaluación EA
EA
13-1
13-2
Dado el siguiente conjunto de datos: a) Calcule el plano de regresión múltiple. b) Prediga Y cuando X1 3.0 y X2 2.7. Y
X1
X2
25 30 11 22 27 19
3.5 6.7 1.5 0.3 4.6 2.0
5.0 4.2 8.5 1.4 3.6 1.3
Se ha reunido la siguiente información de una muestra aleatoria de arrendadores de departamentos en una ciudad. Se intenta predecir la renta (en dólares por mes) con base en el tamaño del departamento (número de habitaciones) y la distancia al centro de la ciudad (en millas). Renta (dólares)
Número de habitaciones
Distancia al centro
360 1,000 450 525 350 300
2 6 3 4 2 1
1 1 2 3 10 4
a) Calcule la ecuación de mínimos cuadrados que relacione mejor estas tres variables. b) Si alguien busca un departamento de dos habitaciones a 2 millas del centro,¿qué renta debe esperar pagar?
Conceptos básicos ■
■
13-7
13-8
Dado el siguiente conjunto de datos: a) Calcule el plano de regresión múltiple. b) Pronostique Y cuando X1 10.5 y X2 13.6. Y
X1
X2
11.4 16.6 20.5 29.4 7.6 13.8 28.5
4.5 8.7 12.6 19.7 2.9 6.7 17.4
13.2 18.7 19.8 25.4 22.8 17.8 14.6
Y
X1
X2
10 17 18 26 35 8
8 21 14 17 36 9
4 9 11 20 13 28
Para el siguiente conjunto de datos: a) Calcule el plano de regresión múltiple. b) Prediga Y cuando X1 28 y X2 10.
498
CAPÍTULO 13 Regresión múltiple y modelado
■
13-9
Dado el siguiente conjunto de datos: a) Calcule el plano de regresión múltiple. b) Pronostique Y cuando X1 1 y X2 4. Y
X1
X2
6 10 9 14 7 5
1 3 2 2 3 6
3 1 4 7 2 4
Aplicaciones ■ 13-10
■ 13-11
■ 13-12
Sam Spade, dueño y gerente general de Stationery Store, está preocupado por el comportamiento de las ventas de un modelo de reproductor de CD y casetes que se venden en la tienda. Se da cuenta de que existen muchos factores que podrían ayudar a explicarlo, pero cree que la publicidad y el precio son los principales determinantes. Sam reunió los siguientes datos: Ventas (unidades vend.)
Publicidad (núm. de anuncios)
Precio (dólares)
33 61 70 82 17 24
3 6 10 13 9 6
125 115 140 130 145 140
a) Calcule la ecuación de mínimos cuadrados para predecir las evntas a partir de la publicidad y el precio. b) Si la publicidad es 7 y el precio es $132, ¿qué ventas podría pronosticar? Un productor de comida para cerdos desea determinar qué relación existe entre la edad de un cerdo cuando empieza a recibir un complemento alimenticio de reciente creación, el peso inicial del animal y el aumento de peso en un periodo de una semana con el complemento alimenticio. La siguiente información es resultado de un estudio de ocho lechones: Número de lechón
X1 Peso inicial (libras)
X2 Edad inicial (semanas)
Y Aumento de peso
1 2 3 4 5 6 7 8
39 52 49 46 61 35 25 55
8 6 7 12 9 6 7 4
7 6 8 10 9 5 3 4
a) Calcule la ecuación de mínimos cuadrados que mejor describa estas tres variables. b) ¿Cuánto podemos esperar que un cerdo aumente de peso en una semana con el complemento alimenticio, si tenía nueve semanas de edad y pesaba 48 libras? Una estudiante graduada que quiere comprar un auto Neptune usado investigó los precios. Piensa que el año del modelo y el número de millas recorridas influyen en el precio de compra. Los datos siguientes corresponden a 10 autos con precio (Y) en miles de dólares, año (X1) y millas recorridas (X2) en miles. a) Encuentre (calcule) la ecuación de mínimos cuadrados que mejor relacione estas tres variables. b) La estudiante desea comprar un Neptune 1991 con alrededor de 40,000 millas recorridas. ¿Cuánto pronostica que pagará?
13.2: Deducción de la ecuación de regresión múltiple
■ 13-13
(Y) Precio (miles de dólares)
X1 Año
X2 Millas (miles)
2.99 6.02 8.87 3.92 9.55 9.05 9.37 4.2 4.8 5.74
1987 1992 1993 1988 1994 1991 1992 1988 1989 1991
55.6 18.4 21.3 46.9 11.8 36.4 28.2 44.2 34.9 26.4
499
La Reserva Federal de Estados Unidos realiza un estudio preliminar para determinar la relación entre ciertos indicadores económicos y el cambio porcentual anual en el producto interno bruto (PIB). Dos de los indicadores examinados son el monto del déficit del gobierno federal (en miles de millones de dólares) y el promedio industrial Dow Jones (el valor medio del año). Los datos correspondientes a seis años son: Y Cambio en el PIB
X1 Déficit federal
X2 Dow Jones
2.5 1.0 4.0 1.0 1.5 3.0
100 400 120 200 180 80
2,850 2,100 3,300 2,400 2,550 2,700
a) Encuentre (calcule) la ecuación de mínimos cuadrados que mejor describa los datos. b) ¿Qué porcentaje de cambio en el PIB se esperaría en un año en el cual el déf icit federal fue 240,000 millones de dólares y el promedio Dow Jones fue 3,000?
Soluciones a los ejercicios de autoevaluación EA
13-1
a)
Y
X1
X2
X1Y
X2Y
X1X2
X 12
X 22
Y2
25 30 11 22 27 19 3 1 4
3.5 6.7 1.5 0.3 4.6 2.0 8 1 .6
5.0 4.2 8.5 1.4 3.6 1.3 4 2 .0
87.5 201.0 16.5 6.6 124.2 38.0 7 4 3 .8
125.0 126.0 93.5 30.8 97.2 24.7 9 4 7 .2
17.5 28.14 12.75 0.42 16.56 2.60 7 7 .9 7
12.25 44.89 2.25 0.09 21.16 4.00 4 8 .6 4
25.00 17.64 72.25 1.96 12.96 1.69 3 1 1 .5 0
625 900 121 484 729 361 ,2 3 2 0
Las ecuaciones 13-2, 13-3 y 13-4 se convierten en Y na
b1X1
b2 X2
134
b1X21
b2X1X2
473.8 18.6a 84.64b1 77.97b2
X2Y aX2 b1X1X2 b2 X22
497.2 24.0a 77.97b1 131.50b2
X1Y aX1
6 a 18.6b1 24.0 b2
Al resolver estas ecuaciones de manera simultánea se obtiene
a 20.3916
b1 2.3403
b2 1.3283 ˆ De modo que la ecuación de regresión es Y 20.3916 2.3403X1 1.3283X2. b) Con X1 3.0 y X2 2.7, Yˆ = 20.3916 2.3403(3.0) 1.3283(2.7) 28.83.
500
CAPÍTULO 13 Regresión múltiple y modelado
EA
13-2
a) En este problema, Y renta, X1 número de habitaciones, X2 distancia al centro. Y
X1
X2
360 1,000 450 525 350 300 2,985
2 6 3 4 2 1 18
1 1 2 3 10 4 21
X1Y
X2Y
X1X2
X 12
X 22
720 6,00 1,350 2,100 700 300 11,170
360 1,000 900 1,575 3,500 1,200 8,535
2 6 6 12 20 4 50
4 36 9 16 4 1 70
1 1 4 9 100 16 131
Y2 129,600 1,000,000 202,500 272,625 122,500 90,000 1,820,225
Las ecuaciones 13-2, 13-3 y 13-4 se convierten en Y na
b1X1
X1Y aX1
b1X21
2,985 6a 18b1 21b2
b2X2 b2X1X2
X2Y aX2 b1X1X2
11,170 18a 70b1 50b2
b2X22
8,535 21a 50b1 131b2
Al resolver estas ecuaciones simultáneas, se obtiene a 96.4581
b1 136.4847
b2 2.4035
De manera que la ecuación de regresión es Yˆ 96.4581 136.4847X1 2.4035X2 b) Cuando el número de habitaciones 2 y la distancia al centro 2, Yˆ 96.4581 136.4847(2) 2.4035(2) $365
13.3 La computadora y la regresión múltiple Inconveniencia del cálculo de regresiones a mano
En el capítulo 12 y hasta donde vamos de éste, hemos presentado problemas simplificados y muestras de tamaño pequeño. Después del ejemplo de la sección anterior, probablemente usted haya llegado a la conclusión de que no está interesado en la regresión si tiene que hacer los cálculos a mano. De hecho, conforme aumenta el tamaño de las muestras y crece el número de variables independientes para la regresión, hacer los cálculos, incluso con la ayuda de una calculadora de bolsillo se convierte en algo muy inconveniente. Sin embargo, como administradores, debemos manejar problemas complejos que requieren muestras más grandes y variables independientes adicionales. Como ayuda para resolver estos problemas más detallados utilizaremos una computadora que nos permitirá realizar un gran número de cálculos en poco tiempo. Suponga que tenemos no una, ni dos variables independientes, sino un número k de ellas: X1, X2, . . . , Xk. Como antes, sea n el número de datos que se tienen. La ecuación de regresión que intentamos estimar es: Ecuación de estimación de regresión múltiple Yˆ a b1X1 b2X2 . . . bkXk
Demostración de la regresión múltiple en la computadora
[13-5]
Ahora veremos cómo podemos utilizar una computadora para estimar los coeficientes de regresión. Para demostrar cómo una computadora maneja el análisis de regresión múltiple, tomemos el problema del Servicio Interno de Contribuciones (IRS) de la sección anterior. Suponga que el departamento de auditorías agrega a su modelo la información correspondiente a las recompensas para los informantes. La dependencia desea incluir esta tercera variable independiente, X3, debido a que sien-
13.3: La computadora y la regresión múltiple
Tabla 13-3 Factores relacionados con el descubrimiento de impuestos no pagados
Uso de Minitab para resolver problemas de regresión múltiple
Mes
Horas en auditorías de campo (cientos) X1
Horas en computadora (cientos) X2
Recompensa a informantes (miles) X3
Impuestos no pagados descubiertos (millones) Y
Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre
45 42 44 45 43 46 44 45 44 43
16 14 15 13 13 14 16 16 15 15
71 70 72 71 75 74 76 69 74 73
29 24 27 25 26 28 30 28 28 27
501
te que existe cierta relación entre estas recompensas y el descubrimiento de impuestos no pagados. En la tabla 13-3 se registró la información de los últimos 10 meses. Para resolver este problema, la división de auditoría usó el procedimiento de re gresión múltiple de Minitab. Por supuesto, todavía no sabemos cómo interpretar la solución que proporciona, pero como veremos, la mayor parte de los números dados en la solución corresponden muy de cerca con los estudiados en el contexto de regresión simple.
Salida de Minitab Salida del programa Minitab
Una vez que se introducen los datos y se eligen las variables dependiente e independientes, Minitab calcula los coeficientes de regresión y varios estadísticos asociados con la ecuación de regresión. Se verá la salida del programa para el problema del IRS. La figura 13-2 da la primera parte de la salida. 1. La ecuación de regresión. De los números dados en la columna Coef, se puede leer la ecuación de estimación: Yˆ a b1X1 b2X2 b3X3 [13-5] 45.796 0.597X1 1.177X2 0.405X3
Búsqueda e interpretación de la ecuación de regresión
FIGURA 13-2 Salida de Minitab para la regresión del Servicio Interno de Contribuciones
Podemos interpretar esta ecuación en una forma similar a la de la ecuación de re gresión de dos variables, en la página 484. Si se mantienen constantes el número de horas de auditorías de campo, X1, y el número de horas de computadora, X2, y se cambian las recompensas a los informantes, X3, entonces el valor de Yˆ aumentará $405,000 por cada $1,000 pagados a los informantes. De igual manera, al mantener X1 y X3 constantes, se ve que por cada 100 horas adicionales de tiempo de computadora Yˆ aumentará $1,177,000. Por último, si se dejan cons-
Análisis de regresión La ecuación de regresión es DESCUBRE — 45.0 0.597 AUDIT 1.18 COMPUTADORA 0.405 RECOMPENSA Pronosticador Constante AUDIT COMPUTADORA RECOMPENSA s 0.2861
Coef 45.796 0.50697 1.17684 0.40511
DesvEst 4.878 0.08112 0.08407 0.04223
R-sq 98.3%
Cociente-t 9.39 7.36 14.00 9.59
p 0.000 0.000 0.000 0.000
502
CAPÍTULO 13 Regresión múltiple y modelado
tantes X2 y X3, se estima que 100 horas adicionales dedicadas a auditorías de campo descubrirán $597,000 adicionales de impuestos no pagados. Observ e que se redondearon los v alores proporcionados por la regresión dada por Minitab (figura 13-2). Suponga que, en noviembre, el IRS intenta dejar las horas de trabajo en auditorías de campo y las horas en computadora en sus niveles de octubre (4,300 y 1,500), pero decide aumentar las recompensas pagadas a los informantes a $75,000. ¿Cuánto de impuestos no pagados esperan descubrir en noviembre? Sustituyendo estos valores en la ecuación de regresión estimada, obtenemos: Yˆ 45.796 0.597X1 1.177X2 0.405X3 Yˆ 45.796 0.597(43) 1.177(15) 0.405(75) Yˆ 45.796 25.671 17.655 30.375 Yˆ 27.905 ← Descubrimientos estimados, $27,905,000 De modo que el departamento de auditorías espera descubrir aproximadamente $28 millones de evasión de impuestos en noviembre. Medición de la dispersión alrededor del plano de regresión múltiple; uso del error estándar de la estimación
2. Una medida de dispersión, el error estándar de la estimación de la regresión múltiple. Ya que hemos determinado la ecuación que relaciona a nuestras tres v ariables, necesitamos una medida de la dispersión alrededor de este plano de regresión múltiple. En la regresión simple, la estimación es más precisa conforme el grado de dispersión alrededor de la regresión es menor. Lo mismo es cierto para los puntos de la muestra que se encuentran alrededor del plano de regresión múltiple. Para medir esta variación, debemos utilizar de nuevo la medida conocida como error estándar de la estimación: Error estándar de la estimación se
ˆ
2
Y – Y ) nk1
[13-6]
donde, • • • •
Intervalos de confianza para Yˆ
Y valores muestrales de la variable dependiente Yˆ valores correspondientes estimados con la ecuación de regresión n número de puntos de la muestra k número de variables independientes ( 3 en nuestro ejemplo)
El denominador de esta ecuación indica que en la regresión múltiple con k variables independientes, el error estándar tiene n k 1 grados de libertad. Esto se debe a que los grados de libertad se reducen de n en k 1 constantes numéricas, a, b1, b2, …, bk, que se estimaron a partir de la misma muestra. Para calcular se, observamos los errores individuales (Y Yˆ ) en el plano de regresión ajustado, los elevamos al cuadrado, calculamos su media (dividiendo entre n k 1 en lugar de n) y tomamos la raíz cuadrada del resultado. Debido a la forma en que se calcula, se se conoce a veces como raíz del error cuadrático medio [o raíz de mse (mean-square error)]. De la salida de Minitab, que usa s en lugar de se para denotar el error estándar, vemos que la raíz de mse en el problema del Servicio Interno de Contribuciones es 0.286, es decir, $286,000. Como en el caso de la regresión simple, podemos utilizar el error estándar de la estimación y la distribución t para formar un intervalo de confianza alrededor de nuestro valor estimado Yˆ. En el problema de la evasión de impuestos, para 4,300 horas de trabajo en auditorías de campo, 1,500 horas en computadora y $75,000 de pago a informantes,Yˆ es $27,905,000 como estimación de impuestos no pagados descubiertos, y se es $286,000. Si deseamos construir un intervalo de conf ianza del 95% alrededor de esta estimación de $27,905,000, miramos en la tabla 2 del apéndice, en la columna del 5% y localizamos ahí el renglón correspondiente a
13.3: La computadora y la regresión múltiple
503
n k 1 10 3 1 6 grados de libertad. El valor apropiado de t para nuestra estimación del intervalo es de 2.447. En consecuencia, podemos calcular los límites de nuestro intervalo de confianza como sigue: Yˆ t(se) 27,905,000 (2.447)(286,000) Yˆ t(se) 27,905,000 699,800 Yˆ t(se) 28,604,800 ← Límite superior
Yˆ t(se) 27,905,000 (2.447)(286,000) Yˆ t(se) 27,905,000 – 699,800 Yˆ t(se) 27,205,200 ← Límite inferior Interpretación del intervalo de confianza
Valor de variables adicionales
Uso del coeficiente de determinación múltiple
Con un nivel de confianza del 95%, el departamento de auditorías puede sentirse se guro de que los descubrimientos reales estarán en este intervalo, que va de $27,205,200 a $28,604,800. Si el IRS desea usar un ni vel de confianza menor, como 90%, puede reducir el intervalo de valores para la estimación de descubrimientos de impuestos no pagados. Igual que con la regresión simple, podemos utilizar la distribución normal estándar (tabla 1 del apéndice) para aproximar la distribución t siempre que los grados de libertad ( n menos el número de coeficientes de regresión estimados) sea un número mayor que 30. Al añadir la tercera variable independiente (recompensas a informantes), ¿mejoró nuestra regresión? Como se mide la dispersión de los datos alrededor del plano de re gresión, valores menores de se deberían indicar mejores regresiones. Para la regresión de dos variables que hicimos con anterioridad en este mismo capítulo, se resultó ser 1.076. Como al agregar la tercera variable se se redujo a 0.286, vemos que sí mejoró el ajuste de la regresión en este ejemplo. Sin embargo, en general no es cierto que al agregar variables siempre se reduzca se. 3. El coeficiente de determinación múltiple. Al estudiar el análisis de correlación simple, medimos la fuerza de la relación entre dos variables, utilizando el coeficiente de determinación de la muestra, r2. Este coeficiente de determinación es la fracción de la v ariación total de la variable dependiente Y que se explica con la ecuación de estimación. Similarmente, en la correlación múltiple mediremos la fuerza de la relación entre tres v ariables utilizando el coeficiente de determinación múltiple, R2, o su raíz cuadrada, R (el coeficiente de correlación múltiple). Este coeficiente de determinación múltiple es también la fracción que representa la porción de la variación total de Y que “explica” el plano de regresión. Note que la salida del programa da el valor 98.3% para R2. Esto nos dice que las tres variables independientes explican el 98.3% de la v ariación total de impuestos no pagados descubiertos. Para la regresión de dos variables hecha antes, R2 es sólo 0.729, así que las horas de trabajo en auditoría de campo y las horas en computadora e xplican el 72.9% de la variación; agregar las recompensas a los informantes explica el 25.4% restante de la variación. Todavía no hemos e xplicado los números en las columnas etiquetadas con DesvEst, Cociente t y p de la figura 13-2. Estos números se utilizarán para hacer inferencias acerca del plano de regresión de la población, tema que se tratará en la sección 13-4.
Ya nadie calcula regresiones a mano; hay otras cosas más interesantes en qué ocupar nuestro tiempo. Se explicó la técnica calculando las soluciones a mano para que no tenga que pensar en su computadora como en una “caja negra” que hace muchas cosas útiles que no puede explicar. Sugerencia: el valor real de usar la computadora para calcular regresiones múltiples es que puede manejar muchas variables independientes y obtener una mejor ecuaSUGERENCIAS Y SUPOSICIONES
ción de estimación, que puede medir si agregar otra variable independiente realmente mejora los resultados y que es posible observar con rapidez el comportamiento de R2, que indica la proporción de la variación total de la variable dependiente que se explica con las variables independientes. La computadora hace todo el trabajo tedioso —sin quejarse— y le deja tiempo para el trabajo más importante de comprender los resultados y usarlos para tomar mejores decisiones.
504
CAPÍTULO 13 Regresión múltiple y modelado
Ejercicios 13.3 Ejercicios de autoevaluación EA
13-3
Pam Schneider posee y opera un despacho de contadores en Ithaca,Nueva York. Ella piensa que sería útil predecir el número de solicitudes urgentes de devolución de impuestos que le pedirán durante el ajetreado periodo del 1 de marzo al 15 de abril, para poder planear mejor sus necesidades de personal durante esta época. Tiene la hipótesis de que varios factores pueden ser útiles para su pronóstico. Los datos de estos factores y el número de solicitudes urgentes de devolución de impuestos de años pasados son:
X1 Índice económico
X2 Población residente en un radio de una milla desde la oficina
X3 Ingreso promedio en Ithaca
Y Número de solicitudes de devolución urgentes (1 de marzo a 15 de abril)
99 106 100 129 179
10,188 8,566 10,557 10,219 9,662
21,465 22,228 27,665 25,200 26,300
2,306 1,266 1,422 1,721 2,544
a) Use el siguiente resultado de Minitab para determinar la ecuación de regresión más adecuada para estos datos: La ecuación de regresión es Y = - 1275 + 17.1 X1 + 0.541 X2 - 0.174 X3 Pronosticador Constante X1 X2 X3 s = 396.1
Coef -1275 17.059 0.5406 -0.1743
DesvEst 2699 6.908 0.3144 0.1005
Cociente-t -0.47 2.47 1.72 -1.73
p 0.719 0.245 0.335 0.333
R-sq = 87.2%
b) ¿Qué porcentaje de la variación total del número de solicitudes urgentes de devolución de impuestos explica esta ecuación? c) Para este año, el índice económico es 169; la población residente en un radio de una milla desde la oficina es 10,212 habitantes, y el ingreso promedio en Ithaca es $26,925. ¿Cuántas solicitudes urgentes de devolución de impuestos debe Pam esperar procesar entre el 1 de marzo y el 15 de abril?
Conceptos básicos ■ 13-14
Dado el siguiente conjunto de datos, utilice el paquete de software que tenga disponible para encontrar la ecuación de regresión de mejor ajuste y responda a lo siguiente: a) ¿Cuál es la ecuación de regresión? b) ¿Cuál es el error estándar de la estimación? c) ¿Cuál es el valor de R2 para esta regresión? d) ¿Cuál es el valor pronosticado para Y cuando X1 5.8, X2 4.2 y X3 5.1? Y
X1
X2
X3
64.7 80.9 24.6 43.9 77.7 20.6 66.9 34.3
3.5 7.4 2.5 3.7 5.5 8.3 6.7 1.2
5.3 1.6 6.3 9.4 1.4 9.2 2.5 2.2
8.5 2.6 4.5 8.8 3.6 2.5 2.7 1.3
13.3: La computadora y la regresión múltiple
■ 13-15
505
Dado el siguiente conjunto de datos, utilice el paquete de software que tenga a su disposición para encontrar la ecuación de regresión de mejor ajuste y responda a lo siguiente: a) ¿Cuál es la ecuación de regresión? b) ¿Cuál es el error estándar de la estimación? c) ¿Cuál es el valor de R2 para esta regresión? d) Dé un intervalo de confianza para la estimación del 95% para el valor Y cuando los valores X1, X2, X3 y X4 son 52.4, 41.6, 35.8 y 3, respectivamente. X1
X2
X3
X4
Y
21.4 51.7 41.8 11.8 71.6 91.9
62.9 40.7 81.8 41.0 22.6 61.5
21.9 42.9 69.8 90.9 12.9 30.9
2 5 2 4 8 1
22.8 93.7 64.9 19.2 55.8 23.1
Aplicaciones ■ 13.16
■ 13-17
Las estaciones de policía en Estados Unidos están interesadas en predecir el número de arrestos esperados que deberán procesar cada mes para programar mejor a los empleados de oficina. En los datos históricos, el número promedio de arrestos (Y) cada mes tiene influencia del número de oficiales en la fuerza policiaca (X1), la población de la ciudad en miles (X2) y el porcentaje de personas desempleadas en la ciudad en miles (X3). Los datos de estos factores en 15 ciudades se presentan en la tabla. a) Utilice el paquete de software que tenga disponible para determinar la ecuación de regresión que mejor se ajuste a estos datos. b) ¿Qué porcentaje de la variación total en el número de arrestos (Y) explica esta ecuación? c) El departamento de policía de ChapelBoro desea pronosticar el número de arrestos mensuales. ChapelBoro tiene una población de 75,000 habitantes, 82 elementos en su fuerza policiaca y un porcentaje de desempleo del 10.5%. ¿Cuántos arrestos pronostica para cada mes? Número promedio de arrestos mensuales (Y)
Número de oficiales en la fuerza (X1)
Tamaño de la ciudad (X2) en miles de habitantes
390.6 504.3 628.4 745.6 585.2 450.3 327.8 260.5 477.5 389.8 312.4 367.5 374.4 494.6 487.5
68 94 125 175 113 82 46 32 89 67 47 59 61 87 92
81.6 75.1 97.3 123.5 118.4 65.4 61.6 54.3 97.4 82.4 56.4 71.3 67.4 96.3 86.4
Porcentaje de desempleo (X3) 4.3 3.9 5.6 8.7 11.4 9.6 12.4 18.3 4.6 6.7 8.4 7.6 9.8 11.3 4.7
Estamos intentando predecir la demanda anual (DEMAND) de cierto producto, utilizando las siguientes variables independientes: PRECIO precio del producto (en dólares) INGRESO ingreso del consumidor (en dólares) SUB
precio de un bien sustituto (en dólares)
(Nota: Un bien sustituto es aquel que puede suplir a otro bien. Por ejemplo, la margarina es un bien sustituto de la mantequilla.)
506
CAPÍTULO 13 Regresión múltiple y modelado
Se recolectaron datos correspondientes al periodo 1982-1996:
■ 13-18
Año
Demanda
Precio ($)
Ingreso ($)
Sub ($)
1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
40 45 50 55 60 70 65 65 75 75 80 100 90 95 85
9 8 9 8 7 6 6 8 5 5 5 3 4 3 4
400 500 600 700 800 900 1,000 1,100 1,200 1,300 1,400 1,500 1,600 1,700 1,800
10 14 12 13 11 15 16 17 22 19 20 23 18 24 21
a) Utilice el paquete de software que tenga disponible para encontrar la ecuación de regresión de mejor ajuste para estos datos. b) ¿Son los signos ( o ) de los coeficientes de regresión de las variables independientes los que se esperan? Dé una explicación breve. (Nota: Ésta no es una pregunta estadística; sólo necesita pensar qué significan los coeficientes de regresión.) c) Establezca e interprete el coeficiente de determinación múltiple del problema. d) Establezca e interprete el error estándar de la estimación para el problema. e) Según la ecuación de regresión obtenida, ¿qué valor de DEMAND predeciría si el precio de los productos fue $6, el ingreso del consumidor $1,200 y el precio del bien sustituto $17? Bill Buxton, profesor de estadística de una prominente escuela de administración, tiene un profundo interés en los factores que afectan el desempeño de los estudiantes en los exámenes. El examen parcial del semestre anterior tuvo una distribución de calificaciones amplia, pero Bill tiene la certeza de que v arios factores explican esa distribución: permite a sus estudiantes que estudien en tantos libros como les plazca; el coeficiente de inteligencia de los estudiantes v aría; tienen distintas edades, y difieren los tiempos que dedican a estudiar. Con el propósito de desarrollar una fórmula de predicción para las calificaciones de los exámenes, Bill pidió a cada estudiante que respondiera,al final del examen, preguntas referentes al tiempo de estudio y número de libros utilizados. Los registros que tenía Bill ya incluían el coeficiente de inteligencia y la edad, de modo que reunió los datos del grupo y corrió la regresión múltiple de Minitab. La salida de la corrida de Bill fue la siguiente: Pronosticador Constante HORAS CI LIBROS EDAD s = 11.657
■ 13-19
Coef −49.948 1.06931 1.36460 2.03982 −1.79890
DesvEst 41.55 0.98163 0.37627 1.50799 0.67332
Cociente-t −1.20 1.09 3.63 1.35 −2.67
p 0.268 0.312 0.008 0.218 0.319
R-sq = 76.7%
a) ¿Cuál es la ecuación de regresión de mejor ajuste para estos datos? b) ¿Qué porcentaje de la variación en las calificaciones se explica con esta ecuación? c) ¿Qué calificación esperaría usted para un estudiante de 21 años de edad con un coeficiente de inteligencia (CI) de 113, que estudió durante cinco horas y utilizó tres libros diferentes? La compañía de tiendas de abarrotes Twenty-Two, está planeando expandir su cadena. Como ayuda para seleccionar los lugares donde abrirá las nuevas tiendas, recolectó datos de las ventas semanales de cada una de sus 23 tiendas. Para explicar la variabilidad de las ventas semanales, también reunió información que describe cuatro variables que se cree están relacionadas con las ventas. Las variables se definen como: VENTAS
ventas semanales promedio en cada tienda en miles de dólares
AUTOS
volumen promedio de tránsito de automóviles por semana en miles de autos
ENTRADA facilidad de entrada/salida medida en una escala de 1 a 100 INGANUAL ingreso anual promedio por familia en el área, en miles de dólares DISTANCIA distancia en millas desde la tienda al supermercado más cercano
13.3: La computadora y la regresión múltiple
507
Los datos se analizaron con Minitab y la salida es la siguiente: Pronosticador Constante AUTOS ENTRADA INGANUAL DISTANCIA
Coef 175.37 -0.028 3.775 1.990 212.41
s = 85.587
DesvEst 92.62 0.315 1.272 4.510 28.090
Cociente-t 1.89 −0.09 2.97 0.44 7.56
p 0.075 0.929 0.008 0.664 0.000
R-sq = 95.8%
a) b) c) d) ■ 13-20
■ 13-21
¿Cuál es la ecuación de regresión de mejor ajuste, dada por Minitab? ¿Cuál es el error estándar de la estimación para esta ecuación? ¿Qué fracción de la variación en las ventas se explica con esta regresión? ¿Qué ventas predeciría para una tienda localizada en un vecindario que tuvo un ingreso anual por familia de $20,000, estaba a 2 millas del supermercado más cercano, se encontraba en una calle con un volumen promedio semanal de tránsito de 100,000 autos y con una facilidad de entrada de 50? Rick Blackburn está pensando en vender su casa. Con el f in de decidir el precio que pedirá por ella, ha reunido datos de 12 ventas recientes. Registró el precio de venta (en miles de dólares), el número de pies cuadrados de construcción (en cientos de pies cuadrados), el número de pisos, el número de baños y la antigüedad de la casa (en años). Precio de venta
Pies cuad.
Pisos
Baños
Antigüedad
49.65 67.95 81.15 81.60 91.50 95.25 100.35 104.25 112.65 149.70 160.65 232.50
8.9 9.5 12.6 12.9 19.0 17.6 20.0 20.6 20.5 25.1 22.7 40.8
1 1 2 2 2 1 2 2 1 2 2 3
1.0 1.0 1.5 1.5 1.0 1.0 1.5 1.5 2.0 2.0 2.0 4.0
2 6 11 8 22 17 12 11 9 8 18 12
a) Utilice cualquier paquete de software que tenga disponible para determinar la ecuación de regresión de mejor ajuste para los datos. b) ¿Cuál es el valor de R 2 para esta ecuación? c) Si la casa de Rick tiene 1,800 pies cuadrados ( 18.0 cientos de pies cuadrados), un piso, 1.5 baños y seis años de antigüedad, ¿qué precio de venta puede esperar Rick? La Allegheny Steel Corporation ha estado buscando los factores que influyen en la cantidad de acero (en millones de toneladas) que puede vender cada año. La administración sospecha que los siguientes son los factores principales: la tasa anual de inflación del país, el precio promedio por tonelada del acero importado que acota los precios (en dólares) de Allegheny, y el número de automóviles (en millones) que los fabricantes de autos de Estados Unidos planean producir ese año. Se recolectaron los datos de los últimos siete años:
Año
Y Millones de tons. vendidas
X1 Tasa de inflación
X2 Cota de importaciones
X3 Número de automóviles
1993 1992 1991 1990 1989 1988 1987
4.2 3.1 4.0 4.7 4.3 3.7 3.5
3.1 3.9 7.5 10.7 15.5 13.0 11.0
3.10 5.00 2.20 4.50 4.35 2.60 3.05
6.2 5.1 5.7 7.1 6.5 6.1 5.9
508
CAPÍTULO 13 Regresión múltiple y modelado
a) Utilice cualquier paquete de software que tenga disponible para determinar la ecuación de regresión de mejor ajuste para los datos. b) ¿Qué porcentaje de la variación total de la cantidad de acero vendido (en millones de toneladas) por Allegheny cada año explica esta ecuación? c) ¿Cuántas toneladas de acero deberá esperar Allegheny vender en un año en el que la tasa de inflación es 7.1, los fabricantes de automóviles norteamericanos planean producir 6.0 millones de autos y la cota promedio del acero importado por tonelada es $3.50?
Soluciones a los ejercicios de autoevaluación EA
13-3
De la salida del paquete de software se obtienen los siguientes resultados: a) Yˆ 1,275 17.059X1 0.5406X2 0.1743X3. b) R2 87.2%; el modelo explica el 87.2% de la variación total en Y. c) Yˆ 1,275 17.059(169) 0.5406(10,212) 0.1743(26,925) 2,436 reembolsos de impuestos.
13.4 Inferencias sobre parámetros de población
Plano de regresión de la población
En el capítulo 12, se vio que la recta de regresión de la muestra, Yˆ a bX (ecuación 12-3), estimaba la recta de regresión de la población, Y A BX (ecuación 12-13). La razón por la cual sólo podíamos estimar la recta de regresión de población y no determinarla con exactitud, era que los puntos no caen exactamente en la recta de regresión de la población. Debido a las variaciones aleatorias, los puntos satisfacían Y A BX e (ecuación 12-13a) más que a Y A BX. En la regresión múltiple se tiene justo la misma situación. Nuestro plano de regresión estimado: Yˆ a b1X1 b2 X2 . . . bk Xk [13-5] es una estimación de un plano de regresión de población verdadero, pero desconocido, de la forma: Ecuación de regresión de la población Y A B1X1 B2X2 . . . Bk Xk
Las variaciones aleatorias desplazan los puntos del plano de regresión
[13-7]
De nuevo, los puntos individuales normalmente no caen con e xactitud en el plano de re gresión de población. Consideremos el problema del Servicio Interno de Contrib uciones para ver por qué. No todos los pagos a informantes tendrán la misma efectividad. Algunas horas en computadora podrían utilizarse para recolectar y organizar datos; otras, para analizar esos datos en busca de errores y fraudes. El éxito de la computadora en descubrir impuestos no pagados puede depender de cuánto tiempo se dedique a cada una de estas acti vidades. Por éstas y otras razones, algunos de los puntos se encontrarán arriba del plano de re gresión y algunos estarán abajo de éste. En lugar de satisf acer la ecuación: Y A B1X1 B2X2 . . . Bk Xk
[13-7]
los puntos individuales satisfarán la ecuación: Plano de regresión de la población más la variación aleatoria Y A B1X1 B2X2 . . . Bk Xk e
[13-7a]
La cantidad e que aparece en la ecuación 13-7a es una variación aleatoria, que en promedio es igual a cero. La desviación estándar de las v ariaciones individuales e, y el error estándar de la estimación, se, que estudiamos en la sección anterior, es una estimación de e.
13.4: Inferencias sobre parámetros de población
509
Como nuestro plano de regresión de la muestra, Yˆ a b1X1 b2X2 . . . bkXk (ecuación 13-7), estima el plano de regresión de población desconocido, Y A B1X1 B2X2 . . . Bk Xk (ecuación 13-7), deberemos ser capaces de usarlo para hacer inferencias sobre el plano de regresión de la población. En esta sección haremos inferencias acerca de las pendientes (B1, B2, . . . , Bk) de la ecuación de regresión “verdadera” (la que se aplica a la población completa) basadas en las pendientes (b1, b2, . . . , bk) de la ecuación de regresión estimada a partir de la muestra de datos.
Inferencias acerca de una pendiente individual Bi Diferencia entre la ecuación de regresión verdadera y una estimada a partir de las observaciones de la muestra Prueba de una hipótesis acerca de Bi
El plano de regresión se deriva de una muestra y no de la población completa. Como resultado, no podemos esperar que la ecuación de re gresión verdadera Y A B1X1 B2 X2 . . . Bk Xk (la que se aplica a la población completa) sea e xactamente igual que la ecuación estimada a partir de observaciones de la muestra, Yˆ a b1X1 b2 X2 . . . bk Xk. Sin embargo, podemos utilizar el valor de bi, una de las pendientes que calculamos a partir de la muestra, para probar hipótesis acerca del valor de Bi, una de las pendientes del plano de regresión para la población completa. El procedimiento para probar una hipótesis respecto a Bi es parecido al procedimiento analizado en los capítulos 9 y 10 sobre pruebas de hipótesis. Para entender este proceso, regresemos al problema que relaciona los impuestos no pagados descubiertos con las horas de trabajo en auditorías de campo, horas en computadora y recompensas a informantes. En la página 655, señalamos que b1 0.597. El primer paso consiste en encontrar un valor para B1 y compararlo con b1 0.597. Suponga que durante un periodo lar go, la pendiente de la relación entre Y y X1 fue 0.400. Para probar si todavía es válida, podríamos definir las hipótesis como: H0: B1 0.400 ← Hipótesis nula H1: B1 0.400 ← Hipótesis alternativa
Error estándar del coeficiente de regresión
Estandarización del coeficiente de regresión
De hecho, realizamos la prueba para saber si los datos actuales indican que B1 ha cambiado su valor histórico de 0.400. Para encontrar el estadístico de prueba para B1, es necesario hallar primero el error estándar del coeficiente de regresión. El coeficiente de regresión con el que estamos trabajando es b1, de modo que el error estándar de este coeficiente se representa con sb1. Resulta demasiado difícil calcular sb1 a mano, pero por fortuna, Minitab calcula los errores estándar de todos los coeficientes de regresión. Por comodidad, repetimos la figura 13-2. Los errores estándar de los coeficientes se dan en la columna DesvEst de la salida de Minitab. En el cuadro de salida, vemos que sb1 es 0.0811. (Similarmente, si deseamos probar una hipótesis acerca de B2, vemos que el error estándar apropiado que debemos utilizar es sb 2 0.0841.) Una vez que encontramos sb1 en la salida de Minitab, podemos usar la ecuación 13-8 para estandarizar la pendiente de nuestra ecuación de regresión ajustada: Coeficiente de regresión estandarizado bi – Bi0 t sbi
[13-8]
donde, • bi pendiente de la regresión ajustada • Bi0 pendiente real hipotética para la población • sbi error estándar del coeficiente de regresión ¿Por qué utilizamos t para denotar el estadístico estandarizado? Recuerde que en la re gresión simple utilizamos a y b en la ecuación 12-7 para calcular se, y que se estimaba e, la desviación estándar de las variaciones de los datos (ecuación 12-13a). Entonces utilizamos se en la ecuación 12-14 para encontrar sb, el error estándar del coeficiente de regresión que corresponde a la pendiente. Em-
510
CAPÍTULO 13 Regresión múltiple y modelado
FIGURA 13-2 Salida de Minitab (figura repetida)
Análisis de regresión La ecuación de regresión es DESCUBRE = -45.0 + 0.597 AUDITORÍA + 1.18 COMPUTADORA + 0.405 RECOMPENSA Pronosticador Constante AUDITORÍA COMPUTADORA RECOMPENSAS
Coef -45.796 0.50697 1.17684 0.40511
DesvEst 4.878 0.08112 0.08407 0.04223
s = 0.2861
R-sq = 98.3%
Cociente-t -9.39 7.36 14.00 9.59
p 0.000 0.000 0.000 0.000
pezamos con n puntos y los usamos para estimar los dos coeficientes, a y b. Luego basamos nuestras pruebas en la distribución t con n 2 grados de libertad. De manera similar, en la regresión múltiple también empezamos con n puntos, pero los usamos para estimar k 1 coeficientes: la ordenada, a, y k pendientes b1, b2, . . . , bk. Después, estos coeficientes se usan en la ecuación 13-6 para calcular se, que de nuevo es una estimación de e, la desviación estándar de las variaciones de los datos (ecuación 13-7a). Luego se utiliza se (en una ecuación que está más allá del alcance de este libro) para encontrar sbi. Debido a lo anterior , basamos nuestras pruebas de hipótesis en la distribución t con n k 1 ( n (k l)) grados de libertad. En nuestro ejemplo, el valor estandarizado del coeficiente de regresión es b1 – B10 t [13-8] sb1 0.597 – 0.400 0.081 2.432 ← Coeficiente de regresión estandarizado Realización de la prueba de hipótesis
Intervalo de confianza para Bi
Suponga que estamos interesados en probar nuestras hipótesis al ni vel de significancia de 10%. Como tenemos 10 observaciones en la muestra, y tres variables independientes, sabemos que hay n k 1 o 10 3 1 6 grados de libertad. Buscamos en la tabla 2 del apéndice, en la columna de 10% y el renglón de 6 grados de libertad.Ahí, vemos que el valor apropiado de t es 1.943. Como nos preocupa si b1 (la pendiente del plano de regresión de la muestra) es significativamente diferente de B1 (la pendiente hipotética del plano de regresión de la población), ésta es una prueba de dos colas y los valores críticos son 1.943. El coeficiente de regresión estandarizado es 2.432, que se encuentra fuera de la región de aceptación de nuestra prueba de hipótesis. Por consiguiente, rechazamos la hipótesis nula de que B1 todavía es igual a 0.400. En otras palabras, existe una diferencia suficientemente grande entre b1 y 0.400 para concluir que B1 ha cambiado respecto a su v alor histórico. Por esto, sentimos que cada 100 horas adicionales de trabajo en auditorías de campo ya no aumentan la cantidad de descubrimientos de impuestos no pagados en $400,000, como lo hacían en el pasado. Además de la prueba de hipótesis, podemos construir un intervalo de confianza para cualquiera de los valores de Bi. Del mismo modo que bi es una estimación puntual de Bi, estos intervalos de confianza son estimaciones de intervalo de Bi. Para ilustrar el proceso de construcción de intervalos de confianza, encontremos un intervalo de confianza del 95% para B3 en el ejemplo del IRS. Los datos relevantes son: b3 0.405 sb3 0.0422
de la figura 13-2
t 2.447 ← Nivel de significancia del 5% y 6 grados de libertad
13.4: Inferencias sobre parámetros de población
511
Con esta información podemos calcular el intervalo de confianza de la siguiente manera: b3 t(sb3) 0.405 2.447(0.0422) 0.508 ← Límite superior b3 t(sb3) 0.405 2.447(0.0422) 0.302 ← Límite inferior
¿Es significativa una variable explicativa?
Vemos que podemos tener una seguridad del 95%, de que cada $1,000 adicionales pagados a los informantes aumenta el descubrimiento de impuestos no pagados en una cantidad entre $302,000 y $508,000. A menudo, estaremos interesados en preguntas del tipo ¿en realidad Y depende de Xi? Por ejemplo, podríamos preguntar si descubrir impuestos no pagados en realidad depende de las horas en la computadora. Con frecuencia, esta pregunta se plantea como: ¿es Xi una variable explicativa significativa de Y? Si piensa un poco más, se convencerá de que si Bi 0, Y depende de las Xi (esto es, Y varía cuando Xi varía) y no depende de Xi si Bi 0. Vemos que nuestra pregunta conduce a establecer hipótesis de la forma: H0: Bi 0 ← Hipótesis nula: Xi no es una variable explicativa significativa H1: Bi 0 ← Hipótesis alternativa: Xi es una variable explicativa significativa Podemos probar estas hipótesis utilizando la ecuación 13-8 del mismo modo que cuando probamos nuestras hipótesis acerca de si B1 todavía era igual a 0.400. Sin embargo, existe una forma más fácil de hacerlo usando la columna de la f igura 13-2 de “cociente-t”. Observemos de nuevo la ecuación 13-8: bi – Bi0 t [13-8] sbi Como nuestro valor hipotético de Bi es cero, el valor estandarizado del coeficiente de regresión, denotado por to, se convierte en: bi to sbi
Uso de valores t calculados en la salida de Minitab
El valor de to, se conoce como valor t “calculado”. Éste es el número que aparece en la columna etiquetada como “cociente-t” en la figura 13-2. Denotemos por tc el valor t “crítico” que buscamos en la tabla 2 del apéndice. Entonces, como la prueba para determinar si Xi es una variable explicativa significativa es una prueba de dos colas, sólo necesitamos verificar si tc to tc. Prueba para determinar si una variable es o no significativa tc to tc
[13-9]
donde, • tc valor t adecuado (con n k 1 grados de libertad) para el ni vel de significancia de la prueba • to bi /sbi valor t observado (o calculado) obtenido con el paquete de software
Prueba de la significancia de la variable horas de computadora en el problema del IRS
Si to cae entre tc y tc, aceptamos H0, y llegamos a la conclusión de que Xi no es una variable explicativa significativa. En cualquier otro caso, rechazamos H0 y concluimos que Xi es una variable explicativa significativa. Probemos, al nivel de significancia de 0.01, si las horas en computadora constituyen una variable explicativa significativa para los impuestos no pagados descubiertos. De la tabla 2 del apéndice,con n k 1 10 3 1 6 grados de libertad y 0.01, vemos que tc 3.707. De la figura 13-2, tenemos que to = 14.00. Como to tc, concluimos que el tiempo en computadora es una variable
512
CAPÍTULO 13 Regresión múltiple y modelado
FIGURA 13-3
Región de aceptación Acepte la hipótesis nula si el valor muestral está en esta región
Región de aceptación Acepte la hipótesis nula si el valor muestral está en esta región
Uso de “p” para determinar si Xi es una variable explicativa significativa
␣/2 del área
␣/2 del área
–tc
–to
0
to
tc
␣/2 del área
␣/2 del área
–to
–tc
(a) p es mayor que ␣; Xi no es una variable explicativa significativa
0
tc
to
(b) p es menor que ␣; Xi es una variable explicativa significativa
explicativa significativa. De hecho, al observar los valores t calculados para las otras dos variables independientes (tiempo de auditorías de campo, to 7.36 y recompensa a informantes, to 9.59), vemos que también son variables explicativas significativas. Podemos también utilizar la columna de “p” para probar si Xi es una variable explicativa significativa. De hecho, utilizando esa información, ni siquiera necesitamos usar la tabla 2 del apéndice. Los elementos de esta columna son los valores prob para las hipótesis: H0: Bi 0 H1: Bi 0 Recuerde del análisis hecho en el capítulo 10, que estos valores prob constituyen la probabilidad de que cada bi esté tan lejos de cero como (o más) el valor observado obtenido de la regresión, si H0 es verdadera. Como se ilustra en la f igura 13-3, solamente necesitamos comparar estos v alores prob con , el nivel de significancia de la prueba, para determinar si Xi es o no una variable explicativa significativa para Y. Probar la significancia de una variable explicativa es, siempre, una prueba de dos colas. La variable independiente Xi es una variable explicativa significativa si bi es significativamente diferente de cero, es decir, si to es un número grande positivo o negativo. Para el ejemplo del IRS, repetimos las pruebas con 0.01. Para cada una de las tres variables independientes, p es menor que 0.01, de forma que podemos concluir que cada una de ellas es significativa.
Inferencias acerca de la regresión como un todo (usando una prueba F )
Significancia de la regresión como un todo
Suponga que cubre con papel un tablero para dardos y lanza varios dardos sobre él. Después de haberlo hecho, tendrá algo muy parecido a un diagrama de dispersión. Suponga, entonces, que ajusta una recta de regresión a este conjunto de “puntos observados” y calcula r2. Debido a que los dardos fueron lanzados aleatoriamente, usted espera obtener un valor bajo de r2, puesto que en este caso X en realidad no explica a Y. Sin embargo, si hace esto muchas veces, ocasionalmente observará un valor alto de r2, por pura casualidad. Dada cualquier regresión simple (o múltiple), es natural preguntarse si el valor de r2 (o de R2) realmente indica que las variables independientes explican a Y, o si esto sucede por casualidad. A menudo, esta interrogante se plantea de la siguiente manera: ¿la regresión como un todo es significativa? En la última sección vimos cómo decidir si una Xi individual es una variable explicativa
13.4: Inferencias sobre parámetros de población
FIGURA 13-4 Desviación total, desviación explicada y desviación no explicada para un valor observado de Y
513
Y Un valor observado de la variable dependiente (Y )
Desviación total de esta Y respecto a su media Y (Y – Y )
ta Rec
sión
Desviación explicada de esta Y respecto a su media Y (Y^ – Y ) Y
egre
de r
Desviación no explicada de esta Y respecto a su media Y ^ (Y – Y )
Valor estimado de esta Y ^ a partir de la recta de regresión (Y )
X
significativa; ahora veremos cómo decidir si todas las Xi tomadas en conjunto explican significativamente la variabilidad observada de Y. Nuestras hipótesis son: H0: B1 B2 . . . Bk 0 ← Hipótesis nula: Y no depende de las Xi H1: por lo menos una Bi 0 ← Hipótesis alternativa: Y depende de al menos una de las Xi Análisis de la variación de los valores Y
Suma de cuadrados y sus grados de libertad
Cuando analizamos r2, en el capítulo 12, consideramos la variación total en Y, ∑(Y Y )2, la par2 te de dicha variación que explica la regresión ∑(Yˆ Y ) , y la parte no explicada de la variación Y, ∑(Y Yˆ )2. La figura 13-4 es un duplicado de la figura 12-15. Sirve como repaso de la relación entre la desviación total, la desviación explicada y la desviación no explicada para un solo dato en una regresión simple. Aunque no podamos dibujar una figura similar para una regresión múltiple, conceptualmente estamos haciendo lo mismo. Al analizar la variación en Y, fijamos nuestra atención en tres términos diferentes,cada uno de los cuales es una suma de cuadrados. Los denotamos con Tres sumas de cuadrados SCT suma de cuadrados total (es decir, la parte explicada)
∑(Y Y )2
SCR suma de cuadrados de la regresión (es decir, la parte explicada) ∑(Yˆ Y )2 SCE suma de cuadrados del error (es decir, la parte no explicada)
[13-10]
∑(Y Yˆ)2
Están relacionadas por la ecuación: Descomposición de la variación total de Y SCT SCR SCE
[13-11]
que dice que la variación total en Y puede dividirse en dos partes: la parte explicada y la no explicada. Cada una de estas sumas de cuadrados tiene un número asociado de grados de libertad. SCT tiene n 1 grados de libertad (n observaciones menos un grado de libertad debido a que la media de la muestra está fija). SCR tiene k grados de libertad, porque existen k variables independientes que se utilizaron para explicar Y. Finalmente, SCE tiene n k 1 grados de libertad, porque utilizamos nuestras n observaciones para estimar k 1 constantes, a, b1, b2, . . . , bk. Si la hipótesis nula es cierta, el cociente Cociente F SCR/k F SCE/(n – k – 1)
[13-12]
514
CAPÍTULO 13 Regresión múltiple y modelado
FIGURA 13-5 Salida de Minitab: análisis de varianza
Prueba F de la regresión como un todo
Análisis de varianza para la regresión
Prueba de la significancia de la regresión en el problema del Servicio de Contribuciones
Análisis de varianza FUENTE Regresión Error Total
GL 3 6 9
SC 29.1088 0.4912 29.6000
MC 9.7029 0.0819
F 118.52
p 0.000
tiene una distribución F con k grados de libertad en el numerador y n k 1 grados de libertad en el denominador. Si la hipótesis nula es falsa, entonces el cociente tiende a ser más grande que cuando la hipótesis nula es verdadera. De modo que si el cociente F es demasiado grande (según lo determina el nivel de significancia de la prueba y el valor apropiado de la tabla 6 del apéndice), rechazamos H0 y concluimos que la regresión como un todo es significativa. La figura 13-5 presenta la salida de Minitab para el problema del IRS. Esta parte del resultado incluye los cocientes F calculados para la re gresión, en ocasiones llamado análisis de varianza (ANOVA) para la regresión. Probablemente se pregunte si esto tiene algo que ver con el análisis de varianza que estudiamos en el capítulo 11. La respuesta es sí.Aunque no lo hicimos, es posible demostrar que el análisis de varianza visto en el capítulo 11 también contempla la variación total de todas las observaciones alrededor de la gran media y la divide en dos partes: una explicada por las diferencias entre los distintos grupos (que corresponde a lo que llamamos varianza entre columnas) y la otra no explicada por dichas diferencias (que corresponde a la varianza dentro de columnas). Esto es precisamente análogo a lo que acabamos de hacer en la ecuación 13-11. Para el problema del IRS,vemos que SCR 29.109 (con k 3 grados de libertad), SCE 0.491 (con n k 1 10 3 1 6 grados de libertad), y que 29.109/3 9.703 F 118.33 0.082 0.491/6 Los elementos en la columna “MC” son justo las sumas de cuadrados divididas entre sus grados de libertad. Para 3 grados de libertad en el numerador y 6 en el denominador, la tabla 6 del apéndice dice que 9.78 es el límite superior de la región de aceptación para un nivel de significancia 0.01. El valor calculado de F, 118.33, está muy por arriba de 9.78, de manera que se ve que la regresión como un todo es altamente significativa. Se puede llegar a la misma conclusión si se observa que el resultado del programa dice que “p” es 0.000. Debido a que este valor prob es menor que el nivel de significancia 0.01, se concluye que la re gresión completa es significativa. De esta manera, se puede usar la p de ANOVA como prueba, sin tener que utilizar la tabla 6 del apéndice para buscar un valor crítico de F. Esto es análogo a la manera en que se usaron los valores de p en la figura 13-2 para probar la significancia de las variables explicativas individuales.
Multicolinealidad en la regresión múltiple Definición y efecto de la multicolinealidad
Un ejemplo de multicolinealidad
En el análisis de regresión múltiple, los coeficientes de regresión a menudo se vuelven menos confiables conforme aumenta el grado de corr elación entre las variables independientes. Si existe un alto nivel de correlación entre algunas de las variables independientes, nos enfrentamos a un problema que los estadísticos llaman multicolinealidad. La multicolinealidad puede presentarse si deseamos estimar la recuperación de las ventas de una empresa y utilizamos tanto el número de vendedores empleados como sus salarios totales. Como los valores asociados con estas dos v ariables independientes tienen una correlación alta, necesitamos usar sólo un conjunto de ellos para realizar nuestra estimación. De hecho,al agregar una segunda variable que está correlacionada con la primera, se distorsionan los valores de los coeficientes de regresión. Sin embargo, a menudo podemos predecir bien Y, incluso cuando haya multicolinealidad. Consideremos un ejemplo donde existe multicolinealidad para ver cómo afecta a la regresión. Durante los 12 meses pasados, el gerente del restaurante Pizza Shack ha estado poniendo una serie de anuncios en el periódico local. Los anuncios se programan y pagan el mes anterior a que aparezcan.
13.4: Inferencias sobre parámetros de población
Tabla 13-4 Datos de ventas y anuncios para el restaurante Pizza Shack
Dos regresiones simples
Uso de ambas variables explicativas en una regresión múltiple
Figura 13-6 Regresión de las ventas sobre el número de anuncios con Minitab
Mes
X1 Número de anuncios publicados
X2 Costo de anuncios publicados (cientos de dólares)
Y Venta total de pizzas (miles de dólares)
Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre Enero Febrero Marzo Abril
12 11 9 7 12 8 6 13 8 6 8 10
13.9 12.0 9.3 9.7 12.3 11.4 9.3 14.3 10.2 8.4 11.2 11.1
43.6 38.0 30.1 35.3 46.4 34.2 30.2 40.7 38.5 22.6 37.6 35.2
515
Cada anuncio contiene un cupón que permite llevarse dos pizzas pagando solamente la de mayor precio. El gerente recolectó los datos de la tabla 13-4 y le gustaría utilizarlos para predecir las evntas de pizzas. En las figuras 13-6 y 13-7, se dieron los resultados de Minitab para las regresiones respectivas de las ventas totales sobre el número de anuncios y sobre el costo. Para la regresión sobre el número de anuncios, tenemos que el valor t observado es 3.95. Con 10 grados de libertad y un nivel de significancia de 0.01, se encontró que el valor t crítico (tomado de la tabla 2 del apéndice) es 3.169. Comoto tc (o de manera equivalente, como p es menor que 0.01), concluimos que el número de anuncios es una variable explicativa altamente significativa de las ventas totales. Note también que r 2 61.0%, de modo que el número de anuncios explica aproximadamente el 61% de la variación en las ventas de pizzas. Para la regresión sobre el costo de los anuncios, el valor t observado es 4.54, de modo que el costo de los anuncios es una variable explicativa de las ventas totales todavía más significativa que el número de anuncios (para los que el valor t observado fue sólo 3.95). En esta regresión, r 2 67.3%, así que el costo de los anuncios explica aproximadamente el 67% de la variación de las ventas de pizzas. Como ambas variables explicativas son altamente significativas por sí mismas, intentamos utilizar ambas en una regresión múltiple. El resultado se presenta en la figura 13-8. La regresión múltiple es altamente significativa como un todo, ya que la p de ANOVA es 0.006.
Análisis de regresión La ecuación de regresión es VENTAS = 16.9 + 2.08 ANUNCIOS Pronosticador Constante ANUNCIOS
Coef 16.937 2.0832
s = 4.206
DesvEst 4.982 0.5271
Cociente-t 3.40 3.95
p 0.007 0.003
MC 276.31 17.69
F 15.62
R-sq = 61.0%
Análisis de varianza FUENTE Regresión Error Total
GL 1 10 11
SC 276.31 176.88 453.19
p 0.003
516
CAPÍTULO 13 Regresión múltiple y modelado
FIGURA 13-7 Regresión de las ventas sobre el costo de los anuncios con Minitab
Análisis de regresión La ecuación de regresión es VENTAS = 4.17 + 2.87 COSTO Pronosticador Constante ANUNCIOS s = 3.849
Coef 4.173 2.8725
DesvEst 7.109 0.6330
Cociente-t 0.59 4.54
p 0.570 0.000
SC 305.04 148.15 453.19
MC 305.04 14.81
F 20.59
R-sq = 67.3%
Análisis de varianza FUENTE Regresión Error Total
Pérdida de significancia individual
Correlación entre dos variables explicativas
Ambas variables explican lo mismo
FIGURA 13-8 Regresión de Minitab para ventas sobre el número y el costo de los anuncios
GL 1 10 11
p 0.000
El coeficiente de determinación múltiple es R2 68.4%, de manera que las dos variables juntas explican alrededor del 68% de la variación de las ventas totales. Sin embargo, si observamos los valores p para las variables individuales de la regresión múltiple, vemos que, incluso al nivel 0.1, ninguna de las variables es una variable explicativa significativa. ¿Qué sucedió? En la r egresión simple, cada variable es altamente significativa, y en la regresión múltiple lo son de manera colectiva, pero no en forma individual. Esta aparente contradicción se explica cuando observamos que el número de anuncios tiene una correlación alta con el costo de los mismos. De hecho,la correlación entre estas dos variables es r 0.8949, de modo que tenemos un problema de multicolinealidad en los datos. Podríamos preguntarnos por qué estas dos variables no están perfectamente correlacionadas. La razón es que el costo de un anuncio varía ligeramente, dependiendo del lugar que ocupa en el periódico. Por ejemplo, el domingo, los anuncios colocados en la sección de televisión cuestan más que los de la sección de noticias, y el administrador de Pizza Shack ha colocado anuncios en cada una de estas secciones en diferentes ocasiones. Como X1 y X2 tienen una relación estrecha, en efecto, cada una explica la misma parte de la variabilidad de Y. Ésta es la razón por la que obtenemos r 2 61.0% en la primera regresión simple, r 2 67.3% en la segunda regresión simple, y una r 2 de sólo 68.4% en la regresión múltiple. Agre-
Análisis de regresión La ecuación de regresión es VENTAS = 6.58 + 0.62 ANUNCIOS + 2.14 COSTO Pronosticador Constante ANUNCIOS COSTO s = 3.989
Coef 6.584 0.625 2.139
DesvEst 8.542 1.120 1.479
Cociente-t 0.77 0.56 1.45
p 0.461 0.591 0.180
SC 309.99 143.20 453.19
MC 154.99 15.91
F 9.74
R-sq = 68.4%
Análisis de varianza FUENTE Regresión Error Total
GL 2 9 11
p 0.006
13.4: Inferencias sobre parámetros de población
Las contribuciones individuales no pueden separarse
517
gar el número de anuncios como segunda variable explicativa, además del costo de los anuncios,explica nada más alrededor del 1% adicional de la variación de las ventas totales. En este punto, es justo preguntarse: ¿qué variable realmente explica la variación de las v entas totales en la regresión múltiple? La respuesta es que ambas la e xplican, pero no podemos separar sus contribuciones individuales, debido a que están altamente corr elacionadas entre sí. En consecuencia, sus coeficientes en la regresión múltiple tienen errores estándar altos, valores t calculados relativamente bajos y valores prob | t | relativamente altos. ¿De qué manera nos afecta esta multicolinealidad?Todavía podemos hacer predicciones relativamente precisas cuando se encuentra presente: note que para la regresión múltiple (la salida se da en la figura 13-8), el error estándar de la estimación, que determina el ancho de los intervalos de confianza para las predicciones es 3.989, mientras que para la regresión simple con el costo de los anuncios como variable explicativa (salida en la figura 13-7), tenemos se 3.849. Lo que no podemos hacer es predecir con mucha precisión cómo cambiarán las ventas si aumentamos en uno el número de anuncios. La regresión múltiple dice que b1 0.625 (esto es, cada anuncio aumenta las v entas totales de pizzas alrededor de $625),pero el error estándar de este coeficiente es 1.12 (es decir, aproximadamente $1,120).
Sugerencia: el concepto de hacer inferencias respecto a una re gresión múltiple es justo lo mismo que se hizo en el capítulo 12, cuando hicimos inferencias respecto a una recta de regresión, excepto que ahora se emplean dos o más v ariables independientes. Advertencia: la multicolinealidad es un problema que debe manejarse en la regresión múltiple y es necesario desarrollar una comprensión con sentido común. Recuerde que todavía puede hacer predicciones precisas cuando está presente. Pero recuerde también que no puede decir con mucha precisión SUGERENCIAS Y SUPOSICIONES
cuánto cambiará la variable dependiente si “manipula” las variables independientes. Entonces, el objetivo debe ser minimizar la multicolinealidad. Sugerencia:la mejor regresión múltiple es la que explica la relación entre los datos al señalar la responsabilidad de la mayor proporción de la variación en la variable dependiente, con el menor número de variables independientes. Advertencia: no es una b uena idea incluir demasiadas variables independientes sólo porque cuenta con una computadora y un paquete de software para estadística.
Ejercicios 13.4 Ejercicios de autoevaluación EA
13-4
Edith Pratt es una ocupada ejecutiva de una compañía de transporte de carga a nivel nacional, y va tarde a una junta porque no encuentra la salida de la regresión múltiple elaborada por un asistente. Si la regresión total es significativa al nivel 0.05, ella desea usar las salida de computadora como evidencia para fundamentar algunas ideas que expondrá en la reunión. Sin embar go, su ayudante está enfermo. De hecho, toda la información que tiene de la regresión múltiple es un trozo de papel con los siguientes datos: Regresión para Edith Pratt SCR SCE SCT
EA
13-5
872.4, con gl , con 17 gl 1023.6, con 24 gl
Como el papel ni siquiera tiene todos los números, Edith ha concluido que no es útil. Usted, sin embargo, debe saber más que ella. ¿Puede Edith entrar en la junta o debe seguir buscando la salida de computadora? Una pequeña línea aérea de Nueva Inglaterra realizó una encuesta sobre sus 15 terminales y obtuvo los siguientes datos para el mes de febrero, donde VENTAS ingreso total según el número de boletos vendidos (en miles de dólares) PROMOC cantidad gastada en promociones de la línea aérea en el área (en miles de dólares) COMPET número de líneas aéreas que compiten en esa terminal GRATIS
número de pasajeros que vuelan gratis (por diferentes razones)
518
CAPÍTULO 13 Regresión múltiple y modelado
Ventas (dólares)
Promoc (dólares)
Compet
Gratis
79.3 200.1 163.2 200.1 146.0 177.7 30.9 291.9 160.0 339.4 159.6 86.3 237.5 107.2 155.0
2.5 5.5 6.0 7.9 5.2 7.6 2.0 9.0 4.0 9.6 5.5 3.0 6.0 5.0 3.5
10 8 12 7 8 12 12 5 8 5 11 12 6 10 10
3 6 9 16 15 9 8 10 4 16 7 6 10 4 4
a) Utilice la siguiente salida de Minitab para determinar la ecuación de regresión que mejor se ajuste para la línea aérea: La ecuación de regresión es VENTAS 172 25.9 PROMOV 13.2 COMPET 3.04 GRATIS Pronosticador Constante PROMOV COMPET GRATIS
Coef 172.34 25.950 -13.238 -3.041
DesvEst 51.38 4.877 3.686 2.342
Cociente-t 3.35 5.32 -3.59 -1.30
p 0.006 0.000 0.004 0.221
b) ¿Los pasajeros que vuelan gratis ocasionan una disminución signif icativa en las ventas? Formule y pruebe las hipótesis apropiadas. Use 0.05. c) ¿Un incremento de $1,000 en las promociones cambia las ventas en $28,000, o el cambio es significativamente diferente de $28,000? Formule y pruebe las hipótesis adecuadas. Use 0.10. d) Calcule un intervalo de confianza del 90% para el coeficiente de la pendiente de la COMPETENCIA.
Aplicaciones ■ 13-22
Mark Lowtown publica el periódico Mosquito Junction Enquirer y tiene problemas para predecir la cantidad de papel periódico que necesita imprimir diariamente. Eligió aleatoriamente 27 días del año anterior y registró la siguiente información: PESO
peso en libras de papel periódico para la edición de ese día
CLASIFICADOS
número de anuncios clasificados
PUBLICIDAD
número de anuncios publicitarios
PLANA COMPLETA número de anuncios a una plana
Utilizando Minitab para hacer una re gresión de PESO sobre las otras tres v ariables, Mark obtuvo la siguiente salida: Pronosticador Constante CLASIFICADOS PUBLICIDAD PLANA COMPLETA
Coef 1072.95 0.251 1.250 250.66
DesvEst 872.43 0.126 0.884 67.92
Cociente-t 1.23 1.99 1.41 3.69
p 0.232 0.060 0.172 0.001
a) Mark siempre ha pensado que cada anuncio publicitario utiliza al menos 3 libras de papel. ¿La regresión le da una razón significativa para dudar esto al nivel del 5%?
519
13.4: Inferencias sobre parámetros de población
■ 13-23 ■ 13-24
b) De manera similar, Mark siempre ha creído que cada anuncio clasif icado utiliza aproximadamente media libra de papel. ¿Tiene ahora Mark una razón significativa para dudar esto al nivel del 5%? c) Mark vende espacios de anuncios de plana completa a los comerciantes locales a $30 la página. ¿Deberá pensar en ajustar sus tarif as si el papel periódico le cuesta $0.09 por libra? Suponga que otros costos son despreciables. Establezca explícitamente las hipótesis y una conclusión. (Sugerencia: Dejando todo lo demás constante, cada anuncio adicional de plana completa tiene un costo de 250.66 libras de papel $0.09 por libra $22.56. El punto de equilibrio es 333.333 libras. ¿Por qué? Así, si el coeficiente de pendiente para PLAN A COMPLETA es signif icativamente mayor que 333.333, Mark no está obteniendo ganancias y debe cambiar sus tarifas.) Para los datos del ejercicio 13-18 y un nivel de significancia de 0.10, ¿cuáles variables son significativamente explicativas de los resultados de los exámenes? (Había 12 estudiantes en la muestra.) Para los datos del ejercicio 13-18 y la siguiente salida de Minitab del procedimiento de re gresión múltiple hecho por Bill: Análisis de varianza FUENTE Regresión Error Total
■ 13-25 ■ 13-26
GL 4 7 11
SC 3134.42 951.25 4085.67
MC 783.60 135.89
F
p
a) ¿Cuál es el valor observado de F? b) A un nivel de significancia de 0.05, ¿cuál es el valor crítico de F que se debe utilizar para determinar si la regresión como un todo es significativa? c) Basándose en las respuestas a los incisos a) y b), ¿es la regresión significativa como un todo? Remítase al ejercicio 13-19. A un nivel de significancia de 0.01, ¿es la variable DISTANCIA una variable explicativa significativa para VENTAS? Para los datos del ejercicio 13-19 y la siguiente salida adicional de Minitab al correr la re gresión múltiple: Análisis de varianza FUENTE Regresión Error Total
■ 13-27
■ 13-28
■ 13-29
GL 4 18 22
SC 2861495 125761 2987256
MC 715374 6896.7
F 102.39
p 0.000
Al nivel de significancia de 0.05, ¿es la regresión significativa como un todo? Henry Lander es el director de producción de la Alecos Corporation de Caracas, Venezuela. Henry le pide que le ayude a determinar una fórmula para predecir el ausentismo de los empacadores de carne. Su hipótesis es que la temperatura diaria promedio puede explicar el porcentaje de ausentismo. Durante varios meses reúne datos, ejecuta el procedimiento de regresión simple y encuentra que la temperatura explica 66% de la variación en el ausentismo. Pero Henry no está con vencido de que éste sea un pronosticador satisfactorio. Sugiere que la precipitación pluvial diaria podría también tener algo que v er con el ausentismo, de modo que registra los datos correspondientes y hace una regresión del ausentismo durante el tiempo de lluvias, y obtiene un valor R2 de 0.59. “¡Eureka!”, grita usted. “¡Lo tengo! Con un pronosticador que explica 66% y otro que e xplica 59%, todo lo que tengo que hacer es una re gresión múltiple utilizando ambos y seguramente tendré un pronosticador casi perfecto.” Para su desánimo, sin embargo, la regresión múltiple tiene una R2 de sólo 68%, que es solamente un poco mejor que la v ariable de temperatura sola. ¿Cómo puede explicar esta aparente discrepancia? Juan Armenlegg, administrador de Rocky’s Diamond y Jewelry Store, está interesado en desarrollar un modelo para estimar la demanda del consumidor para su costosa mercancía. Como la mayoría de los clientes compran diamantes y joyas a crédito, Juan está seguro de que dos factores que deben influir en la demanda de los clientes son la tasa real de inflación anual y la tasa real de intereses sobre préstamos en los principales bancos del país. Explique algunos problemas que Juan podría encontrar si fuera a desarrollar un modelo de regresión basado en estas dos variables de predicción. Un nuevo programa de juegos, Check That Model, pide a los concursantes que especifiquen el número mínimo de parámetros que necesitan para determinar si un modelo de regresión múltiple es significativo como un todo para 0.01. Usted ganó la apuesta con 4 parámetros. Use la siguiente información para determinar si la regresión es significativa.
520
CAPÍTULO 13 Regresión múltiple y modelado
R2 0.7452 SCE 125.4
n 18 Número de variables independientes 3
■ 13-30
La Scottish Turist Agency está interesada en el número de turistas que entran al país cada semana (Y) durante la temporada alta. Se recolectaron los siguientes datos: Turistas (Y ) número de turistas que entran a Escocia en una semana (en miles) Cambio (X1) número de libras escocesas compradas por $1 dólar Precio (X2) número de libras escocesas cobradas por viaje redondo en camión de Londres a Edimburgo Promoc (X3) cantidad gastada en promoción del país (en miles de libras escocesas) Temp (X4) temperatura media durante la semana en Edimburgo (en grados Celsius)
Turistas (Y)
Cambio (X1)
Precio (X2)
Promoc (X3)
Temp (X4)
6.9 7.1 6.8 7.9 7.6 8.2 8.0 8.4 9.7 9.8 7.2 6.7
0.61 0.59 0.63 0.61 0.60 0.65 0.58 0.59 0.61 0.62 0.57 0.55
40 40 40 35 35 35 35 35 30 30 40 40
8.7 8.8 8.5 8.6 9.4 9.9 9.8 10.2 11.4 11.6 8.4 8.6
15.4 15.6 15.4 15.3 15.8 16.2 16.4 16.6 17.4 17.2 17.6 16.4
a) Utilice el paquete de software que tenga para determinar la ecuación de regresión que mejor se ajuste a los datos de la agencia de turismo. b) ¿Es la tasa de cambio una variable explicativa significativa? Establezca y pruebe las hipótesis adecuadas a un nivel de significancia de 0.10. c) Un incremento de 1,000 libras en las promociones, ¿aumenta el número de turistas en más de 200? Establezca y pruebe las hipótesis adecuadas para un nivel de significancia de 0.05. d) Calcule un intervalo de confianza del 95% para el coeficiente de la pendiente de Temp.
Soluciones a los ejercicios de autoevaluación EA
13-4
Como SCT SCR SCE, SCE SCT SCR 1,023.6 872.4 151.2. Como gl SCT gl SCR gl SCE, gl SCR gl SCT gl SCE 24 17 7. SCR/k 872.4/7 Entonces, F 14.01. SCE/(n k 1) 151.2/17
EA
13-5
FCRíT F(7, 17, 0.05) 2.61. Como FOBS > FCRÍT, se concluye que la regresión es significativa como un todo; Edith debe continuar buscando la salida de computadora de la regresión, para usarla en la junta. De la salida de computadora, se obti enen los siguientes resultados: a) VENTAS 172.34 25,950PROMOC 13.238COMPET 3.041GRATIS H1: BGRATIS 0
0.05 b) H0: BGRATIS 0 Ésta es una prueba de una cola y el valor prob en los resultados es para la alternativa de dos colas, H1: BGRATIS 0. De manera que para esta prueba, el valor prob es 0.221/2 0.111 0.05, por lo que no se puede rechazar H0; las ventas no disminuyen significativamente cuando aumenta el número de pasajeros que vuelan gratis. H1: BPROMOC 28
0.10 c) H0: BPROMOC 28
13.5: Técnicas de modelado
521
El valor observado t de los resultados de regresión es (bPROMOC 28) 25.950 28 0.420 sbPROMOC 4.877 Con 11 grados de libertad y 0.10 en ambas colas combinadas, los valores críticos t para la prueba son 1.796, así, el valor observado está dentro de la re gión de aceptación. No se rechaza H 0; el cambio en VENTAS para un incremento de una unidad ($1,000) en PROMOC no es significativamente diferente de 28 ($28,000). d) Con 11 grados de libertad, el valor t para un intervalo del 90% de confianza es 1.796, por lo que el intervalo es bCOMP 1.796sbCOMP 13.238 1.796(3.686) 13.238 6.620 (19.858, 6.618) La línea aérea puede tener una seguridad del 90% de que el ingreso por los boletos en una oficina disminuye entre $6,600 y $19,900 aproximadamente con cada línea aérea adicional que compite.
13.5 Técnicas de modelado Búsqueda de diferentes modelos
Dada una variable que deseamos explicar y un conjunto de variables explicativas potenciales, tal vez haya varias ecuaciones de regresión diferentes que podamos estudiar, dependiendo de qué variables explicativas incluyamos y de cómo lo hagamos. Cada una de esas ecuaciones de regresión se conoce como modelo. Las técnicas de modelado son las distintas formas en que podemos incluir las variables explicativas y verificar qué tan apropiados son los modelos de regresión. Existen muchas técnicas de modelado diferentes, pero sólo veremos dos de las más utilizadas.
Datos cualitativos y variables ficticias
Revisión del enfoque anterior del problema
En todos los ejemplos de regresión que hemos visto hasta ahora, los datos manejados han sido numéricos o cuantitativos. Pero, ocasionalmente, nos enfrentaremos con una variable categórica o cualitativa. En el problema del inicio el capítulo, el director de personal desea ver si el salario base de un vendedor depende de su sexo. En la tabla 13-5 repetimos los datos de dicho problema. Por el momento, ignore la antigüedad y utilice la técnica desarrollada en el capítulo 10 para probar la diferencia entre las medias de dos poblaciones,para ver si los hombres ganan más que las mujeres. Pruebe con 0.01. Si tomamos a los hombres como la población 1 y a las mujeres como la población 2, probaremos las siguientes hipótesis: H0: 1 2 ← Hipótesis nula: no existe discriminación por sexo en los salarios base H1: 1 2 ← Hipótesis alternativa: se discrimina a las mujeres en su salario base
0.01 ← Nivel de significancia
Tabla 13-5 Datos para el problema de discriminación por sexo
Vendedores Antigüedad Salario base (en meses) (en miles) 6 10 12 18 30
7.5 8.6 9.1 10.3 13.0
Vendedoras Antigüedad Salario base (en meses) (en miles) 5 13 15 21
6.2 8.7 9.4 9.8
522
CAPÍTULO 13 Regresión múltiple y modelado
A continuación bosquejamos el análisis. Si tiene problemas para seguirlo, deberá repasar brevemente la sección 10.3. n1 5
n2 4
x1 9.7 s21 4.415
x2 8.525 s22 2.609
(n1 – 1)s21 (n2 – 1)s22 sp2 n1 n2 – 2
[10-3]
4(4.415) 3(2.609) 54–2 3.641 1 1 ˆ x1 x2 sp n1 n2
1.28
[10-4]
(x1 – x2) – (1 2)H0 t ˆ x 1 x2 (9.7 – 8.525) – 0 1.28 0.92
El enfoque anterior no detecta discriminación Una “mirada” a los datos
Con siete grados de libertad,el valor t crítico para una prueba de cola superior con 0.01 es 2.998. Como el valor t observado de 0.92 es menor que 2.998, no podemos rechazar H0. Entonces, el análisis concluye que no parece haber discriminación por sexo en los salarios base. Pero recuerde que hasta ahora se han ignorado los datos de antigüedad laboral para el análisis. Antes de seguir, vea el diagrama de dispersión de los datos. En la figura 13-9, los puntos negros corresponden a los hombres y los blancos a las mujeres. El diagrama de dispersión muestra con claridad que el salario base aumenta con los años de antigüedad; pero si con la mirada sigue lo que sería la recta de regresión, notará que los puntos negros tienden a estar arriba de ella y los blancos abajo. La figura 13-10 da la salida de una regresión del salario base sobre los meses de antigüedad. De los resultados, se ve que la antigüedad es una variable explicativa altamente significativa. Además r2 92.6%, que indica que la variable meses de antigüedad explica cerca del 93% de la variación en el salario base. La figura 13-11 contiene parte de la salida que no se vio antes, una tabla de residuos. Para cada punto, el residuo es simplemente Y Yˆ, que se reconoce como el error en
Diagrama de dispersión de salarios base contra meses de antigüedad
Salario (miles de dólares)
FIGURA 13-9
12
8
4
4
8
12
16 20 Meses de antigüedad
24
28
13.5: Técnicas de modelado
FIGURA 13-10 Regresión con Minitab del salario base sobre los meses de antigüedad
Análisis de regresión La ecuación de regresión es SALARIO 5.81 0.233 MESES Pronosticador Constante MESES
Coef 5.8093 0.23320
s 0.5494
Tabla de residuos de Minitab
“Presionar a los residuos...”
Detección de patrones en los residuos
Uso de variables ficticias
RENGLÓN 1 2 3 4 5 6 7 8 9
DesvEst Cociente-t 0.4038 14.39 0.02492 9.36
p 0.000 0.000
R-sq 92.6%
Análisis de varianza FUENTE GL Regresión 1 Error 7 Total 8 FIGURA 13-11
523
SALARIO 7.5 8.6 9.1 10.3 13.0 6.2 8.7 9.4 9.8
SC 26.443 2.113 28.556
AJUST1 7.2085 8.1413 8.6077 10.0069 12.8054 6.9753 8.8409 9.3073 10.7066
MC 24.443 0.302
F 87.61
p 0.000
RESI1 0.291499 0.458684 0.492276 0.293054 0.194607 -0.775297 -0.140928 0.092664 -0.906558
el ajuste de la recta de regresión en ese punto. En la figura 13-11, AJUST1 son los valores ajustados y RESI1 son los residuos. Tal vez, la parte más importante del análisis del resultado de una regresión sea estudiar residuos. Si la regresión incluye todos los factores explicativos relevantes, estos residuos deben ser aleatorios. Dicho de otro modo, si los residuos muestran cualquier patrón no aleatorio, esto indica que hay algo sistemático que afecta el proceso y que no hemos tomado en cuenta. De manera que buscamos patrones en los residuos; o, para decirlo de forma más pintoresca, “presionamos a los residuos hasta hacerlos hablar”. Si observamos los residuos presentados en la figura 13-11, vemos que los primeros cinco residuos son positivos. De modo que para los v endedores tenemos Y – Yˆ 0 o Y Yˆ, es decir, la recta de regresión cae abajo de estos cinco puntos. Tres de los cuatro últimos residuos son ne gativos. Por consiguiente, para las vendedoras tenemos, Y Yˆ 0 o Y Yˆ, así que la recta de regresión se encuentra arriba de tres de los cuatro puntos. Esto conf irma lo que vimos al observ ar el diagrama de dispersión de la figura 13-9. Este patrón no aleatorio en los residuos sugiere que el sexo sí es un factor determinante del salario base. ¿Cómo podemos incorporar el se xo de los vendedores dentro del modelo de regresión? Lo hacemos utilizando un dispositi vo llamado variable ficticia (o variable indicadora). Para los cinco puntos que representan a los vendedores, esta variable tiene valor de 0 y para los cuatro puntos que representan a las vendedoras valdrá 1. Los datos de entrada para nuestra regresión con variables ficticias, se dan en la tabla 13-6. Para los datos de la tabla 13-6 se ajusta una regresión de la forma: Yˆ a b1X1 b2X2
[13-5]
524
CAPÍTULO 13 Regresión múltiple y modelado
Tabla 13-6 Datos de entrada para una regresión de discriminación por género
X1 Meses de antigüedad
Hombres
Mujeres
6 10 12 18 30 5 13 15 21
X2 Sexo
Y Salario base (miles de dólares)
0 0 0 0 0 1 1 1 1
7.5 8.6 9.1 10.3 13.0 6.2 8.7 9.4 9.8
Veamos qué sucede si utilizamos esta regresión para predecir el salario base de un individuo con X1 meses de antigüedad: Vendedor: Yˆ a b1X1 b2(0) a b1X1 Vendedora: Yˆ a b1X1 b2(1) a b1X1 b2 Interpretación del coeficiente de la variable ficticia
Para vendedores y vendedoras con la misma antigüedad en el trabajo, predecimos una diferencia en el salario base de b2 miles de dólares. Ahora bien, b2 es solamente nuestra estimación de B2 en la regresión de la población: Y A B1X1 B2X2
Prueba para ver si hay discriminación
[13-7]
Si en realidad hay discriminación contra las mujeres, ellas deberían ganar menos que los hombres con la misma antigüedad. En otras palabras, B2 debería ser negativo. Podemos probar esto al nivel de significancia de 0.01: H0: B2 0 ← Hipótesis nula: no hay discriminación sexual en los salarios base H1: B2 0 ← Hipótesis alternativa: hay discriminación contra las mujeres
0.01 ← Nivel de significancia
Conclusión: sí hay discriminación
FIGURA 13-12 Salida de Minitab sobre la discriminación por sexo
Con el fin de probar estas hipótesis, ejecutamos el procedimiento de regresión para los datos de la tabla 13-6. Los resultados de la regresión se presentan en la figura 13-12. Nuestra prueba de hipótesis está basada en la distribución t con n k 1 9 2 – 1 6 grados de libertad. Para esta prueba de cola inferior, el valor crítico, tomado de la tabla 2 del apéndice,
Análisis de regresión La ecuación de regresión es SALARIO 6.25 0.227 MESES 0.789 SEXO Pronosticador Constante MESES SEXO
Coef 6.2485 0.22707 -0.7890
s 0.3530
DesvEst 0.2915 0.01612 0.2384
Cociente-t 21.44 14.09 -3.31
p 0.000 0.000 0.016
MC 13.904 0.125
F 111.56
R-sq 97.4%
Análisis de varianza FUENTE Regresión Error Total
GL 2 6 8
SC 27.808 0.748 28.556
p 0.000
13.5: Técnicas de modelado
Interpretación del coeficiente de la variable ficticia
525
es tc 3.143. En la figura 13-12 vemos que el coeficiente de regresión estandarizado para nuestra prueba es to 3.31. En la figura 13-13 se ilustra el valor crítico y el coeficiente estandarizado. El coeficiente observado, b2, queda fuera de la región de aceptación, de modo que rechazamos la hipótesis nula y llegamos a la conclusión de que la empresa discrimina a sus vendedoras. De paso, también notamos que el valor calculado de t para b1 en esta regresión es 14.09, así que la inclusión del sexo como una variable explicativa hace que la antigüedad sea más signif icativo como variable explicativa que antes. La figura 13-14 proporciona la salida de Minitab de los valores ajustados y los residuos para esta regresión. Como fue la segunda regresión que se corrió sobre estos datos, Minitab ahora llama AJUST2 y RESI2 a estos valores. Observe que los residuos de esta regresión no parecen mostrar ningún patrón no aleatorio. Revisemos la forma en que manejamos la variable cualitativa en este problema. Establecimos una variable ficticia, le asignamos un valor de 0 para los hombres y 1 para las mujeres. Entonces,el coeficiente de la variable ficticia se puede interpretar como la diferencia entre el salario base de una mujer y el salario base de un hombre. Suponga que se fija la variable ficticia en 0 para las mujeres y 1 para los hombres. Entonces, su coeficiente sería la diferencia entre el salario base de un hombre y el de una mujer, en ese orden. ¿Podría decir cuál hubiera sido el resultado de la regresión en este caso? No debe sorprenderle encontrar que el resultado hubiera sido: Yˆ 5.4595 0.22707X1 0.7890X2
Extensiones de las técnicas de variables ficticia
La elección de a qué categoría se le da el v alor de 0 y a cuál el de 1 es totalmente arbitraria y sólo afecta el signo, no el valor numérico del coeficiente de la variable ficticia. Nuestro ejemplo tenía sólo una v ariable cualitativa (el sexo), y esa variable nada más tenía dos categorías posibles (hombre y mujer). Aunque no veremos los detalles aquí, las técnicas de variables ficticias también se pueden utilizar en problemas que contienen varias variables cualitativas que pueden tener más de dos categorías posibles.
FIGURA 13-13 Prueba de hipótesis de cola izquierda al nivel de significancia de 0.01, que ilustra la región de aceptación y el coeficiente de regresión estandarizado
Región de aceptación Acepte la hipótesis nula si el valor muestral está en esta región
Coeficiente de regresión estandarizado –3.31
–3.143
FIGURA 13-14 Tabla de residuos de Minitab
t
0
RENGLÓN
SALARIO
AJUST2
RESI2
1 2 3 4 5 6 7 8 9
7.5 8.6 9.1 10.3 13.0 6.2 8.7 9.4 9.8
7.6109 8.5192 8.9734 10.3358 13.0607 6.5949 8.4115 8.8656 10.2281
-0.110921 0.080784 0.126637 -0.035807 -0.060692 -0.394873 0.288537 0.534389 -0.428053
526
CAPÍTULO 13 Regresión múltiple y modelado
Transformación de variables y curvas de ajuste
Observación de un patrón en los residuos
Un fabricante de motores eléctricos pequeños utiliza una fresadora automática para hacer las ranuras en el eje de los motores. Se procesa un lote de ejes y luego se verifica. Todos los ejes del lote que no cumplen con las especificaciones del tamaño de ranura requerido se descartan. Al inicio de cada lote, se calibra la fresadora, ya que la cabeza cortadora se desgasta un poco durante la producción de cada lote. El fabricante desea obtener un tamaño de lote óptimo, pero para lograrlo, debe saber cómo afecta el tamaño del lote al número de ejes defectuosos. La tabla 13-7 contiene los datos correspondientes a una muestra de 30 lotes, clasificados según el tamaño. La figura 13-15 es un diagrama de dispersión para estos datos. Como hay dos lotes de 250 ejes y 34 defectuosos en cada uno,dos de los puntos del diagrama de dispersión coinciden (esto corresponde al punto más grande en la figura 13-15). Haremos una regresión del número de ejes defectuosos sobre el tamaño del lote. La salida de la regresión se da en las figuras 13-16 y 13-17. ¿Qué nos dice este resultado? Primero, que el tamaño del lote desempeña un magnífico papel al explicar el número de ejes defectuosos: el valor calculado t es 23.94 y r2 95.3%. Sin embargo, a pesar del valor t increíblemente alto y del hecho de que el Tabla 13-7
Tamaño de lote
Núm. de defectos
Tamaño de lote
Núm. de defectos
100 125 125 125 150 150 175 175 200 200 200 225 225 225 250
5 10 6 7 6 7 17 15 24 21 22 26 29 25 34
250 250 250 275 300 300 325 350 350 350 375 375 375 400 400
37 41 34 49 53 54 69 82 81 84 92 96 97 109 112
Número de ejes defectuosos por lote
FIGURA 13-15 120
Diagrama de dispersión de ejes defectuosos contra tamaño del lote
● ●
Ejes defectuosos
100
● ● ● ● ● ●
80 ●
60 ● ● ● ●
40
●
● ● ● ● ●
● ● ●
20
● ●
●
0
100
● ● ●
● ●
200 Tamaño del lote
300
400
13.5: Técnicas de modelado
FIGURA 13-16 Salida de Minitab para la regresión de defectos sobre tamaño de lote
527
Análisis de regresión La ecuación de regresión es DEFECTOS − 47.9 0.367 TAMAÑLOT Pronosticador Constante TAMAÑLOT s 7.560
Coef -47.901 0.036713
DesvEst 4.112 0.01534
Cociente-t -11.65 23.94
p 0.000 0.000
SC 32744 1600 34345
MC 32744 57
F 572.90
R-sq 95.3%
Análisis de varianza FUENTE Regresión Error Total FIGURA 13-17 Salida de residuos de Minitab
Qué sugiere el patrón
RENGLÓN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
GL 1 28 29
DEFECTOS 5 10 6 7 6 7 17 15 24 21 22 26 29 25 34 37 41 34 49 53 54 69 82 81 84 92 96 97 109 112
AJUST1 -11.1875 -2.0093 -2.0093 -2.0093 7.1690 7.1690 16.3473 16.3473 25.5256 25.5256 25.5256 34.7039 34.7039 34.7039 43.8822 43.8822 43.8822 43.8822 53.0605 62.2387 62.2387 71.4170 80.5953 80.5953 80.5953 89.7736 89.7736 89.7736 98.9519 98.9519
p 0.000
RESI1 16.1875 12.0093 8.0093 9.0093 -1.1690 -0.1690 0.6527 -1.3473 -1.5256 -4.5256 -3.5256 -8.7039 -5.7039 -9.7039 -9.8822 -6.8822 -2.8822 -9.8822 -4.0605 -9.2387 -8.2387 -2.4170 1.4047 0.4047 3.4047 2.2264 6.2264 7.2264 10.0481 13.0481
tamaño del lote explica el 95% de la variación en el número de defectos, los residuos en esta regresión están lejos de ser aleatorios. Note cómo empiezan con v alores positivos grandes, disminuyen, se hacen cada vez más negativos y luego regresan para terminar con valores positivos grandes. ¿Qué nos indica esto? Observe la figura 13-18, en la que hemos ajustado una recta de regresión, trazada en negro (Yˆ 7 7X), a los ocho puntos (X, Y) (0,0), (1,l), (2,4), (3,9), . . . , (7,49), que se encuentran sobre la curva gris (Y X 2). La figura también muestra los residuos y su signo.
528
CAPÍTULO 13 Regresión múltiple y modelado
FIGURA 13-18 Ajuste de una recta a los puntos de una curva
Y Y = X2 50 + ^ Y = –7 + 7X
40 +
30 –
20
– –
10 – +
X
0 +
1
2
3
4
5
6
7
-10
Ajuste de una curva a los datos
La curva es mucho mejor que la recta
El patrón de residuos que obtuvimos en el problema de los ejes es bastante parecido al patrón observado en la figura 13-18. Quizá, los datos de los ejes se aproximen mejor por una curv a que por una recta. Observe nuevamente la figura 13-15. ¿Qué cree usted? Pero, sólo hemos ajustado líneas rectas. ¿Cómo debemos proceder para ajustar una curv a? El procedimiento es sencillo, Sólo debemos introducir otra variable, X2 (tamaño del lote)2, y luego realizar una regresión múltiple. Los datos de entrada se presentan en la tabla 13-8, y los resultados en las figuras 13-19 y 13-20. Observando la figura 13-19, vemos que tamaño de lote y (tamaño de lote) 2 son ambas variables explicativas significativas, ya que sus valores t son 3.82 y 15.67, respectivamente. El coeficiente de determinación múltiple es R2 99.5%; así que, juntas, las dos variables explican el 99.5% de la variación en el número de ejes defectuosos. Como última comparación de las dos regresiones, note que el error estándar de la estimación, que mide la dispersión de los puntos de la muestra alrededor
Tabla 13-8 Datos de entrada para el ajuste de una curva a los datos de los ejes de motor
X1 Tamaño de lote
X2 (tamaño de lote)2
Y Número de defectos
X1 Tamaño de lote
X2 (tamaño de lote)2
Y Número de defectos
100 125 125 125 150 150 175 175 200 200 200 225 225 225 250
10,000 15,625 15,625 15,625 22,500 22,500 30,625 30,625 40,000 40,000 40,000 50,625 50,625 50,625 62,500
5 10 6 7 6 7 17 15 24 21 22 26 29 25 34
250 250 250 275 300 300 325 350 350 350 375 375 375 400 400
62,500 62,500 62,500 75,625 90,000 90,000 105,625 122,500 122,500 122,500 140,625 140,625 140,625 160,000 160,000
37 41 34 49 53 54 69 82 81 84 92 96 97 109 112
13.5: Técnicas de modelado
FIGURA 13-19 Salida de Minitab para la regresión sobre tamaño de lote y (tamaño de lote)2
529
Análisis de regresión La ecuación de regresión es DEFECTOS 6.90 − 0.120 TAMAÑLOT 0.000950 TAMAÑLOT Pronosticador Constante TAMAÑLOT TAMAÑOSQ s 2.423
Coef 6.898 -0.12010 0.00094954
DesvEstCociente-t 3.737 1.85 0.03148 -3.82 0.00006059 15.67
p 0.076 0.001 0.000
R-sq 99.5%
Análisis de varianza FUENTE Regresión Error Total FIGURA 13-20 Salida de residuos de Minitab
RENGLÓN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
GL 2 27 29
DEFECTOS 5 10 6 7 6 7 17 15 24 21 22 26 29 25 34 37 41 34 49 53 54 69 82 81 84 92 96 97 109 112
AJUST1 4.383 6.721 6.721 6.721 10.247 10.247 14.959 14.959 20.859 20.859 20.859 27.945 27.945 27.945 36.218 36.218 36.218 36.218 45.678 56.325 56.325 68.159 81.180 81.180 81.180 95.388 95.388 95.388 110.783 110.783
SC 34186 159 34345
MC 17093 6
F 2911.35
p 0.000
RESI1 0.61728 3.27869 -0.72131 0.27869 -4.24682 -3.24682 2.04074 0.04074 3.14138 0.14138 1.14138 -1.94491 1.05509 -2.94491 -2.21811 0.78189 4.78189 -2.21811 3.32175 -3.32530 -2.32530 0.84072 0.81982 -0.18018 2.81982 -3.38800 0.61200 1.61200 -1.78275 1.21725
del modelo ajustado, es 7.560 para el modelo de la recta,y sólo 2.423 para el modelo de la curva. El modelo curvilíneo es superior que el modelo de la ercta, ¡a pesar de que este último explica 95% de la variación! Recuerde que fue el patrón observado en los residuos del modelo de la recta lo que sugirió que un modelo curvilíneo sería más apropiado. Los residuos del modelo de la curva, en la figura 13-20, no exhiben patrón alguno.
530
CAPÍTULO 13 Regresión múltiple y modelado
En nuestro modelo de la curva, obtuvimos la segunda variable (tamaño de lote)2, haciendo una transformación matemática de nuestra primera v ariable, tamaño de lote. Debido a que ele vamos una variable al cuadrado, la curva resultante se conoce como modelo de regresión de segundo grado (o cuadrático). Existen muchas otras formas de transformar variables para obtener nuevas variables, y la mayoría de los paquetes de softw are que realizan análisis de re gresión cuentan con esas transformaciones integradas. No hay necesidad de calcular a mano las variables transformadas, como lo hicimos en la tabla 13-8. Los paquetes de software tienen la capacidad de calcular todo tipo de transformaciones de una o más v ariables: sumas, diferencias, productos, cocientes, raíces, potencias, logaritmos, exponenciales, funciones trigonométricas, y más.
Transformación de variables
Existen muchas regresiones (o modelos) que pueden explicar el comportamiento de una variable dependiente por medio de un grupo de v ariables independientes. Nuestro trabajo es incluir las v ariables explicativas correctas para encontrar la más efecti va. Vimos que podemos incluir variables independientes cualitativas usando variables ficticias y que es posible transformar variables para ajustar curvas a los datos. Advertencia: aun
cuando el resultado de la regresión en estos dos casos refleja el enorme poder de la computadora, todavía necesita apoyarse en su sentido común para v er si hay patrones no aleatorios en los residuos. Sin él, no se puede detectar si ocurre algo sistemático en los datos que no se haya tomado en cuenta. Sugerencia: el secreto al usar la estadística para tomar b uenas decisiones nunca cambia. Siempre es una combinación efectiva de datos, computadoras y sentido común.
SUGERENCIAS Y SUPOSICIONES
Ejercicios 13.5 Ejercicios de autoevaluación EA
13-6
Cindy’s, una popular cadena de comida rápida,ha experimentado un cambio importante en sus ventas como resultado de una campaña de publicidad muy exitosa. En consecuencia, la gerencia ahora necesita un nuevo modelo de regresión para sus ventas. Los siguientes datos se recolectaron en las 12 semanas posteriores al inicio de la campaña de publicidad. Tiempo
Ventas (en miles de dólares)
Tiempo
Ventas (en miles de dólares)
1 2 3 4 5 6
4,618 3,741 5,836 4,367 5,118 8,887
7 8 9 10 11 12
19,746 34,215 50,306 65,717 86,434 105,464
a) Use la siguiente salida de Minitab para determinar la regresión que mejor se ajuste a VENTAS sobre TIEMPO. La ecuación de regresión es VENTAS 26233 9093 TIEMPO Pronosticador Constante
Coef
DesvEst
Cociente-t
p
26233
9551
2.75
0.021
9093
1298
7.01
0.000
TIEMPO s 15518
R-sq 83.1%
RENGLÓN
VENTAS
AJUST1
RESI1
RENGLÓN
VENTAS
AJUST1
RESI1
1
4618
17140
21758
7
19746
37417
17671
2
3741
8047
11788
8
34215
46510
12295
3
5836
1046
4790
9
50306
55603
5297
4
4367
10139
5772
10
65717
64696
1021
5
5118
19231
14113
11
86434
73789
12645
6
8887
28324
19437
12
105464
82881
22583
13.5: Técnicas de modelado
531
b) ¿Está satisfecho con el modelo como pronosticador de VENTAS? Explique. c) La siguiente salida usa TIEMPO y TIEMPOSCUAD (TIEMPOS al cuadrado) como variables explicativas. ¿Es este modelo cuadrático un mejor ajuste para los datos? Explique. La ecuación de regresión es VENTAS 13981 8142 TIEMPO 1326 TIEMPOSCUAD Pronosticador
Coef
DesvEst
Cociente-t
p
13981
2720
5.14
0.000
8141.5
961.9
8.46
0.000
1325.72
72.03
18.41
0.000
Constante TIEMPO TIEMPOSCUAD s 2631
EA
13-7
R-sq 99.6%
RENGLÓN
VENTAS
AJUST1
RESI1
RENGLÓN
VENTAS
AJUST1
RESI1
1
4618
7165
2547
7
19746
21950
2204
2
3741
3001
740
8
34215
33695
520
3
5836
1488
4348
9
50306
48090
2216
4
4367
2626
1741
10
65717
65138
579
5
5118
6416
1298
11
86434
84836
1598
6
8887
12858
3971
12
105464
107186
1722
La siguiente tabla contiene datos de gastos de consumo, CONSUMO; ingreso disponible, INGRESO; y sexo de la cabeza de la casa, SEXO, de 12 familias elegidas al azar. La variable GÉNERO se ha codificado como sigue: GÉNERO
M (masculino) 10 sisi SEXO SEXO F (femenino)
Consumo
Ingreso (dólares)
Sexo
Género
37,070 22,700 24,260 30,420 17,360 33,520 26,960 19,360 35,680 22,360 28,640 39,720
45,100 28,070 26,080 35,000 18,860 41,270 32,940 21,440 44,700 24,400 33,620 46,000
M M F M F M M F M F F M
1 1 0 1 0 1 1 0 1 0 0 1
a) Utilice la siguiente salida de Minitab para determinar la re gresión de mejor ajuste para pronosticar CONSUMO a partir de INGRESO y GÉNERO. La ecuación de regresión es CONSUMO 2036 0.818 INGRESO 1664 GÉNERO Pronosticador
Coef
DesvEst
Cociente-t
p
Constante
2036
1310
1.55
0.155
INGRESO
0.81831
0.04940
16.56
0.000
GÉNERO
1664.2
916.9
1.82
0.103
s 1015
R-sq 98.4%
b) Si el ingreso disponible se mantiene constante, ¿existe una diferencia significativa en el consumo entre las casas cuya cabeza es masculina comparada con aquéllas cuya cabeza es femenina? Establezca las hipótesis explícitas, pruébelas para un nivel de 0.10 y establezca una conclusión explícita. c) Proporcione un intervalo de confianza para la estimación del 95% para el consumo en una casa con ingreso disponible de $40,000 cuya cabeza de familia es masculina.
532
CAPÍTULO 13 Regresión múltiple y modelado
Conceptos básicos ■ 13-31 ■ 13-32
■ 13-33
■ 13-34
Describa tres situaciones de la vida diaria en las que las variables ficticias podrían utilizarse en modelos de regresión. El dueño de restaurantes situados en dos ciudades, cree que el ingreso se puede predecir a partir del flujo de tránsito frente a los restaurantes con un modelo de regresión cuadrática. a) Describa un modelo cuadrático para predecir el ingreso a partir del flujo de tránsito. Establezca la forma de la ecuación de regresión. b) Se ha sugerido que la ciudad en donde se encuentra un restaurante tiene efecto sobre el ingreso. Extienda el modelo del inciso a) con una variable ficticia para incorporar la sugerencia. De nuevo, establezca la forma del modelo de regresión. Suponga que tiene un conjunto de puntos al cual ha ajustado una ecuación de regresión lineal. Aunque la R2 para la recta es muy alta, usted se pregunta si será buena idea ajustar una ecuación de segundo grado a los datos. Describa cómo tomaría su decisión basándose en: a) Un diagrama de dispersión de los datos. b) Una tabla de residuos de la regresión lineal. Un estadístico recolectó un conjunto de 20 pares de datos. A la variable independiente la llamó X1 y a la variable dependiente Y. Llevó a cabo una regresión de Y sobre X1, y no quedó satisfecho con el resultado. Debido a algunos patrones no aleatorios que observó en los residuos,decidió elevar al cuadrado los valores de X1; designó como X2 a estos valores al cuadrado. Luego el estadístico corrió una regresión múltiple de Y sobre X1 y X2. La ecuación resultante fue Yˆ 200.4 2.79X – 3.92X 1
2
El valor de Sb1 fue 3.245 y el de Sb2 fue 1.53. A un nivel de significancia de 0.05, determine si a) el conjunto de valores lineales de X1 es una variable explicativa significativa para Y. b) el conjunto de valores al cuadrado de X1 es una variable explicativa significativa para Y.
Aplicaciones ■ 13-35
La doctora Linda Frazer tiene una clínica en Filadelfia. Registró los datos de la edad, reacción a la penicilina y presión sanguínea sistólica de 30 pacientes. Estableció la presión sanguínea como la v ariable dependiente, la edad como X1 (variable independiente) y la reacción a la penicilina como X2 (variable independiente). Designó 0 para una reacción positi va a la penicilina y 1 para una reacción ne gativa, realizó una regresión múltiple en su computadora. La ecuación de predicción es Yˆ 6.7 3.5X 0.489X 1
■ 13-36
2
a) Después de haber corrido la re gresión, la doctora Frazer descubrió que en realidad quería codif icar una reacción positiva a la penicilina como 1 y la negativa como 0. ¿Tiene que volver a realizar la regresión? Si así es, ¿por qué? Si no, dé la ecuación que hubiera obtenido de haber codificado la variable como en realidad lo deseaba. b) Si Sb2 tiene un valor de 0.09, ¿esta regresión proporciona evidencia a un nivel de significancia de 0.05 de que la reacción a la penicilina es una variable explicativa significativa de la presión sanguínea? La empresa de computadoras Excelsior Notebook está revisando su política de control de inventarios. Necesitan predecir con exactitud el número de computadoras EXC-11E que ordenarán los pro veedores en las próximas semanas. Los datos de las últimas 15 semanas son los siguientes: Tiempo
Demanda (en miles)
1 2 3 4 5 6 7 8
6.7 10.2 13.4 15.6 18.2 22.6 30.5 31.4 Continúa
13.5: Técnicas de modelado
■ 13-37
Tiempo
Demanda (en miles)
9 10 11 12 13 14 15
38.7 41.6 48.7 51.4 55.8 61.5 68.9
533
a) Utilice el paquete de software que tenga para ajustar un modelo lineal con TIEMPO como la variable independiente y DEMANDA como la variable dependiente. b) Ajuste un modelo cuadrático a los datos. ¿Es mejor este modelo? Explique. Los siguientes datos corresponden a las ventas brutas (VENTAS) de la pizzería local, el dinero que gastan en promociones (PROMO) y el tipo de promoción que incluye radio, periódicos y volantes. Suponga que la pizzería usa un solo tipo de promoción en una semana dada. Las variables TIPO1 y TIPO2 se han codificado como sigue: TIPO1 1 si se usó radio, 0 de otra manera TIPO2 1 si se usaron volantes, 0 de otra manera (cuando las dos, TIPO1 y TIPO2, son 0, el presupuestos de la promoción de esa semana se gastó en anuncios de periódico). VENTAS (cientos)
PROMO (cientos)
TIPO1
TIPO2
12.1 19.1 26.9 24.8 37.1 39.4 32.5 28.9 28.8 34.7 38.4 26.3
3.8 6.4 7.9 8.7 12.4 15.9 11.3 9.4 8.6 12.7 14.3 6.7
0 0 0 1 1 0 0 0 1 0 0 1
1 1 0 0 0 1 0 0 0 1 0 0
a) Utilice un paquete de software para ajustar un modelo de regresión que pronostique VENTAS a partir de PROMO, TIPO1 y TIPO2. b) Establezca la función de regresión ajustada. c) Si PROMO se mantiene constante, ¿existe una diferencia significativa entre el radio y el periódico? Establezca las hipótesis adecuadas y pruebe con un nivel de significancia de 0.05. d) Si PROMO se mantiene constante, ¿existe una diferencia significativa entre los volantes y el periódico? Establezca las hipótesis adecuadas y prueba con un nivel de significancia de 0.05. e) Calcule un intervalo de confianza del 90% para VENTAS en una semana en la que se gastaron $800 usando anuncios de radio como el único tipo de promoción.
Soluciones a los ejercicios de autoevaluación EA
13-6
EA
13-7
De la salida de computadora se obtienen los siguientes resultados: a) Pronóstico de VENTAS 26233 9093TIEMPO. b) Aunque R2 es relativamente alta (83.1%), éste no es un buen modelo debido al patrón en los residuos. Comienzan grandes y positivos, disminuyen, van a grandes y negativos y después crecen a positivos de nuevo. Es claro que sería mejor un modelo cuadrático. c) Pronóstico de VENTAS 13981 8141.5TIEMPO 1325.72TIEMPOCUAD. Este modelo es bastante mejor. R2 aumenta a 99.6% y no hay un patrón en los residuos. De la salida de computadora se tienen los siguientes resultados: a) Pronóstico de CONSUMO 2036 0.818INGRESO 1664GÉNERO.
534
CAPÍTULO 13 Regresión múltiple y modelado
b) H0: BGÉNERO 0 H1: BGÉNERO 0
0.10 Dado que el valor prob para la prueba (0.103) es mayor que (0.10), no se puede rechazar H0; el género de la cabeza de familia no es un factor significativo para explicar el consumo. c) Pronóstico de CONSUMO 2036 0.818(40,000) 1664(1) $33,092. Con 9 grados de libertad, el valor t para un intervalo de confianza para Yˆ del 95% para CONSUMO es 2.262, de manera que el intervalo es Yˆ tse 33,092 2.262(1,015) 33,092 2,296 ($30,796, $35,388).
Estadística en el trabajo Loveland Computers Caso: Regresión múltiple y modelado Lee estaba feliz de poder informar a Nancy Rainwater que los defectos que ocurrían en las bases de los teclados, de hecho, se relacionaban con las bajas temperaturas diarias re gistradas en Loveland. El supervisor del almacén confirmó la explicación. “Seguro, el almacén donde se guardan los componentes tiene calefacción”, informó Skip Tremont. “Pero sólo se trata de dos calentadores industriales de gas instalados cerca del techo. Cuando el ambiente empieza a enfriar un poco, funcionan bastante bien. Pero en esas noches de invierno verdaderamente frías, aunque los calentadores trabajen toda la noche, el almacén sigue muy frío.” “¿Así que necesitamos más calentadores?”, preguntó Nancy. “No necesariamente; el problema es que todo el aire caliente se queda en la parte de arriba y enfría bastante cerca del suelo. Entonces, cuando la gente empieza a entrar y salir durante el tiempo de trabajo, el aire se revuelve y el nivel inferior, en donde se almacenan las cosas, queda a temperatura ambiente.” “De modo que podríamos resolver el problema instalando un par de ventiladores en el techo”, intervino Tyrona Wilson. “Justo lo que estaba pensando”, dijo Skip, al tiempo que se metía a su camioneta para ir a la tienda de materiales para la construcción. “No son caros, puedo comprar un par con el dinero de mi presupuesto de mantenimiento.” “¡Un gran ejemplo de administración de calidad!”, comentó Lee. “Ves, Nancy, las personas que trabajan en el cada área saben las respuestas, sólo tienes que facultarlos para que implanten una solución.” “Bueno, déjame invitarte a comer para que platiques con alguien que tiene un problema más complicado.” Frente a un plato de tamales, Lee Azko conoció a Sherrel Wright, la gerente de publicidad. Sherrel era una “nueva contratación” y sólo tenía seis meses en la compañía. “Ya conoces a Margot, está a cargo de marketing. Ella maneja el panorama completo. Mi trabajo consiste en concentrarme en el presupuesto de publicidad y colocar anuncios de modo que el resultado el mayor aumento posible en las ventas.” “¿Cómo decides cuánto de cada medio contratar?”, preguntó Lee.
“Para ser sincera, antes de que yo llegara, las cosas no se hacían de manera muy científ ica. Tu tío te dirá que cuando Loveland empezó, el número de anuncios dependía del flujo de efectivo. Cuando entré a trabajar aquí,pude ver que el presupuesto de publicidad subía y bajaba se gún el dinero obtenido el trimestre anterior. Esto significaba que si teníamos un trimestre malo, la compañía disminuía el presupuesto de publicidad del siguiente. Mar got les decía todo el tiempo que eso era justo lo contrario a una b uena estrategia; en muchas ocasiones el aumento del presupuesto de publicidad te puede sacar de una depresión en v entas. Pero me imagino que siempre sentían pánico respecto al flujo de efecti vo. Ahora parece que vamos a tener un nuevo presupuesto sustancial y tendremos que ser más científicos en cuanto a nuestros planes de publicidad.” “Entonces, ¿cómo decides qué anuncios comprar?”, Lee estaba ansioso por saber más de comercialización en el mundo real. “Bueno, tu tío dice que es un arte. Él tendía a contratar publicidad con las revistas que le gusta leer , aunque es el primero en admitir que no sería un típico cliente de Lo veland, de manera que ha sido bastante recepti vo con mis ideas del costo por miles de lectores, lectores meta, etc. Las revistas mensuales de computación son nuestro objeti vo principal, pero cada mes salen al mercado más, de modo que tengo que ser selectiva al ver dónde gastamos el dinero. Algunos de nuestros competidores han estado comprando espacios de cuatro o cinco páginas. Hemos intentado hacer eso en un par de revistas, pero resulta difícil saber si tienen mayor rendimiento que el anuncio de una página. El v olumen de ventas tiende a atrasarse respecto a la publicidad efectiva, es difícil medir el éxito de un anuncio individual. “Supongo que ya intentaron monitorear el v olumen de llamadas a los números 800”, comentó Lee. “Pues, no. Sería buena idea, ¿tenemos estadísticas de eso?” “Aunque no las tengamos la compañía de teléfonos puede darnos un informe diario.Tenemos que ver si el volumen de llamadas o el volumen de ventas es el mejor indicador”, expresó Lee muy en su papel. “Oye, no es tan sencillo”, intervino Gracia Delaguardia, la ingeniera en jefe de la compañía que acababa de llegar con un plato de burritos en la mano y jalaba una silla. “¿No importa si me siento?” “Adelante”, dijo Sherrel quien no tenía la intención de cortar a uno de los dos socios de Loveland Computers.
Del libro de texto al mundo real
“Sin ánimo de ofender tu sensibilidad de pubicista, creo que fuerzas externas a la compañía determinan nuestras ventas. Si la economía crece,nos va bien; si hay recesión,no nos va tan bien.” “¿En los primeros años de la empresa ocurrió así?”, preguntó Lee. “Parece que tuvieron un crecimiento espectacular durante tiempos difíciles al inicio de los ochenta.” “Y lo que haga la competencia es crucial”,añadió Gracia, ignorando el comentario de Lee. “Puedes v erificarlo. Mira los números atrasados de las revistas de computación y notarás cuántas páginas de anuncios compraban “en comparación” con nosotros. Y también puedes ver sus precios relativos a los nuestros para máquinas equi valentes. Está impreso en cada anuncio.” Lee hizo una nota mental de que iba a ser mucho más fácil que en otras industrias, en las que los precios de los competidores podían quedar ocultos en contratos de largo plazo.
Ejercicio de base de datos computacional HH Industries Al día siguiente, Laurel explicó lo que encontró a Gary. “La edad muy bien puede tener su papel”, concluyó, “pero definitivamente no es el único factor. ¿Tienes alguna otra idea?”. “No sé cuánto nos podrían ayudar , pero tengo un par de su gerencias”, respondió Gary. “En primer lugar , el género puede ser algo que ver. Sin tener datos específicos para apoyar mi presentimiento, me parece que las mujeres que trabajan tienden a quedarse más tiempo que los hombres.Además el grado de escolaridad puede ser otro factor. Los compañeros que tienden a quedarse con nosotros, parece, suelen ser los que no tienen un grado uni versitario que les tiente a hacer cosas mejores y más grandes. ¿Suena razonable?”
Del libro de texto al mundo real Administración de las partes reparables en American Airlines Para apoyar a su flota de aproximadamente 400 a viones, American Airlines mantiene un inventario disponible de partes reparables. Este in ventario contiene más de 5,000 tipos diferentes de unidades que v arían en precio desde v arios
535
“¿Y cuánto rinden nuestros anuncios en los periódicos?” Sherrel se pre guntó en v oz alta. “Nos cuesta mucho sacar publicidad en el The Wall Street Journal, pero tengo la sensación de que nos da un resultado inmediato.” “Pensemos juntos en esto y hagamos un plan para ver cómo lo resolvemos”, propuso Lee, al tiempo que le hacía señas a la mesera para que les llevara más salsa picante.
Preguntas de estudio: ¿Qué medida de “éxito de publicidad” investigaría usted? ¿Qué f actores consideraría en un análisis? ¿De qué manera manejaría los factores que parecen irrelevantes? Además del repaso de los datos históricos, ¿existe algún otro “experimento” que usted recomendaría?
“Ambas ideas son buenas”, asintió Laurel y se puso a garabatear algunas notas. “¡Te haré saber si se me ocurre algo!” 1. Utilice los archivos CH12.xxx que se encuentran en el sitio www.pearsoneducacion.net/levin, para hacer una re gresión simple de la antigüedad en el trabajo contra el género (use 1 para masculino, 0 para femenino). ¿Cuáles son los coeficientes de determinación y correlación? Repita el análisis para la antigüedad contra años de escolaridad. 2. Ahora realice una re gresión múltiple utilizando las tres variables independientes (edad al tiempo de la contratación, género y grado de escolaridad). ¿Es esta ecuación mejor o peor que las regresiones simples? 3. Si tuviera que escoger solamente dos f actores explicativos, ¿cuáles parecen ser los más apropiados? (Utilice los valores prob, si están disponibles.) Corra esta re gresión múltiple y compárela con la regresión de tres variables.
cientos hasta más de 500,000 dólares. Un sistema de apo yo para la toma de decisiones, basado en una PC, el Sistema de Asignación y Planeación de Reemplazables (RAPS, Rotables Allocation and Planning System), fue desarrollado para proporcionar pronósticos de demanda de partes reemplazables y recomendar asignaciones de partes a aeropuertos, al mínimo costo. El sistema utiliza re gresión lineal para pronosticar y otros métodos estadísticos para determinar demandas esperadas y asignaciones de costo. Los resultados: un ahorro inicial de siete millones de dólares y ahorros recurrentes anuales de casi 1 millón de dólares.
536
CAPÍTULO 13 Regresión múltiple y modelado
Problemas de negocios y datos Antes de partir, se espera que el complemento completo de partes de un a vión esté en perfectas condiciones de operación. Si una parte reemplazable está defectuosa, será removida e idealmente se sustituirá por otra en servicio pro veniente del almacén. La pieza defectuosa se envía a reparación y se ordena otra pieza que funciona para el almacén. Uno de los deberes del Departamento de Administración de Materiales de American Airlines consiste en distrib uir partes a los almacenes de una manera efectiva en costos, equilibrando el costo de tener la parte y el costo del f altante en el almacén; al tiempo que mantiene un nivel aceptable de disponibilidad. El problema consiste en encontrar un método de asignación que proporcione el menor costo total. Desarrollo de RAPS La empresa venía usando un Sistema de Pronósticos y Control de Disponibilidad de Reemplazables (ROFACS, Rotables Forecasting and Availability Control System), basado en la metodología de las series de tiempo para apoyar la toma de decisiones sobre la distrib ución de partes reparables. ROFACS era un indicador valioso de niveles de asignación apropiados, pero los departamentos de Tecnologías de Decisión y Administración de Materiales reconocieron que había deficiencias en el sistema. El análisis de sensibilidad era difícil y lle vaba mucho tiempo, no existía documentación del sistema y se pensaba que algunos de los elementos de datos críticos eran imprecisos. Además, los pronósticos tenían una respuesta lenta a cambios moderados en el uso de a viones y la e xpansión de la flota. Tecnologías de Decisión desarrolló el RAPS con la aprobación, cooperación y participación del Departamento de Administración de Materiales. El objetivo de RAPS es recomendar asignaciones de partes disponibles y ayudar a los administradores de inventario a analizar el control de partes reemplazables. Pronósticos El resultado final de una corrida de RAPS es una asignación de partes reemplazables con un costo mínimo derivada de un proceso de pronósticos de dos etapas: 1) cálculo de la demanda total del sistema para la parte y 2) distribución de la demanda entre los almacenes individuales. Para calcular la demanda total esperada del sistema, RAPS utiliza una re gresión lineal para establecer una relación entre las partes reemplazadas por mes y las distintas
funciones en horas de vuelo mensuales. El sistema actualiza historias de 18 meses de reemplazos y horas de vuelo por mes. Después, un módulo calcula los coeficientes correspondientes a la mejor re gresión y examina muchos pronósticos posibles, basándose en las horas de vuelo o en funciones de las horas de vuelo. Las evaluaciones de las regresiones se basan en ajustes y en la significación estadística. El proceso de generación mensual de pronósticos de demandas para más de 5,000 partes utilizando re gresión está completamente automatizado. Antes de RAPS, se necesitaban días para producir los pronósticos y v erificar su precisión; actualmente, toma sólo unas cuantas horas. Para distribuir la demanda del sistema entre los almacenes individuales, RAPS asigna un peso a cada almacén que refleja su actividad esperada, con base en los datos recolectados de los horarios de vuelos y el mantenimiento. Una vez establecida la demanda real, el costo total de la asignación puede determinarse f ijando valores a los costos de inventario y a los costos esperados por f altantes. Juntos, los módulos de RAPS permiten al personal del departamento de administración de materiales tomar decisiones informadas acerca del número y localización de las partes requeridas y examinar las consecuencias de los cambios en las suposiciones de asignación básicas. Beneficios En términos estrictamente económicos, RAPS fue un gran éxito, pues produjo ahorros multimillonarios en dólares, pero también proporcionó benef icios indirectos. RAPS aumentó la productividad de los analistas permitiéndoles analizar muchas más partes en un solo día. También proporcionó un registro de auditorías con fechas y horas de los análisis de partes. Debido a que el proceso fue simplif icado, el tiempo entre análisis de la misma pieza se acortó,lo cual significa que las asignaciones se basan en datos más actuales. Por último, el uso de regresiones en RAPS ha aumentado la visión de los analistas respecto a la sensibilidad de una asignación a todos los parámetros de entrada,ya sea de manera independiente o en combinación. La amplia capacidad de análisis de sensibilidad de RAPS creó un sistema más orientado hacia el futuro, capaz de analizar condiciones y comportamientos cambiantes.
Fuente: Mark J. Tedone, “Repairable Part Management”, Interfaces 19(4) (julioagosto de 1989): 61-68.
Repaso del capítulo ● Términos introducidos en el capítulo 13 Análisis de v arianza para r egresión Procedimiento para calcular el cociente F utilizado para probar la signif icancia de la regresión como un todo. Está relacionado con el análisis de varianza ilustrado en el capítulo 11. Cociente R calculado Estadístico que se utiliza para probar la significancia de la regresión como un todo.
Coeficiente de correlación múltiple, R Raíz cuadrada positiva de R2. Coeficiente de determinación múltiple, R2 Fracción de la variación de la v ariable dependiente que e xplica la re gresión. R2 mide qué tan bien la regresión múltiple se ajusta a los datos.
Repaso del capítulo
537
Error estándar de un coeficiente de regresión Medida de nuestra incertidumbre acerca del valor exacto del coeficiente de regresión.
Técnicas de modelado Métodos para decidir qué variables incluir en un modelo de re gresión y las diferentes maneras de incluirlas.
Multicolinealidad Problema estadístico que a veces se presenta en el análisis de regresión múltiple, en el que se reduce la confiabilidad de los coeficientes de regresión debido a un alto nivel de correlación entre las variables independientes.
Transformaciones Manipulaciones matemáticas para convertir una variable a una forma diferente, de modo que podamos ajustar curvas o rectas mediante la regresión. Variable ficticia Variable que toma valores 0 o 1, y que permite incluir en un modelo de re gresión factores cualitativos como sexo, estado civil y grado de escolaridad.
Regresión múltiple Proceso estadístico mediante el cual se utilizan varias variables para predecir otra variable. t calculada Estadístico que se utiliza para probar la significancia de una variable explicativa individual.
● Ecuaciones introducidas en el capítulo 13 ■
13-1
Yˆ a b1X1 b2X2 En regresión múltiple, ésta es la fórmula de la ecuación de estimación que describe la relación entre tres variables: Y, X1 y X2. Representa una regresión múltiple de dos variables con un plano, en lugar de una recta.
■
13-2
■
13-3
X1Y aX1 b1X12
■
13-4
X2Y aX2 b1X1X2 b2X 22
■
■
13-5
13-6
Y
na b1X1
b2X2 b2X1X2
Resolver estas tres ecuaciones determina los v alores de las constantes numéricas a, b1 y b2 y, en consecuencia, el plano de regresión múltiple de mejor ajuste de una regresión múltiple de dos variables. Yˆ a b X b X . . . b X 1 1
2 2
k k
Ésta es la fórmula para la ecuación de estimación que describe la relación entre Y y las k variables independientes, X1, X2, . . . , Xk. La ecuación 13-1 es el caso especial de esta ecuación para k 2. (Y Yˆ)2 se n– k1
13-7
Para medir la variación alrededor de una ecuación de regresión múltiple cuando hay k variables independientes, utilice esta ecuación para encontrar el error estándar de la estimación. El error estándar, en este caso, tiene n k 1 grados de libertad, debido a las k 1 constantes numéricas que deben calcularse a partir de los datos (a, b1, . . . , bk). Y A B1X1 B2X2 . . . Bk Xk
■ 13-7a
Ésta es la ecuación de regresión de la población para la regresión múltiple. Su ordenada Y es A, y tiene k coeficientes de pendiente, uno para cada una de las variables independientes. Y A B1X1 B2X2 . . . Bk Xk e
■
■
13-8
Debido a que no todos los puntos indi viduales de una población están en la ecuación de re gresión de la población, los puntos individuales satisfarán esta ecuación, donde e es una variación aleatoria de la ecuación de regresión de la población. En promedio, e es igual a cero, debido a que las variaciones que están arriba de la ecuación de regresión se cancelan con las que se encuentran abajo de ella. b1 Bi0 t sbi Una vez encontrado el valor de sbi en la salida de computadora, podemos utilizar esta ecuación para estandarizar el valor observado del coeficiente de regresión. Luego probamos las hipótesis acerca de Bi mediante la comparación de este valor estandarizado con el o los valores críticos de t, con n k 1 grados de libertad, tomados de la tabla 2 del apéndice.
538
CAPÍTULO 13 Regresión múltiple y modelado
■
13-9
tc to tc Para probar si una variable independiente dada es significativa, utilizamos esta fórmula para ver si to, el valor t observado (obtenido con la computadora), está entre más y menos tc, el valor t crítico (tomado de la distribución t con n k 1 grados de libertad). La variable es significativa cuando to no está en el intervalo indicado. Si su paquete de softw are calcula valores prob, la variable es significativa cuando este valor es menor que , el nivel de significancia de la prueba.
■ 13-10
SCT suma de cuadrados total (la parte explicada)
(Y Y )2
SCR suma de cuadrados de la regresión (Yˆ Y )2 (la parte explicada de SCT) SCE suma de cuadrados del error (la parte no explicada de SCT) ■ 13-11
SCT SCR SCE
(Y Yˆ )2
Estas dos conjuntos de ecuaciones nos permiten dividir la variabilidad de la variable dependiente en dos partes (una explicada por la regresión y la otra no explicada) para poder probar la significación de la regresión como un todo. SCR/k F SCE/(n – k – 1)
■ 13-12
Este cociente F, que tiene k grados de libertad en el numerador y n k 1 grados de libertad en el denominador, se utiliza para probar la significancia de la regresión como un todo. Si F es mayor que el valor crítico, entonces concluimos que la regresión como un todo es significativa. La misma conclusión es válida si el valor prob de ANOVA (obtenido con la computadora) es menor que , el nivel de significancia de la prueba.
● Ejercicios de repaso ■ 13-38
Homero Martínez es juez en Barcelona, España. Hace poco le llamó como asesor estadístico para investigar lo que parece ser un hallazgo importante. Asegura que el número de días que dura un caso en la corte se puede usar para estimar la cantidad que debe otorgar por daños y perjuicios. Ha reunido datos de su corte y de las cortes de otros jueces. P ara cada uno de los números del 1 al 9, ha localizado un caso que duró ese número de días en la corte, y ha determinado la cantidad (en millones de pesetas) otor gada por daños y perjuicios en cada caso. Los siguientes resultados de Minitab se generaron al correr una re gresión de los daños y perjuicios adjudicados sobre los días en la corte. La ecuación de regresión es DAÑOS 0.406 0.518 DÍAS Pronosticador Constante DÍAS s 0.3957
Coef -0.4063 0.51792
DesvEst 0.2875 0.0511 R-sq 93.6%
Cociente-t -1.41 10.14
p 0.201 0.000
GL 1 7 8
SC 16.094 1.096 17.191
MC 16.094 0.157
F 102.77
Análisis de varianza FUENTE Regresión Error Total
Repaso del capítulo
RENGLÓN 1 2 3 4 5 6 7 8 9
■ 13-39
■ 13-40
DAÑOS 0.645 0.750 1.000 1.300 1.750 2.205 3.500 4.000 4.500
AJUSTl 0.1117 0.6296 1.1475 1.6654 2.1833 2.7013 3.2192 3.7371 4.2550
539
RESIl 0.53333 0.12042 -0.14750 -0.36542 -0.43333 -0.49625 0.28083 0.26292 0.24500
Desde luego, usted está bastante complacido con estos resultados, porque el valor R2 es muy alto. Pero el juez no está convencido de que tenga razón. Él dice: “¡éste es el peor trabajo que he visto! No me importa si esta recta se ajusta a los datos, que le di. ¡Le puedo decir, nada más de ver el resultado, que no puede funcionar para otros datos! Si no puede hacer algo mejor , ¡dígamelo para contratar a un estadístico inteligente!”. a) ¿Por qué estará el juez tan enojado con los resultados? b) Sugiera un mejor modelo que tranquilice al juez. Jon Grant, supervisor de la Carven Manufacturing Facility, está examinando la relación existente entre la calificación que obtiene un empleado en una prueba de aptitud, su experiencia previa y el éxito en el trabajo. Se estudia y se pondera la experiencia de un empleado en trabajos anteriores, y se obtiene una calificación entre 2 y 12. La medida del éxito en el empleo se basa en un sistema de puntuación que incluye producción total y eficiencia, con un valor máximo posible de 50. Grant tomó una muestra de seis empleados con menos de un año de antigüedad y obtuvo lo siguiente: X1 Resultado de la prueba de aptitud
X2 Experiencia en trabajos anteriores
Y Evaluación del desempeño
74 87 69 93 81 97
5 11 4 9 7 10
28 33 21 40 38 46
a) Desarrolle la ecuación de estimación que mejor describa estos datos. b) Si un empleado obtuvo 83 puntos en la prueba de aptitud y tenía una experiencia en trabajos anteriores de 7, ¿qué evaluación de desempeño puede esperar? La venta exitosa es tanto un arte como una ciencia, pero muchos gerentes de ventas piensan que los atributos personales son importantes para pronosticar el éxito en esa actividad. Design Alley es una tienda de diseño de interiores con servicio completo que v ende persianas, alfombras y papel tapiz a la medida. El gerente de la tienda, Dee Dempsey, contrató a una compañía de selección de personal para realizar pruebas de cuatro aptitudes antes de contratar. Dee recolectó los datos de crecimiento en ventas de 25 agentes que contrató, junto con las calificaciones de las cuatro pruebas de aptitud: creatividad, habilidad motriz, pensamiento abstracto y cálculo matemático. Por medio de una PC,Dee generó la siguiente salida en Minitab: La ecuación de regresión es: CRECIMIENTO = 70.1 + 0.422 CREAT + 0.271 MOTR + 0.745 ABST = 0.420 MATE Pronosticador Constante CREAT MOTR ABST MATE s 2.048
Coef 70.066 0.42160 0.27140 0.74504 0.41955
DesvEst 2.130 0.17192 0.21840 0.28982 0.06871
R-sq 92.6%
Cociente-t 32.89 2.45 1.24 2.57 6.11
p 0.000 0.024 0.228 0.018 0.000
540
CAPÍTULO 13 Regresión múltiple y modelado
Análisis de varianza FUENTE Regresión Error Total
■ 13-41
13-42 13-43 13-44
13-45
GL 4 20 24
SC 1050.78 83.88 1134.66
MC 262.70 4.19
F 62.64
p 0.000
a) Escriba la ecuación de regresión para el crecimiento en ventas en términos de los cuatro f actores de las pruebas. b) ¿Cuánta variación en el crecimiento en ventas explican las pruebas de aptitud? c) Para un nivel de significancia de 0.05, ¿cuáles de las pruebas de aptitud son variables explicativas significativas para el crecimiento en ventas? d) ¿Es significativo el modelo como un todo? e) Jay es un nuevo aspirante; tiene las siguientes calificaciones: CREAT 12, MOTR 14, ABST 18 y MATE 30. ¿Qué crecimiento en ventas pronostica el modelo para este candidato? The Money Bank desea abrir nuevas cuentas de cheques para clientes que emitirán al menos 30 cheques al mes. Como ayuda en la selección de los nuevos clientes, el banco ha estudiado la relación entre el número de cheques e xpedidos y la edad y el ingreso anual de ocho de sus clientes actuales. La v ariable EDAD se registró al año más cercano, y la variable INGRESO anual se registró en miles de dólares. Los datos se presentan a continuación: Cheques
Edad
Ingreso
29 42 9 56 2 10 48 4
37 34 48 38 43 25 33 45
16.2 25.4 12.4 25.0 8.0 18.3 24.2 7.9
a) Desarrolle una ecuación de estimación que utilice las variables edad e ingreso para predecir el número de cheques emitidos por mes. b) ¿Cuántos cheques al mes se esperaría de un cliente de 35 años de edad con un ingreso anual de $22,500? La proporción del ingreso disponible que los consumidores gastan en diferentes categorías de productos no es la misma en todas las ciudades; por ejemplo, en las que existe una universidad, es posible que la venta de pizzas sea mayor que el promedio, mientras que las ventas de automóviles nuevos pueden ser menores. Investiguemos cómo varía la cantidad de dinero gastada en comida y bebida consumidas fuera de casa en las 50 áreas metropolitanas para las que tenemos los datos de la tabla MR11-2. En los ejercicios del 13-42 al 13-45, correrá regresiones para intentar explicar la variabilidad de la variable COMIDA. (Nota técnica importante: algunos paquetes estadísticos sencillos tienen dif icultad con el manejo de números grandes cuando ajustan regresiones. Si fuera necesario,puede evitar problemas si cambia las unidades de los datos, por ejemplo, de miles de dólares a millones de dólares; en el caso de Salem, Oregon, la variable COMIDA queda como $216.666 millones en lugar de $216,666 miles). Desarrolle dos modelos de regresión simple para la variable COMIDA, utilizando el ingreso de compra efectivo de la población y la mediana por f amilia (EBI), como variables independientes. ¿Cuáles variables independientes explican la mayor parte de la variación de las ventas observadas? Desarrolle una regresión múltiple para la variable COMIDA utilizando ambas variables, POP y EBI, como las variables explicativas. ¿Qué fracción de la variación en COMIDA explica este modelo? ¿La regresión es significativa como un todo al nivel 0.05? Incluya la variable SOLO (el número de casas donde vive una sola persona en el área) como una tercera variable explicativa. ¿Cuánta de la variación en COMIDA se explica ahora? ¿Es ésta una mejora significativa al modelo desarrollado en el ejercicio 13-43? (¿Es SOLO una variable explicativa significativa en esta regresión?) Como la variable POP ya no es signif icativa en el modelo del ejercicio 13-44, haga una regresión nada más con EBI y SOLO como las únicas variables explicativas. Use este modelo para encontrar un intervalo de confianza aproximado del 90% para COMIDA en un área metropolitana con 20,000 casa donde vive una persona y una mediana del ingreso de compra efectivo de $30,000.
Repaso del capítulo
■ 13-46
541
El doctor Harden Ricci es un veterinario que vive en Sacramento, California. Recientemente, ha intentado desarrollar una ecuación de predicción para la cantidad de anestesia (medida en mililitros) que debe utilizar en las operaciones. Siente que la cantidad utilizada dependerá del peso del animal (en libras), la duración de la operación (en horas) y si el animal es un gato (codificado como 0) o un perro (codificado como l). Usó Minitab para correr una regresión de los datos de 13 operaciones recientes y obtuvo los siguientes resultados: La ecuación de regresión es ANESTESIA 90.0 99.5 TIPO 21.5 PESO 34.5 HORAS Pronosticador Constante TIPO PESO HORAS
Coef 90.032 99.486 21.536 -34.461
s 57.070
DesvEst 56.842 42.374 2.668 28.607
Cociente-t 1.58 2.35 8.07 -1.21
p 0.148 0.044 0.000 0.259
R-sq 95.3%
Análisis de varianza FUENTE Regresión Error Total
■ 13-47
■ 13-48
GL 3 9 12
SC 590880 29312 620192
MC 196960 3256.9
F 60.47
P 0.000
a) ¿Cuál es la ecuación de predicción obtenida con Minitab para la cantidad de anestesia? b) Dé un intervalo de confianza aproximado del 95% para la cantidad de anestesia que deberá utilizar en una operación de 90 minutos de duración en un perro que pesa 25 libras. c) A un nivel de significancia del 10%, ¿es la cantidad de anestesia necesaria significativamente diferente para perros y gatos? d) A un nivel de significancia del 5%, ¿es esta regresión significativa como un todo? David Ichikawa es un agente de bienes raíces que trabaja con urbanistas que construyen casa nue vas. Aunque gran parte de su trabajo es v ender las casas terminadas, también consulta con los constructores cuánto deben pagar por cada lote. En un área residencial,recolectó la siguiente información de ventas cerradas de lotes aptos para construir; re gistró PRECIO de v enta (en miles de dólares), TAMAÑO (pies lineales de frente en la calle) y una v ariable indicativa (0 o 1) de si el lote tiene VISTA. De las listas de impuestos puede estimar el área del lote a partir de un avalúo basada en el frente. PRECIO
TAMAÑO
ÁREA ( TAMAÑO2)
VISTA
56.2 42.5 67.5 39.0 33.3 29.0 30.0 48.0 44.3
175 125 200 115 125 100 108 170 160
30625 15625 40000 13225 15625 10000 11664 28900 25600
1 1 1 1 0 0 0 0 0
a) Use Minitab para desarrollar la recta de regresión de mejor ajuste para estos datos. b) ¿Qué fracción de la variación de PRECIO explica esta ecuación? c) Encuentre un intervalo de confianza del 90% para el incremento en el v alor de mercado atribuible a tener una VISTA. d) ¿Ayudó utilizar ÁREA (el cuadrado del TAMAÑO) en la regresión? Explique su respuesta. Camping-R-Us, un fabricante nuevo de equipo para acampar , planea comercializar tiendas de campaña para dos personas que se pueden utilizar en casi cualquier clima. Para establecer un precio justo, toma en consideración ocho tiendas de campaña comparables que se encuentran en el mercado,en términos de peso y superficie. Los datos obtenidos son los siguientes:
542
CAPÍTULO 13 Regresión múltiple y modelado
Kelty Nautilus Nort Face Salamander U Mountain Hut Sierra Designs Meteor light Eureka! Cirrus 3 Sierra Designs Clip 3 Eureka! Timberline Deluxe Diamond Brand Free Spirit
■ 13-49
Peso (onzas)
Superficie (pies cuadrados)
Precio
94 90 112 92 93 98 114 108
37 36 35 40 48 40 40 35
$225 240 225 220 167 212 217 200
a) Calcule la ecuación de mínimos cuadrados para predecir el precio a partir del peso y la superficie. b) Si la tienda de Camping-R-Us pesa 100 onzas y tiene una superficie de 46 pies cuadrados, ¿a qué precio debe venderla? La Asociación de Atletismo de Carolina está interesada en organizar el primer triatlón anual de Tarheel. Para atraer a atletas de alto nivel, la asociación desea ofrecer premios en efectivo a los primeros lugares, estableciendo tiempos para los ganadores globales de la competencia, hombres y mujeres. Como el trayecto no se ha recorrido antes, la asociación ha escogido 10 carreras de diferentes longitudes que considera comparables en clima y condiciones del recorrido. Tiempo de ganadores (Hr:Min:Seg)
Millas Triatlón
Nado
Ciclismo
Carrera
Hombres
Mujeres
Bud light Ironman World’s Toughest Muncie Endurathon Texas Hill Country Leon’s Q.E.M. Sacramento International Malibu Bud Light Endurance Wendy’s Mammoth/Snowcreek
2.4 2.0 1.2 1.5 0.93 0.93 0.50 2.4 0.5 0.6
112 100 55.3 48 24.8 24.8 18 112 20 25
26.2 18.6 13.1 10.0 6.2 6.2 5.0 26.2 4.0 6.2
8:09:15 8:25:09 4:05:30 3:24:24 1:54:32 1:48:16 1:19:25 9:26:30 1:14:59 1:56:07
9:00:56 9:49:04 4:40:06 3:55:02 2:07:10 2:00:45 1:30:19 11:00:29 1:23:09 2:11:49
a) Determine las ecuaciones de regresión para predecir los tiempos de hombres y mujeres ganadores, en términos de la longitud de cada etapa individual. (Convierta los tiempos en minutos para los cálculos.) b) Prediga los tiempos de ganadores si el triatlón deTarheel comprende 1 milla de nado,50 millas de recorrido en bicicleta y 12.5 millas de carrera. c) Si la asociación desea utilizar el límite inferior de un intervalo de confianza aproximado del 90% para los tiempos de los primeros lugares para hombres y mujeres, ¿cuáles serán esos tiempos? La tabla MR13-1 contiene información f inanciera acerca de las 28 compañías más grandes de Carolina del Norte con acciones en la bolsa. Las variables de la tabla son:
13-50
NOMBRE
Nombre de la compañía
PRECIO
Precio de cierre de una acción en la bolsa de valores el 4/1/93
DIV
Dividendo pagados por acción en 1992
GPA
Ganancias por acción en 1992
VENTAS
Porcentaje de cambio en las ventas totales en 1992
INGRESOS
Porcentaje de cambio en los ingresos netos de 1992
ACTIVOS
Porcentaje de cambio en activos en 1992
PREANTE
Precio de cierre de una acción el 12/31/91
NY
1 si las accones se negocian en la Bolsa de Valores de Nueva York, 0 en otro caso
BANCO
1 si la compañía es un banco o institución de crédito, 0 en otro caso
Utilice esta información para resolver los ejercicios 13-50 a 13-53. Use las variables DIV, GPA, VENTAS, INGRESOS, ACTIVOS y PREANTE como variables explicativas de una regresión para explicar la variación en PRECIO. ¿Qué fracción de la variación explica este modelo?
543
Repaso del capítulo
Tabla MR13-1
NOMBRE
Datos financieros para compañías de Carolina del Norte
Duke Power First Union Wachovia Carolina Power & Light Nucor Food Lion Jefferson-Pilot Unifi Family Dollar Stores BB&T Financial lance Cato Piedmont Natural Gas Southern National First Citizens Bancshares Ruddick United Dominion Inclustries Centura Banks Guilford Milis CC13 Financia¡ United Carolina Bancshares Coastal Healthcare Group Public Service of NC Oakwood Homes NC Natural Gas Bank of Granite PCA International Ingles Markets
PRECIO DIV 39.50 47.50 36.50 33.00 91.25 7.00 55.00 33.88 18.50 34.13 23.63 30.50 22.00 21.88 53.00 21.38 13.13 23.88 26.13 40.50 22.50 21.00 17.25 20.25 26.63 30.00 16.25 6.25
1.76 1.28 1.00 1.58 0.28 0.11 1.30 0.40 0.25 0.91 0.92 0.08 0.91 0.50 0.53 0.39 0.20 0.63 0.57 1.14 0.66 0.00 0.75 0.06 0.98 0.38 0.28 0.22
GPA VENTAS INGRESOS ACTIVOS PREANTE NY BANCO 2.21 3.72 2.48 2.36 1.83 0.37 3.99 1.04 1.00 2.75 1.25 1.03 1.40 1.73 5.45 1.30 0.61 1.66 1.73 3.10 2.01 0.85 1.09 0.90 1.79 1.65 0.89 0.31
3.8 1.4 15.7 3.0 10.5 11.8 2.5 13.4 17.1 3.3 2.6 24.5 11.7 6.0 7.5 6.2 26.7 6.6 16.3 9.0 9.6 30.4 24.4 42.4 18.9 9.7 8.0 2.1
14.6 69.7 88.7 4.0 22.4 13.2 15.7 6.9 38.3 26.4 3.8 94.7 71.8 48.0 77.4 14.9 12.6 182.3 56.2 18.0 21.7 43.0 58.9 58.0 38.3 13.3 5.6 48.8
3.2 11.4 0.6 2.6 26.1 24.9 6.3 64.7 19.7 7.4 4.4 54.2 8.7 23.3 1.0 8.8 16.4 10.1 9.1 7.1 7.1 51.7 8.1 25.3 23.0 7.9 51.4 2.0
35.00 30.00 29.00 27.00 44.75 18.25 37.75 22.38 17.25 22.00 21.75 14.50 16.75 13.88 27.50 15.25 9.13 12.75 22.25 28.63 15.88 27.75 11.88 10.63 16.38 19.63 14.88 6.13
1 1 1 1 1 0 1 1 1 0 0 0 1 1 0 1 1 1 1 0 0 0 0 1 1 0 0 0
0 1 1 0 0 0 0 0 0 1 0 0 0 1 1 0 0 1 0 1 1 0 0 0 0 1 0 0
Fuente: Business North Caroline (mayo de 1993): 34-37.
13-51 13-52
13-53
■ 13-54
Tres de las variables independientes utilizadas en el modelo del ejercicio 13-50 son no significativas, incluso para 0.30. Elimine estas variables y corra otra regresión utilizando solamente las tres restantes. ¿Cuánto menos de la variación en PREC 10 se explica con este modelo? Ahora agregue las variables NY y BANCO como variables explicativas. Para 0.10, ¿existe evidencia de que, si los demás factores permanecen igual, estar en la lista de la Bolsa de Valores de Nueva York tiene un efecto significativo sobre PRECIO? Para 0.10, ¿los precios de las acciones de bancos e instituciones de crédito difieren significativamente de los precios de otras compañías del grupo? Use el modelo del ejercicio 13-51. a) ¿Puede usted llegar a la conclusión, al nivel 0.05, de que un aumento en los dividendos conduce a una disminución significativa en el precio de las acciones? Establezca y pruebe las hipótesis adecuadas. b) Si lo demás se deja igual,¿el incremento de $1 en la ganancia por acción lleva a un aumento en el precio de las acciones en una cantidad significativamente mayor que $2? Establezca y pruebe las hipótesis adecuadas para 0.05. c) Encuentre un intervalo de confianza del 98% para el cambio en el precio de la acción para el 4/1/93 por cada $1 de aumento en el precio por acción el 12/31/91. d) El National Bank tiene DIV 1.51, GPA 4.52 y PREANTE 40.63. ¿Qué precio de acción predice el modelo para el 4/1/93? ¿Cuál es la comparación entre la predicción y el precio por acción verdadero de $54.88 que tuvo el National Bank ese día? La ciudad de Peoria, Illinois, se encuentra reestructurando su sistema de impuestos. Se in vestigaron 12 ciudades de tamaño y estructura económica parecidos en cuanto a impuestos específicoss y el ingreso total de impuestos asociado. a) Utilice los datos siguientes para determinar la ecuación de mínimos cuadrados que relacione el ingreso con las tres tasas de impuestos.
544
CAPÍTULO 13 Regresión múltiple y modelado
Propiedad
Tasas de impuestos Ventas
Gasolina
Ingreso por imp. (miles de dólares)
1.639% 1.686 1.639 1.639 1.639 1.639 1.654 2.643 2.584 2.048 2.176 1.925
2.021% 1.972 2.041 2.363 2.200 2.201 2.363 1.000 1.091 1.752 1.648 1.991
3.300¢/gal 3.300 3.300 0.131 2.540 1.560 0.000 3.300 2.998 1.826 1.555 0.757
$28,867.5 28,850.2 29,011.5 28,806.5 28,821.7 28,774.6 28,803.2 28,685.7 28,671.8 28,671.0 28,627.4 28,670.7
b) Se tienen dos propuestas para Peoria. Estime los ingresos totales de impuestos si las tasas son: Propiedad
Ventas
Gasolina
2.763% 1.639
1.000% 2.021
1.0¢/gal 3.3
Proposición A Proposición B
■ 13-55
Determine cuál propuesta debe adoptar la ciudad. La cooperativa National Cranberry, una organización formada por cultivadores de arándanos que se dedica a procesar y comercializar su producto, está tratando de establecer una relación entre el precio promedio por barril recibido en cualquier año dado, y el número total de barriles vendidos el año anterior (dividido en ventas del producto fresco y del producto para procesar). a) Calcule la ecuación de mínimos cuadrados para predecir el precio a partir de las siguientes cifras: Ventas (en cientos de barriles) Fresco Para proceso 844 965 470
■ 13-56
256 335 672
15.50 17.15 11.71
320 528 340
Precios del año anterior
60 860 761
9.79 10.90 15.88
b) Prediga el precio por barril para el siguiente año si las ventas de éste son 980 (fresco) y 360 (para proceso). Los teléfonos celulares fueron introducidos en Europa en 1980, y desde entonces, su crecimiento en popularidad ha sido algo fenomenal. El número de suscriptores en los años siguientes está contenido en la siguiente tabla: 1981 1982 1983
■ 13-57
Ventas (en cientos de barriles) Fresco Para proceso
Precios del año anterior
3,510 34,520 80,180
1984 1985 1986
143,300 288,420 507,930
1987 877,850 1988 1,471,200 1989 2,342,080
Utilizando el número de años desde la introducción de teléfonos celulares como la variable independiente (es decir, 1981 1, etc.), encuentre la ecuación lineal de mínimos cuadrados que relaciona a estas dos variables. Observe los residuos, ¿siguen un patrón notorio? Encuentre la ecuación cuadrática de mínimos cuadrados. ¿Cuál parece ser un mejor ajuste? Mientras se encontraba de compras, buscando una nueva bolsa para dormir, Fred Montana sintió curiosidad acerca de qué características de una bolsa para dormir son más importantes para determinar su precio. Fred tomó seis bolsas para dormir de Gore-Tex y realizó un análisis de regresión lineal para averiguarlo.
Swallow Snow Bunting Puffin
Relleno (onzas)
Peso total (libras)
Grueso del aislante (pulg.)
Condiciones de temp. (°F)
Precio (dólares)
14.0 18.0 24.0
2.00 2.25 3.13
5.5 6.5 6.5
20 10 10
255 285 329 Continúa
Repaso del capítulo
Relleno (onzas)
Peso total (libras)
Grueso del aislante (pulg.)
Condiciones de temp. (°F)
Precio (dólares)
25.5 32.5 41.0
3.25 3.63 4.25
7.5 9.0 10.0
10 30 40
395 459 509
Widgeon Tern Snow Goose
■ 13-58
545
a) Haga una regresión del precio sobre el relleno de plumas, peso total, grueso del aislante y condiciones de temperatura. Utilizando los valores prob, determine cuáles de estas variables son significativas al nivel 0.01. b) ¿Qué sucede con la regresión como un todo? Use el valor prob de ANOVA, de nuevo para 0.01, para determinar si la regresión como un todo es significativa. c) ¿Qué problema podría surgir si se usan todas estas variables juntas? ¿Las respuestas a los incisos a) y b) parecen indicar que este problema podría estar presente? Home Depot es una cadena en crecimiento de centros de descuento en materiales para mejorar las casas. La tabla proporciona información de los reportes anuales, que son los datos típicos que usan los analistas financieros para predecir el ingreso futuro de la compañía. a) Desarrolle la ecuación de regresión múltiple que describa el ingreso total como función del número de tiendas y el tamaño promedio de la tienda. ¿Qué f actor parece ser más importantes para determinar el crecimiento en los ingresos? Como consultor, ¿recomendaría una estrategia de expansión enfocada a una dispersión geográfica amplia (aumentando el número de tiendas) o la construcción de un número menor de tiendas muy grandes (que aumenta el tamaño de las tiendas)? b) Desarrolle una columna de ingreso promedio por empleado. Encuentre la recta de regresión que mejor describa esa variable como función del año (con 1984 codificado como 1, 1985 como 2, etc.) y el tamaño promedio de la tienda. ¿Son más producti vos los empleados en tiendas más grandes o es la recta de tendencia (el factor de regresión AÑO) un factor más importante? Como analista, ¿calificaría la tendencia a poner tiendas más grandes como una estrate gia exitosa, o juzgaría que la inflación y otros factores son más importantes?
Año
Número de tiendas
Tamaño promedio de tienda (miles de pies2)
1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
31 50 60 75 96 118 145 174 214 264 340
77 80 80 82 86 88 92 95 98 100 103
Ingreso total (millones de dólares) ,433 ,701 1,001 1,454 2,000 2,758 3,815 5,136 7,148 9,239 12,477
Número de empleados 4,000 5,400 6,600 9,100 13,000 17,500 21,500 28,000 38,900 50,600 67,300
Fuente: Home Depot, Annual Reports, 1993 y 1994.
■ 13-59
Wal-Mart es una de las compañías más grandes y e xitosas de Estados Unidos, con más de 2,400 tiendas en operación y ventas anuales por $82 mil millones de dólares. En el inicio la compañía daba unaxcelene te tasa de rendimiento (ROE) a sus accionistas, pero su desempeño en este rubro ha decaído. Junto con el crecimiento rápido, la empresa se ha expandido más allá de concepto original de tienda y ahora incluye Sam’s Club que es una operación de mar gen muy bajo con fuerte rotación de in ventario. Los siguientes datos muestran cifras para los años fiscales que terminan en enero de la fecha mostrada, el inventario, el porcentaje de tiendas que eran Sam’s Club y ROE: Año 1985 1986 1987
Inventario (miles de millones de dólares) 1.2 1.5 2.2
Porcentaje de Sam’s Club
ROE
1.5 2.6 4.8
36.7% 33.3 35.2 Continúa
546
CAPÍTULO 13 Regresión múltiple y modelado
Año 1988 1989 1990 1991 1992 1993 1994 1995
Inventario (miles de millones de dólares)
Porcentaje de Sam’s Club
2.8 3.6 4.7 6.2 7.8 9.8 11.5 14.4
7.0 7.7 8.1 8.6 10.8 12.2 17.7 17.7
ROE 37.1 37.1 35.8 32.6 30.0 28.5 26.6 24.9
Fuente: Wal-Mart Annual Report, 1995.
Desarrolle una ecuación de regresión múltiple para pronosticar la ROE para Wal-Mart con base en las dos variables dadas. ¿Qué consejo daría a los administradores de la empresa para aumentar la ROE?
capítulo
14
MÉTODOS NO PARAMÉTRICOS
Objetivos •
•
Probar hipótesis cuando no es posible hacer alguna suposición sobre la distribución de la cual se muestrea Saber qué pruebas sin distribución (no paramétricas) son apropiadas para diferentes situaciones
• •
Usar e interpretar cada una de las seis pruebas de hipótesis no paramétricas estándar Conocer las ventajas y desventajas de las pruebas no paramétricas
Contenido del capítulo 14.1 Introducción a la estadística no paramétrica 548 14.2 Prueba de signo para datos por pares 550 14.3 Pruebas de suma de rangos: prueba U de Mann-Whitney y prueba de Kruskal-Wallis 556 14.4 Prueba de corridas de una sola muestra 566 14.5 Correlación de rango 572 14.6 Prueba de KolmogorovSmirnov 581
• • • • • •
Estadística en el trabajo 585 Ejercicio de base de datos computacional 586 Del libro de texto al mundo real 587 Términos introducidos en el capítulo 14 588 Ecuaciones introducidas en el capítulo 14 588 Ejercicios de repaso 589
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
548
CAPÍTULO 14 Métodos no paramétricos
un cuando el efecto de la contaminación del aire sobre la salud es un problema complejo, una organización internacional ha decidido realizar una investigación preliminar de la calidad promedio del aire todo el año y de la incidencia de enfermedades pulmonares. Un estudio preliminar clasificó 11 de las principales ciudades del mundo desde 1 (peor) hasta 11 (mejor) para estas dos variables.
A
Clasificación de la calidad del aire Clasificación de enfermedades pulmonares
A 4 5
B 7 4
C D 9 1 7 3
Ciudad E F G H I 2 10 3 5 6 1 11 2 10 8
J K 8 11 6 9
Los datos de la organización de salud son distintos de los que hemos visto aquí: no nos proporcionan la variable usada para determinar estas clasificaciones o rangos. (No sabemos si la clasificación de enfermedades pulmonares es un resultado de neumonía, enfisema u otras afecciones para una población de 100,000.) Tampoco conocemos los valores (si la ciudad D tiene el doble de población que la ciudad K o 20 veces más). Si conociéramos las variables y sus valores, podríamos utilizar las técnicas de regresión del capítulo 12. Desafortunadamente, no es así; pero aun sin conocer las variables o valores, podemos utilizar las técnicas de este capítulo para ayudar a la organización de salud con su problema.
14.1 Introducción a la estadística no paramétrica Estadística paramétrica Limitaciones de la estadística paramétrica
Estadística no paramétrica
La mayoría de las pruebas de hipótesis analizadas hasta ahora hacen inferencias respecto a los parámetros de la población, como la media y la proporción. Estas pruebas paramétricas usan la estadística paramétrica de muestras que pro vinieron de la población que se está probando. P ara formular estas pruebas, hicimos suposiciones restrictivas sobre las poblaciones de las que extraíamos nuestras muestras. En cada caso visto en los capítulos 9 y 10,por ejemplo, supusimos que nuestras muestras eran grandes o provenían de poblaciones con distribución normal. Pero las poblaciones no siempre son normales. Incluso cuando una prueba de bondad de ajuste (capítulo 11) indica que una población es aproximadamente normal, no siempre podemos estar seguros de que es correcto, porque la prueba no es 100% confiable. Claramente, existen ciertas situaciones en las que el uso de la curva normal no es apropiado. Para estos casos, requerimos alternativas a la estadística paramétrica y a las pruebas de hipótesis específicas que hemos estado utilizando hasta ahora. Por fortuna, recientemente los estadísticos han desarrollado técnicas útiles que no hacen suposiciones restrictivas respecto a la forma de las distrib uciones de población. Éstas se conocen como pruebas sin distribución o, más comúnmente, pruebas no paramétricas. Las hipótesis de una prueba no paramétrica se refieren a algo distinto del valor de un parámetro de población. Existe un gran número de pruebas de este tipo, pero este capítulo examinará sólo algunas de las más conocidas y más utilizadas: 1. La prueba de signo para datos por pares, en la que los signos positivo o negativo sustituyen a los valores cuantitativos. 2. Una prueba de suma de rangos, a menudo llamada la prueba U de Mann-Whitney, que puede usarse para determinar si dos muestras independientes se sacaron de la misma población. Usa más información que la prueba de signo.
14.1: Introducción a la estadística no paramétrica
549
3. Otra prueba de suma de rangos, la prueba Kruskal-Wallis, que generaliza el análisis de varianza estudiado en el capítulo 11 para poder prescindir de la suposición de que las poblaciones tienen distribución normal. 4. La prueba de corridas de una sola muestra, un método para determinar la aleatoriedad con la que se han seleccionado los elementos muestreados. 5. Correlación de rango, un método para hacer el análisis de correlación cuando no se dispone de los datos para usar la forma numérica,pero cuando la información es suficiente para clasificar los datos como primero, segundo, tercero, etcétera. 6. La prueba de Kolmogorov-Smirnov, otro método para determinar la bondad de ajuste entre una muestra observada y una distribución de probabilidad teórica.
Ventajas de los métodos no paramétricos Ventajas de los métodos no paramétricos
Los métodos no paramétricos tienen ciertas ventajas claras sobre los métodos paramétricos: 1. No requieren la suposición de que una población está distribuida en forma de curva normal u otra forma específica. 2. Generalmente, es más sencillo realizarlas y entenderlas. La mayor parte de las pruebas no paramétricas no exigen el tipo de cálculos laboriosos a menudo necesarios, por ejemplo, para calcular una desviación estándar. Una prueba no paramétrica nos puede pedir reemplazar valores numéricos con el orden en el que aparecen en una lista, como se ha hecho en la tabla 14-1. Obviamente, en términos de cálculos, manejar 1, 2, 3, 4 y 5 requiere menos esfuerzo que trabajar con 13.33, 76.50, 101.79, 113.45 y 189.42. 3. Algunas veces ni siquiera se requiere un ordenamiento o clasificación formal. Muchas veces, lo único que podemos hacer es describir un resultado como “mejor”que otro. Cuando ocurre esto, o cuando nuestras mediciones no son tan exactas como es necesario para las pruebas paramétricas, podemos usar métodos no paramétricos.
Desventajas de los métodos no paramétricos Limitaciones de los métodos no paramétricos
Dos desventajas acompañan al uso de pruebas no paramétricas: 1. Ignoran cierta cantidad de información. Hemos mostrado cómo los valores 1, 2, 3, 4 y 5 pueden reemplazar a los números 13.33, 76.50, 101.79, 113.45 y 189.42. Sin embargo, si representamos “189.42” por “5” perdemos información contenida en el valor 189.42. Observe que en nuestro ordenamiento de los números 13.33, 76.50, 101.79, 113.45 y 189.42, el valor 189.42 puede convertirse en 1,189.42 y seguir siendo el quinto de la lista o el de mayor valor. Pero si esta lista es un conjunto de datos, tendremos un conocimiento mayor si sabemos que el valor más alto es 1,189.42, en vez de 189.42, de lo que sabríamos al representar ambos números con 5. 2. A menudo no son tan eficientes o “claras” como las pruebas paramétricas. La estimación de un intervalo a un nivel de confianza del 95% usando una prueba no paramétrica puede tener el doble de tamaño que la estimación con una prueba paramétrica como las de los capítulos 9 y 10. Cuando usamo pruebas no paramétricas hacemos un trueque:perdemos agudeza en la estimación de intervalos, pero ganamos la posibilidad de usar menos información y calcular con mayor rapidez.
Tabla 14-1 Conversión de valores paramétricos a rangos no paramétricos
Valor paramétrico Valor no paramétrico
113.45 4
189.42 5
76.50 2
13.33 1
101.79 3
550
CAPÍTULO 14 Métodos no paramétricos
Ejercicios 14.1 Conceptos básicos ■
14-1
■
14-2
■ ■ ■
14-3 14-4 14-5
¿Cuál es la diferencia entre los tipos de preguntas contestadas por pruebas paramétricas y las contestadas por pruebas no paramétricas? La hipótesis nula examinada con mayor frecuencia en las pruebas no paramétricas (elija un inciso) a) incluye especificaciones de parámetros de una población. b) se usa para evaluar algún aspecto general de la población. c) es muy parecida a la utilizada en el análisis de regresión. d) prueba simultáneamente más que dos parámetros de población. ¿Cuáles son las principales ventajas de los métodos no paramétricos sobre los métodos paramétricos? ¿Cuáles son las principales desventajas de las pruebas no paramétricas? George Shoaf es un entrevistador que trabaja en la oficina matriz de una aseguradora grande; para aprovechar mejor su tiempo, la compañía requiere que la recepcionista programe sus entre vistas de acuerdo con un programa preciso. No hay periodos de 5 minutos que no cuenten,ni siquiera de llamadas telefónicas. Desafortunadamente, la recepcionista minimizó la duración de las entre vistas, y ha programado demasiados solicitantes de empleo, lo que lleva a largas esperas en el vestíbulo. Aunque los periodos de espera pueden ser cortos por la mañana, al avanzar el día el entrevistador se va retrasando y se hacen más largos. Para evaluar el problema, ¿debe suponer el entrevistador que los tiempos de espera sucesi vos siguen una distribución normal?
Aplicaciones ■
14-6
La International Communications Corporation planea cambiar el paquete de prestaciones ofrecido a los empleados. La compañía está considerando diferentes combinaciones de participación de utilidades, servicios médicos y planes de retiro. Algunas muestras de una amplia variedad de combinaciones de prestaciones se describieron en un folleto y se distribuyeron entre los empleados, luego se registraron a sus preferencias. Los siguientes fueron los resultados:
Rango
1
Combinación de reparto de utilidadesServicios médicos-retiro Número de preferencias
2
3
15
5
14
52
49
39
4
5
6
7
8
9
10
11
12
13
14
15
16
4
6
16
7
8
13
3
17
18
12
2
9
1
38
37
36
32
29
26
25
24
18
15
15
14
10
17
18
19
11
19
10
10
10
9
¿Sacrificará la compañía información real al usar la prueba de rangos como su criterio de decisión? ( Sugerencia: grafique los datos.)
14.2 Prueba de signo para datos por pares Uso de la prueba de signo para datos apareados
Una de las pruebas no paramétricas más fáciles es la prueba de signo. Su nombre se debe a que está basada en la dirección (o signo de más o menos) de un par de observaciones y no en su magnitud numérica. Considere el resultado de un panel de prueba de 40 estudiantes de penúltimo año de universidad que evalúa la efectividad de dos tipos de clases: conferencias grandes de profesores de tiempo com-
Tabla 14-2 Evaluación de dos tipos de clases por 40 estudiantes
Número del miembro de panel Calif. para conferencias grandes (1) Calif. para secciones pequeñas (2) Signo de la calificación:
1 2 3
2 1 2
3 4 2
4 4 3
5 3 4
6 3 2
7 4 2
8 2 1
9 4 3
10 1 1 0
11 3 2
12 3 3 0
13 4 4 0
14 4 4 0
15 16 4 1 3 2
551
14.2: Prueba de signo para datos por pares
Conversión de valores a signos
pleto o secciones pequeñas con ayudantes de posgrado. La tabla 14-2 enumera las respuestas a esta petición: “Califique la efectividad de transmisión de conocimientos de estos dos tipos de clases,asignándo un número de 4 a 1. La calificación de 4 es excelente y el 1 es mala.” En este caso, la prueba de signo nos puede ayudar a determinar si los estudiantes sienten que hay una diferencia entre la efectividad de los dos tipos de clases. Podemos comenzar, como en la tabla 14-2, convirtiendo las evaluaciones de los dos métodos de enseñanza en signos. Aquí, un signo más significa que el estudiante prefiere las conferencias grandes; un signo menos indica una preferencia por secciones pequeñas, y un cero representa un empate (sin preferencia). Si contamos el último renglón de la tabla 14-2, obtenemos lo siguiente: Número de signos Número de signos Número de ceros Tamaño total de muestra
19 11 10 40
Establecimiento de las hipótesis Búsqueda del tamaño de muestra
Estamos usando la prueba de signo para determinar si nuestro panel percibe una diferencia real ent re los dos tipos de clases. Puesto que estamos probando diferencias percibidas,excluiremos las evaluaciones empatadas (0). Vemos que hay 19 signos más y 11 signos menos,para un total de 30 respuestas utilizables. Si no hay diferencia entre los dos tipos de clases,p (la probabilidad de que la primera calificación exceda a la segunda) sería 0.5, y esperaríamos obtener aproximadamente 15 signos más y 15 signos menos. Estableceríamos nuestras hipótesis de la siguiente manera: H0: p 0.5 ← Hipótesis nula: no hay diferencia entre los dos tipos de clases H1: p 0.5 ← Hipótesis alternativa: hay diferencia entre los dos tipos de clases Si observa con cuidado las hipótesis, notará que la situación es parecida al lanzamiento de monedas. Si lanzáramos al aire una moneda no cargada 30 veces, p sería 0.5, y esperaríamos aproximadamente 15 caras y 15 cruces. En ese caso,utilizaríamos la distribución binomial como la distribución de muestreo apropiada. Tal vez también recuerde que cuando np y nq son cada una al menos 5, podemos utilizar la distribución normal para aproximar a la binomial. Éste es precisamente el caso con los resultados de nuestro panel de estudiantes. Así, podemos aplicar la distrib ución normal a nuestra prueba de los dos métodos de enseñanza.
Selección de la distribución
Planteamiento del problema en símbolos
pH0 0.5
← Proporción hipotética de la población que prefiere las conferencias para todos
qH0 0.5
← Proporción hipotética de la población que piensa que prefiere secciones pequeñas (qH
q n 30
← Tamaño de muestra
0
1 pH0)
q p 0.633 ← Proporción de éxitos en la muestra (19/30) q q 0.367 ← Proporción de fracasos en la muestra (11/30)
Prueba de una hipótesis de que no hay diferencia Suponga que la oficina del rector desea probar la hipótesis de que no hay diferencia en la percepción del estudiante entre los dos tipos de clases al ni vel de significancia de 0.05. Haremos esta
Cálculo del error estándar
17 1 3
18 2 2 0
19 2 3
20 4 3
21 4 1
22 4 4 0
23 4 3
24 3 3 0
25 3 2
26 2 2 0
27 3 1
28 4 1
29 3 1
30 4 3
31 3 2
32 1 2
33 4 4 0
34 3 4
35 2 3
36 2 3
37 2 1
38 1 1 0
39 3 4
40 3 2
552
CAPÍTULO 14 Métodos no paramétricos
Valor crítico z = -1.96
Valor crítico z = +1.96
FIGURA 14-1 Prueba de hipótesis de dos colas de una proporción al nivel de significancia de 0.05
0.025 del área
0.025 del área 0.475 del área
0.475 del área
0
prueba usando los métodos del capítulo 9. El primer paso es calcular el error estándar de la proporción: p
pq
n
[8-4]
(0.5)(0.5)
30
0 .0 0833 0.091 ← Representación gráfica de la prueba
Error estándar de la proporción
Como queremos saber si la proporción v erdadera es mayor o menor que la proporción hipotética, se trata de una prueba de dos colas. La figura 14-1 ilustra esta prueba de hipótesis. Las dos regiones sombreadas representan el nivel de significancia de 0.05. Ahora usaremos la ecuación 7-2 para estandarizar la proporción de la muestra, p, restando pH0, la proporción hipotética, y dividiendo entre P, el error estándar de la proporción. p pH0 z p
[7-2]
0.633 – 0.5 0.091 1.462 Interpretación de los resultados
Al colocar este valor estándar, 1.462, en la escala z se ve que la proporción de la muestra se encuentra dentro de la región de aceptación, como se ilustra en la figura 14-2. Por tanto, el rector debe aceptar la hipótesis nula de que los estudiantes no perciben diferencia entre los dos tipos de clase.
FIGURA 14-2
Región de aceptación Acepte la hipótesis nula si el valor de la muestra está en esta región
Prueba de hipótesis de dos colas al nivel de significancia de 0.05; ilustra la región de aceptación y la proporción estandarizada de la muestra
Proporción estandarizada de la muestra
-1.96
0
1.462 1.96
14.2: Prueba de signo para datos por pares
553
Una prueba de signo como ésta es bastante sencilla y se aplica para pruebas de una y de dos colas. Por lo general se basa en la distribución binomial. Sin embargo, recuerde que fue posible usar la aproximación normal a la binomial como distribución de la muestra porque np y nq eran mayores o iguales que 5. Cuando estas condiciones no se cumplen, debemos usar la distribución binomial.
SUGERENCIAS Y SUPOSICIONES
Las pruebas no paramétricas son muy convenientes cuando el mundo real presenta datos sin una distribución, con los cuales debe tomarse una decisión. Suge-
rencia: observe que la prueba de signo es sólo otra aplicación de la familiar aproximación normal a la binomial, que usa los signos y en lugar de “éxitos” y “fracasos”.
Ejercicios 14.2 Ejercicios de autoevaluación EA
14-1
Los siguientes datos muestran los índices de trabajo defectuoso de los empleados antes y después de un cambio en el plan de incentivos al salario. Compare los dos conjuntos de datos siguientes para evr si el cambio disminuyó las unidades defectuosas producidas. Utilice el nivel de significancia de 0.10. Antes Después
EA
14-2
8 6
7 5
6 8
9 6
7 9
10 8
8 10
6 7
5 5
8 6
10 9
8 8
Después de recolectar datos de la cantidad de contaminación del aire en Los Ángeles, la Agencia de Protección Ambiental (APA) decidió emitir nuevas reglas estrictas para controlar la cantidad de hidrocarburos en el aire. Para el año siguiente, tomó mediciones mensuales de este contaminante y las comparó con las mediciones del año anterior para los meses correspondientes. Con base en los siguientes datos,¿tiene la APA suficiente evidencia para concluir con un 95% de confianza que las nuevas reglas fueron efectivas para disminuir la cantidad de hidrocarburos en el aire? Para justificar estas leyes para otro año, debe concluir, con 0.10, que son efectivas. ¿Seguirán vigentes estas leyes el año siguiente? Año anterior*
Este año
7.0 6.0 5.4 5.9 3.9 5.7 6.9 7.6 6.3 5.8 5.1 5.9
5.3 6.1 5.6 5.7 3.7 4.7 6.1 7.2 6.4 5.7 4.9 5.8
Ene. Feb. Mar. Abr. May. Jun. Jul. Ago. Sep. Oct. Nov. Dic.
*Medidos en partes por millón
Aplicaciones ■
14-7
Los siguientes datos muestran los niveles de satisfacción de los empleados (como porcentaje) antes y después de que una empresa más grande compró a su compañía. ¿La compra aumentó la satisfacción de los empleados? Use un nivel de significancia de 0.05. Antes Después
98.4 82.4
96.6 95.4
82.4 94.2
96.3 97.3
75.4 77.5
82.6 82.5
81.6 81.6
91.4 84.5
90.4 89.4
92.4 90.6
554
CAPÍTULO 14 Métodos no paramétricos
■
14-8
Use la prueba de los signos para v er si hay una diferencia entre el número de días requeridos para saldar una cuenta por cobrar antes y después de una nueva política de cobro. Use el nivel de significancia de 0.05. Antes Después
■
14-9
33 35
36 29
41 38
32 34
39 37
47 47
29 32
32 30
34 34
40 41
42 38
33 37
36 35
29 28
Un taller de reparación para motores de avionetas cambió el método de pago de salario por hora a salario por hora más un bono calculado sobre el tiempo requerido para desmontar, reparar y volver a ensamblar un motor. Los siguientes son datos recabados para 25 motores antes del cambio y 25 después. A un nivel de significancia de 0.10, ¿el nuevo plan incrementó la productividad? Horas requeridas Antes Después 29 34 32 19 31 22 28 31 32 44 41 23 34
■ 14-10
34 36
32 19 22 21 20 24 25 31 18 22 24 26 41
Horas requeridas Antes Después 25 42 20 25 33 34 20 21 22 45 43 31
34 27 26 25 31 19 22 32 31 30 29 20
Debido a la severidad de los inviernos recientes, se ha dicho que la Tierra progresa lentamente hacia otra era glacial. Sin embargo, algunos científicos tienen otros puntos de vista, porque los veranos también han traído temperaturas extremas. Un científico sugirió examinar la temperatura media de cada mes para ver si era menor que la del año anterior. Otro miembro del servicio meteorológico gubernamental argumentó que tal vez debían revisar también las temperaturas de los meses de prima vera y otoño por lo menos de los últimos dos años, de forma que las conclusiones no sólo se basaran en las temperaturas extremas. De esta manera, dijo, podrían detectar la posibilidad de una tendencia general de calentamiento o enfriamiento o sólo temperaturas extremas en los meses de verano e invierno. Se seleccionaron al azar 15 fechas de primavera y otoño, y se anotaron las temperaturas de los últimos dos años para un lugar particular con temperaturas generalmente moderadas. A continuación se dan las fechas y temperaturas correspondientes a 1994 y 1995. a) ¿Es correcto el razonamiento del meteorólogo como método de evaluación? Explique su respuesta. b) Usando la prueba de los signos, determine si el meteorólogo puede concluir, con 0.05, que 1995 fue más frío que 1994 con base en estos datos. Temperatura (Fahrenheit)
■ 14-11
Fecha
1994
1995
Mar. 29 Abr. 4 Abr. 13 May. 22 Oct. 1 Mar. 23 Nov. 12 Sept. 30
58 45 56 75 52 49 48 67
57 70 46 67 60 47 45 71
Fecha Oct. 12 May 31 Sept. 28 Jun. 5 Jun. 17 Oct. 5 Nov. 28
1994
1995
54 74 69 80 82 59 50
48 79 60 74 79 72 50
Preocupados por la exposición a la radiación y su relación con la incidencia de cáncer , los especialistas ambientales urbanos mantienen una estrecha vigilancia sobre el tipo de industria que lle ga al área y el grado en el que usan radiación en su producción. Se ha desarrollado un índice de exposición a la contaminación radiactiva y se utiliza todos los días para determinar si los niveles están aumentando o son más altos para ciertas condiciones atmosféricas.
14.2: Prueba de signo para datos por pares
555
Los ambientalistas afirman que la contaminación radiactiva se ha incrementado en el último año debido a las nuevas industrias en la ciudad. Sin embar go, los administradores de la ciudad af irman que el nuevo reglamento más estricto sobre la industria en el área ha bajado los niveles respecto al año anterior, aun con la nueva industria que usa radiación. Para probar su afirmación, se verificaron registros de 11 días aleatorios y se anotó el índice de e xposición a la contaminación radiactiva. Se obtuvieron los siguientes resultados: Índice de exposición a la radiación 1994 1995
■ 14-12
■ 14-13
1.402 1.440
1.401 1.395
1.400 1.398
1.404 1.404
1.395 1.393
1.402 1.400
1.406 1.401
1.401 1.402
1.404 1.400
1.406 1.403
1.397 1.402
¿Pueden los administradores concluir , para 0.15, que los niveles de contaminación radiacti va han cambiado o, más específicamente, que se han reducido? Como parte del reciente interés en el crecimiento de la población y el tamaño de las f amilias, una investigadora demográfica examinó cierto número de hipótesis referentes al tamaño de f amilia que diversas personas consideran como ideal. Sospechaba que las v ariables de raza, edad y educación podrían explicar los distintos puntos de vista. En una muestra piloto,la investigadora probó la hipótesis de que las mujeres actuales piensan que la familia ideal debe ser de tamaño menor que la que sus madres consideraban ideal. Le pidió a cada participante del estudio piloto que estableciera el número de hijos que ele giría tener o que consideraba ideal. Las respuestas fueron anónimas, para evitar la posibilidad de que la gente se sintiera obligada a dar una respuesta socialmente deseable.Además, la muestra incluyó personas con distintos antecedentes. Las siguientes son las respuestas de las parejas madre-hija. Pareja muestra
A
B
C
D
E
Hija Madre
3 4
4 4
2 4
1 3
5 5
Tamaño ideal de familia F G H 4 3
2 3
2 5
I
J
K
L
M
3 3
3 2
1 2
4 3
2 1
a) ¿Puede la investigadora concluir, con 0.03, que las madres e hijas no tienen esencialmente el mismo ideal de tamaño de familia? Use la distribución binomial. b) Determine si la investigadora podría llegar a la conclusión de que las madres no tienen esencialmente las mismas preferencias de tamaño de familia que sus hijas usando la aproximación normal a la binomial. c) Suponga que por cada pareja enumerada, hubo otras 10 parejas que respondieron de manera idéntica. Calcule el intervalo de la proporción para el cual la investigadora puede concluir que no hay diferencia entre madres e hijas. ¿Es distinta su conclusión? d) Explique cualquier diferencia en las conclusiones de los incisos a), b) y c). Una compañía que vende automóviles usados en todo el país desarrolló un nue vo video para capacitar a su personal de ventas. Los datos presentan los promedios mensuales de ventas de 20 empleados para periodos tanto anteriores como posteriores a la creación del video. ¿Tiene la compañía suficiente evidencia para concluir, con el 95% de confianza, que el video fue efectivo para aumentar el número promedio de autos vendidos? Si sólo se considera a los empleados con bajas ventas (menos que un promedio de 12 autos por mes antes del video), ¿el video aumentó su desempeño de ventas? Antes Después Antes Después
18.4 18.6 15.9 17.4
16.9 16.8 18.6 18.6
17.4 17.3 23.5 23.5
11.6 15.6 18.7 18.9
10.5 19.5 9.4 15.6
12.7 12.6 16.3 15.4
22.3 22.3 18.5 17.6
18.5 16.5 17.4 17.4
17.5 18.0 11.3 16.5
16.4 16.4 8.4 13.4
8 10
6 7
5 5 0
8 6
10 9
Soluciones a los ejercicios de autoevaluación EA
14-1
Antes 8 7 6 Después 6 5 8 Signo 12 respuestas: 4(), 6(), 2(0).
9 6
7 9
10 8
8 8 0
Para n 10, p 0.5, la probabilidad de 6 o más signos menos es 0.3770 (tabla 3 del apéndice). Como 0.3770 > 0.10, no se puede rechazar H0. El plan de incentivos al salario no baja significativamente las tasas de trabajo defectuoso.
556
CAPÍTULO 14 Métodos no paramétricos
EA
14-2
Antes 7.0 6.0 Después 5.3 6.1 Signo 12 respuestas: 3(), 9().
5.4 5.6
5.9 5.7
3.9 3.7
5.7 4.7
6.9 6.1
7.6 7.2
6.3 6.4
5.8 5.7
5.1 4.9
5.9 5.8
Para n 12, p 0.5, la probabilidad de 9 o más signos menos es 0.0729 (tabla 3 del apéndice). Como 0.10 0.0729 0.05, no pueden tener una confianza del 95% de que los niveles de hidrocarburos hayan bajado, pero pueden concluir, para 0.10, que las reglas son efectivas. Así, estarán vigentes todavía el año próximo.
14.3 Pruebas de suma de rangos: prueba U de Mann-Whitney y prueba de Kruskal-Wallis
Se usan según el número de poblaciones involucradas
En el capítulo 11, mostramos cómo usar el análisis de v arianza para probar la hipótesis de que v arias medias de población son iguales. Supusimos para esas pruebas que las poblaciones tenían una distribución normal con varianzas iguales. Muchas veces estas suposiciones no se satisf acen y entonces podemos utilizar dos pruebas no paramétricas; ninguna de ellas depende de las suposiciones de normalidad. Estas dos pruebas se llaman pruebas de suma de rangos porque la prueba depende de los rangos o clasificaciones de las observaciones de muestra. Las pruebas de suma de rangos son una familia completa de pruebas; nos concentraremos en sólo dos miembros de ella: la prueba U de Mann-Whitney y la prueba de Kruskal-Wallis. Usaremos la prueba de Mann-Whitney cuando tengamos sólo dos poblaciones y la prueba de Kruskal-W allis cuando se trate de más de dos. El uso de estas pruebas nos permitirá determinar si las muestras independientes se obtuvieron de la misma población (o de distintas poblaciones con la misma distrib ución). El uso de la clasificación de la información en lugar de los signos más y menos desperdicia menos datos que la prueba de los signos.
Solución de un problema usando la prueba U de Mann-Whitney
Clasificación de los elementos que se van a probar
Símbolos para expresar el problema
Suponga que la junta directiva de una gran universidad estatal del este de Estados Unidos desea probar la hipótesis de que las calificaciones promedio en la prueba SAT en dos planteles de la universidad son iguales. La junta mantiene estadísticas de todos los estudiantes en todos los planteles del sistema. Una muestra aleatoria de 15 estudiantes de cada plantel produjo los datos que se muestran en la tabla 14-3. Para aplicar la prueba U de Mann-Whitney a este problema, comenzamos por clasificar las calificaciones en orden ascendente, indicando junto a cada una el símbolo del plantel, como se ve en la tabla 14-4. A continuación, aprendamos los símbolos usados para la prueba U de Mann-Whitney en el contexto de este problema: n1 número de elementos en la muestra 1, es decir, el número de estudiantes del plantel A n2 número de elementos en la muestra 2, es decir, el número de estudiantes del plantel S R1 suma de los rangos de los elementos en la muestra 1: la suma de los rangos de todas las calificaciones del plantel A de la tabla 14-5 R2 suma de los rangos de los elementos en la muestra 2: la suma de los rangos de todas las calificaciones del plantel S de la tabla 14-5 En este caso, tanto n1 como n2 son iguales a 15, pero no es necesario que ambas muestras sean del mismo tamaño. Ahora, en la tabla 14-5, reproducimos los datos de la tabla 14-3, agregando los
14.3: Pruebas de suma de rangos: prueba U de Mann-Whitney y prueba de Kruskal-Wallis
Tabla 14-3 Calificaciones en el SAT de estudiantes en dos planteles de la universidad estatal
Tabla 14-4 Calificaciones en el SAT clasificadas de menor a mayor
Plantel A Plantel S
1,000 920
1,100 1,120
800 830
750 1,360
1,300 650
950 725
1,050 890
Plantel A Plantel S
1,400 900
850 1,140
1,150 1,550
1,200 550
1,500 1,240
600 925
775 500
Rango
Calif.
Plantel
Rango
Calif.
Plantel
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
500 550 600 650 725 750 775 800 830 850 890 900 920 925 950
S S A S S A A A S A S S S S A
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1,000 1,050 1,100 1,120 1,140 1,150 1,200 1,240 1,250 1,300 1,360 1,400 1,500 1,550 1,600
A A A S S A A S A A S A A 5 S
557
1,250 1,600
rangos de la tabla 14-4. Después sumamos los rangos de cada plantel. Como resultado, tenemos todos los valores que necesitamos para solucionar este problema, porque sabemos que n1 15 n2 15 R1 247 R2 218
Cálculo del estadístico U Definición del estadístico U
Usando los valores de n1 y n2 y las sumas de rangos R1 y R2, podemos determinar el estadístico u, una medida de la diferencia entre las observaciones clasificadas de las dos muestras de calificaciones en el SAT: Estadístico U
Cálculo del estadístico U
n1(n1 1) u n1n2 R1 2
[14-1]
(15)(16) (15)(15) 247 2 225 120 247 98 ← Estadístico U Si la hipótesis nula de que n1 n2 observaciones provienen de poblaciones idénticas es cierta, entonces el estadístico u tiene una distribución muestral con una media de
558
CAPÍTULO 14 Métodos no paramétricos
Tabla 14-5 Datos sin procesar y rango de las calificaciones en el SAT
Plantel A Rango 1,000 1,100 800 750 1,300 950 1,050 1,250 1,400 850 1,150 1,200 1,500 600 775
Plantel S
16 18 8 6 25 15 17 24 27 l0 21 22 28 3 7 247 ← Total de rangos
920 1,120 830 1,360 650 725 890 1,600 900 1,140 1,550 550 1,240 925 500
Rango 13 19 9 26 4 5 11 30 12 20 29 2 23 14 1 218 ← Total de rangos
Media de la distribución muestral de U n1n2
U 2
[14-2]
(15)(15) 2 112.5 ← Media del estadístico U y un error estándar de
Error estándar del estadístico U
U
n1n2(n1 n2 1)
12
[14-3]
(15)(15)(15 15 1)
12
12
6,975
5 81.2 5 24.1 ← Error estándar del estadístico U
Prueba de las hipótesis La distribución muestral del estadístico u puede aproximarse por la distribución normal cuando tanto n1 como n2 son mayores que 10. Como nuestro problema cumple esta condición,podemos usar la tabla de distribución de probabilidad normal estándar para hacer la prueba. La junta de directores de-
14.3: Pruebas de suma de rangos: prueba U de Mann-Whitney y prueba de Kruskal-Wallis
559
sea probar al nivel de significancia de 0.15 la hipótesis de que estas muestras fueron extraídas de poblaciones idénticas. Planteamiento de las hipótesis Búsqueda de los límites de la región de aceptación
H0: 1 2 ← Hipótesis nula: no hay diferencia entre las dos poblaciones, tienen la misma media H1: 1 2 ← Hipótesis alternativa: existe una diferencia entre las dos poblaciones; en particular, tienen distintas medias 0.15 ← Nivel de significancia para probar estas hipótesis La junta de directores desea saber si el promedio de calificación de la prueba de aptitud académica, SAT, en cualquiera de dos escuelas es mejor o peor que en la otra. La figura 14-13 ilustra la gráfica de esta prueba. Las dos áreas sombreadas representan el nivel de significancia de 0.15. Como se está usando la distribución normal como distribución de la muestra en esta prueba, de la tabla 1 del apéndice se puede determinar que el valor crítico de z para un área de 0.425 es 1.44. Ahora usamos la ecuación 7-2 para estandarizar la estadística u de la muestra, restando u, su media, y dividiendo entre u, su error estándar.
u u z u
[7-2]
98 112.5 z 24.1 0.602 La figura 14-4 señala el valor estandarizado de la muestrau y los valores críticos de z para la prueba. La junta de directores debe observ ar que el estadístico de la muestra está dentro de los v alores críticos para la prueba y concluir que las distribuciones y, por ende, las medias de las calificaciones del SAT en las dos escuelas son iguales.
Propiedades especiales de la prueba U Otra forma de calcular el estadístico U
El estadístico u tiene una característica que permite a los usuarios ahorrar tiempo en cálculos cuando las dos muestras bajo observ ación tienen diferente tamaño. Acabamos de calcular el valor de u usando la ecuación 14-1: n1(n1 1) U n1n2 R1 2
[14-1]
Pero con la misma facilidad podríamos haber calculado la estadística u usando el valor de R2, así: Fórmula alternativa para el estadístico U n2(n2 1) u n1n2 R2 2
FIGURA 14-3 Prueba de hipótesis de dos colas al nivel de significancia de 0.15
Valor crítico z = -1.44
Valor crítico z = +1.44
0.075 del área
Representación gráfica de la prueba
0.075 del área 0.425 del área
0.425 del área
0
[14-4]
560
CAPÍTULO 14 Métodos no paramétricos
FIGURA 14-4 Prueba de hipótesis de dos colas al nivel de significancia de 0.15; señala la región de aceptación y el estadístico de la muestra U
Región de aceptación Acepte la hipótesis nula si el valor muestral está en esta región
Valor estandarizado de la muestra U
-1.44
Manejo de empates en los datos
-0.602
0
1.44
La respuesta habría sido 127 (que se aleja hacia arriba de la media de 112.5 justo tanto como 98 se aleja hacia abajo). En este problema, habríamos tardado lo mismo calculando el valor del estadístico U con la ecuación 14-1 que con la 14-4. En otros casos,cuando el número de elementos es mayor en una muestra que en la otra, elija la ecuación que requerirá menos trabajo. Sin importar si calculó U usando la ecuación 14-1 o la 14-4,llegará a la misma conclusión. Observe que en este ejemplo, la respuesta 127 cae en la región de aceptación tal como lo hizo 98. ¿Qué pasa si aparecen empates cuando clasificamos los elementos para esta prueba? Por ejemplo, ¿qué sucede si las calificaciones 13 y 14 de la tabla 14-4 tuvieran ambas el v alor 920? En este caso, encontramos el promedio de sus rangos (13 l4)/2 13.5, y asignamos el resultado a los dos. Si hubiera un empate entre tres clasificaciones, 13, 14 y 15, por ejemplo, promediamos estos rangos (13 14 15)/3 14, y usamos ese valor para los tres elementos.
Solución de un problema usando la prueba de Kruskal-Wallis Prueba de diferencias cuando están involucrados más de dos poblaciones
Clasificación de los elementos de la prueba
Como se observó en esta sección, la prueba de Kruskal-W allis es una e xtensión de la prueba de Mann-Whitney para casos en que están involucradas más de dos poblaciones. Esta prueba, también, depende de los rangos de las observaciones de la muestra. La tabla 14-6 presenta las calificaciones de una muestra de 20 pilotos estudiantes en su examen escrito de la Agencia Federal de Aviación (AFA), dispuestas según el método que se empleó en su capacitación: videocasete, audiocasete o salón de clase. La AFA está interesada en evaluar la efectividad de estos tres métodos de capacitación. Específicamente, desea probar, al nivel de significancia de 0.10, la hipótesis de que las calificaciones medias en el examen escrito de los pilotos estudiantes capacitados por estos tres métodos son iguales. Puesto que tenemos más de dos poblaciones involucradas, es pertinente aplicar la prueba de Kruskal-Wallis en este caso. Para ello, comenzamos en la tabla 14-7 por clasificar todas las calificaciones en orden ascendente, indicando junto a cada una el símbolo del método de entrenamiento que se utilizó. Los empates se manejan promediando los rangos, como se hizo con la prueba de Mann-Whitney. A continuación, definimos los símbolos usados en una prueba de Kruskal-Wallis: nj número de elementos en la muestra j Rj suma de los rangos de todos los elementos en la muestra j k número de muestras n n1 n2 . . . nk, el número total de observaciones en todas las muestras
Símbolos utilizados para una prueba de Kruskal-Wallis
Tabla 14-6 Calificaciones en el examen escrito de 20 pilotos estudiantes capacitados con tres métodos
Videocasete Audiocasete Salón
74 78 68
88 80 83
82 65 50
93 57 91
55 89 84
70 77
94
81
92
14.3: Pruebas de suma de rangos: prueba U de Mann-Whitney y prueba de Kruskal-Wallis
Tabla 14-7 Calificaciones del examen escrito clasificadas en orden ascendente
Reclasificación de los datos para calcular sumas de rangos
Rango
Calificaciones
Método de capacitación
Rango
Calificaciones
Método de capacitación
1 2 3 4 5 6 7 8 9 l0
50 55 57 65 68 70 74 77 78 80
S VC AC AC S VC VC S AC AC
11 12 13 14 15 16 17 18 19 20
81 82 83 84 88 89 91 92 93 94
S VC S S VC AC S S VC S
561
La tabla 14-8 contiene los datos de la tabla 14-7 reclasificados de tal forma que facilita calcular las sumas de los rangos para cada método de capacitación. Entonces podemos usar la ecuación 14-5 para calcular el estadístico K, una medida de las diferencias entre las observaciones clasificadas en las tres muestras. Estadístico K
Cálculo del estadístico K
12 K n(n 1)
R2j 3(n 1) nj
[14-5]
(61)2 (42)2 (107)2 12 3(20 1) 6 5 9 20(201)
(0.02857)(620.2 352.8 1,272.1 63) 1.143
Prueba de las hipótesis La distribución muestral del estadístico K puede aproximarse por una distribución ji-cuadrada cuando los tamaños de todas las muestras son al menos 5 . Como nuestro problema satisface esta condición, podemos usar la distribución ji-cuadrada y la tabla 5 del apéndice para esta prueba. En una
Tabla 14-8 Datos y rango ordenados según el método de capacitación
Videocasete 74 88 82 93 55 70
Rango
Audiocasete
7 15 12 19 2 6 1 ← Suma 6 de rangos
78 80 65 57 89
Rango 9 10 4 3 16 42 ← Suma de rangos
Salón 68 83 50 91 84 77 94 81 92
Rango 5 13 1 17 14 8 20 11 18 10 7 ← Suma de rangos
562
CAPÍTULO 14 Métodos no paramétricos
FIGURA 14-5 Región de aceptación Acepte la hipótesis nula si el valor de la muestra está en esta región
Prueba de Kruskal-Wallis al nivel de significancia de 0.10; señala la región de aceptación y el estadístico muestral K
0.10 de área
Ilustración de la prueba 0
4.605 Valor de la muestra K, 1.143
prueba de Kruskal-Wallis, el número apropiado de grados de libertad es k 1, que en este problema es (3 1) o 2, puesto que tenemos tres muestras. Las hipótesis pueden enunciarse de la siguiente manera: H0: 1 2 3 H1: 1, 2 y 3 no todas son iguales 0.10
Formulación de las hipótesis
Interpretación de los resultados
← Hipótesis nula: no hay diferencia entre las tres poblaciones, es decir, tienen la misma media ← Hipótesis alternativa: existen diferencias entre las tres poblaciones; en particular, tienen distintas medias
← Nivel de significancia para probar estas hipótesis
La figura 14-5 ilustra una distribución ji-cuadrada con 2 grados de libertad. El área sombreada representa el nivel de significancia de 0.10. Observe que la región de aceptación para la hipótesis nula (que no existen diferencias entre las tres poblaciones) se extiende de cero a un valor ji-cuadrada de 4.605. Obviamente, el valor muestral K de 1.143 está dentro de la región de aceptación; por consiguiente, la AFA debe aceptar la hipótesis nula y concluir que no hay diferencias en los resultados obtenidos al usar los tres métodos de capacitación.
Las pruebas de suma de rangos,como las de Mann-Whitney y de Kruskal-Wallis, a menudo producen empates. Cuando los encuentre, recuerde que cada v alor empatado obtiene un rango promedio. Si los elementos 10° y SUGERENCIAS Y SUPOSICIONES
11° están empatados, cada uno obtiene un rango de 10.5. En el caso de empates de más de 2 elementos,todos obtienen el rango promedio [un empate en los elementos 3°,4°, 5° y 6° significa que los cuatro obtienen el rango de (3 4 5 6)/4 4.5].
Ejercicios 14.3 Ejercicios de autoevaluación EA
14-3
La boutique de Melisa tiene tres establecimientos en centros comerciales. Melisa mantiene un gistro re diario del número de clientes que realmente compran en cada establecimiento. La siguiente es una muestra de esos datos. Utilizando la prueba de Kruskal-Wallis, ¿puede decir, al nivel de significancia de 0.05, que sus tiendas tienen el mismo número de clientes que compran?
Centro comercial Eastowne Centro comercial Craborchard Centro comercial Fairforest
EA
14-4
99 83 89
64 102 98
101 125 56
85 61 105
79 91 87
88 96 90
97 94 87
95 89 101
90 93 76
100 75 89
Un gran hospital contrata la mayor parte de sus enfermeras en dos uni versidades importantes del área. Durante el año pasado, aplicaron un examen a las enfermeras recién graduadas que entran al hospital para
14.3: Pruebas de suma de rangos: prueba U de Mann-Whitney y prueba de Kruskal-Wallis
563
determinar qué escuela parece preparar mejor a sus enfermeras, si alguna lo hace. Basándose en las siguientes calificaciones (de 100 puntos posibles), ayude a la oficina de personal del hospital a determinar si las escuelas difieren en calidad. Use la pruebau de Mann-Whitney con un nivel de significancia del 10%. Calificaciones del examen Escuela A Escuela B
97 88
69 99
73 65
84 69
76 97
92 84
90 85
88 89
84 91
87 90
93 87
91
72
Aplicaciones ■ 14-14
Pruebe la hipótesis de que no hay diferencia entre las edades de empleados masculinos y femeninos de cierta compañía, utilizando la prueba u de Mann-Whitney para los datos de la muestra. Use el nivel de significancia de 0.10. Hombres Mujeres
■ 14-15
25 30
38 34
33 47
$89 $78 $80
90 93 88
92 81 86
81 87 85
44 35
26 47
43 48
35 34
76 89 79
88 71 80
85 90 84
95 96 85
97 82 90
86 85 92
100
78 110 90
64 70 68
75 53 70
45 51 54
82 61 74
69 68 65
60 59
Los siguientes datos muestran horas anuales perdidas por enfermedad de los 24 hombres y mujeres de la Northern Packing Company, Inc. Al nivel de significancia de 0.10, ¿existe alguna diferencia atribuible al sexo? Utilice la prueba U de Mann-Whitney. Hombres Mujeres
■ 14-18
40 32
Una compañía de regalos de compras por catálogo tiene la siguiente muestra de ventas en dólares, separados de acuerdo con la forma de pago del pedido. Pruebe la hipótesis de que no e xiste diferencia en la cantidad en dólares recibida por pagos en efectivo, cheque o tarjeta de crédito. Use la prueba de KruskalWallis con un nivel de significancia de 0.05. Pagos con tarjeta de crédito Pagos con cheque Pagos con efectivo
■ 14-17
42 35
En la tabla siguiente se dan los precios de venta de tres marcas de zapatos. Use la prueba de Kruskal-Wallis para determinar si existe alguna diferencia entre los precios de venta de las marcas a lo largo del país. Utilice el nivel de significancia de 0.01. Marca A Marca B Marca C
■ 14-16
31 44
31 38
44 34
25 33
30 47
70 58
63 83
54 18
42 36
36 41
22 37
25 24
50 48
Un fabricante de juguetes cambió el tipo de máquinas in yectoras de plástico que usaba porque una máquina moderna dio evidencias de ser más económica. Sin embargo, al iniciar la temporada de Navidad, la productividad pareció un poco menor a la del año anterior . Los registros de producción de los últimos años estaban disponibles y el gerente de producción decidió comparar el resultado mensual de los 15 meses en que se usaron las máquinas antiguas y los 11 meses de producción de ese año. Los registros muestran estas cantidades de producción con las máquinas antiguas y las nuevas. Producción mensual en unidades Máquinas antiguas 992 945 938 1,027 892 983 1,014 1,258
966 889 972 940 873 1,016 897
Máquinas nuevas 965 1,054 912 850 796 911 877 902
956 900 938
564
CAPÍTULO 14 Métodos no paramétricos
■ 14-19
■ 14-20
¿Puede concluir la compañía, a un nivel de significancia de 0.10, que el cambio en las máquinas ha reducido la producción? Hank’s Hot Dogs tiene cuatro puestos de hot dogs en el Memorial Stadium. Hank sabe cuántos hot dogs se venden en cada puesto durante cada juego de fútbol y quiere determinar si los cuatro venden el mismo número. Use la prueba de Kruskal-Wallis, para un nivel de significancia de 0.10, ¿puede decir si los puestos tienen la misma cantidad de ventas de hot dogs? Juego
1
2
3
4
5
6
7
8
9
Visitantes norte Visitantes sur Casa norte Casa sur
755 782 714 776
698 724 758 824
725 754 684 654
895 825 816 779
886 815 856 898
794 826 884 687
694 752 774 716
827 784 812 889
814 789 734 917
Para incrementar las ventas durante los días de más demanda, una cadena de tiendas que vende queso en centros comerciales da pruebas de su producto a la entrada de las tiendas. La administración de la cadena define los días de más venta y selecciona aleatoriamente los días para repartir muestras. De una muestra de días que se consideraron fuertes en compras, los siguientes datos proporcionan las v entas de una tienda en los días que dio muestras de quesos y en los que no. Ventas (en cientos)
Días de promoción Días normales
■ 14-21
18 22
21 17
23 15
15 23
19 25
26 20
17 26
18 24
22 16
20 17
18 23
21 21
27
Use la prueba u de Mann-Whitney y un nivel de significancia de 5% para decidir si regalar muestras frente a las tiendas produjo mayores ventas. Una compañía está interesada en saber si hay una diferencia en la tasa de producción de empleados hombres y mujeres en el departamento de moldes. Se pidió a Judy Johnson, gerente de producción, que realizara un estudio para medir la producción de trabajadores hombres y mujeres durante una semana. De alguna manera, uno de los empleados de oficina extravió una porción de los datos, y Judy sólo pudo localizar la siguiente información de los registros de las pruebas:
U 176.4275
U 1,624 R1 3,255
■ 14-22
Judy también recordó que el tamaño de la muestra de hombres, n2, era 2 unidades mayor que n1. Reconstruya un valor z para la prueba y determine si puede suponerse que la producción semanal, a un nivel de significancia del 5%, es la misma tanto para hombres como para mujeres.También indique los valores para n1, n2 y R2. Una universidad que acepta estudiantes de preparatorias rurales y urbanas desea saber si los antecedentes distintos llevan a una diferencia en los promedios generales del primer año. Se presentan los datos de 13 estudiantes de zona rural de primer ingreso elegidos al azar y de 16 con antecedentes urbanos. Use la prueba U de Mann-Whitney con el 5% de nivel de significancia. Promedios generales del primer año Rural Urbana
■ 14-23
3.19 2.58 3.45 2.81
2.05 2.76 3.16 2.64
2.82 2.94 2.84 1.57
2.16
3.84
4.0
2.91
2.75
3.01
1.98
2.09 1.87
2.11 2.54
3.08 2.62
3.97
3.85
3.72
2.73
Veinte vendedores de la compañía Henley Paper recibieron capacitación en ventas durante el año pasado. Algunos fueron enviados a un programa nacional conducido por maestros en ventas. Los otros se capacitaron en las oficinas de la compañía con el gerente de ventas de Henley. Se dan los porcentajes de las cuotas de ventas logrados por ambos grupos durante el último año. El señor Boyden Henley, presidente, cree que los antecedentes, las aptitudes de ventas y la motivación de ambos grupos son comparables. Al nivel de significancia de 0.10, ¿ha resultado mejor alguno de los dos métodos de capacitación? Use la prueba u de Mann-Whitney.
565
14.3: Pruebas de suma de rangos: prueba U de Mann-Whitney y prueba de Kruskal-Wallis
Porcentaje de las cuotas logrado Maestros en ventas Compañía
90 80
95 90
105 100
110 120
100 95
75 95
80 90
90 100
105 95
120 105
Soluciones a los ejercicios de autoevaluación EA
14-3 Centro comercial Eastowne
99 24
64 3
101 26.5
85 8
79 6
88 11
97 22
95 20
90 15.5
Centro comercial Craborchard
83 7
Centro comercial Fairforest
89 13
100 25
102 28
125 30
61 2
91 17
96 21
94 19
89 13
93 18
75 4
98 23
56 1
105 29
87 9.5
90 15.5
87 9.5
101 26.5
76 5
89 13
n1 10 n2 10 n3 10 0.05 R1 161 R2 159 R3 145 H0: 1 2 3 H1: las no son todas iguales 12 K n(n 1)
R2j 3(n 1) nj
1R2j (145)2 (161)2 (159)2 12 3(31) 0.196 10 10 10 30(31) n nj
EA
14-4
Escuela A Escuela B
Con 3 1 2 grados de libertad y 0.05, el límite superior de la región de aceptación es 2 5.991, de manera que se acepta H0. Los números de compradores promedio en los tres centros no son significativamente diferentes.
97 22.5 88 13.5
69 2.5 99 24
n1 11 R1 134.5 H0: 1 2
73 5 65 1
84 8 69 2.5
76 6 97 22.5
92 20 84 8
90 16.5 85 10
88 13.5 89 15
84 8 91 18.5
87 11.5 90 16.5
93 21 87 11.5
91 18.5
72 4
n2 13 0.10 R2 165.5 H1: 1 2
n1(n1 1) 11(12) U n1n2 R1 11(13) 134.5 74.5 2 2 11(13) n1n2
U 71.5 2 2
U
n1n2 (n1 n2 1)
11(13)(25)
17.26 12 12
Los valores críticos de z son 1.645. El valor estandarizado U es 74.5 71.5 U U z 0.174 U 17.26 Debido a que el valor estandarizado U está dentro de los valores críticos, se acepta H0. No hay una diferencia significativa entre las escuelas.
566
CAPÍTULO 14 Métodos no paramétricos
14.4 Prueba de corridas de una sola muestra Concepto de aleatoriedad
Hasta ahora, hemos supuesto que las muestras en los problemas se seleccionaron aleatoriamente,esto es, se eligieron sin preferencia o sesgo. ¿Qué pasaría si llegara a observar patrones recurrentes en una muestra elegida por otra persona? Suponga que los solicitantes de capacitación para trabajos especializados tuvieran que seleccionarse sin importar el sexo, a partir de una población grande. Usando la notación M mujer y H hombre, encuentra que el primer grupo entra en este orden: M, M, M, M, H, H, H, H, M, M, M, M, H, H, H, H Por inspección, concluiría que aunque el número total de solicitantes se divide por igual entre los sexos, el orden no es aleatorio. Un proceso aleatorio rara vez enumeraría dos elementos en grupos alternos de cuatro. Suponga ahora que los solicitantes empiezan a llegar en este orden: M, H, M, H, M, H, M, H, M, H, M, H, M, H, M, H
La teoría de corridas
Resulta igual de irracional pensar que un proceso de selección aleatorio produciría un patrón de orden como éste de hombres y mujeres. En este caso, también, la proporción de mujeres respecto a hombres es correcta, pero sospecharía respecto al orden en el que llegaron. Para permitirnos probar la aleatoriedad del orden de las muestras,los estadísticos han desarrollado la teoría de corridas. Una corrida es una secuencia de ocurrencias idénticas precedidas y seguidas de ocurrencias diferentes o del todo por ninguna. Si los hombres y las mujeres entran de la siguiente manera, la secuencia contendrá tres corridas: M, H, H, H, H, M 1a. 2a. 3a. Y esta secuencia contiene seis corridas: M, M, M, H, H, M, H, H, H, H, M, M, M, M, H 1a. 2a. 3a. 4a. 5a. 6a.
Una prueba de corridas usaría los siguientes símbolos si tuviera sólo dos tipos de ocurrencias: Símbolos empleados para una prueba de corridas
n1 número de ocurrencias del tipo 1 n2 número de ocurrencias del tipo 2 r número de corridas Apliquemos estos símbolos a un patrón diferente para la llegada de los solicitantes: H, M, M, H, H, H, H, M, M, M, H, H, M, H, M, M, H En este caso, los valores de n1, n2 y r serían n1 8 ← Número de mujeres n2 9 ← Número de hombres r 9 ← Número de corridas
Un problema que ilustra una prueba de corridas de una sola muestra Un fabricante de cereal para el desayuno usa una máquina para introducir aleatoriamente uno de dos tipos de muñecos en cada caja. La compañía desea una aleatoriedad tal que no todos los niños de un vecindario terminen con el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesi vas para ver si la máquina está mezclando adecuadamente los dos tipos de muñecos. Usando los símbo-
14.4: Prueba de corridas de una sola muestra
567
los A y B para representar los dos tipos de muñecos, un probador reportó que uno de estos lotes se presentó como sigue: B, A, B, B, B, A, A, A, B, B, A, B, B, B, B, A, A, A, A, B, A, B, A, A, B, B, B, A, A, B, A, A, A, A, B, B, A, B, B, A, A, A, A, B, B, A, B, B, B, B, A, A, B, B, A, B, A, A, B, B Los valores de esta prueba serían: n1 29 ← Número de cajas que contienen el muñeco A n2 31 ← Número de cajas que contienen el muñeco B r 29 ← Número de corridas
La distribución de muestreo del estadístico r El estadístico r, base de la prueba de corridas de una sola muestra
El número de corridas, r, es un estadístico con su propia distribución de muestreo especial y su propia prueba. Es obvio que las corridas pueden ser de diferente longitud y en una muestra pueden ocurrir diversos números de corridas. Los estadísticos pueden probar que demasiadas corridas o muy pocas en una muestra indican que intervino algo más que el azar cuando se seleccionaron los elementos. Una prueba de corridas de una sola muestra, entonces, está basada en la idea de que muy pocas o demasiadas corridas muestran que los elementos no fueron elegidos aleatoriamente. Para derivar la media de la distribución de muestreo del estadístico r utilice la siguiente fórmula: Media de la distribución muestral del estadístico r
Media y error estándar del estadístico r
2n1n2
r 1 n1 n2
[14-6]
Al aplicar esta fórmula a la compañía de cereales, la media de la estadística r sería: (2)(29)(31)
r 1 29 31 1,798
r 1 60
r 29.97 1
r 30.97 ← Media del estadístico r El error estándar del estadístico r puede calcularse con esta fórmula de aspecto formidable: Error estándar del estadístico r
r
2n1n2(2n1n2 n1 n2)
(n n ) (n n 1) 1
2
2
1
2
Para nuestro problema, el error estándar del estadístico r se convierte:
r
(2)(29)(31)(2 29 31 29 31)
(29 31) (29 31 1) 2
(1,798)(1,738)
(60) (59) 2
1 4.7 1 3.84 ← Error estándar del estadístico r
[14-7]
568
CAPÍTULO 14 Métodos no paramétricos
Prueba de las hipótesis En la prueba de corridas de una sola muestra,la distribución muestral de r puede aproximarse de cerca por la distribución normal si n1 o bien n2 es mayor que 20. Nuestra compañía de cereales tiene una muestra de 60 cajas, así que podemos usar la aproximación normal. La gerencia está interesada en probar, al nivel de 0.20, la hipótesis de que los muñecos están mezclados aleatoriamente, por lo que la prueba se convierte en: Formulación de las hipótesis
Ilustración de la prueba
H0: H1:
En una prueba de corridas ← Hipótesis nula: los muñecos están mezclados aleatoriamente de una sola muestra, no es adecuado formular las hipótesis ← Hipótesis alternativa: los muñecos no están mezclados aleatoriamente con símbolos
0.20 ← Nivel de significancia para probar estas hipótesis
Puesto que demasiadas o muy pocas corridas indicarían que el proceso mediante el cual se introducen los muñecos en las cajas no es aleatorio, una prueba de dos colas es apropiada. La f igura 14-6 ilustra esta prueba. A continuación se usa la ecuación 7-2 para estandarizar el estadístico de la muestra r, 29, restando r, su media y dividiendo entre r, su error estándar. r r z r
[7-2]
29 30.97 z 3.84 0.513 FIGURA 14-6 Prueba de hipótesis de dos colas al nivel de significancia de 0.20
Valor crítico z = -1.28
Valor crítico z = +1.28
0.10 del área
0.10 del área 0.40 del área
0.40 del área
0
FIGURA 14-7 Prueba de hipótesis de dos colas al nivel de significancia de 0.20, que ilustra la región de aceptación y el número observado de corridas
Región de aceptación Acepte la hipótesis nula si el valor de muestra está en esta región
Número observado estandarizado de corridas (29)
-1.28
-0.513 0
1.28
14.4: Prueba de corridas de una sola muestra
569
Colocando el valor estandarizado en la escala z de la figura 14-7 se ve que cae dentro de los valores críticos para esta prueba. Por tanto, la administración debe aceptar la hipótesis nula y concluir, a partir de esta prueba, que los muñecos se ponen en las cajas en orden aleatorio. Las pruebas de corridas se pueden usar de manera efecti va en situaciones de control de calidad. Recuerde que la variación en la calidad puede ser sistemática o aleatoria, y si una variación es sistemática, se puede corregir. Una prueba de corridas puede detectar los tipos de patrones en la calidad de la producción que están SUGERENCIAS Y SUPOSICIONES
asociados con la v ariación sistemática. Sugerencia: casi todas las pruebas de corridas son de dos colas porque la pregunta que debe responderse es si hay muy pocas corridas. Recuerde también que las pruebas de corridas usan el estadístico r cuya distribución se puede describir bien mediante una distribución normal, siempre que n 1 o n2 sea mayor que 20.
Ejercicios 14.4 Ejercicios de autoevaluación EA
14-5
El profesor Ike Newton desea determinar si sus alumnos más brillantes (aquellos con las mejores notas) tienden a devolver más pronto sus exámenes (porque pueden recordar el material más rápido) o más tarde (porque toman más tiempo para escribir lo que saben) que los demás de la clase. P ara cierto examen particular de física, observa que los estudiantes obtienen las siguientes calif icaciones de acuerdo con el orden de entrega de sus exámenes. Orden 11-10 11-20 21-30
Calificaciones 94 69 50
70 90 55
85 57 47
89 86 59
92 79 68
98 72 63
63 80 89
88 93 51
74 66 90
85 74 88
a) Si el profesor Newton considera a quienes obtienen notas de 90 o más como sus estudiantes brillantes, entonces, a un nivel de significancia del 5%, ¿podría concluir que los estudiantes más brillantes entregaron sus exámenes de manera aleatoria? b) Si una calificación de 60 o más permite aprobar la materia del profesor Ne wton, ¿entonces los estudiantes que aprobaron contra los que no lo hicieron entregaron sus exámenes aleatoriamente? (También use un nivel de significancia del 5%.)
Conceptos básicos ■ 14-24
Pruebe la aleatoriedad de la siguiente muestra usando un nivel de significancia de 0.05: A, B, A, A, A, B, B, A, B, B, A, A, B, A, B, A, A, B, B, B, B, A, B, B, A, A, A, B, A, B, A, A, B, B, A, B, B, A, A, A, B, B, A, A, B, A, A, A.
Aplicaciones ■ 14-25
Se inspeccionó una secuencia de pequeñas esculturas de vidrio para detectar daños ocasionados en el envío. La secuencia de piezas aceptables y dañadas fue la siguiente: D, A, A, A, D, D, D, D, D, A, A, D, D, A, A, A, A, D, A, A, D, D, D, D, D
Pruebe la aleatoriedad de los daños ocasionados en el envío usando el nivel de significancia de 0.05. ■ 14-26
El News and Clarion mantenía un registro del sexo de las personas que llamaban a la of icina de circulación para quejarse de los problemas con la entrega del periódico dominical. Para un domingo reciente, estos datos fueron los siguientes: M, F, F, F, M, M, F, M, F, F, F, F, M, M, M, F, M, F, M, F, F, F, F, M, M, M, M, M
570
CAPÍTULO 14 Métodos no paramétricos
■ 14-27
Usando el nivel de significancia de 0.05, pruebe la aleatoriedad de esta secuencia. ¿Hay algo respecto a la naturaleza de este problema que lo induzca a creer que una secuencia así no es aleatoria? La Agencia de Servicios Sociales del condado de Kerwin mantiene este registro del número diario de solicitantes de asesoría matrimonial en el orden en que aparecen en la agencia durante 30 días hábiles. 3, 4, 6, 8, 4, 6, 7, 2, 5, 7, 4, 8, 4, 7, 9, 5, 9, 10, 5, 7, 4, 9, 8, 9, 11, 6, 7, 5, 9, 12
■ 14-28
Pruebe la aleatoriedad de esta secuencia viendo si los v alores mayores y menores que la media ocurren en orden aleatorio. Use el nivel de significancia de 0.10. ¿Puede pensar en alguna característica del entorno de este problema que apoye lo que encontró con la estadística? El dueño de un restaurante ha observ ado con los años que las parejas de más edad parecen comer más temprano que las parejas jóvenes en su tranquilo y romántico restaurante. Sospecha que tal v ez sea porque deben dejar a los niños con alguien que los cuide y porque las parejas de más edad se acuestan más temprano. Una noche, decidió llevar un registro de la llegada de parejas al restaurante. Anotó si cada pareja tenía menos o más que 30 años. Sus notas se reproducen a continuación. (A 30 y mayores; B menores de 30.) (5:30 p.m.) A, A, A, A, A, A, B, A, A, A, A, A, A, B, B, B, A, B, B, B, B, B, B, A, B, B, B, A, B, B, B (10 p.m.)
■ 14-29
Para un nivel de significancia del 5%, ¿estaba en lo correcto el dueño del restaurante en cuanto a que la edad de sus clientes a distintas horas de la noche no es aleatoria? Kathy Phillips está a car go de la programación de producción en una imprenta. La compañía tiene seis prensas grandes, que a menudo se descomponen, y uno de los mayores problemas de Kathy es cumplir con las fechas de entrega cuando ocurren desperfectos imprevistos en las prensas. Sospecha que cada la semana las viejas prensas se descomponen antes que las nue vas, ya que todas las prensas se v erifican y reparan durante el fin de semana. Para probar su hipótesis, Kathy registró el número de las prensas que fallaron durante la semana. Las prensas 1, 2 y 3 son las más antiguas. Número de prensa en el orden de falla 1, 2, 3, 1, 4, 5, 3, 1, 2, 5, 1, 3, 6, 2, 3, 6, 2, 2, 3, 5, 4, 6, 4, 2, 1, 3, 4, 5, 5, 1, 4, 5, 2, 3, 5, 6, 4, 3, 2, 5, 4, 3.
■ 14-30
a) A un nivel de significancia del 5%, ¿tiene Kathy una hipótesis válida respecto a que las f allas de las prensas no son aleatorias? b) ¿Es apropiada su hipótesis en cuanto a la decisión que desea tomar de reprogramar más trabajo a principios de la semana en las prensas más nuevas? Martha Bowen, gerente de departamento de una gran compañía de investigación de mercados, está a cargo de todos los análisis de datos de investigación de la compañía. La exactitud y minuciosidad son su responsabilidad. El departamento emplea varios ayudantes de investigación para que hagan algunos análisis y usa una computadora para otros análisis. Por lo general, cada semana Martha elige aleatoriamente los análisis terminados antes de entregarlos y hace pruebas para asegurar que son correctos y exhaustivos. La ayudante de Martha, Kim Tadlock elige al azar 49 análisis por semana entre los terminados y archivados diariamente, y Martha hace los análisis de nuevo. Ella desea cerciorarse de que el proceso de selección es aleatorio, con el fin de poder asegurar que los análisis de computadora y los hechos a mano se v erifican periódicamente. Para ello, dispuso que los ayudantes de in vestigación colocaran una marca especial en la parte de atrás de los registros, de manera que pudieran identificarse. Kim, no estaba al tanto de la marca, para que la aleatoriedad de la prueba no se viera afectada. Kim completó su muestra con los siguientes datos: Muestras de análisis de datos para una semana (1, por computadora; 2, a mano) 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1
a) A un nivel de significancia del 1%, ¿podría concluir que la muestra fue aleatoria? b) Si la muestra estuviera distribuida como sigue, ¿sería aleatoria? 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2
14.4: Prueba de corridas de una sola muestra
■ 14-31
571
c) Puesto que los análisis por computadora son mucho más rápidos que los hechos a mano, y como es posible hacer varios de los análisis por computadora, cada semana hay aproximadamente tres v eces más análisis de éstos que los hechos a mano. ¿Existe evidencia estadística en el inciso a) para apoyar la creencia de que en alguna parte del proceso de muestreo no ocurre la aleatoriedad? Si es así, ¿cuál es la evidencia? d) ¿La conclusión a la que llegó en el inciso c) lo lleva a alguna nueva conclusión respecto a la prueba de corridas de una sola muestra, particularmente en lo que se refiere a su respuesta en a)? Bank of America tiene curiosidad acerca del grado académico de los usuarios de sus cajeros automáticos (ATM) colocados en el edificios de la Sociedad de Alumnos. Los estudiantes de primero y se gundo año se clasifican como tipo A, los de tercero y cuarto como tipo B. Los datos de 45 personas que usaron el ATM el viernes en la tarde son los siguientes. Pruebe que esta secuencia sea aleatoria para un ni vel de significancia de 0.05. BBBAAABAAAAAABBBBABAAAABBAABBBBABBBBAAAAAABBB
■ 14-32
El First National Bank de Smithville re gistró el sexo de los primeros 40 clientes, que aparecieron el pasado martes, con esta notación: M, F, M, M, M, M, F, F, M, M, M, F, M, M, M, M, M, F, F, M, F, M, M, M, F, M, M, M, M, M, M, F, M, M, M, M, M, F, F, M
Al nivel de significancia de 0.05, pruebe la aleatoriedad de esta secuencia. ¿existe algo en el área bancaria o en la naturaleza de este problema que lo lleve a aceptar intuitivamente lo que encontró estadísticamente?
Soluciones a los ejercicios de autoevaluación EA
14-5
a) G denota a los estudiantes con 90 o más y L denota a los que tienen menos de 90: GLLLGGLLLLLGLLLLLGLLLLLLLLLLGL
n1 # de G´s 6
r 10
n2 # de L´s 24
0.05
2n1n2 2(6)(24)
r 1 1 10.6 n1 n2 30
r
2n1n2(2n1n2 n1 n2)
2(6)(24)[2(6)(24) 6 24]
(n n ) (n n 1) (30) (29) 1
2
2
1
2
2
r 1.69
Los valores críticos de z son ±1.96. El valor estandarizado de r es r r 10 10.6 z 0.355 r 1.69 de manera que se acepta H0. La secuencia es aleatoria. b) Si P denota aprobar (≥ 60) y F denota no aprobar (< 60), se obtiene PPPPPPPPPPPPFPPPPPPPFFFFPPPFPP
n1 # de P´s 24
r7
n2 # de F´s 6
0.05
2(24)(6)
r 1 10.6 30
r
2(24)(6)[2(24)(6) 24 6]
1.69 (30) (29) 2
572
CAPÍTULO 14 Métodos no paramétricos
Los valores críticos de z son ±1.96. El valor estandarizado de r es 7 10.6 z 2.13 1.69 de manera que se rechaza H0 porque z 1.96. Esta secuencia no es aleatoria.
14.5 Correlación de rango Función del coeficiente de correlación de rango
Otra ventaja del uso de la correlación de rango
Los capítulos 12 y 13 nos introdujeron a los conceptos de correlación y coef iciente de correlación, una medida de la cercanía de asociación entre dos variables. Con frecuencia, en el análisis de correlación, la información no está disponible en forma de valores numéricos como los utilizados en los problemas de esos capítulos. Sin embargo, si podemos asignar clasificaciones a los elementos de cada una de las dos variables que estamos estudiando, entonces podemos calcular un coeficiente de correlación de rango. Éste es una medida de la correlación que existe entre los dos conjuntos de rangos, una medida del grado de asociación entre las variables que no podríamos calcular de otra manera. Una segunda razón para aprender el método de correlación de rango es la posibilidad de simplificar el proceso de cálculo de un coeficiente de correlación a partir de un conjunto de datos muy grande para cada una de las dos v ariables. Para probar lo tedioso que esto puede ser , intente aumentar uno de los problemas de correlación del capítulo 12,por un factor de 10, y realizar los cálculos necesarios. En lugar de tener que hacer estos cálculos, podemos calcular una medida de asociación basada en los rangos de las observaciones, no en los valores numéricos de los datos. Esta medición se conoce como coeficiente de correlación de rango de Spearman, en honor al estadístico que lo desarrolló a principios del siglo XX.
El coeficiente de correlación de rangos Listado de las variables clasificadas
Cálculo del coeficiente de correlación de rangos
Mediante un par de ejemplos, aprenderemos a calcular e interpretar esta medida de la asociación entre dos variables clasificadas. Primero, consideremos la tabla 14-9, que enumera cinco personas y compara el rango o clasificación académica que obtuvieron en la uni versidad con el nivel que han logrado en cierta compañía 10 años después de graduarse. El valor 5 representa el rango más alto del grupo; 1 es el más bajo. Usando la información de la tabla 14-9, podemos calcular un coeficiente de correlación de rangos entre el éxito en la universidad y el nivel logrado en la compañía 10 años después. Lo único que necesitamos es la ecuación 14-8 y unos cuantos cálculos. Coeficiente de correlación de rangos 6d2 rs 1 n(n2 1)
[14-8]
donde, • rs coeficiente de correlación de rangos (observe que el subíndice s, de Spearman, distingue esta r de la calculada en el capítulo 12) • n número de observaciones apareadas • notación que significa “la suma de” • d diferencia entre los rangos para cada pareja de observaciones
14.5: Correlación de rango
Tabla 14-9 Comparación de los rangos de cinco estudiantes
Estudiante
Rango universitario
Rango en la compañía 10 años después
John Margaret Debbie Steve Lisa
4 3 1 2 5
4 3 1 2 5
573
Los cálculos en forma tabular son sencillos, como se ve en la tabla 14-10. Por tanto,tenemos toda la información que necesitamos para encontrar el coef iciente de correlación de rango para este problema: 6d2 rs 1 n(n2 1)
[14-8]
6(0) 1 5(25 1) 0 1 120 rs 1 ← Coeficiente de correlación de rangos Explicación de los valores del coeficiente de correlación de rango Cálculo de otro coeficiente de correlación de rangos
Como estudiamos en el capítulo 12,este coeficiente de correlación de 1 indica que existe una asociación perfecta o correlación perfecta entre las dos variables. Esto verifica lo que se ve en la tabla 14-9, que los rangos universitarios y de la compañía para cada persona son idénticos. Otro ejemplo nos familiarizará más con el manejo del coeficiente de correlación de rangos. En la tabla 14-11 se presenta el caso de otras cinco personas, pero esta vez los rangos universitarios y de la compañía 10 años después parecen ser opuestos. Podemos calcular la diferencia entre los rangos
Tabla 14-10 Generación de información para calcular el coeficiente de correlación de rangos
Estudiante
Rango universitario (1)
Rango en la compañía (2)
Diferencia entre los dos rangos (1) (2)
John Margaret Debbie Steve Lisa
4 3 1 2 5
4 3 1 2 5
0 0 0 0 0
Diferencia al cuadrado [(1) (2)]2 0 0 0 0 0 d 2 0 ← Suma de los cuadrados de las diferencias
Tabla 14-11 Generación de datos para calcular el coeficiente de correlación de rangos
Estudiante
Rango universitario (1)
Rango en la compañía (2)
Diferencia entre los dos rangos (1) (2)
JohRoy David Jay Charlotte Kathy
5 1 3 2 4
1 5 3 4 2
4 4 0 2 2
Diferencia al cuadrado [(1) (2)]2 16 16 0 4 4 d 2 40 ← Suma de los cuadrados de las diferencias
574
CAPÍTULO 14 Métodos no paramétricos
de cada pareja de observaciones, encontrar d2, y luego sumar todas las d2. Sustituyendo estos valores en la ecuación 14-8, encontramos un coeficiente de correlación de rango cuyo valor es l: 6d2 rs 1 n(n2 1)
[14-8]
6(40) 1 5(25 1) 240 1 120 12 1 ← Coeficiente de correlación de rangos Interpretación de los resultados
En el capítulo 12, aprendimos que un coeficiente de correlación de 1 representa una correlación inversa perfecta. Eso es justamente lo que ocurre en nuestro caso:la gente que más destacó en la universidad terminó en los rangos menores de una organización. Ahora apliquemos estas ideas.
Solución de un problema usando correlación de rangos La correlación de rangos es una técnica útil para examinar a conexión entre calidad del aire y la evidencia de enfermedades pulmonares que analizamos en el problema del inicio del capítulo. La tabla 14-12 reproduce los datos encontrados por la or ganización de la salud que estudia el problema. En la misma tabla, hacemos algunos cálculos necesarios para encontrar rs. Búsqueda del coeficiente de correlación de rangos
Usando los datos de la tabla 14-12 y la ecuación 14-8,podemos encontrar el coeficiente de correlación de rangos para este problema: 6d 2 rs 1 n(n2 1)
[14-8]
6(58) 1 11(121 1) 348 1 1,320 1 0.2636 0.7364 ← Coeficiente de correlación de rangos Interpretación de los resultados
Prueba de hipótesis acerca de la correlación de rangos
Un coeficiente de correlación de 0.736 sugiere una asociación positiva sustancial entre calidad promedio del aire y la ocurrencia de enfermedades pulmonares, al menos en las 11 ciudades muestreadas; esto es, altos niveles de contaminación van acompañados de enfermedades pulmonares. ¿Cómo podemos probar este valor de 0.736? Podemos aplicar los mismos métodos usados para probar hipótesis en los capítulos 9 y 10. Al realizar esas pruebas en rs, tratamos de evitar el error de concluir que existe una asociación entre dos variables si en realidad no existe en la población de la cual se tomaron esas dos muestras,es decir, si el coeficiente de correlación de rango de lapoblación, s (ro sub s), es realmente igual a cero. Para pequeños valores de n (n menor o igual que 30), la distribución de rs no es normal, y a diferencia de otras estadísticas de muestras pequeñas que hemos encontrado, no es apropiado usar la distribución t para probar hipótesis acerca del coeficiente de correlación de rangos. En su lugar, utilizamos la tabla 7 del apéndice para determinar las regiones de aceptación y de rechazo de las hipótesis. En nuestro problema actual, suponga que la organización de salud desea probar, al
14.5: Correlación de rango
Tabla 14-12 Rangos de 11 ciudades
Ciudad A B C D E F G H I J K
Rango de la calidad de aire (1)
Rango de enfermedad pulmonar (2)
Diferencia entre los dos rangos (1) (2)
4 5 7 4 9 7 1 3 2 1 10 11 3 2 5 10 6 8 8 6 11 9 Mejor rango 11 Peor rango 1
1 3 2 2 1 1 1 5 2 2 2
575
Diferencia al cuadrado [(1) (2)]2 1 9 4 4 1 1 1 25 4 4 4 d 2 58 ← Suma de los cuadrados de las diferencias
nivel de significancia de 0.05, la hipótesis nula de que existe una correlación de cero en los datos clasificados de todas las ciudades del mundo. Nuestro problema entonces se convierte en: Formulación de las hipótesis
H0: s 0
← Hipótesis nula: no existe correlación en los datos clasificados de la población
H1: s 0
← Hipótesis alternativa: existe correlación en los datos clasificados de las poblaciones
0.05 ← Nivel de significancia para probar estas hipótesis
La distribución apropiada para valores de n mayores que 30
Una prueba de dos colas es adecuada, así que consultamos la tabla 7 del apéndice, en el renglón correspondiente a n 11 (el número de ciudades) y la columna correspondiente al nivel de significancia de 0.05. Encontramos que los valores críticos para rs son 0.6091, esto es, el límite superior de la región de aceptación es 0.6091 y el límite inferior es 0.6091. La figura 14-8 ilustra los límites de la región de aceptación y el coeficiente de correlación de rangos calculado a partir de la muestra de calidad de aire. De esta figura, podemos ver que el coeficiente de correlación de rango cae fuera de la región de aceptación. Por consiguiente, rechazamos la hipótesis nula de no correlación y concluimos que e xiste una asociación entre los ni veles de calidad del aire y la incidencia de enfermedades pulmonares en las ciudades del mundo. Si el tamaño de la muestra es mayor que 30, ya no podemos utilizar la tabla 7 del apéndice. Sin embargo, cuando n es mayor que 30, la distribución muestral de rs es aproximadamente normal, con media de cero y desviación estándar de 1/n . l En consecuencia, el error estándar de rs es Error estándar del coeficiente de la correlación de rangos 1 rs n 1
Ejemplo con n mayor que 30
[14-9]
y podemos usar la tabla 1 del apéndice para encontrar los valores de z para probar las hipótesis con respecto a la correlación de rangos de población. Como un ejemplo de prueba de hipótesis de coeficientes de correlación de rango cuando n es mayor que 30; consideremos el caso de un científico social que intenta determinar si la gente brillante tiende a elegir un cónyuge que también sea brillante. Selecciona aleatoriamente 32 parejas y prueba para ver si existe una correlación de rangos significativa en los coeficientes intelectuales (CI) de las parejas. Sus datos y cálculos se dan en la tabla 14-13.
576
CAPÍTULO 14 Métodos no paramétricos
FIGURA 14-8 Prueba de hipótesis de dos colas, usando la tabla 7 del apéndice al nivel de significancia de 0.05, donde se ve la región de aceptación y el coeficiente de correlación de rangos muestrales
Región de aceptación Acepte la hipótesis nula si el valor muestral está en esta región
Valor crítico de la tabla 7 del apéndice
Distribución de rs para 11 puntos de muestra
Coeficiente de correlación de rangos de 0.736
-0.6091
Tabla 14-13 Cálculo de la correlación de rangos del CI de esposos y esposas
Valor crítico de la tabla 7 del apéndice
Pareja (1)
0
CI del esposo (2)
CI de la esposa (3)
0.6091
Rango del esposo (4)
Rango de la esposa (5)
Diferencia entre rangos (4) (5)
Diferencia al cuadrado [(4) (5)]2
1
95
95
8
4.5
3.5
12.25
2
103
98
20
8.5
11.5
132.25
3
111
110
26
23
3
9.00
4
92
88
4
2
2
4.00
14
196.00
5
150
106
32
18
6
107
109
24
21.5
7
90
96
3
6
3
9.00
8
108
131
25
32
7
49.00
9
100
112
17.5
25.5
8
64.00
10
93
95
5.5
4.5
1
11
119
112
29
25.5
12
115
117
28
30
2
4.00
2
4.00
13
87
94
1
3
14
105
109
21
21.5
15
135
114
31
27
1.00 12.25
0.5
0.25
4
16.00
16
89
83
1
1.00
99
105
14.5
16.5
2
4.00
18
106
115
22.5
28
5.5
19
126
116
30
29
1
1.00
20
100
107
17.5
19
1.5
2.25
5.5
24
18.5
342.25
21
93
111
94
98
23
100
105
7 17.5
1
3.5
6.25
17
22
2
2.5
30.25
8.5
1.5
2.25
16.5
1
1.00
5
25.00
24
96
103
10
15
25
99
101
14.5
13
26 27 28 29 30 31
112 106 98 96 98 100
123 108 97 100 99 100
27 22.5 12.5 10 12.5 17.5
32
96
102
10
1.5
2.25
31 20 7 11.5 10 11.5
4 2.5 5.5 1.5 2.5 6
16.00 6.25 30.25 2.25 6.25 36.00
14
4
16.00
Suma de cuadrados de las diferencias → d 2 1 ,0 4 3 .5 0
14.5: Correlación de rango
577
Usando los datos de la tabla 14-13 y la ecuación 14-8,podemos encontrar el coeficiente de correlación de rangos para este problema: 6d 2 rs 1 n(n2 1)
[14-8]
6(1,043.5) 1 32(1,024 1) 6,261 1 32,736 1 0.1913 rs 0.8087 ← Coeficiente de correlación de rangos Si el científico social desea probar su hipótesis al nivel de significancia de 0.01, su problema puede formularse así: H0: s 0
← Hipótesis nula: no existe correlación de rangos en la población, esto es, la inteligencia de los esposos y esposas está mezclada al azar
Formulación de las hipótesis
H1: s 0
← Hipótesis alternativa: la correlación de rangos de la población es positiva, es decir, las personas brillantes eligen esposos brillantes
0.01 ← Nivel de significancia para probar estas hipótesis Es adecuado realizar una prueba de cola superior. De la tabla 1 del apéndice, encontramos que el valor z crítico para el nivel de significancia de 0.01 es 2.33. La figura 14-9 ilustra esta prueba de hipótesis, donde la región sombreada en la cola superior de la distribución corresponde al nivel de significancia de 0.01. Para calcular nuestro estadístico de prueba, primero encontramos el error estándar rs: 1 rs n 1
[14-9]
1 0.1796 32 1 Ahora podemos usar la ecuación 7-2 para estandarizar el coeficiente de correlación del rango, rs, restando 0, su valor hipotético y dividiendo entre rs, su error estándar. rs 0 z rs
[7-2]
0.8087 z 0.1796 z 4.503 Interpretación de los resultados
La figura 14-10 muestra el límite de la región de aceptación y el coeficiente de correlación de rangos que calculamos de los datos del CI. En esta f igura, podemos ver que el coeficiente de correlación de rango de 0.809 cae bastante fuera de la región de aceptación. Por tanto, rechazamos la hipótesis nula de no correlación y concluimos que la gente brillante tiende a elegir esposos brillantes.
Una propiedad especial de la correlación de rangos Ventaja de la correlación de rangos
La correlación de rango tiene una ventaja útil sobre el método de correlación que analizamos en el capítulo 12. Suponga que tenemos casos en los que e xisten una o varias observaciones sumamente
578
CAPÍTULO 14 Métodos no paramétricos
FIGURA 14-9 Prueba de hipótesis de cola superior al nivel de significancia de 0.01
Valor crítico z = 2.33
0.01 del área 0.50 del área
0.49 del área
s H = 0 0
FIGURA 14-10 Prueba de hipótesis de cola superior al nivel de significancia de 0.01; indica la región de aceptación y el coeficiente de correlación de rango de la muestra
Región de aceptación Acepte la hipótesis nula si el valor muestral está en esta región Distribución de rs
Coeficiente de correlación de rango de muestra estándar
0
2.33
4.503
extremas en los datos originales. Calcular el coef iciente de correlación con valores numéricos, como lo hicimos en el capítulo 12, puede no producir una buena descripción de la asociación existente entre dos variables. Sin embargo, las observaciones extremas en una prueba de correlación de rangos nunca producirán una diferencia de rangos grande. Considere el siguiente arreglo de datos de dos variables, X y Y: X Y
10 34
13 40
16 45
19 51
25 117
Debido al valor alto del quinto término de Y, obtendríamos dos respuestas significativamente diferentes para r si se usan los métodos convencional y de correlación de rangos. En este caso, el método de correlación de rangos es menos sensible al valor extremo. Asignamos un orden de rango de 5 al valor numérico de 117 y evitamos el efecto sobre el valor del coeficiente de correlación.
Cuando existen valores extremos en los datos originales, la correlación de rangos puede producir resultados más útiles que el método de correlación explicado en el capítulo 12, porque las observaciones extremas nunca producen una gran diferencia en el rango. Sugerencia:la correlación de rangos es muy útil cuando los datos no siguen una distribución normal. Tome el caso de una colecta de fondos para una universidad donde se obtienen algunas donaciones SUGERENCIAS Y SUPOSICIONES
“grandes”, muchas donaciones menores que $100 y un intervalo muy amplio en medio. No tiene sentido usar las éct nicas de correlación del capítulo 12 para investigar las relaciones entre el número de cartas de petición y el tamaño de las donaciones con este tipo de distribución porque las donaciones de millón y medio de dólares distorsionan el estudio. Aplicar la correlación de rangos en un caso como ést e funciona bastante bien.
14.5: Correlación de rango
579
Ejercicios 14.5 Ejercicios de autoevaluación EA
14-6
Las siguientes son clasificaciones de agresividad (X) y cantidad de v entas en el último año ( Y) de ocho vendedores. ¿Existe una correlación significativa entre las dos mediciones? Utilice el nivel de significancia de 0.10. X Y
30 35
17 31
35 43
28 46
42 50
25 32
19 33
29 42
Aplicaciones ■ 14-33
Los siguientes son años de experiencia (X) y el promedio de clientes satisfechos (Y) para 10 proveedores de servicios. ¿Existe una correlación de rangos signif icativa entre las dos medidas? Use un ni vel de significancia de 0.05. X Y
■ 14-34
6.3 5.3
5.8 8.6
6.1 4.7
1.8 6.1
9.4 5.1
4.7 6.3
7.2 6.8
2.4 5.2
5.0 1.0
8.0 6.0
2.0 4.5
4.0 2.0
3.0 7.0
7.0 8.0
1.0 4.5
6.0 3.0
Muchas personas creen que la experiencia gerencial produce mejores relaciones interpersonales entre un gerente y sus empleados. La Quail Corporation tiene los siguientes datos que asocian los años dexperiene cia del gerente con el número de quejas reportadas el año pasado por los empleados contra ese gerente. Al nivel de significancia de 0.05, ¿la correlación de rangos entre estos dos factores sugiere que la experiencia mejora las relaciones? Años de experiencia Número de quejas
■ 14-36
3.4 4.9
Un supervisor de planta clasificó una muestra de ocho trabajadores según el número de horas extras trabajadas y la antigüedad en el empleo. ¿La correlación de rangos entre las dos mediciones es significativa al nivel de 0.01? Cantidad de horas extra Años de empleo
■ 14-35
6.9 4.2
7 5
18 2
17 4
4 4
21 3
27 2
20 4
14 5
15 4
10 6
La Administración de Salud y Seguridad Ocupacional (OSHA, Occupational Safety and Health Administration) realizaba un estudio de las relaciones entre los gastos en la seguridad de la planta y la tasa de accidentes en las mismas, en la industria química sintética. Para ajustar la diferencia en tamaño que existía entre algunas de las plantas, OSHA convirtió sus datos en gastos por empleado de producción. Los siguientes son los resultados: Gastos de compañías químicas por empleado de producción en relación con accidentes por año Compañía Gastos Accidentes
■ 14-37
A $60 2
B $37 7
C $30 6
D $20 9
E $24 7
F $42 4
G $39 8
H $54 2
I $48 4
J $58 3
K $26 8
¿Existe una correlación significativa entre los gastos y los accidentes en las plantas de las compañías químicas? Use una correlación de rangos (con 1 para el mayor gasto y tasa de accidentes) para respaldar su conclusión. Pruebe al nivel de significancia del 1%. Dos profesores de una escuela de administración discutían lo difícil que es predecir el éxito de los graduados sólo basándose en las calificaciones. Un profesor pensaba que el número de años de e xperiencia que los estudiantes de maestría en administración de empresas tuvieran antes de re gresar por su posgrado tal vez era el mejor pronosticador. Usando los siguientes datos, al nivel de significancia de 0.02, ¿qué correlación de rangos es un mejor pronosticador del éxito profesional? Años de experiencia Promedio de calificaciones Rango de éxito (10 tope)
4 3.4 4
3 3.2 2
4 3.5 6
3 3.0 5
6 2.9 7
7 3.4 9
1 2.5 1
5 3.9 8
5 3.6 10
2 3.0 3
580
CAPÍTULO 14 Métodos no paramétricos
■ 14-38
La Carolina Lighting Company tiene dos entrevistadores de personal capacitados para reclutar gerentes principiantes para encargarse de tiendas nuevas. Aunque cada entrevistador tiene su propio estilo, se considera que ambos son buenos jueces preliminares del potencial gerencial. La gerente de personal se preguntaba qué tanto coincidirían los entrevistadores, así que hizo que ambos evaluaran a 14 solicitantes de manera independiente. Clasificaron a los solicitantes en términos de su grado de contribución potencial a la compañía. Los resultados se presentan a continuación. Use la correlación de rangos y un ni vel de significancia del 2% para determinar si e xiste una correlación positiva significativa entre las dos clasif icaciones de los entrevistadores. Solicitante Entrevistador 1 Entrevistador 2
■ 14-39
1 1 4
2 11 12
3 13 11
4 2 2
■ 14-41
6 10 10
7 3 1
8 4 3
9 14 13
10 5 8
11 6 6
12 9 7
13 7 9
14 8 5
Nancy McKenzie, supervisora de un proceso de ensamble de una cámara litográfica, siente que mientras más tiempo trabaja en equipo un grupo de empleados, mayor es la tasa de producción diaria. Ha recabado los siguientes datos para un grupo de empleados que trabajaron juntos durante 10 días. Día 1 Producción diaria 4.0
■ 14-40
5 12 14
2 7.0
3 5.0
4 6.0
5 8.0
6 2.0
7 3.0
8 0.5
9 9.0
10 6.0
¿Puede concluir Nancy, a un nivel de significancia del 5%, que no existe correlación entre el número de días que trabajaron juntos y la producción diaria? Una compañía electrónica que recluta muchos ingenieros, se pregunta si el costo de los esfuerzos extensivos de reclutamiento vale la pena. Si la compañía pudiera confiar (usando un nivel de significancia del 1%) en que la correlación de rangos de población entre el currículum indi vidual de los solicitantes clasificados por el departamento de personal y las calif icaciones de las entrevistas es positiva, se sentiría justificado en descontinuar las entrevistas y basarse en las calificaciones por currículum en la contratación. La compañía ha extraído una muestra de 35 solicitantes en los últimos dos años. Sobre la base de la muestra anterior, ¿debe la compañía descontinuar las entrevistas y usar las calificaciones del currículum individual para contratar? Individuo
Calificación de entrevista
Calificación de currículum
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
81 88 55 83 78 93 65 87 95 76 60 85 93 66 90 69 87 68
113 88 76 129 99 142 93 136 82 91 83 96 126 108 95 65 96 101
Individuo
Calificación de entrevista
Calificación de currículum
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
81 84 82 90 63 78 73 79 72 95 81 87 93 85 91 94 94
111 121 83 79 71 108 68 121 109 121 140 132 135 143 118 147 138
Los siguientes son los salarios y edades de los 10 candidatos a doctorado que se gradúan este año de la Escuela de Contabilidad de la Northwest University. Al nivel de significancia de 0.05, ¿la correlación de rangos de edad y salario sugiere que los candidatos de mayor edad obtienen salarios iniciales mayores? Salario
Edad
Salario
Edad
$67,000 60,000 57,500 59,500 50,000
29 25 30 35 27
55,000 59,500 63,000 69,500 72,000
31 32 38 28 34
14.6: Prueba de Kolmogorov-Smirnov
■ 14-42
581
Dee Boone opera un taller de reparación de motores de aeronaves ligeras. Está interesado en mejorar sus estimaciones del tiempo de reparación requerido y cree que el mejor pronosticador es el número de horas de operación del motor desde su última reparación importante. La tabla contiene los datos de 10 motores que Dee reparó recientemente. Al nivel de significancia de 0.10, ¿la correlación de rango sugiere una relación fuerte? Motor
Horas desde la última reparación importante
Horas requeridas para la reparación
1 2 3 4 5 6 7 8 9 10
1,000 1,200 900 1,450 2,000 1,300 1,650 1,700 500 2,100
40 54 41 60 65 50 42 65 43 66
Soluciones a los ejercicios de autoevaluación EA 14-6
X (rangos) Y (rangos) d d2
6 4 2 4
1 1 0 0
d 2 16 H0: s 0
7 6 1 1
4 7 3 9
n8
8 8 0 0
3 2 1 1
2 3 1 1
5 5 0 0
0.10
H1: s 0
6d2 6(16) 1 0.8095 rs 1 n(n2 1) 8(63) De la tabla 7 del apéndice, los valores críticos para rs son 0.6190. Como 0.8095 0.6190, se rechaza H0. La correlación es significativa.
14.6 Prueba de Kolmogorov-Smirnov La prueba de K-S y sus ventajas
Una ventaja especial
La prueba de Kolmogorov-Smimov, bautizada así en honor de los estadísticos A. N. Kolmogorov y N. V. Smirnov que la desarrollaron,se trata de un método no paramétrico sencillo para probar si xeiste una diferencia significativa entre una distribución de frecuencias observada y un distribución de frecuencias teórica. La prueba de K-S es, por consiguiente, otra medida de la bondad de ajuste de una distribución de frecuencia teórica, como lo es la prueba ji-cuadrada que estudiamos en el capítulo 11. Sin embargo, la prueba de K-S tiene varias ventajas sobre la prueba 2: es una prueba más poderosa, y es más fácil de usar, puesto que no requiere que los datos se agrupen de alguna manera. El estadístico de K-S, Dn, es particularmente útil para juzgar qué tan cerca está la distribución de frecuencias observada de la distribución de frecuencias esperada, porque la distribución de probabilidad de Dn depende del tamaño de muestra n, pero es independiente de la distribución de frecuencias esperada (Dn es un estadístico de “distribución libre”).
Un problema que ilustra la prueba de K-S Suponga que la central telefónica del condado de Orange, en California, ha llevado un registro del número de “transmisores” (un tipo de equipo automático que se utiliza en las centrales telefónicas) usados en un instante dado. Las observaciones se hicieron en 3,754 ocasiones distintas. Para propó-
582
CAPÍTULO 14 Métodos no paramétricos
Tabla 14-14 Frecuencias acumuladas observadas y relativas
Número ocupado 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Frecuencia observada 0 5 14 24 57 111 197 278 378 418 461 433 413 358 219 145 109 57 43 16 7 8 3
Frecuencia acumulada observada 0 5 19 43 100 211 408 686 1,064 1,482 1,943 2,376 2,789 3,147 3,366 3,511 3,620 3,677 3,720 3,736 3,743 3,751 3,754
Frecuencia acumulada observada relativa 0.0000 0.0013 0.0051 0.0115 0.0266 0.0562 0.1087 0.1827 0.2834 0.3948 0.5176 0.6329 0.7429 0.8383 0.8966 0.9353 0.9643 0.9795 0.9909 0.9952 0.9971 0.9992 1.0000
sitos de planeación de Inversión de capital, el funcionario de presupuesto de esta compañía piensa que el patrón de uso sigue una distribución de Poisson con una media de 8.5. Si desea probar esta hipótesis al nivel de significancia de 0.01, puede emplear la prueba de K-S. Formularíamos nuestras hipótesis de la siguiente manera: Formulación de las hipótesis
Cálculo y comparación de frecuencias esperadas
H0: una distribución de Poisson con 8.5 es una buena descripción del patrón de uso ← Hipótesis nula H1: una distribución de Poisson con 8.5 no es una b uena descripción del patrón de uso ← Hipótesis alternativa 0.01 ← Nivel de significancia para probar estas hipótesis A continuación, enumeraremos los datos observados. La tabla 14-14 lista las frecuencias observadas y las transforma en frecuencias acumuladas observadas relativas. Ahora podemos utilizar la fórmula de Poisson para calcular las frecuencias esperadas.
x e p(x) x! Al comparar estas frecuencias esperadas con las observ adas, podemos examinar la magnitud de la diferencia entre ellas: la desviación absoluta. En la tabla 14-15 enumeramos las frecuencias acumuladas observadas relativas F0, las frecuencias acumuladas relativas esperadas Fe, y las desviaciones absolutas para x 0 a 22.
Cálculo del estadístico de K-S Para calcular el estadístico de K-S para este problema, simplemente elija Dn, la desviación absoluta máxima de Fe, alejada de Fo.
14.6: Prueba de Kolmogorov-Smirnov
Estadístico de K-S
Cálculo del estadístico de K-S
Cálculo del valor crítico
583
Dn máx Fe Fo
[14-10]
En este problema, Dn 0.2582 en x 9. Una prueba de K-S siempre debe ser una prueba de una cola. Los valores críticos para Dn se han tabulado y pueden encontrarse en la tabla 8 del apéndice. Si buscamos en la fila de n 3,754 (el tamaño de muestra) y la columna para un nivel de significancia de 0.01, encontramos que el valor crítico de Dn debe calcularse usando la fórmula: 1.63 1.63 1.63 0.0266 n 3,7 54 61.27
Nuestra conclusión
El siguiente paso es comparar el valor calculado de Dn con el valor crítico de Dn que se encuentra en la tabla. Si el valor de la tabla para el nivel de significancia elegido es mayor que el valor calculado de Dn, entonces aceptaremos la hipótesis nula. Ob viamente, 0.0266 < 0.2582, así que rechazamos H0 y llegamos a la conclusión de que una distribución de Poisson con una media de 8.5no es una buena descripción del patrón del uso del transmisor en la central telefónica del condado de Orange. Tabla 14-15 Frecuencias acumuladas observadas relativas, frecuencias acumuladas observadas esperadas y desviaciones absolutas
Número ocupado
Frecuencia observada
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
0 5 14 24 57 111 197 278 378 418 461 433 413 358 219 145 109 57 43 16 7 8 3
Piense en la prueba de K olmogorovSmirnov como otra prueba de buen ajuste, igual que la prueba de ji-cuadrada del capítulo 11, excepto que esta vez es más fácil usarla porque no se necesita toda la aritmética del cálculo de la ji-cuadrada. La prueba de K-S sólo encuentra las distribuciones acumuladas relativas tanto para las frecuenSUGERENCIAS Y SUPOSICIONES
Frecuencia acumulada observada 0 5 19 43 100 211 408 686 1,064 1,482 1,943 2,376 2,789 3,147 3,366 3,511 3,620 3,677 3,720 3,736 3,743 3,751 3,754
Frecuencia acumulada observada relativa
Frecuencia acumulada observada esperada
Fe Fo Desviación absoluta
0.0000 0.0013 0.0051 0.0115 0.0266 0.0562 0.1087 0.1827 0.2834 0.3948 0.5176 0.6329 0.7429 0.8383 0.8966 0.9353 0.9643 0.9795 0.9909 0.9952 0.9971 0.9992 1.0000
0.0002 0.0019 0.0093 0.0301 0.0744 0.1496 0.2562 0.3856 0.5231 0.6530 0.7634 0.8487 0.9091 0.9486 0.9726 0.9862 0.9934 0.9970 0.9987 0.9995 0.9998 0.9999 1.0000
0.0002 0.0006 0.0042 0.0186 0.0478 0.0934 0.1475 0.2029 0.2397 0.2582 0.2458 0.2158 0.1662 0.1103 0.0760 0.0509 0.0291 0.0175 0.0078 0.0043 0.0027 0.0007 0.0000
cias observadas como para las frecuencias esperadas y después prueba qué tan lejanas están. Si la distancia no es significativa, entonces la distribución teórica describe bien a la distribución observada. No pierda de vista que las pruebas de K-S siempre son pruebas de una cola,porque siempre se prueba si las diferencias son mayores que el nivel especificado.
584
CAPÍTULO 14 Métodos no paramétricos
Ejercicios 14-6 Ejercicios de autoevaluación EA
14-7
La siguiente es una distribución de frecuencias observadas. Usando una distribución normal con 6.80 y 1.24: a) Encuentre la probabilidad de caer dentro de cada clase. b) Del inciso a), calcule la frecuencia esperada de cada categoría. c) Calcule Dn. d) Al nivel de significancia de 0.15, ¿parece esta distribución estar bien descrita por la distribución normal sugerida? Valor de la variable Frecuencia observada
4.009 13
4.010-5.869 158
5.870-7.729 437
9.590 20
7.730-9.589 122
Conceptos básicos ■ 14-43
Al nivel de significancia de 0.05, ¿podemos concluir que los siguientes datos provienen de una distribución de Poisson con 3? Número de llegadas por día Número de días
■ 14-44
1 18
2 30
3 24
4 11
5 2
6 o más 9
La siguiente es una distribución de frecuencias observadas. Utilice la distribución normal con 98.6 y 3.78. a) Encuentre la probabilidad de caer en cada clase. b) Del inciso a), calcule la frecuencia esperada de cada categoría. c) Calcule Dn. d) Para un nivel de significancia de 0.10, ¿parece que esta distribución está bien descrita por la distribución normal sugerida? Valor de la variable Frecuencia observada
■ 14-45
0 6
92.0 69
92.0-95.99 408
96.0-99.99 842
104 137
100-103.99 621
La siguiente es una tabla de frecuencias observadas, junto con las frecuencias que se esperan para una distribución normal. a) Calcule el estadístico de K-S. b) ¿Podemos concluir que estos datos en efecto pro vienen de una distribución normal? Use el nivel de significancia de 0.10. Resultados de la prueba
Frecuencia observada Frecuencia esperada
51-60 30 40
61-70 100 170
71-80 440 500
81-90 500 390
91-100 130 100
Aplicaciones ■ 14-46
Kevin Morgan, gerente nacional de ventas de una compañía de electrónica, ha recabado la siguiente estadística de salarios de los ingresos de la fuerza de ventas en su campo. Él tiene tanto las frecuencias observadas como las frecuencias esperadas si la distribución de salarios es normal. Al nivel de significancia de 0.10, ¿puede concluir Kevin que la distribución de los ingresos de la fuerza de ventas es normal?
Frecuencia observada Frecuencia esperada
25-30
31-36
9 6
22 17
Ingresos (miles de dólares) 37-42 43-48 49-54 25 32
30 35
21 18
55-60
61-66
12 13
6 4
Estadística en el trabajo
■ 14-47
Randall Nelson, vendedor de la compañía V-Star, tiene que visitar siete cuentas por semana. Se piensa que las ventas del señor Nelson pueden describirse mediante la distribución binomial con probabilidad de venta en cada cuenta de 0.45. Examinando la distrib ución de frecuencias observadas del número de v entas por semana del señor Nelson, determine si la distribución corresponde en efecto a la distribución sugerida. Use el nivel de significancia de 0.05. Número de ventas por semana Frecuencia del número de ventas
■ 14-48
585
0 25
1 32
2 61
3 47
4 39
5 21
6 18
7 12
Jackie Denn, un administrador de servicios de alimentos para líneas aéreas, ha examinado los registros anteriores de 200 vuelos a través del país, seleccionados aleatoriamente para determinar la frecuencia con que se solicitaron comidas bajas en sodio. El número de vuelos en los que se solicitaron 0,1, 2, 3, 4 o más comidas bajas en sodio fue 25, 45, 67, 43 y 20, respectivamente. Al nivel de significancia de 0.05, ¿es razonable concluir que estas solicitudes siguen una distribución de Poisson con 1?
Soluciones a los ejercicios de autoevaluación EA
14-7
a) Las probabilidades de caer en las cinco clases son las áreas indicadas bajo la curv a en la siguiente figura:
0.0122
0.2144
0.5468
0.2144
0.0122
4.01
5.87
7.73
9.59
-2.25
-0.75
0.75
2.25
x z=
x - 6.80 1.24
b) n 13 158 437 122 20 750. Entonces, las frecuencias esperadas son 0.0122(750) 9.15, 0.2144(750) 160.80, 0.5468(750) 410.1, 160.80 y 9.15. c)
fo
fo acum.
Fo
Fe
13 158 437 122 20
13 171 608 730 750
0.0173 0.2280 0.8107 0.9733 1.0000
0.0122 0.2266 0.7734 0.9878 1.0000
|Fe Fo| 0.0051 0.0014 0.0373 ← 0.0145 0.0000
1.14 1.14 d) Dtabla 0.0416. Dn Dtabla, de manera que se acepta H 0. Los datos están bien n 750 descritos por la distribución normal sugerida.
Estadística en el trabajo Loveland Computers Caso: métodos no paramétricos “Olvidé decirte”, dijo Sherrel Wright, la gerente de publicidad, al dirigirse a la oficina, “Margot te estaba buscando, es mejor que la consultes antes de que empieces este proyecto de publicidad”.
“¡Necesito ayuda!”, anunció Margot con un grito que podía oírse hasta Che yenne, Wyoming. “Gasté mucho dinero para obtener algunos datos, y ahora que están aquí no sé lo que tengo.” “Bueno, yo tampoco”, bromeó Lee, tratando de aligerar los ánimos. “¿Por qué no me dices lo que pasa?” “Algunos de los modelos de mediano alcance —las PC con chips rápidos y una cantidad razonable de almacena-
586
CAPÍTULO 14 Métodos no paramétricos
miento en disco—, podemos hacerlos en tres presentaciones. Las viejas máquinas estilo AT son del tamaño de una maleta pequeña. A la gente le gustaba la caja grande porque tenía la imagen de una máquina grande y poderosa. Pero en este último año, más o menos, algunas de las estaciones de trabajo más poderosas se han f abricado en un formato de caja de pizza, bastante estrecha y plana. Así que algunas compañías ofrecen ahora las máquinas de mediano alcance en un formato de perfil bajo. En realidad tienen lo mismo en una caja más pequeña que no ocupa tanto espacio de escritorio. Finalmente, algunos competidores ofrecen una configuración de torre. Éste es el viejo estilo AT parado sobre un lado para que se pueda colocar en el piso. Eso elimina la necesidad de espacio de escritorio.” “Así que, ¿qué estilo adoptó por Lo veland?”, preguntó Lee. “Francamente, hemos abarcado todos durante las distintas campañas de publicidad. Algunas veces ofrecimos dos de los tres formatos, pero hemos cambiado entre uno y otros intentando adivinar los gustos de los clientes. Uno pensaría que todos preferirían tener la máquina en el piso, pero resulta que la caja de la computadora es un lug ar útil para poner el monitor, y la gente que usa muchos discos flexibles no quiere tener que agacharse cada vez que usa la unidad de discos.” “Bueno. Entonces ofrezcan los tres estilos”, sonrió Lee ante esta solución simple pero elegante.
Ejercicio de base de datos computacional HH Industries Todavía sensible respecto a lo que la suposición de Poisson había hecho en el estudio de las llamadas telefónicas, Laurel meditó acerca de las preguntas de la comisión de ventas que recientemente había analizado para Stan. La suposición de poblaciones normales con la misma desviación estándar era crítica para las conclusiones a las que había lle gado. “Sólo para asegurarme”, pensó, “creo que verificaré mis resultados con algún análisis de suma de rangos”. 1. Usando los datos de ventas del capítulo 11, pruebe la suposición de que estas muestras vienen de poblaciones con la misma media. ¿Qué sucedería si se excluye a Mike como antes? Pruebe al nivel de significancia de 0.05. La siguiente semana, durante el almuerzo, Gary y Laurel discutieron los resultados del estudio de criterios de contratación que acababan de terminar. “Según parece”, dijo Gary, “ese estudio es todavía más oportuno de lo que inicialmente pensamos. Parece que Hal tiene planes de establecer otro almacén satélite, esta vez en la región del medio oeste.
“Eso nos sube los costos. Si trabajamos tres estilos, perdemos los descuentos por volumen que obtenemos al trabajar sólo uno. Después tenemos que publicitar tres formatos al tiempo que estoy lanzando nuevos productos de alto perfil e intentando satisfacer la demanda de nuestras máquinas de menor precio. Quisiera recomendar sólo el mejor formato a la gerencia.” “Bueno, yo no tengo una bola de cristal”, comenzó a decir Lee. “No espero que la tengas. Contraté a una compañía de investigación de mercados. Trabajaron con grupos de enfoque en Boulder, New Jersey y Oregon. Había ocho personas en cada grupo, y dos grupos en cada lugar, así que en conjunto obtuve 48 tarjetas de respuestas, y varias horas de discusiones grabadas que no tendrás que ver. Como podrás imaginar, le pedimos a los participantes que clasificaran los tres formatos en términos del estilo que preferirían si fueran a comprar una computadora personal. Después les preguntamos si su primera opción no estuviera disponible, cuál de las otras dos preferirían. Dime cómo v amos a darle sentido a esto para que pueda hacer una recomendación al grupo de planeación de productos.” Preguntas de estudio: ¿Cómo debe organizar los datos Lee y qué pruebas estadísticas son apropiadas? ¿Qué debe hacer Loveland si el análisis de los datos de este pequeño grupo no fuera concluyente?
Supongo que nuestro ne gocio es tan sólido que estamos avanzando bastante rápido. Esto se guramente facilitará mi trabajo del personal”. “A propósito”, continuó, “¿recuerdas cuando hablamos sobre el estudio de UPS en nuestro almacén de Pennsylv ania? Fue poco después de que lle gaste, e hiciste un maravilloso análisis sobre nuestro éxito cubrir el área geográfica señalada”. “Oh, oh”, bromeó Laurel. “Sé que cuando me alabas,¡tienes más trabajo sacado de la manga para mí! Sí, recuerdo nuestras conversaciones. ¿Qué hay respecto a ello?” “Recordarás”, prosiguió Gary, “que hice algunos comentarios crípticos acerca de lo que sentí que debería haber estado, contra lo que realmente estaba, incluido en el estudio. De cualquier forma, esto me ha estado preocupando y quisiera saber tu opinión”. “Continúa”, suspiró Laurel, fingiendo irritación. “¡Creo que he creado un monstruo estadístico!” Gary se rió. “¡Realmente sabes cómo hacer que uno se sienta mal! Ya, en serio, no creo que esto sea mucho problema, sólo tengo curiosidad sobre algo. Cuando UPS hizo ese estudio, sólo tomó en cuenta paquetes que enviamos. Resulta que los costos de recepción también son bastante significativos. Y, como podrás adivinar, aquí en Florida pagamos una ‘penalización’ adicional por estar al final de la ruta de en-
Del libro de texto al mundo real
vío. La mayor parte de los camiones que nos hacen entregas se van vacíos el estado, porque no hay carga que requiera entregarse de regreso a otras áreas del país.” “Estoy formulando una propuesta que en esencia sugiere que nuestra nueva sucursal en el medio oeste se convierta en nuestro almacén principal. Mantendríamos todas nuestras funciones administrativas aquí en Florida; pero, desde el punto de vista de in ventarios, actuaríamos solamente como un satélite. ¿Sería posible clasif icar todos los estados a los que hacemos envíos y de los que recibimos, sólo para ver si hay alguna correlación allí? Eso me daría alguna información preliminar para mi propuesta. Laurel se dio cuenta que había estado conteniendo la respiración. “¡Vaya!”, atinó a decir. “¡Esa pregunta es mucho más fácil de lo que esperaba! Todo el estudio suena intere-
Del libro de texto al mundo real La estadística en la medicina Los métodos estadísticos se usan a menudo en la in vestigación del origen, tratamiento y control de di versas enfermedades. Como que gran parte de los datos de la investigación médica no se ajusta a la distribución normal, los métodos no paramétricos son particularmente útiles. Los doctores Charles H. Kirkpatrick y Da vid W. Alling, aplicaron la prueba de Mann-Whitney de manera ingeniosa para e valuar los resultados de una prueba clínica aleatoria que in volucraba el tratamiento de candidiasis oral crónica, una enfermedad caracterizada por infecciones recurrentes de la piel, uñas y membranas mucosas. Los resultados de sus pruebas indicaron que el clotrimazol, que se había empleado con éxito en desórdenes similares, era un tratamiento altamente efecti vo para la candidiasis. La prueba clínica Veinte pacientes que sufrían candidiasis oral persistente fueron admitidos en el estudio y se les asignaron en forma aleatoria tratamientos con pastillas de clotrimazol o placebo. La respuesta de los sujetos al tratamiento se evaluó de dos a siete días después de administrarlo,como se muestra en la tabla MR14-1. Este formato capta dos tipos de resultados y los combina de forma que la mayor de cualesquier dos calificaciones connota el resultado menos f avorable; estas calificaciones definen una clasificación ordenada. Los resultados de los tratamientos con clotrimazol y placebo se resumen en la tabla MR14-2. Los 10 pacientes de las pastillas de clotrimazol no presentaron síntomas hacia el quinto día de tratamiento. Esta observ ación visual fue conf irmada por una prueba de Mann-Whitney, que ofreció un fuerte respaldo estadístico.
587
sante y tardado. Pero la respuesta a la pregunta de hoy es sí, eso debe ser relativamente sencillo. Quizá la tendré para finales de esta semana. Y gracias por el aviso. Sé que regresarás con más peticiones de ayuda,¡y la próxima no será fácil!Voy a empezar a recabar algunos datos que creo pueden ser útiles. No dejes de comunicarme cómo van las cosas.” “De alguna manera pensé que podía contar contigo. Gracias, Laurel”, Gary sonrió. “El almuerzo corre por mi cuenta.” 2. Usando los datos de los archi vos CH14.xxx que se encuentra en el sitio www .pearsoneducacion.net/levin, calcule el coeficiente de correlación de rangos entre los estados a los que HH Industries hace envíos y de los que los recibe. Al nivel de significancia de 0.01, ¿podemos concluir que existe una relación entre estos dos factores?
Tabla MR14-1
Sistema de calificación para resultados del tratamiento de candidiasis oral crónica Hallazgos clínicos
Calificación 1 2 3 4
Tabla MR14-2
Hallazgos de laboratorio
Ausente Mejorado Mejorado No mejorado
Negativo Negativo Positivo Positivo
Resultado después de 2 a 7 días de tratamiento en 20 pacientes Calificación de resultados
Grupo de tratamiento
1
2
3
4
Total de pacientes
Clotrimazol Placebo
6 1
3 0
1 0
0 9
10 10
La enseñanza Los tratamientos exitosos para enfermedades se encuentran sólo por medio de la investigación. En este caso, aunque se sabe que el clotrimazol ocasiona efectos colaterales adversos cuando se administra durante un periodo prolongado, los estudios preliminares que emplean clotrimazol oral con una programación intermitente han mostrado beneficios clínicos. El uso de métodos estadísticos permite a los investigadores clínicos cuantif icar resultados de tratamientos médicos, lo que les presta credibilidad a sus hallazgos. Fuente: C. H. Kirkpatrick y D. W. Alling, “Treatment of Chronic Oral Candidiasis with Clotrimazole Troches: A Controlled Clinical Trial”, en The New England Journal of Medicine 299(1978): 1201-1203.
588
CAPÍTULO 14 Métodos no paramétricos
Repaso del capítulo ● Términos introducidos en el capítulo 14 Coeficiente de correlación de rangos Medida del grado de asociación entre dos variables que se basa en los rangos o clasificación de las observaciones, no en sus valores numéricos.
Prueba de Kruskal-W allis Método no paramétrico para probar si tres o más muestras independientes se extrajeron de poblaciones con la misma distribución. Es una versión no paramétrica de ANOVA, que estudiamos en el capítulo 11.
Correlación de rango Método para hacer análisis de correlación cuando los datos no están disponibles en forma numérica, pero se tiene información suf iciente para clasificar los datos. Corrida Secuencia de ocurrencias idénticas precedidas y seguidas de ocurrencias diferentes o por ninguna. Prueba de corridas de una sola muestra Método no paramétrico para determinar la aleatoriedad con que se seleccionaron los elementos de una muestra. Prueba de Kolmogorov-Smirnov Prueba no paramétrica que no requiere que los datos se agrupen para determinar si existe una diferencia signif icativa entre la distrib ución de frecuencias observada y la distrib ución de frecuencias teórica.
Prueba de los signos Prueba para la diferencia entre las observaciones por pares, donde los signos y sustituyen a los valores cuantitativos. Pruebas de sumas de rangos Familia de pruebas no paramétricas que usan la información de orden en un conjunto de datos. Pruebas no paramétricas Técnicas estadísticas que no hacen suposiciones restrictivas respecto a la forma de la distribución de población al realizar una prueba de hipótesis. Prueba U de Mann-Whitney Método no paramétrico usado para determinar si dos muestras independientes se e xtrajeron de poblaciones con la misma distribución. Teoría de corridas Teoría desarrollada para permitimos probar la aleatoriedad del orden de las muestras.
● Ecuaciones introducidas en el capítulo 14 ■
14-1
■
14-2
■
14-3
■
■
14-4
14-5
n1(n1 1) U n1n2 R1 2 Para aplicar la prueba U de Mann-Whitney, se necesita esta fórmula para derivar el estadístico U, una medida de la diferencia entre las observaciones clasificadas y las dos variables. R1 es la suma de los rangos de las observaciones de la variable 1; n1 y n2 son los números de elementos de las muestras 1 y 2,respectivamente. No es necesario que ambas sean del mismo tamaño. n1n2
U 2 Si la hipótesis nula de una prueba U de Mann-Whitney es que n1 n2 observaciones provienen de poblaciones idénticas, entonces la estadística U tiene una distribución de muestreo con una media igual al producto de n1 y n2 dividido entre 2. n1n2(n1 n2 1) U 12
Esta fórmula nos permite derivar el error estándar del estadístico U de una prueba U de Mann-Whitney. n2(n2 1) U n1n2 R2 2 Esta fórmula y la ecuación 14-1 pueden utilizarse de manera intercambiable para derivar el estadístico U en la prueba U de Mann-Whitney. Para ahorrar tiempo, utilice esta fórmula si el número de observ aciones en la muestra 2 es significativamente menor que el número de observaciones en la muestra 1. R2j 12 3(n 1) K nj n(n 1)
La fórmula calcula el estadístico K usada en la prueba de Kruskal-Wallis para diferentes medias entre tres o más poblaciones. La distribución de muestreo apropiada para K es ji-cuadrada con k 1 grados de libertad, cuando cada muestra contiene al menos cinco observaciones. ■
14-6
2n1n2
r 1 n1 n2
Repaso del capítulo
589
Al hacer una prueba de corridas de una sola muestra,use esta fórmula para derivar la media de la distribución muestral del estadístico r. Esta r es igual al número de corridas en la muestra que se está probando. ■
14-7
r
2n1n2(2n1n2 n1 n2) (n1 n2)2(n1 n2 1)
Esta fórmula nos permite derivar el error estándar del estadístico r en una prueba de corridas de una sola muestra. ■
6d2 rs 1 n(n2 1)
14-8
El coeficiente de correlación de rangos, rs, es una medida de la cercanía de asociación entre dos variables clasificadas. ■
1 rs n 1
14-9
Esta fórmula nos permite calcular el error estándar de rs, en una prueba de hipótesis sobre el coeficiente de correlación de rangos. ■ 14-10
Dn máx Fe Fo Si comparamos este valor calculado con el valor crítico de Dn en la tabla K-S, podemos probar la bondad de ajuste de distribución.
● Ejercicios de repaso ■ 14-49
Un entrenador de fútbol universitario tiene la teoría de que, en atletismo, el éxito se alimenta de sí mism o. En otras palabras, piensa que ganar un campeonato un año incrementa la motivación del equipo para ganar el siguiente. Expresó esta teoría a un estudiante de estadística, quien le pidió los registros de éxitos y fracasos del equipo de los últimos años. El entrenador le dio una lista,especificando si el equipo había ganado (G) o perdido (P) el campeonato ese año. Los resultados de esta cuenta son: G, G, G, G, G, G P, G, G, G, G, G, P, G, G, G, G, P, P, G, G, G, G, G, G
■ 14-50
a) A un nivel de significancia de 10%, ¿es aleatoria la ocurrencia de éxitos y fracasos? b) Su respuesta al inciso a), combinada con una inspección ocular de los datos, ¿le dice algo sobre la prueba de corridas de una sola muestra? Un pequeño aeropuerto metropolitano abrió una nueva pista, creando una nueva trayectoria de vuelos sobre un área residencial de ingresos altos. Las quejas por ruido excesivo han inundado a las autoridades aeroportuarias hasta el punto de que las dos principales aerolíneas que dan servicio a la ciudad han instalad o pantallas acústicas sobre las turbinas de los jets para reducir el ruido y ayudar a ali viar la presión sobre las autoridades. Ambas aerolíneas desean saber si las pantallas han ayudado a reducir el número de quejas levantadas contra el aeropuerto. Si no es así, eliminarán las pantallas porque incrementan el consumo de combustible. Basándose en las siguientes muestras aleatorias de 13 días antes de la instalación de las pantallas y 13 días después, ¿podría decirse, a un nivel de significancia de 0.02, que la instalación de las pantallas ha reducido el número de quejas? Quejas antes y después de instalar de pantallas acústicas Antes Después
■ 14-51
27 26
15 23
20 19
24 12
13 25
18 9
30 16
46 12
15 28
29 20
17 16
21 14
18 11
La American Broadcasting System (ABS) ha invertido una considerable cantidad de dinero en un nuevo programa de televisión, High Times, que constituyó la entrada de ABS al mercado de comedias de situación y presentaba la vida despreocupada de un dormitorio universitario. Desafortunadamente, el programa no ha tenido el éxito esperado, y el patrocinador está considerando su cancelación. Para fortalecer los ratings, ABS introdujo dormitorios mixtos en la serie. Los siguientes son los resultados de encuestas telefónicas antes y después del cambio. Las encuestas se hicieron en varias áreas metropolitanas importantes, de manera que los resultados son una combinación de las ciudades. a) Usando una prueba U, ¿puede inferir al nivel de significancia de 0.10 que el cambio en el formato de la serie ayudó a los ratings?
590
CAPÍTULO 14 Métodos no paramétricos
b) ¿Los resultados de su prueba dicen algo respecto al efecto del sexo en los ratings de los programas de televisión? Proporción de audiencia antes y después del cambio a dormitorios mixtos Antes Después
■ 14-52
22 25
18 28
19 18
20 30
31 33
22 25
25 29
19 32
22 19
24 16
18 30
16 33
14 17
28 25
23
15
16
Los oficiales de personal realizan evaluaciones de preparación general para las unidades militares; la calificación máxima para estas pruebas es 100 puntos. Los oficiales de transporte se quejan de que los evalúan más bajo que a los of iciales de infantería, porque la mayoría de los oficiales de personal vienen de las filas de infantería. A un nivel de significancia de 0.05, pruebe la hipótesis de que no hay diferencia en las calificaciones de ambas unidades durante 10 semanas elegidas al azar. Tabla de calificaciones Comando de infantería Comando de transporte
72 80
80 79
86 90
90 82
95 81
92 84
88 78
96 74
91 85
82 71
La tabla MR12-1, presenta los resultados de las calif icaciones del 1992 Business Week y U.S. News & World Report de las escuelas de administración de Estados Unidos. Use esa información para resolver los ejercicios 14-53 y 14-54. ■ 14-53
Considere las 10 mejores escuelas en la clasificación global del Business Week. Reajustando las clasificaciones de estudiantes y compañías de reclutamiento para esas 10 escuelas, obtenemos Escuela
Puntuaciones por estudiantes por compañías
Northwestern Chicago Harvard Wharton Michigan Dartmouth Stanford Indiana Columbia North Carolina
■ 14-54 ■ 14-55
2 7 8 9 6 1 3 4 10 5
1 4 3 2 6 10 7 8 5 9
Para 0.10, ¿difieren las puntuaciones de las compañías y las de los estudiantes? Considerando las 20 escuelas, ¿difieren significativamente las puntuaciones de las dos re vistas para 0.10? El Comité de Medios y Arbitrios de la Cámara de Representantes de Estados Unidos intentaba e valuar los resultados de bajar los impuestos a personas físicas durante el año anterior.El propósito era estimular la economía, apoyados en la teoría de que con la reducción,el consumidor podría gastar los ahorros de los impuestos. El comité empleó un grupo de investigación de consumidores independiente para seleccionar una muestra de casas y mantener registros de gastos de consumidores tanto antes como después de la puesta en marcha de la legislación. A continuación se muestra una porción de los datos del grupo de investigación: Programa de gastos del consumidor Casa
Antes de la legislación
Después de la legislación
Casa
Antes de la legislación
Después de la legislación
1 2 3 4 5 6 7
$ 3,578 10,856 7,450 9,200 8,760 4,500 15,000
$ 4,296 9,000 8,200 9,200 8,840 4,620 14,500
8 9 10 11 12 13 14
22,350 7,346 10,345 5,298 6,950 34,782 12,837
22,500 7,250 10,673 5,349 7,000 33,892 14,297 (Continúa)
Repaso del capítulo
591
Programa de gastos del consumidor
■ 14-56 ■ 14-57
Casa
Antes de la legislación
Después de la legislación
Casa
Antes de la legislación
Después de la legislación
15 16 17 18 19 20 21 22 23
7,926 5,789 11,597 9,612 3,461 4,500 8,341 7,589 25,750
8,437 6,006 12,093 9,675 3,740 4,500 8,500 7,609 24,321
24 25 26 27 28 29 30 31 32
14,673 5,003 10,940 8,000 14,256 4,322 6,828 7,549 8,129
13,500 6,072 11,398 9,007 14,500 4,258 7,204 7,678 8,125
Para un nivel de significancia del 3%, determine si la política de reducción de impuestos logró los objetivos deseados. Muchas compañías de entretenimiento han invertido en parques de diversión vinculados con películas exitosas. La asistencia depende de muchos f actores que incluyen el clima. ¿Debe considerarse el clima un evento aleatorio? Dos pronosticadores del estado del tiempo en la televisión discutían un día sobre si los años con grandes lluvias tendían a ocurrir en rachas. Uno de ellos dijo que pensaba que había patrones de cantidades de lluvia anual, y que varios años húmedos a menudo eran seguidos por algunos años más secos que el promedio. La otra pronosticadora se mostraba escéptica y dijo que pensaba que la cantidad de lluvias durante años consecutivos era bastante aleatoria. Para investigar la cuestión, decidieron revisar las lluvias anuales abajo (B) o arriba (A) de la mediana de lluvia anual.A continuación se presenta un resumen de sus resultados: A, A, A, B, B, B, A, B, A, A, B, B, A, B, A, B, A, A, B, B, A, A, A, B, A, A, A, A, A, B, B, B, A, B, B, B, A, B, A, A, A, B, A, A, A, B, A, B, B, A, B, B
■ 14-58
Si los pronosticadores prueban a un nivel de significancia del 5%, ¿concluirán que las cantidades anuales de lluvia no ocurren con patrones? Anne J. Montgomery, directora administrativa de educación ejecutiva en la Southern University, usa dos tipos de material promocional para anunciar seminarios: cartas personales y folletos. Tiene una gran confianza en que los folletos son el método más efectivo. Ha recolectado datos sobre el número de personas que asistieron a cada uno de los últimos 10 seminarios promovidos por cada método. Al nivel de significancia de 0.15, ¿es acertado lo que cree? Número de asistentes Carta personal Folleto
■ 14-59
35 42
85 74
90 82
92 87
88 45
46 73
78 89
57 75
85 60
67 94
La Asociación Nacional para Mejor Publicidad para Niños (NABAC), un grupo de consumidores que promueve mejoras en la televisión para niños, realizó un estudio sobre el efecto de la publicidad los sábados en la mañana. Específicamente, el grupo deseaba saber si la publicidad dirigida a los niños estimulaba un grado significativo de compras, y si existía una correlación positiva entre el tiempo de publicidad en la televisión los sábados en la mañana y las ventas de productos. La NABAC seleccionó el mercado de cereales de desayuno para niños como un grupo de muestra. Seleccionó productos cuyo mensaje publicitario estuviera dirigido totalmente a los niños. Los resultados del estudio se presentan a continuación. (El cereal de ventas más altas tiene rango l.) Comparación de tiempo de publicidad por televisión y ventas de productos Tiempo de publicidad Rango de Producto en minutos ventas Captain Grumbles Obnoxious Berries Fruity Hoops OO La Granola
0.50 3.00 1.25 2.00
10 1 9 5
(continúa)
592
CAPÍTULO 14 Métodos no paramétricos
Comparación de tiempo de publicidad por televisión y ventas de productos Tiempo de publicidad Rango de Producto en minutos ventas Sweet Tweets Chocolate Chumps Sugar Spots County Cavity Crunchy Munchies Karamel Kooks Flakey Flakes
3.50 1.00 4.00 2.50 1.75 2.25 1.50
2 11 3 8 6 4 7
¿Puede el grupo concluir que existe una correlación de rangos positiva entre el tiempo de publicidad matutina en televisión y el volumen de ventas de los cereales para niños? Pruebe a un nivel de significancia del 5%.
14-60
Los fondos mutuos proporcionan la oportunidad de participar en el mercado de valores a los pequeños inversionistas, quienes pueden seleccionar entre más de 3,000 fondos,buscando aquellos que les proporcionen seguridad a sus ahorros y los mayores rendimientos totales (los dividendos ganados por el fondo más los incrementos en el precio de las acciones propiedad del fondo). Los fondos exitosos atraen más inversiones, de modo que la cantidad de dinero que se maneja puede ascender a v arios miles de millones de dólares. Algunos observadores del mercado consideran un tamaño grande de fondo como una desv entaja, porque puede tener tantas acciones de una compañía particular que un intento de liquidar una posición puede bajar el precio. La tabla MR14-3 presenta información del tamaño y los rendimientos de los 20 fondos mutuos más grandes a finales de septiembre de 1992. Use esa información para hacer los ejercicios 14-60 y 14-61. a) ¿Existe una relación significativa entre el tamaño del fondo y los rendimientos totales promedio ganados en los últimos 5 años? b) ¿Existe una relación significativa entre los rendimientos totales de 1992 y los rendimientos de los últimos 5 años? Tabla MR14-3 Los 20 fondos mutuos más grandes, septiembre de 1992
Fondo
Tamaño (miles de millones de dólares)
Fidelity Magellan Investment Co. of America Washington Mutual Windsor Vanguard Index 500 Income Fund of America Fidelity Puritan Wellington AIM Weingarten Windsor II Dean Witter Dividend Janus Fidelity Equity-Income American Mutual Twentieth Century Select Twentieth Century Growth Fidelity Growth & Income Templeton World Twentieth Century Ultra Pioneer II
21.05 14.03 9.48 8.23 5.77 5.64 5.62 5.10 4.98 4.80 4.67 4.66 4.65 4.60 4.47 4.40 4.29 4.02 4.01 3.97
Rendimientos totales anualizados (%) 1992 Prom. de 5 años 9.51 11.08 11.35 9.53 10.87 16.33 15.11 11.44 5.77 14.71 11.42 8.55 12.45 11.59 2.02 10.84 10.51 7.00 1.24 9.92
Fuente: Standard & Poor’s/Lipper Mutual Fund Profiles, 6(4) (noviembre de 1992).
11.24 9.50 8.99 7.00 8.73 11.57 9.38 9.34 11.07 9.59 10.03 14.70 7.29 9.06 6.25 9.52 11.80 5.47 14.55 4.78
Repaso del capítulo
14-61
■ 14-62
593
Dos administradores de fondos grandes, Fidelity y Twentieth Century, tienen varios registros en la lista de la tabla MR14-3. ¿El rendimiento de los fondos ofrecidos por estas dos compañías proviene de una distribución diferente del rendimiento de los restantes 13 fondos? Pruebe esto para los rendimientos totales de 1992 y para los rendimientos totales promedio de 5 años. American Motoring Magazine probó recientemente la efectividad de frenado de dos materiales de discos de freno. Los datos que representan las distancias de frenado para ambos tipos de materiales se presentan a continuación. Al nivel de significancia de 0.05, pruebe la hipótesis de que no hay diferencia en la efectividad de los materiales. Distancia de frenado (pies) Unión de grafito Bronce aglomerado
■ 14-63
■ 14-64
110 100
120 110
130 135
110 105
100 105
105 100
110 100
130 115
145 125 135 120
Como parte de una encuesta sobre la calidad de restaurantes, una revista local pidió a los residentes del área que clasificaran dos restaurantes especializados en cortes de carne. Los sujetos debían valorar características como calidad de la comida, atmósfera, servicio y precio en una escala de 1 a 10. Después de recolectar los datos, uno de los propietarios de los restaurantes propuso que se realizaran v arias pruebas estadísticas. Específicamente mencionó que le gustaría v er una media y una desviación estándar para las respuestas a cada pregunta sobre cada restaurante, con el fin de ver cuál había calificado mejor. Varios empleados de la revista refutaron estas sugerencias, observando que la calidad de los datos de entrada no justificaría un análisis estadístico detallado. Argumentaron que lo importante era como clasif icaban los residentes a los dos restaurantes. Evalúe los argumentos presentados por el propietario del restaurante y por los empleados de la revista. Se pidió a algunos estudiantes de administración del último año entre vistados por la compañía de seguros Ohio no comentar sus entrevistas con otros estudiantes de la escuela hasta que se hubiera ido la reclutadora. Sin embargo, ella sospechó que los últimos solicitantes sabían más acerca de qué buscaba. ¿Eran correctas sus sospechas? Para descubrirlo, clasifique las puntuaciones de la entrevista que obtuvieron los sujetos dados en la tabla. Después pruebe la signif icancia del coeficiente de correlación de rangos entre las puntuaciones y el número de entrevista. Use el nivel de significancia de 0.02.
Número de entrevista
Puntuación
Número de entrevista
Puntuación
Número de entrevista
Puntuación
Número de entrevista
Puntuación
1 2 3 4 5
63 59 50 60 66
6 7 8 9 10
57 76 81 58 65
11 12 13 14 15
77 61 53 74 82
16 17 18 19 20
70 75 90 80 89
■ 14-65
1992 1993 1994 1995
Hace más de tres años, la Administración de Salud y Seguridad Ocupacional de Estados Unidos (OSHA) requirió la implantación de varias medidas de seguridad en la planta de aluminio de Northbridge. Ahora OSHA desea saber si los cambios dieron como resultado menos accidentes en la planta. Se recolectaron estos datos:
Ene.
Feb.
Mar.
Abr.
5 4 3 2
3 4 2 1
4 3 1 0
2 3 1 0
■ 14-66
Accidentes en la planta de Northbridge May. Jun. Jul. Ago. 6 3 0 1
4 4 2 2
3 0 4
3 5 3
Sep.
Oct.
Nov.
Dic.
2 4 2
4 2 1
5 0 1
3 1 2
a) Determine la mediana del número de accidentes por mes. Si las medidas de seguridad han sido efectivas, debemos encontrar que los primeros meses tienen un valor más alto que la mediana y los últimos más bajo. En consecuencia, habrá un pequeño número de corridas arriba y abajo de la mediana. Realice una prueba al nivel de significancia de 0.03 para ver si los accidentes están distribuidos aleatoriamente. b) ¿Qué puede concluir respecto a la efectividad de las medidas de seguridad? Un servicio de ambulancias del condado calcula que por cada municipio que atiende,durante un turno dado de seis horas, existe un 35% de probabilidad de recibir al menos una llamada de asistencia. La siguiente es una muestra aleatoria de 90 días:
594
CAPÍTULO 14 Métodos no paramétricos
Número de turnos durante los cuales se recibieron llamadas Número de días
0 5
1 35
2 30
3 13
4 7
Al nivel de significancia de 0.05, ¿siguen estas llamadas de asistencia una distribución binomial?
14-67 14-68 ■ 14-69
La empresa Overseas Shipholding Group, Inc., tiene interés en comprar 64 buques, clasificados como cargueros, transportadores de productos petroleros (PPC) o b uques-tanque. Los tipos de buques, registro y los años en los que fueron construidos se dan en la tabla MR14-4. Use esta información para hacer los ejercicios 14-67 y 14-68. ¿Tienen la misma antigüedad las flotas de Estados Unidos y las xetranjeras? Es decir, ¿puede concluir que los datos de años de construcción para las dos flotas provienen de la misma distribución? ¿Son las distribuciones de antigüedad de los tres tipos de transportadores significativamente diferentes? Jim Bailey, propietario de Crow’s Nest Marina, cree que el número de horas de trabajo de un motor de bote en agua salada, y no la edad del bote, es el mejor pronosticador de fallas del motor. Su gerente de servicio ha recabado datos de sus registros de reparación de motores descompuestos. Al nivel de significancia de 0.05, ¿está Jim en lo correcto?
Tabla MR14-4 Datos de la flota del Overseas Shipholding Group
Motor
Horas en agua salada
Antigüedad del motor (años)
Costo de reparación (dólares)
1 2 3 4 5 6 7 8 9 10
300 150 200 250 100 400 275 350 325 375
4 6 3 6 4 5 6 6 3 2
625 350 390 530 200 1,000 550 800 700 600
Tipo
Registro
De carga De carga PPC PPC PPC PPC PPC Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques De carga De carga De carga De carga De carga De carga De carga
EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU.
Construcción 1978 1978 1983 1982 1969 1968 1968 1974 1973 1977 1977 1978 1977 1971 1970 1982 1982 1975 1975 1990 1990 1973
Tipo
Registro
De carga De carga De carga De carga De carga De carga De carga De carga De carga De carga De carga De carga De carga PPC PPC PPC PPC PPC PPC PPC PPC PPC
No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU.
Fuente: Overseas Shipholding Group, Inc., 1991 Annual Report.
Construcción 1973 1981 1983 1983 1989 1989 1980 1980 1977 1975 1975 1985 1985 1986 1986 1986 1987 1989 1988 1989 1989 1979
Tipo
Registro
PPC PPC PPC Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques Tanques
No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU. No EE.UU.
Construcción 1981 1981 1982 1973 1975 1974 1974 1989 1990 1972 1989 1989 1976 1975 1975 1986 1987 1980 1981 1979
Repaso del capítulo
■ 14-70
SavEnergy, un grupo activista internacional preocupado por el dominio total de las áreas occidentales en el uso de la energía, ha afirmado que el tamaño de la población y el consumo de energía tienen una correlación negativa. Sus oponentes afirman que no existe correlación. Usando los siguientes datos, pruebe la hipótesis de que no existe una correlación de rangos entre el número de habitantes y el consumo de energía, contra la afirmación de correlación negativa de SavEnergy. Use un nivel de significancia de 0.10. Habitantes en 1989 (millones) Estados Unidos Latinoamérica África Europa Unión Soviética India China
■ 14-71
Pequeños
■ 14-73
Consumo total de energía (1015 joules)
249 438 646 499 289 835 1,100
68 16 11 65 54 9 24
Los accidentes en carretera ocasionaron la muerte de más de 75,000 ocupantes de autos de pasajeros entre 1995 y 1996. Usando esa sombría estadística como punto de inicio, los investigadores del Instituto de Seguridad en Carreteras calcularon las tasas de decesos para las 103 series de v ehículos más vendidos. Los vehículos fueron clasificados como furgonetas y vans, autos de cuatro puertas, autos de dos puertas o autos deportivos o especializados. Otra estratificación en cada categoría etiquetó a los vehículos como grandes, medianos o pequeños. Considerando las tasas (decesos por 10,000 v ehículos registrados) para autos de cuatro puertas, las cifras son las siguientes: Grandes Medianos
■ 14-72
595
1.2 1.1 1.5 2.3 1.1 2.6
1.3 1.2 1.6 2.4 1.5 2.8
1.4 1.2 1.6 2.5 1.6 3.2
1.5 1.2 1.6 2.6 1.7 4.1
1.5 1.3 1.7 2.9 1.8
1.5 1.3 1.7
1.6 1.3 1.8
1.8 1.3 1.9
1.4 2.0
1.4 2.3
2.0
2.0
2.0
2.3
2.5
Use la prueba de Kruskal-Wallis para probar si las tres medias de población son,en efecto, iguales. Pruebe al nivel de significancia de 0.05. El año 1996 fue particularmente malo en cuanto a lesiones de jugadores de béisbol profesional. P ara los siguientes datos, ¿una prueba de signo para datos por pares indica que los jugadores de la Liga Americana sufrieron significativamente más lesiones que sus análogos de la Liga Nacional? Use un ni vel de significancia de 0.05. Ubicación de la lesión
LA
LN
Ubicación de la lesión
LA
LN
Hombro Cuello Costillas Codo Dedo de la mano Muslo Ingle Rodilla
46 3 7 21 7 17 7 16
22 0 5 19 5 14 3 18
Espalda Muñeca Cadera Mano Tobillo Pie Dedo del pie Otros
10 10 1 6 6 1 0 10
7 2 1 4 4 4 1 4
La investigación continua sobre los patrones de clima que pueden correlacionarse con las manchas solares se han enfocado en la temperatura polar (la temperatura promedio en la estratosfera arriba del Polo Norte) durante periodos en que soplan ciertos vientos ecuatoriales. Cuando estos vientos vienen del oest e, la temperatura polar parece subir y bajar con la acti vidad solar. Cuando los vientos son del este, la temperatura parece hacer lo opuesto de lo que el sol hace. A partir de los datos, calcule los coeficiente de correlación de rango entre estas variables y pruebe, al nivel de significancia de 0.05, si las relaciones hipotéticas se mantienen (correlación positiva para vientos del oeste, correlación negativa para vientos del este).
596
CAPÍTULO 14 Métodos no paramétricos
Temperatura polar (°F) Vientos Vientos del este del oeste
Actividad solar
85 97 88 85 90 96 91 76 80 86 90 104 95 99 73
230 160 95 75 100 165 155 120 75 65 125 195 190 125 75
■ 14-74
76 86 100 110 108 85 70 100 110 112 99 91 93 99 103
El 31 de diciembre de 1992, las autoridades de la autopista de Nueva Jersey emitieron una convocatoria para redimir algunos de sus bonos de $5,000. Los bonos eran parte de una emisión de $45,000,000 en 9,000 bonos, con una tasa de interés del 4.85% y originalmente pagadera en 2001. Las autoridades tenían efectivo a la mano o encontraron una fuente de dinero menos costosa, y exigieron el cobro de los bonos para reducir sus gastos de intereses. Los bonos seleccionados para su rescate se numeraron: 5 1616 3925 6281 8179
8 1794 4225 6291 8180
16 1908 4283 7107
21 2069 4303 7114
183 2072 4312 7128
646 2172 4316 7145
1018 2922 4347 7230
1044 2927 4380 7394
1045 2930 5189 8162
1233 3044 6266 8172
Fuente: The Wall Street Journal (7 de enero de 1993): C20.
■ 14-75
a) Suponiendo que los bonos se seleccionaron aleatoriamente para su rescate,¿cuántos esperaría ver con números entre 1 y 1500, 1501 y 3000, . . . , 7501 y 9000? b) Use la prueba de bondad de ajuste ji-cuadrada, estudiada en el capítulo 11, para ver si es razonable concluir que los bonos cobrados se eligieron aleatoriamente. c) Use la prueba de Kolmogorov-Smirnov para ver si la selección aleatoria de los bonos cobrados es una hipótesis razonable. d) Compare sus resultados de los incisos b) y c). Los analistas “técnicos” de acciones examinan cuidadosamente los patrones comerciales de los precios de las acciones y, en el límite, ignoran las noticias “fundamentales” del desempaño y proyectos de una compañía (o industria). Un analista observó cada media hora de actividades bursátiles el índice industrial Dow Jones desde enero de 1987 hasta abril de 1991 y registró cuando el promedio subía (S) o bajaba (B) en comparación con la media hora anterior. ¿Es la siguiente secuencia de medias horas en que sube o baja el promedio durante una semana un patrón aleatorio? Lunes Martes Miércoles Jueves Viernes
BSBBSSSSBSSSSS SSBBBBSBBBSSBS SSBSSSSSBBSBSB SBBSSSSSBBSSSB SSBSSSSSBBBSSS
Fuente: Yale Hirsch, The 1993 Stock Trader’s Almanac (Old Tappan, NJ: The Hirsch Organization) 1992, pág. 117).
■ 14-76
Los gerentes de negocios con operaciones de servicios deben manejar las horas pico en las que lle gan muchos clientes al mismo tiempo. El gerente del quiosco de información en un centro comercial de las afue-
Repaso del capítulo
597
ras de la ciudad recolectó los siguientes datos de las llegadas por minuto entre las 7:10 y 8:00 los jueves, noche en que cierra tarde el centro comercial. Número de llegadas Frecuencia
■ 14-77
■ 14-78
1 5
2 3
3 2
4 6
5 6
6 2
7 6
8 10
9 4
10 4
11 2
Pruebe si una distribución de Poisson con una media de seis describe adecuadamente estos datos, use el nivel de significancia de 0.05. Los resultados de la primera carrera de 10 km de laAsociación Atlética de Carolina mostraron el siguiente orden de finalistas hombres y mujeres:
¿La llegada a la meta de las mujeres fue aleatoria? Use el nivel de significancia de 0.20. Se dio a varios grupos una lista de 30 actividades y avances tecnológicos y se les pidió que los clasificaran considerando el riesgo de morir como consecuencia de cada uno. Los resultados se muestran en la siguiente tabla. Calcule el coeficiente de correlación de rangos de cada grupo relativo a la clasificación de los expertos. ¿Qué grupo pareció tener la percepción más exacta de los riesgos implicados? A Expertos B Liga de Mujeres Votantes C Estudiantes universitarios D Miembros del Club Cívico Riesgo
A
B
C
D
Vehículos de motor Fumar Bebidas alcohólicas Armas de fuego Cirugía Motocicletas Rayos X Pesticidas Energía eléctrica (no nuclear) Natación Anticonceptivos Aviación general (privada) Grandes construcciones Preservadores de comida Bicicletas Aviación comercial Trabajo policial Trabajo de bomberos Transporte ferroviario Energía nuclear Colorantes de comida Aparatos domésticos Caza Antibióticos prescritos Vacunaciones Aerosoles Fútbol de bachillerato y univ. Podadoras eléctricas Alpinismo Esquí
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
2 4 6 3 10 5 22 9 18 19 20 7 12 25 16 17 8 11 24 1 26 29 13 28 30 14 23 27 15 21
5 3 7 2 11 6 17 4 19 30 9 15 14 12 24 16 8 10 23 1 20 27 18 21 29 13 26 28 22 25
3 4 5 1 9 2 24 15 19 17 22 11 13 28 14 18 7 6 20 8 30 27 10 26 29 23 21 25 12 16
598
CAPÍTULO 14 Métodos no paramétricos
■ 14-79
■ 14-80
Al probar un nue vo medicamento para la f iebre del heno, los investigadores midieron la incidencia de efectos secundarios adv ersos de la droga, administrándola a un gran número de pacientes y e valuándolos contra un grupo de control. Se re gistraron los porcentajes de pacientes que reportaron 13 tipos de efectos secundarios. Usando una prueba de los signos para datos por pares, ¿puede determinar si algún grupo como un todo experimentó más efectos adversos? Use el nivel de significancia de 0.10. Efectos secundarios
Droga
Control
A B C D E F G H I J K L M
9.0 6.3 2.9 1.4 0.9 0.9 0.6 4.6 2.3 0.9 0.5 0.0 1.0
18.1 3.8 5.8 1.0 0.6 0.2 0.0 2.7 3.5 0.5 0.5 0.2 1.4
La banca comercial ha experimentado una consolidación sustancial conforme los grandes bancos nacionales han adquirido a los bancos más pequeños, y algunos medianos se han fusionado. La siguiente tabla da la clasificación de los 10 bancos más importantes (por el total de acti vos) en 1995, y la clasificación que los miembros del grupo tenían entre ellos en 1985. Para un nivel de significancia del 10%, ¿es cierto que “el grande se hace más grande”, o la competencia entre los bancos ha llevado a cambios significativos en la clasificación? Banco
Rango 1995
Rango 1985
Citicorp BankAmerica NationsBank Chemical J P. Morgan First Union Chase Manhattan First Chicago Bankers Trust Banc One
1 2 3 4 5 6 7 8 9 10
1 2 8 5 4 10 3 7 6 9
Fuente: ‘Creating New Giants”, The Wall Street Journal (14 de julio de 1995): A4.
capítulo
15
SERIES DE TIEMPO Y PRONÓSTICOS
Objetivos •
• • •
Aprender por qué los cambios en los pronósticos que tienen lugar en tiempo constituyen una parte importante de la toma de decisiones Entender las cuatro componentes de una serie de tiempo Utilizar técnicas basadas en la regresión para estimar y pronosticar la tendencia de una serie de tiempo Aprender cómo medir la componente cíclica de una serie de tiempo
• • •
Calcular índices estacionales y usarlos para desestacionalizar una serie de tiempo Ser capaces de reconocer una variación irregular en una serie de tiempo Manejar simultáneamente las cuatro componentes de una serie de tiempo y utilizar el análisis de series de tiempo para pronosticar
Contenido del capítulo 15.1 Introducción 600 15.2 Variación en las series de tiempo 601 15.3 Análisis de tendencia 602 15.4 Variación cíclica 612 15.5 Variación estacional 617 15.6 Variación irregular 625 15.7 Problema que incluye a las cuatro componentes de una serie de tiempo 625 15.8 Análisis de series de tiempo en pronósticos 633
• • • • • •
Estadística en el trabajo 634 Ejercicio de base de datos computacional 635 Del libro de texto al mundo real 635 Términos introducidos en el capítulo 15 636 Ecuaciones introducidas en el capítulo 15 637 Ejercicios de repaso 638
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
600
CAPÍTULO 15 Series de tiempo y pronósticos
L
a administración de un campo de esquí tiene los siguientes datos acerca de la ocupación trimestral correspondientes a un periodo de cinco años: Año 1991 1992 1993 1994 1995
1er. trim. 1,861 1,921 1,834 1,837 2,073
2o. trim. 2,203 2,343 2,154 2,025 2,414
3er. trim. 2,415 2,514 2,098 2,304 2,339
4o. trim. 1,908 1,986 1,799 1,965 1,967
Con el fin de mejorar su servicio, la administración debe entender el patrón estacional de la demanda de habitaciones. Con los métodos analizados en este capítulo, ayudaremos a la administración del hotel a discernir ese patrón, si existe, y a utilizarlo para pronosticar la demanda de habitaciones. ■
15.1 Introducción
Uso del análisis de series de tiempo
Los pronósticos, o predicciones, son una herramienta esencial en cualquier proceso de toma de dec isiones. Sus aplicaciones v arían desde la determinación de los requerimientos de in ventario de una pequeña zapatería hasta la estimación de las ventas anuales de juegos de video. La calidad de los pronósticos que los administradores pueden realizar está estrechamente relacionada con la información que puede extraerse y utilizarse a partir de los datos históricos. El análisis de series de tiempo es un método cuantitativo que utilizamos para determinar patrones en los datos recolectados a tra vés del tiempo. La tabla 15-1 es un ejemplo de datos de una serie de tiempo. El análisis de series de tiempo se utiliza para detectar patrones de cambio en la información estadística en intervalos regulares. Proyectamos estos patrones para obtener una estimación para el futuro. En consecuencia, el análisis de series de tiempo nos ayuda a manejar la incertidumbre asociada con los acontecimientos futuros.
Tabla 15-1 Serie de tiempo para el número de buques cargados, en Morehead, Carolina del Norte
Año Número
1988 98
1989 105
1990 116
1991 119
1992 135
1993 156
1994 177
1995 208
Ejercicios 15.1 Conceptos básicos ■ ■ ■ ■
15-1 15-2 15-3 15-4
¿Qué valor tienen los pronósticos en el proceso de toma de decisiones? ¿Con qué propósito aplicamos el análisis de series de tiempo a datos recolectados durante un tiempo? ¿Qué beneficios proporciona la determinación de patrones históricos? ¿Cómo afectarán los errores en los pronósticos al gobierno de una ciudad?
15.2: Variación en las series de tiempo
601
15.2 Variación en las series de tiempo Cuatro tipos de variación en las series de tiempo
Utilizamos el término serie de tiempo para referirnos a cualquier grupo de información estadística que se acumula a intervalos regulares. Existen cuatro tipos de cambio o v ariación implicados en el análisis de series de tiempo, éstos son: 1. 2. 3. 4.
Tendencia secular
Fluctuación cíclica
Tendencia secular Fluctuación cíclica Variación estacional Variación irregular
Con el primer tipo de variación, la tendencia secular, el valor de la variable tiende a aumentar o disminuir en un periodo muy largo. El incremento estable en los costos de vida registrados en el Índice de Precios al Consumidor (IPC) es un ejemplo de tendencia secular. De un año a otro, el costo de vida varía bastante, pero si examinamos un periodo a largo plazo, nos damos cuenta que la tendencia tiende a aumentar de manera estable. La gráfica (a) de la figura 15-1 muestra una tendencia secular en una serie de tiempo creciente que fluctúa. El segundo tipo de variación observado en una serie de tiempo es la fluctuación cíclica. El ejemplo más común de fluctuación cíclica es el ciclo económico.A través del tiempo, hay años en los que Y
(a) Serie de tiempo real
Tendencia secular
X
Tiempo en años
Y
(b) Fluctuación cíclica
Línea de tendencia
X
Tiempo en años
Y
(c)
Variación estacional
X
Tiempo en años
Y
(d)
Variación irregular
FIGURA 15-1 Variación en las series de tiempo
Tiempo en años
X
602
CAPÍTULO 15 Series de tiempo y pronósticos
Variación estacional
Variación irregular
el ciclo económico llega a un pico arriba de la línea de tendencia; en otros, es probable que la actividad de los negocios disminuya abajo de la línea de tendencia. El tiempo que transcurre entre picos y depresiones es al menos un año, y puede llegar a ser hasta 15 o 20. La gráfica (b) de la figura 15-1 ilustra un patrón típico de fluctuación cíclica arriba y abajo de la línea de tendencia secular. Observe que los movimientos cíclicos no siguen ningún patrón regular, sino que se mueven de manera un tanto impredecible. El tercer tipo de cambio en los datos de una serie de tiempo es lavariación estacional. Como cabría esperar, este tipo de variación implica patrones de cambio en el lapso de un año que tienden a repetirse anualmente. Por ejemplo, un médico puede esperar un aumento sustancial en el número de casos de gripe cada invierno y de afectados de tifoidea cada verano. Como se trata de patrones regulares son útiles al pronosticar el futuro. La gráf ica (c) de la figura 15-1 muestra una variación estacional. Note cómo alcanza un pico cada cuarto trimestre del año. La variación irregular es el cuarto tipo de cambio que ocurre en el análisis de las series de tiempo. En muchas situaciones,el valor de una variable puede ser completamente impredecible cambiando de manera aleatoria. Las variaciones irregulares describen esos movimientos. Los efectos que el conflicto de Medio Oriente en 1973, la situación de Irán en 1979-1981, el colapso de la OPEP en 1986 y la situación de Irak en 1990 tuvieron sobre los precios de la gasolina en Estados Unidos son ejemplos de variación irregular. La gráfica (d) de la figura 15-1 ilustra la variación irregular. Hasta ahora, nos hemos referido a las series de tiempo como datos que presentan una de las cuatro variaciones descritas. Sin embargo, en la mayor parte de los casos las series de tiempo contienen varias de estas componentes. Así, podemos describir la variación total en una sola serie de tiempo en términos de estas cuatro clases de v ariación. En las siguientes secciones examinaremos las cuatro componentes y las formas en que medimos cada uno.
Ejercicios 15.2 Conceptos básicos ■
15-5
■
15-6
■ ■
15-7 15-8
■ 15-9 ■ 15-10 ■ 15-11
Identifique las cuatro principales componentes de una serie de tiempo y explique el tipo de cambio, en el tiempo, al que se aplica. ¿Cuál de las cuatro componentes de una serie de tiempo se utilizaría para describir el efecto de las ventas navideñas de una tienda departamental al menudeo? ¿Cuál es la ventaja de descomponer una serie de tiempo en sus cuatro componentes? ¿Cuál de las cuatro componentes de una serie de tiempo debería utilizar el Departamento de Agricultura de Estados Unidos para describir un patrón climatológico de siete años? ¿Cómo se explicaría una guerra en una serie de tiempo? ¿Qué componente de una serie de tiempo e xplica el crecimiento y decrecimiento general de la industria del acero en los dos últimos siglos? Utilizando los cuatro tipos de variación, describa el comportamiento de los precios del petróleo crudo de 1970 a 1987.
15.3 Análisis de tendencia Dos métodos para ajustar una línea de tendencia
De las cuatro componentes de una serie de tiempo,la tendencia secular representa la dirección a largo plazo de la serie. Una manera de describir la componente que corresponde a la tendencia es ajustar visualmente una recta a un conjunto de puntos de una gráfica. Pero cualquier gráfica dada estará sujeta a interpretaciones que v arían de un individuo a otro. Podemos también ajustar una línea de tendencia con el método de mínimos cuadrados,estudiado en el capítulo 12. En nuestro análisis,nos concentraremos en el método de mínimos cuadrados, ya que el ajuste visual de una recta a una serie de tiempo no es un proceso completamente seguro.
15.3: Análisis de tendencia
603
Razones para estudiar las tendencias Tres razones para el estudio de las tendencias seculares
Las líneas de tendencia toman diferentes formas
Existen tres razones por las cuales resulta útil estudiar las tendencias seculares: 1. El estudio de tendencias seculares nos permite describir un patrón histórico. Existen muchos ejemplos en los que podemos utilizar un patrón del pasado para vealuar el éxito de una política anterior. Por ejemplo, una universidad puede evaluar la efectividad de un programa de captación de estudiantes mediante el examen de sus tendencias en las inscripciones anteriores. 2. El estudio de tendencias seculares nos permite proyectar patrones o tendencias pasados al futuro. El conocimiento del pasado nos puede hablar en gran medida acerca del futuro. Por ejemplo, el examen de la tasa de crecimiento de la población mundial puede ser de ayuda para estimar la población en algún momento futuro dado. 3. En muchas situaciones, el estudio de la tendencia secular de una serie de tiempo nos permite eliminar la componente de tendencia de la serie.Esto facilita el estudio de las otras tres componentes de la serie de tiempo. Si deseamos determinar la variación estacional de la venta de esquíes, por ejemplo, la eliminación de la componente de tendencia nos proporciona una idea más precisa de la componente estacional. Las tendencias pueden ser rectas o curvilíneas.Antes de examinar el método lineal o de línea recta para describir tendencias, debemos recordar que algunas relaciones no toman esa forma. El aumento de contaminantes en el ambiente sigue una curv a de pendiente creciente parecida a la que mostramos en la gráfica (a) de la figura 15-2. Otro ejemplo común de una relación curvilínea es el ciclo de vida de un nue vo producto comercial, que se ilustra en la gráf ica (b) de la misma f igura. Cuando se introduce en el mercado un nuevo producto, su volumen de ventas es bajo (I). Conforme el producto adquiere reconocimiento y éxito,las ventas unitarias aumentan con una rapidez cada vez mayor (II). Después de que el producto se establece firmemente, sus ventas unitarias crecen con rapidez constante (III). Por último, cuando el producto llega al fin de su ciclo de vida, las ventas unitarias empiezan a disminuir (IV).
Ajuste de la tendencia lineal con el método de mínimos cuadrados Además de las tendencias que se pueden describir por una curva, existen otras que se describen por una línea recta. Éstas se conocen como tendencias lineales. Antes de desarrollar la ecuación para una tendencia lineal, necesitamos revisar la ecuación general para estimar una línea recta (ecuación 12-3): ˆ a bX Ecuación para estimar una recta → Y [12-3] donde, • Yˆ valor estimado de la variable dependiente • X variable independiente (tiempo en el análisis de tendencia) • a ordenada Y (el valor de Y cuando X 0) • b pendiente de la recta de tendencia (a)
(b)
Tendencia del incremento de contaminación
FIGURA 15-2 Relaciones de tendencia curvilínea
Ventas anuales en unidades
Y
Contaminación
Y
Tiempo
IV III
I
X
II Tiempo
X
604
CAPÍTULO 15 Series de tiempo y pronósticos
Búsqueda de la recta de tendencia de mejor ajuste
Podemos describir la tendencia general de muchas series de tiempo utilizando una línea recta. Pero nos encontramos con el problema de buscar la recta, o ecuación, de mejor ajuste. Del mismo modo que en el capítulo 12, podemos utilizar el método de mínimos cuadrados para calcular la recta o ecuación de mejor ajuste. En ese capítulo,vimos que la recta de mejor ajuste estaba determinada por las ecuaciones 12-4 y 12-5, que representamos ahora como ecuaciones 15-1 y 15-2. Pendiente de la recta de regresión de mejor ajuste Y XY nX b 2 2 X nX
[15-1]
Ordenada Y de la recta de regresión de mejor ajuste a Y bX
[15-2]
donde, • Y valores de la variable dependiente • X valores de la variable independiente Y media de los valores de la variable dependiente • X media de los valores de la variable independiente • • n número de datos en la serie de tiempo • a ordenada Y • b pendiente Con las ecuaciones 15-1 y 15-2 podemos establecer la recta de mejor ajuste para describir los datos de la serie. Sin embargo, la regularidad de los datos de la serie de tiempo nos permite simplificar los cálculos de las ecuaciones 15-1 y 15-2 mediante el proceso que describiremos a continuación.
Traducción o codificación del tiempo Codificación de la variable tiempo para simplificar los cálculos
Manejo de números pares e impares de elementos
¿Por qué usar un código?
Normalmente, medimos la variable independiente tiempo en términos de semanas, meses o años. Afortunadamente, podemos convertir estas medidas tradicionales de tiempo a una forma que simplifica los cálculos. Para utilizar la codificación en este caso, encontramos el tiempo medio y luego restamos ese valor de cada uno de los tiempos de la muestra. Suponga que nuestra serie de tiempo consiste en tres puntos, 1992, 1993 y 1994. Si tuviéramos que sustituir estas cantidades en las ecuaciones 15-1 y 15-2, veríamos que los cálculos resultantes son tediosos. En su lugar, podemos transformar los valores 1992, 1993 y 1994 en los valores correspondientes 1, 0 y 1, en donde 0 representa la media (1993), 1 representa el primer año (1992 1993 1) y 1 el último año (1994 1993 l). Cuando codificamos valores de tiempo es necesario tomar en cuenta dos casos. El primero es una serie de tiempo con un número impar de elementos, como en el ejemplo anterior; el segundo, una serie de tiempo con un número par de elementos. Considere la tabla 15-2. En la parte a, a la izquierda, tenemos un número impar de años. En consecuencia, el proceso es el mismo que el que acabamos de describir utilizando los años 1992, 1993 y 1994. En la parte b, a la derecha, tenemos un número par de elementos. En casos como éste, cuando encontramos la media y la restamos de cada elemento, la fracción 1/2 se convierte en parte de la respuesta. Para simplificar el proceso de codificación y eliminar el 1/2, multiplicamos cada elemento de tiempo por dos. Denotaremos el tiempo “codificado” o traducido con la letra minúscula x. Existen dos razones para hacer esta traducción del tiempo. Primero, elimina la necesidad de elevar al cuadrado números grandes como 1992,1993 y 1994, etc. Este método también hace que el año medio, x, sea igual a cero y permite simplificar las ecuaciones 15-1 y 15-2.
15.3: Análisis de tendencia
(a) Cuando hay un número impar de elementos en la serie de tiempo
Tabla 15-2 Traducción o codificación de los valores de tiempo
(b) Cuando hay un número par de elementos en la serie de tiempo
X (1)
XX (2)
Tiempo traducido o codificado (3)
1989 1990 1991 1992 1993 1994 1995
1989 1992 1990 1992 1991 1992 1992 1992 1993 1992 1994 1992 1995 1992
3 2 1 0 1 2 3
X 13,944
XX (2)
X (1) 1990 1991 1992 1993 1994 1995
x (el año medio) 0
1990 19921/2 1991 19921/2 1992 19921/2 1993 19921/2 1994 19921/2 1995 19921/2
X 11,955
X X n
Simplificación del cálculo de a y b
605
(X X ) 2 (3)
Tiempo traducido o codificado (4)
21/2 2 11/2 2 1/2 2 1 /2 2 11/2 2 21/2 2
5 3 1 1 3 5
x(el año medio) 0
X X n
13,944 7
11,955 6
1992
19921/2
Ahora ya podemos regresar al cálculo de la pendiente (ecuación 15-1) y la ordenada Y (ecuación 15-2) para determinar la recta de mejor ajuste. Como estamos utilizando la ariable v codificada x, sustituimos X y X por x y x en las ecuaciones 15-1 y 15-2. Entonces, como la media de nuestra variable tiempo codificada x es cero, podemos sustituir 0 por x en las ecuaciones 15-1 y 15-2, como sigue: XY nX Y b 2 2 X nX xY nxY x2 nx2
[15-1]
x (la variable codificada) sustituida
← en lugar de X y x en lugar de X
xY n0Y ← x sustituida por 0 x2 n02 Pendiente de la línea de tendencia para valores de tiempo codificados xY b x2
[15-3]
La ecuación 15-2 cambia de la siguiente manera: a Y bX Y bx ← x en lugar de X Y b0 ← x sustituida por 0
[15-2]
Ordenada Y de la recta de tendencia para valores de tiempo codificados aY
[15-4]
Las ecuaciones 15-3 y 15-4 representan una mejora sustantiva respecto a las ecuaciones 15-1 y 15-2.
606
CAPÍTULO 15 Series de tiempo y pronósticos
Un problema que usa el método de mínimos cuadrados en una serie de tiempo (número par de elementos) Uso del método de mínimos cuadrados
Búsqueda de la pendiente y la ordenada Y
Considere los datos de la tabla 15-1, que ilustran el número de buques cargados en la ciudad de Morehead entre 1988 y 1995. En este problema, queremos encontrar la ecuación que describirá la tendencia secular de las cargas. Para calcular los valores necesarios para las ecuaciones 15-3 y 15-4,observemos la tabla 15-3. Podemos sustituir estos valores en las ecuaciones 15-3 y 15-4 para encontrar la pendiente y la ordenada Y para la recta que describe la tendencia en las cargas de buques: xY b x2
[15-3]
1,266 168 7.536 y a Y
[15-4]
139.25 Así, la ecuación lineal general que describe la tendencia secular en la carga de buques es Yˆ a bx
[12-3]
139.25 7.536x donde, • Yˆ número estimado anual de barcos cargados • x valor de tiempo codificado que representa el número de intervalos de mitad de año (el signo menos indica intervalos de mitad de año anteriores a 19911/2; el signo más indica intervalos de mitad de año posteriores a 19911/2) Tabla 15-3 Cálculos intermedios para calcular la tendencia
X (1)
Y† (2)
1988 1989 1990 1991 1992 1993 1994 1995 ______
105 116 119 135 156 177 208 _____
98
X 15,932
Y 1,114
X X (3) 1988 19911/2‡ 1989 19911/2 1990 19911/2 1991 19911/2 1992 19911/2 1993 19911/2 1994 19911/2 1995 19911/2
X 15,932 X 1,9911/2 8 n Y 1,114 Y 139.25 8 n † Y es el número de buques. ‡ 19911/2 corresponde a x 0.
x (3) 2 (4) 31/2 21/2 11/2 1/2 1 /2 11/2 21/2 31/2
31/2 21/2 11/2 1/2 1 /2 11/2 21/2 31/2
2 7 2 5 2 3 2 1 2 1 2 3 2 5 2 7
xY (4) (2)
x2 (4)2
686 525 348 119 135 468 885 01,456
49 25 9 1 1 9 25 0 49
xY 1,266
x2 168
15.3: Análisis de tendencia
607
Proyección con la ecuación de tendencia Una vez desarrollada la ecuación de tendencia, podemos proyectarla para pronosticar la variable en cuestión. En el problema de hallar la tendencia secular de las cargas de buques, por ejemplo, determinamos que la ecuación de tendencia secular apropiada es Yˆ 139.25 7.536x Uso de nuestra recta de tendencia para pronosticar
Ahora suponga que deseamos estimar las cargas de buques para 1996. Primero, debemos convertir 1996 al valor de tiempo codificado (en intervalos de mitad de año). x 1996 19911/2 4.5 años 9 intervalos de mitad de año Sustituyendo este valor en la ecuación correspondiente a la tendencia secular, obtenemos Yˆ 139.25 67.82 139.25 67.82 207 barcos cargados Por consiguiente, hemos estimado que se cargarán 207 barcos en 1996. Si el número de elementos de nuestra serie de tiempo hubiera sido impar, no par, nuestro procedimiento hubiera sido el mismo, excepto que hubiéramos manejado intervalos de cada año, no intervalos de mitad de año.
Uso de una ecuación de segundo grado en una serie de tiempo Manejo de series de tiempo descritas por curvas
Hasta aquí hemos descrito el método de ajustar una recta a una serie de tiempo. Pero muchas series de tiempo se describen mejor por curvas que por rectas. En estos casos, el modelo lineal no describe de manera adecuada el cambio en la v ariable conforme pasa el tiempo. Para vencer este problema, a menudo utilizamos una curva parabólica, que se describe matemáticamente por una ecuación de segundo grado. Este tipo de curva se ilustra en la f igura 15-3. La forma general para una ecuación de segundo grado estimada es: Forma general para una ecuación de segundo grado ajustada Yˆ a bx cx2 donde,
Unidad de medida
Yˆ estimación de la variable dependiente • • a, b y c constantes numéricas x valores codificados de la variable tiempo •
Curva parabólica Ecuación general para una curva parabólica: Y = a + bx + cx 2
FIGURA 15-3 Forma y ecuación de una curva parabólica
Tiempo
[15-5]
608
CAPÍTULO 15 Series de tiempo y pronósticos
Búsqueda de valores para a, b y c
De nuevo utilizamos el método de mínimos cuadrados para determinar la ecuación de se gundo grado que describe el mejor ajuste. La derivación de la ecuación de segundo grado está más allá del propósito de este libro; sin embargo, podemos determinar el valor de las constantes numéricas (a, b y c) a partir de las siguientes tres ecuaciones: Coeficientes de mínimos cuadrados para una tendencia de segundo grado
Ecuaciones para encontrar → a, b y c para ajustar una curva parabólica
Y an cx2 2
2
[15-6] 4
x Y ax cx
[15-7]
x Y b x2
[15-3]
Después de encontrar los valores de a, b y c resolviendo las ecuaciones 15-6, 15-7 y 15-3, de manera simultánea, sustituimos estos valores en la ecuación 15-5 de segundo grado. Al igual que en la descripción de una relación lineal, transformamos la variable independiente, tiempo (X), en una forma codificada (x) para simplificar los cálculos. Ahora trabajaremos con un problema en el cual ajustamos una parábola a una serie de tiempo.
Problema que involucra una tendencia parabólica (número impar de elementos en la serie de tiempo)
Codificación de la variable tiempo
Cálculo de a, b y c por sustitución
En los últimos años, la venta de relojes electrónicos de cuarzo ha aumentado con una rapidez significativa. La tabla 15-4 contiene información acerca de las ventas de estos artículos que será útil para determinar la tendencia parabólica que describe la venta de relojes. En la tabla 15-5 organizamos los cálculos necesarios. El primer paso en este proceso es traducir la variable independiente X en una variable de tiempo codificada x. Note que la variable codificada x está dada en intervalos de cada año, debido a que tenemos un número impar de elementos en nuestra serie de tiempo. Así, no es necesario multiplicar la variable por 2. Sustituyendo los valores de la tabla 15-5 en las ecuaciones 15-6, 15-7 y 15-3, obtenemos
De 3 , vemos que
247 5a 10c
1
[15-6]
565 10a 34c
2
[15-7]
227 34b 10
3
[15-3]
b 22.7 Se puede encontrar a y c al resolver las ecuaciones simultáneas 1 y 2 . Al hacerlo, se encuentra que a es 39.3 y c es 5.07. Esto nos da los valores apropiados de a, b y c para describir la serie de tiempo presentada en la tabla 15-4 mediante la ecuación: [15-5] Yˆ a bx cx2 39.3 22.7x 5.07x2 Tabla 15-4 Ventas anuales de relojes electrónicos de cuarzo
X (año)
1991
1992
1993
1994
1995
Y (ventas unitarias en millones)
13
24
39
65
106
15.3: Análisis de tendencia
Y
Tabla 15-5
(1) Cálculos intermedios para determinar la tendencia
XX x
X (2)
13 24 39 65 106 Y 247
x2 (3)2
x4 (3)4
4 1 0 1 04 x 2 10
16 1 0 1 16 x 4 34
(3) 1991 1993 2 1992 1993 1 1993 1993 0 1994 1993 1 1995 1993 2
1991 1992 1993 1994 01995 X 9,965
xY (3) (1) 26 24 0 65 212 xY 227
609
x2Y (3) (1) 2
52 24 0 65 424 x 2Y 565
X 9,965 X 1993 n 5
¿Se ajusta la curva a los datos?
Se grafican los datos de los relojes para ver qué tan bien se ajusta la parábola desarrollada a la serie de tiempo. La figura 15-4 presenta esta gráfica.
Pronósticos basados en una ecuación de segundo grado Para pronosticar
Suponga que deseamos pronosticar las v entas de relojes para 2000. P ara hacer una predicción, debemos primero transformar 2000 en una variable codificada x restándole el año medio, 1993: X Xx 2000 1993 7 Después este valor codificado (x 7) se sustituye en la ecuación de segundo grado que describe la venta de relojes: Yˆ 39.3 22.7x 5.07x2 39.3 22.7(7) 5.07(7)2 39.3 158.9 248.4 446.6
Ser cuidadosos al interpretar la predicción
Con base en la tendencia secular histórica,concluimos que las ventas de relojes deberá ser aproximadamente 446,600,000 unidades en 2000. Sin embargo, este pronóstico tan alto sugiere que debemos ser más cuidadosos al pronosticar con una tendencia parabólica que cuando trabajamos con una tendencia lineal. La pendiente de la ecuación de segundo grado de la figura 15-4 se incrementa continuamente; en consecuencia, la parábola puede convertirse en un estimador pobre si intentamos pronosticar a un plazo mayor. Al utilizar el método de la ecuación de segundo grado, también debemos considerar factores que pueden estar frenando o invirtiendo la tasa de crecimiento de la variable. En el ejemplo de la v enta de relojes, podemos suponer que durante el periodo considerado, el producto se encuentra en una etapa de crecimiento muy rápido de su ciclo de vida. Pero debemos darnos cuenta de que a medida que el ciclo se acerca a la etapa de madurez, el crecimiento de las
FIGURA 15-4 Tendencia parabólica ajustada para los datos de tabla 15-4
Ventas en millones de unidades
Y Tendencia parabólica Y = 39.3 + 22.7x + 5.07x 2
140 120 100 80 60
Puntos reales
40 20 -7
-6 1987
-5
-4 1989
-3
-2 1991
-1
0
1993 Tiempo
1
2 1995
3
4 1997
5
6
X
610
CAPÍTULO 15 Series de tiempo y pronósticos
ventas puede disminuir y la parábola ya no predecir con precisión. Cuando calculamos predicciones, debemos considerar la posibilidad de que la línea de tendencia puede cambiar. Esta situación puede ocasionar un error significativo. Por tanto, es necesario poner una atención especial cuando se utiliza una ecuación de segundo grado como herramienta de pronóstico. Advertencia: “ningún árbol crece hasta el cielo” es un proverbio de Wall Street que significa que ningún precio de acción sube para siempre. Esto también se aplica a los pronósticos hechos con ecuaciones de segundo
grado. Extrapolar una tasa de crecimiento de una compañía que comienza (que inicia con cero ventas de manera que un dólar de venta se convierte de manera automática en una tasa de crecimiento infinito) es riesgoso. Las tasas iniciales de crecimiento rara vez continúan.
SUGERENCIAS Y SUPOSICIONES
Ejercicios 15.3 Ejercicios de autoevaluación EA
15-1
Robin Zill y Stewart Griffiths son los propietarios de una pequeña fábrica de mesas de masaje portátiles en Hillsborough, Carolina del Norte. Desde que inició la compañía, el número de mesas que han vendido está representado por esta serie de tiempo: Año Mesas vendidas
EA
15-2
1987 42
1988 50
1989 61
1990 75
1991 92
1992 111
1993 120
1994 127
1995 140
1996 138
a) Encuentre la ecuación lineal que describe la tendencia del número de mesas v endidas por Robin y Stewart. b) Estime sus ventas para 1998. El número de académicos que poseen computadoras personales en la Universidad de Ohio ha aumentado drásticamente entre 1990 y 1995: Año Número de PC
1990 50
1991 110
1992 350
1993 1,020
1994 1,950
1995 3,710
a) Desarrolle la ecuación de estimación lineal que mejor describa estos datos. b) Desarrolle la ecuación de estimación de segundo grado que mejor describa los datos. c) Estime el número de computadoras personales que habrá en uso en la uni versidad en 1999, utilizando ambas ecuaciones. d) Si hay 8,000 académicos en la universidad, ¿qué ecuación es mejor pronosticador? ¿Por qué?
Aplicaciones ■ 15-12
Jeff Richards invirtió los ahorros de toda su vida e inició un ne gocio de limpieza de alfombras en 1986. Desde entonces, la reputación de Jeff se ha propagado y el negocio ha crecido. Los números promedio de casas que ha limpiado por mes cada año son: Año 1986 Casas limpiadas 6.4
■ 15-13
1987 11.3
1988 14.7
1989 18.4
1990 19.6
1991 25.7
1992 32.5
1993 48.7
1994 55.4
1995 75.7
1996 94.3
a) Encuentre la ecuación lineal que describa la tendencia de estos datos. b) Estime el número de casas limpiadas mensualmente en 1997, 1998 y 1999. El dueño de la compañía Progressive Builders está examinando el número de casas solares que iniciaron su construcción en la región durante los últimos siete meses: Mes Jun. Número de casas 16
Jul. 17
Ago. 25
Sep. 28
Oct. 32
Nov. 43
Dic. 50
a) Grafique estos datos. b) Desarrolle la ecuación de estimación lineal que mejor describa estos datos, y grafique la recta en la gráfica del inciso a) (una unidad de x igual a 1 mes).
15.3: Análisis de tendencia
■ 15-14
611
c) Desarrolle la ecuación de estimación de segundo grado que mejor describa estos datos y grafique esta curva en la gráfica del inciso a). d) Estime las ventas de marzo utilizando ambas curvas graficadas. Richard Jackson desarrolló un ratón para computadora ergonómico en 1989 y las ventas han ido en aumento desde entonces. A continuación se presentan datos en términos de miles de ratones vendidos por año. Año Número vendido
1989 82.4
1990 125.7
1991 276.9
1992 342.5
1993 543.6
1994 691.5
1995 782.4
1996 889.5
a) b) c) d) ■ 15-15
Desarrolle la ecuación de estimación lineal que mejor describa estos datos. Desarrolle la ecuación de estimación de segundo grado que mejor describa estos datos. Estime el número de ratones que venderá en 1998 usando ambas ecuaciones. Si se supone que la tasa de crecimiento de las ventas de ratones decrecerá pronto con base en la oferta y la demanda, ¿qué modelo será un mejor pronosticador para su respuesta en c)? Mike Godfrey, auditor de un sistema escolarizado de educación pública, ha revisado los registros de inventario para determinar si las existencias reales de libros de texto son típicas. Las cantidades de inventario siguientes corresponden a los cinco años anteriores: Año Inventario (miles de dólares)
■ 15-16
1970 5
1972 8
1974 8
1976 10
1978 13
1987 13
1994 $5,730
1995 $5,990
1980 15
1982 18
1984 20
1986 22
1988 25
1990 25
1992 29
1994 1996 29 32
1988 15
1989 19
1990 21
1991 27
1992 35
1993 47
1994 49
1995 57
a) Grafique los datos. b) Desarrolle la ecuación de estimación lineal que mejor describa estos datos y graf ique la recta en la gráfica del inciso a). c) Desarrolle la ecuación de estimación de se gundo grado que mejor describa los datos, y grafique la ecuación en la gráfica del inciso a). d) ¿Según el conocimiento adquirido al respecto, el mercado favorece a b) o c) como el método de estimación más preciso? A continuación presentamos los datos que describen el índice de contaminación de aire [en partes por millón (ppm) de partículas en el aire] de una ciudad del oeste de Estados Unidos: Año Índice de contaminación
■ 15-19
1993 $5,490
a) Desarrolle la ecuación de estimación lineal que mejor describa los datos. b) Desarrolle la ecuación de estimación de segundo grado que mejor describa los datos. c) ¿Existe algún indicador en el entorno económico o político que sugiera que una de las dos ecuaciones tiene mayor posibilidad de ser mejor pronosticador de los precios postales? Ingeniería Environtech, una compañía especializada en la construcción de dispositivos de filtrado anticontaminante, ha registrado los siguientes niveles de ventas durante los últimos nueve años: Año Ventas (cientos de miles de dólares)
■ 15-18
1992 $4,910
a) Encuentre la ecuación lineal que describa la tendencia en las existencias de inventario. b) Estime para el auditor el valor del inventario para el año 1996. La siguiente tabla describe los precios del correo de primera clase desde 1968 hasta 1996:
Año 1968 Precio (ctvos.) 5
■ 15-17
1991 $4,620
1980 220
1985 350
1990 800
1995 2,450
a) ¿Qué ecuación de estimación, lineal o de segundo grado, proporciona la mejor predicción de los índices de contaminación de la ciudad? b) Considerando el entorno económico, social y político, ¿cambiaría usted la respuesta del inciso a)? c) Describa cómo las acciones políticas y sociales podrían cambiar la efecti vidad de las ecuaciones de estimación del inciso a). El Departamento Estatal de Vehículos estudia el número de muertes por accidentes de tránsito en el estado debido a conductores ebrios, y registró el número de muertes en los nueve años anteriores: Año Muertes
1987 175
1988 190
1989 185
1990 195
1991 180
1992 200
1993 185
1994 190
1995 205
a) Encuentre la ecuación lineal que describe la tendencia en el número de muertes en accidentes de tránsito en el estado debidas a conductores ebrios.
612
CAPÍTULO 15 Series de tiempo y pronósticos
b) Estime el número de muertes en accidentes de tránsito debidas a conductores ebrios que se pueda esperar en 1996.
Soluciones a los ejercicios de autoevaluación EA
EA
15-1
15-2
a)
Año 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
0x0 9 7 5 3 1 111 113 115 117 109 110
0Y0 142 150 161 175 192 111 120 127 140 138 956
0xY0 378 350 305 225 192 11111 11360 11635 11980 1,242 1,978
x2 181 149 125 119 111 111 119 125 149 081 330
956 xY 1,978 a Y 95.6 b 5.9939 10 x2 330 ˆ Y 95.6 5.9939x (donde 1991.5 0 y unidades x 0.5 año) b) Yˆ 95.6 5.9939(13) 173.5 mesas Año 1990 1991 1992 1993 1994 1995
0x0 5 3 1 1 3 5 0
Y00 50 110 350 1,020 1,950 3,710 7,190
xY 0 250 330 350 1,020 5,850 118,550 24,490
x2 25 9 1 1 9 25 70
x2Y 1,250 990 350 1,020 17,550 1192,750 113,910
x4 625 81 1 1 81 00625 1,414
7,190 xY 24,490 a) a Y 1,198.3333 b 349.8571 6 x2 70 ˆ Y 1,198.3333 349.8571x (donde 1992.5 0 y unidades de x 0.5 años) b) Las ecuaciones 15.6 y 15.7 se convierten en 7,190 6a 70c Y na cx2 2 2 4 113,910 70a 1,414c x Y ax cx Al resolver estas ecuaciones simultáneas, se obtiene a 611.8750, c 50.2679 Yˆ 611.8750 349.8571x 50.2679x2 c) Pronóstico lineal: Yˆ 1,198.3333 349.8571(13) 5,746 PCs Pronóstico de segundo grado: Yˆ 611.8750 349.8571(13)
50.2679(169) 13,655 PCs d) Ninguna de las dos es muy buena: la tendencia lineal no expresa la aceleración de la tasa de adquisición de PCs de los académicos; la tendencia de se gundo grado supone que la aceleración continuará e ignora el hecho de que sólo hay 8,000 miembros del cuerpo docente.
15.4 Variación cíclica Definición de variación cíclica
La variación cíclica es la componente de una serie de tiempo que tiende a oscilar arriba y abajo de la línea de tendencia secular en periodos mayores que un año. El procedimiento utilizado para identificar la variación cíclica es el método de residuos.
15.4: Variación cíclica
613
Método de residuos
Expresión de la variación cíclica como porcentaje de tendencia
Cuando observamos una serie de tiempo consistente en datos anuales, sólo se toman en cuenta las componentes de tendencia secular, cíclica e irregular. (Esto es así porque la variación estacional pasa por un ciclo completo y regular cada año y no afecta más un año que otro.) Dado que podemos describir la tendencia secular utilizando una línea de tendencia,es posible aislar de la tendencia las componentes cíclica e irregular restantes. Supondremos que la componente cíclica explica la mayor parte de la variación que quedó sin explicar por la componente de tendencia secular. (Muchas series de tiempo reales no satisfacen esta suposición. Los métodos como el análisis de Fourier y el análisis espectral pueden estudiar la componente cíclica de estas series de tiempo.Tales métodos, sin embargo, están más allá del objetivo del presente libro.) Si utilizamos una serie de tiempo compuesta por datos anuales, podemos encontrar la fracción de la tendencia dividiendo el valor real (Y) entre el valor de tendencia correspondiente (Yˆ) para cada valor de la serie de tiempo. Luego se multiplica el resultado de este cálculo por 100. Esto da la medida de la variación cíclica como un porcentaje de tendencia. Presentamos el proceso en la ecuación 15-8: Porcentaje de tendencia Y 100 Yˆ
[15-8]
donde, • Y valor real de la serie de tiempo • Yˆ valor de tendencia estimado a partir del mismo punto de la serie de tiempo
Medición de la variación
Interpretación de las variaciones cíclicas
Expresión de las variaciones cíclicas en términos de residuos cíclicos relativos
Ahora aplicaremos este procedimiento. La cooperativa de comercialización de granjeros desea medir las v ariaciones en las cosechas de trigo de sus miembros durante 8 años. La tabla 15-6 da el volumen de cereal cosechado cada uno de los 8 años. La columna Y contiene los valores de la tendencia lineal para cada periodo. La recta detendencia fue generada utilizando los métodos ilustrados en la sección 3 de este capítulo. Observ e que en la gráfica del valor real (Y) y del valor de tendencia (Yˆ ) para los 8 años, figura 15-5, los valores reales quedan por arriba y abajo de la recta de tendencia. Ahora ya podemos determinar el porcentaje de tendencia para cada año de la muestra (columna 4 de la tabla 15-7). En esta columna podemos ver la variación de las cosechas reales alrededor de la tendencia estimada (98.7 a 102.5). Podemos atrib uir estas variaciones cíclicas a factores como lluvias y cambios de temperatura. Sin embar go, debido a que estos factores son relativamente impredecibles, no podemos determinar un patrón específico futuro de variación con el método de residuos. El residuo cíclico relativo es otra medida de la variación cíclica. En este método se encuentra el porcentaje de variación de la tendencia para cada valor. La ecuación 15-9 presenta la fórmula matemática para determinar los residuos cíclicos relativos. Igual que con el porcentaje de tendencia,esta medida también es un porcentaje. Tabla 15-6 Grano recibido por la cooperativa de granjeros durante ocho años
X Año
Y bushels reales (decenas de miles)
Yˆ bushels estimados (decenas de miles)
1988 1989 1990 1991 1992 1993 1994 1995
7.5 7.8 8.2 8.2 8.4 8.5 8.7 9.1
7.6 7.8 8.0 8.2 8.4 8.6 8.8 9.0
614
CAPÍTULO 15 Series de tiempo y pronósticos
Residuo cíclico relativo Y Yˆ 100 Yˆ
[15-9]
donde, • Y valor real de la serie de tiempo • Yˆ valor de tendencia estimado a partir del mismo punto de la serie de tiempo
Comparación de dos medidas de variación cíclica
Gráfica de la variación cíclica
La tabla 15-8 muestra los cálculos del residuo cíclico relativo para el problema de la cooperativa de granjeros. Observe que la forma fácil de calcular el residuo cíclico relativo (columna 5) consiste en restar 100 del porcentaje de tendencia (columna 4). Estas dos medidas de variación cíclica, porcentaje de tendencia y residuo cíclico relativo, son porcentajes de la tendencia. Por ejemplo, en 1993, el porcentaje de tendencia indicaba que la cosecha real fue del 98.8% de la cosecha esperada para ese año. Para el mismo año, el residuo cíclico relativo indicó que la cosecha real estaba 1.2% por debajo de la cosecha esperada (un residuo cíclico relativo de 1.2). A menudo, graficamos la variación cíclica como el porcentaje de tendencia. En la figura 15-6 se ilustra cómo este proceso elimina la línea de tendencia y aísla la componente cíclica de la serie de
9.2 Gráfica de puntos reales ( Y )
Bushels (decenas de miles)
9.0 8.8 8.6
Fluctuaciones cíclicas arriba de la línea de tendencia
8.4
Fluctuaciones cíclicas abajo de la línea de tendencia
8.2 Línea de tendencia (gráfica de Yˆ )
8.0 7.8
FIGURA 15-5
7.6
Fluctuaciones cíclicas alrededor de la línea de tendencia
7.4 1988
1989
1990
1991
1992
1993
1994
1995
1996
Tiempo
Y 100 Yˆ
Tabla 15-7 Cálculo del porcentaje de tendencia
X Año (1)
Y Bushels reales ( 10,000) (2)
Yˆ Bushels estimados ( 10,000) (3)
Porcentaje de tendencia
1988 1989 1990 1991 1992 1993 1994 1995
7.5 7.8 8.2 8.2 8.4 8.5 8.7 9.1
7.6 7.8 8.0 8.2 8.4 8.6 8.8 9.0
98.7 100.0 102.5 100.0 100.0 98.8 98.9 101.1
(2) (4) 100 (3)
15.4: Variación cíclica
615
tiempo. Debe resaltarse que los procedimientos analizados en esta sección pueden usarse sólo para describir variaciones cíclicas pasadas y no para pronosticar variaciones cíclicas. La predicción de variaciones cíclicas requiere usar técnicas que van más allá del alcance de este libro. Y
Tabla 15-8 Cálculos de los residuos cíclicos relativos
X Año (1)
Y Bushels reales ( 10,000) (2)
Yˆ Bushels estimados ( 10,000) (3)
1988 1989 1990 1991 1992 1993 1994 1995
7.5 7.8 8.2 8.2 8.4 8.5 8.7 9.1
7.6 7.8 8.0 8.2 8.4 8.6 8.8 9.0
100 Yˆ Porcentaje de tendencia (2) (4) 100 (3) 98.7 100.0 102.5 100.0 100.0 98.8 98.9 101.1
Y Yˆ 100 Yˆ Residuo cíclico relativo (5) (4) 100 1.3 0.0 2.5 0.0 0.0 1.2 1.1 1.1
103.0 102.5
Porcentaje de tendencia
102.0 101.5 101.0 100.5 100.0 Línea de tendencia
99.5
FIGURA 15-6
99.0
Gráfica del porcentaje de tendencia alrededor de la línea de tendencia para los datos de la tabla 15-7
98.5
Gráfica del porcentaje de tendencia
98.0 1988 1989 1990 1991 1992 1993 1994 1995 Tiempo
Recuerde que la variación crítica es la componente de una serie de tiempo que oscila arriba y abajo de la tendencia lineal durante periodos mayores que un año. Advertencia: la variación estacional forma un ciclo completo dentro de cada año y no afecta a un año más que SUGERENCIAS Y SUPOSICIONES
a otro. La variación cíclica se mide por dos métodos. El primero expresa la variación como porcentaje de la tendencia, de ahí su nombre de porcentaje de tendencia. El segundo método (el residuo cíclico relativo) calcula la variación como porcentaje de desviación desde la tendencia.
Ejercicios 15.4 Ejercicios de autoevaluación EA
15-3
La Western Natural Gas Company ha surtido 18, 20, 21, 25 y 26 mil millones de pies cúbicos de gas,respectivamente, en los años 1991 a 1995.
616
CAPÍTULO 15 Series de tiempo y pronósticos
a) b) c) d)
Encuentre la ecuación lineal de estimación que mejor describa estos datos. Calcule el porcentaje de tendencia para estos datos. Calcule el residuo cíclico relativo para estos datos. ¿En qué años se presentó la mayor fluctuación en la tendencia? ¿Es ésta la misma para ambos métodos?
Aplicaciones ■ 15-20
La compañía de computación Microprocessing, especializada en ingeniería de softw are, ha recolectado los siguientes registros de rendimientos para el periodo de 1989 a 1995. Año Recuperación (cientos de miles de dólares)
1989 1.1
1990 1.5
1991 1.9
1992 2.1
1993 2.4
1994 2.9
1995 3.5
La ecuación de segundo grado que mejor describe la tendencia secular para estos datos es: Yˆ 2.119 0.375x 0.020x2, donde 1992 0, y la unidad de x 1 año
■ 15-21
a) Calcule el porcentaje de tendencia para estos datos. b) Calcule el residuo cíclico relativo para estos datos. c) Grafique el porcentaje de tendencia del inciso a). d) ¿En qué año se presentó la mayor fluctuación en la tendencia? ¿Es ésta la misma para ambos métodos? La tienda departamental BullsEye ha expandido su participación en el mercado durante los últimos 7 años, con las siguientes ventas brutas en millones de dólares: Año Ventas
■ 15-22
1990 14.8
1991 20.7
1992 24.6
1993 32.9
1994 37.8
1995 47.6
1996 51.7
a) Encuentre la ecuación lineal de estimación que mejor describa estos datos. b) Calcule el porcentaje de tendencia para estos datos. c) Calcule el residuo cíclico relativo para estos datos. d) ¿En qué años ocurre la mayor fluctuación desde la tendencia y es la misma para ambos métodos? Joe Honeg, gerente de ventas responsable de la división de aparatos electrodomésticos de una gran compañía de productos de consumo, ha recogido los siguientes datos correspondientes a las v entas unitarias de su división durante los últimos cinco años: Año Unidades (decenas de miles)
1991 32
1992 46
1993 50
1994 66
1995 68
La ecuación que describe la tendencia secular para las ventas de aparatos electrodomésticos es Yˆ 52.4 9.2x, en la que 1993 0, y la unidad de x 1 año
■ 15-23
a) Calcule el porcentaje de tendencia para estos datos. b) Calcule el residuo cíclico relativo para estos datos. c) Grafique el porcentaje de tendencia del inciso a). d) ¿En qué año ocurrió la mayor fluctuación en la tendencia? ¿Es la misma para ambos métodos? Suponga que es el administrador principal de presupuesto de una pequeña empresa cuyos requerimientos de financiamiento durante los últimos años fueron: Año Millones de dólares requeridos
1989 2.2
1990 2.1
1991 2.4
1992 2.6
1993 2.7
1994 2.9
1995 2.8
La ecuación de tendencia que mejor describe los datos es Yˆ 2.53 0.13x, donde 1992 0, y la unidad de x 1 año a) b) c) d) ■ 15-24
Calcule el porcentaje de tendencia para estos datos. Calcule el residuo cíclico relativo para estos datos. ¿En qué año se presentó la mayor fluctuación en la tendencia? ¿Es ésta la misma para ambos métodos? Como administrador principal, ¿qué significaría esta fluctuación para usted y para las actividades que realiza? La Parallel Breakfast Foods tiene datos correspondientes al número de cajas de cereal que ha vendido en cada uno de los últimos 7 años.
15.5: Variación estacional
Año Cajas (decenas de miles)
1989 21.0
1990 19.4
1991 22.6
1992 28.2
1993 30.4
1994 24.0
617
1995 25.0
a) b) c) d) ■ 15-25
Encuentre la ecuación de estimación lineal que mejor describa los datos. Calcule el porcentaje de tendencia para estos datos. Calcule el residuo cíclico relativo para estos datos. ¿En qué año ocurrió la mayor fluctuación de la tendencia con cada medida de la ariación v cíclica? ¿Es este año el mismo para ambas medidas? Explique su respuesta. Wombat Airlines, una aerolínea australiana, ha reunido datos sobre el número de pasajeros que han volado en sus aeronaves durante cada los últimos 5 años: Año Pasajeros (en decenas de miles)
a) b) c) d)
1991 3.5
1992 4.2
1993 3.9
1994 3.8
1995 3.6
Encuentre la ecuación lineal de estimación que mejor describa los datos. Calcule el porcentaje de tendencia para estos datos. Calcule el residuo cíclico relativo para estos datos. Con base en los datos y en los cálculos anteriores, dé un resumen de una oración acerca de la posición en que se encuentra la Wombat Airlines.
Soluciones a los ejercicios de autoevaluación EA
15-3
Año
x
Y
xY
x2
Yˆ
1991 1992 1993 1994 1995
2 1 0 1 02 0
18 20 21 25 026 110
36 20 0 25 052 21
4 1 0 1 04 10
17.8 19.9 22.0 24.1 26.2
Y
100 Yˆ 101.12 100.50 95.45 103.73 99.24
Y Yˆ 100 Yˆ 1.12 0.50 4.55 3.73 0.76
110 xY 21 a) a Y 22 b 2.1 5 x2 10 ˆY 22 2.1x (donde 1993 0 y unidad de x 1 año) b) Vea en la penúltima columna de la tabla el porcentaje de tendencia. c) Vea en la última columna de la tabla el residuo cíclico relativo. d) La fluctuación más grande (por ambos métodos) fue en 1993.
15.5 Variación estacional Definición de variación estacional
Tres razones para el estudio de la variación estacional
Además de la tendencia secular y de la variación cíclica, una serie de tiempo incluye la variación estacional. Este tipo de variación se define como un movimiento repetitivo y predecible alrededor de la línea de tendencia en un año o menos. Con el fin de detectar la variación estacional, los intervalos de tiempo necesitan medirse en unidades pequeñas, como días, semanas, meses o trimestres. Tenemos tres razones principales para el estudio de la variación estacional: 1. Podemos establecer el patrón de cambios pasados. Proporciona una forma de comparar dos intervalos de tiempo que de otro modo serían bastante disímiles. Si una escuela de capacitación de pilotos desea saber si una depresión en los ne gocios durante el mes de diciembre es normal, puede examinar el patrón estacional en los años anteriores y encontrar la información que necesita. 2. Es útil proyectar los patrones pasados al futuro. En el caso de decisiones de largo alcance, el análisis de tendencia secular puede resultar adecuado. Pero para decisiones a corto plazo, la habilidad de pronosticar fluctuaciones estacionales a menudo es esencial. Considere una cadena de venta de alimentos al mayoreo que desea mantener una e xistencia mínima adecuada en
618
CAPÍTULO 15 Series de tiempo y pronósticos
todos sus productos. La habilidad de pronosticar patrones de corto plazo, como la demanda de pavo en Navidad, dulces el Día del Niño o duraznos en v erano, es útil para la administración de la cadena. 3. Una vez establecido el patrón estacional existente, podemos eliminar sus efectos de la serie de tiempo. Este ajuste nos permite calcular la variación cíclica que se lleva a cabo cada año. Cuando eliminamos el efecto de la variación estacional de una serie de tiempo, hemos desestacionalizado la serie.
Método de razón de promedio móvil Uso del método de razón de promedio móvil para medir la variación estacional
Con el fin de medir la variación estacional, es común usar el método de razón de promedio móvil. Esta técnica proporciona un índice que describe el grado de variación estacional. El índice está basado en una media de 100, con el grado de estacionalidad medido por las v ariaciones respecto a la base. Por ejemplo, si examinamos la estacionalidad de la renta de canoas en un hotel de veraneo, podríamos encontrar que el índice del trimestre de primavera es 142. El valor 142 indica que el 142% de las rentas trimestrales promedio ocurre en primavera. Si la administración registró 2,000 rentas de canoas durante todo el año anterior , entonces la renta promedio por trimestre será 2,000/4 500. Como el índice del trimestre de primavera es 142, estimamos el número de alquileres de canoas de la forma siguiente: Índice del trimestre de primavera
Rentas promedio por trimestre
Un ejemplo del método de razón de promedio móvil
Paso 1: Calcule el total móvil de 4 trimestres
↓ 142 Renta estacionalizada → 500 710 ← del trimestre de primavera 100
El ejemplo con que abrimos el capítulo puede ilustrar el método de razón de promedio móvil. El hotel de v eraneo desea establecer el patrón estacional de demanda de cuartos por parte de sus clientes. La administración desea mejorar el servicio al cliente y está considerando varios planes de contratación de personal durante los periodos pico. La tabla 15-9 presenta la ocupación por trimestre, es decir, el número promedio de huéspedes durante cada trimestre de los últimos cinco años. Nos referiremos a la tabla 15-9 para exponer los seis pasos requeridos para el cálculo de un índice estacional. 1. El primer paso en el cálculo de un índice estacional consiste en calcular el total móvil de 4 trimestres para la serie de tiempo. Para hacerlo, calculamos el total de los valores para los trimestres durante el primer año, 1991 en la tabla 15-9: 1,861 2,203 2,415 1,908 8,387. Un total móvil se asocia con el dato que ocupa el lugar medio del conjunto de v alores del cual fue calculado. Como nuestro primer total de 8,387 se calculó a partir de cuatro datos, lo colocamos frente al punto medio de esos trimestres, de modo que queda en la columna 4 de la tabla 15-10, entre los renglones 1991-II y 1991-III. 1. Encontramos el siguiente total móvil eliminando el valor de 1991-I, 1,861, y agregando el de 1992-I, 1,921. Al eliminar el primer valor y agregar el quinto, nos quedamos con cuatro trimestres en el total. Los cuatro valores sumados ahora son 2,203 2,415 1,908 1,921 8,447. Tabla 15-9 Serie de tiempo para la ocupación del hotel
Año
I
1991 1992 1993 1994 1995
1,861 1,921 1,834 1,837 2,073
Número de huéspedes por trimestre II III 2,203 2,343 2,154 2,025 2,414
2,415 2,514 2,098 2,304 2,339
IV 1,908 1,986 1,799 1,965 1,967
15.5: Variación estacional
Paso 2: Calcule el promedio móvil de los 4 trimestres Paso 3: Centre el promedio móvil de 4 trimestres
619
Este total se coloca en la tabla 15-10 justo debajo del primer total trimestral, 8,347. Continuamos con este procedimiento de “deslizar” el total de 4 trimestres por la serie de tiempo hasta incluir el último valor de la serie. En el ejemplo,corresponde a las 1,967 habitaciones del cuarto trimestre de 1995, el último número de la columna 3 de la tabla. El último elemento de la columna de totales móviles es 8,793. Se encuentra entre los renglones de los trimestres 1995-II y 1995-III, ya que se calculó con los datos de los 4 trimestres de 1995. 2. En el segundo paso, calculamos el promedio móvil de los 4 trimestres, dividiendo entre 4 cada uno de los totales. En la tabla 15-10, dividimos entre 4 los valores que se encuentran en la columna 4, para obtener los valores de la columna 5. 3. En el tercer paso, centramos el promedio móvil de 4 trimestres. Los promedios móviles de la columna 5 caen a la mitad de los trimestres.Tal vez sería mejor tener promedios móviles asociados a cada trimestre. Con el f in de centrar nuestros promedios móviles, asociamos a cada trimestre el promedio de los dos promedios móviles de 4 trimestres que caen justo arriba y abajo de éste. Para el trimestre 1991-III, el promedio móvil centrado de 4 trimestres resultante es 2,104.25, es decir (2,096.75 2,111.75)/2. Los otros elementos de la columna 6 se calculan de la misma forma. En la figura 15-7 se ilustra cómo el promedio móvil suaviza los picos y los valles de la serie de tiempo original. Las componentes estacional e irregular se suavizaron, y la línea punteada resultante, representa las componentes cíclicas y de tendencia de la serie.
Tabla 15-10 Cálculo del promedio móvil centrado de 4 trimestres
Año (1)
Trimestre (2)
Ocupación (3)
1991
I II III IV
1,861 2,203 2,415 1,908
1992
I II III IV
1,921 2,343 2,514 1,986
1993
I II III IV
1,834 2,154 2,098 1,799
1994
I II III IV
1,837 2,025 2,304 1,965
1995
I II III IV
2,073 2,414 2,339 1,967
Paso 1: Total móvil de 4 trimestres (4)
Paso 2: Promedio móvil de los 4 trimestres (5) (4) 4
8,387 8,447
2,096.75 2,111.75
8,587 8,686 8,764 8,677
2,146.75 2,171.50 2,191.00 2,169.25
8,488 8,072 7,885 7,888
2,122.00 2,018.00 1,971.25 1,972.00
7,759 7,965 8,131 8,367
1,939.75 1,991.25 2,032.75 2,091.75
8,756 8,791 8,793
2,189.00 2,197.75 2,198.25
Paso 3: Promedio móvil centrado de 4 trimestres (6)
Paso 4: Porcentaje del valor real respecto al promedio móvil (3) (7) 100 (6)
2,104.250 2,129.250
114.8 89.6
2,159.125 2,181.250 2,180.125 2,145.625
89.0 107.4 115.3 92.6
2,070.000 1,994.625 1,971.625 1,955.875
88.6 108.0 106.4 92.0
1,965.500 2,012.000 2,062.250 2,140.375
93.5 100.6 111.7 91.8
2,193.375 2,198.000
94.5 109.8
620
CAPÍTULO 15 Series de tiempo y pronósticos
Algunas veces, es posible omitir el paso 3
Paso 4: Calcule el porcentaje del valor real respecto al valor del promedio móvil
Paso 5: Reúna las repuestas del paso 4 y calcule la medida modificada
Reducción de variaciones cíclica e irregular extremas
3.
Suponga que trabajamos con los datos de admisión de la sala de urgencias de un hospital, y deseamos calcular los índices diarios. En los pasos 1 y 2,calculamos los totales móviles y los promedios móviles de 7 días, y los promedios móviles ya quedan centrados (debido a que el punto medio de un periodo de 7 días es el cuarto día). En este caso, el paso 3 no es necesario. Siempre que el número de periodos para los cuales queremos obtener índices sea impar (7 días en una semana, 3 turnos en un día), podemos omitir el paso 3. Sin embargo, cuando el número de periodos es par (4 trimestres, 12 meses, 24 horas), entonces debemos seguir el paso 3 para centrar los promedios móviles obtenidos en el paso 2. 4. Enseguida, calculamos el porcentaje del valor real con respecto al valor del promedio móvil para cada trimestre de la serie de tiempo que tenga un elemento de promedio móvil de 4 trimestres. Este paso nos permite recuperar la componente estacional para los trimestres. Determinamos este porcentaje di vidiendo cada uno de los v alores trimestrales reales de la columna 3 de la tabla 15-10 entre los valores correspondientes del promedio móvil centrado de 4 trimestres que se encuentran en la columna 6,y luego multiplicamos el resultado por 100. Por ejemplo, encontramos que el porcentaje correspondiente a 1991-III es: Real 2,415 100 100 Promedio móvil 2,104.250 114.8 5. Para reunir todos los porcentajes de los valores reales respecto a los valores del promedio móvil de la columna 7 de la tabla 15-10, organícelos por trimestre. Luego calcule la media modificada para cada trimestre. Esta media modificada se calcula descartando los valores más alto y más bajo de cada trimestre y promediando los valores restantes. La tabla 15-11 presenta el quinto paso y el proceso para encontrar la media modificada. 3. Los valores estacionales recuperados de los trimestres, datos en la columna 7 de la tabla 15-10, todavía contienen las componentes cíclica e irregular de la variación de la serie de tiempo. Al eliminar los valores más alto y más bajo de cada trimestre,reducimos las variaciones cíclica e irregular extremas. Cuando promediamos los valores restantes, suavizamos todavía más estas componentes. Las variaciones cíclica e irregular tienden a ser eliminadas mediante este proceso, de modo que la media modificada es un índice de la componente estacional. (Algunos estadísticos prefieren utilizar la mediana en lugar de calcular la media modificada para obtener el mismo resultado.) 2,500 2,400
Serie de tiempo original
Ocupantes por trimestre
2,300 2,198
2,200 2,100 2,000 Promedio móvil centrado del cuarto trimestre (columna 6 de la tabla 15-10)
1,900 1,800
FIGURA 15-7 Uso de un promedio móvil para suavizar la serie de tiempo original
1,700
I
II III IV 1991
I
II III IV 1992
I
II III IV
I
1993
II III IV 1994
Tiempo
I
II III IV 1995
I
II III IV 1996
15.5: Variación estacional
Paso 6: Ajuste la media modificada
621
6. El paso final que se muestra en la tabla 15-12 es un ligero ajuste de la media modificada. Note que los cuatro índices de la tabla 15-11 dan un total de 404.1. Sin embargo, la base de un índice es 100. Entonces, los cuatro índices trimestrales deben dar un total de 400 y su media debe ser 100. Para corregir este error, multiplicamos cada uno de los índices trimestrales de la tabla 15-11 por una constante de ajuste. Este número se encuentra dividiendo la suma deseada de los índices (400) entre la suma real (404.1). En este caso, el resultado es 0.9899. En la tabla 15-12 se ve que multiplicar los índices por la constante de ajuste hace que den un total de 400. (En ocasiones, incluso después de haber hecho este ajuste, la media de los índices estacionales no es exactamente 100, debido a los errores de redondeo acumulados. Sin embar go, en este caso la media es exactamente 100.) Tabla 15-11
Año
Trimestre I
Trimestre II
Trimestre III
Trimestre IV
Procedimiento seguido en el paso 5 para calcular un índice estacional*
1991 1992 1993 1994 1995
— 89.0 88.6 93.5 094.5 182.5
— 107.4 108.0 100.6 109.8 215.4
114.8 115.3 106.4 111.7 .0— 0 226.5
89.6 92.6 92.0 91.8 .0— 0 183.8
Media modificada: 182.5 Trimestre I: 91.25 2 215.4 Trimestre II: 107.70 2 226.5 Trimestre III: 113.25 2 183.8 Trimestre IV: 91.90 2 Total de índices 404.1 *Los valores eliminados están tachados con una diagonal.
Tabla 15-12 Procedimiento para el paso 6
Trimestre
Índices desajustados
Constante de ajuste
Índice estacional
I II III IV
91.25 107.70 113.25 91.90
0.9899 0.9899 0.9899 0.9899 Total de los índices estacionales
90.3 106.6 112.1 ,091.0 400.0
400 Media de los índices 4 100.0
Usos del índice estacional Desestacionalización de una serie de tiempo
El método de razón del promedio móvil que acabamos de estudiar, nos permite identificar la variación estacional de una serie de tiempo. Los índices estacionales se utilizan para eliminar los efectos de estacionalidad de una serie de tiempo.A este proceso se le denomina desestacionalización de una serie de tiempo. Antes de poder identificar la componente de tendencia o la cíclica de una serie de tiempo, es necesario eliminar la variación estacional. Para desestacionalizar una serie de tiempo, di-
622
CAPÍTULO 15 Series de tiempo y pronósticos
Procedimiento para desestacionalizar datos
Uso de la estacionalidad para pronosticar
100 Índice estacional
Año (1)
Trimestre (2)
Ocupación real (3)
1991
I
1,861
100
2,061
1991
II
2,203
100
2,067
1991
III
2,415
100
2,154
1991
IV
1,908
100
2,097
Tabla 15-13
Ocupación desestacionalizada (5) (3) (4)
(4) 90.3
106.6
112.1
91.0
vidimos cada uno de los v alores reales de la serie entre el índice estacional adecuado (e xpresado como una fracción de 100). Para describir el procedimiento, se hará la desestacionalización del valor de los primeros cuatro trimestres de la tabla 15-9. En la tabla 15-13, se presenta el proceso de desestacionalización utilizando los valores de los índices estacionales de la tabla 15-12. Una v ez eliminado el efecto estacional, los valores desestacionalizados que quedan solamente reflejan las componentes de tendencia, cíclica e irregular de la serie de tiempo. Una vez eliminada la variación estacional, calculamos una línea de tendencia desestacionalizada, que luego podemos proyectar al futuro. Suponga que la administración del hotel de nuestro ejemplo estima, a partir de una línea de tendencia desestacionalizada,que la ocupación promedio desestacionalizada para el cuarto trimestre del año siguiente será de 2,121. Cuando se obtiene esta predicción, la administración debe tomar en consideración el efecto de las estaciones. Para ello, se multiplica la ocupación promedio desestacionalizada predicha, 2,121, por el índice estacional del cuarto trimestre (expresado como fracción de 100) para obtener una estimación estacionalizada de 1,930 cuartos de ocupación promedio para el cuarto trimestre: Índice estacional para el cuarto trimestre
↓ 91.0 Valor desestacionalizado estimado de la línea de tendencia → 2,121 1,930 ← 100 Utilizar los índices estacionales para ajustar los datos por mes y por trimestre ayuda a detectar la tendencia secular subyacente. Advertencia: la mayor parte de las cifras reportadas no dicen cuánto ajuste estacional se usó y en algunas decisiones administrati vas esta información que falta es valiosa. Por ejemplo, si un departamento de control de v ehículos estatal informa que el re gistro de SUGERENCIAS Y SUPOSICIONES
Estimación estacionalizada de la ocupación en el cuarto semestre
vehículos nuevos el mes pasado fue 25,000 con unatasa de ajuste estacional, ¿cómo puede pronosticar la demanda del próximo mes un distribuidor de refacciones para automóviles, como tapetes a la medida, sin saber el número real de autos nuevos? A menudo, con propósitos de planeación interna, es útil conocer tanto las cifras ajustadas como las no ajustadas.
Ejercicios 15.5 Ejercicio de autoevaluación EA
15-4
Utilice los siguientes porcentajes del promedio real respecto al promedio móvil que describen el flujo de efectivo trimestral en el Village Bank de Carrboro, N.C. durante un periodo de 4 años, para calcular el índice estacional para cada trimestre.
15.5: Variación estacional
1992 1993 1994 1995
Primavera
Verano
Otoño
Invierno
87 85 84 88
106 110 105 104
86 83 87 88
125 127 128 124
623
Aplicaciones ■ 15-26
El dueño de la empresa The Pleasure-Glide Boat ha recopilado las siguientes cifras trimestrales del nivel de cuentas por cobrar durante los últimos 5 años (miles de dólares):
1991 1992 1993 1994 1995
■ 15-27
■ 15-29
Verano
Otoño
Invierno
102 110 111 115 122
120 126 128 135 144
90 95 97 103 110
78 83 86 91 98
a) Calcule un promedio móvil centrado de 4 trimestres. b) Encuentre el porcentaje de valores reales respecto al promedio móvil para cada periodo. c) Determine los índices estacionales y los índices estacionales modificados. Marie Wiggs, directora de personal de una compañía farmacéutica registró las siguientes tasas de ausentismo porcentual para cada trimestre de un periodo de 4 años:
1992 1993 1994 1995
■ 15-28
Primavera
Primavera
Verano
Otoño
Invierno
5.6 5.7 5.3 5.4
6.8 6.7 6.6 6.9
6.3 6.4 6.1 6.2
5.2 5.4 5.1 5.3
a) Elabore un promedio móvil centrado de 4 trimestres y grafíquelo junto con los datos originales. b) ¿Qué puede concluir acerca del ausentismo en el inciso a)? Utilice los siguientes porcentajes de promedios reales respecto a los promedios móviles que describen las ventas estacionales de artículos deportivos en un periodo de 5 años, para calcular el índice estacional de cada estación. Año
Béisbol
Fútbol
Básquetbol
Jockey
1992 1993 1994 1995 1996
96 92 84 97 91
128 131 113 118 121
116 125 117 126 124
77 69 84 89 81
Un fabricante importante de resortes para automóvil ha determinado los siguientes porcentajes de promedio real respecto al promedio móvil que describen las necesidades trimestrales de dinero en efectivo de la compañía para los 6 años anteriores:
1990 1991 1992 1993 1994 1995
Primavera
Verano
Otoño
Invierno
108 112 109 110 108 106
128 132 134 131 135 129
94 88 84 90 89 93
70 68 73 69 68 72
Calcule el índice estacional para cada trimestre. Comente su comparación con los índices que calculó en el ejercicio 15-26.
624
CAPÍTULO 15 Series de tiempo y pronósticos
■ 15-30
■ 15-31
■ 15-32
El jefe de admisiones de una uni versidad ha recabado las siguientes cifras correspondientes a los ingresos por trimestre para los 5 años anteriores (cientos): Primavera
Verano
Otoño
Invierno
1991
220
203
193
84
1992
235
208
206
76
1993
236
206
209
73
1994
241
215
206
92
1995
239
221
213
115
a) Calcule un promedio móvil centrado de 4 trimestres. b) Encuentre el porcentaje del promedio real respecto al promedio móvil para cada periodo. c) Determine los índices estacionales y los índices estacionales modificados. El hotel Ski and Putt Resort, una combinación de montañas para esquiar y campo de golf, acaba de tabular los datos del número de clientes (en miles) que ha tenido durante cada estación en los últimos 5 años. Calcule el índice estacional para cada trimestre. Si el hotel contrata 15 personas en el v erano, ¿cuál deberá ser el número de empleados en el invierno, suponiendo que ambos deportes tienen iguales requerimientos de servicio? Primavera
Verano
Otoño
Invierno
1991
200
300
125
325
1992
175
250
150
375
1993
225
300
200
450
1994
200
350
225
375
1995
175
300
200
350
David Curl Builders recolectó datos trimestrales del número de casas que comenzó a construir durante los últimos 5 años. Primavera
Verano
Otoño
Invierno
1991
8
10
7
5
1992
9
10
7
6
1993
10
11
7
6
1994
10
12
8
7
1995
11
13
9
8
a) Calcule el índice estacional para cada trimestre. b) Si las necesidades de capital de trabajo de la constructora tienen una relación directa con el número de casas, ¿cuánto debe disminuir su capital de trabajo entre verano e invierno?
Solución al ejercicio de autoevaluación EA
15-4
Año
Primavera
Verano
Otoño
Invierno
1992
87
106
86
125
1993
85
110
83
127
1994
84
105
87
128
1995
88
104
88
124
Suma modificada
172
211
173
Media modificada
86
105.5
86.5
252 126
Índice estacional 85.15 104.46 85.64 124.75 La suma de las medias modificadas fue 404, de manera que el factor de ajuste fue 400/404 0.9901. Los índices estacionales se obtuvieron multiplicando las medias modificadas por este factor.
15.7: Problema que incluye a las cuatro componentes de una serie de tiempo
625
15.6 Variación irregular Dificultad para manejar la variación irregular
La última componente de una serie de tiempo es la avriación irregular. Después de eliminar las variaciones de tendencia, cíclica y estacional de una serie de tiempo, todavía queda un factor impredecible. Por lo común, la variación irregular se presenta en intervalos cortos y sigue un patrón aleatorio. Debido a lo impredecible de la variación irregular, no tenemos la intención de intentar describirla de manera matemática. Sin embargo, a menudo podemos aislar sus causas. Por ejemplo, la crisis financiera en la ciudad de Nueva York en 1975 fue un factor irregular que deprimió severamente el mercado de bonos municipales. En 1984, las temperaturas inusualmente bajas que se presentaron a finales de diciembre en los estados sureños de la Unión Americana fueron un f actor irregular que aumentó significativamente el consumo de electricidad y de combustibles. La Guerra del Golfo Pérsico de 1991 fue otro factor irregular que hizo aumentar significativamente el número de viajes por aire y mar durante meses,a medida que se trasladaban tropas y suministros al lugar del conflicto. Sin embargo, no todas las causas de la variación irregular se pueden identificar con tanta facilidad. Un factor que permite a los administradores manejar la variación irregular es que, con el tiempo, estos movimientos aleatorios tienden a contrarrestarse entre sí.
Advertencia: la variación irregular es muy importante, pero no se explica matemáticamente. Es “lo que queda” después de eliminar la v ariación por tendencia, cíclica y estacional de una serie de tiempo. En la mayoría de los casos, es difícil, si no imposible, pronosticar la variaSUGERENCIAS Y SUPOSICIONES
ción irregular y nunca se intenta “ajustar una línea”para explicarla. Sugerencia: a menudo se encontrará variación irregular reconocida con un pie de página o un comentario e n una gráfica. Ejemplos de esto serían “mercado cerrado por el día del trabajo” o “la Semana Santa cayó en marzo este año en lugar de abril”.
Ejercicios 15.6 Conceptos básicos ■ 15-33 ■ 15-34
■ 15-35 ■ 15-36
¿Por qué no proyectamos la variación irregular al futuro? ¿Cuáles de los siguientes incisos ilustran variaciones irregulares? a) Una sequía larga que lleva a aumentar los precios de los alimentos. b) El efecto de la nieve sobre el negocio del esquí. c) Descuento, por única vez, en los impuestos federales para la adquisición de casas nuevas. d) El colapso en los precios del petróleo crudo al inicio de 1986. e) La reducción del uso de energía después del embargo petrolero de 1973. Haga una lista de cinco variaciones irregulares en series de tiempo con las que se encuentra como parte de su rutina diaria. ¿Qué permite a los administradores manejar la variación irregular en las series de tiempo?
15.7 Problema que incluye a las cuatro componentes de una serie de tiempo Para analizar un problema que involucra las cuatro componentes de una serie de tiempo, veremos el caso de una compañía que se especializa en la producción de equipo para recreación. Para pronosticar las ventas con base en sus patrones de ventas históricas, la compañía ha recolectado la información de la tabla 15-14. El procedimiento para describir esta serie de tiempo consistirá en tres etapas:
626
CAPÍTULO 15 Series de tiempo y pronósticos
1. Desestacionalización de la serie de tiempo 2. Desarrollo de la línea de tendencia 3. Búsqueda de la variación cíclica alrededor de la línea de tendencia Paso 1: Cálculo de índices estacionales
Búsqueda de los valores desestacionalizados
Como los datos están disponibles por trimestre,primero debemos desestacionalizar la serie de tiempo. Los pasos para hacerlo se muestran en las tablas 15-15 y 15-16. Estos pasos son los mismos que introdujimos en la sección 15-5. En la tabla 15-15 se tabularon los primeros cuatro pasos para el cálculo del índice estacional. En la tabla 15-16 completamos el proceso. Una vez calculados los índices estacionales trimestrales, podemos encontrar los valores desestacionalizados de la serie de tiempo dividiendo las ventas reales (tabla 15-14) entre los índices estacionales. La tabla 15-17 da el cálculo de los valores desestacionalizados de la serie de tiempo.
Tabla 15-14 Año Ventas trimestrales
Ventas por trimestre (decenas de miles de dólares) I II III IV
1991 1992 1993 1994 1995
16 15 17 17 18
21 20 24 25 26
9 10 13 11 14
18 18 22 21 25
Tabla 15-15 Cálculo de los primeros cuatro pasos para obtener el índice estacional
Año (1)
Trimestre (2)
Ocupación (3)
1991
I II III IV
16 21 9 18
1992
I II III IV
15 20 10 18
1993
I II III IV
17 24 13 22
1994
I II III IV
17 25 11 21
1995
I II III IV
18 26 14 25
Paso 1: Total móvil de 4 trimestres (4)
Paso 2: Promedio móvil de los 4 trimestres (4) (5) 4
64 63
16.00 15.75
62 63 63 65
15.50 15.75 15.75 16.25
69 72 76 76
17.25 18.00 19.00 19.00
77 75 74 75
19.25 18.75 18.50 18.75
76 79 83
19.00 19.75 20.75
Paso 3: Promedio móvil centrado de 4 trimestres (6)
Paso 4: Porcentaje del valor real respecto al promedio móvil (3) (7) 100 (6)
15.875 15.625
56.7 115.2
15.625 15.750 16.000 16.750
96.0 127.0 62.5 107.5
17.625 18.500 19.000 19.125
96.5 129.7 68.4 115.0
19.000 18.625 18.625 18.875
89.5 134.2 59.1 111.3
19.375 20.250
92.9 128.4
15.7: Problema que incluye a las cuatro componentes de una serie de tiempo
Paso 2: Desarrollo de la línea de tendencia utilizando el método de mínimos cuadrados
627
El segundo paso para describir las componentes de la serie de tiempo consiste en desarrollar la línea de tendencia. Para ello aplicamos el método de mínimos cuadrados a la serie de tiempo desestacionalizada (después de haber traducido la variable estacional). La tabla 15-18 presenta los cálculos necesarios para identificar la componente de tendencia. Con los valores de la tabla 15-18, podemos encontrar la ecuación de la tendencia. De las ecuaciones 15-3 y 15-4, encontramos la pendiente y la ordenada Y de la recta de tendencia de la siguiente manera: xY b [15-3] x2 420.3 2,660 0.16 a Y [15-4] 18.0 La línea de tendencia apropiada se describe utilizando la ecuación de la recta (ecuación 12-3), con x en lugar de X: Yˆ a bx [12-3] 18 0.16x Paso 5*
Tabla 15-16 Año Pasos 5 y 6 en el cálculo del índice estacional
1991 1992 1993 1994 1995
I — 96.0 96.5 89.5 092.9 Suma modificada 188.9
II
III
IV
— 127.0 129.7 134.2 128.4 258.1
56.7 62.5 68.4 59.1 0—0 121.6
115.2 107.5 115.0 111.3 0—0 226.3
Media modificada: Trimestre I:
188.9 94.45 2
II:
258.1 129.05 2
III:
121.6 60.80 2
IV:
226.3 113.15 2 397.45
Paso 6† 400 Factor de ajuste = 1.0064 397.45
*
Trimestre
Índices
Factor de ajuste
Suma de índices
I II III IV
94.45 129.05 60.80 113.15
1.0064 1.0064 1.0064 1.0064 Suma de índices estacionales
95.1 129.9 61.2 113.9 400.1
Ordene los porcentajes de la columna 7, tabla 15-15, por trimestre y encuentre la media modificada.
**
Corrección de los índices del paso 5.
628
CAPÍTULO 15 Series de tiempo y pronósticos
Paso 3: Búsqueda de la variación cíclica
Suposiciones acerca de la variación irregular
Predicciones utilizando una serie de tiempo
Paso 1: Determinación del valor desestacionalizado de las ventas para el periodo deseado
Se han identificado las componentes estacional y de tendencia de la serie de tiempo. A continuación, encontraremos la variación cíclica alrededor de la línea de tendencia. Esta componente se identifica midiendo la variación desestacionalizada alrededor de la línea de tendencia. En este problema, calcularemos la variación cíclica en la tabla 15-19, usando el método de residuos. Si suponemos que la variación irregular es, en general, de corto plazo y relativamente insignificante, hemos descrito por completo la serie de tiempo de este problema utilizando las componentes de tendencia, estacional y cíclica. En la figura 15-8 ilustramos la serie de tiempo original,su promedio móvil (que contiene tanto la componente de tendencia como la cíclica) y la línea de tendencia. Ahora, suponga que la administración del complejo de veraneo que hemos usado como ejemplo desea estimar el volumen de ventas para el tercer trimestre de 1996. ¿Qué debe hacer la administración? 1. Debe determinarse el v alor desestacionalizado de las v entas del tercer trimestre de 1996, mediante la ecuación de tendencia, Yˆ 18 0.16x. Esto requiere la codificación del tiempo, 1996-III. Ese trimestre (1996-III) es tres trimestres después de 1995-IV que, como se ve en la tabla 15-18, tiene un valor de tiempo codificado de 19. Sumando 2 por cada trimestre, la administración encuentra que x 19 2(3) 25. Sustituyendo este valor (x 25) en la ecuación de tendencia se produce el siguiente resultado: Yˆ a bx 18 0.16(25) 18 4 22 Así, la estimación de ventas desestacionalizada para 1993-III es $220,000. Este punto se señala sobre la línea de tendencia en la figura 15-8.
Año (1)
Trimestre (2)
Ventas reales (3)
Índice estacional 100 (4)
Ventas desestacionalizadas (5) (3) (4)
1991
I II III IV
16 21 9 18
0.951 1.299 0.612 1.139
16.8 16.2 14.7 15.8
1992
I II III IV
15 20 10 18
0.951 1.299 0.612 1.139
15.8 15.4 16.3 15.8
1993
I II III IV
17 24 13 22
0.951 1.299 0.612 1.139
17.9 18.5 21.2 19.3
1994
I II III IV
17 25 11 21
0.951 1.299 0.612 1.139
17.9 19.2 18.0 18.4
1995
I II III IV
18 26 14 25
0.951 1.299 0.612 1.139
18.9 20.0 22.9 21.9
Tabla 15-17 Cálculo de los valores desestacionalizados de la serie de tiempo
629
15.7: Problema que incluye a las cuatro componentes de una serie de tiempo
Tabla 15-18 Identificación de la componente de tendencia
Y Ventas desestacionalizadas (1/2 x) (columna 5 de la tabla Traducción o 15-17) (decenas de codificación de la miles de dólares) variable estacional (3) (4)
x (5) (4) 2
xY (6) (5) (3)
x2 (7) (5)2
9 1/2 8 1/2 7 1/2 6 1/2
19 17 15 13
319.2 275.4 220.5 205.4
361 289 225 169
15.8 15.4 16.3 15.8
5 1/2 4 1/2 3 1/2 2 1/2
11 9 7 5
173.8 138.6 114.1 79.0
121 81 49 25
I II
17.9 18.5
3 1
53.7 18.5
9 1
III IV
21.2 19.3
1 1/2 1/2 0* 1 /2 1 1/2
1 3
21.2 57.9
1 9
1994
I II III IV
17.9 19.2 18.0 18.4
2 1/2 3 1/2 4 1/2 5 1/2
5 7 9 11
89.5 134.4 162.0 202.4
25 49 81 121
1995
I II III IV
18.9 20.0 22.9 21.9 Y 360.9
6 1/2 7 1/2 8 1/2 9 1/2
13 15 17 19
245.7 300.0 389.3 0000000416.1 xY 420.3
169 225 289 00000000361 x 2 2,660
Año (1)
Trimestre (2)
1991
I II III IV
16.8 16.2 14.7 15.8
1992
I II III IV
1993 Media
Y Yˆ n Y
360.9 20
Y 18.0 *Asignamos la media de cero al valor en la mitad de los datos (1993-II 1/2) y luego medimos el tiempo traducido, x, por medios trimestres, debido a que tenemos un número par de periodos.
Paso 2: Estacionalización de la estimación inicial
2. Ahora la administración debe estacionalizar esta estimación multiplicándola por el índice estacional correspondiente al tercer trimestre, expresado como una fracción de 100: Índice estacional para el trimestre III tomado del paso 6 de la tabla 15-16
↓ 61.2 Estimación de tendencia obte→ 22 13.5 ← nida con la ecuación 12-3 100 Precaución al utilizar la predicción
Estimación estacionalizada
Con base en este análisis, la compañía estima que las v entas para el trimestre 1996-III serán de $135,000. Debemos aclarar, sin embargo, que este valor es solamente una estimación y no toma en cuenta las componentes cíclica e irre gular. Como hicimos notar, la variación irregular no se puede pronosticar matemáticamente. Recuerde también que el manejo de la variación cíclica fue meramente una descripción del comportamiento pasado y no un pronóstico del comportamiento futuro.
630
CAPÍTULO 15 Series de tiempo y pronósticos
Año (1)
Trimestre (2)
Y Ventas desestacionalizadas (columna 5, tabla 15-17) (3)
1991
I II III IV
16.8 16.2 14.7 15.8
18 0.16 (19) 14.96 18 0.16 (17) 15.28 18 0.16 (15) 15.60 18 0.16 (13) 15.92
112.3 106.0 94.2 99.2
1992
I II III IV
15.8 15.4 16.3 15.8
18 0.16 (11) 16.24 18 0.16 ( 9) 16.56 18 0.16 ( 7) 16.88 18 0.16 ( 5) 17.20
97.3 93.0 96.6 91.9
1993
I II III IV
17.9 18.5 21.2 19.3
18 0.16 ( 3) 17.52 18 0.16 ( 1) 17.84 18 0.16 ( 1) 18.16 18 0.16 ( 3) 18.48
102.2 103.7 116.7 104.4
1994
I II III IV
17.9 19.2 18.0 18.4
18 0.16 ( 5) 18.80 18 0.16 ( 7) 19.12 18 0.16 ( 9) 19.44 18 0.16 ( 11) 19.76
95.2 100.4 92.6 93.1
1995
I II III IV
18.9 20.0 22.9 21.9
18 0.16 ( 18 0.16 ( 18 0.16 ( 18 0.16 (
94.1 98.0 110.5 104.1
Tabla 15-19 Identificación de la variación cíclica
a bx Yˆ * (4)
Y 100 Yˆ Porcentaje de tendencia (3) (15) 100 (4)
13) 20.08 15) 20.40 17) 20.72 19) 21.04
Serie de tiempo, línea de tendencia y promedio móvil centrado de 4 trimestres para los datos de ventas trimestrales de la tabla 15-14
Serie de tiempo de la tabla 15-14 (las cuatro componentes)
26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9
Yˆ = 18 + 0.16x (sólo la tendencia)
Estimación de ventas desestacionalizadas para 1996-III ($220,000)
Promedio móvil centrado de 4 trimestres (componentes de tendencia y cíclica)
x=0
I
II III IV I
II III IV I
II III IV I
II III IV I
II III IV I
II III IV
{ { { { { {
FIGURA 15-8
Ventas (decenas de miles de dólares)
*El valor apropiado de x en esta ecuación se obtiene de la columna 5 de la tabla 15-18.
1991
1992
1993
1994
1995
1996
15.7: Problema que incluye a las cuatro componentes de una serie de tiempo
Un análisis completo de la serie de tiempo intenta explicar la tendencia secular, la variación cíclica y la variación estacional. Lo que queda es la variación irregular. Advertencia: aun el mejor análisis de series de tiempo describe el comportamiento anteriory puede no pronosticar SUGERENCIAS Y SUPOSICIONES
631
el comportamiento futuro. Sugerencia:la manera correcta de proceder al analizar todas las componentes de una serie de tiempo es primero desestacionalizar la serie de tiempo, después encontrar la línea de tendencia,luego calcular la variación alrededor de la línea de tendencia y , por último, identificar la variación irregular en lo que queda.
Ejercicios 15.7 Ejercicio de autoevaluación EA
15-5
Una comisión estatal designada para controlar el consumo de energía reunió los siguientes datos correspondientes al consumo de gas natural, en millones de pies cuadrados: Año
Invierno
Primavera
Verano
Otoño
1992 1993 1994 1995
293 301 304 306
246 252 259 265
231 227 239 240
282 291 296 300
a) Determine los índices estacionales y desestacionalice estos datos (usando un promedio móvil centrado de 4 trimestres). b) Calcule la recta de mínimos cuadrados que mejor describa esos datos. c) Identifique la variación cíclica de los datos con el método del residuo cíclico relativo. d) Represente gráficamente los datos originales, los datos desestacionalizados y la tendencia.
Aplicaciones 15-37
■ 15-38
Una agencia de ecología ha observado la calidad del aire en Nueva York durante 5 años y ha reunido los siguientes datos estacionales respecto a los contaminantes (en partes por millón) en el aire. Año
Invierno
Primavera
Verano
Otoño
1992 1993 1994 1995 1996
452 474 494 506 527
385 397 409 429 454
330 356 375 398 421
385 399 415 437 482
a) Determine los índices estacionales y desestacionalice estos datos (usando un promedio móvil centrado de 4 trimestres). b) Calcule la recta de mínimos cuadrados que mejor describa estos datos. c) Identifique la variación cíclica en estos datos con el método de residuos cíclicos relativos. d) Grafique los datos originales, los datos desestacionalizados y la tendencia. Los siguientes datos describen el desempeño de comercialización de un productor regional de cerveza: Ventas por trimestre (cientos de miles de dólares) II III IV
Año
I
1991 1992 1993 1994
19 21 23 24
24 28 31 35
38 44 41 48
25 23 23 21
a) Calcule los índices estacionales para estos datos. (Utilice un promedio móvil centrado de 4 trimestres.) b) Desestacionalice estos datos utilizando los índices del inciso a).
632
CAPÍTULO 15 Series de tiempo y pronósticos
■ 15-39
Para el ejercicio 15-38: a) Encuentre la recta de mínimos cuadrados que mejor describa la tendencia en las ventas desestacionalizadas de cerveza. b) Identifique la componente cíclica en esta serie de tiempo calculando el porcentaje de tendencia.
Solución al ejercicio de autoevaluación EA
15-5
a) Año
Trimestre
Uso real de gasolina
1992
Invierno Primavera Verano Otoño Invierno Primavera Verano Otoño Invierno Primavera Verano Otoño Invierno Primavera Verano Otoño
293 246 231 282 301 252 227 291 304 259 239 296 306 265 240 300
1993
1994
1995
Promedio móvil 4 trimestres
Promedio móvil centrado
263.00 265.00 266.50 265.50 267.75 268.50 270.25 273.25 274.50 275.00 276.50 276.75 277.75
Año
Invierno
1992 1993 1994 1995 Suma modificada Índice estacional
113.16 111.87 110.62 111.87 111.66
Porcentaje de promedio real respecto al promedio móvil
264.000 265.750 266.000 266.625 268.125 269.375 271.750 273.875 274.750 275.750 276.625 277.250
087.50 106.11 113.16 094.51 084.66 108.03 111.87 094.57 086.99 107.34 110.62 095.58
Primavera
94.51 94.57 95.58 94.57 94.39
Índice estacional
Uso desestacionalizado
111.66 094.39 086.82 107.13 111.66 094.39 086.82 107.13 111.66 094.39 086.82 107.13 111.66 094.39 086.82 107.13
262.4037 260.6208 266.0677 263.2316 269.5683 266.9774 261.4605 271.6326 272.2551 274.3935 275.2822 276.2998 274.0462 280.7501 276.4340 280.0336
Verano
Otoño
87.50 84.66 86.99
106.11 108.03 107.34
86.99 86.82
107.34 107.13
La suma de las medias modificadas fue 400.77, de manera que el factor de ajuste 400/400.77 0.99808. Los índices estacionales se obtuvieron multiplicando las medias modificadas por este factor.
b, c)
Año
Trimestre
Uso desestacionalizado (Y)
1992
Invierno Primavera Verano Otoño Invierno Primavera Verano Otoño Invierno Primavera Verano Otoño
262.4037 260.6208 266.0677 263.2316 269.5683 266.9774 261.4605 271.6326 272.2551 274.3935 275.2822 276.2998
1993
1994
x 15 13 11 19 17 15 13 11 11 13 15 17
xY 3936.0555 3388.0704 2926.7447 2369.0844 1886.9781 1334.8870 784.3815 271.6326 272.2551 823.1805 1376.4110 1934.0986
x2
Tendencia desestacionalizada Yˆ 270.7161 0.6301x
Residuo cíclico relativo Y Yˆ 100 Yˆ
225 169 121 81 49 25 9 1 1 9 25 49
261.2646 262.5248 263.7850 265.0452 266.3054 267.5656 268.8258 270.0860 271.3462 272.6064 273.8666 275.1268
0.44 0.73 0.87 0.68 1.23 0.22 2.74 0.57 0.33 0.66 0.52 0.43 (Continúa)
15.8: Análisis de series de tiempo en pronósticos
Año
Trimestre
1995
Invierno Primavera Verano Otoño
Uso desestacionalizado (Y)
x
274.0462 280.7501 276.4340 280.0336 4,331.4571
x2
xY
9 11 13 15 0
2466.4158 3088.2511 3593.6420 4200.5040 856.9239
81 121 00169 0,225 1,360
633
Tendencia desestacionalizada Yˆ 270.7161 0.6301x
Residuo cíclico relativo Y Yˆ 100 Yˆ
276.3870 277.6472 278.9074 280.1676
0.85 1.12 0.89 0.05
856.9239 xY b 0.6301 1,360 x2
4,331.4571 a Y 270.7161 16
Yˆ 270.7161 0.6301x (donde 1993-IV 1/2 0 y unidad de x 1/2 trimestre) d)
310 300 290
Consumo de gasolina
280
•
270 260
• •
• •
•
•
•
•
•
IV
I
II III 1995
•
•
•
IV
I
II III 1994
•
•
•
250 240 230 220
I
II III 1992
IV
I
II III 1993
datos originales
IV
• datos desestacionalizados
15.8 Análisis de series de tiempo en pronósticos
Limitaciones del análisis estacional
En este capítulo hemos examinado las cuatro componentes de una serie de tiempo. Hemos descrito el proceso de proyectar la tendencia pasada y la variación estacional hacia el futuro, mientras tomamos en consideración las imprecisiones inherentes de este análisis. Además, hicimos notar que a pesar de que las componentes cíclica e irregular afectan el comportamiento,futuro, son factores erráticos y difíciles de utilizar para pronosticar. Debemos estar conscientes de que el enfoque mecánico del análisis de series de tiempo está sujeto a errores y cambios considerables. Es necesario que los administradores combinen estos procedimientos sencillos con el conocimiento de otros factores con el fin de desarrollar pronósticos funcionales. Los analistas revisan, actualizan y descartan constantemente sus pronósticos. Si deseamos manejar con éxito el futuro, debemos hacer lo mismo. Cuando utilizamos los procedimientos descritos en este capítulo, debemos poner especial atención en dos problemas:
634
CAPÍTULO 15 Series de tiempo y pronósticos
1. En pronósticos, proyectamos la tendencia histórica y la v ariación cíclica al futuro. Debemos preguntarnos “¿qué tan regulares y duraderas fueron las tendencias pasadas?, ¿cuáles son las posibilidades de que tales patrones estén cambiando?” 2. ¿Qué tan precisos son los datos históricos que utilizamos en el análisis de series de tiempo? Si una compañía cambió de un sistema de contabilidad de inventario PEPS (primero en entrar, primero en salir) a un sistema UEPS (último en entrar, primero en salir) en un periodo dentro del tiempo que se analiza, los datos (como las ganancias trimestrales) obtenidos antes y después del cambio no son comparables y tampoco son muy útiles para pronosticar. Advertencia: los administradores inteligentes se dan cuenta de que e xplicar la mayor parte de la variación en una serie de tiempo de datos históricos no significa que este mismo patrón continuará en el futuro. Sugerencia: estos mismos administradores inteligentes combinan todos los pronósticos disponibles de la serie de tiempo con SUGERENCIAS Y SUPOSICIONES
respuestas intuitivas para ampliar las preguntas de ¿qué pasa si...?, que siempre son parte de la planeación estratégica. Estas preguntas se refieren al entorno (sociológico, económico, político) de negocios futuros y si cambiará en forma significativa el entorno e xistente cuando se reunieron los datos de la serie de tiempo.
Ejercicios 15.8 ■ 15-40 ■ 15-41 ■ 15-42 ■ 15-43
Enumere cuatro errores que pueden afectar las predicciones con una serie de tiempo. Cuando se utiliza una serie de tiempo para pronosticar el futuro, ¿qué garantías necesitamos en los datos históricos en los que se basan nuestras predicciones? ¿Qué problemas pueden desarrollarse si utilizamos las cifras de inscripciones pasadas a la uni versidad para pronosticar las inscripciones futuras? ¿De qué manera los pronósticos con series de tiempo manejarían cuestiones como las siguientes? a) Cambios en la ley federal de recaudación de impuestos. b) Cambios en los sistemas de contabilidad.
Estadística en el trabajo Loveland Computers Caso: Series de tiempo Lee Azko descansaba en su bien ganada fama. El complicado análisis de re gresión de los resultados de los gastos de publicidad había dado a Sherrel Wrigtht más confianza para utilizar el argumento de una mejor planeación. Incluso Walter Azko comenzó a reconocer que parte del éxito de marketing no dependía del azar, sino que existían ciertas reglas. “Nunca pude ver el valor de publicar anuncios de cinco o seis anuncios de una plana”, dijo el tío Walter mientras daba la vuelta a la esquina de la ‘oficina’ de Lee, un cubículo equipado con pocos muebles y una de las computadoras personales más grandes y rápidas de Loveland. “Gracias por mostrar que tenía razón. Estás a punto de hacerme creer también en esos anuncios de periódico tan caros.” “¿Comentó algo Margot acerca de esos grupos de enfoque?”, Lee andaba a la caza de otro cumplido. “Vamos a ver ese asunto la semana próxima; es demasiado pronto para decir algo. Pero no te sientas libre toda vía. Tengo un proyecto completamente nuevo para ti. Ve a ver a Gracia.”
Gracia Delaguardia se reía de un chiste. La risa se escuchaba en todo el corredor. Gracia tenía una ‘verdadera’ oficina, con puerta. Lee la encontró mirando una gráfica junto con otro miembro del equipo Loveland. “Lee, ven, déjame presentarte a Roberto Palomar. Bert es el encargado del banco de teléfonos, nuestro departamento de pedidos. Estábamos hablando de ti.” “¿De eso se reían?”, Lee se sintió nervioso. “No, no. Mira esto. Bert está tratando de estimar el número de vendedores por teléfono que necesitamos para atender los pedidos. Debemos planear la contratación...” “E instalar suf icientes líneas 800”, agregó Roberto, a quien todo el mundo llamaba Bert. “Graficamos los datos trimestrales”, continuó Gracia, “y, como ingeniera, déjame decirte que puedo reconocer una tendencia no lineal cuando v eo una”. Gracia señaló una curv a que se parecía a la trayectoria del transbordador espacial llegando a la órbita. “Desde luego, no nos quejamos de nuestro crecimiento. Es bueno estar en un equipo que va ganando.” “Pero si continuamos con esta tendencia”, intervino Bert, deslizando una regleta sobre la gráf ica, “dentro de 10 años tendremos que contratar a toda la población de Loveland, solamente para que atiendan nuestros teléfonos”. Con eso,Gra-
Del libro de texto al mundo real
cia y Bert se echaron a reír de nuevo. “Lee, ve bien esos números y di si no es cierto.” “Bueno, no cabe duda de que hay una tendencia bastante fuerte”, observó Lee, enfatizando lo obvio. “¿Hay alguna especie de estacionalidad?, es decir, ¿hay diferencias de un mes a otro?” “Buena pregunta”, respondió Bert. “Estos totales por trimestre tienden a ocultar algo de las alzas y bajas mensuales. Por ejemplo, agosto siempre está muerto, pues la gente está de vacaciones. Pero diciembre es un mes muy pesado.Aunque no estamos metidos en el negocio de los regalos de Navidad, algunos usuarios domésticos en v erdad le piden a Santa Claus que les traiga una computadora Loveland. El principal efecto viene de los negocios pequeños, que desean registrar en la contabilidad gastos de equipo antes del f inal del año, con el fin de pagar menos impuestos.” “Y no me parece que el volumen de llamadas esté repartido por igual entre todos los días de la semana”,se aventuró a decir Lee.
Ejercicio de base de datos computacional HH Industries La siguiente semana, Stan pidió a Laurel pedirle algunos datos, para su próxima reunión de v entas. “En esas primeras pláticas que tuvimos sobre la historia de la compañía”,le dijo, “recordarás que te dije que los sellos y el equipo para sellar, nuestra línea de producción más extensa, son la piedra angular de nuestras ventas. De hecho, es la línea de productos con la que, básicamente, el señor Douglas empezó el ne gocio. Como están las cosas, también es la línea de productos que genera nuestro mayor margen bruto. ¿Hay algo que puedas hacer, como diagramas o gráf icas, que pudiera ilustrar el comportamiento de las v entas de sellos durante los últimos 10 años o algo así? Tengo datos de las v entas por día o por mes con los que puedes trabajar”. “¿Qué tal si desestacionalizo los datos para mostrar una tasa de crecimiento más precisa?”, sugirió Laurel. “Puedo utilizar las cifras de ventas mensuales y generar algunas gráficas que muestren las tendencias. Calculando una estimación de mínimos cuadrados, también podría darte una herra-
Del libro de texto al mundo real Industria pesquera en Islandia El Ministerio de Pesca de Islandia ha desarrollado un modelo para facilitar la toma de decisiones en la administración pesquera. Se utiliza principalmente para la administración de
635
“Ah, sí. Los días lluviosos y los lunes”, respondió Bert. “Tenemos una regla empírica que dice que hacemos el doble de negocios en lunes que en martes. De modo que intentamos evitar hacer sesiones de entrenamiento o reuniones de personal los lunes. En algunas ocasiones, el personal de supervisión atiende cualquier llamada, no importa lo que cueste. Si perdemos una llamada, un cliente potencial podría adquirir una computadora de la competencia. “Pero ahora siento que estamos en el momento en que realmente debo planear un poco mejor el número de trabajadores que debo tener disponibles. Si programo a demasiada gente, desperdiciamos dinero y los v endedores se aburren. Estarían mejor en su casa.” “Bueno, creo que podría ayudarles”, se ofreció Lee. “Les diré lo que necesito.” Preguntas de estudio: ¿Qué datos querrá examinar Lee? ¿Qué análisis llevará a cabo? ¿De qué manera utilizará Bert la información que obtenga Lee?
mienta aproximada para que puedas pronosticar la v enta de sellos desestacionalizada para los años v enideros. ¿Qué te parece?” “Me perdí en la parte de los mínimos cuadrados”, admitió Stan, “pero suena exactamente como lo que estoy buscando. Será interesante ver las ventas sin el efecto de las temporadas. ¿Podrías tener una primera información de las cifras para el inicio de la siguiente semana?”. “Claro que sí”, respondió Laurel. “Te traeré todo a tu oficina el lunes o el martes.” 1. Haga un análisis de serie de tiempo de la v entas de sellos durante los últimos 10 años. (Use los datos de ventas del archivo CH15.xxx que se encuentra en el sitio www.pearsoneducacion.net/levin.) Desestacionalice las ventas por mes, utilizando el método de razón de promedio móvil (use un promedio móvil centrado de 12 meses). Luego encuentre la ecuación lineal de mínimos cuadrados que mejor describa los datos desestacionalizados. 2. Utilice los resultados para pronosticar las ventas de cada mes de 1994. 3. Observe los residuos asociados con la ecuación de regresión lineal. ¿Existe algún patrón que pueda hacerle sospechar que una línea recta no es el mejor ajuste?
sistemas de cuota a corto plazo y para la planeación de inversiones a largo plazo. Con este modelo se pueden hacer pronósticos acerca de la cantidad de pesca de bacalao y otras especies de aguas profundas con varios años de anticipación. También puede obtenerse información de las ganancias y los costos. El análisis reúne datos de v arias variables, entre las que podemos incluir la cantidad de peces en e xistencia al
636
CAPÍTULO 15 Series de tiempo y pronósticos
principio del periodo de planeación y el tamaño y clasif icación de la flota de pesca. Algunos estudios recientes indican que la flota de pesca es demasiado grande y, a menos que se puedan tomar medidas adecuadas para limitar el volumen de pesca fuera de las costas de Islandia, la espina dorsal de la economía del país puede verse amenazada. Antecedentes La pesca es la industria principal de la economía de Islandia; el pescado y sus productos representan aproximadamente el 70% de las exportaciones del país. Las especies de que desovan en aguas profundas son las más importantes en los mares de Islandia, y el bacalao representa el 55% de esta pesca. Hasta 1976, cuando Islandia adquirió completa soberanía de sus áreas de pesca, los barcos extranjeros obtenían cerca de la mitad de la pesca total. Las compañías pesqueras islandesas empezaron a modernizar sus flotas en 1970, anticipándose al retiro de la competencia extranjera. Conforme las flotas fueron creciendo en tamaño y se volvieron más eficientes, surgieron preocupaciones con respecto a la protección del recurso. Estimaciones del tamaño de los recursos e xistentes, hechas en 1975, indicaban que la e xistencia de bacalao había bajado a menos de la mitad de su promedio en la época de la posguerra. Además, la edad y la estructura de la pesca no eran favorables. A pesar del retiro de los barcos de pesca extranjeros, el volumen de pesca total casi no disminuyó, esto debido a las técnicas y equipo modernos para pescar . Para 1983, la pesca de bacalao alcanzó el nivel más bajo de todos los tiempos. Las autoridades y la industria pesquera se dieron cuenta de que la flota de pesca y, en consecuencia, el esfuerzo de captura, eran demasiado grandes. Debía contenerse el crecimiento de las flotas de pesca. En un principio, el periodo de captura se restringió haciendo más lar gas las vacaciones de Navidad y de Pascua para los pescadores,y se establecieron topes al tiempo anual permitido de operación de cada barco pesquero. En 1984, se introdujo un sistema general de cuotas. Modelos de pesca En 1979, el Ministerio de Pesca organizó un grupo de trabajo integrado por miembros de la Universidad de Islandia, el Instituto de Investigación Marina y otros grupos con el fin de desarrollar un modelo de captura de especies de aguas profundas. El modelo sería una herramienta de apoyo para la toma de decisiones de la administración, a corto y largo plazos. La planeación a corto plazo incluye el cierre de áreas para la pesca,reglamentos sobre las dimensiones de malla de las redes y sistemas de cuotas. A largo plazo,
el tamaño de las flotas y su composición pueden ser administradas por medio del control del gobierno sobre préstamos bancarios e inversión en nuevos barcos. Datos sobre pesca Durante las últimas décadas, se han registrado grandes cantidades de datos sobre la pesca en Islandia. Que el gobierno se haya in volucrado en las transacciones entre pescadores y la industria procesadora de productos marinos ha hecho que sea benéfico para ambas partes que los informes de volúmenes de pesca y otros datos sean correctos, de modo que se tienen datos muy confiables. Aunque los datos son precisos, existe aleatoriedad debido al impacto del clima inestable y el mal tiempo sobre las áreas de pesca. Seiet nen cuatro grupos de datos: desembarques, tamaño de existencias, potencia y selectividad de pesca y económicos. De esta información, se pueden extrapolar las tendencias relativas a la captura esperada para una unidad de pesca dada, las ganancias o pérdidas esperadas para la flota y otras estadísticas, año por año. La comisión del gobierno usa como base 1983 para comparar la producción sustentable para flotas de diferente tamaño y tipo. La producción sustentable o sostenida se ref iere a la captura equilibrada dados un esfuerzo constante y los factores ambientales normales. Resultados La conclusión principal del estudio fue que la flota de pesca es demasiado grande y que la existencia futura de peces está amenazada por los esfuerzos xe cesivos de los barcos pesqueros. A pesar de que los problemas asociados con los recursos naturales reno vables implican incertidumbre y, a menudo, son impredecibles, el modelo de serie de tiempo utilizado por el Ministerio de Pesca de Islandia proporcionó una herramienta para determinar la naturaleza y la severidad del problema. Permitió también a los diseñadores de estrategias concentrarse en las comparaciones de diferentes políticas mediante análisis de sensibilidad, más que en buscar predicciones de valores absolutos. Al observar las tendencias en el tamaño de las existencias del recurso y en otras variables, los políticos pueden determinar los efectos que tendrán diferentes estrategias gubernamentales. En Islandia, los encargados de la toma de decisiones encontraron que las estrategias anteriores no tuvieron éxito en disminuir el tamaño de la captura, de modo que se impusieron los sistemas de cuota y las limitaciones en la inversión para preservar la industria pesquera del país. Fuente: Thorkell Helgason y Snojolfur Olafsson, “An Icelandic Fisheries Model”, European Journal of Operational Research 33 (1988): 191199.
Repaso del capítulo ● Términos introducidos en el capítulo 15 Codificación Método para convertir medidas tradicionales de tiempo en una forma que simplif ique los cálculos (a menudo se le conoce como traducción).
Desestacionalización Proceso estadístico utilizado para eliminar los efectos de la estacionalidad de una serie de tiempo.
Repaso del capítulo
637
Ecuación de segundo grado Forma matemática que se utiliza para describir una curva parabólica que puede usarse en el análisis de tendencia de una serie de tiempo.
Residuo cíclico relativo Medida de la variación cíclica, utiliza la desviación porcentual de cada valor de la serie respecto a la tendencia.
Fluctuación cíclica Tipo de v ariación que se presenta en una serie de tiempo, en la cual el valor de la variable fluctúa alrededor de una línea de tendencia secular.
Serie de tiempo Los datos acumulados a intervalos regulares y los métodos estadísticos utilizados para determinar patrones en esos datos.
Media modificada Método estadístico utilizado en el análisis de series de tiempo. Descarta los v alores más alto y más bajo cuando se calcula una media.
Tendencia secular Tipo de variación en una serie de tiempo. El valor de la variable que tiende a aumentar o disminuir en un periodo largo.
Método de razón de pr omedio móvil Método estadístico empleado para medir la v ariación estacional. Usa un índice que describe el grado de dicha variación.
Variación estacional Patrones de cambio de una serie de tiempo que ocurren en un año; patrones que tienden a repetirse cada año.
Método de residuos Método para describir la componente cíclica de una serie de tiempo. Supone que la mayor parte de la variación de la serie que no explica la tendencia secular se debe a factores cíclicos.
Variación irregular Condición de una serie de tiempo en la que el valor de una variable es completamente impredecible.
● Ecuaciones introducidas en el capítulo 15 ■
15-1
XY nX Y b 2 2 X nX Esta fórmula, introducida en el capítulo 12 como la ecuación 12-4, nos permite calcular la pendiente de la línea de regresión de mejor ajuste para cualquier conjunto de datos de dos variables. Los símbolos Xy Y representan las medias de los valores de las variables independiente y dependiente, respectivamente; n es el número de datos con los cuales se ajusta la línea.
■
15-2
a Y bX Vimos esta fórmula como la ecuación 12-5. Nos permite calcular la ordenada Y de la recta de regresión de mejor ajuste para cualquier conjunto de datos de dos variables.
■
15-3
xY b x2 Cuando el tiempo medido en años individuales (X) se cambia a valores de tiempo codificados (x) restan), la ecuación 15-1, para la pendiente de la recta de tendencia se simplif ica y se do la media (x X X convierte en la ecuación 15-3.
■
■
15-4
15-5
a Y De manera parecida, utilizar los valores de tiempo codificado también nos permite simplificar la ecuación 15-2 para obtener la ordenada de la recta de tendencia. Yˆ a bx cx2 En ocasiones deseamos ajustar una tendencia con una curva parabólica (o de segundo grado), en lugar de utilizar una línea recta (Yˆ a bx). La forma general de una curva de segundo grado ajustada se obtiene incluyendo el término de segundo grado (cx2) en la ecuación de Yˆ .
■
15-6
Y an cx2
■
15-7
x2Y ax2 cx4
■
15-8
Con el fin de encontrar una curva de segundo grado ajustada con el método de mínimos cuadrados,debemos resolver las ecuaciones simultáneas 15-6 y 15-7 para encontrar los valores de a y c. El valor b se obtiene de la ecuación 15-3. Y Porcentaje de tendencia ˆ 100 Y
638
CAPÍTULO 15 Series de tiempo y pronósticos
■
15-9
Podemos medir la variación cíclica como un porcentaje de tendencia si dividimos el valor real (Y) entre el valor de tendencia (Yˆ ) y luego multiplicamos por 100. Y Yˆ Residuo cíclico relativo 100 Yˆ Otra medida de la variación cíclica es el residuo cíclico relativo, que se obtiene dividiendo la desviación de la tendencia (Y Yˆ ) entre el valor de tendencia, y multiplicando el resultado por 100. El residuo cíclico relativo se puede obtener fácilmente si restamos 100 del porcentaje de tendencia.
● Ejercicios de repaso ■ 15-44
El número de personas admitidas a Valley Nursing Home por trimestre está dado en la siguiente tabla:
1992 1993 1994 1995
■ 15-45 ■ 15-46
15-49
Otoño
Invierno
29 27 33 34
30 34 36 40
41 45 46 47
43 48 51 53
Ene.
Feb.
Mar.
Abr.
May.
Jun.
Jul.
Ago.
Sep.
Oct.
Nov.
Dic.
0.3 0.4 0.2
0.7 0.9 0.6
0.8 0.7 0.6
0.8 0.9 0.9
0.7 0.5 0.7
0.7 0.8 0.7
0.6 0.7 0.8
0.6 0.7 0.8
0.4 0.4 0.5
0.7 0.6 0.6
0.2 0.3 0.3
0.5 0.4 0.5
Construya un promedio móvil centrado de 4 meses y grafíquelo junto con los datos originales. Un gerente de producción de una fábrica de papel canadiense ha acumulado la siguiente información que describe la cantidad de papel (en millones de libras) procesado cada trimestre:
1992 1993 1994 1995
■ 15-48
Verano
a) Calcule los índices estacionales para estos datos (use un promedio móvil centrado de 4 trimestres). b) Desestacionalice estos datos usando los índices del inciso a). c) Encuentre la recta de mínimos cuadrados que mejor describa las cifras de la tendencia desestacionalizada. Wheeler Airlines, una línea aérea regional, ha estimado el número de pasajeros para el mes de diciembre en 595,000 (desestacionalizado). ¿Cuántos pasajeros debe pre ver la compañía si el índice estacional de diciembre es 128? Un grupo de investigación ecológica ha medido el nivel de contaminación por mercurio en el océano en cierto punto de la costa este de Estados Unidos. Se encontraron los siguientes porcentajes de mercurio en el agua:
1993 1994 1995
■ 15-47
Primavera
Primavera
Verano
Otoño
Invierno
3.1 3.3 3.4 3.7
5.1 5.1 5.3 5.4
5.6 5.8 6.0 6.1
3.6 3.7 3.8 3.9
a) Calcule los índices estacionales de los datos (porcentaje del promedio real respecto al promedio móvil centrado). b) Desestacionalice los datos utilizando los índices estacionales del inciso a). c) Encuentre la línea de mínimos cuadrados que mejor describa los datos. d) Estime la cantidad de libras de papel que serán procesadas durante la primavera de 1996. Describa algunas de las dificultades al usar una ecuación de estimación lineal para describir los datos siguientes: a) Kilometraje de gasolina logrado por los automóviles estadounidenses. b) Número de muertos en accidentes de aviación comercial. c) La exportación de cereales de un solo país. d) El precio de la gasolina. La empresa Magna International es una compañía canadiense dedicada a la manufactura de componentes para automóviles, como paneles moldeados para puertas. En el informe anual de Magna de 1992 se dio
Repaso del capítulo
639
una lista de las ganancias anuales de la compañía correspondientes a los 10 años anteriores (en millones de dólares canadienses): Año Ganancias
■ 15-50
■ 15-51
1983 302.5
1984 493.6
1985 690.4
■ 15-54 15-55
1989 1,923.7
1990 1,927.2
1991 1992 2,017.2 2,358.8
1990 596
1991 688
1992 740
1993 812
1994 857
1995 935
a) Encuentre la ecuación lineal que describa mejor esos datos. b) Estime el número de manuales de operaciones (uno por franquicia) que deba imprimirse en 1997. Un subsecretario asistente del Departamento de Comercio de Estados Unidos tiene los siguientes datos que describen el valor del grano exportado durante los últimos 16 trimestres (en miles de millones de dólares): 1992 1993 1994 1995
■ 15-53
1987 1988 1,152.5 1,458.6
a) Encuentre la línea de tendencia de mínimos cuadrados para estos datos. b) Grafique los datos anuales junto con la línea de tendencia. ¿Las v ariaciones de la tendencia parecen ser aleatorias o cíclicas? c) Utilice un paquete de computación estadístico que obtenga regresión para encontrar la tendencia parabólica de mejor ajuste para estos datos. ¿Es c, el coeficiente de x2, significativamente diferente de cero? ¿Cuál de los dos modelos de tendencia recomendaría usted para pronosticar las ganancias de M agna para 1993? Explique su respuesta. d) Pronostique las ganancias de la empresa para 1993. Comente las dificultades que tendría al utilizar una ecuación de estimación de se gundo grado para pronosticar el comportamiento del proceso que generó los datos siguientes: a) Ventas de computadoras personales en Estados Unidos. b) Uso de juegos de video en Estados Unidos. c) Primas de seguros contra malas prácticas médicas. d) El número de graduados de maestría en administración de las universidades de Estados Unidos. La tabla siguiente muestra el número de franquicias de Beauty Bar, Inc. que opera al final de cada año: Año Número de franquicias
■ 15-52
1986 1,027.8
I
II
III
IV
1 2 2 1
3 2 4 3
6 7 8 8
4 5 5 6
a) Determine los índices estacionales y desestacionalice los datos (utilice un promedio móvil centrado de cuatro trimestres). b) Calcule la recta de mínimos cuadrados que mejor describa los datos. c) Identifique la variación cíclica en los datos mediante el método del residuo cíclico relativo. d) Grafique los datos originales, los datos desestacionalizados y la tendencia. La tienda de bicicletas Richie Bell ha determinado, a partir de un análisis de tendencias pasadas, que las ventas de primavera (desestacionalizadas) deberán ser de 165 bicicletas. Si el índice estacional de primavera es 143, ¿cuántas bicicletas deberá vender la tienda esta primavera? En el momento de terminar el programa de autopistas interestatales de Estados Unidos, ¿de qué utilidad serán los viejos datos a los fabricantes de equipo pesado de remoción de tierra cuando intentan pronosticar sus ventas? ¿Qué nuevos datos sugeriría usted que utilizaran en su pronóstico? La manufactura de automóviles, a menudo, se cita como ejemplo de una industria cíclica (sujeta a cambios de acuerdo con un ciclo económico subyacente). Considere la producción de automóviles en todo el mundo (en millones de unidades) y en la antigua Unión So viética (en cientos de miles de unidades) durante el periodo de 1970 a 1990: Año
En el mundo
En la URSS
Año
En el mundo
En la URSS
1970 1971 1972 1973 1974 1975
22.5 26.4 27.9 30.0 25.9 25.0
13.4 15.3 17.3 19.2 11.2 12.0
1981 1982 1983 1984 1985 1986
27.5 26.6 30.0 30.5 32.3 32.9
13.2 13.1 13.2 13.3 13.3 13.3 (Continúa)
640
CAPÍTULO 15 Series de tiempo y pronósticos
■ 15-56
Año
En el mundo
En la URSS
Año
En el mundo
En la URSS
1976 1977 1978 1979 1980
28.8 30.5 31.2 30.8 28.6
12.4 12.8 13.1 13.1 13.3
1987 1988 1989 1990
33.0 34.3 35.6 35.8
13.3 12.6 12.2 12.6
a) Encuentre la recta de tendencia de mínimos cuadrados para los datos en el mundo. b) Grafique los datos del mundo y la recta de tendencia en la misma gráf ica. ¿Las variaciones con respecto a la tendencia parecen ser cíclicas o aleatorias? c) Grafique los residuos como porcentaje de la tendencia. ¿Aproximadamente qué tan lar go es el ciclo económico para estos datos? d) Considere la producción de automóviles en la antigua URSS. Analice sus similitudes y diferencias con los patrones que encontró en los incisos a), b) y c). La R.B. Fitch Builders ha construido el siguiente número de casas en los 8 años que lleva en el negocio: Año Casas construidas
■ 15-57
■ 15-58
■ 15-60
1989 11
1990 19
1991 17
1992 19
1993 18
1994 20
1995 23
a) Desarrolle una ecuación lineal de estimación para describir la tendencia del número de casas. b) ¿Cuántas casas deberá planear terminar la constructora para 1999? c) Junto con la respuesta al inciso b), ¿qué consejo daría usted a la R.B. Fitch acerca del uso de esta técnica de pronósticos? Como parte de una investigación realizada por un departamento federal referente a la psicología de la actividad criminal, una encuesta acerca del número de homicidios y de asaltos producidos en el curso de un año produjo los siguientes resultados: Estación
Primavera
Verano
Otoño
Invierno
Número de homicidios y asaltos
31,000
52,000
39,000
29,000
a) Si los índices estacionales respectivos son 84, 134, 103 y 79, ¿cuáles son los valores desestacionalizados de cada estación? b) ¿Cuál es el significado del índice estacional de 79 para al invierno? Las cifras porcentuales desestacionalizadas trimestrales de desempleo en cierto estado durante el periodo 1991-1995 son las siguientes:
1991 1992 1993 1994 1995
■ 15-59
1988 12
I
II
III
IV
17.3 18.7 10.2 17.6 17.4
7.2 9.2 9.9 7.4 7.0
7.3 9.8 9.2 7.5 6.8
18.1 10.5 18.3 17.6 16.5
a) Encuentre la ecuación lineal que describe la tendencia de desempleo. b) Calcule el porcentaje de tendencia para los datos. c) Grafique la variación cíclica de las tasas de desempleo a partir del porcentaje de tendencia. El número de casos confirmados de SIDA reportados en una clínica de salud local durante el periodo de 5 años de 1988 a 1992 fueron 2, 4, 7, 13 y 21, respectivamente. a) Desarrolle la recta de regresión lineal para estos datos. b) Encuentre la curva de segundo grado de mínimos cuadrados que se ajusta a los datos. c) Construya una tabla de los casos reales de cada año, las estimaciones lineales obtenidas con la regresión del inciso a) y los valores de la curva de segundo grado del inciso b). d) ¿Qué regresión parece ser el mejor estimador? RJ’s Grocers ha agregado pollos enteros hervidos a su línea de comida para llevar, para los profesionales ocupados que no tienen tiempo de cocinar en casa. El número de pollos precocidos v endidos en las primeras 7 semanas es el siguiente: Semana Ventas
1 41
2 52
3 79
4 76
5 72
6 59
7 41
Repaso del capítulo
15-61
641
a) Encuentre la recta de regresión lineal que mejor se ajuste a estos datos. b) Estime el número esperado de ventas en la semana 8. c) Con base en la estimación del inciso b) y los datos disponibles, ¿la regresión describe con exactitud la tendencia de ventas para este producto? La compañía Walt Disney es una gran empresa de entretenimiento con tres rubros de negocios: películas y televisión, mercancías, y parques de diversiones y hoteles (PDH). Como muchas empresas, Disney informa trimestralmente la cantidad total de dinero que recibe cada uno de estos rubros. La e xpansión de instalaciones en los dos parques de diversiones en Estados Unidos (Disneylandia en California y Walt Disney World en Florida) y la adquisición de licencias y el ingreso por inversión en parques en Francia y Japón, han ocasionado un crecimiento estable en los ingresos totales por PDH. La siguiente lista de ingresos trimestrales (en millones de dólares) muestra el crecimiento de los ingresos durante la última década, que asciende a casi $1,000 millones por trimestre al final del año fiscal de la empresa en diciembre de 1992. (El año f iscal de la empresa Disney empieza en octubre, de modo que el trimestre que termina en diciembre de 1992 es el primer trimestre del año fiscal 1993). Un analista que observe este éxito notaría primero que algo del aumento podría atribuirse a la inflación. En consecuencia, los ingresos también se dan en dólares constantes de 1982, es decir, deflacionados en un porcentaje equivalente a la inflación desde 1982. Esto se logra di vidiendo los ingresos reales entre el deflactor PIB del Departamento de Comercio de Estados Unidos y multiplicando el resultado por 100. (Éste aparentemente misterioso proceso tendrá más sentido si consulta la sección 16.1 del siguiente capítulo.) Año fiscal y trimestre de Disney 1983-1 1983-2 1983-3 1983-4 1984-1 1984-2 1984-3 1984-4 1985-1 1985-2 1985-3 1985-4 1986-1 1986-2 1986-3 1986-4 1987-1 1987-2 1987-3 1987-4 1988-1 1988-2 1988-3 1988-4 1989-1 1989-2 1989-3 1989-4 1990-1 1990-2 1990-3 1990-4 1991-1 1991-2
Mes final del trimestre DIC 82 MAR 83 JUN 83 SEP 83 DIC 83 MAR 84 JUN 84 SEP 84 DIC 84 MAR 85 JUN 85 SEP 85 DIC 85 MAR 86 JUN 86 SEP 86 DIC 86 MAR 87 JUN 87 SEP 87 DIC 87 MAR 88 JUN 88 SEP 88 DIC 88 MAR 89 JUN 89 SEP 89 DIC 89 MAR 90 JUN 90 SEP 90 DIC 90 MAR 91
Ingreso real
Deflactor PIB
Ingreso en dólares de 1982
203.7 239.7 288.9 298.8 224.9 244.3 314.6 313.6 232.6 270.0 368.8 386.1 274.1 360.2 434.0 455.6 359.0 414.8 534.4 526.0 385.7 438.0 599.9 618.4 511.6 580.1 727.9 775.8 619.5 710.2 858.1 831.8 623.8 671.0
101.7 102.5 103.3 104.2 105.4 106.5 107.3 108.2 109.0 109.7 110.6 111.3 112.2 112.4 113.2 114.6 115.1 116.0 117.1 117.9 118.6 119.2 120.6 121.9 123.3 124.5 125.9 126.9 127.9 129.7 131.8 138.0 140.5 141.0
200.3 233.9 279.7 286.8 213.4 229.4 293.2 289.8 213.4 246.1 333.5 346.9 244.3 320.5 383.4 397.6 311.9 357.6 456.4 446.1 325.2 367.4 497.4 507.3 414.9 465.9 578.2 611.3 484.4 547.6 651.1 602.8 444.0 475.9 (Continúa)
642
CAPÍTULO 15 Series de tiempo y pronósticos
Año fiscal y trimestre de Disney 1991-3 1991-4 1992-1 1992-2 1992-3 1992-4
Mes final del trimestre JUN 91 SEP 91 DIC 91 MAR 92 JUN 92 SEP 92
Ingreso real
Deflactor PIB
Ingreso en dólares de 1982
759.0 810.8 662.4 774.1 890.5 996.2
141.8 142.7 143.8 144.7 145.6 146.5
535.3 568.2 460.6 535.0 611.6 680.0
Fuente: The Walt Disney Company, Informe anual de 1992.
■ 15-62
a) Grafique los datos en dólares de 1982 y encuentre la recta de tendencia de mínimos cuadrados. b) Como debería esperarse, existe un fuerte patrón estacional en los ingresos por PDH; el trimestre de diciembre muestra el ingreso más bajo y los mejores resultados por lo general se reportan en el trimestre de septiembre. Encuentre los índices estacionales por trimestre para los ingresos en dólares de 1982, y utilícelos para desestacionalizar dichos ingresos. c) Encuentre la línea de tendencia de mínimos cuadrados para los datos desestacionalizados. d) No podemos comparar directamente los valores r2 de las líneas de tendencia de los incisos a) y c) porque la primera indica qué fracción de la v ariación de los ingresos reales se explica por la tendencia, mientras que la segunda nos dice qué fracción de la variación de los ingresos desestacionalizados se explica por la tendencia. Para ver cuánta variación en los ingresos reales se explica por la tendencia y por la estacionalidad, proceda de la siguiente manera: 1) Utilice la línea de tendencia desestacionalizada para pronosticar los ingresos desestacionalizados para los 40 trimestres. 2) Estacionalice de nuevo las predicciones multiplicándolas por el índice estacional apropiado y dividiéndolas entre 100. 3) Para cada trimestre, reste el ingreso real del pronóstico vuelto a estacionalizar para encontrar el error del pronóstico. 4) Eleve al cuadrado estos errores y súmelos. Llame SCE* al resultado. 5) Represente con SCT la suma total de los cuadrados de la línea de tendencia del inciso a). La fracción de la v ariación de los ingresos reales e xplicada por la tendencia y por la estacionalidad es 1 SCE*/SCT. ¿Cuánto más de la variabilidad de los ingresos reales se explica al tomar en cuenta la estacionalidad? e) De octubre de 1993 a septiembre de 1991, la afluencia a los parques de diversiones disminuyó por la guerra del Golfo Pérsico, cuando el temor a ataques terroristas hacía que mucha gente se quedara en sus casas, y por la recesión en la economía de Estados Unidos. ¿Qué tipo de variaciones son éstas? f) Utilice los pronósticos del inciso d) para estimar cuánto le costó a la empresa Disney la recesión y la guerra del Golfo, en cuanto al rubro PDH durante el año fiscal 1994. g) Utilice el modelo que desarrolló en el inciso d) para pronosticar el ingreso total por PDH (en dólares de 1982) para el año fiscal de la empresa correspondiente a 1993. ¿Hay alguna razón para preocuparse porque el pronóstico pueda no ser preciso? Explique su respuesta. h) ¿Qué información adicional necesitaría para convertir los pronósticos del inciso g) en dólares actuales? El sistema de transporte de College Town recolectó información del número de pasajeros por estación durante 1994 y 1995. Los datos desestacionalizados (en miles de pasajeros) son:
1994 1995
■ 15-63
Primavera
Verano
Otoño
Invierno
593 640
545 560
610 600
575 555
a) Si los índices estacionales utilizados para desestacionalizar fueron 110,73, 113 y 104, respectivamente, encuentre el número real de pasajeros (en miles) para estas ocho estaciones. b) ¿En qué estación de 1995 se tuvo el menor número de pasajeros? ¿Y el mayor? c) Si la ecuación lineal de estimación para estos datos desestacionalizados es Yˆ 584.75 0.45x (con x medida a medio trimestre y x 0 entre los trimestres de in vierno de 1994 a prima vera de 1995), ¿cuál es el número esperado de viajes reales (en miles) para el otoño de 1996? Ferris Wheeler, director del parque de diversiones Whirly World, ha proporcionado los siguientes datos sobre el número de visitantes al parque (en miles de personas) para las estaciones en que permanece abierto:
Repaso del capítulo
1992 1993 1994 1995
■ 15-64
Otoño
750 780 800 640
1,150 1,100 1,225 1,050
680 580 610 600
1 2 3 4
Lun.
Mar.
Mié.
Jue.
Vie.
Sáb.
Dom.
345 418 393 406
310 333 387 412
385 400 311 377
416 515 535 444
597 664 625 650
706 761 711 803
653 702 598 822
Determine los índices estacionales (diarios) para estos datos. (Utilice un promedio móvil de 7 días.) Suponga que las ventas de televisores de una pequeña cadena de aparatos electrodomésticos durante 19911995 fueron las siguientes: Año Ventas
■ 15-66
Verano
a) Calcule los índices estacionales para estos datos utilizando un promedio móvil de 3 periodos. b) Desestacionalice estos datos utilizando los índices estacionales obtenidos en el inciso a). El administrador de un restaurante desea mejorar el servicio que brinda a sus clientes y el horario de sus empleados, basándose en la afluencia diaria de clientes durante las últimas cuatro semanas. El número de clientes atendidos en el restaurante en ese periodo fue:
Semana
■ 15-65
Primavera
643
1991 230
1992 250
1993 265
1994 300
1995 310
a) Desarrolle la ecuación de estimación de segundo grado para estos datos. b) ¿Qué indica la magnitud de los coeficientes a, b y c respecto a la elección de una ecuación de segundo grado para esos datos? La compañía Zapit ha registrado las siguientes cifras (en cientos de miles) correspondientes a las v entas totales en su línea de hornos de microondas durante los últimos 5 años: Año Ventas
1991 3.5
1992 3.8
1993 4.0
1994 3.7
1995 3.9
La ecuación que describe la tendencia de estos volúmenes de ventas es Yˆ 3.78 0.07x, donde 1993 0 y las unidades de x son años
■ 15-67
a) ¿Qué año tuvo el más alto porcentaje de tendencia? b) ¿Qué año estuvo más cercano a la línea de tendencia? Los siguientes datos muestran el número de casas listadas para evnta, en miles, en el oeste de Estados Unidos al final de cada trimestre: Año
Trimestre
Casas listadas
1992
1 2 3 4 1 2 3 4 1 2 3 4 1
75 77 72 74 73 74 77 73 74 79 80 82 80
1993
1994
1995
a) Calcule los índices estacionales para cada trimestre. (Nota: debido a que esta serie de datos es corta, no descarte los valores extremos en el paso 5.) b) Desestacionalice estos datos. c) Encuentre la recta de tendencia de mínimos cuadrados para los datos desestacionalizados. Fuente: Real Estate Research Council of Northern California.
capítulo
16
NÚMEROS ÍNDICE
Objetivos • •
Entender que los números índice describen el grado en que las variables económicas cambian con el tiempo Familiarizarse con los tres tipos principales de índices: de precio, de cantidad y de valor
• •
Entender y evitar los problemas derivados del uso incorrecto de los números índice Aprender a calcular varios tipos de números índice
Contenido del capítulo 16.1 Definición de número índice 646 16.2 Índice de agregados no ponderados 649 16.3 Índice de agregados ponderados 653 16.4 Métodos de promedio de relativos 661 16.5 Índices de cantidad y de valor 666 16.6 Problemas en la construcción y el uso de números índice 670
• • • • • •
Estadística en el trabajo 671 Ejercicio de base de datos computacional 672 Del libro de texto al mundo real 673 Términos introducidos en el capítulo 16 673 Ecuaciones introducidas en el capítulo 16 674 Ejercicios de repaso 675
Nota: Las tablas del apéndice que se mencionan a lo largo de este capítulo se encuentran en www.pearsoneducacion.net/levin.
646
CAPÍTULO 16 Números índice
a empresa Precision Metal Products fabrica partes de alta calidad para la producción de maquinaria pesada. Los tres materiales principales que utiliza son carbón y minerales de hierro y de níquel. La administración tiene los siguientes datos de los precios de estos materiales en 1975 y 1995, así como datos de la cantidad utilizada en 1988, año en que los patrones de adquisición fueron característicos de todo el periodo de 20 años.
L
Materia prima Carbón Mineral de hierro Mineral de níquel
Cantidad utilizada en 1988 (miles de toneladas) 158 12 5
Precio/Tonelada 1975 (dólares) $7.56 9.20 12.30
Precio/Tonelada 1995 (dólares) $19.50 21.40 36.10
La administración necesita ayuda para crear alguna medida del cambio en los precios del material en los 20 años. Usando los métodos de este capítulo, podremos proporcionarle esa medida para que la utilice en su planeación. ■
16.1 Definición de número índice ¿Por qué utilizar un número índice?
¿Qué es un número índice?
Cálculo de un índice sencillo
En algún momento, todo mundo debe determinar qué tanto ha cambiado algo en cierto periodo. Por ejemplo, quizá desee saber cuánto ha aumentado el precio de los comestibles, para poder ajustar su presupuesto. El administrador de una fábrica puede tener la necesidad de comparar el costo por unidad de producción este mes con el de hace seis meses. O un equipo de investigación médica podría desear comparar el número de casos de gripe registrados este año con el de años anteriores. En cada una de estas situaciones, se necesita determinar y definir el grado de cambio. Por lo com ún, los números índice son los que nos permiten medir esas diferencias. Un número índice mide cuánto ha cambiado una variable con el tiempo. Calculamos un número índice encontrando el cociente del valor actual entre un valor base. Luego multiplicamos el número resultante por 100, para expresar el índice como un porcentaje. Este valor final es el porcentaje relativo. Note que el número índice para el punto base en el tiempo siempre es 100. La secretaria de estado de Carolina del Norte tiene datos que indican el número de nuevos negocios que se han abierto. Los datos recolectados muestran que iniciaron 9,300 ne gocios en 1980; 6,500 en 1985; 9,600 en 1990, y 10,100 en 1995. Si 1980 es el año base, ella puede calcular los números índice que reflejan el volumen de cambios, mediante el proceso de la tabla 16-1. Utilizando estos cálculos, la secretaria de estado encuentra que los negocios abiertos en 1985 tuvieron un índice de 70 respecto a 1980. Otra manera de expresar esta relación es afirmar que el número de negocios abiertos en 1985 constituyó el 70% del número de negocios que iniciaron en 1980.
Tipos de números índice Índice de precios
Índice de cantidad
Existen tres tipos principales de índices: índice de precios, índice de cantidad e índice de valor. El índice de precios es el que más se utiliza; compara niveles de precios de un periodo a otro. El familiar índice de precios al consumidor (IPC),clasificado por los gobiernos de los países, mide los cambios globales de precio de un conjunto de bienes y servicios al consumidor , y se usa para definir el costo de la vida. El índice de cantidad mide cuánto cambia el número o la cantidad de una variable con el tiempo. En el ejemplo de los negocios nuevos determinamos un índice de cantidad de las cifras correspondientes a 1985, 1990 y 1995, respecto a las de 1980.
16.1: Definición de número índice
647
Tabla 16-1 Cálculo de números índice (año base = 1980)
Índice de valor
Números índice compuestos
Año (1)
Número de nuevos negocios (miles) (2)
1980
9.3
1985
6.5
1990 1995
Cociente (3) (2) 9.3
Índice o porcentaje relativo (4) (3) 100
9.3 10.00 9.3 6.5 0.70 9.3
1.00 100 100
9.6
9.6 1.03 9.3
1.03 100 103
10.1
10.1 1.09 9.3
1.09 100 109
0.70 100 70
El último tipo de índice, el índice de valor, mide los cambios en el valor monetario total; es decir, mide el cambio del v alor en dinero de una v ariable. De hecho, el índice de valor combina los cambios en precio y cantidad para presentar uníndice con más información. En nuestro ejemplo, sólo determinamos un índice de cantidad; sin embargo, podríamos haber incluido el efecto monetario mediante el cálculo del valor total incorporado en los años considerados. La tabla 16-2 presenta los índices de valor correspondientes a 1985, 1990 y 1995. Este cálculo nos permite afirmar que el índice de valor de los nuevos negocios en 1995 es 160. Podemos también decir que el valor incorporado de 1995 aumentó un 60% respecto al valor incorporado de 1980. En general, un índice mide el cambio en una variable durante un periodo, como en una serie de tiempo. Sin embargo, también se puede utilizar para medir diferencias en una variable dada en diferentes lugares. Esto se lleva a cabo recolectando datos de manera simultánea en los diferentes lugares y luego comparándolos. El índice comparativo del costo de vida, por ejemplo, muestra que en términos del costo de bienes y servicios, resulta más barato vivir en Austin, Texas, que en la ciudad de Nueva York. Un solo número índice puede reflejar un compuesto o un grupo de variables que cambian. El IPC mide el nivel general de precios para bienes y servicios específicos en la economía. Combina los precios individuales de bienes y servicios para formar un número índice de precios compuesto.
Usos de los números índice Los números índice pueden utilizarse de varias maneras. Lo más común es usarlos por s í mismos, como un resultado final. Los números índice, como el IPC, a menudo se citan en informes noticiosos como indicadores generales de la condición económica de un país.
Año (1)
Valor incorporado (millones) (2)
1980
$18.4
1985
14.6
1990 1995
Tabla 16-2 Cálculo de un índice de valor (año base = 1980)
Cociente (3) (2) 18.4
Índice o porcentaje relativo (4) (3) 100
18.4 1.00 18.4 14.6 0.79 18.4
1.00 100 100
26.2
26.2 1.42 18.4
1.42 100 142
29.4
29.4 1.60 18.4
1.60 100 160
0.79 100 79
648
CAPÍTULO 16 Números índice
Un uso del índice de precios al consumidor
La administración, utiliza los números índice como parte de un cálculo intermedio para entender mejor otra información. En este capítulo, los índices estacionales se usaron para modificar y mejorar estimaciones futuras. El uso del IPC para determinar el poder adquisitivo real del dinero es otro ejemplo de cómo los números índice ayudan a aumentar el conocimiento de otros factores. La tabla 16-3 da el salario semanal pagado a una secretaria durante varios años, los valores correspondientes del IPC y el cálculo del salario real de la secretaria. Su salario en dólares se incrementó sustancialmente, pero el poder de compra real de sus ingresos aumentó con menos rapidez. Esto se puede atribuir al aumento simultáneo del índice del costo de vida de 100 a 200.
Problemas relacionados con los números índice Existen varios factores que pueden distorsionar los números índice. Las cuatro causas más comunes son: Número limitado de datos
No se pueden comparar
Ponderación no apropiada
Uso de una base no apropiada
1. En ocasiones hay dificultad para encontrar datos adecuados para calcular un índice. Suponga que el administrador de ventas de la empresa ColonialAircraft está interesado en calcular un índice que describa la variación estacional de las ventas de las avionetas que fabrica la compañía. Si las ventas se registran sólo anualmente, el administrador no será capaz de determinar el patrón de ventas estacional. 2. La falta de comparación de índices ocurre cuando se intenta comparar un índice con otro después de que ha habido un cambio básico en lo que se mide. Si el organismo Ciudadanos por un Transporte Razonable compara índices de precios de autom óviles de 1979 a 1989, encuentra que los precios han aumentado sustancialmente. Sin embar go, esta comparación no toma en cuenta el aumento en la calidad de los automóviles debido a los avances tecnológicos logrados en el periodo bajo consideración. 3. La ponderación no apropiada de factores también puede distorsionar un índice. Al desarrollar un índice compuesto, como el IPC, es necesario tomar en cuenta que los cambios en algunas variables son más importantes que en otros. El efecto sobre la economía del aumento de 50 centavos por galón de gasolina no puede contrarrestarse con una disminuci ón de 50 centavos en el precio de los automóviles. Debe tomarse en cuenta que un aumento en el precio de la gasolina tiene un efecto mucho mayor en los consumidores.Así, debe asignarse un peso mayor al precio aumentado de la gasolina que a la disminución en el costo de los automóviles. 4. La distorsión de los números índice también ocurre cuando seselecciona una base no apropiada. A veces, una compañía selecciona una base que autom áticamente conduce a un resultado que refleja sus propios intereses y lo usa para probar su suposici ón inicial. Si la organización Consumidores Contra los Desechos de Petróleo desea que las compañías petroleras tengan una mala imagen, podría medir las ganancias de este año empleando un año de recesión como base de las utilidades del petróleo. Esto produciría un índice que mostraría que las ganancias por venta de petróleo tuvieron un aumento sustantivo. Por el otro lado, si la organización Consumidores por el Uso Ilimitado del Petr óleo desea mostrar que las ganancias de este a ño son mínimas, podría elegir un año con ganancias altas como su año base; el resultado podría ser un índice que indica un pequeño aumento o quizá una disminución en las ganancias de este a ño. Por tanto, siempre debemos considerar cómo y por qué se seleccionó el periodo base antes de aceptar una aseveración basada en la comparación de números índice.
Año (1)
Salario semanal pagado (2)
Índice de precios al consumidor (3)
1977
$114.75
100
1982
145.50
123
1992
472.98
200
Tabla 16-3 Cálculo de salarios reales
(2) 100 (4) (3) 100 114.75 100 100 145.50 123 100 472.98 200
Salario real o ajustado $114.75 $118.29 $236.49
16.2: Índice de agregados no ponderados
649
Fuentes de números índice Fuentes de datos para números índice
Cuando los administradores aplican n úmeros índice a los problemas de la vida diaria, utilizan muchas fuentes para obtener la información necesaria. La fuente depende de sus requerimientos de información. Una compañía puede utilizar informes mensuales de ventas para determinar su patrón estacional. Al manejar áreas extensas de la economía nacional y el nivel general de la actividad financiera, publicaciones como Federal Reserve Bulletin, Moody’s, Monthly Labor Review y el Índice de Precios al Consumidor proporcionan gran abundancia de datos. Muchas publicaciones federales y estatales estadounidenses est án citadas en el bolet ín que publica el Departamento de Comercio, Measuring Markets. Casi todas las dependencias gubernamentales distrib uyen datos acerca de sus actividades, con los que se pueden calcular los números índice. Muchos periódicos y revistas financieros proporcionan información a partir de la cual es posible calcular n úmeros índice. Si consulta estas fuentes, encontrará que, por su parte, muchas de ellas utilizan números índice.
Ejercicios 16.1 Conceptos básicos ■ ■ ■ ■ ■ ■
16-1 16-2 16-3 16-4 16-5 16-6
¿Cuál es el índice para un año base? Explique las diferencias entre los tres tipos principales de índices: de precio, de cantidad y de valor. ¿Qué mide el índice de precios al consumidor? ¿Está basado en una sola variable o en un grupo de variables? Mencione dos formas básicas de utilizar los números índice. ¿Qué mide un número índice? ¿Cómo se encuentra un porcentaje relativo (índice)?
16.2 Índice de agregados no ponderados
Cálculo de un índice de agregados no ponderados
La forma más sencilla de un índice compuesto es el índice de agregados no ponderados. No ponderados significa que todos los valores considerados tienen la misma importancia; de agregados quiere decir que sumamos todos los valores. La mayor ventaja de un índice de agregados no ponderados es su sencillez. Un índice de agregados no ponderados se calcula sumando todos los elementos del compuesto para el periodo dado y lue go dividiendo este resultado entre la suma de los mismos elementos durante el periodo base. La ecuaci ón 16-1 presenta la f órmula matemática para calcular un índice de cantidad de agregados no ponderados. Índice de cantidad de agregados no ponderados Qi 100 Q0
[16-1]
donde, • Qi cantidad de cada elemento del compuesto en el año para el que se desea el índice. • Q0 cantidad de cada elemento del compuesto en el año base. Cabe explicar el uso del sub índice i para indicar el año para el que se calcula dicho índice. Suponga que se tienen datos de cantidades para 1990 (el año base), 1991 y 1992, y queremos calcular índices de cantidad de agregados sin ponderar para 1991 y 1992. Si se usan los sub índices 0, 1 y 2 para denotar 1990, 1991 y 1992, entonces el índice para 1991 es Q1 100 Q0
650
CAPÍTULO 16 Números índice
y el índice para 1992 es Q2 100 Q0
Cálculo de un índice no ponderado
Interpretación del índice
Limitaciones de un índice no ponderado
Ambos índices se captan al usar el subíndice genérico i en el numerador de la ecuación 16-1. Se usará i de esta manera en las fórmulas que definen todos los números índice que se estudian en este capítulo. Por brevedad, se usará año actual para indicar el año en que se quiere el índice. Observe que se pueden sustituir ya sea precios o valores por las cantidades de la ecuaci ón 16-1 para encontrar la ecuación general para un índice de precios o un índice de valor. Como el cociente se multiplica por 100, el índice que resulta es, técnicamente, un porcentaje. Sin embargo, es costumbre referirse sólo al valor y omitir el signo % al analizar los números índice. El ejemplo de la tabla 16-4 muestra cómo se calcula un índice no ponderado. En este caso, queremos medir los cambios en los niveles generales de precios con base en los cambios de precios de unos cuantos artículos. Los precios para 1990 son los valores base con los que se comparan los precios de 1995. A partir de estos cálculos determinamos que el índice de precios que describe el cambio en estos productos de 1990 a 1995 es 145. Si los elementos de este compuesto son representati vos del nivel general de precios, podemos decir que los precios se elevaron 45% de 1990 a 1995. Sin embargo, no podemos esperar que una muestra de cuatro elementos refleje precisamente los cambios de precio de todos los bienes y servicios. Por tanto, este cálculo nos proporciona s ólo una estimación muy burda. Suponga que ahora agregamos el cambio en el precio de las calculadoras electrónicas de bolsillo de 1990 a 1995 a nuestro compuesto (tabla 16-5). De nue vo, 1990 es el periodo base con el cual comparamos los precios de 1995. Intuitivamente, sabemos que el índice anterior de 145 es una estimaci ón más precisa del comportamiento general de los precios que 92,ya que hubo más precios que se elevaron que los que disminuyeron entre 1990 y 1995. Esto constituyela principal desventaja de un índice no ponderado. No le da un peso o ponderación mayor al cambio de precio de un producto de uso muy común que al de uno de uso poco com ún. (Una familia puede comprar 50 docenas de huevos en un año, pero sería poco normal que una familia tuviera más de una o dos calculadoras.) Un cambio sustantivo en el precio de productos de movimiento lento puede distorsionar por completo un índice. Por esta razón, no es común utilizar un índice simple no ponderado en análisis importantes. Precios
Tabla 16-4 Cálculo de un índice no ponderado
Elementos del compuesto Leche (1 galón) Huevos (1 docena) Hamburguesa (1 libra) Gasolina (1 galón)
1990 P0
1995 P1
$1.92 0.81 1.49 1.00 P0 5.22
$3.40 1.00 2.00 1.17 P1 7.57
P Índice de precios de agregados no ponderados i 100 P0 7.57 100 5.22 1.45 100 145
[16-1]
16.2: Índice de agregados no ponderados
651
Precios
Tabla 16-5 Elementos del compuesto
Cálculo de un índice no ponderado
Leche (1 galón) Huevos (1 docena) Hamburguesa (1 libra) Gasolina (1 galón) Calculadora electrónica de bolsillo (1 pieza) P0 Índice de precios de agregados no ponderados
1990 P0
1995 P1
$1.92 0.81 1.49 1.00 15.00 20.22
$3.40 1.00 2.00 1.17 11.00 P1 18.57
P i 100 P0
[16-1]
18.57 100 20.22 0.92 100 92
Las deficiencias de un índice no ponderado sugieren el uso de un índice ponderado. Existen dos maneras de calcular índices más sofisticados. Se analizará con detalle cada una en las siguientes secciones. Advertencia: un índice no ponderado puede estar distorsionado y perder su valor por los cambios en unos cuantos artículos del índice que no representan con fidelidad la situación que se estudia. Sugerencia: en Estados Unidos, los pagos de Se guro Social están “indexados” al índice de precios al consumidor que incluye los costos hipotecarios promedio como medida de los costos de vivienda. Pero la mayoría de los suscritos al seguro social no buscan una nueva hipoteca. Con la excepSUGERENCIAS Y SUPOSICIONES
ción de quienes tienen una hipoteca de tasa ajustable, los pagos son fijos y por tanto sus costos no están afectados por la inflación. Advertencia: la mayor desventaja de un índice no ponderado es que no da más importancia a los cambios de precios de los art ículos de mayor uso que a los que se utilizan menos. Sugerencia: antes de decidir qué índice es el adecuado, observe con cuidado las componentes del producto/servicio de ese índice para ver si su uso ha sido constante.
Ejercicios 16.2 Ejercicio de autoevaluación EA
16-1
El vicepresidente de ventas de Xenon Computer Corporation est á examinando la tasa de comisi ón para los empleados durante los últimos 3 años. A continuación, se listan las ganancias por comisiones de los cinco mejores vendedores de la compañía:
Guy Howell Skip Ford Nelson Price Nina Williams Ken Johnson
1993
1994
1995
$48,500 41,900 38,750 36,300 33,850
$55,100 46,200 43,500 45,400 38,300
$63,800 60,150 46,700 39,900 50,200
Considerando a 1993 como el periodo base, exprese las ganancias por comisiones de 1994 y 1995 en términos de un índice de agregados no ponderados.
652
CAPÍTULO 16 Números índice
Aplicaciones ■
16-7
En un esfuerzo por obtener una medida de las dificultades económicas, el Fondo Monetario Internacional (FMI) recolectó datos sobre el comportamiento de los precios de cinco productos principales importados por un grupo de pa íses menos desarrollados. Utilizando el a ño 1992 como el periodo base, exprese los precios de 1995 en términos de un índice de agregados no ponderados. Producto Precios de 1992 Precios de 1995
■
16-8
16-9
■ 16-11
D
E
$127 $152
$532 $651
$2,290 $2,314
$60 $76
$221 $286
1992
Salario por hora 1993 1994
$8.48 6.90 4.50 3.10
$9.32 7.52 4.99 3.47
1995
$10.34 8.19 5.48 3.85
$11.16 8.76 5.86 4.11
1993
1994
1995
1996
$3,142 2,816 3,582 4,014
$3,564 3,474 3,987 4,197
$4,109 3,682 4,406 4,384
$4,372 4,019 4,819 4,671
Utilice 1993 como periodo base, exprese los cargos de colegiatura en 1994, 1995 y 1996 en términos de un índice de agregados no ponderados. Billy Ivey, administrador de un pequeño hospital rural, recolectó información concerniente a los productos alimenticios adquiridos por la cocina del hospital. Para las mercancías enumeradas, el precio correspondiente indica el precio promedio de ese año. Utilizando 1994 como periodo base, exprese los precios de 1993 y 1995 en términos de un índice de agregados no ponderados. Mercancía
1993
1994
1995
Lácteos Carnes Vegetales Frutas
$2.34 3.19 0.85 1.11
$2.38 3.41 0.89 1.19
$2.60 3.36 0.94 1.18
Una planta de procesado químico utilizó cinco materiales en la manufactura de un agente de limpieza industrial. Los siguientes datos indican los ni veles finales de inventario para estos materiales durante los años 1993 y 1995. Material Inventario (tons.) 1993 Inventario (tons.) 1995
■ 16-12
C
Usando el año 1992 como periodo base, calcule el índice de salarios de agre gados no ponderados para 1993, 1994 y 1995. Un estudio de los costos de la universidad recolectó datos de la colegiatura que paga un estudiante de tiempo completo de licenciatura durante 4 años en cuatro escuelas:
U. del este U. estatal U. del oeste U. del centro
■ 16-10
B
Con el fin de negociar con el sindicato, los representantes de la administración de una fábrica grande están recopilando datos sobre el ni vel de los salarios. Los datos siguientes corresponden al pago base por las diferentes clases de trabajo realizado en la planta, durante un periodo de cuatro años:
Clase A Clase B Clase C Clase D
■
A
A
B
C
D
E
86 95
395 380
1,308 1,466
430 469
113 108
Utilizando 1993 como periodo base, exprese los niveles de inventario de 1995 en términos de un índice de agregados no ponderados. John Dykstra, aprendiz de gerente de un banco, ha recabado información sobre las transacciones del banco correspondientes a los años 1994 y 1995:
16.3: Índice de agregados ponderados
653
Retiros Depósitos Cuentas de ahorros Cuentas de cheques Cuentas de ahorros Cuentas de cheques Número de transacciones 1994 Número de transacciones 1995
■ 16-13
169,000 158,000
21,843,000 23,241,000
293,000 303,000
2,684,000 3,361,000
Con 1994 como periodo base, exprese el número de transacciones bancarias de 1995 en t érminos de un índice de agregados no ponderados. La Editorial Bookster empezó su negocio de publicación de libros de texto universitarios en 1993. La editorial está interesada en determinar cuánto han cambiado sus ventas en comparación con el primer año de operaciones. Un resumen de los registros de la compañía muestra cuántos libros nuevos publicó cada año en las áreas siguientes:
Biología Matemáticas Historia Inglés Sociología Física Química Filosofía
1993
1994
1995
48 32 19 16 24 10 27 11
53 37 15 20 18 26 26 8
50 35 22 21 26 32 30 15
Utilizando 1993 como año base, calcule el índice de cantidad de agregados ponderados para 1994 y 1995. Interprete los resultados para la compañía editorial.
Solución al ejercicio de autoevaluación EA
16-1
1993 Q0 Howell Ford Price Williams Johnson
Qi Índice 100: Q0
1994 Q1
1995 Q2
48,500 41,900 38,750 36,300 00,033,850 199,300
55,100 46,200 43,500 45,400 00,038,300 228,500
63,800 60,150 46,700 39,900 00,050,200 260,750
19,930,000 99,300 100.0
22,850,000 199,300 114.7
26,075,000 199,300 130.8
16.3 Índice de agregados ponderados Ventajas de ponderar un índice
Cálculo de un índice de agregados ponderados
Como mencionamos, cuando calculamos un índice a menudo tenemos que asignar una importancia mayor a los cambios en algunas variables que en otras. Esta ponderación nos permite incluir más información, que sólo el cambio de los precios en el tiempo:nos permite mejorar la precisión de la estimación del nivel general de precios basado en una muestra. El problema reside en decidir cu ánto peso asignar a cada una de las variables en la muestra. La fórmula general para calcular un índice de precios de agregados ponderados es Índice de precios de agregados ponderados PiQ 100 P0Q
[16-2]
654
CAPÍTULO 16 Números índice
donde, • Pi precio de cada elemento del compuesto en el año actual • P0 precio de cada elemento del compuesto en el año base • Q factor de ponderación de cantidad seleccionado
Tres maneras de ponderar un índice
Considere la muestra de la tabla 16-6. Cada elemento del compuesto se tom ó de la tabla 16-5 y se ponderó de acuerdo con el volumen de ventas. El proceso de ponderar agregados confirma nuestra impresión intuitiva anterior, sobre el hecho de que el nivel general de los precios había aumentado (índice 129). Por lo general, la administración utiliza la cantidad consumida de un producto como la medida de su importancia cuando calcula un índice de agregados ponderados. Esto conduce a una importante cuestión sobre la aplicación del proceso: ¿qué cantidades se utilizaron? En general, existen tres formas de ponderar un índice. La primera implica el uso de las cantidades consumidas durante el periodo base en el cálculo de cada número índice. Esta forma se conoce como método de Laspeyres, en honor al estadístico que lo diseñó. La segunda utiliza, para cada índice, las cantidades consumidas durante el periodo en cuestión. Éste es el método de Paasche, en honor a la persona que lo desarrolló. La tercera forma se conoce como método de agregados con peso fijo. En este método, se selecciona un periodo y sus cantidades se utilizan para encontrar todos los índices (note que si el periodo escogido es el base, el método de agregados con peso fijo coincide con el método de Laspeyres).
Método de Laspeyres El método de Laspeyres Cálculo de un índice de Laspeyres
El método de Laspeyres, que utiliza las cantidades consumidas durante el periodo base, es el más usado debido a que requiere medidas de cantidades para solo un periodo. Como cada número de índice depende del mismo precio y cantidad base, los administradores pueden comparar el índice de un periodo directamente con el índice de otro. Suponga, por ejemplo, que el índice de precios de un fabricante de acero es 103 en 1992 y 125 en 1995, utilizando los precios y las cantidades de 1990 como base. La compa ñía concluye que el ni vel general de precios ha aumentado 22% de 1992 a 1995. Para calcular el índice de Laspeyres, la compañía primero multiplica el precio del periodo actual por la cantidad del periodo base para cada elemento del compuesto y después suma los valores resultantes. Después multiplica el precio del periodo base por la cantidad del periodo base para ca-
Elementos del compuesto
Q Volumen (miles de millones) (1)
P0 Precios de 1990 (2)
P1 Precios de 1995 (3)
Leche Huevos Hamburguesas Gasolina Calculadoras
20.000 (gal) 3.500 (doc) 11.000 (lb) 154.000 (gal) 0.002 (unid)
$ 1.92 0.81 1.49 1.00 15.00
$ 3.40 1.00 2.00 1.17 11.00
Tabla 16-6 Cálculo de un índice de agregados ponderados
P0Q Ventas ponderadas (4) (2) (1)
P1Q Ventas ponderadas (5) (3) (1)
1.92 20.000 38.40 0.81 3.500 2.84 1.49 11.000 16.39 1.00 154.000 154.00 15.00 0.002 00 0.03 P0Q 211.66
Índice de agregados ponderados
3.40 20.000 68.00 1.00 3.500 3.50 2.00 11.000 22.00 1.17 154.000 180.18 11.00 0.002 00 0.02 P1Q 273.70
PiQ 100 P0Q
273.70 100 211.66
1.29 100
129
[16-2]
16.3: Índice de agregados ponderados
655
da elemento y, de nuevo, suma los resultados. Al dividir la primera suma entre la se gunda y multiplicar el resultado por 100, la administración puede convertir este valor en un porcentaje relativo. La ecuación 16-3 representa la fórmula utilizada para determinar el índice de Laspeyres. Índice de Laspeyres PiQ0 100 P0Q0
[16-3]
donde, • Pi precios en el año actual • P0 precios en el año base • Q0 cantidades vendidas en el año base Ejemplo con el método de Laspeyres Conclusiones obtenidas a partir del índice calculado
Ventajas del método de Laspeyres
Desventajas del método de Laspeyres
Trabajemos un ejemplo para mostrar c ómo se utiliza el m étodo de Laspeyres. Suponga que deseamos determinar los cambios en el nivel de precios entre 1991 y 1995. La tabla 16-7 contiene los datos pertinentes para estos dos años. Si seleccionamos una muestra representativa de bienes, podemos concluir que el índice general de precios para 1995 es de 121, basado en el índice de 1991, que es 100. De otra manera, podemos decir que los precios se han incrementado en 21%. Note que hemos utilizado la cantidad promed io consumida en 1991, en lugar de la cantidad total consumida. En realidad,no importa cuál usemos, siempre que apliquemos la misma medida de cantidad en todo el problema. En general,seleccionamos la medida de cantidad que resulta más fácil encontrar. Una ventaja del método de Laspeyres es la posibilidad de comparar un índice con otro. Si tuviéramos los precios de 1992 en el ejemplo anterior, podríamos encontrar un valor para el índice general de precios de 1992. Este índice podría compararse directamente con el de 1995. El uso de la misma cantidad en el periodo base nos permite hacer comparaciones directas. Otra ventaja es que muchas medidas de cantidad de uso común no se tabulan cada año. Una empresa puede estar interesada en alguna variable cuya medida de cantidad se calcule ós lo cada 10 años. El método de Laspeyres utiliza una sola medida de cantidad, la correspondiente al año base, de manera que la compañía no necesita tabulaciones anuales para medir cantidades consumidas. La desventaja principal del método de Laspeyres es que no toma en cuenta los cambios en los patrones de consumo. Los productos comprados en grandes cantidades hace apenas unos años, hoy pueden tener poca importancia. Suponga que la cantidad base de un producto difiere mucho de
Tabla 16-7 Cálculo del índice de Laspeyres
Elementos de compuesto (1) Pan (1 barra) Papas (1 lb) Pollo (paquete de 3 lb)
P0 Precio base 1991 (2)
P1 Precio actual 1995 (3)
$0.91 0.79 3.92
$1.19 0.99 4.50
Q0 Cantidad promedio consumida en 1991 por una familia (4) 200 barras 300 lb 100 pollos
P0Q0 (5) (2) (4) $182 237 0392 P0Q0 811
PiQ0 Índice de precios de Laspeyres 100 P0Q0 985 100 811 1.21 100 121
P1Q0 (6) (3) (4) $238 297 0450 P1Q0 985 [16-3]
656
CAPÍTULO 16 Números índice
la cantidad correspondiente al periodo en cuestión. Entonces el cambio en el precio de ese producto indica muy poco acerca del cambio en el nivel general de precios.
Método de Paasche Diferencia entre los métodos de Laspeyres y de Paasche
Cálculo de un índice de Paasche
La segunda forma de calcular un índice de agregados ponderados es el método de Paasche. Encontrar un índice de Paasche es similar a encontrar uníndice de Laspeyres. La diferencia consiste en que los pesos usados en el método de Paasche son las medidas de cantidad para el periodo actual, en lugar de las del periodo base. El índice de Paasche se calcula multiplicando el precio del periodo actual por la cantidad del periodo actual para cada elemento del compuesto y sumando estos productos. Lue go se multiplica el precio del periodo base por la cantidad del periodo actual para cada elemento y se suman los resultados. La primera suma se divide entre la segunda y el valor del cociente se multiplica por 100 para convertirlo en un porcentaje relativo. La ecuación 16-4 define el método para calcular un índice de Paasche. Índice de Paasche PiQi 100 P0Qi
[16-4]
donde, • Pi precios del periodo actual • P0 precios del periodo base • Qi cantidades del periodo actual
Interpretación de la diferencia entre los dos métodos Ventaja del método de Paasche
Con esta ecuación podemos trabajar de nuevo el problema de la tabla 16-7. Note que se descartaron las cantidades consumidas en 1991,se sustituyeron por las cantidades consumidas en 1995. La tabla 16-8 presenta la información necesaria para este problema modificado. En este análisis, encontramos que el índice de precios para 1995 es 117. Como se v e en la tabla 16-7, el índice de precios calculado con el método de Laspeyres es 121. La diferencia entre estos dos índices refleja el cambio en los patrones de consumo de las tres variables del compuesto. El método de Paasche es particularmente útil porque combina los efectos de los cambios de precio y los patrones de consumo. Así, es un mejor indicador de los cambios generales de la economía
Tabla 16-8 Cálculo de un índice de Paasche
Elementos del compuesto (1)
P1 Precio actual 1995 (2)
Pan (1 barra) Papas (1 lb) Pollo (paquete de 3 lb)
$1.19 0.99 4.50
P0 Precio base 1995 (3) $0.91 0.79 3.92
Q1 Cantidad promedio consumida en 1995 una familia (4) 200 barras 100 lb 300 pollos
P1Q1 (5) (2) (4) $ 238 99 1,350 P1Q1 1,687
P Q Índice de precios de Paasche 11 100 P0Q1 1,687 100 1.437 1.17 100 117
P0Q1 (6) (3) (4) $ 182 79 1,176 P0Q1 1,437 [16-4]
16.3: Índice de agregados ponderados
Desventajas del método de Paasche
657
que el método de Laspeyres. En nuestros ejemplos, el índice de Paasche muestra una tendencia hacia los bienes y servicios menos caros, ya que indica un aumento en el nivel de precios del 17% en lugar del aumento del 21% calculado mediante el método de Laspeyres. Una de las principales desventajas del método de Paasche es la necesidad de tabular medidas de cantidad para cada periodo examinado. A menudo, recolectar la información de cantidad de cada periodo es costoso o no está disponible. Sería difícil, por ejemplo, encontrar fuentes confiables de datos para determinar medidas de cantidad de 100 productos alimentarios consumidos en diferentes países para cada año de un periodo de varios años. Cada valor de un índice de precios de Paasche es el resultado de cambios en precio y cantidad respecto al periodo base. Como las medidas de cantidad utilizadas para un periodo del índice suelen ser diferentes de las medidas de cantidad para otr o periodo del índice, es imposible atribuir la diferencia entre los dos índices solamente a los cambios de pr ecio. En consecuencia, es difícil comparar índices de diferentes periodos calculados con el método de Paasche.
Método de agregados con peso fijo
Cálculo de un índice de agregados con peso fijo
La tercera técnica utilizada para asignar pesos a los elementos de un compuesto es el m étodo de agregados con peso fijo. Es parecido a los métodos de Laspeyres y Paasche, pero en lugar de utilizar pesos del periodo base o del periodo actual (cantidades), usa pesos tomados de un periodo representativo. Los pesos representativos se conocen como pesos fijos. Estos pesos fijos y los precios base no tienen que corresponder al mismo periodo. Calculamos un índice de precios de agregados con peso fijo multiplicando los precios del periodo actual por los pesos f ijos y sumando los resultados. Lue go, multiplicamos los precios del period o base por los pesos fijos y sumamos los resultados. Por último, dividimos la primera suma entre la segunda y multiplicamos el cociente por 100 para convertirlo en un porcentaje relativo. La fórmula utilizada para calcular un índice de precios de agregados con peso fijo se presenta en la ecuación 16-5. Índice de precios de agregados con peso fijo PiQ2 100 P0Q2
[16-5]
donde, • Pi precios del periodo actual • P0 precios del periodo base • Q2 pesos fijos Ejemplo de un índice de agregados con peso fijo
Ventajas de un índice de agregados con peso fijo
Podemos mostrar el proceso utilizado para calcular un índice de precios de agregados con peso fijo con la solución del ejemplo con el que abrimos el capítulo. Recuerde que la administración desea determinar los cambios en el nivel de precios de las materias primas consumidas por la compañía entre 1975 y 1995. Se reunió la información en la tabla 16-9. Después de examinar los registros de compras históricos, la administración decidió que las cantidades adquiridas en 1988 fueron características de los patrones de compras durante los 20 años. El nivel de precios de 1975 es el precio base del análisis. El cálculo del índice de agregados con peso fijo se muestra en la tabla 16-9. La administración de la compañía concluye, a partir de este análisis, que el nivel general de precios ha aumentado el 157% en el periodo de 20 años. La ventaja principal de un índice de precios de agregados con peso fijo es la flexibilidad al seleccionar el precio base y el peso fijo (cantidad). En muchos casos, el periodo que una compañía desea utilizar como el nivel de precios base tiene un nivel de consumo no característico. Por tanto, al poder seleccionar un periodo diferente para el peso f ijo, la compañía puede mejorar la precisión del índice. Este método también permite a la compañía cambiar el precio base sin tener que cambiar el peso fijo. Esto es útil porque las medidas de cantidad muchas v eces son más costosas o imposibles de obtener para ciertos periodos.
658
CAPÍTULO 16 Números índice
Tabla 16-9 Cálculo de un índice de agregados con peso fijo
Materia prima (1)
Q2 Cantidad consumida en 1988 (miles de toneladas) (2)
Carbón Mineral de hierro Mineral de níquel
158 12 5
P0 Precio promedio en 1975 ($ por tonelada) (3)
P1 Precio promedio en 1995 ($ por tonelada) (4)
$ 7.56 9.20 12.30
$19.50 21.40 36.10
P0Q2 Agregado ponderado 1975 (5) (3) (2)
$ 1,194.48 110.40 $1, 61.50 P0Q2 1,366.38
Índice de precios de agregados con peso fijo
Los tres m étodos analizados en esta sección producen índices de agregados ponderados usando las cantidades consumidas como base para la ponderación. Sugerencia: la única diferencia real entre ellos es el periodo que usa cada uno para seleccionar estas cantidades. El m étodo de Laspeyres usa cantidades del periodo base. El método Paasche usa cantidades del periodo en cuesti ón. El método de agregados con peso fijo usa cantidades de un peSUGERENCIAS Y SUPOSICIONES
P1Q2 Agregado ponderado 1995 (6) (4) (2) $3,081.00 256.80 1, 180.50 P1Q2 3,518.30
PiQ2 100 P0Q2
3,518.30 100 1,366.38
2.57 100
257
[16-5]
riodo seleccionado. Sugerencia: si el periodo seleccionado en el método de agregados con peso fijo es el periodo base, este método se convierte en el de Laspeyres. Advertencia: elegir el periodo que se usar á para las ponderaciones requiere la observación cuidadosa y sentido común. El tomador de decisiones busca un periodo que tenga un consumo característico, es decir, un periodo que refleje lo mejor posible la realidad de la situación. No hay una fórmula matemática que proporcione la respuesta adecuada para hacerlo.
Ejercicios 16.3 Ejercicios de autoevaluación EA
16-2
EA
16-3
EA
16-4
Bill Simpson, propietario de un viñedo en California, recolectó la siguiente información que describe los precios y cantidades de cosechas para el periodo 1992-1995. Tipo de uva
1992
Ruby Cabernet Barbera Chenin Blanc
$108 93 97
Precio (por tonelada) 1993 1994 1995 $109 96 99
$113 96 106
$111 101 107
Cantidad cosechada (toneladas) 1992 1993 1994 1995 1,280 830 1,640
1,150 860 1,760
1,330 850 1,630
1,360 890 1,660
Use los datos del ejercicio EA 16-2 para calcular uníndice con peso fijo para cada año utilizando los precios de 1992 como base y las cantidades de 1995 como peso fijo. Use los datos del ejercicio EA 16-2 para calcular un índice de Paasche para cada año, utilice 1993 como periodo base.
16.3: Índice de agregados ponderados
659
Aplicaciones ■ 16-14
■ 16-15 ■ 16-16 ■ 16-17
■ 16-18
■ 16-19
Eastern Digital ha desarrollado una participación de mercado sustancial en la industria de las PC. Los precios y número de unidades vendidas de sus cuatro mejores computadoras de 1993 a 1996 fueron: Modelo
1993
ED 107 ED Electra ED Optima ED 821
1,894 2,506 1,403 1,639
Precio de venta (dólares) 1994 1995 1996 1,906 2,560 1,440 1,650
1,938 2,609 1,462 1,674
1993
1,957 2,680 1,499 1,694
Número vendido (miles) 1994 1995 1996
84.6 38.4 87.4 75.8
86.9 42.5 99.4 78.9
98.4 55.6 109.7 82.4
107.5 67.5 134.6 86.4
Construya un índice de Laspeyres para cada uno de los 4 años, con 1993 como periodo base. Use los datos del ejercicio 16-14 para calcular un índice con pesos fijos para cada año, con los precios de 1993 como la base y las cantidades de 1996 como pesos fijos. Use los datos del ejercicio 16-14 para calcular un índice Paasche para cada año, con 1994 como periodo base. Julie Pristash, gerente de comercialización de Mod-Stereo, una empresa dedicada a la fabricación de casetes de audio v írgenes, ha recopilado la siguiente informaci ón de las v entas unitarias para el periodo 1993-1995. Use las cantidades promedio vendidas de 1993 a 1995 como los pesos fijos, calcule el índice con pesos fijos para cada uno de los años del periodo, con base en 1993. Capacidad de cinta (minutos) 30 60 90 120
1993
Venta al menudeo 1994
1995
$2.20 2.60 3.10 3.30
$2.60 2.90 3.20 3.35
$2.85 3.15 3.25 3.40
Cantidad promedio (cientos de miles) 1993-1995 32 119 75 16
Gray P. Saeurs es propietario de un puesto de frutas situado en una esquina de un pequeño poblado. Después de escuchar varias quejas de que sus precios cambiaban constantemente durante el verano, ha decidido ver si esto es cierto. Basándose en los datos siguientes, ayude al señor Saeurs a calcular los índices de precios de agregados ponderados para cada mes. Utilice el mes de junio como periodo base.¿El resultado que obtuvo es un índice de Laspeyres o de Paasche? Fruta
Junio
Precio por libra Julio
Agosto
Núm. de libras vendidas Junio
Manzana Naranja Durazno Sandía Melón
$0.59 0.75 0.87 1.00 0.95
$0.64 0.65 0.90 1.10 0.89
$0.69 0.70 0.85 0.95 0.90
150 200 125 350 150
Charles Widget está a cargo de mantener en e xistencia ciertos productos que la compa ñía necesita para reparar sus máquinas. Desde que empezó su trabajo hace tres años, ha estado observando los cambios en los precios de los productos a su cargo. Clasificó los datos en la siguiente tabla con el f in de calcular un índice de precios de agregados con peso fijo. Realice los cálculos que el señor Widget haría, usando el año 1993 como año base. Producto
1993
Dispositivo W Dispositivo X Dispositivo Y Dispositivo Z
$1.25 $6.50 $5.25 $0.50
Precio por producto 1994 1995 $1.50 $7.00 $5.90 $0.80
$2.00 $6.25 $6.40 $1.00
Núm. promedio usado en el periodo de 3 años 900 50 175 200
660
CAPÍTULO 16 Números índice
Soluciones a los ejercicios de autoevaluación EA
16-2 Tipo de uva
1992 Q0
1992 P0
1993 P1
1994 P2
1995 P3
Ruby Cabernet Barbera Chenin Blanc
1,280 830 1,640
108 93 97
109 96 99
113 96 106
111 101 107
1992 P0Q0
1993 P1Q0
1994 P2Q0
1995 P3Q0
138,240 177,190 159,080 374,510
139,520 179,680 162,360 381,560
144,640 179,680 173,840 398,160
142,080 183,830 175,480 401,390
PiQ0 Índice de Laspeyres 100: P0Q0
EA
16-3
37,451,000 374,510
38,156,000 374,510
100.0
101.9
106.3
Tipo de uva
1995 Q3
1992 P0
1993 P1
1994 P2
1995 P3
Ruby Cabernet Barbera Chenin Blanc
1,360 890 1,660
108 93 97
109 96 99
113 96 106
111 101 107
1992 P0Q3
1993 P1Q3
1994 P2Q3
1995 P3Q3
146,880 182,770 161,020 390,670
148,240 185,440 164,340 398,020
153,680 185,440 175,960 415,080
150,960 189,890 177,620 418,470
PiQ3 Índice con pesos fijos 100: P0Q3
39,067,000 390,670 100.0
EA
39,816,000 374,510
16-4 Tipo de uva Ruby Cabernet Barbera Chenin Blanc
41,508,000 390,670
41,847,000 390,670
101.9
106.2
107.1
1993 P0
1994 P2
1995 P3
1992 Q1
1993 Q0
1994 Q2
1995 Q3
108 93 97
109 96 99
113 96 106
111 101 107
1,280 830 1,640
1,150 860 1,760
1,330 850 1,630
1,360 890 1,660
P1Q1 138,240 77,190 159,080 374,510
1994 P0Q1
139,520 79,680 162,360 381,560
PiQi Índice de Paasche 100: P0Qi
P2Q2 150,290 81,600 172,780 404,670
107.2
39,802,000 390,670
1992 P1
1992
40,139,000 374,510
1995 P0Q2
144,970 81,600 161,370 387,940
P3Q3 150,960 89,890 177,620 418,470
P0Q3 148,240 85,440 164,340 398,020
37,451,000 381,560
40,467,000 387,940
41,847,000 398,020
98.2
104.3
105.1
16.4: Métodos de promedio de relativos
661
16.4 Métodos de promedio de relativos Método de promedio no ponderado de relativos
Cálculo de un promedio no ponderado de índice de relativos
Para construir un índice, como una alternativa a los métodos de agregados, podemos utilizar el método de promedio de relativos. De nuevo, usaremos un índice de precios para presentar el proceso. En realidad, utilizamos una forma del método de promedio de relativos al calcular el índice simple de la tabla 16-1. En ese ejemplo de un solo producto,calculamos el porcentaje relativo dividiendo el número de negocios nuevos abiertos en el año actual, Ql, entre el número que se tuvo en el año base, Q0, y multiplicando el resultado por 100. Cuando tenemos más de un producto (o acti vidad), primero encontramos el cociente del precio actual entre el precio base para cada producto y multiplicamos cada cociente obtenido por 100. Luego sumamos esos porcentajes relativos y dividimos el resultado entre el número de productos. (Observe que los métodos de agregados analizados en la sección 16-3 son diferentes de este método. Los anteriores suman todos los precios antes de encontrar el cociente.) La ecuación 16-6 presenta la forma general para el método de promedio no ponderado de relativos. Índice de precios de promedio no ponderado de relativos P
∑P0i 100
n
[16-6]
donde, • Pi precios del periodo actual • P0 precios del periodo base • n número de elementos (o productos) del compuesto Comparación del índice de agregados no ponderados y el índice de promedio no ponderado de relativos
En la tabla 16-10, volvimos a trabajar el problema de la tabla 16-4, utilizando el método de promedio no ponderado de relativos, en lugar del método de agregados no ponderados. Según este análisis, el índice general de precios para 1995 es 138. En la tabla 16-4, el índice de agregados no ponderados para el mismo problema es 145. Ob viamente, existe una diferencia entre estos dos índices. Con el método de promedio no ponderado de relativos calculamos el promedio de los cocientes de los precios para cada producto. Con el método de agregados no ponderados, calculamos el cociente de las sumas de los precios de cada producto. Note que esto no es lo mismo que asignar más peso a algunos productosque a otros. Más bien, el método de promedio de relativos convierte cada elemento a una escala relativa donde los elementos se representan como un porcentaje y no como una cantidad. Debido a esto, cada elemento del compuesto se mide con respecto a una base de 100.
Método de promedio ponderado de relativos
Formas diferentes de determinar pesos
La mayor parte de los problemas a los que se enfrentan los administradores requieren ponderaciones según su importancia. Así, es más común utilizar el método de promedio ponderado de relativos que el método no ponderado. Cuando calculamos el índice de precios de agregados ponderados en la sección 16-3, utilizamos la cantidad consumida para pesar los elementos del compuesto. Para asignar pesos usando el promedio ponderado de relativos, usamos el valor de cada elemento del compuesto. (El valor es el monto total de dólares obtenidos al multiplicar precio por cantidad.) Con los métodos de promedio ponderado de relativos existen varias formas de determinar un valor ponderado. Como en el m étodo de Laspeyres, podemos utilizar el valor base que encontramos multiplicando la cantidad base por el precio base. Usar el valor base producirá exactamente el mismo resultado que calcular el índice con el método de Laspeyres. Como el resultado es el mismo, la
662
CAPÍTULO 16 Números índice
P0 P1 Precios de 1990 Precios de 1995 (2) (3)
Tabla16-10 Cálculo de un índice de promedio no ponderado de relativos
Producto (1) Leche (1 galón)
$1.92
$3.40
Huevos (1 docena)
0.81
1.00
Hamburguesas (1 lb)
1.49
2.00
Gasolina (1 galón)
1.00
1.17
Cociente 100 (3) (4) 100 (2) 3.40 100 1.77 100 177 1.92 1.00 100 1.23 100 123 0.81 2.00 100 1.34 100 134 1.49 1.17 100 1.17 100 117 1.00
∑P10 100 551 P
∑P0i 100 P
Índice de promedio no ponderado de relativos [16-6] n
Cálculo de un índice de promedio ponderado de relativos
551 4
138
decisión de usar el método de Laspeyres o el de promedio ponderado de relativos, a menudo depende de la disponibilidad de los datos. Si es m ás fácil conseguir los datos de v alor, utilizamos el método de promedio ponderado de relati vos; usamos el método de Laspeyres cuando los datos de cantidad se obtienen con mayor facilidad. La ecuación 16-7 se utiliza para calcular un índice de precios de promedio ponderado de relativos. Se trata de una ecuaci ón general en la que podemos sustituir v alores del periodo base, del actual o de cualquier otro periodo fijo. Índice de precios de promedio ponderado de relativos
P
i ∑ P 100 (PnQn) 0
PnQn
[16-7]
donde, • PnQn valor P0 precios en el periodo base • Pi precios en el periodo actual • • Pn y Qn cantidades y precios que determinan los valores que usamos para los pesos. En particular, n 0 para el periodo base, n i para el periodo actual y n 2 para un periodo fijo que no es el base ni el actual Si deseamos calcular un índice de promedio ponderado de relati vos usando valores base, P0Q0, la ecuación sería Índice de precios de promedio ponderado de relativos con valores del año base como pesos
P
i ∑ P 100 (P0Q0) 0
P0Q0
[16-8]
16.4: Métodos de promedio de relativos
Relación del método de promedio ponderado de relativos con el método de Laspeyres Ejemplo de un índice de promedio ponderado de relativos
Uso de valores base, valores fijos o valores actuales
La ecuación 16-8 es equivalente al método de Laspeyres para cualquier problema dado. Además de los casos específicos de la forma general del método de promedio ponderado de relativos, podemos utilizar valores determinados al multiplicar el precio de un periodo por la cantidad de un periodo diferente. Por lo general, encontramos que las ecuaciones 16-7 y 16-8 son adecuadas. Veremos un ejemplo. La información de la tabla 16-11 viene de la tabla 16-7. Tenemos precios base y cantidades base, de modo que usaremos la ecuación 16-8. El índice de precios 122 difiere ligeramente del valor 121 calculado en la tabla 16-7 con el m étodo de Laspeyres, pero esto se debe sólo al redondeo intermedio. Como fue el caso para los agregados ponderados, cuando usamos valores base, P0Q0, o valores fijos P2Q2, para promedios ponderados,podemos comparar rápidamente el nivel de precios de un periodo con el de otro. Sin embargo, cuando utilizamos valores actuales, P1Q1, al calcular un índice de precios de promedio ponderado de relativos no podemos comparar de manera directa valores de periodos diferentes, ya que tanto los precios como las cantidades pueden haber cambiado.Así, por lo general utilizamos valores base o valores fijos cuando calculamos un índice de promedio ponderado de relativos.
Tabla 16-11 Cálculo de un índice de promedio ponderado de relativos
663
Precios 1991 1995 P0 P1 (2) (3)
Cantidad 1991 Q0 (4)
Pan (1 barra)
$0.91
$1.19
200 barras
Papas (1 libra)
0.79
0.99
300 libras
Pollo (paquete de 3 lb)
3.92
4.50
100 paqs.
Elementos del compuesto (1)
Porcentaje de precios relativos P1 100 P0 (3) (5) 100 (2)
Valor base P0Q0 (6) (2) (4)
1.19 100 131 0.91 0.99 100 125 0.79 450 100 115 3.92
Porcentaje ponderado relativo (7) (5) (6)
182
23,842
237
29,625
392 P0Q0 811
45,080
∑P10 100(P0Q0) = 98,547 P
∑P0i 100(P0Q0) P
Índice de promedio ponderado de relativos P0Q0
[16-8]
98,547 811 122
Sugerencia: los métodos de promedios de relativos descritos en esta secci ón difieren de los de la secci ón anterior porque usan el volumen de dólares totales consumidos como base para la ponderación, en lugar de sólo las SUGERENCIAS Y SUPOSICIONES
cantidades consumidas. Por esto cada uno involucra un cálculo de precio por cantidad. Estos tipos de índices se usan en las refinerías de gasolina y los molinos de c afé que deben usar diferentes cantidades de mat eria prima para producir un producto mezclado que sea casi el mismo mes con mes.
Ejercicios 16.4 Ejercicios de autoevaluación EA
16-5
Como parte de la evaluación de una posible adquisición, un conglomerado de la ciudad de Nueva York recolectó la siguiente información de ventas:
664
CAPÍTULO 16 Números índice
Producto Calculadoras Radios TV portátiles
Precio promedio anual 1993 1995 $ 27 30 157
Valor total en dólares (miles) 1993
$ 20 42 145
$ 150 900 1,370
a) Calcule el índice de precios de promedio no ponderado de relativos usando 1993 como periodo base. b) Calcule el índice de precios de promedio ponderado de relati vos usando el valor en dólares de cada producto en 1993 como el conjunto de pesos apropiado y 1995 como año base.
Aplicaciones ■ 16-20
F.C. Linley, dueño del estadio de los Seals de San Mateo, recolectó información de los precios y el volumen de boletos durante los 4 últimos años: 1992 Asientos de luneta Admisión general
■ 16-21
$6.50 3.50
Precio anual promedio 1993 1994 1995 $7.25 3.85
26 71
Precio/ton de compra anual promedio 1993 1994 1995
Butadieno Estireno Cuerda de rayón Negro de humo Pirofosfato de sodio
■ 16-23
$8.10 4.35
27 80
31 89
28 90
Calcule un índice de precios de promedio ponderado de relativos para cada año de 1992 a 1995, utilizando el año 1993 para ponderar y como año base. La siguiente tabla contiene información de los registros de compra de materia prima de un fabricante de llantas, para los años entre 1993 y 1995:
Material
■ 16-22
$7.50 4.30
Boletos vendidos ( 10,000) 1992 1993 1994 1995
$ 17 $ 85 348 $ 62 $ 49
$ 15 $ 89 $358 $ 58 $ 56
Valor de compra (miles) 1995
$ 11 $ 95 $331 $ 67 $ 67
$ 50 $ 210 $1,640 $ 630 $ 90
Calcule un índice de precios de promedio ponderado de relativos para cada uno de los 3 años, utilizando 1995 para ponderar y como año base. Un grupo de interés público de Tennessee ha investigado el costo de la mano de obra en las reparaciones de automóviles para tres ciudades principales de Tennessee (Knoxville, Memphis y Nashville). Con la siguiente información, construya un índice de precios de promedio ponderado de relati vos utilizando los precios de 1991 como base. Tipo de reparación
1991
1993
1995
Cambio de bomba de agua Reesmerilado de válvulas (6 cil.) Balanceo de llantas Afinación (menor)
$ 35 189 26 16
$ 37 205 29 16
$ 41 216 30 18
Garret Cage, presidente de un banco local, está interesado en los niveles promedio de las cuentas de ahorros y de cheques para cada uno de los últimos 3 años. Muestreó algunos días de esos años; utilizando los niveles de esos días, determinó los siguientes promedios anuales:
Cuentas de ahorro Cuentas de cheques
1993
1994
1995
$1,845,000 385,000
$2,320,000 447,000
$2,089,000 491,000
Calcule un índice de promedio no ponderado de relati vos para cada año, utilizando 1993 como periodo base.
16.4: Métodos de promedio de relativos
■ 16-24
InfoTech investigó el precio unitario y el valor total de los chips de memoria importados por Estados Unidos en 1994 y 1996.
1994
1996
Valor total en dólares (miles) 1994
Chip de 1 megabite
$ 42
$ 65
957
Chip de 4 megabites
$180
$247
487
Chip de 16 megabites
$447
$612
349
Precio Producto
■ 16-25
■ 16-26
a) Calcule el índice de precios de promedio no ponderado de relativos para 1996 con 1994 como periodo base. b) Calcule el índice de precios de promedio ponderado de relativos para 1996 usando el valor del dólar para cada producto en 1994 como el conjunto adecuado de los pesos y 1994 como año base. Una investigación sobre la cantidad de pasajeros en vuelos redondos transatlánticos de Nueva York a varias ciudades europeas produjo los resultados siguientes:
Destino
1991
París
$690
$714
$732
$777
$783
2,835
Londres
648
654
675
696
744
5,175
Munich
702
723
753
768
798
2,505
Roma
840
867
903
939
975
2,145
Calcule el índice de promedio ponderado de relativos para cada uno de los años del periodo 1991-1994, utilizando 1995 como año base y para ponderar. En un estudio sobre políticas de seguros de salud grupales llevado a cabo para la Asociación de Cuidados Médicos de Rhode Island, se reunió la siguiente muestra de tasas promedio individuales. Utilice 1994 como periodo base para calcular un índice de precios de promedio ponderado de relativos para cada año.
Médicos
1992
1993
1994
1995 $103
$54
$65
$86
Estudiantes
39
41
55
76
Empleados del gobierno
48
61
76
93
Maestros
46
58
75
96
Una nueva cadena de moteles espera poder abrir su primer motel en Boomingville,pero antes de comprometerse a iniciar la construcción, la administración desea verificar los precios por noche de las habitaciones en otros moteles. Después de enviar a un empleado a investigar los precios, la administración de la cadena de moteles recibió los datos de la siguiente forma: Hotel Happy Hotel
■ 16-28
Pasajeros (miles) 1995
Precio anual promedio por pasajero 1992 1993 1994 1995
Grupo asegurado
■ 16-27
665
Precio de habitación por noche 1993 1994 1995
Número de habitaciones ocupadas 1993
$35
$37
$42
Room Service Rooms
25
26
28
1,250 950
Executive Motel
45
45
51
1,000
Country Inn
37
38
44
600
Family Fun Motel
26
30
31
2,075
Ayude a la compañía a determinar los precios relativos utilizando 1993 como año base y un índice de promedio no ponderado de relativos. La gasolinera Quick-Stop Gas ha estado vendiendo mapas de carreteras a sus clientes durante los últimos tres años. Los mapas son de la ciudad más cercana, el condado donde se encuentra la gasolinera, el estado y todo Estados Unidos. De la siguiente tabla, calcule el índice de precios de promedio de relativos para los años 1994 y 1995, utilizando 1993 como el periodo base.
666
CAPÍTULO 16 Números índice
Mapa
1993
1994
1995
Cantidad vendida 1993
Ciudad Condado Estado País
$0.75 0.75 1.00 2.50
$0.90 0.90 1.50 2.75
$1.10 1.00 1.50 2.75
1,000 400 1,000 220
P1 Q0
P0Q0
P(P Q )
0.7407 1.4000 0.9236 3.0643
150 900 1,370 2,420
Soluciones a los ejercicios de autoevaluación EA 16-5 Producto Calculadoras Radios Televisiones
1993 P0 $ 27 30 157
1995 P1 $ 20 42 145
Pi
P1
0 0
0
111.11 1,260.00 1,265.33 2,636.44
∑P 100
0 306.43 a) Índice 102.1 n 3
Pi
∑P 100(P0Q0)
263,644 0 b) Índice 108.9 2,420 ∑P0Q0
16.5 Índices de cantidad y de valor Índices de cantidad Uso de un índice de cantidad
Ventajas de un índice de cantidad
Cálculo de un índice de cantidad de promedio ponderado de relativos
Nuestro estudio de los n úmeros índice se ha concentrado, hasta este momento, en los índices de precios para facilitar la comprensión de los conceptos generales. Sin embargo, también podemos utilizar números índice para describir cambios en cantidades y v alores. De estos dos, utilizamos los índices de cantidad con m ás frecuencia. El Federal Reserve Board (equivalente a la Comisión Nacional Bancaria) de Estados Unidos calcula índices trimestrales que incluye en su publicación mensual, The Index of Industrial Production (IIP). El IIP mide la cantidad de producción en las áreas de manufactura, minería y servicios públicos. Se calcula usando uníndice de cantidad de promedio ponderado de relativos, en el cual las ponderaciones fijas (precios) y las cantidades base se miden con respecto a 1977. En tiempos de inflación, un índice de cantidad proporciona una medida más confiable de la producción real de materias primas y bienes terminados que el índice de valor. De manera parecida, la producción agrícola se mide mejor si se utiliza un índice de cantidad, debido a que elimina efectos engañosos producidos por la fluctuaci ón de precios. A menudo usamos un índice de cantidad para medir mercancías que están sujetas a una variación considerable de precios. Cualquiera de los métodos para determinar índices de precios analizados en las secciones anteriores de este capítulo, puede utilizarse para calcular índices de cantidad. Cuando deseamos calcularíndices de precios, usamos cantidades o valores para los pesos. Ahora que queremos calcular índices de cantidad, utilizamos precios o v alores para ponderar. Analicemos la obtención de un índice de cantidad de promedio ponderado de relativos. El proceso general para calcular un índice de cantidad de promedio ponderado de relativos es el mismo que usamos para el índice de precios. La ecuación 16-9 describe la fórmula para este tipo de índice de cantidad. En esa ecuación, el valor se determina multiplicando cantidad por precio. El valor asociado con cada cantidad se utiliza para ponderar los elementos del compuesto.
16.5: Índices de cantidad y de valor
667
Índice de cantidad de promedio ponderado de relativos
Q
i ∑ Q 100 (QnPn) 0
QnPn
[16-9]
donde, Qi cantidades para el periodo actual • Q • 0 cantidades para el periodo base • Pn y Qn cantidades y precios que determinan los valores utilizados para los pesos. En particular, se tiene que n 0 para el periodo base, n 1 para el periodo actual y n 2 para un periodo fijo que no es el actual ni el base. Considere el problema de la tabla 16-12. Utilizamos la ecuación 16-9 para calcular un índice de cantidad de promedio ponderado de relativos. El valor QnPn, se determina a partir del periodo base y, por consiguiente, en símbolos es Q0P0.
Índices de valor Una desventaja de un índice de valor
Ventajas de un índice de valor
Un índice de valor mide cambios generales en el valor total de alguna variable. Como el valor está determinado tanto por el precio como por la cantidad, un índice de valor realmente mide los efectos combinados de los cambios de precio y cantidad. La desv entaja principal de un índice de valor es que no produce diferencia alguna entre los efectos de estas dos componentes. Sin embargo, un índice de valor es útil al medir cambios globales. Las compañías de seguros médicos por ejemplo, suelen mencionar el agudo incremento en el valor de los pagos otorgados en juicios por negligencia médica como la razón más importante para descontinuar este tipo de se guros. En esta situación, el valor incluye tanto un mayor n úmero de pagos como cantidades m ás grandes otorgadas en efectivo.
Tabla 16-12 Cálculo de un índice de cantidad de promedio ponderado de relativos
Elementos de compuesto (1)
Cantidades (en miles de millones de bushels) 1991 1995 Q0 Q1 (2) (3)
Precio (por bushel) 1991 P0 (4)
Trigo
29
24
$3.80
Maíz
3
2.5
2.91
12
14
6.50
Frijol de soya
Q1 100 Q0 Porcentajes relativos
Valor básico Q0P0 (6) (2) (4)
(3) (5) 100 (2) 24.0 100 83 29.0 2.5 100 83 3 14.0 100 117 12.0
29 3.80 110.20 3 2.91
Q1 100 Q0P0 Q0 Relativos ponderados (7) (5) (6) 9,146.60
8.73
724.59
12 l6.50 78.00 Q0P0 196.93
9,126.00
∑Q10 100(Q0P0) Q
18,997.19
∑Q0i 100(Q0P0) Q
Índice de cantidad de promedio ponderado de relativos Q0P0 18,997.19 196.93 96
[16-9]
668
CAPÍTULO 16 Números índice
Con frecuencia se usa un índice de cantidad en las decisiones de producci ón, porque evita los efectos de la inflación y las fluctuaciones de precio debido a la dinámica del mercado. Sugerencia: piense en un servicio de entrega de pizzas cuyo ingreso total en dólares puede de-
crecer durante periodos de alto uso de cupones de descuento. Como la compa ñía espera que aumente la cantidad de pizzas como resultado del descuento, un índice de cantidad es más útil para tomar decisiones al hacer pedidos de queso, otros ingredientes y masa, y para programar a los empleados.
SUGERENCIAS Y SUPOSICIONES
Ejercicios 16.5 Ejercicios de autoevaluación EA
16-6
William Olsen, propietario de una agencia de bienes ra íces, ha recolectado la siguiente informaci ón de ventas de cada uno de sus vendedores: Valor de las ventas (miles de dólares) 1992 1993 1994 1995
Vendedor Thompson Alfred Jackson Blockard
490 630 760 230
560 590 790 250
530 540 810 240
590 680 840 360
Calcule un índice de valor de promedio no ponderado de relativos para cada año, con 1992 como periodo base.
Conceptos básicos ■ 16-29 ■ 16-30
Explique la desventaja principal al usar índices de valor. ¿Cuál es la mayor diferencia entre un índice de agregados ponderados y un índice de promedio ponderado de relativos?
Aplicaciones ■ 16-31
El vicepresidente de finanzas de la división americana de la Banshee Camera Company examina las ventas al contado y a crédito de la compañía durante los últimos 5 años. 1991 Crédito Contado
■ 16-32
Valor de las ventas (cientos de miles) 1992 1993 1994 1995
5.66 2.18
6.32 2.51
6.53 2.48
6.98 2.41
7.62 2.33
Calcule un índice de valor de promedio ponderado de relati vos para cada a ño, con 1991 como periodo base. Una empresa de Georgia que fabrica equipo pesado ha recolectado la siguiente información respecto a los principales productos de la compa ñía. Calcule un índice de cantidad de agre gados ponderados, use las cantidades y los precios de 1995 como la base y los pesos.
Producto
1993
Barcazas de río Carros góndola de ferrocarril Camiones de carga
92 456 52
Costo de Cantidades producción por producidas unidad (miles de dólares) 1994 1995 1995 118 475 56
85 480 59
$ 33 56 116
16.5: Índices de cantidad y de valor
■ 16-33
La Arkansas Electronic ha comercializado tres tipos básicos de calculadora: financiera, científica y básica. La información siguiente describe las ventas de unidades durante los últimos tres años: Número vendido (cientos de miles) 1993 1994 1995
Modelo Financiera Científica Básica
■ 16-34
■ 16-35
13.32 11.09 7.48
15.75 10.18 7.89
$34.00 69.00 13.00
Tipo de delito
1992
1993
1994
1995
Asalto y violación Asesinato Robo Fraude
2,110 2,s30 2,610 2,450
2,128 2,s45 2,720 2,630
2,134 2,s40 2,770 2,910
2,129 2,248 2,830 2,890
Calcule el índice de cantidad de promedio no ponderado de relati vos para cada año, use 1995 como periodo base. Recycle Sounds recolectó la siguiente información de ventas de cinco estilos diferentes de m úsica. Los datos, en cientos de discos compactos vendidos por año, son:
Rock suave Hard rock Música clásica Jazz Alternativa
■ 16-37
11.85 10.32 7.12
Precio 1995
Calcule los índices de cantidad de promedio ponderado de relati vos, use los precios y las cantidades de 1995 para calcular los pesos de los valores con 1993 como año base. Como preparación de una audiencia, el comisionado de policía de un pueblo de Maryland, ha recolectado la siguiente información:
Tipo
■ 16-36
669
1991
1992
Número vendido 1993 1994
1995
1996
642.4 325.8 118.3 125.6 208.7
721.5 347.8 123.6 122.4 252.7
842.6 398.5 174.3 137.8 405.9
905.6 418.7 174.9 172.9 942.7
951.2 426.4 185.3 205.4 987.4
895.3 406.3 176.2 149.6 608.9
Calcule un índice de cantidad de promedio no ponderado de relativos con 1991 como año base. Después de conminar a una compa ñía de productos químicos a que obligara a sus empleados a manejar ciertos compuestos químicos peligrosos con guantes protectores, el Departamento de Salud Pública está ahora interesado en ver si esta reglamentación ha tenido el efecto de frenar el n úmero de fallecimientos por cáncer en esa área. Antes de que entrara en vigor la reglamentación, el cáncer no solamente se había extendido entre los trabajadores de la compañía, sino también entre sus familiares, amigos cercanos y vecinos. Los siguientes datos muestran las cifras obtenidas en 1973 antes de la reglamentación y las que se obtuvieron después, en 1993. Grupo de edad
Número de habitantes en 1973
Fallecimientos en 1973
4 años 4-15 años 16-35 años 36-60 años 60 años
25,000 24,000 24,000 19,000 27,000
400 295 1,230 700 1,100
Fallecimientos en 1993 125 200 1,000 450 935
Utilice un índice de agregados ponderados para el número de fallecimientos, tome la población de 1973 como los pesos para ayudar al Departamento de Salud Pública a entender qué ha sucedido a la tasa de incidencia de cáncer. Un veterinario trató un gran n úmero de mascotas durante el in vierno pasado. Ahora se pregunta si esta cantidad se distribuyó de manera uniforme durante los 3 meses de in vierno o si atendió a más animales en cualquier mes. Use diciembre como periodo base, para calcular los índices de cantidad de promedio ponderado de relativos para enero y febrero.
670
CAPÍTULO 16 Números índice
Dic. Gatos Perros Loros Serpientes
Número atendido Ene. Feb.
100 125 15 10
200 75 20 5
Precio por visita, promedio de 3 meses
95 200 15 5
$ 55 65 85 100
Soluciones a los ejercicios de autoevaluación EA
16-6 Vendedor
1992 V00
1993 V10
1994 V20
1995 V30
1992 V0/V0
Thompson Alfred Jackson Blockard
490 630 760 230
560 590 790 250
530 540 810 240
590 680 840 360
1.000 1.000 1.000 1.000 4.000
1993 V1/V0 1.143 0.937 1.039 1.087 4.206
1994 V2/V0 1.082 0.857 1.066 1.043 4.048
1995 V3/V0 1.204 1.079 1.105 1.565 4.953
V
∑Vi 100
0 400.0 Índice : 4 4
420.6 4
404.8 4
495.3 4
100.0
105.2
101.2
123.8
16.6 Problemas en la construcción y el uso de números índice Imperfecciones en los números índice
En este capítulo utilizamos ejemplos con muestras pequeñas y periodos cortos. En realidad, los números índice se calculan para compuestos con muchos elementos, y cubren periodos lar gos. Esto produce medidas relativamente precisas de los cambios. Sin embargo, incluso los mejores números índice son imperfectos.
Problemas en la construcción Aunque existen muchos problemas en la construcción de números índice, hay tres áreas principales donde se presentan dificultades: ¿Qué elementos deben incluirse en un compuesto?
Necesidad de seleccionar ponderaciones adecuadas
¿Qué es un periodo base normal?
1. Selección de un elemento que se incluye en un compuesto. Casi todos los índices se construyen para responder a una pregunta en particular. Así, los elementos incluidos en el compuesto dependen de la pregunta. El IPC pregunta: ¿cuánto ha cambiado de un periodo a otro el precio de cierto grupo de productos y servicios adquiridos por ciudadanos de ingresos moderados? A partir de esta pregunta, sabemos que sólo los elementos que reflejan las compras de las familias urbanas de ingresos moderados deberán incluirse en el compuesto. Debemos estar conscientes de que el IPC reflejará con menor precisión los cambios de precios en los bienes adquiridos por las familias rurales de bajos o de altos ingresos que los comprados por las familias urbanas de ingresos moderados. 2. Selección de los pesos apropiados. En las secciones anteriores de este cap ítulo, enfatizamos que los pesos seleccionados deben representar la importancia relativa de los diferentes elementos. Desafortunadamente, lo que es apropiado en un periodo puede volverse inapropiado en un lapso muy corto. Esto debe mantenerse en mente al comparar valores de índices calculados en tiempos diferentes. 3. Selección de un periodo base. Por lo común, el periodo base seleccionado debe ser un periodo normal, de preferencia un periodo bastante reciente. “Normal” significa que el periodo no debe estar en un pico o una depresión de una fluctuación. Una técnica para evitar la elección de
Estadística en el trabajo
671
un periodo anómalo consiste en promediar los valores de varios periodos consecutivos para determinar un valor normal. El Departamento de Estadística Laboral de Estados Unidos utiliza el promedio de los patrones de consumo de 1982, 1983 y 1984 para calcular el IPC. A menudo, los administradores intentan elegir un periodo base que coincida con el periodo base de uno o más de los índices principales, como el índice de producción industrial. El uso de una base común permite a la administración relacionar su índice con los índices principales.
Advertencias para interpretar un índice Además de estos problemas en la construcción de índices, existen varios errores comunes que se cometen al interpretarlos: Problemas con la generalización a partir de un índice
Necesidad de un conocimiento adicional
El tiempo afecta a un índice
Falta de medición de la calidad
1. Generalización a partir de un índice específico. Una de las interpretaciones erróneas más comunes de un índice es la generalización de los resultados. El IPC mide de qué manera cambiaron los precios de una combinación particular de bienes adquiridos por habitantes urbanos con ingresos moderados. A pesar de su definición específica, el IPC suele describirse como un reflejo del costo de vida para todos los estadounidenses. Aunque se relaciona con el costo de vida en cierto grado, decir que mide el cambio del costo de vida no es del todo correcto. 2. Falta de conocimiento general respecto a los índices publicados. Parte del problema que lleva a cometer el primer error es la f alta de conocimiento de qué miden los índices publicados. Todos los índices bien conocidos van acompañados por afirmaciones detalladas concernientes a la medición. Los administradores deben familiarizarse con qué mide índice. 3. Efecto del paso del tiempo sobre un índice. Los factores relacionados con un índice tienden a cambiar con el tiempo; en particular, las ponderaciones apropiadas. Entonces, a menos que se hagan lo cambios correspondientes en esas ponderaciones, el índice será cada vez menos confiable. 4. Cambios en la calidad. Una crítica común a los números índice es que no reflejan los cambios en la calidad de los productos que miden. Si la calidad ha cambiado realmente, entonces el índice sobrestima o subestima los cambios en los niveles de precios. Por ejemplo, si construimos un número índice para describir cambios en los precios de las calculadoras de bolsillo en la última década, el índice resultante subestimaría el cambio real debido a las rápidas mejoras tecnológicas en las calculadoras.
Ejercicios 16.6 Conceptos básicos ■ ■ ■ ■ ■
16-38 16-39 16-40 16-41 16-42
¿Cuál es el efecto del tiempo sobre los pesos de un índice compuesto? Enumere varias preferencias para la elección de un periodo base. Describa una técnica utilizada para evitar el uso de un periodo anómalo como base. ¿Es correcto decir que el índice de precios al consumidor mide el “costo de vida”? ¿Qué problemas surgen con los números índice, si cambia la calidad de un artículo?
Estadística en el trabajo Loveland Computers Caso: Números índice “Lee, ayúdame a entender estos cargos por envío”. Walter Azko estaba mirando un contrato de más de un centímetro de espesor. “Por la manera en que ha-
cemos nuestras compras, el fabricante es responsable de la entrega de un pedido en el aeropuerto, y ahí un agente aduanal tramita la documentación y el embarque. A veces siento como que estoy pagando más a los agentes por enviar la mercancía que al fabricante por hacerla. Este contrato es un buen ejemplo. Quieren el 10% adicional a lo que me pedían por un envío similar el trimestre pasado. Cuando les llamé, su argumento fue que el costo de la vida ha aumentado.”
672
CAPÍTULO 16 Números índice
“Sí, pero no 10%”, intervino Lee. “No, y el precio del combustible de avión bajó, de modo que el flete aéreo debería ser menor.” “Bueno, al menos no tienes que preocuparte por la paridad de divisas”, dijo Lee, mirando el contrato. “Aquí dice que tienes que hacer el pago en dólares estadounidenses.” “Es cierto, les enviamos un cheque en d ólares y ellos lo cambian en una sucursal regional de un banco estadounidense. Aunque el dólar no es la moneda uni versal que fue hace un tiempo, las personas todavía piensan que es menos riesgoso que otras monedas. Pero cuando el agente cobra el cheque, todavía tiene que cambiar los d ólares por moneda local. No pueden pagar a los trabajadores de los almacenes en dólares. Así, a pesar de que el precio se establece en d ólares, te diré que hago un mejor trato cuando el dólar está ‘fuerte’ respecto a otras monedas.”
Ejercicio de base de datos computacional HH Industries Laurel tocó a la puerta de la oficina de Hal. “¿Querías verme?”, preguntó. “Sí, pasa por favor, Laurel, y cierra la puerta”, respondió Hal, levantando la mirada de la pila de papeles que ten ía en su escritorio. “Gracias por venir. Tengo que tomar algunas decisiones que, desafortunadamente no van a causar mucho agrado, y podría necesitar tu ayuda.” “Seguro que sí”, asintió Laurel. “Me gustaría mucho hacer lo que pueda.” Hal se veía muy perturbado, y Laurel se preguntó de qué se trataría. “Es acerca de las prestaciones de nuestros empleados ”, empezó Hal. “No sé si estás al tanto de cómo se han elevado los costos del seguro de salud en los últimos años, pero comienza a ser demasisado caro para nosotros se guir con la misma política para los empleados. Los due ños de algunos negocios pequeños que conozco han dejado de dar a los trabajadores el seguro de salud, pero yo no puedo hacerlo. Siempre he tratado de hacer lo mejor por ellos,pero necesito ayuda para justificar lo que voy a hacer, que podría parecer bastante drástico a la gente a mi cargo. Creo que si cuento con información de las tendencias pasadas y en qué coincide la situación actual, será más fácil convencerlos de la necesidad de la medida.” “Déjame ponerte en antecedentes”, continuó. “Hasta hace unos cuantos años, podíamos esperar un aumento anual de entre el 10 y 12% en los costos de los se guros. Desde hace poco, sin embargo, el aumento ha sido cercano al 20% cada año, y nuestro agente pronostica que en el futuro inmediato será 30%. La política de la compañía siempre ha sido pagar
“El costo de la vida es un factor que influye, el costo del combustible de avión es otro y la tasa de cambio es el tercero. ¿Eso cubre todo?” “Supongo que sí”, respondió Walter. “Pero con tres factores subiendo y bajando,es difícil negociar con el agente y decirle que creo que su precio es muy alto.” “Creo que hay una forma de ayudarte ”, ofreció Lee gustosamente. “¿Me puedo tomar la tarde para ir a Denver y platicar con la división internacional de nuestro banco?”
Preguntas de estudio: ¿Qué solución va a proponer Lee como una forma de evaluar el precio propuesto en el contrato del agente aduanal? ¿Qué información buscará Lee en la división internacional del banco?
al menos 75% de la prima, y el resto se cubre con deducciones en nómina. La cobertura f amiliar nos cuesta 2.5 v eces más que la individual, de modo que eso se refleja en las deducciones que ven los empleados. Durante mucho tiempo, nos las hemos arreglado para no aumentar la tasa a los empleados, pero fue necesario implantar aumentos anuales desde hace varios años. En el intento de dar a los empleados el mejor acuerdo posible, me temo que las deducciones no han aumentado lo que se requiere. No me importa que la compañía cargue con un poco más del costo, pero no podremos sobrevivir mucho más con este ritmo. Lo que necesito de ti es una idea de lo que sería razonable hacer, basándonos en la historia de la compañía. ¿Qué piensas?” “Veré qué puedo hacer”, respondió Laurel. “Creo que puedo generar algunos números índice que reflejen las tendencias pasadas y obtener algunas recomendaciones para ti.” “¡Grandioso!”, sonrió Hal. “Aquí tienes algunas cifras pasadas. Ya sabes, ¡odio verme atrapado entre ser un b uen chico y hacer bien los negocios!” 1. Calcule un índice de precios de agre gados ponderados para la contribución de los empleados al se guro de salud, utilizando el número de “individuos” y de “familiares” cubiertos cada año desde 1973 hasta 1993, como se muestra en los archivos CH16.xxx que se encuentran en el sitio www.pearsoneducacion.net/levin. Use 1973 como año base. Compare éste con un índice del costo total anual en seguros para la compañía de seguros. 2. El costo previsto de la p óliza de seguros para 1994 es $270,000, y hay 20 empleados “individuales” y 45 “familiares”, que se deben asegurar. Si a Hal no le importa que el cociente del índice de costos totales entre el índice de contribuciones de los empleados suba hasta 1.2, ¿cuáles deberán ser las deducciones indi viduales y familiares para 1994?
Repaso del capítulo
Del libro de texto al mundo real Índice de indicadores económicos principales Para los negocios que experimentan ciclos de prosperidad y depresión económica, el índice compuesto de indicadores económicos principales proporciona un medio para conseguir información respecto a la dirección futura de la economía. Aunque no es infalible, este número índice proporciona una herramienta que los economistas han usado durante más de 50 años para predecir tendencias futuras. El sistema de indicadores principales, coincidentes y rezagados fue desarrollado originalmente por Arthur F. Burns, Wesley C. Mitchell y sus colegas de la Of icina Nacional para la In vestigación Económica (NBER, National Bureau of Economic Research) durante la Gran Depresión en Estados Unidos. Actualmente está manejada por el Departamento de Comercio y se actualiza mensualmente. Composición e historia El índice es un promedio ponderado que consiste en 11 componentes (tabla MR16-1), cada uno de los cuales, históricamente, se adelanta a los periodos de expansión y declinación económicos generales. Los datos se combinan para formar un índice que mide el cambio del valor respecto al valor de 100 del año base (1982). El índice tiende a pronosticar movimientos de la econom ía general y se usó por primera vez para determinar cuándo saldría Estados Unidos de la depresi ón que se presentó en la década de los años 30 del siglo pasado. Desde 1923 hasta 1969,el NBER predijo siete contracciones económicas importantes. El análisis de los indicadores principales durante este periodo muestra que, en promedio, el 75% de los indicadores empiezan a declinar antes del pico del ciclo económico. Periódicamente, el índice se prueba y recalibra para asegurar su precisión continua. Por ejemplo, en 1975, se modificó para que reflejara la influencia de la desenfrenada inflaci ón en los precios, que empezaba a distorsionar sus pronósticos. Beneficios y limitaciones La importancia del índice de los principales indicadores econ ómicos se ha demostrado me-
673
diante su uso como la herramienta primordial de pronósticos económicos del gobierno de Estados Unidos.Aunque en ocasiones señala puntos de cambio que nunca se materializan, por lo general ha tenido éxito en indicar los que sí han ocurrido. Una regla empírica entre los economistas se ñala que tres meses sucesivos de declinación en el índice es aviso de una inminente recesión. A veces, el índice puede malinterpretarse en cuanto a que los indicadores pueden mostrar fluctuaciones aleatorias debidas a eventos tales como huelgas o condiciones climatológicas extremas. Los retrasos con que llegan los reportes crean otra def iciencia en el índice. Independientemente de la frecuencia de los informes,los datos se reportan con retraso y están sujetos a revisión semanas, meses o años más tarde. El índice es solamente una herramienta que proporciona información cuyo carácter es más cualitativo que cuantitativo. Un análisis de los factores económicos subyacentes utilizando el índice de indicadores econ ómicos principales, en conjunción con otros dispositivos de pronóstico, beneficia al sector f inanciero al proporcionarle un panorama amplio de la acti vidad económica que puede convertirse en datos efectivos para la toma de decisiones pol íticas y estratégicas.
Tabla MR16-1
Componentes del índice indicador principal
• Horas semanales promedio de producción o de trabajadores no supervisados, manufactura. • Solicitudes iniciales semanales promedio de seguro de desempleo, programas estatales. • Pedidos nuevos de fabricantes en dólares de 1982, industrias de bienes de consumo y de materiales. • Índice de precios de acciones, 500 acciones comunes. • Contratos y órdenes para plantas y equipo en dólares de 1982. • Índice de nuevas unidades de urbanización privadas autorizadas con permisos de construcción locales. • Desempeño de vendedores, índice de difusión de entregas lentas. • Índice de expectativas de los consumidores. • Cambios en los pedidos no cumplidos por los fabricantes, en dólares de 1982, industrias de bienes duraderos. • Cambio en el precio de materiales sensibles. • Suministro de dinero M2 en dólares de 1982.
Repaso del capítulo ● Términos introducidos en el capítulo 16 Índice de agregados no ponderados Utiliza todos los valores considerados y asigna igual importancia a cada uno de ellos. Índice de agregados ponderados Utiliza todos los valores considerados y asigna ponderaciones a estos valores.
Índice de cantidad Medida de cuánto cambia el número o cantidad de una variable con el tiempo. Índice de precios Compara niveles de precios de un periodo a otro.
674
CAPÍTULO 16 Números índice
Índice de precios al consumidor Los gobiernos de los países preparan este índice que mide los cambios en los precios de un conjunto representativo de productos de consumo.
método de Paasche utiliza como ponderaciones las cantidades consumidas durante el periodo actual.
Índice de producción industrial Preparado mensualmente por el Federal Reserv e Board, de Estados Unidos, mide la cantidad de producción en las áreas de manufactura, minería y servicios públicos.
Método de pr omedio no ponderado de r elativos Para construir un número índice, este método encuentra el cociente del precio actual entre el precio base para cada producto, suma los porcentajes relativos resultantes y divide el resultado entre el número de productos.
Método de agregados con peso fijo Para ponderar un índice de agregados, este método utiliza como ponderaciones las cantidades consumidas durante algún periodo representativo.
Método de promedio ponderado de r elativos Para construir un número índice, este método pondera el valor de cada elemento del compuesto según su importancia.
Método de Laspeyres Para ponderar un índice de agregados, este método utiliza como ponderaciones las cantidades consumidas durante el periodo base.
Número índice Cociente que mide cu ánto cambia una v ariable con el tiempo.
Método de Paasche Al ponderar un índice de agregados, el
Porcentaje relativo Cociente de un valor actual entre un valor base cuyo resultado se multiplica por 100.
● Ecuaciones introducidas en el capítulo 16 ■
16-1
Qi Índice de cantidad de agregados no ponderados 100 Q0 Para calcular un índice de agregados no ponderados, divida la suma de las cantidades actuales de los elementos del índice entre la suma de las cantidades en el año base y multiplique el resultado por 100.
■
16-2
PiQ Índice de precios de agregados ponderados 100 P0Q Para calcular un índice de precios de agregados ponderados que utiliza cantidades como pesos, obtenga la suma ponderada de los precios del año actual, multiplicando cada precio del índice por su cantidad asociada y sumando los resultados. Luego divida esta suma ponderada entre la suma ponderada de los precios del año base y multiplique el resultado por 100.
■
16-3
Pi Q0 Índice de Laspeyres 100 P0Q0 El índice de precios de Laspeyres es un índice de precios de agregados ponderados que utiliza las cantidades del periodo base como ponderaciones.
■
16-4
Pi Qi Índice de Paasche 100 P0Qi Para obtener el índice de Paasche, calculamos un índice de precios de agregados ponderados utilizando las cantidades del año actual como pesos.
■
■
■
16-5
16-6
16-7
Pi Q2 Índice de precios de agregados con peso fijo 100 P0Q2 El índice de precios de agregados con peso fijo es un índice de agregados ponderados cuyos pesos son las cantidades de un periodo representativo, no necesariamente el año base o el actual. Pi ∑ P 100 0 Índice de precios de promedio no ponderado de relativos n
Calculamos un índice de precios de promedio no ponderado de relati vos multiplicando los cocientes de los precios actuales entre los del periodo base por 100; lue go se suman los resultados y se di viden entre el número de elementos utilizados en el índice. Pi ∑ P 100 (PnQn) 0 Índice de precios de promedio ponderado de relativos PnQn
Repaso del capítulo
■
16-8
Con este índice ponderamos los precios relativos con los valores de un periodo de referencia fijo y dividimos la suma ponderada de precios relativos entre la suma de las ponderaciones. Si utilizamos los valores del año base como pesos, obtenemos: Pi ∑ P 100 (P0Q0) 0 P0Q0
que es igual al índice de precios de Laspeyres. ■
16-9
675
Qi
∑Q 100(QnPn) 0
Índice de cantidad de promedio ponderado de relativos QnPn En este índice de cantidad ponderamos las cantidades relativas con los valores de un periodo de referencia fijo y dividimos la suma ponderada entre la suma de los pesos.
● Ejercicios de repaso ■ 16-43
La Kamischika Motorcycles comenzó a producir tres modelos de motonetas en 1993. P ara los tres años de 1993 a 1995, las ventas fueron las siguientes: Precio anual promedio Precio 1993 1994 1995
Modelo
■ 16-44
I
$139
$155
$149
3.7
4.1
7.6
II
169
189
189
2.3
4.6
8.1
III
199
205
219
1.6
2.1
3.4
a) Calcule el índice de precios de promedio ponderado de relativos utilizando los precios y las cantidades de 1995 como bases y pesos, respectivamente. b) Calcule el índice de precios de promedio ponderado de relativos utilizando los valores totales en dólares para cada año como pesos y 1995 como periodo base. Los datos siguientes indican el valor (en millones de dólares) de los principales productos exportados por un país en desarrollo. Determine índices de valores de agregados no ponderados para los a ños 1993 y 1995, con base en 1991. Mercancía
1991
1993
1995
$834
$1,436
$1,321
Azúcar
96
118
122
Cobre
241
258
269
Zinc
142
125
106
Café
■ 16-45
En una investigación sobre la producción estadounidense de carbón en un periodo de 4 años, se recopiló la siguiente información. Use el valor de la producción de 1992 para ponderar y este mismo año como año base, calcule el índice de cantidad de promedio ponderado de relativos para cada uno de los 4 años.
Tipo de carbón
■ 16-46
Unidades vendidas ( 10,000) 1993 1994 1995
Producción (millones de toneladas) 1989 1990 1991
1992
Valor (millones de dólares) 1992
Antracita
7.4
6.8
7.1
7.2
90
Bituminoso
595
580
601
625
5,050
Una investigación realizada por la Asociación Nacional de L ácteos produjo la siguiente informaci ón. Construya un índice de Laspeyres con 1991 como periodo base.
676
CAPÍTULO 16 Números índice
■ 16-47
■ 16-48 ■ 16-49
■ 16-50
Producto
Precio promedio por unidad 1991 1995
Queso (lb) Leche (galón) Mantequilla (lb)
$1.45 1.60 0.70
$1.49 1.61 0.80
2.6 47.6 3.1
Robert Barry, Ltd., una empresa consultora, examinó las tendencias de precios de la ropa para un cliente. La tabla que sigue contiene los resultados de la investigación (en precios unitarios): Producto
1992
1993
1994
1995
Pantalones Chamarras Camisas
$13.00 19.00 12.00
$13.00 19.50 11.00
$15.00 22.00 12.00
$15.00 24.00 13.00
Calcule un índice de promedio no ponderado de relativos para cada año, con 1992 como periodo base. ¿Qué problema se presentaría al comparar índices de precios que describen las v entas de computadoras durante las últimas décadas? El vicepresidente de ventas de la Compañía Nacional de Suministros a Hospitales llevó a cabo una investigación sobre los gastos de viaje que tuvieron algunos vendedores. Los datos que siguen,referentes a gastos en taxis y el precio pagado por milla, fueron de especial interés: Vendedor
1991
A B C D E
$704 635 752 503 593
Gastos en gasolina 1992 1993 $ 985 875 1,023 696 781
Precio promedio por milla 1991
$1,391 1,306 1,523 1,106 1,215
0.52 0.55 0.59 0.56 0.55
Calcule un índice de promedio no ponderado de relati vos para cada año, utilizando 1993 como periodo base. La información siguiente describe las ventas unitarias de un almacén de bicicletas durante 3 años: Modelo Deportivo Excursionismo Campo traviesa De carreras
■ 16-51
Cantidad total (miles de millones) 1991
1993 45 64 28 21
Número vendido 1994 1995 48 67 35 16
56 71 27 28
Precio 1993 $ 89 104 138 245
Calcule índices de cantidad de promedio ponderado de relati vos, utilizando los precios y las cantidades de 1993 para ponderar los valores, con 1993 como año base. El promedio industrial Dow Jones (DJIA, Dow Jones Industrial Average) es un n úmero de índice muy utilizado como un buen indicador para la descripción de la fortaleza global de los precios en la Bolsa de Valores de Nueva York. Está basado en la suma de los precios de acciones individuales de las acciones comunes de 30 compañías grandes que se negocian en la bolsa. Esta suma se ajusta para que tome en cuenta divisiones y cambios en las compañías cuyas acciones conforman el índice. a) Dos de las acciones del índice corresponden a Coca-Cola, que negoció un precio aproximado de $44 por acción a finales de julio de 1993, y a la Westinghouse, que negociaba a $17 por acción. ¿Qué información ignora el DJIA al sumar simplemente los precios de las acciones? ¿Un aumento del 10% en las acciones de la Westinghouse tiene el mismo efecto que un aumento igual en el precio de las acciones de Coca-Cola? b) El rendimiento total anual de los valores comunes estadounidenses ha sido cerca del 11%,tomado como un promedio en periodos largos. Pero los corredores de bolsa, a veces, escogen puntos bajos del mercado (elegidos con cierta percepción retrospectiva) para expresar las ganancias en el tiempo. Al final de 1992, el DJIA estaba en 3301. Calcule un n úmero índice para ver cómo se han comportado los valores recientemente, con base el mercado más bajo después de la caída de octubre de 1987,cuan-
Repaso del capítulo
■ 16-52
■ 16-53
■ 16-54 ■ 16-55
■ 16-56
do el DJIA llegó a 1739 puntos. Compárelo con un número índice basado en el punto alto de agosto de 1987, cuando el DJIA alcanzó 2722 puntos. Pen Jenkins maneja una maderera y tiene información de 3 años sobre los costos: Costos
1991
1993
1995
Salarios Madera Gastos generales
$24,378 1,816 638
$36,421 2,019 681
$37,613 2,136 701
Construya un índice de agregados no ponderados para los costos de producci ón en 1991 y 1995 usando 1993 como año base. Una agencia de protección al consumidor de Ohio ha investigado los cambios de precio de una compañía empacadora de carne. La siguiente tabla contiene los precios anuales promedio por libra para a una muestra de productos de la empresa. Construya un índice de precios de promedio no ponderado de relati vos utilizando los precios de 1993 como base. Productos
1993
1994
1995
Sirloin Paletilla Bolonia Hot dogs Costilla
$1.69 0.91 1.45 0.99 2.39
$1.81 1.15 1.58 1.03 2.61
$1.85 1.24 1.53 1.01 2.56
¿Por qué debe ser precavido al escoger un periodo base? Tameka Robinson, agente de compras, ha recopilado la siguiente información de precios. Utilizando 1992 como periodo base, calcule el índice de precios de agregados no ponderados para 1993, 1994 y 1995. Material
1992
1993
1994
1995
Aluminio Acero Tubería de latón Cable de cobre
$0.96 1.48 0.21 0.06
$0.99 1.54 0.25 0.08
$1.03 1.55 0.26 0.07
$1.06 1.59 0.31 0.09
Una investigación del Departamento de Agricultura de Estados Unidos sobre la producción de granos en áreas específicas del país, produjo la siguiente información:
Producto
1991
Trigo Maíz Avena Centeno Cebada Frijol de soya
■ 16-57
677
610 390 100 10 160 130
Cantidades producidas (millones de bushels) 1992 1993 1994 620 390 90 20 150 140
640 410 120 10 120 160
630 440 130 10 190 120
1995
Precio por bushel 1991
650 440 150 20 180 130
$ 4.40 3.60 1.20 24.00 2.10 5.60
Utilizando los precios de 1991 como pesos, calcule el índice de cantidades de agregados ponderados para cada año. John Pringle, un comerciante internacional de minerales,recolectó la siguiente información sobre precios y cantidades de minerales exportados por un país africano durante 1994 y 1995. Calcule uníndice de Paasche para 1995 utilizando 1994 como periodo base.
Producto
Cantidad (millones de toneladas) 1995
Cobre Plomo Zinc
38.1 53.5 86.4
Precio (por libra) 1994 1995 $0.59 0.17 0.21
$0.63 0.16 0.23
678
CAPÍTULO 16 Números índice
■ 16-58
Un fabricante europeo de automóviles recolectó la siguiente información de la venta de carros de un fabricante estadounidense: Precio anual promedio (miles) 1991 1993 1995
Tamaño Subcompacto Compacto Sedán
■ 16-59
■ 16-60
16-61
Global Comida Vivienda
$62 76 90
$68 78 98
$ 70 80 106
Unidades vendidas (miles) 1991 1993 1995 32 45 462
65 68 325
86 73 386
a) Calcule los índices de precios de promedio ponderado de relativos utilizando los precios y las cantidades de 1993 como bases y pesos. b) Calcule los índices de precios de promedio ponderado de relativos utilizando los valores totales en dólares para cada año como pesos y el año 1993 como periodo base. Silvia Jensen, analista de costos de una empresa grande de aparatos electrodomésticos, ha recopilado datos sobre precios de cuatro productos de la compañía. Las cifras (en precios unitarios) para el periodo de 1993 a 1996 se muestran en la tabla. Productos
1993
1994
1995
1996
Lavadora de platos Lavadora de ropa Secadora Refrigerador
$219 362 229 562
$241 385 241 580
$272 397 261 598
$306 413 275 625
Use el año 1993 como periodo base, exprese los precios de 1994, 1995 y 1996 en términos de un índice de agregados no ponderados. El director de presupuesto de una universidad de Nueva Inglaterra desea mantener un registro del presupuesto que cada departamento de ingeniería requiere para reclutar nuevos estudiantes graduados. Recibió los datos siguientes de cuatro departamentos. Departamento
1994
Gastos totales 1995
1996
Mecánica Química Biomédica Eléctrica
$3,642 3,888 4,251 3,764
$3,891 4,052 4,537 4,305
$4,253 4,425 4,724 4,297
Calcule un índice de promedio no ponderado de relativos para cada año, use 1994 como periodo base. El Departamento de Estad ística de la Agencia de Coordinación y Administración del gobierno japon és calcula índices del costo de vida de manera muy parecida a la Oficina de Estadística Laboral del Departamento de Comercio de Estados Unidos. Considere su índice global del costo de vida y los índices más específicos para comida y vivienda: 1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
81.7 82.2 74.9
85.6 86.5 78.2
88.0 88.1 81.0
89.6 89.9 83.5
91.7 92.5 85.4
93.5 94.1 87.6
94.1 94.3 89.8
94.2 93.4 92.3
94.9 94.1 94.2
97.0 96.1 97.0
100.0 100.0 100.0
103.3 104.8 103.1
Fuente: Statistics Bureau, Management and Coordination Agency, Japón, 1991.
■ 16-62 ■ 16-63
a) ¿Qué año se eligió como año base? b) Vuelva a calcular los índices utilizando 1980 como año base. c) ¿Qué aumentó más, el precio de la comida o de la vivienda entre 1980 y 199l? d) Desde el punto de vista del consumidor, ¿tiene que ver el año base escogido? En 1991, el salario semanal promedio para cierto grupo de jefes de familia era $422.60. En 1996, el salario semanal promedio para el mismo grupo fue $521.35. El índice de precios al consumidor en 1996, con 1991 como periodo base, fue de 152. Calcule el salario semanal promedio“real” para este grupo en 1996. Se realizó una investigación nacional sobre compras para estudiar los hábitos de compra semanal promedio de una familia típica en 1992 y 1996. Los datos obtenidos son los siguientes:
Repaso del capítulo
1992 Precio unitario Cantidad
Productos Queso (8 onzas) Pan (1 barra) Huevos (1 docena) Leche (1 galón)
■ 16-64
$1.19 0.79 0.84 1.36
4.6 4.9 4.7
1 3 1 2
1993
1994
1995
1996
73 101 163 183
76 129 189 210
112 163 271 303
107 162 268 298
6.7 6.2 5.7
4.0 1.8 1.2
5.2 1.2 1.8
Precio por tonelada 1994 $2,680 2,270 3,430
Calcule el índice de cantidad de agregados ponderados para cada año con los precios de 1994 como pesos y ese mismo año como periodo base. Andrea Graham, analista de presupuesto de una compañía de teléfonos de larga distancia, recolectó datos de tarifas y volumen de ventas de las llamadas de Nueva York a Boston. Los datos para cada uno de los tres horarios son: Tarifa por llamada (por minuto) 1991 1996
Horario Día (8 a.m. a 5 p.m.) Tarde (5 p.m. a 11 p.m.) Noche (11 p.m. a 8 a.m.)
$0.17 0.13 0.09
$0.19 0.16 0.12
Número total de llamados (en millones) 1991 5.2 8.7 10.3
Construya un índice de precios de Laspeyres, utilizando 1991 como periodo base. La compañía de transporte Reliable Bus proporciona servicio a la ciudad en donde opera y, además, vende autobuses a las ciudades vecinas. La compañía ha recolectado los datos siguientes con el fin de analizar sus ventas para los años 1992, 1994 y 1996.
Ciudad Greenville Hampton Middletown
■ 16-68
$2.09 1.09 1.35 2.39
Cantidad exportada (en millones de toneladas) 1992 1993 1994 1995
Trigo Semilla de forraje Frijol de soya
■ 16-67
2 3 2 2
Calcule el índice de cantidad de promedio no ponderado de relativos para cada año con 1996 como periodo base. Francis Hill, presidente de una compañía consultora de comercialización agrícola, ha obtenido la siguiente información sobre exportaciones de grano (precios y ventas) por parte de Estados Unidos.
Producto
■ 16-66
1996 Precio unitario Cantidad
Calcule un índice de Paasche para 1996, utilizando 1992 como periodo base. Snow Mountain tiene boletos de acceso con distintos precios,incluyendo algunos con descuento para personas que tienen propiedades en el área, esquiadores discapacitados y esquiadores en tabla. Los números promedio de boletos vendidos por día son los siguientes:
Propietarios Tabla Discapacitados Precio normal
■ 16-65
679
Precio de venta promedio por camión 1992 1994 1996 $21,206 17,129 25,723
$24,210 19,722 28,657
$26,235 22,109 32,481
Número de camiones vendidos 1994 17 14 21
Construya un índice de Laspeyres con 1994 como periodo base. Un restaurante local de comida rápida desea examinar cómo cambian las ventas de cada uno de sus cuatro platillos más populares. Los datos para 1993 a 1996 se presentan a continuación:
680
CAPÍTULO 16 Números índice
Platillo Hamburguesa Emparedado de pollo Papas fritas Aros de cebolla
■ 16-69 ■ 16-70
1993
Precio unitario 1994 1995
1996
$0.58 1.89 0.84 0.91
$0.62 2.09 0.89 0.99
$0.79 2.25 0.99 1.19
$0.69 2.18 0.99 1.14
Cantidad vendida (millones) 1993 1994 1995 1996 2.1 1.5 2.9 3.1
2.5 1.2 2.7 2.4
2.0 1.8 2.3 2.0
1.8 2.1 2.4 1.6
Calcule un índice de agregados de peso fijo para cada año, utilizando los precios de 1990 como base y los de 1993 como los pesos fijos. Use los datos del ejercicio 16-68 para calcular un índice de Paasche para cada año con 1995 como periodo base. Para comparar la calidad de las licencituras en las universidades, el U.S. News & World Report elabora un número índice basado en las calificaciones ponderadas de factores como calificaciones en exámenes, clasificación en bachillerato de los estudiantes admitidos y tasas de graduación reportadas por cada escuela. Pero algunas escuelas entregan datos incompletos o engañosos, ya que excluyen de los promedios algunos estudiantes admitidos en programas preferenciales. Para la guía de escuelas en 1995 (1995 College Guide) el personal de la revista decidió no incluir los datos de las calificaciones de exámenes que pensaron que estaban incompletos, y en su lugar duplicaron la ponderación de la clasificación en la generación. Se asignó a las escuelas que se rehusaron a llenar la forma el menor número de puntos posible para cada factor. Los datos faltantes o incompletos son un problema común para los administradores. Analice las ventajas y desventajas de los dos enfoques (duplicar otro f actor y asignar calificaciones bajas a algunas escuelas). ¿Qué otro procedimiento pudo usarse? Fuente: G. Putka, “U.S. News Addresses Flaws in College Guide”, The Wall Street Journal (7 de septiembre de 1995): B1.
16-71
La siguiente tabla proporciona el número de automóviles producido en la primera mitad de 1994 y 1995 por todas las compañías que operan plantas en Estados Unidos. Observ e que BMW no operó en 1994 y que Nummi es un proyecto común de Toyota y GM que produce el Toyota Corolla y el Chevrolet Prizm en la misma línea de producción. Compañía GM Ford Chrysler BMW Honda Nissan Nummi Toyota Mazda Mitsubishi Subaru-Isuzu Total de la industria
1995, seis meses
1994, seis meses
1,351,471 819,088 316,821 4,866 286,122 184,284 119,572 199,840 85,345 114,752 00039,579 3,521,740
1,518,162 864,029 290,899 — 250,641 174,804 114,589 140,090 125,923 75,352 00014,098 3,568,587
a) Elabore un índice para la producción de cada compañía para los primeros seis meses de 1995 basado en los primeros seis meses de 1994. b) Elabore un índice de toda la industria para la producción de 1995 con 1994 como base. Compare este índice con el promedio sencillo de los índices de las compañías individuales para 1995 y con un promedio ponderado de índices relativos obtenidos con los pesos de cada elemento y la producci ón de 1994 de esa empresa. Fuente: “U.S. Auto Makers Trimming Overtime, Idling Certain Plants,” The Wall Street Journal (21 Julio de 1995): A4.
7.6: Una consideración operacional en el muestreo...
231
7.6 Una consideración operacional en el muestreo: la relación entre el tamaño de muestra y el error estándar Precisión de la media de la muestra
Antes, en este capítulo, vimos que el error estándar, x, es una medición de dispersión de las medias de muestras alrededor de la media de población. Si la dispersión disminuye (si x, se hace más pequeña), entonces los valores tomados por la media de la muestra tienden a agruparse más cercanamente alrededor de . Por el contrario, si la dispersión se incrementa (si x, se hace más grande), los valores tomados por la media de la muestra tienden a agruparse menos cercanamente alrededor de . Podemos concebir esta relación así: al disminuir el error estándar, el valor de cualquier media de muestra probablemente se acercará al valor de la media de población. Los especialistas en estadística describen este fenómeno de otra manera: al disminuir el error estándar, se incrementa la precisión con la que se puede usar la media de muestra para estimar la media de población. Si nos remitimos a la ecuación 7-1, podemos ver que al aumentar n, x, disminuye. Esto sucede porque en la ecuación 7-1 un denominador grande (en la parte derecha) produciría unax, menor (en la parte izquierda). Dos ejemplos mostrarán esta relación; ambos suponen la misma desviación estándar de población de 100. x [7-1] n Cuando n 10: 100 x 10 100 3.162 31.63 ← Error estándar de la media Y cuando n 100:
Aumento del tamaño de la muestra: utilidad decreciente
100 x 100 100 10 10 ← Error estándar de la media
¿Qué hemos mostrado? Al aumentar nuestro tamaño de muestra de 10 a 100 (un incremento de 10 veces), el error estándar disminuyó de 31.63 a 10, lo que es sólo aproximadamente un tercio de su valor inicial. Nuestros ejemplos muestran que, debido al hecho de que x, varía inversamente con la raíz cuadrada de n, hay una utilidad decreciente en el muestreo. Es cierto que muestrear más elementos disminuye el error estándar, pero este beneficio puede no valer el costo. Un estadístico diría: “El aumento de precisión no vale el costo del muestreo adicional”. En un sentido estadístico, rara vez vale la pena tomar muestras e xcesivamente grandes. Los administradores debieran evaluar siempre tanto el valor como el costo de la precisión adicional que obtendrían de una muestra mayor antes de comprometer recursos para tomarla.
El multiplicador de población finita Modificación de la ecuación 7-1
Hasta este punto en nuestros análisis de las distribuciones de muestreo hemos utilizado la ecuación 7-1 para calcular el error estándar de la media: x [7-1] n Esta ecuación está diseñada para situaciones en las que la población es inf inita, o en las que tomamos muestras de una población finita con reemplazo (es decir, después de que se ha muestreado ca-
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados A continuación se presentan las soluciones a los problemas de los autoexámenes, así como las respuestas breves para la mayoría de los problemas pares de este libro. Para soluciones más detalladas, incluyendo explicaciones, interpretaciones y salidas de Excel y Minitab.
CAPÍTULO 1
2.12 Diagrama de tallo y hojas para las Puntuaciones de Finanzas
1.2 Los tamaños pequeño, mediano y grande son categorías. 1.4 (a) El número de teléfonos es una variable numérica discreta porque la variable genera los resultados de conteo. (b) La llamada de larga distancia más prolongada es una variable numérica continua ya que puede ocurrir cualquier variable dentro de un intervalo de valores. (c) El que haya una línea telefónica conectada a un módem de computadora es una variable categórica porque la respuesta sólo puede ser sí o no. (d) La misma respuesta que el inciso (c). 1.6 (a) categórica; (b) numérica, continua; (c) numérica, discreta; (d) numérica, discreta. 1.8 (a) numérica, continua; (b) numérica, discreta; (c) numérica, continua; (d) categórica. 1.10 La variable subyacente, habilidad de los alumnos, puede ser continua, pero el medio para medirla, la prueba, no cuenta con suficiente precisión para distinguir entre dos estudiantes. 1.26 (a) todos los hogares de EU; (b) toda la gente que ha probado y que ha descartado el uso del banco on line; (c) categórica; (d) un estadístico.
CAPÍTULO 2
2.3 (b) El diagrama de Pareto describe mejor los datos porque nos permite enfocarnos en las categorías que tienen el porcentaje más alto de razones. (c) Trate de evitar los siguientes errores: poco o ningún conocimiento de la empresa, no contar con preparación para discutir planes profesionales y entusiasmo limitado. 2.4 (b) El diagrama de Pareto ejemplifica mejor que la gráfica de pastel estos datos, porque no sólo clasifica las frecuencias en orden descendente, sino que también proporciona el polígono acumulativo en la misma escala. (c) A partir del diagrama de Pareto, es obvio que “Google” cuenta con un mercado compartido mayor de 32% seguido por Yahoo con 25%. 2.6 (b) 88%; (d) el diagrama de Pareto nos permite ver qué fuentes explican la mayor parte de la electricidad. 2.8 (b) La gráfica de barras nos permite ver que la categoría “tiene software para todos los usuarios” domina el uso de software antispam de la compañía. 2.10 (b) El mayor número de quejas son por: habitaciones sucias, habitaciones sin equipamiento y habitaciones que requieren de mantenimiento, por lo que enfocarse en estas categorías puede reducir la mayoría de las quejas.
5 6 7 8 9
34 9 4 0 38 n=7
2.14 50 74 74 76 81 89 92 2.16 (a) Arreglo ordenado: $15 $15 $18 $18 $20 $20 $20 $20 $20 $21 $22 $22 $25 $25 $25 $25 $25 $26 $28 $29 $30 $30 $30 (b) Diagrama de tallo y hojas 1 2 3
5588 0000012255555689 000
(c) El diagrama de tallo y hojas proporciona mayor información porque no sólo ordena los valores del menor al mayor en tallos y hojas, sino que también expresa información respecto a cómo se distribuyen los valores y se agrupan en conjuntos de datos. (d) Las tarifas para cheques rechazados parecen concentrarse entre $20 y $25, puesto que estos valores ocurren cinco veces en la muestra de 23 bancos. 2.18 (a) Arreglo ordenado para el pollo: 7, 9, 15, 16, 16, 18, 22, 25, 27, 33, 39 Arreglo ordenado para las hamburguesas: 19, 31, 34, 35, 39, 39, 43 (b) Diagrama de tallo y hojas para las hamburguesas 1 2 3 4
9 14599 3
Diagrama de tallo y hojas para el pollo 0 1 2 3
79 5668 257 39
(c) El diagrama de tallo y hojas proporciona mayor información porque no sólo ordena los valores del menor al mayor en tallos y hojas, sino que también expresa información respecto a cómo se distribuyen los valores y cómo se agrupan en conjuntos de datos. (d) Parece haber mayor contenido de grasa en las hamburguesas porque 6 de los valores en una muestra de 7 tienen un contenido mayor a 30, en comparación con sólo 2 valores en la muestra de 11 artículos de pollo. Asimismo, sólo hay 1 valor con contenido de grasa menor a 20 para hamburguesas, en comparación con 6 valores en la muestra de 11 artículos de pollo.
682
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
2.20 (a) 10 pero menos que 20, 20 pero menos que 30, 30 pero menos que 40, 40 pero menos que 50, 50 pero menos que 60, 60 pero menos que 70, 70 pero menos que 80, 80 pero menos que 90, 90 pero menos que 100. (b) 10; (c) 15, 25, 35, 45, 55, 65, 75, 85, 95 2.22 (a)
Costos de electricidad
Frecuencia
$80 a $100 $100 a $120 $120 a $140 $140 a $160 $160 a $180 $180 a $200 $200 a $220 (c)
4 7 9 13 9 5 3
Porcentaje 8% 14 18 26 18 10 6
Costos de electricidad
Frecuencia
Porcentaje
$ 99 $119 $139 $159 $179 $199 $219
4 7 9 13 9 5 3
8.00% 14.00% 18.00% 26.00% 18.00% 10.00% 6.00%
Porcentaje acumulado 8.00% 22.00% 40.00% 66.00% 84.00% 94.00% 100.00%
(c) Vida del foco (horas)
Error −0.00350—−0.00201 −0.00200—−0.00051 −0.00050—−0.00099 −0.00100—−0.00249 −0.00250—−0.00399 −0.00400—−0.00549
Porcentaje Frecuencia acumulado Porcentaje 13 26 32 20 8 1
13% 39% 71% 91% 99% 100%
13% 26% 32% 20% 8% 1%
(d) Sí, el molino de acero está haciendo un buen trabajo al cumplir con el requerimiento, pues hay sólo una parte de acero, en una muestra de 100, que es 0.005 pulgadas mayor que el requerimiento especificado. 2.24 (a)
Anchura 8.310—8.329 8.330—8.349 8.350—8.369 8.370—8.389 8.390—8.409 8.410—8.429 8.430—8.449 8.450—8.469 8.470—8.489 8.490—8.509
Frecuencia
Porcentaje
3 2 1 4 5 16 5 5 6 2
6.12% 4.08% 2.04% 8.16% 10.20% 31.65% 10.20% 10.20% 12.24% 4.08%
(d) Todos los canalones cumplen con los requerimientos de la compañía al estar entre 8.31 y 8.61 pulgadas de ancho. 2.26 (a)
Vida del foco (horas) 650— 749 750— 849 850— 949 950—1049 1050—1149 1150—1249
Porcentaje, fabricante A 7.5% 12.5 50.0 22.5 7.5 0.0
7.5% 20.0 70.0 92.5 100.0 100.0
0.0% 5.0 25.0 65.0 87.5 100.0
(d) El fabricante B produce focos con vida más larga que el fabricante A. El porcentaje acumulado para el fabricante B muestra que el 65% de sus focos duraron 1,049 horas o menos en comparación con el 70% del fabricante A, cuyos focos duraron 949 horas o menos. Ningún foco del fabricante A duró más de 1,149 horas, pero el 12.5% de los focos del fabricante B duraron entre 1,150 y 1,249 horas. Al mismo tiempo, el 7.5% de los focos del fabricante A duraron menos de 750 horas, mientras que todos los focos del fabricante B duraron por lo menos 750 horas. 2.28 (a) Tabla de frecuencias para todas las respuestas CATEGORÍAS DE LA ESPECIALIDAD ACADÉMICA GÉNERO
A
C
M
Totales
Masculino Femenino Totales
14 6 20
9 6 15
2 3 5
25 15 40
(b) Tabla de porcentajes basada en las respuestas globales de los alumnos CATEGORÍAS DE LA ESPECIALIDAD ACADÉMICA GÉNERO
A
C
M
Totales
Masculino Femenino Totales
35.0% 15.0% 50.0%
22.5% 15.0% 37.5%
5.0% 7.5% 12.5%
62.5% 37.5% 100.0%
(c) Tabla basada en porcentajes por renglón CATEGORÍAS DE LA ESPECIALIDAD ACADÉMICA GÉNERO
A
C
Masculino Femenino Totales
56.0% 40.0% 50.0%
36.0% 40.0% 37.5%
M 8.0% 20.0% 12.5%
Totales 100.0% 100.0% 100.0%
(d) Tabla basada en porcentajes por columna
Porcentaje, fabricante B 0.0% 5.0 20.0 40.0 22.5 12.5
Porcentaje menor que, fabricante B
650— 749 750— 849 850— 949 950—1049 1050—1149 1150—1249
(d) La mayoría de los cargos de utilidad se encuentran agrupados entre $120 y $180. 2.23 (a)
Porcentaje menor que, fabricante A
CATEGORÍAS DE LA ESPECIALIDAD ACADÉMICA GÉNERO
A
C
M
Totales
Masculino Femenino Totales
70.0% 30.0% 100.0%
60.0% 40.0% 100.0%
40.0% 60.0% 100.0%
62.5% 37.5% 100.0%
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados 2.30 (a)
Tabla de porcentajes totales
Tabla de contingencia
GÉNERO
CONDICIÓN DEL TROQUEL CALIDAD
Sin partículas
Buena Mala Totales
320 80 400
Partículas 14 36 50
683
Totales 334 116 450
DISFRUTA COMPRANDO ROPA Sí No Total
Masculino
Femenino
Total
27% 21% 48%
45% 7% 52%
72% 28% 100%
(c) El porcentaje de gente que disfruta de comprar ropa es mayor entre el sexo femenino en comparación con el masculino.
Tabla de porcentajes totales CONDICIÓN DEL TROQUEL CALIDAD
Sin partículas
Partículas
Totales
2.34 (b) Las cinco marcas aumentaron la cantidad de descuentos del 2001 al 2003. Tanto Ford, como Chevrolet y Buick casi duplicaron la cantidad de descuentos.
Buena Mala Totales
71% 18% 89%
3% 8% 11%
74% 26% 100%
2.36 (b) Sí, existe una fuerte relación positiva entre X y Y. Pues conforme aumenta X también se incrementa Y. 2.38 (b) No parece haber una relación positiva entre el precio y el costo de la energía. (c) Los datos no parecen indicar que los refrigeradores de mayor precio tengan una mayor eficiencia en cuanto a energía.
Tabla de porcentajes por renglón CONDICIÓN DEL TROQUEL CALIDAD
Sin partículas
Partículas
Totales
Buena Mala Totales
96% 69% 89%
4% 31% 11%
100% 100% 100%
Tabla de porcentajes por columna CONDICIÓN DEL TROQUEL CALIDAD
Sin partículas
Partículas
Totales
Buena Mala Totales
80% 20% 100%
28% 72% 100%
74% 26% 100%
(c) Los datos sugieren que hay alguna asociación entre la condición del troquel y la calidad de la placa de silicio porque se producen más placas de buena calidad cuando no se encuentran partículas en el troquel y hay más placas de calidad deficiente cuando se encuentran partículas en el troquel. 2.32 (a)
Tabla de porcentajes por renglón GÉNERO DISFRUTA COMPRANDO ROPA Sí No Total
Masculino
Femenino
Total
38% 74% 48%
62% 26% 52%
100% 100% 100%
Tabla de porcentajes por columna GÉNERO DISFRUTA COMPRANDO ROPA Sí No Total
Masculino
Femenino
Total
57% 43% 100%
86% 14% 100%
72% 28% 100%
2.40 (b) No parece haber una relación entre la capacidad de la batería y el tiempo de conversación. (c) En general, esta expectativa no parece confirmarse. 2.42 (b) La tasa de desempleo siguió una tendencia hacia abajo de enero de 1998 a septiembre de 2000 y después se manifestó una tendencia hacia arriba. 2.44 (b) Existe una tendencia hacia arriba en el número de hogares que utilizan el banco on line y/o el pago de los recibos on line. (c) El número de hogares en EU que utilizarán de forma activa el banco on line y/o el pago de recibos por esta misma vía en 2004 será de aproximadamente 36 millones. 2.62 (c) El editor se lleva la mayor porción (64.8%) de los ingresos. Cerca de la mitad de los ingresos (32.2%) recibidos por el editor, cubren los costos de producción. El marketing y la promoción del editor explican la siguiente parte más grande de las ganancias en 15.4%. Tanto autor, empleados de la librería, salarios y beneficios, así como los costos administrativos e impuestos justifican alrededor del 10% de los ingresos, mientras que las ganancias del editor después de los impuestos, las operaciones de la librería, la ganancia de la librería antes de los impuestos y el flete constituyen las asignaciones “poco triviales” de los ingresos. 2.64 (b) De 1999 a 2003 ha declinado el pago en efectivo y cheques mientras que el pago por débito u otro tipo ha aumentado. El porcentaje de pago por crédito ha permanecido más o menos constante. 2.66 (a) El diagrama de Pareto es el más indicado porque no sólo clasifica las frecuencias en orden descendente, sino que también proporciona el polígono acumulativo en la misma escala. A partir del diagrama de Pareto se ve que EU y Brasil tienen más de la mitad del consumo del café en los principales mercados en el año 2000. (b) El diagrama de Pareto es el más indicado porque no sólo clasifica las frecuencias en orden descendente; también proporciona el polígono acumulativo en la misma escala. A partir del diagrama de Pareto se ve que ninguna corporación principal individual domina el mercado del café en Brasil. La corporación que posee la mayor parte del mercado, las marcas de Sara Lee, capta menos del 30% del mercado compartido.
684
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
2.68 (a) No hay un patrón específico en las muertes provocadas por el terrorismo en territorio de EU entre 1990 y 2001. Hay conteos excepcionalmente altos en 1995 y 2001 provocados por los bombazos en Oklahoma y los ataques en la ciudad de Nueva York. (c) El diagrama de Pareto es el que mejor representa estos datos porque no sólo clasifica las frecuencias en orden descendente, sino que también proporciona el polígono acumulativo en la misma escala. Los rótulos en la gráfica de pastel están desordenados porque hay muchas categorías de las causas de muerte. (d) Las principales causas de muertes en EU en el año 2000 fueron las enfermedades cardiacas seguidas por el cáncer. Estas dos causas explican más del 70% del total de muertes. 2.70 (a)
GÉNERO POSTRE ORDENADO Sí No Total
Masculino
Femenino
Total
71% 48% 53%
29% 52% 47%
100% 100% 100%
GÉNERO POSTRE ORDENADO Sí No Total
Masculino
Femenino
Total
30% 70% 100%
14% 86% 100%
23% 77% 100%
PLATILLO DE RES POSTRE ORDENADO Sí No Total
Masculino
Femenino
Total
52% 25% 31%
48% 75% 69%
100% 100% 100%
PLATILLO DE RES POSTRE ORDENADO Sí No Total
Masculino
Femenino
Total
38% 62% 100%
16% 84% 100%
23% 77% 100%
PLATILLO DE RES POSTRE ORDENADO Sí No Total
Masculino
Femenino
Total
12% 19% 31%
11% 58% 69%
23% 77% 100%
(b) Si el propietario está interesado en encontrar el porcentaje de hombres y mujeres que ordenan postre o el porcentaje de aquellos que ordenan un platillo de res y un postre entre todos los clientes, la tabla de porcentajes totales es la más informativa. Si el propietario está interesado en los efectos del género en ordenar un postre o el efecto del género para ordenar un platillo de res y un postre entre todos los clientes, la tabla de porcentajes por columna es la más informativa. Como por lo general el postre se ordena después del plato fuerte y el propietario no tiene control directo sobre el género de los clientes, la tabla de porcentajes por renglón no sería muy útil en este caso. (c) El 30% de los hombres ordenaron postres en comparación con el 14% de
las mujeres. Los hombres tienen casi el doble de probabilidad de ordenar postre que las mujeres. Casi el 38% de los clientes que ordenan un platillo de carne de res ordenaron postre, en comparación con el 16% de los clientes que ordenaron cualquier otro platillo. Los clientes que ordenaron carne de res tienen más de 2.3 veces la probabilidad de ordenar postre que los clientes que ordenan cualquier otro platillo. 2.72 (a) 23575R15 explica más del 80% de los reclamos de la garantía. (b) La separación de la banda de rodadura explica la mayoría (70%) de los reclamos de garantía. (c) La separación de la banda de rodadura explica la mayoría (70%) de los reclamos de garantía en el modelo ATX. (d) El número de reclamos se distribuye de manera uniforme entre los tres incidentes; Otro/desconocido explica casi el 40% de los reclamos, la separación de la banda de rodadura explica cerca del 35% de los reclamos, mientras que las ponchaduras explican cerca del 25% de los reclamos. 2.74
Costo
Porcentaje Frecuencia Porcentaje acumulado
0.50 pero menor que 0.75 0.75 pero menor que 1 1 pero menor que 1.253 1.25 pero menor que 1.5 1.5 pero menor que 1.75 1.75 pero menor que 2 Calorías
8 4 1
11.11% 44.44% 8.33% 22.22% 11.11% 2.78%
11.11% 55.56% 63.89% 86.11% 97.22% 100.00%
Porcentaje Frecuencia Porcentaje acumulado
280 pero menor que 310 310 pero menor que 340 340 pero menor que 370 370 pero menor que 400 400 pero menor que 430 Grasa
4 16
513.89% 9 25.00% 10 27.78% 8 22.22% 4 11.11%
13.89% 38.89% 66.67% 88.89% 100.00%
Porcentaje Frecuencia Porcentaje acumulado
Menor que 51 5 pero menor que 10 10 pero menor que 1513 15 pero menor que 20 20 pero menor que 257 25 pero menor que 30
4 9 2
2.78% 11.11% 36.11% 25.00% 19.44% 5.56%
2.78% 13.89% 50.00% 75.00% 94.44% 100.00%
(e) El precio típico para una rebanada de pizza se encuentra entre $0.75 y $1.00, puesto que ambos son el intervalo que ocurre con mayor frecuencia y más del 50% de la muestra es menor o igual a $1.00. El contenido del conteo calórico típico de una rebanada de pizza está entre 310 y 400 calorías, puesto que más del 80% de la muestra cae en ese intervalo. Más del 73% de las pizzas tiene entre 10 y 20 gramos de grasa. Con base en los resultados de los diagramas de dispersión, al parecer, las calorías y la grasa se relacionan. Otras variables no muestran ningún patrón particular en el diagrama de dispersión, pero la gráfica de calorías y grasa tiene una pendiente positiva puesto que se levanta de izquierda a derecha, mostrando que conforme el valor de una variable se incrementa, el otro tiende a incrementarse. 2.76 (a)
Frecuencias (Boston) Peso (Boston) 3015 pero menor que 3050 3050 pero menor que 3085 3085 pero menor que 3120
Frecuencia
Porcentaje
2 44 122
0.54% 11.96% 33.15%
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados Frecuencias (Boston) Peso (Boston) 3120 pero menor que 3155 3155 pero menor que 3190 3190 pero menor que 32257 3225 pero menor que 3260 3260 pero menor que 32951 (b)
Frecuencia
Porcentaje
131 58
35.60% 15.76% 1.90% 0.82% 0.27%
3
Frecuencias (Vermont) Peso (Vermont)
Frecuencia
3550 pero menor que 3600 3600 pero menor que 3650 3650 pero menor que 3700 3700 pero menor que 3750 3750 pero menor que 3800 3800 pero menor que 3850 3850 pero menor que 3900
4 31 115 131 36 12 1
Porcentaje 1.21% 9.39% 34.85% 39.70% 10.91% 3.64% 0.30%
(d) El 0.54% de las paletas de tablillas “Boston” tienen bajo peso, mientras que el 0.27% tiene sobrepeso. El 1.21% de las paletas de tablillas “Vermont” tienen bajo peso, mientras que el 3.94% tiene sobrepeso. 2.78 (a), (c) Calorías 50 pero menor que 100 100 pero menor que 150 150 pero menor que 200 200 pero menor que 250 250 pero menor que 300 300 pero menor que 350 350 pero menor que 400
Frecuencia
Porcentaje
Porcentaje menor que
3 3 9 6 3 0 1
12% 12 36 24 12 0 4
12% 24 60 84 96 96 100
Calorías de grasa saturada 0% pero menor que 5% 5% pero menor que 10% 10% pero menor que 15% 15% pero menor que 20% 20% pero menor que 25% 25% pero menor que 30% Colesterol 0 pero menor que 50 50 pero menor que 100 100 pero menor que 150 150 pero menor que 200 200 pero menor que 250 250 pero menor que 300 300 pero menor que 350 350 pero menor que 400 400 pero menor que 450 450 pero menor que 500
16 pero menor que 20 20 pero menor que 24 24 pero menor que 28 28 pero menor que 32 32 pero menor que 36 Calorías de grasa 0% pero menor que 10% 10% pero menor que 20% 20% pero menor que 30% 30% pero menor que 40% 40% pero menor que 50% 50% pero menor que 60% 60% pero menor que 70% 70% pero menor que 80%
Frecuencia 1 520 8 9 2
Frecuencia 3 4 2 520 3 5 2 1
Porcentaje 4
Porcentaje menor que
32 36 8
4 24 56 92 100
Porcentaje
Porcentaje menor que
12 16 8 12 20 8 4
12 28 36 56 68 88 96 100
Frecuencia
Porcentaje
Porcentaje menor que
6 2 5 5 5 2
24 8 20 20 20 8
24 32 52 72 92 100
Frecuencia
Porcentaje
Porcentaje menor que
2 17 4 1 0 0 0 0 0 1
8 68 16 4 0 0 0 0 0 4
8% 76 92 96 96 96 96 96 96 100
(d) Las muestras de carnes rojas frescas, pollo y pescado, varían de 98 a 397 calorías por porción con la mayor concentración entre 150 a 200 calorías. Una fuente de proteínas, las costillas de cerdo con 397 calorías, tuvo 100 calorías más que el siguiente alimento con alto contenido calórico. El contenido proteínico de los alimentos muestreados varía de 16 a 33 gramos; el 68% de los valores de los datos caen entre los 24 y 32 gramos. Las costillas de cerdo y el hígado frito son muy diferentes de los demás alimentos muestreados, el primero en calorías y el último en contenido de colesterol. 2.80 (a)
Conteo de tipo de tracción Tipo de tracción AWD
Proteína
685
Delantera Delantera, AWD Permanente 4WD Posterior Gran total
Tipo de combustible Diesel
Premium
Regular
Gran total
0 1 0 0 0 1
5 18 0 3 11 37
2 63 1 0 17 83
7 82 1 3 28 121
(c) Con base en los resultados de los incisos a) y b), el porcentaje de autos con tracción delantera que emplean gasolina regular, parece ser mayor que el porcentaje de autos con tracción posterior. 2.82 (a), (c) Promedio de boletos $ 6 pero menos que 12 12 pero menos que 18 18 pero menos que 24 24 pero menos que 30 30 pero menos que 36 36 pero menos que 42
Frecuencia 3 12 11 3 0 1
Porcentaje Porcentaje acumulado 10.00% 40.00% 36.67% 10.00% 0.00% 3.33%
10.00% 50.00% 86.67% 96.67% 96.67% 100.00%
686
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
Índice del costo por aficionado 80 pero menor que 1052 105 pero menor que 130 130 pero menor que 155 155 pero menor que 180 180 pero menor que 2051 205 pero menor que 230
Frecuencia 7 10 9 1
Porcentaje Porcentaje acumulado 6.67% 23.33% 33.33% 30.00% 3.33% 3.33%
6.67% 30.00% 63.33% 93.33% 96.67% 100.00%
Ingresos de la temporada regular (millones de dólares) Frecuencia
Porcentaje Porcentaje acumulado
5 pero menor que 20 20 pero menor que 357 35 pero menor que 50 50 pero menor que 65 65 pero menor que 80 80 pero menor que 951 95 pero menor que 110
16.67% 23.33% 16.67% 20.00% 16.67% 3.33% 3.33%
5 5 6 5 1
16.67% 40.00% 56.67% 76.67% 93.33% 96.67% 100.00%
Ingresos por operaciones de béisbol Porcentaje (millones de dólares) Frecuencia Porcentaje acumulado −60 pero menor que −452 −45 pero menor que −30 −30 pero menor que −158 −15 pero menor que 0 0 pero menor que 157 15 pero menor que 30 30 pero menor que 452
6.67% 6.67% 26.67% 26.67% 23.33% 3.33% 6.67%
2 8 1
6.67% 13.33% 40.00% 66.67% 90.00% 93.33% 100.00%
(d) Parece haber una relación lineal positiva débil entre el número de juegos ganados y la compensación y los beneficios del jugador. 2.84 (b) La única variable que parece ser útil para pronosticar el precio de la impresión es el costo del texto. Parece haber una relación lineal negativa entre el precio y el costo del texto. Generalmente cuanto mayor sea el costo del texto, menor será el precio de la impresión.
CAPÍTULO 3 local, radio y cable (millones de dólares) TV
0 pero menor que 10 10 pero menor que 20 20 pero menor que 30 30 pero menor que 40 40 pero menor que 50 50 pero menor que 60 Otros ingresos locales de operación (millones de dólares) 0 pero menor que 10 10 pero menor que 20 20 pero menor que 30 30 pero menor que 40 40 pero menor que 50 50 pero menor que 60 60 pero menor que 70
Porcentaje Frecuencia Porcentaje acumulado 7 12 6 3 1 1
23.33% 40.00% 20.00% 10.00% 3.33% 3.33%
23.33% 63.33% 83.33% 93.33% 96.67% 100.00%
Gastos nacionales yotros gastos (millones de dólares) 30 pero menor que 40 40 pero menor que 50 50 pero menor que 60 60 pero menor que 70 70 pero menor que 80 80 pero menor que 90
3.4 (a) media = 2, mediana = 7, moda = 7; (b) rango = 17, rango intercuartil = 14.5, S2 = 62, S = 7.874, CV = 393.7%; (c) sesgado hacia la izquierda ya que media < mediana 3.6 (a)
Porcentaje Frecuencia Porcentaje acumulado 6 3 8 8 3 1 1
20.00% 10.00% 26.67% 26.67% 10.00% 3.33% 3.33%
20.00% 30.00% 56.67% 83.33% 93.33% 96.67% 100.00%
Compensación y beneficios del jugador Porcentaje (millones de dólares) Frecuencia Porcentaje acumulado 30 pero menor que 455 45 pero menor que 60 60 pero menor que 754 75 pero menor que 90 90 pero menor que 1055 105 pero menor que 120
3.2 (a) media = 7, mediana = 7, moda = 7; (b) rango = 9, rango intercuartil = 5, S2 = 10.8, S = 3.286, CV = 46.943%; (c) puntuaciones Z: 0, –0.913, 0.609, 0, –1.217, 1.521. Ninguna de las puntuaciones Z es más grande que 3.0 o menor que –3.0. No hay valores extremos. (d) simétrico ya que media = mediana
8 5 3
16.67% 26.67% 13.33% 16.67% 16.67% 10.00%
16.67% 43.33% 56.67% 73.33% 90.00% 100.00%
Porcentaje Frecuencia Porcentaje acumulado 4 10 9 2 3 2
13.33% 33.33% 30.00% 6.67% 10.00% 6.67%
13.33% 46.67% 76.67% 83.33% 93.33% 100.00%
Media Mediana Desviación estándar
Grado X
Grado Y
575 575 6.40
575.4 575 2.07
(b) Si se mide la calidad con la tendencia central, las llantas Grado X ofrecen una calidad ligeramente mejor ya que la media y la mediana de X son ambas iguales al valor esperado, 575 mm. Si, no obstante, la calidad se mide por la consistencia, el Grado Y ofrece una mejor calidad porque, aun cuando la media de Y es sólo ligeramente mayor que la media para el Grado X, la desviación estándar de Y es mucho menor. El rango en los valores de Y es de 5 mm, comparado con el rango en los valores para el Grado X, el cual es de 16 mm. Grado X
(c) Media Mediana Desviación estándar
575 575 6.40
Grado Y, Alterado 577.4 575 6.11
Cuando el quinto valor del tipo Y fuese 588 mm en lugar de 578 mm, la media del diámetro interno de Y se vuelve 577.4 mm, que es mayor que la media del diámetro interno de X, y la desviación estándar de Y se incrementa de 2.07 mm a 6.11 mm. En este caso, las llantas X tendrán mejor calidad en términos de la media del diámetro interno con una variación ligeramente mayor que entre las llantas Y. 240 = 34.2857 Mediana = 3.7 (a) Para las hamburguesas: X = 7 (7+1)/2 = 4º valor clasificado = 35 Q1 = (7+1)/4 = 2º valor clasificado = 31 Q3 = 3(7+1)/4 = 6º valor clasificado = 39. 227 = 20.6364 Mediana = Para los productos de pollo: X = 11
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados (11+1)/2 = 6º valor clasificado = 18 Q1 = (11+1)/4 = 3er valor clasificado = 15 Q3 = 3(11+1)/4 = 9º valor clasificado = 27 (b) Para las hamburguesas: Rango = 43 – 19 = 24, Rango intercuartil = 39 – 31 = 8 Grasa total (X)
X − Media
19 31 34 35 39 39 43
−15.2857 −3.28571 −0.28571 0.714286 4.714286 4.714286 8.714286
(X − Media)2 233.653061 10.7959184 0.08163265 0.51020408 22.2244898 22.2244898 75.9387755
34.285714 Suma: 365.428571 Media 365.428571 S2 = = 60.904761; S = 60.904761 = 7.804 6 7.804 C.V. = × 100% = 22.761% 34.28571 Para los artículos de pollo: Rango = 39 – 7 = 32; Rango intercuartil = 27 – 15 = 12 Grasa total (X) 7 9 15 16 16 18 22 25 27 33 39 20.636364 Media
(X − Media) −13.6364 −11.6364 −5.63636 −4.63636 −4.63636 −2.63636 1.363636 4.363636 6.363636 12.36364 18.36364
(X − Media)2 185.950413 135.404959 31.768595 21.4958678 21.4958678 6.95041322 1.85950413 19.0413223 40.4958678 152.859504 337.22314 Suma: 954.545455
954.54545 = 95.454545; S = 95.454545 = 9.77 10 9.77 C.V. = × 100% = 47.344% 20.636 (c) Los datos para los artículos de pollo están sesgados hacia la derecha y los datos para las hamburguesas están sesgados hacia la izquierda. (d) En general, las hamburguesas tienen más grasa total que los productos de pollo. El total de grasa más bajo para las hamburguesas está siempre por arriba del 50% del total de grasa de los productos de pollo. Cerca del 25% de las hamburguesas tienen un total de grasa mayor que el total de grasa más alto entre los productos de pollo. S2 =
3.8 (a) La distribución de los ingresos de las familias muy posiblemente se sesgará hacia la derecha por la presencia de algunas cuantas personas que poseen millones o miles de millones. Como resultado, la mediana del ingreso es una mejor medida de tendencia central que la media del ingreso. (b) El artículo reporta la mediana del precio de una casa y no el precio medio porque la mediana es una mejor medida de tendencia central en presencia de algunas casas extremadamente caras que harían aumentar el precio medio de las casas. 3.10 (a) Calorías: media = 380, mediana = 350, 1er cuartil = 260, 3er cuartil = 510. Grasa: media = 15.79, mediana = 19, 1er cuartil = 8, 3er cuartil = 22. (b) Calorías: varianza = 12,800, desviación estándar = 113.14, rango = 290, intervalo intercuartil = 250, CV = 29.77%. Ninguna de las puntuaciones Z son menores que –3 o mayores que 3.
687
No hay valores extremos en las calorías. Grasa: varianza = 52.82, desviación estándar = 7.27, rango = 18.5, rango intercuartil = 14, CV = 46.04%. Ninguna de las puntuaciones Z son menores que –3 ni mayores que 3. No hay extremos en la grasa. (c) Las calorías están ligeramente sesgadas hacia la derecha, mientras que la grasa está ligeramente sesgada hacia la izquierda. (d) La media de calorías es de 380, mientras que la caloría clasificada en el medio es 350. La dispersión promedio de calorías alrededor de la media es 113.14. El 50% medio de las calorías se distribuye sobre 250, mientras que la diferencia entre las calorías más altas y más bajas es 290. La media de grasa es 15.79 gramos mientras que la grasa clasificada en el medio es 19 gramos. La dispersión promedio de grasa encontrada alrededor de la media es 7.27 gramos. El 50% de los valores están dispersos sobre 14 gramos, mientras que la diferencia entre la grasa más alta y la más baja es de 18.5 gramos. 3.12 (a) media = $347.86, mediana = $340, 1er cuartil = $290, 3er cuartil = $400. (b) varianza = 4,910.44, desviación estándar = $70.07, rango = $230, rango intercuartil = $110, CV = 20.14%. Ninguna de las puntuaciones Z son menores que –3 o mayores que 3. No hay valores extremos en el precio. (c) El precio de las cámaras de 3 megapixeles es simétrico. (d) El precio promedio es de $347.86, mientras que el precio clasificado en el medio es $340. La dispersión promedio del precio alrededor de la media es $70.07. El 50% medio de los precios están dispersos arriba de $110, mientras que la diferencia entre los precios mayor y menor es de $230. 3.14 (a) Media = 473.46, Mediana = 451. No hay moda. La mediana parece ser una mejor medida descriptiva, ya que estos datos no son simétricos. (b) Rango = 785, Varianza = 44,442.44, Desviación estándar = 210.77. (c) Desde el punto de vista del productor, la peor medida sería calcular la proporción de baterías que duran por arriba de 400 horas (8/13 = 0.61). Tanto la mediana (451) como la media (473.5) están por encima de 400 horas, y serían una mejor medida para que el fabricante las usara en su publicidad. (d) Media = 550.38, Mediana = 492, Moda = ninguna, Rango = 1,078, Varianza = 99,435.26, Desviación estándar = 315.33. Desde el punto de vista del productor, la peor medida sigue siendo la proporción de baterías que duran más allá de 400 horas (9/13 = 0.69). Tanto la mediana (492) como la media (550.38) están muy por arriba de 400, y serían mejores medidas para que el productor las usara en su publicidad. La forma de la distribución de este conjunto alterado de datos se sesga hacia la derecha, ya que la media es mayor que la mediana. 3.16 (a) Media = 7.11, Mediana = 6.68, Q1 = 5.64, Q3 = 8.73. (b) Varianza = 4.336, Desviación estándar = 2.082, Rango = 6.67, Rango intercuartil = 3.09, Coeficiente de variación = 29.27%. (c) Ya que la media es mayor que la mediana, la distribución se sesga hacia la derecha. (d) Tanto la media como la mediana son más de 5 minutos. La distribución está sesgada hacia la derecha, lo que significa que hay más valores altos inusuales, que valores bajos. Más aún, 13 de los 15 clientes del banco muestreado (86.7%) tuvieron tiempos de espera con un exceso de 5 minutos. Así, el cliente tiene mayor posibilidad de experimentar un tiempo de espera excesivo de 5 minutos más. El gerente exageró el récord del servicio bancario al responder que “con toda seguridad” el cliente no esperará más de 5 minutos para ser atendido. 3.17 RG = [(1 + 0.61)(1 + 0.55)]1/2 − 1 = 57.97% 3.18 (a)
Año
DJIA
SP500
2003 25.30 26.40 2002 −15.01 −22.10 2001 −5.44 −11.90 2000 −6.20 −9.10 Media −1.42% −5.77% geométrica
Russell 2000
Wilshire 5000
45.40 −21.58 −1.03 −3.02 2.28%
29.40 −20.90 −10.97 −10.89 −5.07%
688
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
(b) La tasa de rendimiento de SP500 es la peor al ubicarse en –5.77%, seguida por Wilshire 5000 a –5.07% y DJIA –1.42%. Russell 2000 es el único índice entre las cuatro que tiene una tasa de rendimiento positiva del 2.28% sobre un periodo de cuatro años. (c) En general, las inversiones del mercado del metal consiguen la tasa más alta de rendimiento que las inversiones del mercado de los certificados de depósito de 2000 a 2003. Las inversionistas del mercado de existencias tienen la peor tasa de rendimiento. 3.20 (a) Año 2003 2002 2001 2000 Media geométrica
Platino
Oro
Plata
34.2 24.5 −21.3 −23.3 0.21%
19.5 24.5 1.2 1.8 11.27%
24.0 5.5 −3.0 −5.9 4.53%
(b) Los tres materiales obtuvieron una tasa positiva de rendimiento en el periodo de cuatro años. El oro alcanzó su tasa de rendimiento más alta en 11.27%, seguido por la plata con 4.53% y el platino con 0.21%. (c) En general, las inversiones en el mercado del metal lograron una mayor tasa de rendimiento que las inversiones en el mercado de depósitos de 2000 a 2003. Las inversiones en el mercado de acciones registraron la peor tasa de rendimiento. 3.22 (a) Media poblacional µ = 6 (b) Desviación estándar poblacional, σ = 1.673, Varianza poblacional, σ2 = 2.8 204.92 514 = 4.0984, σ = 4.0984 = =10.28, σ2 = 50 50 2.02445 (b) 64%, 94%, 100% (c) Estos porcentajes son menores a lo que sugiere la regla empírica. 3.23 (a) µ =
3.24 (a) 68% (b) 95% (c) no es calculable, 75%, 88.89%. (d) µ − 4σ a µ + 4σ o –2.8 a 19.2 3.26 (a) media = 12,999.2158, varianza = 14,959,700.52, desviación estándar = 3,867.7772. (b) 64.71%, 98.04% y 100% de estos estados tiene una media per cápita de consumo de energía dentro de 1, 2 y 3 desviaciones estándar de la media, respectivamente. (c) Esto es consistente con el 68%, 95% y 99.7% de acuerdo con la regla empírica. (d) (a) media = 12,857.7402, varianza = 14,238,110.67, desviación estándar = 3,773.3421. (b) 66%, 98% y 100% de estos estados tienen una media per cápita de consumo de energía dentro de 1, 2 y 3 desviaciones estándar alrededor de la media, respectivamente. (c) Esto es consistente con el 68%, 95% y 99.7% de acuerdo con la regla empírica. 3.28 (a) 3,4,7,9,12; (b) La distancia entre la mediana y los extremos es cercana, 4 y 5, pero la diferencia en los tamaños de los bigotes es diferente (1 en la izquierda y 3 en el derecha) por lo que la distribución está ligeramente sesgada hacia la derecha. (c) En 3.2 (c) puesto que la media = mediana, se dice que la distribución es simétrica. La parte de la gráfica correspondiente a la caja es simétrica, pero los bigotes muestran un sesgo hacia la derecha. 3.30 (a) −8, −6.5, 7, 8, 9; (b) La forma es sesgada hacia la izquierda. (c) Esto es consistente con la respuesta en el inciso (c) de la pregunta 3.4. 3.32 (a) Resumen de cinco números: 309 593 895.5 1,425 1,720. (b) sesgado hacia la derecha. 3.34 (a) Tarifa de cheque rechazado: resumen de cinco números: 15 20 22 26 30. Tarifa de servicio mensual: resumen de cinco números: 0 5 7 10 12. (b) La distribución de los cheques rechazados está ligeramente sesgada hacia la derecha. La distribución de los cargos por el servicio mensual está sesgada hacia la izquierda. (c) La tendencia central de la tarifa de los cheques rechazados es sustancialmente
mayor que aquella de la tarifa del servicio mensual. Mientras que la distribución de las tarifas de cheques rechazados es simétrica, la distribución de las tarifas del servicio mensual está sesgada más hacia la izquierda, con unos cuantos bancos que cobran una tarifa muy baja de servicio mensual o no cobran tarifa de servicio mensual. 3.36 (a) Distrito comercial: resumen de cinco números: 0.38 3.2 4.5 5.55 6.46. Área residencial: resumen de cinco números: 3.82 5.64 6.68 8.73 10.49. (b) Distrito comercial: La distribución está sesgada hacia la izquierda. Área residencial: La distribución está ligeramente sesgada hacia la derecha. (c) La tendencia central de los tiempos de espera para la sucursal de banco localizada en el distrito comercial de la ciudad es menor que aquella de la sucursal localizada en el área residencial. Hay menos tiempos de espera largos que tiempos de espera normales para la sucursal localizada en el área residencial, mientras que hay menos tiempos de espera excepcionalmente cortos para la sucursal localizada en el área comercial. 3.38 (a) Se puede decir que hay una relación lineal positiva fuerte entre la evolución de la inversión de acciones estadounidenses y las acciones internacionales de gran capital; entre las acciones estadounidenses y las acciones del mercado emergente; una relación lineal moderada entre las acciones estadounidenses y las acciones internacionales de pequeño capital; entre las acciones estadounidenses y las acciones del mercado de deuda emergente; y una relación lineal positiva muy débil entre las acciones estadounidenses y los bonos internacionales. (b) En general, hay una relación lineal positiva entre el rendimiento en la inversión de acciones estadounidenses y las acciones internacionales, entre los bonos estadounidenses y los bonos internacionales, entre las acciones estadounidenses y el mercado de deuda emergente, y una relación lineal negativa muy débil, si acaso, entre los rendimientos de la inversión de bonos estadounidenses y las acciones internacionales. 3.40 (a) cov (X, Y) = 591.667 (b), r = 0.7196 (c) El coeficiente de correlación es de mayor valor para expresar la relación entre las calorías y la grasa puesto que no depende de las unidades utilizadas para medir calorías y grasa. (d) Hay un relación positiva lineal fuerte entre las calorías y la grasa. −336.958 3.42 (a) cov (X, Y) = −336.958. (b) r = = −0.4014 (105.3617)(7.967) (c) El coeficiente de correlación entre la tasa de facturación y las violaciones de seguridad indica que hay una relación lineal negativa débil entre ambos. 3.56 (a) media = 43.89, mediana = 45, 1er cuartil = 18, 3er cuartil = 63. (b) rango = 76, rango intercuartil = 45, varianza = 639.2564, desviación estándar = 25.28, coeficiente de variación = 57.61%. (c) La distribución está sesgada hacia la derecha porque hay pocas políticas que requieran de un periodo excepcionalmente largo para su aprobación. (d) La media del proceso de aprobación toma 43.89 días; el 50% de las políticas que fueron aprobadas en menos de 45 días. El 50% de las solicitudes son aprobadas entre 18 y 63 días. Cerca del 67% de las solicitudes se aprueban entre 18.6 y 69.2 días. 3.58 (a) media = 8.421, mediana = 8.42, rango = 0.186, S = 0.0461. La amplitud para la media y la mediana es de 8.42 pulgadas para ambas. El rango para las anchuras es de 0.186 pulgadas y la dispersión promedio alrededor de la media es de 0.0461 pulgadas. (b) 8.312, 8.404, 8.42, 8.459, 8.498; (c) Aun cuando la media es igual a la mediana, el bigote izquierdo es mayor, por lo que la distribución está sesgada hacia la izquierda. (d) Todos los canalones en esta muestra cumplen con las especificaciones. 3.60 (a) Oficina I: media = 2.214, mediana = 1.54; Oficina II: media = 2.011, mediana = 1.505; Oficina I: Q1= 0.93, Q3= 3.93; Oficina II: Q1= 0.6, Q3 = 3.75; (b) Oficina I: Rango = 5.80, IQR = 3.00, S2 = 2.952, S = 1.718, CV = 77.597%; Oficina II: Rango = 7.47, IQR =
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados 3.15, S2 = 3.579, S = 1.892, CV = 94.04%; (c) Sí, ambas están sesgadas hacia la derecha. (d) La Oficina II tiene más variabilidad en tiempos para aclarar los problemas, con un intervalo más amplio y una mayor desviación estándar. La Oficina II tiene una media menor de tiempo para aclarar problemas. 3.62 (a) Costo: media = 0.171; mediana = 0.17; Calorías: media = 165.758, mediana = 190; Fibra: media = 6.909, mediana = 6; Azúcar: media = 11.394, mediana = 11; Costo: Q1 = 0.13, Q3= 0.20; Calorías: Q1 = 135, Q3 = 200; Fibra Q1 = 5, Q3 = 8; Azúcar: Q1 = 6, Q3= 17.5; (b) Costo: Rango = 0.17, IQR = 0.07, S2 = 0.00220, S = 0.0469, CV = 27.49%; Calorías: Rango = 160, IQR = 65, S2 = 2,681.439, S = 51.783, CV = 31.240%; Fibra: Rango = 8, IQR = 3, S2 = 5.773, S = 2.403, CV = 34.781%; Azúcar: Rango = 23, IQR = 11.50, S2 = 44.246, S = 6.652, CV = 58.382%; (c) Costo: sesgado a la derecha, calorías: sesgado a la izquierda, fibra: sesgado a la derecha, azúcar: aproximadamente simétrica; (d) Costo: El costo promedio es aproximadamente 17 centavos por onza. La mayoría de los cereales se agrupan alrededor de este costo con pocos cereales con un costo alto. El promedio de dispersión alrededor de la media es de aproximadamente 5 centavos por onza. Calorías: La media de calorías es aproximadamente 166 y un valor medio de 190, con un promedio de dispersión alrededor de la media de aproximadamente 52. Como los datos están sesgados hacia la izquierda, la mayoría de las calorías se agrupan en el extremo superior con pocos cereales bajos en calorías. Fibra: La cantidad promedio de fibra es de aproximadamente 6.9 gramos con un valor medio de 6 gramos, con una dispersión promedio alrededor de la media de aproximadamente 2.4 gramos. Como la fibra está sesgada hacia la derecha, los cereales tienden a agruparse alrededor de los números inferiores de fibra. Tres cereales incrementan la media de la fibra. Azúcar: La cantidad promedio de azúcar es de 11.4 gramos con un valor medio de 11 gramos. El promedio de dispersión alrededor de la media es de 6.65 gramos. Los datos son relativamente simétricos. 3.64 (a) Con promoción: media = 20,748.93, desviación estándar = 8,109.50; Sin promoción: media = 13,935.70, desviación estándar = 4,437.92. (b) Con promoción: mínimo = 10,470, 1er cuartil = 14,905, mediana = 19,775, 3er cuartil = 24,456, máximo = 40,605. Sin promoción: mínimo = 9,555, 1er cuartil = 11,779, mediana = 12,952, 3er cuartil = 14,367, máximo = 28,834. (d) La asistencia promedio es de 6,813 más cuando hay una promoción que cuando no hay promoción, y la variación en la asistencia cuando hay una promoción es mayor que cuando no hay promoción. Hay muchos factores que provocarían la variación en la asistencia pagada. Algunos de ellos son la condición del clima, la hora y el día del juego, el equipo visitante, etcétera. 3.66 (a) Boston: 0.04, 0.17, 0.23, 0.32, 0.98; Vermont: 0.02, 0.13, 0.20, 0.28, 0.83. (b) Ambas distribuciones están sesgadas hacia la derecha. (c) Ambos conjuntos de tejas tuvieron un buen desempeño con una pérdida granular de 0.8 gramos o menos. Las tejas Boston tuvieron sólo 2 puntos de pérdida granular mayor que 0.8 gramos. El siguiente valor menor más próximo a éstos fue de 0.6 gramos. Estos dos puntos de datos se consideran como extremos. Sólo el 1.176% de las tejas no cumplieron con la especificación. En las tejas Vermont sólo un punto de dato fue mayor a 0.8 gramos. El siguiente punto fue 0.58 gramos. Así, sólo el 0.714% de las tejas no cumplieron con la especificación. 3.68 (a), (b) Promedio Precio del boleto Índice de costo por aficionado
Media
Mediana
Q1
Q3
18.1333
17.83
15.20
20.84
144.5737
143.475
124.25
160.76
Ingresos en temporada regular TV local, Radio, cable Otro ingreso local Compensación al jugador Gastos nacionales y locales Ingresos por operaciones de béisbol Varianza
689
Media
Mediana
Q1
Q3
46.1367
47.55
30.20
62.10
19.0467 27.5933
16.35 29.05
10.90 13.90
23.60 37.00
71.3567
70.80
49.40
92.80
54.6467
50.50
46.90
58.50
−8.3733
−8.35
−18.50
1.90
Desviación estándar
Rango
Rango intercuartil
C.V.
5.9983
33.07
5.64
33.08%
29.0423
143.84
36.51
20.09%
22.6394
91.60
31.90
49.07%
12.2890
56.30
12.70
64.52%
15.3173
58.70
23.10
55.51%
25.7651
88.00
43.40
36.11%
13.2819
49.20
11.60
24.3%
20.6919
93.80
20.40
Promedio Precio del boleto 35.9797 Índice del costo por aficionado 843.4552 Ingresos en temporada regular 512.5445 TV local, Radio, cable 151.0184 Otro ingreso local 234.6186 Compensación al jugador 663.8405 Gastos nacionales y locales 176.4081 Ingresos por operaciones de béisbol 428.1531
−247.12%
(c) Promedio del precio del boleto, TV local, radio y cable, gastos nacionales, locales y otros están sesgados hacia la derecha; índice del costo por aficionado está ligeramente sesgado hacia la derecha; todas las demás variables son aproximadamente simétricas. (d) r = 0.3985. Hay una relación lineal positiva moderada entre el número de juegos ganados y la compensación y los beneficios del jugador. 3.70 (a) r = −0.384; r = −0.512; r = −0.544; r = −0.261. (b) El tiempo de las fotografías a color tiene la mayor relación con el precio de las cuatro variables, por lo que será el elemento más útil para pronosticar el precio. Conforme el precio se incrementa, el tiempo de las fotografías de color disminuye. Las cuatro variables tienen una relación negativa (inversa) con el precio. 3.72 No son SUV: (a), (b) Mínimo Primer cuartil Mediana Tercer cuartil Máximo Media Varianza Desviación estándar Rango Rango intercuartil Coeficiente de variación
MPG
Longitud
Anchura
17 19 21 23 41 22.1556 18.7396
155 178 189 198 215 187.9778 161.4377
65 68 71 73 79 71.0000 9.8652
4.3289 24 4
12.7058 60 20
3.1409 14 5
19.54%
6.76%
4.42%
690
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados Volumen Circunferencia de carga de viraje Mínimo Primer cuartil Mediana Tercer cuartil Máximo Media Varianza Desviación estándar Rango Rango intercuartil Coeficiente de variación
Peso
5 13 15 19 75.5 22.3944 323.7837
33 38 40 41 45 39.7000 6.3247
2,150 3,095 3,427.5 3750 4315 3,391.7222 232,210.7647
17.9940 70.5
2.5149 12
481.8825 2,165
6
3
80.35%
655
6.33%
14.21%
SUV: Mínimo Primer cuartil Mediana Tercer cuartil Máximo Media Varianza Desviación estándar Rango Rango intercuartil Coeficiente de variación
4.2 (a) Los eventos simples incluyen seleccionar una bola roja. (b) Seleccionar una bola blanca. 4.4 (a) 60/100 = 3/5 = 0.6 (b) 10/100 = 1/10 = 0.1 (c) 35/100 = 7/20 = 0.35 (d) 9/10 = 0.9 4.6 (a) Mutuamente excluyentes, no colectivamente exhaustivos. (b) No son mutuamente excluyentes, no son colectivamente exhaustivos. (c) Mutuamente excluyentes, no colectivamente exhaustivos. (d) Mutuamente excluyentes, colectivamente exhaustivos. 4.8 (a) “Es propietario de una casa”. (b) “Un propietario de casa que maneja su auto hacia el trabajo”. (c) “No maneja hacia el trabajo” (d) “Una persona puede manejar su auto hacia el trabajo y también ser propietaria de una casa”. 4.10 (a) “Es una buena placa de silicio”. (b) “Una placa de silicio es buena y no se encontraron partículas en el troquel”. (c) “Mala placa de silicio”. (d) Un placa de silicio puede ser una “buena placa de silicio” y haber sido producida por un troquel “con partículas”.
MPG
Longitud
Anchura
10 15 16 18 22 16.4839 7.2581
163 175 183 190 227 184.9032 209.5570
67 70 72 74 80 72.3226 11.0925
4.12 (a) 83/369 = 0.2249; (b) 137/369 = 0.3713; (c) 220/369 = 0.5962; (d) La probabilidad de “empresa pequeña a de tamaño medio u ofrecimiento de acciones” incluye la probabilidad de “empresa pequeña a de tamaño medio y ofrecimiento de acciones”, la probabilidad de “empresa pequeña a de tamaño medio pero sin ofrecimiento de acciones” y la probabilidad de “empresa grande y ofrecimiento de acciones”.
2.6941 12 3
14.4761 64 15
3.3305 13 4
4.14 (a) 360/500 = 18/25 = 0.72; (b) 224/500 = 56/125 = 0.448; (c) 396/500 = 99/125 = 0.792 (d) 500/500 = 1.00.
16.34%
7.83%
4.61%
Volumen Circunferencia de carga de viraje Mínimo Primer cuartil Mediana Tercer cuartil Máximo Media Varianza Desviación estándar Rango Rango intercuartil Coeficiente de variación
CAPÍTULO 4
4.18 1 = 0.5. Peso
28 34.5 37.5 45.5 84 42.3548 183.7532
37 39 40 41 52 40.5806 11.3183
3,055 3,590 4,135 4,715 7,270 4,267.4194 783,086.4516
13.5556 56
3.3643 15
884.9217 4,215
11
2
32.00%
8.29%
4.16 (a) 10/30 = 1/3 = 0.33; (b) 20/60 = 1/3= 0.33; (c) 40/60 = 2/3 = 0.67; (d) puesto que P(A B) = P(A) = 1/3, los eventos A y B son estadísticamente independientes.
1,125 20.74%
(c) Vehículos que no son SUV: Tanto millas por galón como capacidad de carga de equipaje están sesgadas hacia la derecha; la longitud y la anchura están sesgadas hacia la izquierda; la anchura está ligeramente sesgada hacia la derecha y la circunferencia de viraje es bastante simétrica. SUV: Todas las variables están sesgadas hacia la derecha, exceptuando las millas por galón, que sólo presentan un ligero sesgo hacia la derecha.
2
4.20 Puesto que P(A y B) = 0.20 y P(A)P(B) = 0.12, los eventos A y B no son estadísticamente independientes. 4.21 (a) P (un propietario de casa | maneja hacia el trabajo) = 824/1505 = 0.5475; (b) P (maneja hacia el trabajo | un propietario de casa) = 824/1000 = 0.8240. (c) Los eventos condicionales están invertidos. (d) Puesto que P (un propietario de casa) = 1000/2000 = 0.50 no es igual a P (un propietario de casa | maneja hacia el trabajo) = 824/1505 = 0.5475, manejar hacia el trabajo y si quien responde es un propietario de casa o uno que la renta no son estadísticamente independientes. 4.22 (a) 36/116 = 0.3103; (b) 14/334 = 0.0419; (c) 320/334 = 0.9581 P (sin partículas) = 400/450 = 0.8889. Puesto que P (sin partículas | buena calidad) ≠ P (sin partículas). “Una buena placa de silicio” y “un troquel sin partículas” no son estadísticamente independientes. 4.24 (a) 29/56 = 0.5179; (b) 29/155 = 0.1871. (c) Los eventos condicionales están invertidos. (d) Puesto que P (ser blanco | demanda por prejuicio) = 0.1871 no es igual a P (ser blanco) = 0.1210, ser blanco y reclamar por prejuicio no son estadísticamente independientes. 4.26 (a) 0.025/0.6 = 0.0417; (b) 0.015/0.4 = 0.0375. (c) Puesto que P (necesita garantía de reparación | productor establecido en EU) = 0.0417 y P (necesita garantía de reparación) = 0.04, los dos eventos no son estadísticamente independientes.
Respuestas a ejercicios pares seleccionados 4.28 (a) 0.0045; (b) 0.012; (c) 0.0059; (d) 0.0483. 4.30 0.095. 4.32 (a) 0.736; (b) 0.997. 4.33 (a) H = esposo observando; W = esposa observando P( H W ) =
P(W H ) ⋅ P( H ) P(W H ) ⋅ P( H ) + P(W H ′) ⋅ P( H ′)
(0.4)(0.6) 0.24 = (0.4)(0.6) + (0.3)(0.4) 0.36 2 = = 0.667 3 =
(b) P(W) = 0.24 + 0.12 = 0.36. 4.34 (a) 0.4615; (b) 0.325.
4.66 (a) 0.0225; (b) 3,937.5 3,938 puede esperarse que lean el anuncio y hagan un pedido. (c) 0.03; (d) 5,250 puede esperarse que lean el anuncio y hagan un pedido. 4.68 (a) 0.4712. (b) Puesto que la probabilidad de que un accidente implique una volcadura dado que en el accidente participó una SUV, una camioneta o una pick-up, es de 0.4712, lo cual es casi el doble de probabilidad de que en un accidente se vea implicada una volcadura con cualquier tipo de vehículo de 0.24; las SUV, camionetas o pick-ups generalmente son más propensas a sufrir accidentes por volcadura.
CAPÍTULO 5
5.2 (a) C: = 2, D: = 2; (b) C: σ = 1.414, D: σ = 1.095. (c) La distribución C es uniforme y simétrica; la distribución D es simétrica y tiene una sola moda. 5.4 (a) = 2; (b) σ = 1.183. 5.5 (a)–(b) X 0 1 2 3 4 5 6
4.36 (a) P (gran éxito | revisión favorable) = 0.099/0.459 = 0.2157; P (éxito moderado | revisión favorable) = 0.14/0.459 = 0.3050; P (punto de equilibrio | revisión favorable) = 0.16/0.459 = 0.3486; P (perdedor | revisión favorable) = 0.06/0.459 = 0.1307; (b) P (revisión favorable) = 0.459. 4.38 310 = 59,049. 4.40 (a) 27 = 128; (b) 67 = 279,936. (c) Hay dos resultados mutuamente excluyentes y colectivamente exhaustivos en el inciso (a) y seis en el inciso (b). 4.41 (7)(3)(3) = 63. 4.42 (8)(4)(3)(3) = 288.
5.6 (a) X
(b)
4.43 n! = 4! = (4)(3)(2)(1) = 24. 4.44 5! = (5)(4)(3)(2)(1) = 120. No todos estos órdenes tienen la misma posibilidad porque en cada equipo los jugadores son diferentes. 4.46 n! = 6! = 720. n! 12! = = (12)(11)(10) = 1, 320. 4.47 (n − X )! 9! 4.48 28. 4.49
(7)(6)(5) n! 7! = = = 35. X !(n − X )! 4!(3!) (3)(2)(1)
4.50 4,950. 4.62 (a) 0.035, (b) 0.49, (c) 0.975, (d) 0.02, (e) 0.2857. (f) Las condiciones están cambiadas. Inciso (d) responde a P (A | B) y el inciso (e) responde a P (B | A). 4.64 (a) Un evento simple puede ser “una firma que tenga un sitio Web de transacciones públicas” y un evento conjunto puede ser “una firma que tenga un sitio Web de transacciones públicas y que tenga ventas mayores a $10 mil millones”. (b) 0.3469, (c) 0.1449. (d) Puesto que P (sitio Web de transacciones públicas) P (ventas que sobrepasan $10 mil millones) P (sitio Web de transacciones públicas y ventas que sobrepasan los $10 mil millones), los dos eventos, “ventas que sobrepasan los 10 mil millones de dólares” y “tiene un sitio Web de transacciones públicas” no son independientes.
691
(c)
P(x)
X*P(X)
0.32 0.35 0.18 0.08 0.04 0.02 0.01 (a) Media =
(X − )2
(X − )2*P(X)
0 1.6129 0.35 0.0729 0.36 0.5329 0.24 2.9929 0.16 7.4529 0.10 13.9129 0.06 22.3729 1.27 varianza = (b) Desviación estándar =
0.516128 0.025515 0.095922 0.239432 0.298116 0.278258 0.223729 1.6771 1.29503
P(X)
$−1 $+1
21/36 15/36
X
P(X)
$−1 $+1
21/36 15/36
X
P(X)
$−1 $+4
30/36 6/36
(d) $ − 0.167 para cada método de juego. 5.8 (a) 0.5997; (b) 0.0016; (c) 0.0439; (d) 0.4018. 5.10 (a) 0.0778; (b) 0.6826; (c) 0.0870; (d)(a) P(X = 5) = 0.3277 (b) P(X ≥ 3) = 0.9421; (c) P(X < 2) = 0.0067. 5.12 Dada p = 0.90 y n = 3, (a) P(X = 3) =
n! 3! pX (1 − p)n − X = (0.9)3 (0.1)0 = 0.729 X !(n − X )! 3!0!
(b) P(X = 0) =
n! 3! pX (1 − p)n − X = (0.9)0 (0.1)3 = 0.001 X !(n − X )! 0!3!
(c) P(X ≥ 2) = P(X = 2) + P(X = 3) =
3! 3! (0.9)2 (0.1)1 + (0.9)3 (0.1)0 = 2!1! 3!0!
0.972 (d) E(X) = np = 3(0.9) = 2.7 σX =
np(1 − p) =
3(0.9)(0.1) = 0.5196.
5.14 (a) P (X = 0) = aproximadamente 0; (b) P (X = 1) = aproximadamente 0; (c) P(X ≤ 2) = 0.000000374; (d) P(X ≥ 3) = 1.0.
692
Respuestas a ejercicios pares seleccionados
5.16 (a) Puesto que el 68 y el 24% provienen de los resultados de la encuesta llevada a cabo por la red, se clasifican mejor como probabilidad clásica empírica. (b) 0.000014; (c) 0.9721; (d) 0.000447. 5.18 (a) 0.2565; (b) 0.1396; (c) 0.3033; (d) 0.0247. 5.20 (a) 0.0337; (b) 0.0067; (c) 0.9596; (d) 0.0404. 5.22 (a) P( X < 5) = P( X = 0) + P( X = 1) + P( X = 2) + P( X = 3) + P( X = 4) −6
0
−6
1
−6
2
−6
3
e (6) e (6) e (6) e (6) + + + 0! 1! 2! 3! e −6 (6)4 + 4! = 0.002479 + 0.014873 + 0.044618 + 0.089235 + 0.133853 = 0.2851 =
5.48 (a) 0.0000192791; (b) 0.0334; (c) 0.8815; (d) Con base en los resultados de los incisos (a) a (c), la probabilidad de que el índice Standard & Poors 500 se incremente si hay una ganancia temprana en los primeros cinco días de negociación del año, es muy posible que se acerque al 0.90 porque esto genera una probabilidad del 88.15% de que al menos 29 de los 34 años del índice Standard & Poors 500 se incremente el año entero. Sin embargo, debe estar consciente de que una alta correlación entre dos eventos no siempre implica una relación causal. 5.50 (a) Las suposiciones necesarias son (i) la probabilidad de que un golfista pierda una pelota de golf en un intervalo dado es constante; (ii) la probabilidad de que un golfista pierda más de una pelota de golf se acerca al 0 conforme el intervalo se hace pequeño, (iii) la probabilidad de que un golfista pierda una pelota de golf es independiente de un intervalo a otro. (b) 0.0111; (c) 0.70293; (d) 0.29707.
e −6 (6)5 = 0.1606 5! (c) P(X ≥ 5) = 1 − P(X < 5) = 1 − 0.2851 = 0.7149
CAPÍTULO 6
e −6 (6)4 e −6 (6)5 (d) P(X = 4 o X = 5) =P(X = 4) + P(X = 5) = = + 4! 5! 0.2945.
6.6 (a) 0.9599, (b) 0.0228, (c) 43.42, (d) 46.64 y 53.36.
(b) P(X = 5) =
5.24 (a) 0.0404; (b) 0.9596; (c) 0.8301. (d) Puesto que Delta tiene una mayor tasa media de mal manejo de equipaje por cada 1,000 pasajeros que Jet Blue, su probabilidad de manejar mal por lo menos un pequeño número de maletas es mayor que la de Jet Blue. 5.26 (a) 0.0176; (b) 0.9093; (c) 0.9220. 5.28 (a) 0.0062; (b) 0.1173. (c) Puesto que Kia tiene una tasa media mayor de problemas por auto, la probabilidad de que un Kia seleccionado al azar tendrá no más de 2 problemas es menor que aquella de autos Lexus seleccionados al azar. Asimismo, la probabilidad de que un Kia seleccionado aleatoriamente tenga cero problemas es menor que aquella de un Lexus elegido aleatoriamente. 5.30 (a) 0.2165; (b) 0.8013; (c) Puesto que Kia tiene una tasa media de problemas menor por auto en 2004 en comparación con 2003, la probabilidad de que un Kia seleccionado al azar tenga cero problemas y la probabilidad de no más de 2 problemas son más altas que sus valores en 2003. 5.36 (a) 0.74; (b) 0.74; (c) 0.3898; (d) 0.0012. (e) La suposición de independencia podría no ser verdadera. 5.38 (a) 0.0547; (b) 0.3828; (c) 0.9298. (d) Si el indicador es un evento aleatorio, la probabilidad de que haga un pronóstico correcto 8 o más veces en 10 es virtualmente cero. Si uno desea aceptar el argumento de que la cantidad de gastos de campaña realizados durante un año electoral ejerce cierto impacto multiplicativo en el mercado bursátil, la probabilidad de que el promedio industrial Dow Jones se incremente en un año electoral presidencial de EU, posiblemente se acercará a 0.90, con base en el resultado de los incisos (a) a (c). 5.40 (a) 0.018228; (b) 0.089782; (c) 0.89199; (d) media = 3.3, desviación estándar = 1.486943. 5.42 (a) 0.0000; (b) 0.04924; (c) 0.909646; (d) 0.49578. 5.44 (a) 0.0003; (b) 0.2289; (c) 0.4696; (d) 0.5304; (e) 0.469581; (f) 4.4 por lo que cerca de 4 personas en promedio se rehusarán a participar. 5.46 (a) µ = 17.6, (b) σ = 1.453, (c) 0.0776, (d) 0.5631, (e) 0.9740.
6.2 (a) 0.9089, (b) 0.0911, (c) + 1.96, (d) − 1.00 y + 1.00. 6.4 (a) 0.1401, (b) 0.4168, (c) 0.3918, (d) + 1.00. 6.8 (a) P(34 < X < 50) = P(−1.33 < Z < 0) = 0.4082; (b) P(X < 30) + P(X > 60) = P(Z < −1.67) + P(Z > 0.83) = 0.0475 + (1.0 − 0.7967) = X − 50 0.2508; (c) P(Z < −0.84) @ 0.20, Z = −0.84 = 12 X = 50 − 0.84(12) = 39.92 mil millas o 39,920 millas. (d) La desviación estándar menor hace más grandes los valores Z. (a) P(34 < X < 50) = P(−1.60 < Z < 0) = 0.4452 (b) P(X < 30) + P(X > 60) = P (Z < − 2.00) + P(Z > 1.00) = 0.0228 + (1.0 − 0.8413) = 0.1815 (c) X = 50 – 0.84(10) = 41.6 mil millas o 41,600 millas. 6.10 (a) 0.9878; (b) 0.8185; (c) 86.16%. (d) Opción 1: Puesto que su puntuación del 81% en este examen representa una puntuación Z de 1.00, la cual está por debajo de la puntuación Z mínima, no obtendrá una calificación de “A” en el examen de acuerdo con este criterio de calificación. Opción 2: Puesto que su puntuación del 68% en este examen representa una puntuación Z de 2.00, la cual está muy por encima de la puntuación Z mínima de 1.28, obtendrá una calificación de “A” en el examen con este criterio de calificación. Es preferible la Opción 2. 6.12 (a) 0.9772; (b) 0.1587; (c) 0.0038; (d) 0.9962. 6.14 Con 39 valores, el menor de los valores del cuantil estándar normal cubre un área bajo la curva normal de 0.025. La puntuación Z correspondiente es de –1.96. El más grande de los valores del cuantil estándar normal cubre un área bajo la curva normal de 0.975 y su puntuación Z correspondiente es de +1.96. 6.16 (a) media = 99.662, mediana = 95.78, rango = 104.55, 6 · SX = 149.3072, rango intercuartil = 43.105, 1.33 SX = 33.0964. La media es mayor que la mediana; el rango es 6 veces menor que la desviación estándar y el rango intercuartil es 1.33 veces mayor que la desviación estándar. Los datos no parecen seguir una distribución normal. (b) La gráfica de probabilidad normal sugiere que los datos se desvían hacia la derecha. = 9.382 S = 3.998 6.18 (a) Planta A: X Resumen de cinco números: 4.42 7.29 8.515 11.42 21.62 La distribución está sesgada hacia la derecha ya que la media es mayor que la mediana. S = 5.126 Planta B: X = 11.354 Resumen de cinco números: 2.33 6.25 11.96 14.25 25.75
Respuestas a ejercicios pares seleccionados
693
Aunque los resultados son inconsistentes por un valor extremo en la muestra, ya que la media es menor a la mediana, decimos que los datos para la planta B está sesgada hacia la izquierda. (b) La gráfica de probabilidad normal para la planta A está sesgada hacia la derecha. Excepto por un valor extremo, la gráfica de probabilidad normal para la planta B está sesgada hacia la izquierda.
7-8 b) debido a que existe mayor varianza entre grupos que dentro del grupo.
6.20 (a) Rango intercuartil = 0.0025; SX = 0.0017; Rango = 0.008; 1.33 (SX) = 0.0023; 6 (SX)= 0.0102. Ya que el rango intercuartil está cercano a 1.33 (SX) y el rango también se acerca a 6 (SX), los datos parecen distribuirse aproximadamente de forma normal. (b) La gráfica de probabilidad normal sugiere que los datos parecen distribuirse aproximadamente de forma normal.
7-12 La probabilidad de cada uno es 0.10; se puede esperar ver cada dígito 11.5 veces; dieciséis veces 4, trece veces 7 y diez veces 3; la variación aleatoria y tamaño de muestra pequeño.
6.22 (a) Resumen de cinco números: 82 127 148.5 168 213; media = 147.06; moda = 130; rango = 131; rango intercuartil = 41; desviación estándar = 31.69. La media está muy cercana a la mediana. El resumen de cinco números sugiere que la distribución es aproximadamente simétrica alrededor de la mediana. El rango intercuartil está muy cercano a 1.33 veces la desviación estándar. El rango está alrededor de $50, 6 veces por debajo de la desviación estándar. En general, la distribución de los datos se asemeja mucho a la distribución normal. (b) La gráfica de probabilidad normal confirma que los datos parecen distribuirse aproximadamente de forma normal. 6.28 (a) 0.4772, (b) 0.9544, (c) 0.0456, (d) 1.8835, (e) 1.8710 y 2.1290. 6.30 (a) 0.2734, (b) 0.2038, (c) 4.404 onzas, (d) 4.188 onzas y 5.212 onzas. 6.32 (a) 0.7273, (b) 0.2884, (c) 0.0426, (d) 0.0386, (e) Las acciones comunes tienen una media mayor de rendimiento anual que los bonos a largo plazo del gobierno. Sin embargo, también tienen mayor volatilidad, como se refleja con su desviación estándar más alta. Ésta es la relación usual entre un alto rendimiento y una alta volatilidad en un instrumento de inversión. Nota: Las respuestas anteriores fueron calculadas utilizando Excel. Pueden ser ligeramente diferentes a aquellas obtenidas utilizando la tabla E.2.
7-10 Suponiendo que el año no es bisiesto: 1/6, 1/24, 2/11, 3/1, 3/19, 4/6, 4/24, 5/12, 5/30, 6/17, 7/5, 7/23, 8/10, 8/28, 9/15, 10/3, 10/21, 11/8, 11/26, 12/14.
7-14 No, si ambos padres trabajan, nadie estará en casa entre el mediodía y las 17:00 horas, y alguno de los usuarios más importantes de las guarderías serán excluidos de la encuesta. 7-16 Es mejor cada siete, porque cada cinco examina la misma posición en cada lote. 7-18 El muestreo estratificado funcionará en este caso, debido a que parecen dos grupos homogéneos. 7-20 Error de muestreo. 7-22 En general, sobrestimar la media no es mejor ni peor que subestimarla. En este caso, la subestimación ($0.30) está más cerca de la media real ($0.314) que la sobrestimación ($0.35). 7-24 Las ventas semanales promedio descendieron de 3,538 cartones a 3,462 cartones. 7-26 Se trata de una muestra obtenida a partir de una distribución de muestral de las medias de muestras de tamaño 30 obtenidas de la población. 7-28 a) 0.9312. b) 0.9312. c) 0.9962 7-30 Al menos 355.
6.34 (a) 0.8413; (b) 0.9330; (c) 0.9332; (d) 0.3347; (e) 0.4080 y 1.1920.
7-32 a) P(z 0.71) 0.5000 0.2611 0.2389. b) P(z 1.01) 0.5000 0.3438 0.1562. Ha disminuido en 0.0827.
CAPÍTULO 7
7-34 a) P(z 0.08) 0.5000 0.0319 0.4681. b) P(z 0.21) 0.5000 0.0832 0.4168.
7-2 No necesariamente. Si existe poca información disponible acerca de la población de interés, el mejor juicio del individuo que realiza el estudio podría sugerir el uso de muestreo de probabilidad. 7-4 Las muestras de probabilidad incluyen más análisis estadístico y planeación al principio de un estudio y, por lo general, toman más tiempo y dinero que las muestras subjetivas. 7-6 De acuerdo con la información proporcionada, la posición de Jean parece bastante justificable. Quizá, lo que hace único al muestreo estadístico es que permite realizar inferencias estadísticas acerca de una población y sus parámetros. Aparentemente, esto es lo que Jean ha hecho. No existen reglas inmutables o rápidas respecto al tamaño de la muestra que debe obtenerse para poder hacer las inferencias. Específicamente, no hay nada de mágico en cuanto a la marca de 50%. El sentido común parecería señalar que recolectar datos del 50% de ciertas poblaciones podría ser tan difícil como reunir datos de la población completa, por ejemplo, la población de Estados Unidos o la del mundo entero. Jean deberá concentrar la defensa de su posición en la evidencia empírica y en razonar con la administración, para educarla sobre las capacidades de la inferencia estadística.
7-36 P(z 1.08) 0.5000 0.3599 0.8599 > 0.80. No se pedirá la revisión. 7-38 a) 120 bu. b) 1.549 bu. c) P(z 2.45) 0.5000 0.4929 0.0071. d) P(1.94 z 1.29) 0.4738 0.4015 0.8753. 7-40 a) 0.572. b) 0.9599. c) 0.750. 7-42 a) 1.4725. b) 0.3504. c) 0.1879. 7-44 P(z 0.71) 0.5000 0.2611 0.2389. 7-46 P(1.78 z 1.64) 0.4625 0.4495 0.9120.
694
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
7-48 P(1.15 z 1.15) 0.3749 0.3749 0.7498. 7-50 A su juicio, porque se inspecciona un par de patines sólo si su tamaño es suficientemente cercano al tamaño de los patines de Crash. 7-52 Sí. 7-54 Al menos 128 clientes. 7-56 Aunque aparentemente no existen restricciones debidas al tiempo, costo, muestreo destructivo o accesibilidad, aun así el muestreo puede resultar inapropiado. En esencia, se obtendrá la misma información con menos esfuerzo y los empleados podrán regresar a su puesto más pronto. 7-58 No. Una distribución de muestreo de x es una distribución de frecuencia de las medias de todas las muestras posibles. No se trata de una gráfica de las observaciones individuales de las muestras. 7-60 a) $11.108, $2.320. b) x $12.152. c) x $11.108, x $0.773. d) No: muestra pequeña, la población no se aproxima a la normal (sesgada a la derecha, moda demasiado frecuente). e) P(0.79 z 0.77) 0.2852 0.2794 0.5646. 7-62 P(z 2.76) 0.5000 0.4971 0.9971.
8-22 a) Los altos niveles de confianza producen intervalos amplios, de manera que sacrificamos la precisión para ganar en confianza. b) Los intervalos estrechos tienen como resultado niveles de confianza bajos, de modo que sacrificamos confianza para ganar precisión. 8-24 No, está basado en los resultados esperados si el proceso de muestreo se repite muchas veces. 8-26 a) 25 4.9 minutos. b) 15 3.267 minutos. c) 38 1.96 minutos. d) 20 9.8 minutos. e) Éstos son intervalos de predicción para la siguiente observación más que intervalos de confianza. 8-28 a) 112.4 1.697. b) 112.4 2.234. 8-30 a) 0.184 tipos por página. b) (4.00, 4.60) tipos por página. 8-32 24.3 0.935 minutos. 8-34 a) $250,000 $2,380.
7-64 Al menos 25 alarmas.
8-36 a) 0.0520. b) 0.1818 0.0855.
7-66 a) Enumeración. b) Población finita.
8-38 a) 0.0238. b) 0.87 0.0555.
CAPÍTULO 8
8-2 Medir a una población completa puede no ser factible debido a consideraciones de tiempo y de costo. Una muestra produce sólo una estimación y está sujeta a errores de muestreo. 8-4 Un estimador es un estadístico de la muestra que se utiliza para estimar un parámetro de población. Una estimación es un valor numérico específico para un estimador, que resulta de la muestra particular que se está observando. 8-6 Nos asegura que el estimador se vuelve más confiable con muestras más grandes. 8-8 x 296.583 personas, s 40.751 personas. 8-10 0.46. 8-12 a) 0.181. b) (6.019, 6.381). 8-14 a) 0.0390 libras. b) (14.122, 14.278) libras. 8-16 7 0.208 automóviles. 8-18 a) 29.8 1.786 estudiantes. b) No, no podemos estar un 95.5% seguros que el tamaño de clase promedio en el condado de Foresight es menor que en el condado de Hindsight. 8-20 El alcance de una estimación entre los límites de confianza inferior y superior, incluyéndolos.
8-40 a) 0.6 0.076. b) 1,800 228 cuentas. 8-42 0.6 0.1497. 8-44 a) 1.761. b) 2.571. c) 2.878. d) 2.492. e) 3.250. f) 1.684. 8-48 (68.58, 75.42). 8-50 31 5.58 accidentes. 8-52 n 1413. 8-54 n 385; n 289; n 289. 8-56 n 23 bolsas. 8-58 n 60 días. 8-60 Una estimación de intervalo da una indicación de posible error a través de la extensión de su alcance y de su nivel de confianza asociado. Una estimación puntual es sólo un número y, en consecuencia, se necesita información adicional para determinar su confiabilidad. 8-62 n 9,604 calificaciones. 8-64 a) 0.3 mph. b) 0.0397 mph. c) 23.2 0.0778 mph.
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados 8-66 Es imparcial, consistente, eficiente y suficiente. 8-68 a) 78.88%. b) 98.36%. c) 90.70%. 8-70 n 543 acciones (utilizando p 0.5; p 0.85 da n 277). 8-72 Sí. El intervalo completo (0.5314, 0.8760) está arriba de 0.50, por lo que pueden tener más del 95% de confianza de salir a mano, al menos la mitad del tiempo. 8-74 a) 3.56%. b) n 338. 8-76 2.88% 1.59%; como n < 30, debe suponerse la normalidad. 8-78 a) 0.0195 manzanas. b) 3.2 0.0195 manzanas.
695
9-16 Tipo I: rechazar una hipótesis nula cuando de hecho es verdadera. Tipo II: aceptar una hipótesis nula cuando de hecho es falsa. 9-18 El nivel de significancia de una prueba es la probabilidad de cometer un error tipo I. 9-20 a) t con 34 gl (normal). b) Normal. c) Normal. d) t con 28 gl. e) t con 23 gl. 9-22 Usamos una prueba de una cola al probar si la media de la población es mayor (prueba de cola superior) o menor (prueba de col inferior) que algún valor hipotético. Utilizamos una prueba de dos colas para determinar si la media de la población es diferente (en cualquier dirección) del valor hipotético. 9-24 H0: 3124, H1: < 3124.
8-80 a) x $425.39, s $107.10. b) $425.39 $14.84.
9-26 Z 1.74 (x $42.95), zL 2.05 (xL $42.59), de modo que no rechazamos H0. Atlas no debe creer que el precio ha disminuido.
8-82 a) 0.0990 mg/l. b) 5.2 0.0990 mg/l.
9-28 z 1.46 (x 954 horas), zCRIT 1.96 (xL 951.94, xu 968.06), de manera que no se rechaza H0. El nuevo foco cumple todas las especificaciones.
8-84 0.3333 0.0843. 8-86 a) 0.0440 mph. b) 66.3 0.0880 mph. c) Sí, puesto que el intervalo completo está abajo de 67 mph. 8-88 11 acres.
CAPÍTULO 9
Para las soluciones a los ejercicios que requieren la prueba de hipótesis específicas, damos el valor observado del estadístico de prueba, los límites apropiados de la región de aceptación (denotada por los subíndices L o U) y la conclusión. 9-2 En teoría, podría lanzarse una moneda un gran número de veces para ver si la proporción de caras es muy diferente de 0.5. De manera parecida, al registrar los resultados de muchos lanzamientos de dados, podría verse si la proporción de ocurrencia de cualquier lado es muy diferente de 1/6. Un gran número de ensayos sería necesario para cada uno de estos ejemplos. 9-4 a) Suponga una hipótesis acerca de una población, recabe datos muestrales, calcule un estadístico de la muestra y utilice el estadístico de la muestra para evaluar la hipótesis. 9-6 Queremos decir que no sería razonable esperar que se encontrara esa muestra en particular si, de hecho, la hipótesis fuera verdadera.
9-30 z 1.48 (x $151), zu 1.28 (xu $150), se debe rechazar H0. Sus comisiones son significativamente mayores. 9-32 z 9.30 (x 0.33%), zL 2.33 (xL 0.51%), de manera que se rechaza H0. La tasa de crecimiento ha disminuido significativamente. 9-34 0.0505, 0.1271, 0.2611. 9-36 0.0202, 0.0606, 0.1469. 9-38 z 1.15( p 0.1412), zL 1.75 (p L 0.1155). Así que no no rechaza H0. No hay evidencia de que la distribución de la West Coast sea significativamente peor. 9-40 a) z 2.12 ( p 0.0944), zL 1.64 ( pL 0.1072), de manera que se rechaza H0. Sí, deben llegar a la conclusión de que la transmisión se ha reducido. b) zL 2.05 ( pL 0.0963), así, la conclusión permanece sin cambios. c) No necesariamente, entre otras razones, no hemos proporcionado información sobre potenciales efectos colaterales adversos del vaporizador. 9-42 z 3.82 (p 0.3167), zL 1.64 (p L 0.3357), se rechaza H0. La proporción de gente excéptica ha disminuido significativamente.
9-8 0.0802.
9-44 t 1.662 (x 94.3), tL 2.015 ( xL 93.09), entonces no se rechaza H0.
9-10 x 26,100, xL 27,000, xu 30,000, de manera que Ned no debe adquirir los Stalwarts. Si ha aumentado, la conclusión podría no ser válida.
9-46 t 3.181 (x 780,000), tL 1.796 (xL 799,595), de modo que se rechaza H0.
9-12 x 2.2, xL 2.423, xu 2.577, por lo que la queja no es razonable.
9-48 t 2.179 (x 7.2), tL 2.33 (xL 7.14), así que no se rechaza H0. No es más fácil aprender a operar las nuevas terminales.
9-14 Una hipótesis nula representa la hipótesis que está tratando de rechazar; la hipótesis alternativa representa a todas las demás posibilidades.
9-50 t 3.771 (x 12.4), tCRIT 2.898 (xL 8.16, xu 11.84), de modo que se rechaza H0. Parece que la aseveración no es válida.
696
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
9-52 a) H1: pNY pn. b) H1: A B. c) H1: 8. d) H1: 34. 9-54 No, debido a que cada uno está igualmente distante de la media hipotetizada y, en consecuencia, es igualmente probable que conduzcan a una aceptación en una prueba de dos colas. 9-56 a) 0.4641. b) 0.8643. c) 0.9890. 9-58 z 1.23 (p 0.00225), zL 1.28 (p L 0.00222), de manera que no se rechaza H0. Los nuevos procedimientos no han logrado su objetivo. 9-60 z 0.77 ( p 0.4), zL 2.33 ( pL 0.1992), así que no se rechaza la hipótesis nula. La proporción de fondos que se venden con descuento no es significativamente menor que la proporción vendida con primas. 9-62 a) 1.44. b) 2.33. 9-64 z 2.83 (x 31.7), zL 2.05 (xL 31.78) de modo que no rechazamos H0. Las botellas se llenan con menos contenido. 9-66 z 2.07 ( p 0.19), zu 1.64 (p u 0.1816), así que se rechaza H0. Deben abrir la tienda. 9-68 z 1.97 ( p 0.7760), zu 2.05 (p u 0.7782), así que no se rechaza H0. La investigación no apoya la suposición del editor. 9-70 t 2.228 (x 87.61), tU 2.110 (xU 87.07), de modo que se rechaza la hipótesis nula. Sin embargo, si Drive-a-Lemon no tiene la misma presencia a nivel nacional que las principales cadenas del país, entonces una comparación de sus tasas promedio con el promedio nacional de las grandes cadenas puede conducir a una conclusión errónea. 9-72 z 0.89 (p 0.6), zCRIT 1.64 (p L 0.3166, pU 0.6834), de modo que no se rechaza H0. La proporción no es significativamente diferente de 0.5. 9-74 a) 0.7123. b) 0.3783. c) 0.1190. 9-76 a) 0.1271. b) 0.5199. c) 0.8925. 9-78 a) 0.8340. b) 0.5398. c) 0.2206. 9-80 z 2.36 ( p 0.43), zL 2.33 (p L 0.4306), así que se rechaza H0. La compañía no pudo lograr su objetivo.
10-6 z 2.69 (xH xM $2.96), zu 2.33 ((xH xM)u $2.83), de modo que se rechaza H0. Los operadores hombres ganan significativamente más de $2.00 arriba de lo que ganan las operadoras mujeres. 10-8 t 1.544 (xO xN $18), tL 1.708 ((xO xN)L $19.91), de manera que no se rechaza H0. El promedio diario de ventas no ha aumentado en forma significativa. 10-10 t 0.246 (x1 x2 $75), tL 1.771 ((x1 x2)L $539), entonces se rechaza H0. Las piedras con forma de gota no son significativamente más caras. 10-12 t 2.162 (xM xE $395), tL 2.467 ((xM xE)L $451), de modo que no se rechaza H0. Los datos no apoyan las especulaciones del comisionado. 10-14 a) x 0.1878. b) s 3.8586, ˆ x 0.3500. c) t 0.537 (x 0.1878), tCRIT 2.896 (xCRIT 1.01), de manera que no se rechaza H0. No fueron significativamente distintas. 10-16 t 2.358 (x 0.1667 mpg), tU 2.896 (xu 0.2047 mpg), entonces no se rechaza H0. El aditivo no proporciona una mejora significativa en la eficiencia del combustible. 10-18 t 0.478 (x 2.83), tCRIT 3.365 (xCRIT 19.95), de modo que no se rechaza H0. La música no tiene un efecto significativo. 10-20 z 1.283 ( p1 p2 0.125), zL 1.28 (( p1 p2)L 0.1247), de modo que se rechaza H0. Una proporción más pequeña avanzó el viernes. 10-22 z 1.89 ( p1 p2 0.08), zL 2.05 (( p1 p2)L 0.0869), de modo, que no se rechaza H0. Instale el sistema menos caro. 10-24 z 1.09 ( pF ps 0.06), zCRIT 1.64 ((p F pS)CRIT 0.0904), entonces no se rechaza H0. Las proporciones de alumnos de primero y segundo año que compran sus libros en la librería de la universidad no son significativamente diferentes. 10-26 Valor p 0.0571. 10-28 Valor p 0.0124, entonces vuelva a calibrar si a > 0.0124. 10-30 0.0080. 10-32 Más de 0.05. 10-34 Más de 0.10. 10-36 0.0294. 10-38 z 1.78 (xs xF 3), zCRIT 2.33 ((xs xF)CRIT 3.92), de modo que no se rechaza H0. Los anuncios no dan un nivel significativamente diferente de ventas.
10-2 z 2.41 (xs xA 8 chips por hora), zL 2.05 ((xs xA)L 6.81 chips por hora), de manera que rechace H0. Block debe modernizarse.
10-40 a) t 1.154 (xA xB 4.18), tu 1.725 ((xA xB)u 6.25), no se rechaza H0. La demanda no ha aumentado significativamente. b) Vuelva a entrevistar a los 11 clientes que fueron entrevistados antes de la campaña.
10-4 z 6.92 (x1 x2 1.13%), zu 1.64 ((x1 x2)u 0.27%), de modo que rechace la hipótesis nula.
10-42 z 1.48 ( pA pB 0.08), zU 1.75 (( pA pB)U 0.0945), no se rechaza H0. La campaña no fue significativamente efectiva.
CAPÍTULO 10
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados 10-44 t 2.053 (x 2.0556), tCRIT l.860 (xCRIT l.8628), de modo que se rechaza H0. Existe una diferencia significativa. 10-46 t 2.386 (x 1.29), tL 2.650 (xL 1.43), de modo que no se rechaza H0. La nueva fórmula no es significativamente más efectiva. 10-48 t 2.817 (xM xS 2.125), tL 2.145 ((xM xS)L 1.618), de modo que se rechaza la hipótesis nula. Severas consecuencias conducen a una atribución de responsabi1idad significativamente mayor. 10-50 t 2.014 (xD xC l4.51), tU 1.761 ((xD xC)U 12.69), de modo que se rechaza H0. Las películas de Disney obtienen ingresos significativamente mayores que las películas de sus competidores. 10-52 z 0.96 ( p95 p94 0.0046), zCRIT 2.575 ((p 95 p94)CRIT = 0.0124), entonces no se rechaza H0. La fracción de reembolsos auditados no cambió significativamente. 10-54 t 0.051, que es muy cercano a cero. La disminución observada no es significativa. 10-56 z 2.48 (pC pD 0.1166), zU 2.05 ((p C pD)U 0.0964), y se rechaza H0. Es más probable que los dueños de gatos alimenten a sus mascotas con mejor alimento. 10-58 a) 26/59 0.4407, pero 27/59 0.4576, por lo que la tasa de respuesta de 45% reportada sugiere un error de redondeo. b) Aun con la mayor diferencia en tasas de respuesta (tomando 26 como el número de respuestas del Reino Unido) z 0.72, entonces las tasas de respuesta no son significativamente diferentes.
CAPÍTULO 11
11-2 Para determinar si tres o más medias de población pueden considerarse o no iguales. 11-4 a) Falso; se pueden hacer inferencias solamente sobre una o dos varianzas. b) Verdadero; utilice análisis de varianza. c) Verdadero; utilice una prueba ji-cuadrada. 11-6 a) 12. b) 5. c) 12. d) 9.
697
c) 2 10.007. d) u2 9.236, por lo que se rechaza H0. Los datos no están bien descritos por una distribución normal con 5 y 1.5. 11-16 2 8.964, u2 9.488, de manera que no rechazamos H0. La distribución binomial con 5 y p 0.4 describe bien los datos. 11-18 a) Depósito $0-999 $1,000-1,999 $2,000 fe 22.36 65.27 22.36 b) 2 0.562. c) H0: los depósitos tienen distribución normal con $1,500, $600. H1: no tiene esa distribución. d) U2 4.605, de manera que no se rechaza H0. Los datos están bien descritos por la distribución normal con $1,500 y $600. 11-20 2 2.035, u2 5.991, y no rechazamos H0. La afirmación de la comisión es razonable. 11-22 2 2.289, u2 5.991, no se rechaza H0. El número de llamadas de alarma está bien descrito por una distribución binomial con 3 y p 0.3. 11-24 2 33.103, u2 12.592, se rechaza H0. El número de llegadas de clientes no está bien descrita por una distribución de Poisson con 3. 11-26 a) Las marcas A-E tienen medias 4.28, 5.04, 4.90, 3.34 y 4.46. La gran media es 4.404. b) 2.2514. c) 0.2942. d) F 7.65, Fu 2.87, de forma que rechazamos H0. Las marcas producen una cantidad de alivio significativamente diferente. 11-28 F 1.47, Fu 3.29, no rechazamos H0. La productividad de los empleados no es significativamente diferente. 11-30 a) xj 36, 31, 35, 31; x 33.25. b) 34.5833. c) 7.375. d) F 4.69, Fu 3.24, rechazamos H0. Las distintas velocidades conducen a cantidades significativamente diferentes de relojes defectuosos. 11-32 F 6.67, Fu 3.68, rechazamos H0. El número promedio de ladrones capturados difiere significativamente durante esos meses.
11-8 a) 2 32.2724. b) H0: el grupo de edad y los planes de compra son independientes. H1: el grupo de edad y los planes de compra son dependientes. c) u2 20.090, y se rechaza H0; existe una relación entre el grupo de edad y los planes de compra.
11-34 F 18.17, Fu 2.87, rechazamos H0. Los cuartos tienen niveles de polvo promedio significativamente diferentes.
11-10 a) H0: las ventas y la economía son independientes. H1: las ventas y la economía son dependientes. b) 2 34.597. c) u2 10.645, de modo que rechazamos H0.
11-38 a) F 0.51, Fu 3.24, no rechazamos H0. Los tiempos medios de servicio no son significativamente diferentes. b) Debido a que ningún restaurante es peor que los otros, cualquier recomendación tendría que hacerse a todos los administradores.
11-12 2 32.855, u2 14.684, de modo que rechazamos H0. Diferentes niveles de educación corresponden a diferentes frecuencias de lectura. 11-14 a) 0.0548, 0.1571, 0.2881, 0.2881, 0.1571, 0.0548. b) 8.220, 23.565, 43.215, 43.215, 23.565, 8.220.
11-36 F 0.23, Fu 3.24, no rechazamos H0. Las ventas de las cuatro marcas no son significativamente diferentes.
11-40 2 37.688, u2 45.722, y no rechazamos H0. 11-42 a) H0 : 2 (o 2 4), H1: < 2 (o 2 4). b) 2 15.4541, L2 14.256, no se rechaza H0. c) El telescopio no se debe vender.
698
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
11-44 a) H0: 2 64, H1: 2 64. b) 2 8.31, L2 8.907, U2 32.852, rechazamos H0. c) El lapso de atención de niños de 6 años tiene una variabilidad significativamente diferente al lapso de atención de niños de 5 años.
2
2L
8.4, 13.848, y rechazamos H0. La varianza se ha 11-46 reducido significativamente. 11-48 a) F 0.70. b) Fu 3.01. c) FL 0.39. d) No se rechaza H0. No hay diferencia significativa entre las dos varianzas. 11-50 F 2.39, Fu 3.59, de manera que no rechazamos H0. La segunda varianza no es significativamente menor. 11-52 F 2.25, Fu 2.92, no se rechaza H0. Los pacientes del hospital A no tienen una variabilidad significativamente menor en sus tiempos de recuperación. 11-54 F 4, Fu 1.98, se rechaza H0. La velocidad de procesamiento de PAL es significativamente más variable. 11-56 F 1.6, FL 1/2.25 0.44, Fu 2.74, no rechazamos H0. Las varianzas no son significativamente diferentes. 11-58 H0: ocupación y actitud son independientes. H1: ocupación y actitud son dependientes.
2 6.607, u2 9.488, no rechazamos H0. 11-60 a) Normal. b) Ji-cuadrada. c) F(ANOVA). d) t. 2 3.841, así que rechazamos H . La 11-62 2 691.396, U 0 proporción de patentes originadas fuera de Estados Unidos ha cambiado significativamente en los últimos 10 años.
11-64 a) Prueba t (distribución t). b) Distribución F. c) Normal. d) 2. 11-66 F 0.82, Fu 3.47, no rechazamos H0. Los tres volúmenes de tráfico no son significativamente diferentes. 11-68 2 4.792, u2 9.488, no rechazamos H0. La concurrencia a la iglesia parece no estar relacionada con el nivel de ingresos.
11-74 H0: los errores de Jim siguen N( 0, 2 16). H1: los errores de Jim siguen otra distribución.
2 1.228, u2 7.815, no rechazamos H0. Los errores de Jim son N(0, 16). 11-76 F 3.80, FU 3.35, rechazamos H0. La media de edades promedio en las tres regiones son significativamente diferentes. 11-78 Estime con x 1,764,857.8 y con s 409,322.2, perdiendo dos grados de libertad como resultado. Divida el alcance de las ventas al menudeo en cinco intervalos igualmente probables, con límites ∞, 1,424,027.2; 1,662,527.3; 1,867,188.4; 2,108,688.4; y ∞. Las frecuencias observadas son 9, 11, 12, 10 y 8. Todas las frecuencias esperadas son 10. Entonces 2 1.0. No se da , pero el valor p para esta prueba es mayor que 0.20 (de la tabla 5 del apéndice, 2
0.20,2 3.219), por lo que no rechazamos H0. Los datos de ventas al menudeo están bien descritos por una distribución normal. 11-80 F 18.96, Fu 3.34, de manera que rechazamos H0. Los medicamentos tienen efectos significativamente diferentes en las habilidades de manejo. 11-82 F 7.72, Fu 7.21, rechazamos H0. Los tres tipos de combustible son significativamente diferentes. 11-84 F 1.09, con un valor prob de 0.4171 0.10 , por lo que no se rechaza H0. Las habilidades de bateo no son significativamente más variables en la Liga Americana.
CAPÍTULO 12
Nota: los resultados de regresión se obtuvieron con el programa SAS. Los cálculos a mano diferirán ligeramente debido a errores de redondeo. 12-2 Una ecuación de estimación es la fórmula que describe la relación entre una variable dependiente y una o más variables independientes. l2-4 En una relación directa, la variable dependiente aumenta conforme lo hace la variable independiente; en una relación inversa, la variable dependiente disminuye al aumentar la variable independiente. l2-6 En una relación lineal, la variable dependiente cambia una cantidad constante por cada incremento igual en la(s) variable(s) independiente(s); en una relación curvilínea, la variable dependiente no cambia con una tasa constante con incrementos iguales en la(s) variable(s) independiente(s). 12-8 La regresión múltiple es un proceso que determina la relación entre una variable dependiente y más de una variable independiente. 12-10 a) Promedio final (PF) es la variable dependiente y promedio de exámenes cortos (PE) es la variable independiente. b)
11-72 a) x número de estimaciones correctas. H0: x tiene distribución binomial con 10 y p 0.5. H1: x tiene otra distribución. b) 2 396.147 (las últimas dos categorías combinadas, pues fe 5 para 9 o 10 correctas), u2 4.605, de manera que rechazamos H0. Su probabilidad de adivinar la carta correcta no es 0.5. c) 2 0.2628 (las últimas tres categorías, u2 2.706, no rechazamos H0. No tiene poderes psíquicos.)
Promedio final
11-70 F 0.52, Fu 3.15, no rechazamos H0. Los cambios de precio en los tres grupos no son significativamente diferentes.
90 80 70 60 50 40 30 20 10 0 0
20
40 60 80 Promedio de exámenes cortos
100
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados c) Curvilínea. d) En su mayor parte, el PF aumenta conforme PE crece. Sin embargo, para promedios en exámenes cortos muy altos, parece que los promedios finales de hecho comienzan a disminuir.
b) ANSIEDAD 16.5167 4.5667 · RUIDO. c) 39.35. 12-22 a) 9
12-12 Un diagrama de dispersión sugiere una relación lineal directa. Claramente, el uso de pañuelos faciales no es causa de resfriados.
8 Accidentes
12-14 a)
Y 15
699
7 6 5
10
4
5
10
15
20
25
30
0 -5
b) ACCIDENTES 2.7317 0.1978 JUEGOS. c) 9.3 accidentes. d) 0.7882 accidentes.
X 4
6
8
10
12
14
16
12-24 a) CONTAMINANTES 40.7179 0.7822 DINERO. b) 25.0739% de contaminantes peligrosos eliminados. c) 2.9188
b) Yˆ 15.0281 1.2471X. c) 8.7926, 7.5455, 6.2984. 12-16 a) LÍNEABLC 1.1681 1.7156 CASAS. b) Cuando la construcción de casas aumenta en 1,000 unidades, las ventas de línea blanca aumentan 1,715.6 unidades. c) se 0.3737. La desviación estándar de los puntos alrededor de la recta de regresión es cercana a 374 unidades. d) 14.89 0.69 miles de unidades.
12-30 r2 0.9269, r 0.9628.
12-18 a)
12-32 a) COMPRAS 3.3308 1.7110 · ANUNCIOS. b) r2 0.6189, r 0.7867.
800
Pasajeros
12-28 r2 0.9858, r 0.9929.
12-36 t 1.682 (b 1.685), tCRIT 2.069 (bL 1.27, bu 1.73), así que no rechazamos H0. La pendiente no ha cambiado significativamente respecto a su valor anterior.
700
650
12-38 a) bL 0.091 y bu 0.203, de modo que 0.10, rechazamos H0 y llegamos a la conclusión que la pendiente ha cambiado desde 1969. b) bL 0.054 y bu 0.241, de modo que 0.01, la pendiente no ha cambiado de manera significativa.
600 20
30
40 Precio
50
60
b) PASAJEROS 952.6190 6.2381 · PRECIO. c) 640.7140 93.1279 pasajeros.
12-40 t 0.125 (b 0.70), tCRIT 2.878 (bL 2.6 y bu 4.3), no rechazamos H0. La pendiente no ha cambiado significativamente.
12-20 a) 40
Ansiedad
12-26 r2 0.9530; r 0.9762.
12-34 Yˆ 4.6472 1.9517X, sb 0.0952, t 4.745, tu 1.812 (bu 1.6725), de manera que rechazamos H0. Ned debe hacer publicidad.
750
12-42 El coeficiente de determinación es la fracción de la variación en Y que explica X. Su raíz cuadrada, el coeficiente de correlación, indica si la relación es directa o inversa. 12-44 La correlación sólo mide la intensidad de la relación entre los valores de dos variables. De ninguna manera se refiere a la causa de tal relación.
30
20
10
35
Juegos
0
1
2
3
4 Ruido
5
6
7
12-46 a) r2 0.9581, r 0.9788. b) No, la alta correlación es falsa. Simplemente refleja el hecho de que tanto el número de cigüeñas como el número de nacimientos tienden a aumentar cuando la población aumenta. Una población más alta significa más personas que tienen niños y más techos en los cuales puedan anidar las cigüeñas. 12-48 r2 0.9938, r 0.9969.
700
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
12-50
12-70 ESTATURA 56.4667 0.1249 PESO. r2 0.5524; se explica el 55% de la variación.
90 Salario inicial (miles de dólares)
85
12-72 a) SALARIOPG 32.8229 1.8356 SALARIOAP, t 1.635, tCRIT 2.306 (bCRIT 2.5885), de modo que no rechazamos H0. Los salarios de procurador general no están relacionados significativamente con los salarios de abogados principiantes. b) r2 0.2505, de modo que el 25.05% de la variación en los salarios de abogados principiantes se explica por la tasa en el mercado lucrativo. c) No. Incluso si la correlación fuera fuerte, la correlación no implica causalidad.
80 75 70 65 60 55 50 45
12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 Costo del grado (miles de dólares)
SALARIO 49.0945 0.4478 COSTO (ambas variables en miles de dólares). H1: B 0. t 1.401. H0: B 0. Con 18 ol, el valor prob para la prueba es mayor que el 5%, así que tal vez no rechazaríamos H0. Los salarios iniciales no aumentan de manera significativa con el costo de la maestría, de modo que no parece conveniente gastar más en la maestría. 12-52 Global: 0.3527, estudiante: 0.1270, compañía: 0.2822. La clasificación total explica la fracción más grande de la variación en los salarios iniciales. l2-54 a) 1, . b) 2, . c) 2, . d) 2, . l2-56 r2 0.9613, r 0.9805. l2-58 Para VENTAS y POB, r 2 0.1536; para VENTAS y TD, r 2 0.2874. TD explica más de la variación en VENTAS. l2-60 VENTAS 1304.37 14.05 EDAD (VENTAS en millones de dólares). H1: B 0. t 0.846. H0: B 0. Con 48 gl, el valor p de la prueba es mayor que el 10%, de modo que tal vez no se rechace H0. Aunque esto parece indicar que “los negocios no funcionan mejor en comunidades con muchas personas mayores”, sería erróneo llegar a tal conclusión. Como vimos en el ejercicio 12-58, POB explica el 15% de la variación en VENTAS, y una regresión simple de VENTAS sobre EDAD no toma en cuenta este factor. Con el fin de llegar de manera legítima a la conclusión sugerida, primero tendría que hacer un análisis de regresión múltiple. 12-62 a) 12-64 a) RENTA 55.0018 115.8991 RECÁMARAS. b) 0.5762. c) $286.80. 12-66 % DE MERCADO 4.2906 0.5230 PRECIO. t 0.950, entonces la generalización c) describe mejor la relación. 12-68 a) PRECIO 7.5294 0.0285 TAMAÑO. b) r2 0.3412; Dave debería buscar en algún otro lado.
CAPÍTULO 13
13-2 Para incluir factores cualitativos en nuestra regresión. 13-4 Sí. La estación es un factor cualitativo que se puede modelar con variables ficticias. 13-6 No. La regresión múltiple está basada en las mismas suposiciones y procedimientos que la regresión simple. 13-8 a) Yˆ 2.5915 0.8897X1 0.0592X2. b) 28.10. 13-10 a) Yˆ 219.2306 6.3815X1 1.6708X2. b) 43.33 unidades. 13-12 a) Yˆ 4243.1682 2.1315X1 0.2135X2. b) $9,188. 13-14 a) Yˆ 34.8079 5.2618X1 8.0187X2 6.8084X3. b) 4.0688. c) 0.9834. d) 66.37. 13-16 a) Yˆ 142.4363 3.2741X1 0.5269X2 0.3203X3. b) 98.54%. c) 447.1 arrestos. 13-18 a) CALIFICACION 49.95 1.07 HORAS 1.36 CI 2.04 LIBROS 1.80 EDAD. b) 76.72%. c) Alrededor de 77. 13-20 a) PRECIO 1.381 2.852 · PIES CUAD 3.713 PISOS 30.285 BAÑOS 1.172 ANTIGÜEDAD. b) R2 0.952, el 95.2% de la variación en los precios de ventas se explica por las cuatro variables explicativas. c) $98,700. 13-22 a) H1: B2 3, t 1.980 (b2 1.25), tL 1.714 ((b2)L 1.485), de modo que rechazamos H0. La regresión no apoya la creencia de Mark. b) H1: B1 0.5, t 1.976 (b1 0.251), tCRIT 2.069 ((b1)L 0.24, (b1)u 0.76), y no rechazamos H0. Esta creencia está apoyada por la regresión. c) H1: B3 333.333. Como b3 250.66, que es menor a 333.333, no rechazamos H0. Las tarifas de Mark están bien. 13-24 a) F 5.77. b) FU 4.12. c) Sí, debido a que rechazamos H0.
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados 13-26 Sí, pues el valor prob del análisis de variancia (0.000) es menor que a (0.05). Es significativa como un todo. 13-28 La multicolinea1idad está presente debido a que la tasa real de intereses de los bancos depende de la tasa de descuento de la Reserva Federal que, en su mayoría, se mueve directamente con la tasa de inflación. 13-30 a) Yˆ 5.9188 3.5470X1 0.1709X2 0.2426X4. b) No, porque el valor prob (0.2809) es mayor que (0.10). c) H1: B3 0.2, t 0.262 (b3 0.2426), tU 1.895 ((b3)U 0.5085), de modo que no rechazamos H0. Incrementar las promociones en 1,000 libras no incrementa el número de turistas en más de 200. d) (0.0539, 0.5086). 13-32 a) INGRESO a b1 FLUJO b2 FLUJO2. b) Sea CIUDAD igual a 0 para la primera ciudad y 1 para la segunda. INGRESO a b1 FLUJO b2 FLUJO2 b3 CIUDAD. 13-34 a) t 0.860 (b1 2.79), tCRIT 2.110 ((b1)CRIT 6.85), por lo que no se rechaza H0. X1 no es una variable explicativa significativa. b) t 2.562 (b2 3.92), tCRIT 2.110 ((b2)CRIT 3.23), se rechaza H0. X2 es una variable explicativa significativa. 13-36 a) DEMANDA 0.9705 4.4146 TIEMPO. b) DEMANDA 3.4101 2.8686 TIEMPO 0.0966 TIEMPO2. Este modelo es mejor: los residuos son ahora aleatorios y el valor de R2 ha aumentado de 0.9886 a 0.9956. 13-38 a) Ha observado el patrón obvio en los residuos. b) Incluya el cuadrado del número de días en la corte como variable explicativa adicional. 13-40 a) CRECIMIENTO 70.066 0.422 CREAT 0.271 MOTR 0.745 ABST 0.420 MATE. b) 92.6%. c) CREAT, ABST y MATE. d) Sí, ya que el valor prob del análisis de varianza 0.000. e) 104.93. 13-42 COMIDA 56,177.927 506.352POB, r2 0.0775; COMIDA 22,170.308 5.029EBI, r2 0.2583. 13-44 COMIDA 104,304.617 142.356POB 4.745EBI 4759.177SOLTERO. El 44.19% de la variación en COMIDA se explica por este modelo. Sí, porque el valor prob para bSOLTERO (0.002) es menor que nuestros niveles de significancia usuales. 13-46 a) ANESTESIA 90.032 99.486 TIPO 21.536 PESO 34.461 HORAS. b) (547,805) mililitros. c) H1: B1 0. Como el valor prob para dos colas (0.044) es menor que a (0.10), rechazamos H0. La cantidad de anestesia necesaria para perros y gatos es significativamente diferente. d) Sí, porque el valor prob del análisis de varianza (0.000) es menor que a (0.05). 13-48 a) PRECIO 444.7183 0.6124 PESO 4.3769 SUPERFICIE. b) $182. 13-50 PRECIO 5.789 7.713DlV 3.823GPA 0.035VENTAS 0.040INGRESOS 0.018ACTIVOS 1.533PREANTE. R2 0.8043.
701
13-52 PRECIO 5.937 9.926DIV 4.584GPA 1.447PREANTE 5.168NY 1.277BANCO. H0: BNY 0. H1: BNY 0. valor prob 0.137 0.10, de manera que no rechazamos H0, los listados de la NYSE no tienen un efecto significativo sobre el precio de las acciones. H0: BBANCO 0. H1: BBANCO 0. Valor P 0.772 0.10, no rechazamos H0, los precios de las acciones de los bancos y de las instituciones de crédito no difieren significativamente de los precios de las acciones de otras compañías del grupo. 13-54 a) INGRESO 28,725.416 139.760 PROPIEDAD 105.176 VENTAS 56.065 GASOLINA. b) A: 28,500.50, B: 28,893.92; deben adoptar la propuesta B. 13-56 TELÉFONOS 6.6325 2.6040 AÑOS (en cientos de miles de unidades), r2 0.7951. Los residuos muestran que existe una curvatura. TELÉFONOS 3.6280 2.9926 AÑOS 0.5597(AÑOS)2, r2 0.9836. La ecuación cuadrática es un mejor ajuste. 13-58 a) INGRESO 8085.6084 51.4201 TIENDAS 125.7441 TAMAÑO. El número de tiendas es más importante al determinar el crecimiento del ingreso. De hecho, las tiendas más grandes parecen mostrar un declive en sus ingresos. Esta regresión puede llevar a un consultor a enfatizar la dispersión geográfica. b) Con ventas por empleado en miles de dólares, VENTAS/EMPLEADO 497.08 20.8462 AÑO 5.1665 TAMAÑO. Dado que el coeficiente de TAMAÑO es negativo, los empleados no son más productivos en tiendas más grandes. El coeficiente positivo de AÑOS muestra que la productividad de los empleados aumenta con el tiempo.
CAPÍTULO 14 14-2 b).
14-4 No utilizan toda la información contenida en los datos, ya que por lo general dependen de rangos o de listas. 14-6 Sí. Si los datos se examinaran graficando el número de preferencias contra el número de combinación, se vería que existe una distribución bimodal especial. En este caso, la elección de dos paquetes bien podría ser la mejor opción. 14-8 P(6 o 7 signos ) 1, de modo que no rechazamos H0. No ha habido un cambio significativo en el tiempo de recolección. 14-10 a) No. Incluso si 1995 es significativamente más frío que 1994, ese hecho solo no representa evidencia suficiente de una tendencia a largo plazo hacia un clima más frío. b) P(9 o más signos ) 0.2120, no rechazamos H0. 1995 no fue significativamente más frío que 1994. 14-12 a) P(6 o más signos ) 0.3770, no se rechaza H0. El tamaño ideal de una familia para las madres no es significativamente diferente que el tamaño ideal de familia para las hijas. b) p 0.6, pu 0.798, no se rechaza H0. c) Ahora pu 0.590, y rechazamos H0. El tamaño ideal de familia ha disminuido significativamente. d) Con unamás grande, p disminuye y el ancho de la región de aceptación disminuye. Así, con la muestra más grande podríamos tener la seguridad de que 0.6 fue significativamente mayor que 0.5, mientras que con la muestra más pequeña no podemos obtener esa conclusión.
702
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
14-14 U 61.5, UL 28.30, Uu 71.70, y no se rechaza H0. Las edades promedio no son significativamente diferentes. 14-16 K 0.341, u2 5.991, no se rechaza la hipótesis nula. Las cantidades promedio pagadas en los tres métodos no son significativamente diferentes. 14-18 U 115.5, Uu 107.2, se rechaza H0. La producción se ha reducido significativamente. 14-20 U 73, Uu 108.1, y no se rechaza H0. La promoción no ha aumentado las ventas de manera significativa (de hecho, ¡no han aumentado en absoluto!). 14-22 U 98, UL 59.31, Uu 148.69, y no se rechaza H0. Los distintos antecedentes no llevan a una diferencia significativa en el promedio general del primer año. 14-24 n1 26, n2 22, r 27, rL 18.2, ru 31.5, de modo que no se rechaza H0. La secuencia parece ser aleatoria. 14-26 n1 14, n2 14, r 13, rL 9.9, ru 20.1, y no rechazamos H0. Como era de esperarse, la secuencia parece ser aleatoria. 14-28 n1 15, n2 16, r 10, rL 12.0, así que rechazamos H0. Como el dueño sospechaba, la secuencia no es aleatoria. 14-30 a) n1 45, n2 4, r 9, rL 5.80, ru 10.90 y no rechazamos H0. Parece que la muestra es aleatoria. b) Con la misma región de aceptación, r es ahora 2, así que rechazamos H0. La muestra no es aleatoria (lo cual resulta obvio con una inspección). c) La proporción de muestra de los análisis por computadora deberá ser cerca de 0.75. P(45 o más análisis por computadora de 49 | p 0.75) 0.0033, así, hay muchos más análisis por computadora en la muestra de lo que es razonable esperar. Todavía más extraña es la secuencia particular que se reportó: nueve 1, un 2, etcétera. d) La prueba solamente considera el número de corridas de la muestra y no otros patrones de los datos. Además, no verifica si la proporción de la muestra es razonable. 14-32 n1 29, n2 11, r 17, rL 12.1, ru 21.8 de modo que no rechazamos H0. La muestra parece ser aleatoria, como se esperaba.
14-46 Dn 0.064, el valor critico de la cola superior es 0.1091, así que no rechazamos H0. Los datos están bien descritos por la distribución sugerida. 14-48 Dn 0.3858, el valor critico de la cola superior es 0.0962, así que rechazamos H0. Los datos no están bien descritos por una distribución de Poisson con 1. 14-50 U 113.5, Uu 124.47 y no rechazamos H0. El número de quejas no se ha reducido de manera significativa. 14-52 U 79.5, Uu 71.7, de modo que rechazamos H0. Las calificaciones de rendimiento son significativamente más altas en el departamento de operaciones. 14-54 p 0.3529, pL 0.3005, pu 0.6995, no rechazamos H0. Las dos puntuaciones no son significativamente diferentes. 14-56 Aunque los datos históricos nos permiten saber qué tipo de clima esperar en cualquier estación del año, las condiciones climáticas que en realidad ocurren en un día dado son bastante aleatorias. 14-58 U 53 Uu 50. Debido a que una prueba de cola inferior es apropiada, no rechazamos H0. Los datos no apoyan lo que cree. 14-60 a) rs 0.0902, el valor prob es 0.20, de manera que no rechazamos la hipótesis nula. No existe una relación significativa entre el tamaño del fondo y los rendimientos totales promedio anualizados ganados en los últimos 5 años. b) rs 0.0241, otra vez no rechazamos H0. No existe una relación significativa entre los rendimientos totales de 1992 y los rendimientos totales de los últimos 5 años. 14-62 U 63.5, UL 24.07, Uu 75.93, de modo que aceptamos H0. Las distancias de frenado medias no son significativamente diferentes. 14-64 rs 0.6346, los valores críticos son 0.5203, y rechazamos H0. La correlación de rango es significativa, lo cual apoya su sospecha. 14-66 Dn 0.1229, el valor crítico de cola superior es 0.1434, de modo que no rechazamos H0. Los datos están bien descritos por una distribución binomial con 4 y p 0.35.
14-34 rs 0.185, los valores críticos son 0.857l, así que no rechazamos H0. La correlación de rango no es significativa.
14-68 K 4.243, el valor prob es > 0.10, así que no rechazamos H0. Las edades promedio de los tres tipos de transportadores no son significativamente diferentes.
14-36 rs 0.86, los valores críticos son 0.7455, y se rechaza H0. La correlación de rango es significativa.
14-70 rs 0.6429, el valor crítico de la cola inferior es 0.5357, de modo que rechazamos H0. Los datos apoyan la queja.
14-38 rs 0.89, el valor critico de la cola superior es 0.6220, así que rechazamos H0. La correlación de rango es significativamente positiva.
14-72 P(12 o más signos ) 0.0176, y rechazamos H0. Los jugadores de la Liga Americana sufren más lesiones.
14-40 rs 0.498, el valor critico de la cola superior es 0.400, rechazamos H0. La correlación de rango es significativamente positiva, de modo que ya no se deben utilizar las entrevistas.
14-74 a) Siete en cada grupo. b) 2 9.4285, el valor prob es 0.10, no rechazamos H0. Parece que los bonos fueron elegidos de manera aleatoria. c) Dn 0.1667, el valor crítico de la cola superior es 0.15, de modo que no rechazamos H0. Parece que los bonos fueron elegidos de manera aleatoria.
14-42 rs 0.791, los valores criticos son 0.55l5, y rechazamos H0. La correlación de rango es significativa. 14-44 a) 0.0401, 0.2050, 0.3992, 0.2793, 0.0764. b) 83.29, 425.79, 829.14, 580.11, 158.68. c) Dn 0.0154. d) El valor crítico de la cola superior es 0.0268, y no se rechaza H0. Los datos están bien descritos por la distribución normal sugerida.
14-76 Dn 0.1440, el valor crítico de la cola superior es 0.1923, no rechazamos H0. Los datos están bien descritos por una distribución de Poisson con 6. 14-78 Las correlaciones de rango son 0.5933, 0.6374 y 0.5359 para los tres grupos. Los estudiantes universitarios tienen la percepción
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados más precisa. Sin embargo, no sabemos cómo probar si las diferencias observadas son significativas o no. 14-80 rs 0.5758, (rs)CRIT 0.5515, se rechaza H0. Al medirlas por su correlación, las clasificaciones no han cambiado en forma significativa.
CAPÍTULO 15
15-2 Para determinar qué patrones existen dentro de los datos correspondientes al periodo examinado. 15-4 Las demandas de servicios como agua y drenaje, tal vez, no se cumplirían. El ajuste a la tasa de impuestos para proporcionar servicios municipales puede retrasarse respecto a la demanda real de dichos servicios. Quizá se necesitarán recursos adicionales para permitir un operación municipal adecuada en una situación en la que los pronósticos son imprecisos. 15-6 Variación estacional. 15-8 Fluctuación cíclica. 15-10 Tendencia secular. 15-12 a) Yˆ 36.6091 8.1155x. b) 85.3, 93.4 y 101.5 casas por mes. 15-14 a) Yˆ 466.8125 61.7744x. b) Yˆ 455.0719 61.7744x 0.5591x 2. c) Pronóstico lineal 1.1463 millones de ratones; pronóstico cuadrático 1.2022 millones de ratones. d) Ningún modelo es válido. 15-16 a) Yˆ 18.6667 2.0500x, donde x 0 en 1982. b) Yˆ 17.3647 2.0500x 0.0126 x 2. c) La resistencia política a incrementar las tasas hace improbable que la tendencia cuadrática pueda continuar como un buen pronosticador. De hecho, el término de segundo grado no es significativo. 15-18 a) Como la tasa de incremento en los índices de contaminación está, en sí misma, aumentando, una tendencia de segundo grado ajustaría los datos mejor que una tendencia lineal. b) Sin embargo, conforme más se contamina el aire y los ciudadanos se preocupan más, se tomarán acciones para controlar la contaminación, de modo que las predicciones de la tendencia de segundo grado, con toda probabilidad, serán exageradas. c) Como es posible que las acciones públicas o políticas reduzcan la contaminación, ninguna ecuación de estimación seguirá siendo precisa.
b) 91.37, 77.81, 108.24, 122.48, 91.68, 79.81, 106.22, 121.76. 91.51, 80.09, 105.50, 122.31, 92.07, 79.91, 105.29, 122.42. c) Índices modificados: 105.86, 122.36, 91.59, 79.86. Índices estacionales: 105.95, 122.46, 91.67, 79.93. 15-28 89.0; 117.1; 116.7; 77.2. 15-30 a) 176.875, 179.375, 181.625, 182.25, 181.375, 181.25, 181.375, 181.375, 181.625, 183.375, 184.125. 186.125, 188.25, 188.75, 190.375, 194.125. b) 109.117, 46.829, 129.387, 114.129, 113.577, 41.931, 130.117, 113.577, 115.072, 39.809, 130.889, 115.514, 109.429, 48.742, 125.542, 113.844. c) Índices modificados: 129.752, 113.987, 111.503, 44.380. Índices estacionales: 129.875, 114.095, 111.609, 44.422. 15-32 a) 114.50, 129.02, 85.81, 70.67. b) 45.23%. 15-34 c) y d). 5-36 Se nivela con el tiempo y, a menudo, es menor en magnitud. 15-38 a) 75.886, 105.081, 142.050, 76.984. b) 25.038, 22.840, 26.751, 32.474, 27.673, 26.646, 30.975, 29.876, 30.309, 29.501, 28.863, 29.876, 31.626, 33.308, 33.791, 27.278. 15-40 Una componente irregular grande; un cambio en el clima que produce un índice estacional mayor o menor que el esperado; un cambio en la tecnología que afecta a la tendencia secular; un cambio económico que altera la escala de tiempo de la componente cíclica. 15-42 La disminución de la tasa de nacimientos que ha ocurrido sin duda alguna afectará las inscripciones futuras a las universidades; necesitamos ser muy cuidadosos respecto al comportamiento en las tasas de nacimientos de hace 17 o 18 años al estimar las inscripciones a la universidad. 15-44 a) 78.51, 88.88, 113.51, 119.09. b) 36.938, 33.753, 36.120, 36.107, 34.391, 38.254, 39.644, 40.306, 42.033, 40.504, 40.525, 42.825, 43.307, 45.005, 41.406, 44.504. c) Yˆ 39.7263 0.3310x. 15-46 0.7000, 0.7500, 0.7250, 0.6750, 0.6125, 0.5750, 0.5250, 0.4625, 0.4500, 0.4750, 0.5625, 0.6750, 0.7375, 0.7375, 0.7250, 0.7000, 0.6625, 0.6250, 0.5500, 0.4625, 0.4000, 0.3750, 0.4125, 0.5125, 0.6375, 0.7125, 0.7500, 0.7625, 0.7250, 0.6875, 0.6125, 0.5125.
0.9
15-20 a) 93.70, 103.52, 107.71, 99.10, 95.47, 98.34, 102.22. b) 6.30, 3.52, 7.71, 0.90, 4.53, 1.66, 2.22. d) La mayor fluctuación (con ambos métodos) fue en 1991.
15-24 a) Yˆ 24.3714 1.0357x. b) 98.76, 87.00, 96.85, 115.71, 119.65, 90.76, 90.98. c) 1.24, 13.00, 3.15, 15.71, 19.65, 9.24, 9.02. d) La fluctuación mayor (según ambos métodos), fue en 1993. 15-26 a) 98.5, 100.25, 101.625, 102.875, 103.625, 104, 104.5, 105.125, 106, 107.375, 109, 110.375, 111.875, 113.875, 115.875, 117.625.
0.8 0.7 Nivel de Hg
15-22 a) 94.12, 106.48, 95.42, 107.14, 96.05. b) 5.88, 6.48, 4.58, 7.14, 3.95. d) La fluctuación mayor (según ambos métodos), fue en 1994.
703
0.6 0.5 0.4 0.3 0.2 0.1 0.0 1
6 11 16 21 26 31 Mes (1/93 = 1, 1/94 = 13, 1/95 = 25) Nivel real de Hg Promedio móvil
36
704
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados
15-48 a) El kilometraje de gasolina se ve afectado por cosas como las respuestas del gobierno al embargo petrolero de 1973 y por las normas resultantes obligatorias sobre kilometraje de flotilla. b) Esta serie está conformada casi totalmente por variación irregular, debido a que los fallecimientos en accidentes de aviación comercial ocurren en eventos aleatorios como resultado del desplome impredecible de aviones. c) Aunque la demanda del mundo entero tiene una tendencia creciente a largo plazo, existen muchos productores de granos cuyas exportaciones individuales no crecen de manera pareja con el tiempo, sino que dependen de las condiciones políticas y económicas tanto de las naciones exportadoras como de las importadoras. d) Además de la estacionalidad como resultado de un mayor uso durante los meses de verano, los precios de la gasolina tienen una gran influencia de los sucesos geopolíticos impredecibles.
15-54 Como esta fuente principal de demanda de equipo pesado de remoción de tierra se va a perder, las tendencias históricas de las ventas de este tipo de equipo serán malos pronosticadores de las ventas futuras. Sería mejor aconsejar a los fabricantes que abandonen el modelo de pronósticos de series de tiempo y adopten un modelo econométrico que incluya variables explicativas como las millas de carretera en construcción o programadas para los siguientes años, y la antigüedad de las existencias actuales del equipo de remoción de tierra.
15-50 a) Aunque las ventas de las PC han aumentado en tasas crecientes, este crecimiento no se puede sostener conforme fracciones más grandes de la población llegan a tener una PC. Por esto, una ecuación de predicción de segundo grado, pronto, tenderá a sobrestimar las ventas de PC. b) En este caso, también, un pronóstico basado en una ecuación de predicción de segundo grado tenderá a ser una sobrestimación, debido al fenómeno de saturación mencionado en el inciso a), además debido a que los niños tenderán a jugar menos con ellas, conforme pase la novedad de los juegos. c) En la medida que un mayor número de estados limite las indemnizaciones por mala práctica médica, las cantidades pagadas por las demandas dejaran de crecer tan rápido. Conforme las obligaciones de las compañías de seguros dejen de crecer con tanta rapidez, también crecerán menos las primas de los seguros. Una vez más, los pronósticos de segundo grados tenderán a producir sobrestimaciones. d) Este caso es otro ejemplo de una tasa de crecimiento que no se puede sostener y que llevará a sobrestimaciones si se utiliza una ecuación de predicción de segundo grado.
15-58 a) DESEMPLEO 8.175 0.0379x. b) 82.1, 81.6, 83.5, 93.5, 101.3, 108.0, 116.1, 125.5, 123.1, 120.5, 113.1, 103.0, 95.2, 93.6, 95.7, 98.0, 96.3, 92.0, 90.3, 87.2. c)
Exportaciones de granos (miles de millones de dólares)
15-52 a) Índices: 43.343, 68.730, 173.375, 114.551. Datos desestacionalizados: 2.307, 4.365, 3.461, 3.492, 4.614, 2.910, 4.037, 4.365, 4.614, 5.820, 4.614, 4.365, 2.307, 4.365, 4.614, 5.238. b) Yˆ 4.0930 0.0433x. c) 33.014, 23.654, 4.313, 5.698, 21.741, 24.942, 1.867, 7.778, 11.557, 37.817, 7.053, 0.705, 48.539, 4.465, 0.902, 10.436. d)
9 8
15-56 a) Yˆ 17.3750 0.7202x. b) Alrededor de 28 casas construidas. c) Debería tener mucho cuidado respecto a una predicción tan lejana en el tiempo, debido a la cantidad de cosas que pueden cambiar mientras tanto en el negocio de la construcción de viviendas.
130 125 120
Porcentaje de tendencia
115 110 105 100 95 90 85 80 I
II
III IV
1991
I
II
III IV
1992
I
II
III IV
1993
I
II
III IV
1994
I
II
III IV
1995
15-60 a) VENTAS 60 0.25x. b) 61. c) No, una curva de segundo grado sería mejor. 15-62 a) 652.3, 397.85, 689.30, 598.00, 704.00, 408.80, 678.00, 577.20. b) Verano, primavera. c) Aproximadamente 654,000 viajes. 15-64 78.8914, 72.3445, 70.9335, 89.4580, 121.4460, 138.2389, 128.6877.
7 6
15-66 a) 1993. b) 1995.
5 4
CAPÍTULO 16
3 2 1
I
II III IV I 1992
II III IV I
1993 Datos originales
II III IV I
II III IV
1994 1995 Datos desestacionalizados
16-2 Los índices de precio y cantidad describen el cambio (por lo general en el tiempo) de una sola variable, precio y cantidad (o número), respectivamente. Los índices de valor describen el cambio de precio y cantidad en el producto. 16-4 Un índice puede utilizarse por sí mismo o como parte de un cálculo intermedio para entender mejor alguna otra información.
Soluciones a los autoexámenes y respuestas a problemas pares seleccionados 16-6 Porcentaje relativo (valor actual/valor base) 100. 16-8 110.1, 121.2, 130.1. 16-10 95.2, 102.7. 16-12 108.3. 16-14 100.0, 101.4, 103.1, 104.9. 16-16 98.6, 100.0, 101.6, 103.5.
705
16-42 Al no reflejar el cambio en la calidad, puede ser que el índice no refleje el cambio en el nivel de precios con precisión. 16-44 147.5, 138.5. 16-46 101.1. 16-48 El problema de la incompatibilidad de índices estaría presente debido a que la tecnología de las computadoras ha cambiado de manera significativa durante las décadas pasadas. 16-50 100.0, 101.6, 116.7.
16-18 Julio: 102.1, agosto: 97.3; se trata de índices de Laspeyres.
16-52 68.6, 103.4.
16-20 90.4, 100.0, 108.5, 112.5. 16-22 100.0, 106.4, 114.8.
16-54 Dependiendo de qué se esté midiendo, la elección del periodo base puede distorsionar de manera significativa la importancia de un valor particular.
16-24 a) 143.0.
16-56 100.0, 105.5, 105.7, 105.6, 112.7.
b) 146.5. 16-26 64.5, 76.9, 100.0, 127.1. 16-28 129.4, 138.7. 16-30 El índice de agregados ponderados usa cantidades para los pesos; el promedio ponderado de relativos usa valores.
16-58 a) 92.5, 100.0, 106.9. b) 92.2, 100.0, 106.9. 16-60 100.0, 108.0, 114.0. 16-62 $342.99. 16-64 63.2, 72.9, 102.0, 100.0.
16-32 94.7, 101.3, 100.0.
16-66 122.9.
16-34 76.5, 92.7, 95.2, 100.0.
16-68 100.0, 108.7, 118.1, 122.9.
16-36 75.5.
16-70 Duplicar el peso de un factor proporciona a ese factor un impacto adicional en el lugar del factor que falta, asignar calificaciones bajas al factor que falta pone en duda el proceso de evaluación completo. Otras respuestas para datos faltantes incluyen dejar fuera a las escuelas con fallas de información, o asignar valores promedio a los factores que faltan. Sin embargo, estas alternativas todavía producen algunas distorsiones en las clasificaciones.
16-38 Las ponderaciones adecuadas para un periodo puede volverse inapropiadas en poco tiempo. A menos que los pesos se modifiquen, el índice se vuelve menos informativo. 16-40 Se promedian los valores de varios periodos contiguos.
APÉNDICES: TABLAS 1
Tabla de números aleatorios
2
La distribución normal estandarizada acumulativa
3
Valores críticos de t
4
Valores críticos de 2
5
Valores críticos de F
6
Tabla de probabilidades binomiales
7
Tabla de probabilidades de Poisson
8
Valores críticos del rango studentizado Q
9
Valores críticos dL y dU del estadístico D de Durbin-Watson
10
Factores de gráfica de control
11
La distribución normal estandarizada
708
APÉNDICES
Columna
TABLAS TABLA 1 Tabla de números aleatorios.
Fila
00000 12345
00001 67890
11111 12345
11112 67890
22222 12345
22223 67890
33333 12345
33334 67890
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
49280 61870 43898 62993 33850 97340 70543 89382 37818 60430 82975 30987 55700 14756 32166 23236 45794 09893 54382 94750 70297 85157 11100 36871 23913 79348 92074 06873 12478 57175 91616 78025 27587 16690 70183 90730 10934 82462 27463 02979 46888 53638 82433 35766 10853 20341 54458 26337 34314 28603
88924 41657 65923 93912 58555 03364 29776 93809 72142 22834 66158 71938 24586 23997 53251 73751 26926 20505 74598 89923 34135 47954 02340 50775 48357 36085 54641 21440 37622 55564 11075 73539 67228 20427 58065 35385 93242 30166 10433 52997 69929 83161 61427 31672 42581 27398 90542 66530 23729 10708
35779 07468 25078 30454 51438 88472 10087 00796 67140 14130 84731 40355 93247 78643 70654 31888 15130 14225 91499 37089 53140 32979 12860 30592 63308 27973 53673 75593 99659 65411 80103 14621 80145 04251 65489 15679 13431 79613 07606 09079 75233 08289 17239 50082 08792 72906 77563 16687 85264 68933
00283 08612 86129 84598 85507 04334 10072 95945 50785 96593 19436 54324 32596 75912 92827 81718 82455 68514 14523 20048 33340 26575 74697 57143 16090 65157 54421 41373 31065 42547 07831 39044 10175 64477 31833 99742 24590 47416 16285 92709 52507 12639 89160 22795 13257 63955 51839 35179 05575 34189
81163 98083 78496 56095 71865 63919 55980 34101 22380 23298 55790 08401 11865 83832 63491 06546 78305 47427 68479 80336 42050 57600 96644 17381 51690 07456 18130 49502 83613 70457 59309 47450 12822 73709 82093 50866 02770 13389 93699 90110 32097 08141 19666 66948 61973 17276 52901 46560 96855 92166
07275 97349 97653 20664 79488 36394 64688 81277 16703 56203 69229 26299 63397 32768 04233 83246 55058 56788 27686 94598 82341 40881 89439 68856 54607 22255 60103 17972 69889 03426 13276 03197 86687 73945 16747 78028 48582 80268 60912 47506 37594 12640 08814 65581 24450 10646 53355 00123 23820 15181
89863 20775 91550 12872 76783 11095 68239 66090 53362 92671 28661 49420 44251 18928 33825 47651 52551 96297 46162 26940 44104 12250 28707 25853 72407 25626 69593 82578 58869 72937 26710 12787 65530 92396 10386 75573 00906 05085 94532 53693 10067 28437 37841 84393 52351 74692 83281 44546 11091 66628
02348 45091 08078 64647 31708 92470 20461 88872 44940 15925 13675 59208 43189 57070 69662 04877 47182 78822 83554 36858 82949 73742 25815 35041 55538 57054 49464 16364 29571 83792 73000 47709 49325 68263 59293 67257 58595 96666 95632 49892 67327 09268 12847 15890 16602 48438 19177 79896 79821 58599 Continúa
Tablas
TABLA 1 Tabla de números aleatorios (continuación).
709
Columna Fila
00000 12345
00001 67890
11111 12345
11112 67890
22222 12345
22223 67890
33333 12345
33334 67890
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00
66194 78240 00833 12111 47189 76396 46409 74626 34450 36327 74185 12296 90822 72121 95268 92603 18813 38840 05959 85141 75047 30752 22986 99439 20389 39249 96777 04860 41613 17930 24649 79899 76801 36239 07392 67133 77759 85992 79553 41101 36191 62329 14751 48462 29435 28340 02167 17864 79675 72335
28926 43195 88000 86683 99951 72486 17469 22111 81974 72135 77536 41623 60280 79152 41377 09091 90291 26903 33836 21155 59643 95260 82575 86692 93029 05173 33605 32918 42375 00794 31845 34061 49594 63636 64449 04181 31504 72268 75952 17336 17095 63898 13151 59278 88105 29285 58940 00991 80605 82037
99547 24837 67299 61270 05755 62423 32483 87286 93723 33005 84825 62873 88925 96591 25684 75884 05275 28624 53758 99212 31074 68032 42187 90348 11881 68256 29481 10798 00403 53836 25736 54308 81002 38140 17886 33874 32832 42920 54116 48951 32123 23268 93115 44185 59651 12965 27149 39557 60059 92003
16625 32511 68215 58036 03834 27618 09083 46772 49023 28701 09934 37943 99610 90305 08151 93424 01223 67157 16562 32685 38172 62871 62295 66036 71685 36359 20063 50492 03656 53692 75231 59358 30397 65731 63632 98835 70861 20810 65553 53674 91576 74283 01437 29616 44391 14821 80242 54981 35862 34100
45515 70880 11274 64192 43782 84184 76175 42243 58432 34710 99103 25584 42772 10189 61816 72586 79607 51986 41081 51403 03718 58781 84295 48399 65452 20250 09398 52655 77580 67135 83808 56462 52728 39788 53995 67453 15152 29361 47139 17880 84221 26091 56945 76537 74588 80425 10587 23588 00254 29879
67953 22070 55624 90611 90599 78922 19985 68046 67083 49359 09325 09609 60561 79778 58555 88903 95426 42865 38012 31926 32119 34143 30634 73451 89047 68686 01843 33359 87772 98102 98917 58166 15101 06872 17574 59734 29733 51423 60579 45260 78902 68409 89661 19589 55114 16602 79786 81914 36546 46613
12108 52622 32991 15145 40282 73561 26309 44250 36876 50693 67389 63360 76873 68016 54305 30061 34900 14508 41230 69813 69506 68790 66562 26698 63669 05947 35139 94713 86877 61912 93829 97302 72070 38971 22247 76381 75371 90306 09165 08575 82010 69704 67680 83139 80834 44653 34959 37609 21545 89720
57846 61881 17436 01748 51417 52818 91536 42439 93391 89311 45869 47270 04117 13747 86189 14457 09778 49315 20528 58781 67143 69766 31442 39437 02656 09335 61344 28393 57085 11246 99430 86828 33706 53363 62607 63455 39174 73574 85490 49321 30847 82267 79790 28454 85686 70467 75339 13128 78179 13274
Fuente: Tomado parcialmente de la Rand Corporation, A Million Random Digits with 100,000 Normal Deviates (Glencoe, IL, The Free Press, 1955).
710
APÉNDICES
TABLA 2 La distribución normal estandarizada acumulativa. Las entradas representan el área debajo de la distribución normal estandarizada acumulativa desde hasta Z.
Z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
−6.0 −5.5 −5.0 −4.5 −4.0 −3.9 −3.8 −3.7 −3.6 −3.5 −3.4 −3.3 −3.2 −3.1 −3.0 −2.9 −2.8 −2.7 −2.6 −2.5 −2.4 −2.3 −2.2 −2.1 −2.0 −1.9 −1.8 −1.7 −1.6 −1.5 −1.4 −1.3 −1.2 −1.1 −1.0 −0.9 −0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 −0.0
0.000000001 0.000000019 0.000000287 0.000003398 0.000031671 0.00005 0.00007 0.00011 0.00016 0.00023 0.00034 0.00048 0.00069 0.00097 0.00135 0.0019 0.0026 0.0035 0.0047 0.0062 0.0082 0.0107 0.0139 0.0179 0.0228 0.0287 0.0359 0.0446 0.0548 0.0668 0.0808 0.0968 0.1151 0.1357 0.1587 0.1841 0.2119 0.2420 0.2743 0.3085 0.3446 0.3821 0.4207 0.4602 0.5000
0.00005 0.00007 0.00010 0.00015 0.00022 0.00032 0.00047 0.00066 0.00094 0.00131 0.0018 0.0025 0.0034 0.0045 0.0060 0.0080 0.0104 0.0136 0.0174 0.0222 0.0281 0.0351 0.0436 0.0537 0.0655 0.0793 0.0951 0.1131 0.1335 0.1562 0.1814 0.2090 0.2388 0.2709 0.3050 0.3409 0.3783 0.4168 0.4562 0.4960
0.00004 0.00007 0.00010 0.00015 0.00022 0.00031 0.00045 0.00064 0.00090 0.00126 0.0018 0.0024 0.0033 0.0044 0.0059 0.0078 0.0102 0.0132 0.0170 0.0217 0.0274 0.0344 0.0427 0.0526 0.0643 0.0778 0.0934 0.1112 0.1314 0.1539 0.1788 0.2061 0.2358 0.2676 0.3015 0.3372 0.3745 0.4129 0.4522 0.4920
0.00004 0.00006 0.00010 0.00014 0.00021 0.00030 0.00043 0.00062 0.00087 0.00122 0.0017 0.0023 0.0032 0.0043 0.0057 0.0075 0.0099 0.0129 0.0166 0.0212 0.0268 0.0336 0.0418 0.0516 0.0630 0.0764 0.0918 0.1093 0.1292 0.1515 0.1762 0.2033 0.2327 0.2643 0.2981 0.3336 0.3707 0.4090 0.4483 0.4880
0.00004 0.00006 0.00009 0.00014 0.00020 0.00029 0.00042 0.00060 0.00084 0.00118 0.0016 0.0023 0.0031 0.0041 0.0055 0.0073 0.0096 0.0125 0.0162 0.0207 0.0262 0.0329 0.0409 0.0505 0.0618 0.0749 0.0901 0.1075 0.1271 0.1492 0.1736 0.2005 0.2296 0.2611 0.2946 0.3300 0.3669 0.4052 0.4443 0.4840
0.00004 0.00006 0.00009 0.00013 0.00019 0.00028 0.00040 0.00058 0.00082 0.00114 0.0016 0.0022 0.0030 0.0040 0.0054 0.0071 0.0094 0.0122 0.0158 0.0202 0.0256 0.0322 0.0401 0.0495 0.0606 0.0735 0.0885 0.1056 0.1251 0.1469 0.1711 0.1977 0.2266 0.2578 0.2912 0.3264 0.3632 0.4013 0.4404 0.4801
0.00004 0.00006 0.00008 0.00013 0.00019 0.00027 0.00039 0.00056 0.00079 0.00111 0.0015 0.0021 0.0029 0.0039 0.0052 0.0069 0.0091 0.0119 0.0154 0.0197 0.0250 0.0314 0.0392 0.0485 0.0594 0.0721 0.0869 0.1038 0.1230 0.1446 0.1685 0.1949 0.2236 0.2546 0.2877 0.3228 0.3594 0.3974 0.4364 0.4761
0.00004 0.00005 0.00008 0.00012 0.00018 0.00026 0.00038 0.00054 0.00076 0.00107 0.0015 0.0021 0.0028 0.0038 0.0051 0.0068 0.0089 0.0116 0.0150 0.0192 0.0244 0.0307 0.0384 0.0475 0.0582 0.0708 0.0853 0.1020 0.1210 0.1423 0.1660 0.1922 0.2206 0.2514 0.2843 0.3192 0.3557 0.3936 0.4325 0.4721
0.00003 0.00005 0.00008 0.00012 0.00017 0.00025 0.00036 0.00052 0.00074 0.00103 0.0014 0.0020 0.0027 0.0037 0.0049 0.0066 0.0087 0.0113 0.0146 0.0188 0.0239 0.0301 0.0375 0.0465 0.0571 0.0694 0.0838 0.1003 0.1190 0.1401 0.1635 0.1894 0.2177 0.2482 0.2810 0.3156 0.3520 0.3897 0.4286 0.4681
0.00003 0.00005 0.00008 0.00011 0.00017 0.00024 0.00035 0.00050 0.00071 0.00100 0.0014 0.0019 0.0026 0.0036 0.0048 0.0064 0.0084 0.0110 0.0143 0.0183 0.0233 0.0294 0.0367 0.0455 0.0559 0.0681 0.0823 0.0985 0.1170 0.1379 0.1611 0.1867 0.2148 0.2451 0.2776 0.3121 0.3483 0.3859 0.4247 0.4641 Continúa
Tablas
711
TABLA 2 La distribución normal estandarizada acumulativa (continuación). Las entradas representan el área debajo de la distribución normal estandarizada acumulativa desde hasta Z.
Z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.5 5.0 5.5 6.0
0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.99865 0.99903 0.99931 0.99952 0.99966 0.99977 0.99984 0.99989 0.99993 0.99995 0.999968329 0.999996602 0.999999713 0.999999981 0.999999999
0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7612 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.99869 0.99906 0.99934 0.99953 0.99968 0.99978 0.99985 0.99990 0.99993 0.99995
0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.99874 0.99910 0.99936 0.99955 0.99969 0.99978 0.99985 0.99990 0.99993 0.99996
0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.99878 0.99913 0.99938 0.99957 0.99970 0.99979 0.99986 0.99990 0.99994 0.99996
0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.99882 0.99916 0.99940 0.99958 0.99971 0.99980 0.99986 0.99991 0.99994 0.99996
0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.99886 0.99918 0.99942 0.99960 0.99972 0.99981 0.99987 0.99991 0.99994 0.99996
0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.99889 0.99921 0.99944 0.99961 0.99973 0.99981 0.99987 0.99992 0.99994 0.99996
0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.99893 0.99924 0.99946 0.99962 0.99974 0.99982 0.99988 0.99992 0.99995 0.99996
0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7518 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.99897 0.99926 0.99948 0.99964 0.99975 0.99983 0.99988 0.99992 0.99995 0.99997
0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.99900 0.99929 0.99950 0.99965 0.99976 0.99983 0.99989 0.99992 0.99995 0.99997
712
APÉNDICES
TABLA 3 Valores críticos de t. Para un número particular de grados de libertad, la entrada representa el valor crítico de t correspondiente a un área de la cola superior específica ().
0
t (, gl)
Áreas de la cola superior Grados de libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
0.25
0.10
0.05
0.025
0.01
0.005
1.0000 0.8165 0.7649 0.7407 0.7267 0.7176 0.7111 0.7064 0.7027 0.6998 0.6974 0.6955 0.6938 0.6924 0.6912 0.6901 0.6892 0.6884 0.6876 0.6870 0.6864 0.6858 0.6853 0.6848 0.6844 0.6840 0.6837 0.6834 0.6830 0.6828 0.6825 0.6822 0.6820 0.6818 0.6816 0.6814 0.6812 0.6810 0.6808 0.6807 0.6805 0.6804 0.6802 0.6801 0.6800 0.6799 0.6797 0.6796
3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.3830 1.3722 1.3634 1.3562 1.3502 1.3450 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.3150 1.3137 1.3125 1.3114 1.3104 1.3095 1.3086 1.3077 1.3070 1.3062 1.3055 1.3049 1.3042 1.3036 1.3031 1.3025 1.3020 1.3016 1.3011 1.3006 1.3022 1.2998 1.2994
6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973 1.6955 1.6939 1.6924 1.6909 1.6896 1.6883 1.6871 1.6860 1.6849 1.6839 1.6829 1.6820 1.6811 1.6802 1.6794 1.6787 1.6779 1.6772
12.7062 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281 2.2010 2.1788 2.1604 2.1448 2.1315 2.1199 2.1098 2.1009 2.0930 2.0860 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423 2.0395 2.0369 2.0345 2.0322 2.0301 2.0281 2.0262 2.0244 2.0227 2.0211 2.0195 2.0181 2.0167 2.0154 2.0141 2.0129 2.0117 2.0106
31.8207 6.9646 4.5407 3.7469 3.3649 3.1427 2.9980 2.8965 2.8214 2.7638 2.7181 2.6810 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395 2.5280 2.5177 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727 2.4671 2.4620 2.4573 2.4528 2.4487 2.4448 2.4411 2.4377 2.4345 2.4314 2.4286 2.4258 2.4233 2.4208 2.4185 2.4163 2.4141 2.4121 2.4102 2.4083 2.4066
63.6574 9.9248 5.8409 4.6041 4.0322 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707 2.7633 2.7564 2.7500 2.7440 2.7385 2.7333 2.7284 2.7238 2.7195 2.7154 2.7116 2.7079 2.7045 2.7012 2.6981 2.6951 2.6923 2.6896 2.6870 2.6846 2.6822
Continúa
Tablas
TABLA 3 Valores críticos de t (continuación).
713
Áreas de la cola superior Grados de libertad 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 110 120 ∞
0.25
0.10
0.05
0.025
0.01
0.005
0.6795 0.6794 0.6793 0.6792 0.6791 0.6791 0.6790 0.6789 0.6788 0.6787 0.6787 0.6786 0.6785 0.6785 0.6784 0.6783 0.6783 0.6782 0.6782 0.6781 0.6781 0.6780 0.6780 0.6779 0.6779 0.6778 0.6778 0.6777 0.6777 0.6776 0.6776 0.6776 0.6775 0.6775 0.6775 0.6774 0.6774 0.6774 0.6773 0.6773 0.6773 0.6772 0.6772 0.6772 0.6771 0.6771 0.6771 0.6771 0.6770 0.6770 0.6770 0.6770 0.6767 0.6765 0.6745
1.2991 1.2987 1.2984 1.2980 1.2977 1.2974 1.2971 1.2969 1.2966 1.2963 1.2961 1.2958 1.2956 1.2954 1.2951 1.2949 1.2947 1.2945 1.2943 1.2941 1.2939 1.2938 1.2936 1.2934 1.2933 1.2931 1.2929 1.2928 1.2926 1.2925 1.2924 1.2922 1.2921 1.2920 1.2918 1.2917 1.2916 1.2915 1.2914 1.2912 1.2911 1.2910 1.2909 1.2908 1.2907 1.2906 1.2905 1.2904 1.2903 1.2902 1.2902 1.2901 1.2893 1.2886 1.2816
1.6766 1.6759 1.6753 1.6747 1.6741 1.6736 1.6730 1.6725 1.6720 1.6716 1.6711 1.6706 1.6702 1.6698 1.6694 1.6690 1.6686 1.6683 1.6679 1.6676 1.6672 1.6669 1.6666 1.6663 1.6660 1.6657 1.6654 1.6652 1.6649 1.6646 1.6644 1.6641 1.6639 1.6636 1.6634 1.6632 1.6630 1.6628 1.6626 1.6624 1.6622 1.6620 1.6618 1.6616 1.6614 1.6612 1.6611 1.6609 1.6607 1.6606 1.6604 1.6602 1.6588 1.6577 1.6449
2.0096 2.0086 2.0076 2.0066 2.0057 2.0049 2.0040 2.0032 2.0025 2.0017 2.0010 2.0003 1.9996 1.9990 1.9983 1.9977 1.9971 1.9966 1.9960 1.9955 1.9949 1.9944 1.9939 1.9935 1.9930 1.9925 1.9921 1.9917 1.9913 1.9908 1.9905 1.9901 1.9897 1.9893 1.9890 1.9886 1.9883 1.9879 1.9876 1.9873 1.9870 1.9867 1.9864 1.9861 1.9858 1.9855 1.9853 1.9850 1.9847 1.9845 1.9842 1.9840 1.9818 1.9799 1.9600
2.4049 2.4033 2.4017 2.4002 2.3988 2.3974 2.3961 2.3948 2.3936 2.3924 2.3912 2.3901 2.3890 2.3880 2.3870 2.3860 2.3851 2.3842 2.3833 2.3824 2.3816 2.3808 2.3800 2.3793 2.3785 2.3778 2.3771 2.3764 2.3758 2.3751 2.3745 2.3739 2.3733 2.3727 2.3721 2.3716 2.3710 2.3705 2.3700 2.3695 2.3690 2.3685 2.3680 2.3676 2.3671 2.3667 2.3662 2.3658 2.3654 2.3650 2.3646 2.3642 2.3607 2.3578 2.3263
2.6800 2.6778 2.6757 2.6737 2.6718 2.6700 2.6682 2.6665 2.6649 2.6633 2.6618 2.6603 2.6589 2.6575 2.6561 2.6549 2.6536 2.6524 2.6512 2.6501 2.6490 2.6479 2.6469 2.6459 2.6449 2.6439 2.6430 2.6421 2.6412 2.6403 2.6395 2.6387 2.6379 2.6371 2.6364 2.6356 2.6349 2.6342 2.6335 2.6329 2.6322 2.6316 2.6309 2.6303 2.6297 2.6291 2.6286 2.6280 2.6275 2.6269 2.6264 2.6259 2.6213 2.6174 2.5758
714
APÉNDICES
TABLA 4 Valores críticos de 2.
α
1–α
Para un número particular de grados de libertad, la entrada representa el valor crítico de 2 correspondiente a un área de la cola superior específica ().
χ2
0
U(α, gl)
Áreas de la cola superior () Grados de libertad
0.995
0.99
0.975
0.95
0.90
0.75
0.25
0.10
0.05
0.025
0.01
0.005
1 2 3 4 5
0.010 0.072 0.207 0.412
0.020 0.115 0.297 0.554
0.001 0.051 0.216 0.484 0.831
0.004 0.103 0.352 0.711 1.145
0.016 0.211 0.584 1.064 1.610
0.102 0.575 1.213 1.923 2.675
1.323 2.773 4.108 5.385 6.626
2.706 4.605 6.251 7.779 9.236
3.841 5.991 7.815 9.488 11.071
5.024 7.378 9.348 11.143 12.833
6.635 9.210 11.345 13.277 15.086
7.879 10.597 12.838 14.860 16.750
6 7 8 9 10
0.676 0.989 1.344 1.735 2.156
0.872 1.239 1.646 2.088 2.558
1.237 1.690 2.180 2.700 3.247
1.635 2.167 2.733 3.325 3.940
2.204 2.833 3.490 4.168 4.865
3.455 4.255 5.071 5.899 6.737
7.841 9.037 10.219 11.389 12.549
10.645 12.017 13.362 14.684 15.987
12.592 14.067 15.507 16.919 18.307
14.449 16.013 17.535 19.023 20.483
16.812 18.475 20.090 21.666 23.209
18.458 20.278 21.955 23.589 25.188
11 12 13 14 15
2.603 3.074 3.565 4.075 4.601
3.053 3.571 4.107 4.660 5.229
3.816 4.404 5.009 5.629 6.262
4.575 5.226 5.892 6.571 7.261
5.578 6.304 7.042 7.790 8.547
7.584 8.438 9.299 10.165 11.037
13.701 14.845 15.984 17.117 18.245
17.275 18.549 19.812 21.064 22.307
19.675 21.026 22.362 23.685 24.996
21.920 23.337 24.736 26.119 27.488
24.725 26.217 27.688 29.141 30.578
26.757 28.299 29.819 31.319 32.801
16 17 18 19 20
5.142 5.697 6.265 6.844 7.434
5.812 6.408 7.015 7.633 8.260
6.908 7.564 8.231 8.907 9.591
7.962 8.672 9.390 10.117 10.851
9.312 10.085 10.865 11.651 12.443
11.912 12.792 13.675 14.562 15.452
19.369 20.489 21.605 22.718 23.828
23.542 24.769 25.989 27.204 28.412
26.296 27.587 28.869 30.144 31.410
28.845 30.191 31.526 32.852 34.170
32.000 33.409 34.805 36.191 37.566
34.267 35.718 37.156 38.582 39.997
21 22 23 24 25
8.034 8.643 9.260 9.886 10.520
8.897 9.542 10.196 10.856 11.524
10.283 10.982 11.689 12.401 13.120
11.591 12.338 13.091 13.848 14.611
13.240 14.042 14.848 15.659 16.473
16.344 17.240 18.137 19.037 19.939
24.935 26.039 27.141 28.241 29.339
29.615 30.813 32.007 33.196 34.382
32.671 33.924 35.172 36.415 37.652
35.479 36.781 38.076 39.364 40.646
38.932 40.289 41.638 42.980 44.314
41.401 42.796 44.181 45.559 46.928
26 27 28 29 30
11.160 11.808 12.461 13.121 13.787
12.198 12.879 13.565 14.257 14.954
13.844 14.573 15.308 16.047 16.791
15.379 16.151 16.928 17.708 18.493
17.292 18.114 18.939 19.768 20.599
20.843 21.749 22.657 23.567 24.478
30.435 31.528 32.620 33.711 34.800
35.563 36.741 37.916 39.087 40.256
38.885 40.113 41.337 42.557 43.773
41.923 43.194 44.461 45.722 46.979
45.642 46.963 48.278 49.588 50.892
48.290 49.645 50.993 52.336 53.672
Para valores de libertad (gl) mayores se utiliza la fórmula Z 22 2(gl) 1 y el área de la cola superior resultante se determina a partir de la distribución normal estandarizada acumulativa (tabla E.2).
161.40 18.51 10.13 7.71
6.61 5.99 5.59 5.32 5.12
4.96 4.84 4.75 4.67 4.60
4.54 4.49 4.45 4.41 4.38
4.35 4.32 4.30 4.28 4.26
4.24 4.23 4.21 4.20 4.18
4.17 4.08 4.00 3.92 3.84
5 6 7 8 9
10 11 12 13 14
15 16 17 18 19
20 21 22 23 24
25 26 27 28 29
30 40 60 120 ∞
1
1 2 3 4
Denominador gl2
3.32 3.23 3.15 3.07 3.00
3.39 3.37 3.35 3.34 3.33
3.49 3.47 3.44 3.42 3.40
3.68 3.63 3.59 3.55 3.52
4.10 3.98 3.89 3.81 3.74
5.79 5.14 4.74 4.46 4.26
199.50 19.00 9.55 6.94
2
2.92 2.84 2.76 2.68 2.60
2.99 2.98 2.96 2.95 2.93
3.10 3.07 3.05 3.03 3.01
3.29 3.24 3.20 3.16 3.13
3.71 3.59 3.49 3.41 3.34
5.41 4.76 4.35 4.07 3.86
215.70 19.16 9.28 6.59
3
2.69 2.61 2.53 2.45 2.37
2.76 2.74 2.73 2.71 2.70
2.87 2.84 2.82 2.80 2.78
3.06 3.01 2.96 2.93 2.90
3.48 3.36 3.26 3.18 3.11
5.19 4.53 4.12 3.84 3.63
224.60 19.25 9.12 6.39
4
2.53 2.45 2.37 2.29 2.21
2.60 2.59 2.57 2.56 2.55
2.71 2.68 2.66 2.64 2.62
2.90 2.85 2.81 2.77 2.74
3.33 3.20 3.11 3.03 2.96
5.05 4.39 3.97 3.69 3.48
230.20 19.30 9.01 6.26
5
2.42 2.34 2.25 2.17 2.10
2.49 2.47 2.46 2.45 2.43
2.60 2.57 2.55 2.53 2.51
2.79 2.74 2.70 2.66 2.63
3.22 3.09 3.00 2.92 2.85
4.95 4.28 3.87 3.58 3.37
234.00 19.33 8.94 6.16
6
2.33 2.25 2.17 2.09 2.01
2.40 2.39 2.37 2.36 2.35
2.51 2.49 2.46 2.44 2.42
2.71 2.66 2.61 2.58 2.54
3.14 3.01 2.91 2.83 2.76
4.88 4.21 3.79 3.50 3.29
236.80 19.35 8.89 6.09
7
2.27 2.18 2.10 2.02 1.94
2.34 2.32 2.31 2.29 2.28
2.45 2.42 2.40 2.37 2.36
2.64 2.59 2.55 2.51 2.48
3.07 2.95 2.85 2.77 2.70
4.82 4.15 3.73 3.44 3.23
238.90 19.37 8.85 6.04
8
2.21 2.12 2.04 1.96 1.88
2.28 2.27 2.25 2.24 2.22
2.39 2.37 2.34 2.32 2.30
2.59 2.54 2.49 2.46 2.42
3.02 2.90 2.80 2.71 2.65
4.77 4.10 3.68 3.39 3.18
240.50 19.38 8.81 6.00
9
2.16 2.08 1.99 1.91 1.83
2.24 2.22 2.20 2.19 2.18
2.35 2.32 2.30 2.27 2.25
2.54 2.49 2.45 2.41 2.38
2.98 2.85 2.75 2.67 2.60
4.74 4.06 3.64 3.35 3.14
241.90 19.40 8.79 5.96
10
Numerador, gl1
2.09 2.00 1.92 1.83 1.75
2.16 2.15 2.13 2.12 2.10
2.28 2.25 2.23 2.20 2.18
2.48 2.42 2.38 2.34 2.31
2.91 2.79 2.69 2.60 2.53
4.68 4.00 3.57 3.28 3.07
243.90 19.41 8.74 5.91
12
Para una combinación particular de grados de libertad del numerador y denominador, la entrada representa los valores críticos de F correspondientes a un área específica de la cola superior ().
TABLA 5 Valores críticos de F.
2.01 1.92 1.84 1.75 1.67
2.09 2.07 2.06 2.04 2.03
2.20 2.18 2.15 2.13 2.11
2.40 2.35 2.31 2.27 2.23
2.85 2.72 2.62 2.53 2.46
4.62 3.94 3.51 3.22 3.01
245.90 19.43 8.70 5.86
15
1.93 1.84 1.75 1.66 1.57
2.01 1.99 1.97 1.96 1.94
2.12 2.10 2.07 2.05 2.03
2.33 2.28 2.23 2.19 2.16
2.77 2.65 2.54 2.46 2.39
4.56 3.87 3.44 3.15 2.94
248.00 19.45 8.66 5.80
20
1.89 1.79 1.70 1.61 1.52
1.96 1.95 1.93 1.91 1.90
2.08 2.05 2.03 2.01 1.98
2.29 2.24 2.19 2.15 2.11
2.74 2.61 2.51 2.42 2.35
4.53 3.84 3.41 3.12 2.90
249.10 19.45 8.64 5.77
24
1.84 1.74 1.65 1.55 1.46
1.92 1.90 1.88 1.87 1.85
2.04 2.01 1.98 1.96 1.94
2.25 2.19 2.15 2.11 2.07
2.70 2.57 2.47 2.38 2.31
4.50 3.81 3.38 3.08 2.86
250.10 19.46 8.62 5.75
30
0
1.79 1.69 1.59 1.50 1.39
1.87 1.85 1.84 1.82 1.81
1.99 1.96 1.91 1.91 1.89
2.20 2.15 2.10 2.06 2.03
2.66 2.53 2.43 2.34 2.27
4.46 3.77 3.34 3.04 2.83
251.10 19.47 8.59 5.72
40
1.74 1.64 1.53 1.43 1.32
1.82 1.80 1.79 1.77 1.75
1.95 1.92 1.89 1.86 1.84
2.16 2.11 2.06 2.02 1.98
2.62 2.49 2.38 2.30 2.22
4.43 3.74 3.30 3.01 2.79
252.20 19.48 8.57 5.69
60
1.68 1.58 1.47 1.35 1.22
1.77 1.75 1.73 1.71 1.70
1.90 1.87 1.84 1.81 1.79
2.11 2.06 2.01 1.97 1.93
2.58 2.45 2.34 2.25 2.18
4.40 3.70 3.27 2.97 2.75
253.30 19.49 8.55 5.66
120
1.62 1.51 1.39 1.25 1.00 Continúa
1.71 1.69 1.67 1.65 1.64
1.84 1.81 1.78 1.76 1.73
2.07 2.01 1.96 1.92 1.88
2.54 2.40 2.30 2.21 2.13
4.36 3.67 3.23 2.93 2.71
254.30 19.50 8.53 5.63
∞
647.80 38.51 17.44 12.22
10.01 8.81 8.07 7.57 7.21
6.94 6.72 6.55 6.41 6.30
6.20 6.12 6.04 5.98 5.92
5.87 5.83 5.79 5.75 5.72
5.69 5.66 5.63 5.61 5.59
5.57 5.42 5.29 5.15 5.02
5 6 7 8 9
10 11 12 13 14
15 16 17 18 19
20 21 22 23 24
25 26 27 28 29
30 40 60 120 ∞
1
1 2 3 4
Denominador gl2
4.18 4.05 3.93 3.80 3.69
4.29 4.27 4.24 4.22 4.20
4.46 4.42 4.38 4.35 4.32
4.77 4.69 4.62 4.56 4.51
5.46 5.26 5.10 4.97 4.86
8.43 7.26 6.54 6.06 5.71
799.50 39.00 16.04 10.65
2
3.59 3.46 3.34 3.23 3.12
3.69 3.67 3.65 3.63 3.61
3.86 3.82 3.78 3.75 3.72
4.15 4.08 4.01 3.95 3.90
4.83 4.63 4.47 4.35 4.24
7.76 6.60 5.89 5.42 5.08
864.20 39.17 15.44 9.98
3
TABLA 5 Valores críticos de F (continuación).
3.25 3.13 3.01 2.89 2.79
3.35 3.33 3.31 3.29 3.27
3.51 3.48 3.44 3.41 3.38
3.80 3.73 3.66 3.61 3.56
4.47 4.28 4.12 4.00 3.89
7.39 6.23 5.52 5.05 4.72
899.60 39.25 15.10 9.60
4
3.03 2.90 2.79 2.67 2.57
3.13 3.10 3.08 3.06 3.04
3.29 3.25 3.22 3.18 3.15
3.58 3.50 3.44 3.38 3.33
4.24 4.04 3.89 3.77 3.66
7.15 5.99 5.29 4.82 4.48
921.80 39.30 14.88 9.36
5
2.87 2.74 2.63 2.52 2.41
2.97 2.94 2.92 2.90 2.88
3.13 3.09 3.05 3.02 2.99
3.41 3.34 3.28 3.22 3.17
4.07 3.88 3.73 3.60 3.50
6.98 5.82 5.12 4.65 4.32
937.10 39.33 14.73 9.20
6
2.75 2.62 2.51 2.39 2.29
2.85 2.82 2.80 2.78 2.76
3.01 2.97 2.93 2.90 2.87
3.29 3.22 3.16 3.10 3.05
3.95 3.76 3.61 3.48 3.38
6.85 5.70 4.99 4.53 4.20
948.20 39.36 14.62 9.07
7
2.65 2.53 2.41 2.30 2.19
2.75 2.73 2.71 2.69 2.67
2.91 2.87 2.84 2.81 2.78
3.20 3.12 3.06 3.01 2.96
3.85 3.66 3.51 3.39 3.29
6.76 5.60 4.90 4.43 4.10
956.70 39.39 14.54 8.98
8
2.57 2.45 2.33 2.22 2.11
2.68 2.65 2.63 2.61 2.59
2.84 2.80 2.76 2.73 2.70
3.12 3.05 2.98 2.93 2.88
3.78 3.59 3.44 3.31 3.21
6.68 5.52 4.82 4.36 4.03
963.30 39.39 14.47 8.90
9
2.51 2.39 2.27 2.16 2.05
2.61 2.59 2.57 2.55 2.53
2.77 2.73 2.70 2.67 2.64
3.06 2.99 2.92 2.87 2.82
3.72 3.53 3.37 3.25 3.15
6.62 5.46 4.76 4.30 3.96
968.60 39.40 14.42 8.84
10
Numerador, gl1
2.41 2.29 2.17 2.05 1.94
2.51 2.49 2.47 2.45 2.43
2.68 2.64 2.60 2.57 2.54
2.96 2.89 2.82 2.77 2.72
3.62 3.43 3.28 3.15 3.05
6.52 5.37 4.67 4.20 3.87
976.70 39.41 14.34 8.75
12
2.31 2.18 2.06 1.94 1.83
2.41 2.39 2.36 2.34 2.32
2.57 2.53 2.50 2.47 2.44
2.86 2.79 2.72 2.67 2.62
3.52 3.33 3.18 3.05 2.95
6.43 5.27 4.57 4.10 3.77
984.90 39.43 14.25 8.66
15
2.20 2.07 1.94 1.82 1.71
2.30 2.28 2.25 2.23 2.21
2.46 2.42 2.39 2.36 2.33
2.76 2.68 2.62 2.56 2.51
3.42 3.23 3.07 2.95 2.84
6.33 5.17 4.47 4.00 3.67
993.10 39.45 14.17 8.56
20
30
40
60
120
∞
FU(, gl1, gl2)
2.14 2.01 1.88 1.76 1.64
2.24 2.22 2.19 2.17 2.15
2.41 2.37 2.33 2.30 2.27
2.70 2.63 2.56 2.50 2.45
3.37 3.17 3.02 2.89 2.79
6.28 5.12 4.42 3.95 3.61
2.07 1.94 1.82 1.69 1.57
2.18 2.16 2.13 2.11 2.09
2.35 2.31 2.27 2.24 2.21
2.64 2.57 2.50 2.44 2.39
3.31 3.12 2.96 2.84 2.73
6.23 5.07 4.36 3.89 3.56
2.01 1.88 1.74 1.61 1.48
2.12 2.09 2.07 2.05 2.03
2.29 2.25 2.21 2.18 2.15
2.59 2.51 2.44 2.38 2.33
3.26 3.06 2.91 2.78 2.67
6.18 5.01 4.31 3.84 3.51
1.94 1.80 1.67 1.53 1.39
2.05 2.03 2.00 1.98 1.96
2.22 2.18 2.14 2.11 2.08
2.52 2.45 2.38 2.32 2.27
3.20 3.00 2.85 2.72 2.61
6.12 4.96 4.25 3.78 3.45
1.87 1.72 1.58 1.43 1.27
1.98 1.95 1.93 1.91 1.89
2.16 2.11 2.08 2.04 2.01
2.46 2.38 2.32 2.26 2.20
3.14 2.94 2.79 2.66 2.55
6.07 4.90 4.20 3.73 3.39
1.79 1.64 1.48 1.31 1.00 Continúa
1.91 1.88 1.85 1.83 1.81
2.09 2.04 2.00 1.97 1.94
2.40 2.32 2.25 2.19 2.13
3.08 2.88 2.72 2.60 2.49
6.02 4.85 4.14 3.67 3.33
997.20 1,001.00 1,006.00 1,010.00 1,014.00 1,018.00 39.46 39.46 39.47 39.48 39.49 39.50 14.12 14.08 14.04 13.99 13.95 13.90 8.51 8.46 8.41 8.36 8.31 8.26
24
0
= 0.025
16.26 13.75 12.25 11.26 10.56
10.04 9.65 9.33 9.07 8.86
8.68 8.53 8.40 8.29 8.18
8.10 8.02 7.95 7.88 7.82
7.77 7.72 7.68 7.64 7.60
7.56 7.31 7.08 6.85 6.63
5 6 7 8 9
10 11 12 13 14
15 16 17 18 19
20 21 22 23 24
25 26 27 28 29
30 40 60 120 ∞
1
4,052.00 98.50 34.12 21.20
1
2 3 4
Denominador gl2 3
4
5
6
7
8
9
10
Numerador, gl1 12
15
20
24
30
0
40
60
120
∞
FU(, gl1, gl2)
= 0.01
5.39 5.18 4.98 4.79 4.61
5.57 5.53 5.49 5.45 5.42
5.85 5.78 5.72 5.66 5.61
6.36 6.23 6.11 6.01 5.93
7.56 7.21 6.93 6.70 6.51
13.27 10.92 9.55 8.65 8.02
4.51 4.31 4.13 3.95 3.78
4.68 4.64 4.60 4.57 4.54
4.94 4.87 4.82 4.76 4.72
5.42 5.29 5.18 5.09 5.01
6.55 6.22 5.95 5.74 5.56
12.06 9.78 8.45 7.59 6.99
4.02 3.83 3.65 3.48 3.32
4.18 4.14 4.11 4.07 4.04
4.43 4.37 4.31 4.26 4.22
4.89 4.77 4.67 4.58 4.50
5.99 5.67 5.41 5.21 5.04
11.39 9.15 7.85 7.01 6.42
3.70 3.51 3.34 3.17 3.02
3.85 3.82 3.78 3.75 3.73
4.10 4.04 3.99 3.94 3.90
4.56 4.44 4.34 4.25 4.17
5.64 5.32 5.06 4.86 4.69
10.97 8.75 7.46 6.63 6.06
3.47 3.29 3.12 2.96 2.80
3.63 3.59 3.56 3.53 3.50
3.87 3.81 3.76 3.71 3.67
4.32 4.20 4.10 4.01 3.94
5.39 5.07 4.82 4.62 4.46
10.67 8.47 7.19 6.37 5.80
3.30 3.12 2.95 2.79 2.64
3.46 3.42 3.39 3.36 3.33
3.70 3.64 3.59 3.54 3.50
4.14 4.03 3.93 3.84 3.77
5.20 4.89 4.64 4.44 4.28
10.46 8.26 6.99 6.18 5.61
3.17 2.99 2.82 2.66 2.51
3.32 3.29 3.26 3.23 3.20
3.56 3.51 3.45 3.41 3.36
4.00 3.89 3.79 3.71 3.63
5.06 4.74 4.50 4.30 4.14
10.29 8.10 6.84 6.03 5.47
3.07 2.89 2.72 2.56 2.41
3.22 3.18 3.15 3.12 3.09
3.46 3.40 3.35 3.30 3.26
3.89 3.78 3.68 3.60 3.52
4.94 4.63 4.39 4.19 4.03
10.16 7.98 6.72 5.91 5.35
2.98 2.80 2.63 2.47 2.32
3.13 3.09 3.06 3.03 3.00
3.37 3.31 3.26 3.21 3.17
3.80 3.69 3.59 3.51 3.43
4.85 4.54 4.30 4.10 3.94
10.05 7.87 6.62 5.81 5.26
2.84 2.66 2.50 2.34 2.18
2.99 2.96 2.93 2.90 2.87
3.23 3.17 3.12 3.07 3.03
3.67 3.55 3.46 3.37 3.30
4.71 4.40 4.16 3.96 3.80
9.89 7.72 6.47 5.67 5.11
2.70 2.52 2.35 2.19 2.04
2.85 2.81 2.78 2.75 2.73
3.09 3.03 2.98 2.93 2.89
3.52 3.41 3.31 3.23 3.15
4.56 4.25 4.01 3.82 3.66
9.72 7.56 6.31 5.52 4.96
2.55 2.37 2.20 2.03 1.88
2.70 2.66 2.63 2.60 2.57
2.94 2.88 2.83 2.78 2.74
3.37 3.26 3.16 3.08 3.00
4.41 4.10 3.86 3.66 3.51
9.55 7.40 6.16 5.36 4.81
2.47 2.29 2.12 1.95 1.79
2.62 2.58 2.55 2.52 2.49
2.86 2.80 2.75 2.70 2.66
3.29 3.18 3.08 3.00 2.92
4.33 4.02 3.78 3.59 3.43
9.47 7.31 6.07 5.28 4.73
2.39 2.20 2.03 1.86 1.70
2.54 2.50 2.47 2.44 2.41
2.78 2.72 2.67 2.62 2.58
3.21 3.10 3.00 2.92 2.84
4.25 3.94 3.70 3.51 3.35
9.38 7.23 5.99 5.20 4.65
2.30 2.11 1.94 1.76 1.59
2.45 2.42 2.38 2.35 2.33
2.69 2.64 2.58 2.54 2.49
3.13 3.02 2.92 2.84 2.76
4.17 3.86 3.62 3.43 3.27
9.29 7.14 5.91 5.12 4.57
2.21 2.02 1.84 1.66 1.47
2.36 2.33 2.29 2.26 2.23
2.61 2.55 2.50 2.45 2.40
3.05 2.93 2.83 2.75 2.67
4.08 3.78 3.54 3.34 3.18
9.20 7.06 5.82 5.03 4.48
2.11 1.92 1.73 1.53 1.32
2.27 2.23 2.20 2.17 2.14
2.52 2.46 2.40 2.35 2.31
2.96 2.81 2.75 2.66 2.58
4.00 3.69 3.45 3.25 3.09
9.11 6.97 5.74 4.95 4.40
2.01 1.80 1.60 1.38 1.00 Continúa
2.17 2.13 2.10 2.06 2.03
2.42 2.36 2.31 2.26 2.21
2.87 2.75 2.65 2.57 2.49
3.91 3.60 3.36 3.17 3.00
9.02 6.88 5.65 4.86 4.31
4,999.50 5,403.00 5,625.00 5,764.00 5,859.00 5,928.00 5,982.00 6,022.00 6,056.00 6,106.00 6,157.00 6,209.00 6,235.00 6,261.00 6,287.00 6,313.00 6,339.00 6,366.00 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 44.45 99.46 99.47 99.47 99.48 99.49 99.50 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
2
TABLA 5 Valores críticos de F (continuación).
2
3
4
5
6
7
8
9
10
Numerador, gl1 12
15
20
24
30
0
40
60
120
∞
FU(, gl1, gl2)
= 0.005
12.83 12.23 11.75 11.37 11.06
10.80 10.58 10.38 10.22 10.07
9.94 9.83 9.73 9.63 9.55
9.48 9.41 9.34 9.28 9.23
9.18 8.83 8.49 8.18 7.88
10 11 12 13 14
15 16 17 18 19
20 21 22 23 24
25 26 27 28 29
30 40 60 120 ∞
6.35 6.07 5.79 5.54 5.30
6.60 6.54 6.49 6.44 6.40
6.99 6.89 6.81 6.73 6.66
7.70 7.51 7.35 7.21 7.09
9.43 8.91 8.51 8.19 7.92
18.31 14.54 12.40 11.04 10.11
5.24 4.98 4.73 4.50 4.28
5.46 5.41 5.36 5.32 5.28
5.82 5.73 5.65 5.58 5.52
6.48 6.30 6.16 6.03 5.92
8.08 7.60 7.23 6.93 6.68
16.53 12.92 10.88 9.60 8.72
4.62 4.37 4.14 3.92 3.72
4.84 4.79 4.74 4.70 4.66
5.17 5.09 5.02 4.95 4.89
5.80 5.64 5.50 5.37 5.27
7.34 6.88 6.52 6.23 6.00
15.56 12.03 10.05 8.81 7.96
4.23 3.99 3.76 3.55 3.35
4.43 4.38 4.34 4.30 4.26
4.76 4.68 4.61 4.54 4.49
5.37 5.21 5.07 4.96 4.85
6.87 6.42 6.07 5.79 5.56
14.94 11.46 9.52 8.30 7.47
3.95 3.71 3.49 3.28 3.09
4.15 4.10 4.06 4.02 3.98
4.47 4.39 4.32 4.26 4.20
5.07 4.91 4.78 4.66 4.56
6.54 6.10 5.76 5.48 5.26
14.51 11.07 9.16 7.95 7.13
3.74 3.51 3.29 3.09 2.90
3.94 3.89 3.85 3.81 3.77
4.26 4.18 4.11 4.05 3.99
4.85 4.69 4.56 4.44 4.34
6.30 5.86 5.52 5.25 5.03
14.20 10.79 8.89 7.69 6.88
3.58 3.35 3.13 2.93 2.74
3.78 3.73 3.69 3.65 3.61
4.09 4.02 3.94 3.88 3.83
4.67 4.52 4.39 4.28 4.18
6.12 5.68 5.35 5.08 4.86
13.96 10.57 8.68 7.50 6.69
3.45 3.22 3.01 2.81 2.62
3.64 3.60 3.56 3.52 3.48
3.96 3.88 3.81 3.75 3.69
4.54 4.38 4.25 4.14 4.04
5.97 5.54 5.20 4.94 4.72
13.77 10.39 8.51 7.34 6.54
3.34 3.12 2.90 2.71 2.52
3.54 3.49 3.45 3.41 3.38
3.85 3.77 3.70 3.64 3.59
4.42 4.27 4.14 4.03 3.93
5.85 5.42 5.09 4.82 4.60
13.62 10.25 8.38 7.21 6.42
3.18 2.95 2.74 2.54 2.36
3.37 3.33 3.28 3.25 3.21
3.68 3.60 3.54 3.47 3.42
4.25 4.10 3.97 3.86 3.76
5.66 5.24 4.91 4.64 4.43
13.38 10.03 8.18 7.01 6.23
3.01 2.78 2.57 2.37 2.19
3.20 3.15 3.11 3.07 3.04
3.50 3.43 3.36 3.30 3.25
4.07 3.92 3.79 3.68 3.59
5.47 5.05 4.72 4.46 4.25
13.15 9.81 7.97 6.81 6.03
2.82 2.60 2.39 2.19 2.00
3.01 2.97 2.93 2.89 2.86
3.32 3.24 3.18 3.12 3.06
3.88 3.73 3.61 3.50 3.40
5.27 4.86 4.53 4.27 4.06
12.90 9.59 7.75 6.61 5.83
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, eds., Biometrika Tables for Statisticians, 3a. ed., 1966, con permiso de Biometrika Trustees.
22.78 18.63 16.24 14.69 13.61
2.73 2.50 2.29 2.09 1.90
2.92 2.87 2.83 2.79 2.76
3.22 3.15 3.08 3.02 2.97
3.79 3.64 3.51 3.40 3.31
5.17 4.75 4.43 4.17 3.96
12.78 9.47 7.65 6.50 5.73
2.63 2.40 2.19 1.98 1.79
2.82 2.77 2.73 2.69 2.66
3.12 3.05 2.98 2.92 2.87
3.69 3.54 3.41 3.30 3.21
5.07 4.65 4.33 4.07 3.86
12.66 9.36 7.53 6.40 5.62
2.52 2.30 2.08 1.87 1.67
2.72 2.67 2.63 2.59 2.56
3.02 2.95 2.88 2.82 2.77
3.58 3.44 3.31 3.20 3.11
4.97 4.55 4.23 3.97 3.76
12.53 9.24 7.42 6.29 5.52
2.42 2.18 1.96 1.75 1.53
2.61 2.56 2.52 2.48 2.45
2.92 2.84 2.77 2.71 2.66
3.48 3.33 3.21 3.10 3.00
4.86 4.44 4.12 3.87 3.66
12.40 9.12 7.31 6.18 5.41
2.30 2.06 1.83 1.61 1.36
2.50 2.45 2.41 2.37 2.33
2.81 2.73 2.66 2.60 2.55
3.37 3.22 3.10 2.89 2.89
4.75 4.34 4.01 3.76 3.55
12.27 9.00 7.19 6.06 5.30
2.18 1.93 1.69 1.43 1.00
2.38 2.33 2.29 2.25 2.21
2.69 2.61 2.55 2.48 2.43
3.26 3.11 2.98 2.87 2.78
1.61 4.23 3.90 3.65 3.41
12.11 8.88 7.08 5.95 5.19
16,211.00 20,000.00 21,615.00 22,500.00 23,056.00 23,437.00 23,715.00 23,925.00 24,091.00 24,224.00 24,426.00 24,630.00 24,836.00 24,910.00 25,044.00 25,148.00 25,253.00 25,359.00 25,465.00 198.50 199.00 199.20 199.20 199.30 199.30 199.40 199.40 199.40 199.40 199.40 199.40 199.40 199.50 199.50 199.50 199.50 199.50 199.50 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88 43.69 43.39 43.08 42.78 42.62 42.47 42.31 42.15 41.99 41.83 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14 20.97 20.70 20.44 20.17 20.03 19.89 19.75 19.61 19.47 19.32
1
5 6 7 8 9
1 2 3 4
Denominador gl2
TABLA 5 Valores críticos de F (continuación).
TABLA 6 TABLA DE PROBABILIDADES BINOMIALES (INICIA EN LA SIGUIENTE PÁGINA)
0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 6
2
6
5
4
3
X
n
0.9801 0.0198 0.0001 0.9703 0.0294 0.0003 0.0000 0.9606 0.0388 0.0006 0.0000 — 0.9510 0.0480 0.0010 0.0000 — — 0.9415 0.0571 0.0014 0.0000 — — —
0.01
0.9604 0.0392 0.0004 0.9412 0.0576 0.0012 0.0000 0.9224 0.0753 0.0023 0.0000 — 0.9039 0.0922 0.0038 0.0001 0.0000 — 0.8858 0.1085 0.0055 0.0002 0.0000 — —
0.02
0.9409 0.0582 0.0009 0.9127 0.0847 0.0026 0.0000 0.8853 0.1095 0.0051 0.0001 0.0000 0.8587 0.1328 0.0082 0.0003 0.0000 — 0.8330 0.1546 0.0120 0.0005 0.0000 — —
0.03 0.9216 0.0768 0.0016 0.8847 0.1106 0.0046 0.0001 0.8493 0.1416 0.0088 0.0002 0.0000 0.8154 0.1699 0.0142 0.0006 0.0000 — 0.7828 0.1957 0.0204 0.0011 0.0000 — —
0.04 0.9025 0.0950 0.0025 0.8574 0.1354 0.0071 0.0001 0.8145 0.1715 0.0135 0.0005 0.0000 0.7738 0.2036 0.0214 0.0011 0.0000 — 0.7351 0.2321 0.0305 0.0021 0.0001 0.0000 —
0.05 0.8836 0.1128 0.0036 0.8306 0.1590 0.0102 0.0002 0.7807 0.1993 0.0191 0.0008 0.0000 0.7339 0.2342 0.0299 0.0019 0.0001 0.0000 0.6899 0.2642 0.0422 0.0036 0.0002 0.0000 —
0.06 0.8649 0.1302 0.0049 0.8044 0.1816 0.0137 0.0003 0.7481 0.2252 0.0254 0.0013 0.0000 0.6957 0.2618 0.0394 0.0030 0.0001 0.0000 0.6470 0.2922 0.0550 0.0055 0.0003 0.0000 —
0.07 0.8464 0.1472 0.0064 0.7787 0.2031 0.0177 0.0005 0.7164 0.2492 0.0325 0.0019 0.0000 0.6591 0.2866 0.0498 0.0043 0.0002 0.0000 0.6064 0.3164 0.0688 0.0080 0.0005 0.0000 —
0.08 0.8281 0.1638 0.0081 0.7536 0.2236 0.0221 0.0007 0.6857 0.2713 0.0402 0.0027 0.0001 0.6240 0.3086 0.0610 0.0060 0.0003 0.0000 0.5679 0.3370 0.0833 0.0110 0.0008 0.0000 —
0.09
p
0.8100 0.1800 0.0100 0.7290 0.2430 0.0270 0.0010 0.6561 0.2916 0.0486 0.0036 0.0001 0.5905 0.3280 0.0729 0.0081 0.0004 0.0000 0.5314 0.3543 0.0984 0.0146 0.0012 0.0001 0.0000
0.10 0.7225 0.2550 0.0225 0.6141 0.3251 0.0574 0.0034 0.5220 0.3685 0.0975 0.0115 0.0005 0.4437 0.3915 0.1382 0.0244 0.0022 0.0001 0.3771 0.3993 0.1762 0.0415 0.0055 0.0004 0.0000
0.15 0.6400 0.3200 0.0400 0.5120 0.3840 0.0960 0.0080 0.4096 0.4096 0.1536 0.0256 0.0016 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003 0.2621 0.3932 0.2458 0.0819 0.0154 0.0015 0.0001
0.20
0.5625 0.3750 0.0625 0.4219 0.4219 0.1406 0.0156 0.3164 0.4219 0.2109 0.0469 0.0039 0.2373 0.3955 0.2637 0.0879 0.0146 0.0010 0.1780 0.3560 0.2966 0.1318 0.0330 0.0044 0.0002
0.25
0.4900 0.4200 0.0900 0.3430 0.4410 0.1890 0.0270 0.2401 0.4116 0.2646 0.0756 0.0081 0.1681 0.3601 0.3087 0.1323 0.0283 0.0024 0.1176 0.3025 0.3241 0.1852 0.0595 0.0102 0.0007
0.30
0.4225 0.4550 0.1225 0.2746 0.4436 0.2389 0.0429 0.1785 0.3845 0.3105 0.1115 0.0150 0.1160 0.3124 0.3364 0.1811 0.0488 0.0053 0.0754 0.2437 0.3280 0.2355 0.0951 0.0205 0.0018
0.35
0.3600 0.4800 0.1600 0.2160 0.4320 0.2880 0.0640 0.1296 0.3456 0.3456 0.1536 0.0256 0.0778 0.2592 0.3456 0.2304 0.0768 0.0102 0.0467 0.1866 0.3110 0.2765 0.1372 0.0369 0.0041
0.40
0.3025 0.4950 0.2025 0.1664 0.4084 0.3341 0.0911 0.0915 0.2995 0.3675 0.2005 0.0410 0.0503 0.2059 0.3369 0.2757 0.1128 0.0185 0.0277 0.1359 0.2780 0.3032 0.1861 0.0609 0.0083
0.45
0.2500 0.5000 0.2500 0.1250 0.3750 0.3750 0.1250 0.0625 0.2500 0.3750 0.2500 0.0625 0.0312 0.1562 0.3125 0.3125 0.1562 0.0312 0.0156 0.0937 0.2344 0.3125 0.2344 0.0937 0.0156
0.50
2 1 0 3 2 1 0 4 3 2 1 0 5 4 3 2 1 0 6 5 4 3 2 1 0
X
6
5
4
3
2
n
Para una combinación dada de n y p, la entrada indica la probabilidad de un valor específico de X. Para localizar la entrada: cuando p .50, lea p a lo largo del encabezado superior y tanto n como X hacia abajo del margen izquierdo; cuando p .50, lea p a lo largo del encabezado inferior y tanto n como X hacia arriba en el margen izquierdo.
TABLA 6 Tabla de probabilidades binomiales.
X
n
n
10
9
8
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10
7
0.99
0.9321 0.0659 0.0020 0.0000 — — — — 0.9227 0.0746 0.0026 0.0001 0.0000 — — — — 0.9135 0.0830 0.0034 0.0001 0.0000 — — — — — 0.9044 0.0914 0.0042 0.0001 0.0000 — — — — — —
0.98
0.8681 0.1240 0.0076 0.0003 0.0000 — — — 0.8508 0.1389 0.0099 0.0004 0.0000 — — — — 0.8337 0.1531 0.0125 0.0006 0.0000 — — — — — 0.8171 0.1667 0.0153 0.0008 0.0000 — — — — — —
0.97
0.8080 0.1749 0.0162 0.0008 0.0000 — — — 0.7837 0.1939 0.0210 0.0013 0.0001 0.0000 — — — 0.7602 0.2116 0.0262 0.0019 0.0001 0.0000 — — — — 0.7374 0.2281 0.0317 0.0026 0.0001 0.0000 — — — — — 0.96
0.7514 0.2192 0.0274 0.0019 0.0001 0.0000 — — 0.7214 0.2405 0.0351 0.0029 0.0002 0.0000 — — — 0.6925 0.2597 0.0433 0.0042 0.0003 0.0000 — — — — 0.6648 0.2770 0.0519 0.0058 0.0004 0.0000 — — — — — 0.95
0.6983 0.2573 0.0406 0.0036 0.0002 0.0000 — — 0.6634 0.2793 0.0515 0.0054 0.0004 0.0000 — — — 0.6302 0.2985 0.0629 0.0077 0.0006 0.0000 — — — — 0.5987 0.3151 0.0746 0.0105 0.0010 0.0001 0.0000 — — — — 0.94
0.6485 0.2897 0.0555 0.0059 0.0004 0.0000 — — 0.6096 0.3113 0.0695 0.0089 0.0007 0.0000 — — — 0.5730 0.3292 0.0840 0.0125 0.0012 0.0001 0.0000 — — — 0.5386 0.3438 0.0988 0.0168 0.0019 0.0001 0.0000 — — — — 0.93
0.6017 0.3170 0.0716 0.0090 0.0007 0.0000 — — 0.5596 0.3370 0.0888 0.0134 0.0013 0.0001 0.0000 — — 0.5204 0.3525 0.1061 0.0186 0.0021 0.0002 0.0000 — — — 0.4840 0.3643 0.1234 0.0248 0.0033 0.0003 0.0000 — — — — 0.92
0.5578 0.3396 0.0886 0.0128 0.0011 0.0001 0.0000 — 0.5132 0.3570 0.1087 0.0189 0.0021 0.0001 0.0000 — — 0.4722 0.3695 0.1285 0.0261 0.0034 0.0003 0.0000 — — — 0.4344 0.3777 0.1478 0.0343 0.0052 0.0005 0.0000 — — — — 0.91
0.5168 0.3578 0.1061 0.0175 0.0017 0.0001 0.0000 — 0.4703 0.3721 0.1288 0.0255 0.0031 0.0002 0.0000 — — 0.4279 0.3809 0.1507 0.0348 0.0052 0.0005 0.0000 — — — 0.3894 0.3851 0.1714 0.0452 0.0078 0.0009 0.0001 0.0000 — — — 0.90
0.4783 0.3720 0.1240 0.0230 0.0026 0.0002 0.0000 — 0.4305 0.3826 0.1488 0.0331 0.0046 0.0004 0.0000 — — 0.3874 0.3874 0.1722 0.0446 0.0074 0.0008 0.0001 0.0000 — — 0.3487 0.3874 0.1937 0.0574 0.0112 0.0015 0.0001 0.0000 — — — 0.85
0.3206 0.3960 0.2097 0.0617 0.0109 0.0012 0.0001 0.0000 0.2725 0.3847 0.2376 0.0839 0.0185 0.0026 0.0002 0.0000 — 0.2316 0.3679 0.2597 0.1069 0.0283 0.0050 0.0006 0.0000 — — 0.1969 0.3474 0.2759 0.1298 0.0401 0.0085 0.0012 0.0001 0.0000 — — 0.80
0.2097 0.3670 0.2753 0.1147 0.0287 0.0043 0.0004 0.0000 0.1678 0.3355 0.2936 0.1468 0.0459 0.0092 0.0011 0.0001 0.0000 0.1342 0.3020 0.3020 0.1762 0.0661 0.0165 0.0028 0.0003 0.0000 — 0.1074 0.2684 0.3020 0.2013 0.0881 0.0264 0.0055 0.0008 0.0001 0.0000 — 0.75
0.1335 0.3115 0.3115 0.1730 0.0577 0.0115 0.0013 0.0001 0.1001 0.2670 0.3115 0.2076 0.0865 0.0231 0.0038 0.0004 0.0000 0.0751 0.2253 0.3003 0.2336 0.1168 0.0390 0.0087 0.0012 0.0001 0.0000 0.0563 0.1877 0.2816 0.2503 0.1460 0.0584 0.0162 0.0031 0.0004 0.0000 — 0.70
0.0824 0.2471 0.3177 0.2269 0.0972 0.0250 0.0036 0.0002 0.0576 0.1977 0.2965 0.2541 0.1361 0.0467 0.0100 0.0012 0.0001 0.0404 0.1556 0.2668 0.2668 0.1715 0.0735 0.0210 0.0039 0.0004 0.0000 0.0282 0.1211 0.2335 0.2668 0.2001 0.1029 0.0368 0.0090 0.0014 0.0001 0.0000 0.65
0.0490 0.1848 0.2985 0.2679 0.1442 0.0466 0.0084 0.0006 0.0319 0.1373 0.2587 0.2786 0.1875 0.0808 0.0217 0.0033 0.0002 0.0207 0.1004 0.2162 0.2716 0.2194 0.1181 0.0424 0.0098 0.0013 0.0001 0.0135 0.0725 0.1757 0.2522 0.2377 0.1536 0.0689 0.0212 0.0043 0.0005 0.0000 0.60
0.0280 0.1306 0.2613 0.2903 0.1935 0.0774 0.0172 0.0016 0.0168 0.0896 0.2090 0.2787 0.2322 0.1239 0.0413 0.0079 0.0007 0.0101 0.0605 0.1612 0.2508 0.2508 0.1672 0.0743 0.0212 0.0035 0.0003 0.0060 0.0403 0.1209 0.2150 0.2508 0.2007 0.1115 0.0425 0.0106 0.0016 0.0001 0.55
0.0152 0.0872 0.2140 0.2918 0.2388 0.1172 0.0320 0.0037 0.0084 0.0548 0.1569 0.2568 0.2627 0.1719 0.0703 0.0164 0.0017 0.0046 0.0339 0.1110 0.2119 0.2600 0.2128 0.1160 0.0407 0.0083 0.0008 0.0025 0.0207 0.0763 0.1665 0.2384 0.2340 0.1596 0.0746 0.0229 0.0042 0.0003 0.50
0.0078 0.0547 0.1641 0.2734 0.2734 0.1641 0.0547 0.0078 0.0039 0.0312 0.1094 0.2187 0.2734 0.2187 0.1094 0.0312 0.0039 0.0020 0.0176 0.0703 0.1641 0.2461 0.2461 0.1641 0.0703 0.0176 0.0020 0.0010 0.0098 0.0439 0.1172 0.2051 0.2461 0.2051 0.1172 0.0439 0.0098 0.0010
10
9
8
7
Continúa
X
7 6 5 4 3 2 1 0 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 10 9 8 7 6 5 4 3 2 1 0
X
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
n
20
n
0.99
0.8179 0.1652 0.0159 0.0010 0.0000 — — — — — — — — — — — — — — — —
0.01
0.98
0.6676 0.2725 0.0528 0.0065 0.0006 0.0000 — — — — — — — — — — — — — — —
0.02
0.97
0.5438 0.3364 0.0988 0.0183 0.0024 0.0002 0.0000 — — — — — — — — — — — — — —
0.03
0.96
0.4420 0.3683 0.1458 0.0364 0.0065 0.0009 0.0001 0.0000 — — — — — — — — — — — — —
0.04
0.95
0.3585 0.3774 0.1887 0.0596 0.0133 0.0022 0.0003 0.0000 — — — — — — — — — — — — —
0.05
0.94
0.2901 0.3703 0.2246 0.0860 0.0233 0.0048 0.0008 0.0001 0.0000 — — — — — — — — — — — —
0.06
TABLA 6 Tabla de probabilidades binomiales (continuación).
0.93
0.2342 0.3526 0.2521 0.1139 0.0364 0.0088 0.0017 0.0002 0.0000 — — — — — — — — — — — —
0.07
0.92
0.1887 0.3282 0.2711 0.1414 0.0523 0.0145 0.0032 0.0005 0.0001 0.0000 — — — — — — — — — — —
0.08
0.91
0.1516 0.3000 0.2818 0.1672 0.0703 0.0222 0.0055 0.0011 0.0002 0.0000 — — — — — — — — — — —
0.09
p
0.90
0.1216 0.2702 0.2852 0.1901 0.0898 0.0319 0.0089 0.0020 0.0004 0.0001 0.0000 — — — — — — — — — —
0.10
0.85
0.0388 0.1368 0.2293 0.2428 0.1821 0.1028 0.0454 0.0160 0.0046 0.0011 0.0002 0.0000 — — — — — — — — —
0.15
0.80
0.0115 0.0576 0.1369 0.2054 0.2182 0.1746 0.1091 0.0545 0.0222 0.0074 0.0020 0.0005 0.0001 0.0000 — — — — — — —
0.20
0.75
0.0032 0.0211 0.0699 0.1339 0.1897 0.2023 0.1686 0.1124 0.0609 0.0271 0.0099 0.0030 0.0008 0.0002 0.0000 — — — — — —
0.25
0.70
0.0008 0.0068 0.0278 0.0716 0.1304 0.1789 0.1916 0.1643 0.1144 0.0654 0.0308 0.0120 0.0039 0.0010 0.0002 0.0000 — — — — —
0.30
0.65
0.0002 0.0020 0.0100 0.0323 0.0738 0.1272 0.1712 0.1844 0.1614 0.1158 0.0686 0.0336 0.0136 0.0045 0.0012 0.0003 0.0000 — — — —
0.35
0.60
0.0000 0.0005 0.0031 0.0123 0.0350 0.0746 0.1244 0.1659 0.1797 0.1597 0.1171 0.0710 0.0355 0.0146 0.0049 0.0013 0.0003 0.0000 — — —
0.40
0.55
0.0000 0.0001 0.0008 0.0040 0.0139 0.0365 0.0746 0.1221 0.1623 0.1771 0.1593 0.1185 0.0727 0.0366 0.0150 0.0049 0.0013 0.0002 0.0000 — —
0.45
0.50
— 0.0000 0.0002 0.0011 0.0046 0.0148 0.0370 0.0739 0.1201 0.1602 0.1762 0.1602 0.1201 0.0739 0.0370 0.0148 0.0046 0.0011 0.0002 0.0000 —
0.50
X
20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
X
n
20
n
Tablas
TABLA 7 Tabla de probabilidades de Poisson. Para cada valor dado de , la entrada indica la probabilidad de un valor específico de X.
723
λ X
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0 1 2 3 4 5 6 7
0.9048 0.0905 0.0045 0.0002 0.0000 0.0000 0.0000 0.0000
0.8187 0.1637 0.0164 0.0011 0.0001 0.0000 0.0000 0.0000
0.7408 0.2222 0.0333 0.0033 0.0003 0.0000 0.0000 0.0000
0.6703 0.2681 0.0536 0.0072 0.0007 0.0001 0.0000 0.0000
0.6065 0.3033 0.0758 0.0126 0.0016 0.0002 0.0000 0.0000
0.5488 0.3293 0.0988 0.0198 0.0030 0.0004 0.0000 0.0000
0.4966 0.3476 0.1217 0.0284 0.0050 0.0007 0.0001 0.0000
0.4493 0.3595 0.1438 0.0383 0.0077 0.0012 0.0002 0.0000
0.4066 0.3659 0.1647 0.0494 0.0111 0.0020 0.0003 0.0000
0.3679 0.3679 0.1839 0.0613 0.0153 0.0031 0.0005 0.0001
λ X
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
0 1 2 3 4 5 6 7 8 9
0.3329 0.3662 0.2014 0.0738 0.0203 0.0045 0.0008 0.0001 0.0000 0.0000
0.3012 0.3614 0.2169 0.0867 0.0260 0.0062 0.0012 0.0002 0.0000 0.0000
0.2725 0.3543 0.2303 0.0998 0.0324 0.0084 0.0018 0.0003 0.0001 0.0000
0.2466 0.3452 0.2417 0.1128 0.0395 0.0111 0.0026 0.0005 0.0001 0.0000
0.2231 0.3347 0.2510 0.1255 0.0471 0.0141 0.0035 0.0008 0.0001 0.0000
0.2019 0.3230 0.2584 0.1378 0.0551 0.0176 0.0047 0.0011 0.0002 0.0000
0.1827 0.3106 0.2640 0.1496 0.636 0.0216 0.0061 0.0015 0.0003 0.0001
0.1653 0.2975 0.2678 0.1607 0.0723 0.0260 0.0078 0.0020 0.0005 0.0001
0.1496 0.2842 0.2700 0.1710 0.0812 0.0309 0.0098 0.0027 0.0006 0.0001
0.1353 0.2707 0.2707 0.1804 0.0902 0.0361 0.0120 0.0034 0.0009 0.0002
λ X
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0 1 2 3 4 5 6 7 8 9 10 11 12
0.1225 0.2572 0.2700 0.1890 0.0992 0.0417 0.0146 0.0044 0.0011 0.0003 0.0001 0.0000 0.0000
0.1108 0.2438 0.2681 0.1966 0.1082 0.0476 0.0174 0.0055 0.0015 0.0004 0.0001 0.0000 0.0000
0.1003 0.2306 0.2652 0.2033 0.1169 0.0538 0.0206 0.0068 0.0019 0.0005 0.0001 0.0000 0.0000
0.0907 0.2177 0.2613 0.2090 0.1254 0.0602 0.0241 0.0083 0.0025 0.0007 0.0002 0.0000 0.0000
0.0821 0.2052 0.2565 0.2138 0.1336 0.0668 0.0278 0.0099 0.0031 0.0009 0.0002 0.0000 0.0000
0.0743 0.1931 0.2510 0.2176 0.1414 0.0735 0.0319 0.0118 0.0038 0.0011 0.0003 0.0001 0.0000
0.0672 0.1815 0.2450 0.2205 0.1488 0.0804 0.0362 0.0139 0.0047 0.0014 0.0004 0.0001 0.0000
0.0608 0.1703 0.2384 0.2225 0.1557 0.0872 0.0407 0.0163 0.0057 0.0018 0.0005 0.0001 0.0000
0.0550 0.1596 0.2314 0.2237 0.1622 0.0940 0.0455 0.0188 0.0068 0.0022 0.0006 0.0002 0.0000
0.0498 0.1494 0.2240 0.2240 0.1680 0.1008 0.0504 0.0216 0.0081 0.0027 0.0008 0.0002 0.0001
λ X
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
0.0450 0.1397 0.2165 0.2237 0.1734 0.1075 0.0555 0.0246 0.0095 0.0033 0.0010 0.0003 0.0001 0.0000 0.0000
0.0408 0.1340 0.2087 0.2226 0.1781 0.1140 0.0608 0.0278 0.0111 0.0040 0.0013 0.0004 0.0001 0.0000 0.0000
0.0369 0.1217 0.2008 0.2209 0.1823 0.1203 0.0662 0.0312 0.0129 0.0047 0.0016 0.0005 0.0001 0.0000 0.0000
0.0334 0.1135 0.1929 0.2186 0.1858 0.1264 0.0716 0.0348 0.0148 0.0056 0.0019 0.0006 0.0002 0.0000 0.0000
0.0302 0.1057 0.1850 0.2158 0.1888 0.1322 0.0771 0.0385 0.0169 0.0066 0.0023 0.0007 0.0002 0.0001 0.0000
0.0273 0.0984 0.1771 0.2125 0.1912 0.1377 0.0826 0.0425 0.0191 0.0076 0.0028 0.0009 0.0003 0.0001 0.0000
0.0247 0.0915 0.1692 0.2087 0.1931 0.1429 0.0881 0.0466 0.0215 0.0089 0.0033 0.0011 0.0003 0.0001 0.0000
0.0224 0.0850 0.1615 0.2046 0.1944 0.1477 0.0936 0.0508 0.0241 0.0102 0.0039 0.0013 0.0004 0.0001 0.0000
0.0202 0.0789 0.1539 0.2001 0.1951 0.1522 0.0989 0.0551 0.0269 0.0116 0.0045 0.0016 0.0005 0.0002 0.0000
0.0183 0.0733 0.1465 0.1954 0.1954 0.1563 0.1042 0.0595 0.0298 0.0132 0.0053 0.0019 0.0006 0.0002 0.0001 Continúa
724
APÉNDICES
TABLA 7 Tabla de probabilidades de Poisson (continuación).
λ X
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
5.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0.0166 0.0679 0.1393 0.1904 0.1951 0.1600 0.1093 0.0640 0.0328 0.0150 0.0061 0.0023 0.0008 0.0002 0.0001 0.0000
0.0150 0.0630 0.1323 0.1852 0.1944 0.1633 0.1143 0.0686 0.0360 0.0168 0.0071 0.0027 0.0009 0.0003 0.0001 0.0000
0.0136 0.0583 0.1254 0.1798 0.1933 0.1662 0.1191 0.0732 0.0393 0.0188 0.0081 0.0032 0.0011 0.0004 0.0001 0.0000
0.0123 0.0540 0.1188 0.1743 0.1917 0.1687 0.1237 0.0778 0.0428 0.0209 0.0092 0.0037 0.0014 0.0005 0.0001 0.0000
0.0111 0.0500 0.1125 0.1687 0.1898 0.1708 0.1281 0.0824 0.0463 0.0232 0.0104 0.0043 0.0016 0.0006 0.0002 0.0001
0.0101 0.0462 0.1063 0.1631 0.1875 0.1725 0.1323 0.0869 0.0500 0.0255 0.0118 0.0049 0.0019 0.0007 0.0002 0.0001
0.0091 0.0427 0.1005 0.1574 0.1849 0.1738 0.1362 0.0914 0.0537 0.0280 0.0132 0.0056 0.0022 0.0008 0.0003 0.0001
0.0082 0.0395 0.0948 0.1517 0.1820 0.1747 0.1398 0.0959 0.0575 0.0307 0.0147 0.0064 0.0026 0.0009 0.0003 0.0001
0.0074 0.0365 0.0894 0.1460 0.1789 0.1753 0.1432 0.1002 0.0614 0.0334 0.0164 0.0073 0.0030 0.0011 0.0004 0.0001
0.0067 0.0337 0.0842 0.1404 0.1755 0.1755 0.1462 0.1044 0.0653 0.0363 0.0181 0.0082 0.0034 0.0013 0.0005 0.0002
λ X
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
6.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
0.0061 0.0311 0.0793 0.1348 0.1719 0.1753 0.1490 0.1086 0.0692 0.0392 0.0200 0.0093 0.0039 0.0015 0.0006 0.0002 0.0001 0.0000
0.0055 0.0287 0.0746 0.1293 0.1681 0.1748 0.1515 0.1125 0.0731 0.0423 0.0220 0.0104 0.0045 0.0018 0.0007 0.0002 0.0001 0.0000
0.0050 0.0265 0.0701 0.1239 0.1641 0.1740 0.1537 0.1163 0.0771 0.0454 0.0241 0.0116 0.0051 0.0021 0.0008 0.0003 0.0001 0.0000
0.0045 0.0244 0.0659 0.1185 0.1600 0.1728 0.1555 0.1200 0.0810 0.0486 0.0262 0.0129 0.0058 0.0024 0.0009 0.0003 0.0001 0.0000
0.0041 0.0225 0.0618 0.1133 0.1558 0.1714 0.1571 0.1234 0.0849 0.0519 0.0285 0.0143 0.0065 0.0028 0.0011 0.0004 0.0001 0.0000
0.0037 0.0207 0.0580 0.1082 0.1515 0.1697 0.1584 0.1267 0.0887 0.0552 0.0309 0.0157 0.0073 0.0032 0.0013 0.0005 0.0002 0.0000
0.0033 0.0191 0.0544 0.1033 0.1472 0.1678 0.1594 0.1298 0.0925 0.0586 0.0334 0.0173 0.0082 0.0036 0.0015 0.0006 0.0002 0.0001
0.0030 0.0176 0.0509 0.0985 0.1428 0.1656 0.1601 0.1326 0.0962 0.0620 0.0359 0.0190 0.0092 0.0041 0.0017 0.0007 0.0002 0.0001
0.0027 0.0162 0.0477 0.0938 0.1383 0.1632 0.1605 0.1353 0.0998 0.0654 0.0386 0.0207 0.0102 0.0046 0.0019 0.0008 0.0003 0.0001
0.0025 0.0149 0.0446 0.0892 0.1339 0.1606 0.1606 0.1377 0.1033 0.0688 0.0413 0.0225 0.0113 0.0052 0.0022 0.0009 0.0003 0.0001
λ X
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
7.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
0.0022 0.0137 0.0417 0.0848 0.1294 0.1579 0.1605 0.1399 0.1066 0.0723 0.0441 0.0245 0.0124 0.0058 0.0025
0.0020 0.0126 0.0390 0.0806 0.1249 0.1549 0.1601 0.1418 0.1099 0.0757 0.0469 0.0265 0.0137 0.0065 0.0029
0.0018 0.0116 0.0364 0.0765 0.1205 0.1519 0.1595 0.1435 0.1130 0.0791 0.0498 0.0285 0.0150 0.0073 0.0033
0.0017 0.0106 0.0340 0.0726 0.1162 0.1487 0.1586 0.1450 0.1160 0.0825 0.0528 0.0307 0.0164 0.0081 0.0037
0.0015 0.0098 0.0318 0.0688 0.1118 0.1454 0.1575 0.1462 0.1188 0.0858 0.0558 0.0330 0.0179 0.0089 0.0041
0.0014 0.0090 0.0296 0.0652 0.1076 0.1420 0.1562 0.1472 0.1215 0.0891 0.0588 0.0353 0.0194 0.0098 0.0046
0.0012 0.0082 0.0276 0.0617 0.1034 0.1385 0.1546 0.1480 0.1240 0.0923 0.0618 0.0377 0.0210 0.0108 0.0052
0.0011 0.0076 0.0258 0.0584 0.0992 0.1349 0.1529 0.1486 0.1263 0.0954 0.0649 0.0401 0.0277 0.0119 0.0058
0.0010 0.0070 0.0240 0.0552 0.0952 0.1314 0.1511 0.1489 0.1284 0.0985 0.0679 0.0426 0.0245 0.0130 0.0064
0.0009 0.0064 0.0223 0.0521 0.0912 0.1277 0.1490 0.1490 0.1304 0.1014 0.0710 0.0452 0.0264 0.0142 0.0071
Continúa
Tablas
TABLA 7 Tabla de probabilidades de Poisson (continuación).
725
λ X
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
7.0
15 16 17 18 19
0.0010 0.0004 0.0001 0.0000 0.0000
0.0012 0.0005 0.0002 0.0001 0.0000
0.0014 0.0005 0.0002 0.0001 0.0000
0.0016 0.0006 0.0002 0.0001 0.0000
0.0018 0.0007 0.0003 0.0001 0.0000
0.0020 0.0008 0.0003 0.0001 0.0000
0.0023 0.0010 0.0004 0.0001 0.0000
0.0026 0.0011 0.0004 0.0002 0.0001
0.0029 0.0013 0.0005 0.0002 0.0001
0.0033 0.0014 0.0006 0.0002 0.0001
λ X
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
8.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
0.0008 0.0059 0.0208 0.0492 0.0874 0.1241 0.1468 0.1489 0.1321 0.1042 0.0740 0.0478 0.0283 0.0154 0.0078 0.0037 0.0016 0.0007 0.0003 0.0001 0.0000 0.0000
0.0007 0.0054 0.0194 0.0464 0.0836 0.1204 0.1445 0.1486 0.1337 0.1070 0.0770 0.0504 0.0303 0.0168 0.0086 0.0041 0.0019 0.0008 0.0003 0.0001 0.0000 0.0000
0.0007 0.0049 0.0180 0.0438 0.0799 0.1167 0.1420 0.1481 0.1351 0.1096 0.0800 0.0531 0.0323 0.0181 0.0095 0.0046 0.0021 0.0009 0.0004 0.0001 0.0001 0.0000
0.0006 0.0045 0.0167 0.0413 0.0764 0.1130 0.1394 0.1474 0.1363 0.1121 0.0829 0.0558 0.0344 0.0196 0.0104 0.0051 0.0024 0.0010 0.0004 0.0002 0.0001 0.0000
0.0006 0.0041 0.0156 0.0389 0.0729 0.1094 0.1367 0.1465 0.1373 0.1144 0.0858 0.0585 0.0366 0.0211 0.0113 0.0057 0.0026 0.0012 0.0005 0.0002 0.0001 0.0000
0.0005 0.0038 0.0145 0.0366 0.0696 0.1057 0.1339 0.1454 0.1382 0.1167 0.0887 0.0613 0.0388 0.0227 0.0123 0.0062 0.0030 0.0013 0.0006 0.0002 0.0001 0.0000
0.0005 0.0035 0.0134 0.0345 0.0663 0.1021 0.1311 0.1442 0.1388 0.1187 0.0914 0.0640 0.0411 0.0243 0.0134 0.0069 0.0033 0.0015 0.0006 0.0003 0.0001 0.0000
0.0004 0.0032 0.0125 0.0324 0.0632 0.0986 0.1282 0.1428 0.1392 0.1207 0.0941 0.0667 0.0434 0.0260 0.0145 0.0075 0.0037 0.0017 0.0007 0.0003 0.0001 0.0000
0.0004 0.0029 0.0116 0.0305 0.0602 0.0951 0.1252 0.1413 0.1395 0.1224 0.0967 0.0695 0.0457 0.0278 0.0157 0.0083 0.0041 0.0019 0.0008 0.0003 0.0001 0.0001
0.0003 0.0027 0.0107 0.0286 0.0573 0.0916 0.1221 0.1396 0.1396 0.1241 0.0993 0.0722 0.0481 0.0296 0.0169 0.0090 0.0045 0.0021 0.0009 0.0004 0.0002 0.0001
λ X
8.1
8.2
8.3
8.4
8.5
8.6
8.7
8.8
8.9
9.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
0.0003 0.0025 0.0100 0.0269 0.0544 0.0882 0.1191 0.1378 0.1395 0.1256 0.1017 0.0749 0.0505 0.0315 0.0182 0.0098 0.0050 0.0024 0.0011 0.0005 0.0002 0.0001 0.0000
0.0003 0.0023 0.0092 0.0252 0.0517 0.0849 0.1160 0.1358 0.1392 0.1269 0.1040 0.0776 0.0530 0.0334 0.0196 0.0107 0.0055 0.0026 0.0012 0.0005 0.0002 0.0001 0.0000
0.0002 0.0021 0.0086 0.0237 0.0491 0.0816 0.1128 0.1338 0.1388 0.1280 0.1063 0.0802 0.0555 0.0354 0.0210 0.0116 0.0060 0.0029 0.0014 0.0006 0.0002 0.0001 0.0000
0.0002 0.0019 0.0079 0.0222 0.0466 0.0784 0.1097 0.1317 0.1382 0.1290 0.1084 0.0828 0.0579 0.0374 0.0225 0.0126 0.0066 0.0033 0.0015 0.0007 0.0003 0.0001 0.0000
0.0002 0.0017 0.0074 0.0208 0.0443 0.0752 0.1066 0.1294 0.1375 0.1299 0.1104 0.0853 0.0604 0.0395 0.0240 0.0136 0.0072 0.0036 0.0017 0.0008 0.0003 0.0001 0.0001
0.0002 0.0016 0.0068 0.0195 0.0420 0.0722 0.1034 0.1271 0.1366 0.1306 0.1123 0.0878 0.0629 0.0416 0.0256 0.0147 0.0079 0.0040 0.0019 0.0009 0.0004 0.0002 0.0001
0.0002 0.0014 0.0063 0.0183 0.0398 0.0692 0.1003 0.1247 0.1356 0.1311 0.1140 0.0902 0.0654 0.0438 0.0272 0.0158 0.0086 0.0044 0.0021 0.0010 0.0004 0.0002 0.0001
0.0002 0.0013 0.0058 0.0171 0.0377 0.0663 0.0972 0.1222 0.1344 0.1315 0.1157 0.0925 0.0679 0.0459 0.0289 0.0169 0.0093 0.0048 0.0024 0.0011 0.0005 0.0002 0.0001
0.0001 0.0012 0.0054 0.0160 0.0357 0.0635 0.0941 0.1197 0.1332 0.1317 0.1172 0.0948 0.0703 0.0481 0.0306 0.0182 0.0101 0.0053 0.0026 0.0012 0.0005 0.0002 0.0001
0.0001 0.0011 0.0050 0.0150 0.0337 0.0607 0.0911 0.1171 0.1318 0.1318 0.1186 0.0970 0.0728 0.0504 0.0324 0.0194 0.0109 0.0058 0.0029 0.0014 0.0006 0.0003 0.0001
Continúa
726
APÉNDICES
TABLA 7 Tabla de probabilidades de Poisson (continuación).
λ X
9.1
9.2
9.3
9.4
9.5
9.6
9.7
9.8
9.9
10
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
0.0001 0.0010 0.0046 0.0140 0.0319 0.0581 0.0881 0.1145 0.1302 0.1317 0.1198 0.0991 0.0752 0.0526 0.0342 0.0208 0.0118 0.0063 0.0032 0.0015 0.0007 0.0003 0.0001 0.0000 0.0000
0.0001 0.0009 0.0043 0.0131 0.0302 0.0555 0.0851 0.1118 0.1286 0.1315 0.1210 0.1012 0.0776 0.0549 0.0361 0.0221 0.0127 0.0069 0.0035 0.0017 0.0008 0.0003 0.0001 0.0001 0.0000
0.0001 0.0009 0.0040 0.0123 0.0285 0.0530 0.0822 0.1091 0.1269 0.1311 0.1219 0.1031 0.0799 0.0572 0.0380 0.0235 0.0137 0.0075 0.0039 0.0019 0.0009 0.0004 0.0002 0.0001 0.0000
0.0001 0.0008 0.0037 0.0115 0.0269 0.0506 0.0793 0.1064 0.1251 0.1306 0.1228 0.1049 0.0822 0.0594 0.0399 0.0250 0.0147 0.0081 0.0042 0.0021 0.0010 0.0004 0.0002 0.0001 0.0000
0.0001 0.0007 0.0034 0.0107 0.0254 0.0483 0.0764 0.1037 0.1232 0.1300 0.1235 0.1067 0.0844 0.0617 0.0419 0.0265 0.0157 0.0088 0.0046 0.0023 0.0011 0.0005 0.0002 0.0001 0.0000
0.0001 0.0007 0.0031 0.0100 0.0240 0.0460 0.0736 0.1010 0.1212 0.1293 0.1241 0.1083 0.0866 0.0640 0.0439 0.0281 0.0168 0.0095 0.0051 0.0026 0.0012 0.0006 0.0002 0.0001 0.0000
0.0001 0.0006 0.0029 0.0093 0.0226 0.0439 0.0709 0.0982 0.1191 0.1284 0.1245 0.1098 0.0888 0.0662 0.0459 0.0297 0.0180 0.0103 0.0055 0.0028 0.0014 0.0006 0.0003 0.0001 0.0000
0.0001 0.0005 0.0027 0.0087 0.0213 0.0418 0.0682 0.0955 0.1170 0.1274 0.1249 0.1112 0.0908 0.0685 0.0479 0.0313 0.0192 0.0111 0.0060 0.0031 0.0015 0.0007 0.0003 0.0001 0.0001
0.0001 0.0005 0.0025 0.0081 0.0201 0.0398 0.0656 0.0928 0.1148 0.1263 0.1250 0.1125 0.0928 0.0707 0.0500 0.0330 0.0204 0.0119 0.0065 0.0034 0.0017 0.0008 0.0004 0.0002 0.0001
0.0000 0.0005 0.0023 0.0076 0.0189 0.0378 0.0631 0.0901 0.1126 0.1251 0.1251 0.1137 0.0948 0.0729 0.0521 0.0347 0.0217 0.0128 0.0071 0.0037 0.0019 0.0009 0.0004 0.0002 0.0001
X
λ = 20
X
λ = 20
X
λ = 20
X
λ = 20
0 1 2 3 4 5 6 7 8 9
0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0005 0.0013 0.0029
10 11 12 13 14 15 16 17 18 19
0.0058 0.0106 0.0176 0.0271 0.0387 0.0516 0.0646 0.0760 0.0844 0.0888
20 21 22 23 24 25 26 27 28 29
0.0888 0.0846 0.0769 0.0669 0.0557 0.0446 0.0343 0.0254 0.0181 0.0125
30 31 32 33 34 35 36 37 38 39
0.0083 0.0054 0.0034 0.0020 0.0012 0.0007 0.0004 0.0002 0.0001 0.0001
18.00 6.09 4.50 3.93
3.64 3.46 3.34 3.26 3.20
3.15 3.11 3.08 3.06 3.03
3.01 3.00 2.98 2.97 2.96
2.95 2.92 2.89 2.86
2.83 2.80 2.77
5 6 7 8 9
10 11 12 13 14
15 16 17 18 19
20 24 30 40
60 120 ∞
2
1 2 3 4
Grados de libertad del numerador
3.40 3.36 3.31
3.58 3.53 3.49 3.44
3.67 3.65 3.63 3.61 3.59
3.88 3.82 3.77 3.73 3.70
4.60 4.34 4.16 4.04 3.95
27.00 8.30 5.91 5.04
3
3.74 3.69 3.63
3.96 3.90 3.84 3.79
4.08 4.05 4.02 4.00 3.98
4.33 4.26 4.20 4.15 4.11
5.22 4.90 4.68 4.53 4.42
32.80 9.80 6.82 5.76
4
3.98 3.92 3.86
4.23 4.17 4.10 4.04
4.37 4.33 4.30 4.28 4.25
4.65 4.57 4.51 4.45 4.41
5.67 5.31 5.06 4.89 4.76
37.10 10.90 7.50 6.29
5
TABLA 8 Valores críticos del rango studentizado Q.
4.16 4.10 4.03
4.45 4.37 4.30 4.23
4.60 4.56 4.52 4.49 4.47
4.91 4.82 4.75 4.69 4.64
6.03 5.63 5.36 5.17 5.02
40.40 11.70 8.04 6.71
6
4.31 4.24 4.17
4.62 4.54 4.46 4.39
4.78 4.74 4.71 4.67 4.65
5.12 5.03 4.95 4.88 4.83
6.33 5.89 5.61 5.40 5.24
43.10 12.40 8.48 7.05
7
4.44 4.36 4.29
4.77 4.68 4.60 4.52
4.94 4.90 4.86 4.82 4.79
5.30 5.20 5.12 5.05 4.99
6.58 6.12 5.82 5.60 5.43
45.40 13.00 8.85 7.35
8
4.55 4.48 4.39
4.90 4.81 4.72 4.63
5.08 5.03 4.99 4.96 4.92
5.46 5.35 5.27 5.19 5.13
6.80 6.32 6.00 5.77 5.60
47.40 13.50 9.18 7.60
9
4.65 4.56 4.47
5.01 4.92 4.83 4.74
5.20 5.15 5.11 5.07 5.04
5.60 5.49 5.40 5.32 5.25
6.99 6.49 6.16 5.92 5.74
49.10 14.00 9.46 7.83
10
4.73 4.64 4.55
5.11 5.01 4.92 4.82
5.31 5.26 5.21 5.17 5.14
5.72 5.61 5.51 5.43 5.36
7.17 6.65 6.30 6.05 5.87
50.60 14.40 9.72 8.03
11
4.81 4.72 4.62
5.20 5.10 5.00 4.91
5.40 5.35 5.31 5.27 5.23
5.83 5.71 5.62 5.53 5.46
7.32 6.79 6.43 6.18 5.98
52.00 14.70 9.95 8.21
12
13
4.88 4.78 4.68
5.28 5.18 5.08 4.98
5.49 5.44 5.39 5.35 5.32
5.93 5.81 5.71 5.63 5.55
7.47 6.92 6.55 6.29 6.09
53.20 15.10 10.15 8.37
Grados de libertad del numerador
Puntos superiores 5% ( = 0.05)
4.94 4.84 4.74
5.36 5.25 5.15 5.05
5.58 5.52 5.47 5.43 5.39
6.03 5.90 5.80 5.71 5.64
7.60 7.03 6.66 6.39 6.19
54.30 15.40 10.35 8.52
14
5.00 4.90 4.80
5.43 5.32 5.21 5.11
5.65 5.59 5.55 5.50 5.46
6.11 5.99 5.88 5.79 5.72
7.72 7.14 6.76 6.48 6.28
55.40 15.70 10.52 8.66
15
5.06 4.95 4.85
5.49 5.38 5.27 5.16
5.72 5.66 5.61 5.57 5.53
6.20 6.06 5.95 5.86 5.79
7.83 7.24 6.85 6.57 6.36
56.30 15.90 10.69 8.79
16
5.11 5.00 4.89
5.55 5.44 5.33 5.22
5.79 5.72 5.68 5.63 5.59
6.27 6.14 6.03 5.93 5.85
7.93 7.34 6.94 6.65 6.44
57.20 16.10 10.84 8.91
17
5.16 5.05 4.93
5.61 5.50 5.38 5.27
5.85 5.79 5.74 5.69 5.65
6.34 6.20 6.09 6.00 5.92
8.03 7.43 7.02 6.73 6.51
58.00 16.40 10.98 9.03
18
5.20 5.09 4.97
5.66 5.54 5.43 5.31
5.90 5.84 5.79 5.74 5.70
6.40 6.26 6.15 6.05 5.97
8.12 7.51 7.09 6.80 6.58
58.80 16.60 11.11 9.13
19
5.24 5.13 5.01 Continúa
5.71 5.59 5.48 5.36
5.96 5.90 5.84 5.79 5.75
6.47 6.33 6.21 6.11 6.03
8.21 7.59 7.17 6.87 6.64
59.60 16.80 11.24 9.23
20
4.48 4.39 4.32 4.26 4.21
4.17 4.13 4.10 4.07 4.05
4.02 3.96 3.89 3.82
3.76 3.70 3.64
10 11 12 13 14
15 16 17 18 19
20 24 30 40
60 120 ∞
4.60 4.50 4.40
5.02 4.91 4.80 4.70
5.25 5.19 5.14 5.09 5.05
5.77 5.62 5.50 5.40 5.32
7.80 7.03 6.54 6.20 5.96
164.00 22.30 12.20 9.17
4
4.82 4.71 4.60
5.29 5.17 5.05 4.93
5.56 5.49 5.43 5.38 5.33
6.14 5.97 5.84 5.73 5.63
8.42 7.56 7.01 6.63 6.35
186.00 24.70 13.30 9.96
5
4.99 4.87 4.76
5.51 5.37 5.24 5.11
5.80 5.72 5.66 5.60 5.55
6.43 6.26 6.10 5.98 5.88
8.91 7.97 7.37 6.96 6.66
202.00 26.60 14.20 10.60
6
5.13 5.01 4.88
5.69 5.54 5.40 5.27
5.99 5.92 5.85 5.79 5.73
6.67 6.48 6.32 6.19 6.08
9.32 8.32 7.68 7.24 6.91
216.00 28.20 15.00 11.10
7
5.25 5.12 4.99
5.84 5.69 5.54 5.39
6.16 6.08 6.01 5.94 5.89
6.87 6.67 6.51 6.37 6.26
9.67 8.61 7.94 7.47 7.13
227.00 29.50 15.60 11.50
8
5.36 5.21 5.08
5.97 5.81 5.65 5.50
6.31 6.22 6.15 6.08 6.02
7.05 6.84 6.67 6.53 6.41
9.97 8.87 8.17 7.68 7.32
237.00 30.70 16.20 11.90
9
5.45 5.30 5.16
6.09 5.92 5.76 5.60
6.44 6.35 6.27 6.20 6.14
7.21 6.99 6.81 6.67 6.54
10.24 9.10 8.37 7.87 7.49
246.00 31.70 16.70 12.30
10
5.53 5.38 5.23
6.19 6.02 5.85 5.69
6.55 6.46 6.38 6.31 6.25
7.36 7.13 6.94 6.79 6.66
10.48 9.30 8.55 8.03 7.65
253.00 32.60 17.10 12.60
11
5.60 5.44 5.29
6.29 6.11 5.93 5.77
6.66 6.56 6.48 6.41 6.34
7.48 7.25 7.06 6.90 6.77
10.70 9.49 8.71 8.18 7.78
260.00 33.40 17.50 12.80
12
13
5.67 5.51 5.35
6.37 6.19 6.01 5.84
6.76 6.66 6.57 6.50 6.43
7.60 7.36 7.17 7.01 6.87
10.89 9.65 8.86 8.31 7.91
266.00 34.10 17.90 13.10
Grados de libertad del numerador
Puntos superiores 1% ( = 0.05)
5.73 5.56 5.40
6.45 6.26 6.08 5.90
6.84 6.74 6.66 6.58 6.51
7.71 7.46 7.26 7.10 6.96
11.08 9.81 9.00 8.44 8.03
272.00 34.80 18.20 13.30
14
5.79 5.61 5.45
6.52 6.33 6.14 5.96
6.93 6.82 6.73 6.65 6.58
7.81 7.56 7.36 7.19 7.05
11.24 9.95 9.12 8.55 8.13
277.00 35.40 18.50 13.50
15
5.84 5.66 5.49
6.59 6.39 6.20 6.02
7.00 6.90 6.80 6.72 6.65
7.91 7.65 7.44 7.27 7.12
11.40 10.08 9.24 8.66 8.23
282.00 36.00 18.80 13.70
16
5.89 5.71 5.54
6.65 6.45 6.26 6.07
7.07 6.97 6.87 6.79 6.72
7.99 7.73 7.52 7.34 7.20
11.55 10.21 9.35 8.76 8.32
286.00 36.50 19.10 13.90
17
Fuente: Reimpreso de E. S. Pearson y H. O. Hartley, eds., Tabla 29 de Biometrika Tables for Statisticians, Vol. 1, 3a. ed., 1966, con permiso de Biometrika Trustees, Londres.
4.28 4.20 4.12
4.64 4.54 4.45 4.37
4.83 4.78 4.74 4.70 4.67
5.27 5.14 5.04 4.96 4.89
6.97 6.33 5.92 5.63 5.43
5.70 5.24 4.95 4.74 4.60
5 6 7 8 9
3
90.00 135.00 14.00 19.00 8.26 10.60 6.51 8.12
2
1 2 3 4
Grados de libertad del numerador
TABLA 8 Valores críticos del rango studentizado Q (continuación).
5.93 5.75 5.57
6.71 6.51 6.31 6.12
7.14 7.03 6.94 6.85 6.78
8.07 7.81 7.59 7.42 7.27
11.68 10.32 9.46 8.85 8.41
290.00 37.00 19.30 14.10
18
5.98 5.79 5.61
6.76 5.56 6.36 6.17
7.20 7.09 7.00 6.91 6.84
8.15 7.88 7.66 7.48 7.33
11.81 10.43 9.55 8.94 8.49
294.00 37.50 19.50 14.20
19
6.02 5.83 5.65
6.82 6.61 6.41 6.21
7.26 7.15 7.05 6.96 6.89
8.22 7.95 7.73 7.55 7.39
11.93 10.54 9.65 9.03 8.57
298.00 37.90 19.80 14.40
20
1.08 1.10 1.13 1.16 1.18 1.20 1.22 1.24 1.26 1.27 1.29 1.30 1.32 1.33 1.34 1.35
1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.43 1.44 1.48 1.50 1.53 1.55 1.57 1.58 1.60 1.61 1.62 1.63 1.64 1.65
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100
1.50 1.50 1.51 1.51 1.52 1.52 1.53 1.54 1.54 1.54 1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.69
1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.45 1.46 1.47 1.48 1.48 1.49
dU
1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.43 1.46 1.49 1.51 1.54 1.55 1.57 1.59 1.60 1.61 1.62 1.63
.95 .98 1.02 1.05 1.08 1.10 1.13 1.15 1.17 1.19 1.21 1.22 1.24 1.26 1.27 1.28
dL
dU
1.57 1.57 1.58 1.58 1.58 1.59 1.59 1.59 1.60 1.60 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.70 1.71 1.72
1.54 1.54 1.54 1.53 1.53 1.54 1.54 1.54 1.54 1.55 1.55 1.55 1.56 1.56 1.56 1.57
k=2
1.23 1.24 1.26 1.27 1.28 1.29 1.31 1.32 1.33 1.34 1.38 1.42 1.45 1.48 1.50 1.52 1.54 1.56 1.57 1.59 1.60 1.61
.82 .86 .90 .93 .97 1.00 1.03 1.05 1.08 1.10 1.12 1.14 1.16 1.18 1.20 1.21
dL
dU
1.65 1.65 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 1.67 1.67 1.68 1.69 1.70 1.70 1.71 1.72 1.72 1.73 1.73 1.74
1.75 1.73 1.71 1.69 1.68 1.68 1.67 1.66 1.66 1.66 1.66 1.65 1.65 1.65 1.65 1.65
k=3
1.16 1.18 1.19 1.21 1.22 1.24 1.25 1.26 1.27 1.29 1.34 1.38 1.41 1.44 1.47 1.49 1.51 1.53 1.55 1.57 1.58 1.59
.69 .74 .78 .82 .86 .90 .93 .96 .99 1.01 1.04 1.06 1.08 1.10 1.12 1.14
dL
dU
1.74 1.73 1.73 1.73 1.73 1.73 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.73 1.73 1.74 1.74 1.74 1.75 1.75 1.75 1.76
1.97 1.93 1.90 1.87 1.85 1.83 1.81 1.80 1.79 1.78 1.77 1.76 1.76 1.75 1.74 1.74
k=4
1.09 1.11 1.13 1.15 1.16 1.18 1.19 1.21 1.22 1.23 1.29 1.34 1.38 1.41 1.44 1.46 1.49 1.51 1.52 1.54 1.56 1.57
.56 .62 .67 .71 .75 .79 .83 .86 .90 .93 .95 .98 1.01 1.03 1.05 1.07
dL
dU
1.83 1.82 1.81 1.81 1.80 1.80 1.80 1.79 1.79 1.79 1.78 1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.78 1.78 1.78
2.21 2.15 2.10 2.06 2.02 1.99 1.96 1.94 1.92 1.90 1.89 1.88 1.86 1.85 1.84 1.83
k=5
1.15 1.16 1.17 1.18 1.19 1.21 1.22 1.23 1.24 1.25 1.29 1.32 1.36 1.38 1.41 1.43 1.45 1.47 1.48 1.50 1.51 1.52
.81 .84 .87 .90 .93 .95 .97 1.00 1.02 1.04 1.05 1.07 1.09 1.10 1.12 1.13
dL
dU
1.27 1.28 1.29 1.30 1.31 1.32 1.32 1.33 1.34 1.34 1.38 1.40 1.43 1.45 1.47 1.49 1.50 1.52 1.53 1.54 1.55 1.56
1.07 1.09 1.10 1.12 1.13 1.15 1.16 1.17 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26
k=1
an = número de observaciones; k = número de variables independientes. Fuente: Esta tabla ha sido reproducida de Biometrika, 41 (1951): 173 y 175, con permiso de Biometrika Trustees.
dL
n
k=1
= 0.05
1.08 1.10 1.11 1.13 1.14 1.15 1.16 1.18 1.19 1.20 1.24 1.28 1.32 1.35 1.38 1.40 1.42 1.44 1.46 1.47 1.49 1.50
.70 .74 .77 .80 .83 .86 .89 .91 .94 .96 .98 1.00 1.02 1.04 1.05 1.07
dL
k=2
TABLA 9 Valores críticos dL y dU del estadístico D de Durbin-Watson. (Los valores críticos son de un solo lado.)a
1.34 1.35 1.36 1.36 1.37 1.38 1.38 1.39 1.39 1.40 1.42 1.45 1.47 1.48 1.50 1.52 1.53 1.54 1.55 1.56 1.57 1.58
1.25 1.25 1.25 1.26 1.26 1.27 1.27 1.28 1.29 1.30 1.30 1.31 1.32 1.32 1.33 1.34
dU
1.02 1.04 1.05 1.07 1.08 1.10 1.11 1.12 1.14 1.15 1.20 1.24 1.28 1.32 1.35 1.37 1.39 1.42 1.43 1.45 1.47 1.48
.59 .63 .67 .71 .74 .77 .80 .83 .86 .88 .90 .93 .95 .97 .99 1.01
dL
k=3 dU
1.42 1.43 1.43 1.43 1.44 1.44 1.45 1.45 1.45 1.46 1.48 1.49 1.51 1.52 1.53 1.55 1.56 1.57 1.58 1.59 1.60 1.60
1.46 1.44 1.43 1.42 1.41 1.41 1.41 1.40 1.40 1.41 1.41 1.41 1.41 1.41 1.42 1.42
= 0.01
.96 .98 1.00 1.01 1.03 1.04 1.06 1.07 1.09 1.10 1.16 1.20 1.25 1.28 1.31 1.34 1.37 1.39 1.41 1.43 1.45 1.46
.49 .53 .57 .61 .65 .68 .72 .75 .77 .80 .83 .85 .88 .90 .92 .94
dL
k=4
1.51 1.51 1.51 1.51 1.51 1.51 1.51 1.52 1.52 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.60 1.61 1.62 1.63
1.70 1.66 1.63 1.60 1.58 1.57 1.55 1.54 1.53 1.53 1.52 1.52 1.51 1.51 1.51 1.51
dU
.90 .92 .94 .95 .97 .99 1.00 1.02 1.03 1.05 1.11 1.16 1.21 1.25 1.28 1.31 1.34 1.36 1.39 1.41 1.42 1.44
.39 .44 .48 .52 .56 .60 .63 .66 .70 .72 .75 .78 .81 .83 .85 .88
dL
1.60 1.60 1.59 1.59 1.59 1.59 1.59 1.58 1.58 1.58 1.58 1.59 1.59 1.60 1.61 1.61 1.62 1.62 1.63 1.64 1.64 1.65
1.96 1.90 1.85 1.80 1.77 1.74 1.71 1.69 1.67 1.66 1.65 1.64 1.63 1.62 1.61 1.61
dU
k=5
730
APÉNDICES
TABLA 10 Factores de gráfica de control.
Número de observaciones en la muestra 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
d2
d3
D3
D4
A2
1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.173 3.258 3.336 3.407 3.472 3.532 3.588 3.640 3.689 3.735 3.778 3.819 3.858 3.895 3.931
0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.787 0.778 0.770 0.763 0.756 0.750 0.744 0.739 0.733 0.729 0.724 0.720 0.716 0.712 0.708
0 0 0 0 0 0.076 0.136 0.184 0.223 0.256 0.283 0.307 0.328 0.347 0.363 0.378 0.391 0.404 0.415 0.425 0.435 0.443 0.452 0.459
3.267 2.575 2.282 2.114 2.004 1.924 1.864 1.816 1.777 1.744 1.717 1.693 1.672 1.653 1.637 1.622 1.609 1.596 1.585 1.575 1.565 1.557 1.548 1.541
1.880 1.023 0.729 0.577 0.483 0.419 0.373 0.337 0.308 0.285 0.266 0.249 0.235 0.223 0.212 0.203 0.194 0.187 0.180 0.173 0.167 0.162 0.157 0.153
Fuente: Reimpreso de ASTM-STP 15D con el gentil permiso de la American Society for Testing and Materials.
Tablas
731
TABLA 11 La distribución normal estandarizada. La entrada representa el área debajo de la distribución normal estandarizada desde la media hasta Z. Z
0
Z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
.0000 .0398 .0793 .1179 .1554 .1915 .2257 .2580 .2881 .3159
.0040 .0438 .0832 .1217 .1591 .1950 .2291 .2612 .2910 .3186
.0080 .0478 .0871 .1255 .1628 .1985 .2324 .2642 .2939 .3212
.0120 .0517 .0910 .1293 .1664 .2019 .2357 .2673 .2967 .3238
.0160 .0557 .0948 .1331 .1700 .2054 .2389 .2704 .2995 .3264
.0199 .0596 .0987 .1368 .1736 .2088 .2422 .2734 .3023 .3289
.0239 .0636 .1026 .1406 .1772 .2123 .2454 .2764 .3051 .3315
.0279 .0675 .1064 .1443 .1808 .2157 .2486 .2794 .3078 .3340
.0319 .0714 .1103 .1480 .1844 .2190 .2518 .2823 .3106 .3365
.0359 .0753 .1141 .1517 .1879 .2224 .2549 .2852 .3133 .3389
1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9
.3413 .3643 .3849 .4032 .4192 .4332 .4452 .4554 .4641 .4713
.3438 .3665 .3869 .4049 .4207 .4345 .4463 .4564 .4649 .4719
.3461 .3686 .3888 .4066 .4222 .4357 .4474 .4573 .4656 .4726
.3485 .3708 .3907 .4082 .4236 .4370 .4484 .4582 .4664 .4732
.3508 .3729 .3925 .4099 .4251 .4382 .4495 .4591 .4671 .4738
.3531 .3749 .3944 .4115 .4265 .4394 .4505 .4599 .4678 .4744
.3554 .3770 .3962 .4131 .4279 .4406 .4515 .4608 .4686 .4750
.3577 .3790 .3980 .4147 .4292 .4418 .4525 .4616 .4693 .4756
.3599 .3810 .3997 .4162 .4306 .4429 .4535 .4625 .4699 .4761
.3621 .3830 .4015 .4177 .4319 .4441 .4545 .4633 .4706 .4767
2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
.4772 .4821 .4861 .4893 .4918 .4938 .4953 .4965 .4974 .4981
.4778 .4826 .4864 .4896 .4920 .4940 .4955 .4966 .4975 .4982
.4783 .4830 .4868 .4898 .4922 .4941 .4956 .4967 .4976 .4982
.4788 .4834 .4871 .4901 .4925 .4943 .4957 .4968 .4977 .4983
.4793 .4838 .4875 .4904 .4927 .4945 .4959 .4969 .4977 .4984
.4798 .4842 .4878 .4906 .4929 .4946 .4960 .4970 .4978 .4984
.4803 .4846 .4881 .4909 .4931 .4948 .4961 .4971 .4979 .4985
.4808 .4850 .4884 .4911 .4932 .4949 .4962 .4972 .4979 .4985
.4812 .4854 .4887 .4913 .4934 .4951 .4963 .4973 .4980 .4986
.4817 .4857 .4890 .4916 .4936 .4952 .4964 .4974 .4981 .4986
3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
.49865 .49903 .49931 .49952 .49966 .49977 .49984 .49989 .49993 .49995
.49869 .49906 .49934 .49953 .49968 .49978 .49985 .49990 .49993 .49995
.49874 .49910 .49936 .49955 .49969 .49978 .49985 .49990 .49993 .49996
.49878 .49913 .49938 .49957 .49970 .49979 .49986 .49990 .49994 .49996
.49882 .49916 .49940 .49958 .49971 .49980 .49986 .49991 .49994 .49996
.49886 .49918 .49942 .49960 .49972 .49981 .49987 .49991 .49994 .49996
.49889 .49921 .49944 .49961 .49973 .49981 .49987 .49992 .49994 .49996
.49893 .49924 .49946 .49962 .49974 .49982 .49988 .49992 .49995 .49996
.49897 .49926 .49948 .49964 .49975 .49983 .49988 .49992 .49995 .49997
.49900 .49929 .49950 .49965 .49976 .49983 .49989 .49992 .49995 .49997