Estadistica Para Ingenieria Y Ciencias 9789708172325

Este libro difiere de muchos textos de estadística por la forma en la cual se abordan los temas propios de esta asignatu

1,354 159 251MB

Español Pages 432 [450] Year 2009

Table of contents :
ESTADÍSTICA PARA INGENIERÍA Y CIENCIAS
PÁGINA LEGAL
CONTENIDO
PRÓLOGO
CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA
EFECTOS DE LA RADIACIÓN UVB
INTRODUCCIÓN
1.1. CLASIFICACIÓN DE LA ESTADÍSTIC
1.2. CLASIFICACIÓN DE VARIABLES: TIPO DE (...)
1.3. MEDIDAS DE TENDENCIA CENTRAL O DE (...)
1.3.1 MEDIA ARITMÉTICA
1.3.2. MEDIANA
1.3.3 MODA
1.3.4. MEDIA GEOMÉTRICA
1.3.5. MEDIA ARMÓNICA
1.3.6. CUARTILES
1.4. MEDIDAS DE VARIABILIDAD O DISPERSIÓN
1.4.1. RANGO
1.4.2. RANGO INTERCUARTÍLICO
1.4.3. VARIANZA
1.4.4. DESVIACIÓN ESTÁNDAR
1.5. DISTRIBUCIONES DE FRECUENCIA
1.5.1. FRECUENCIA ABSOLUTA
1.5.2. FRECUENCIA RELATIVA
1.5.3. FRECUENCIA ACUMULADA
1.6. MÉTODOS GRÁFICO
1.6.1. DIAGRAMA DE TALLO-HOJA
1.6.2. HISTOGRAMA
1.6.3. POLÍGONOS DE FRECUENCIA
1.6.4. DIAGRAMA DE CAJAS
1.6.5. SIMETRÍA
1.7. MEDIA Y VARIANZA CON DATOS AGRUPADOS
1.8. INSTRUCCIONES PARA EL USO DE EXCEL (...)
1.8.1 MEDIDAS DE TENDENCIA CENTRAL Y DE (...)
1.8.2. TABLA DE FRECUENCIAS CON EXCEL
1.8.3. GRÁFICAS CON EXCE
1.8.4. USO DE MINITAB PARA EL DISEÑO DE (...)
1.9. INSTRUCCIONES PARA EL USO DE MINITAB (...)
1.9.1. ESTADÍSTICAS DESCRIPTIVAS USANDO (...)
1.9.2. DIAGRAMAS DE CAJA CON MINITAB
1.9.3. DIAGRAMA DE TALLO-HOJA CON MINITAB
1.9.4 GRÁFICAS DE FRECUENCIA RELATIVA (...)
PROBLEMAS PROPUESTOS
CAPÍTULO 2. INTRODUCCIÓN A LA PROBABILIDAD
INTRODUCCIÓN
2.1. CONCEPTOS BÁSICOS
2.1.1. DIAGRAMAS DE VENN
2.2. INTRODUCCIÓN AXIOMÁTICA DE LA PROBABILIDAD
2.3. ESPACIOS MUESTRALES EQUIPROBABLES
2.4. TÉCNICAS DE CONTEO
2.4.1 LA REGLA DEL PRODUCTO PARA PARES (...)
2.4.2. REGLA DE MULTIPLICACIÓN MÁS GENERAL
2.4.3. PERMUTACIONES
2.4.4. COMBINACIONES
2.5. PROBABILIDAD CONDICIONAL
2.6. TEOREMA DE BAYES
2.7. EVENTOS INDEPENDIENTES
PROBLEMAS PROPUESTOS
CAPÍTULO 3. FUNCIONES DE DISTRIBUCIÓN (...)
INTRODUCCIÓN
3.1. VARIABLES ALEATORIAS DISCRETAS
3.2. PROBABILIDAD DE UNA VARIABLE ALEATORIA
3.2.1. FUNCIÓN DE DENSIDAD Y FUNCIÓN DE DISTRIBUCIÓN
3.2.2. FUNCIONES DE DENSIDAD CONJUNTAS Y MARGINALES
3.2.3. FUNCIONES DE DENSIDAD CONDICIONAL (...)
3.3. ESPERANZA MATEMÁTICA DE UNA VARIABLE (...)
3.3.1. VALOR ESPERADO DE UNA VARIABLE ALEATORIA
3.3.2. VARIANZA DE UNA VARIABLE ALEATORIA
3.3.3. COVARIANZA
3.3.4. FUNCIÓN GENERATRIZ DE MOMENTOS
3.4. FUNCIÓN DE DISTRIBUCIÓN UNIFORME DISCRETA
3.5. FUNCIÓN DE DISTRIBUCIÓN BERNOULLI
3.6. FUNCIÓN DE DISTRIBUCIÓN BINOMIAL
3.6.1 DEFINICIÓN Y PROPIEDADES
3.6.2 CÁLCULO DE LA DISTRIBUCIÓN BINOMIAL (...)
3.6.3. CÁLCULO DE LA DISTRIBUCIÓN BINOMIAL (...)
3.6.4. EJEMPLOS
3.7 FUNCIÓN DE DISTRIBUCIÓN ACUMULADA BINOMIAL (...)
3.7.1. DEFINICIÓN Y PROPIEDADES
3.7.2. RELACIÓN DE LAS FUNCIONES DE DENSIDAD (...)
3.7.3. CÁLCULO DE LA DISTRIBUCIÓN BINOMIAL (...)
3.8. FUNCIÓN DE DISTRIBUCIÓN GEOMÉTRICA
3.9. FUNCIÓN DE DISTRIBUCIÓN HIPERGEOMÉTRICA
3.9.1. DEFINICIÓN Y PROPIEDADES
3.9.2. RELACIÓN ENTRE LAS DISTRIBUCIONES (...)
3.9.3. CÁLCULOS DE LA DISTRIBUCIÓN (...)
3.9.4. CÁLCULOS DE LA DISTRIBUCIÓN (...)
3.10. FUNCIÓN DE DISTRIBUCIÓN POISSON
3.10.1. DEFINICIÓN Y PROPIEDADES
3.10.2. APROXIMACIÓN DE LA DISTRIBUCIÓN (...)
3.10.3. CÁLCULO DE LA DISTRIBUCIÓN POISSON (...)
3.10.4. INSTRUCCIONES PARA LA DISTRIBUCIÓN (...)
3.10.5. EJEMPLOS DE LA FUNCIÓN DE DISTRIBUCIÓN (...)
PROBLEMAS PROPUESTOS
CAPÍTULO 4. FUNCIONES DE DISTRIBUCIÓN DE (...)
INTRODUCCIÓN
4.1. PROBABILIDAD DE UNA VARIABLE ALEATORIA CONTINUA
4.1.1. FUNCIÓN DE DENSIDAD Y FUNCIÓN DE DISTRIBUCIÓN
4.1.2. FUNCIONES DE DENSIDAD CONJUNTAS Y MARGINALES
4.1.3. DENSIDAD CONDICIONAL Y VARIABLES (...)
4.2. ESPERANZA MATEMÁTICA DE UNA VARIABLE (...)
4.2.1. VALOR ESPERADO DE UNA VARIABLE ALEATORIA
4.2.2. VARIANZA DE UNA VARIABLE ALEATORIA
4.2.3. COVARIANZA
4.2.4. FUNCIÓN GENERATRIZ DE MOMENTOS
4.3. DISTRIBUCIÓN UNIFORME CONTINUA
4.4. DISTRIBUCIÓN EXPONENCIAL
4.5. DISTRIBUCIÓN GAMMA
4.5.1. FUNCIÓN GAMMA
4.5.2. FUNCIÓN DE DENSIDAD GAMMA
4.6. DISTRIBUCIÓN WEIBULL
4.7. DISTRIBUCIÓN NORMAL
4.7.1. DEFINICIÓ Y PROPIEDADES
4.7.2. CÁLCULO DE PROBABILIDADES NORMALES
4.7.3. CÁLCULOS CON LA DISTRIBUCIÓN NORMAL INVERSA
4.8 TEOREMA DEL LÍMITE CENTRAL
4.8.1. PRESENTACIÓN
4.8.2. LA DISTRIBUCIÓN NORMAL COMO (...)
4.9. DISTRIBUCIÓN LOGNORMAL
4.10. DISTRIBUCIONES DERIVADAS DE LA NORMAL
4.10.1. LA DISTRIBUCIÓN JI-CUADRADA
4.10.2. LA DISTRIBUCIÓN DE STUDENT
4.10.3. LA DISTRIBUCIÓN
4.11. CÁLCULO DE LAS FUNCIONES DE DISTRIBUCIÓN (...)
4.11.1. PRESENTACIÓN
4.11.2. EJEMPLO DE USO DE TABLAS Y GRÁFICAS (...)
4.12. CÁLCULO DE DISTRIBUCIONES CONTINUAS (...)
4.12.1. CÁLCULO DE LOS VALORES DE LA FUNCIONES (...)
4.12.2. CÁLCULO DE LOS VALORES DE LA FUNCIÓN (...)
4.12.3. CÁLCULO DE LOS VALORES DE LA FUNCIÓN (...)
4.12.4. CÁLCULO DE LOS VALORES DE LA FUNCIÓN (...)
4.12.5. CÁLCULO DE LOS VALORES DE LA FUNCIÓN (...)
CAPÍTULO 5. ESTIMACIÓN
INTRODUCCIÓN
5.1. ESTIMACIÓN PUNTUAL
5.1.1. INTRODUCCIÓN
5.1.2. PROPIEDADES DE LOS ESTIMADORES
5.1.3. MÉTODO DE MÁXIMA VEROSIMILITUD
5.1.4. PROPIEDADES DE LOS ESTIMADORES DE (...)
5.1.5. ESTIMADORES DE MÁXIMA VEROSIMILITUD (...)
5.2. ESTIMACIÓN POR INTERVALOS
5.2.1. INTRODUCCIÓN
5.2.2. INTERVALO DE CONFIANZA PARA LOS (...)
5.2.3. INTERVALOS DE CONFIANZA PARA EL (...)
5.2.4. INTERVALOS DE CONFIANZA DE LOS (...)
PROBLEMAS PROPUESTOS
CAPÍTULO 6. PRUEBA DE HIPÓTESIS
INTRODUCCIÓN
6.1. CONCEPTOS BÁSICOS
6.1.1. LA IDEA DETRÁS DE HACER PRUEBAS (...)
6.1.2. EL VALOR DE P EN LA TOMA DE DECISIONES
6.2. PRUEBAS UNIFORMEMENTE MÁS POTENTES
6.3. TIPOS DE PRUEBA
6.4. PRUEBA DE HIPÓTESIS PARA LOS PARÁMETROS (...)
6.4.1. PRUEBA PARA LA MEDIA
6.4.2. PRUEBA DE DIFERENCIA DE MEDIAS
6.4.3. PRUEBA PARA LA VARIANZA
6.4.4. PRUEBA DE HIPÓTESIS SOBRE LA IGUALDAD (...)
6.5. PRUEBA DE HIPÓTESIS SOBRE EL PARÁMETRO (...)
6.5.1 PRUEBA DE HIPÓTESIS SOBRE UNA PROPORCIÓN
6.5.2. PRUEBAS DE HIPÓTESIS PARA LA DIFERENCIA (...)
6.6. PRUEBAS DE BONDAD DE AJUSTE
6.6.1 PRUEBA JI-CUADRADA (Χ2)
6.6.2. PRUEBA DE KOLMOGOROV-SMIRNOV (K-S)
6.6.3. GRÁFICOS DE PROBABILIDAD NORMA
6.7. USO DE MINITAB Y EXCEL PARA LAS PRUEBAS (...)
6.7.1. PRUEBA DE HIPÓTESIS PARA Μ CON MINITAB
6.7.2 PRUEBA DE HIPÓTESIS PARA U1 - U2 (...)
6.7.3. PRUEBA DE HIPÓTESIS PARA DIFERENCIA (...)
PROBLEMAS PROPUESTOS
CAPÍTULO 7. ANÁLISIS DE VARIANZA (ANOVA)
INTRODUCCIÓN
7.1. ANÁLISIS DE VARIANZA SIMPLE
7.1.1. PROPIEDADES Y SUPOSICIONES EN EL (...)
7.1.2. DISEÑOS DE ANÁLISIS DE VARIANZA (...)
7.1.2. ANÁLISIS SUBJETIVOS (GRÁFICOS) DE (...)
7.1.3. MÉTODO DE COMPARACIONES MÚLTIPLES (...)
7.1.4. USO DEL PROGRAMA MINITAB PARA RESOLVER (...)
7.2. ANÁLISIS DE VARIANZA DE DISEÑO DE (...)
7.2.1. SUPOSICIONES DEL MODELO DE BLOQUES (...)
7.2.2. USO DE EXCEL PARA RESOLVER PROBLEMAS (...)
7.3. CLASIFICACIONES CRUZADAS: ANÁLISIS (...)
7.3.1.NTERACCIÓN CON ANOVA DE DOS FACTORES
7.4. PROBLEMAS DE ANOVA DE DOS CLASIFICACIONES (...)
7.5. ANÁLISIS DE VARIANZA DE TRES SENTIDOS: (...)
7.5.1. INTERACCIÓN CON ANOVA DE DISEÑOS (...)
7.5.2. USO DEL PROGRAMA PARA RESOLVER ANÁLISIS (...)
PROBLEMAS PROPUESTOS
CAPÍTULO 8. REGRESIÓN LINEAL SIMPLE Y (...)
INTRODUCCIÓN
8.1. REGRESIÓN LINEAL SIMPLE
8.1.1. SUPOSICIONES DEL MODELO DE REGRESIÓN (...)
8.1.2. APLICACIÓN DE ANÁLISIS OBJETIVOS (...)
8.1.3. APLICACIÓN DE ANÁLISIS GRÁFICOS (...)
8.2. ECUACIONES NORMALES PARA CALCULAR (...)
8.2.1. CÁLCULO DEL COEFICIENTE DE (...)
8.2.2. CÁLCULO DEL COEFICIENTE DE CORRELACIÓN (...)
8.2.3. TIPOS DE CORRELACIÓN LINEAL
8.2.4. INTERVALO DE CONFIANZA PARA EL (...)
8.2.5. INTERVALO DE CONFIANZA PARA EL (...)
8.2.6. HIPÓTESIS NULA H0: B 5 B0 CONTRA (...)
8.2.7. HIPÓTESIS NULA H0: A 5 A0 CONTRA (...)
8.2.8. INTERVALO DE CONFIANZA PARA MY|X (...)
8.2.9. HIPÓTESIS NULA H0: B 5 0 CONTRA (...)
8.2.10. HIPÓTESIS NULA DE H0: A 5 A0 CONTRA (...)
8.2.11. PRUEBAS DE HIPÓTESIS H0: R 5 0, (...)
8.3. REGRESIÓN Y CORRELACIÓN LINEAL MÚLTIPLE
8.3.1. MODELO DE REGRESIÓN MÚLTIPLE GENERALIZADO
8.3.2. MODELO DE REGRESIÓN MÚLTIPLE CON (...)
8.3.3. CÁLCULOS Y APLICACIONES DE REGRESIÓN (...)
8.3.3. CÁLCULOS Y APLICACIONES DE REGRESIÓN (...)
PROBLEMAS PROPUESTOS
CAPÍTULO 9. REGRESIÓN NO LINEAL
9.1. INTRODUCCIÓN
9.2. MODELO DE REGRESIÓN POLINOMIAL (...)
9.3. MODELOS POLINOMIALES DE SEGUNDO ORDEN (...)
9.4. MODELO DE POLINOMIOS DE TERCER ORDEN (...)
9.5. INTERACCIÓN EN LOS MODELOS POLINOMIALES (...)
9.5.1. MODELO DE SEGUNDO ORDEN (CUADRÁTICO) (...)
9.6. MODELO POLINOMIAL (DE SEGUNDO ORDEN (...)
9.6.1. MODELO POLINOMIAL (DE SEGUNDO ORDEN (...)
9.7. EVALUACIÓN DE LA UTILIDAD DE LOS MODELOS (...)
9.7.1. ANÁLISIS DE ESTADÍSTICOS COMO R2, (...)
9.7.2. ANÁLISIS GRÁFICO (SUBJETIVO
9.7.3. AUTOCORRELACIÓN (VALORES DE E FIJOS)
9.7.4. ANÁLISIS DE GRÁFICOS PARA DIAGNOSTICAR (...)
9.7.5. PRUEBA DE HETEROSCEDASTICIDAD Y (...)
9.8. RESUMEN DE LOS MODELOS DE REGRESIÓN (...)
9.9. PRUEBA ESTADÍSTICA PARA COMPARAR LA (...)
9.10. CÁLCULOS Y APLICACIONES DE REGRESIÓN (...)
9.11. PROCEDIMIENTOS PARA LA IDENTIFICACIÓN (...)
9.11.1. PROCEDIMIENTOS PARA IDENTIFICAR (...)
9.12. DIAGNÓSTICO DE MULTICOLINEALIDAD
9.12.1. MEDIDAS PARA CORREGIR (...)
9.13. AUTOCORRELACIÓN EN DATOS DE SERIES (...)
9.14. HETEROSCEDASTICIDAD Y HOMOSCEDASTICIDAD
9.14.1. PRUEBA DE WHITE PARA EL PROBLEMA (...)
9.15. TRANSFORMACIONES A LAS VARIABLES (...)
9.16. VALORES INUSUALES EXTREMOS, SU (...)
PROBLEMAS PROPUESTOS
BIBLIOGRAFÍA
ÍNDICE ANALÍTICO
SOBRE LA OBRA

Recommend Papers

Estadistica para las ciencias sociales y el comportamiento

booksmedicos.org

428 55 27MB Read more

Fisica para Ciencias e Ingenieria. Vol. 1

754 74 36MB Read more

Estadistica para administracion y economia

1,219 95 7MB Read more

estadistica para administracion y economia

1,254 21 9MB Read more

Epidemiologia y estadistica para principiantes

booksmedicos.org

492 52 2MB Read more

Estadistica Para Las Ciencias Administrativas [3 ed.] 9684511922

433 32 19MB Read more

Fisica Para Ciencias E Ingenieria Volumen I (9 edicion)

707 85 2MB Read more

Estadistica para administracion y los negocios

www.FreeLibros.me

521 66 5MB Read more

Estadistica para las ciencias sociales del comportamiento y de la salud

422 101 13MB Read more

Estadistica Para Administracion Y Economia (7ed)

499 122 55MB Read more

Estadistica Para Ingenieria Y Ciencias
9789708172325

Author / Uploaded
Quevedo Urias
Hector / Perez Salvador
Blanca Rosa

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

E STADÍSTICA PARA INGENIERÍA Y CIENCIAS Héctor Adolfo Quevedo Urías Universidad Autónoma de Ciudad Juárez

Blanca Rosa Pérez Salvador Universidad Autónoma Metropolitana - Iztapalapa

PRIMERA EDICIÓN EBOOK MÉXICO, 2014

GRUPO EDITORIAL PATRIA

info

editorialpatria.com.mx

www.editorialpatria.com.mx

Dirección editorial: Javier Enrique Callejas Coordinadora editorial: Estela Delfín Ramírez Diseño de interiores: Juan Castro Salgado (TROCAS) Diseño de portada: Publishare Revisión técnica: Dr. Pedro Lara Velázquez Profesor-Investigador Universidad Autónoma Metropolitana-Azcapotzalco Estadística para Ingeniería y Ciencias Derechos reservados: © 2014, Héctor Quevedo Urias / Blanca Rosa Peréz Salvador © 2014, GRUPO EDITORIAL PATRIA, S.A. DE C.V. Renacimiento 180, Colonia San Juan Tlihuaca, Delegación Azcapotzalco, Código Postal 02400, México, D.F. Miembro de la Cámara Nacional de la Industria Editorial Mexicana Registro núm. 43 ISBN ebook: 978-607-438-939-5 Queda prohibida la reproducción o transmisión total o parcial del contenido de la presente obra en cualesquiera formas, sean electrónicas o mecánicas, sin el consentimiento previo y por escrito del editor. Impreso en México Printed in Mexico Primera edición ebook: 2014

Agradecimientos Héctor Adolfo Quevedo Urías A mi esposa Gloria y a mis hijos Héctor, Rocío, Christopher, Anabel, Abigail, Jordyn, Lauren y Adriana. De forma especial y con profundo agradecimiento dedico este libro a las siguientes personas, por su valioso apoyo en la realización de este proyecto: A la escritora Margarita Quevedo Urías. Al licenciado Jorge Mario Quintana Silveyra por su sobresaliente y fina actuación como Rector de la Universidad Autónoma de Ciudad Juárez (UACJ). Al M. en C. David Ramírez Perea, Secretario General de la UACJ; al maestro Antonio Guerra Jaime, Director del Instituto de Ingeniería y Tecnología de la UACJ, y demás autoridades universitarias. Al doctor Enrique A. Olivas y al doctor Jawad Mahmoud del Departamento de Química del Community College, en El Paso, Texas; al doctor Humberto García, del Instituto Tecnológico y de Estudios Superiores de Monterrey (ITESM – Campus Ciudad Juárez), y al doctor Jorge A. Salas Plata Mendoza de la UACJ.

Blanca Rosa Pérez Salvador Agradezco a mis tres hijos, Armando, Blanca y Rosendo, por su paciencia y apoyo.

iv

| Estadística para ingeniería y ciencias

Prólogo Este libro de estadística está orientado a la aplicación y solución de problemas en ingeniería y ciencia. Busca darle al lector los conocimientos estadísticos y matemáticos necesarios para que pueda resolver sus problemas de estadística, no sólo dentro de las aulas, sino también en la práctica. En estos tiempos tan cruciales que vivimos, es decir, con tantos cambios políticos, económicos, sociales, climáticos y ambientales, es muy importante que se esté enterado de lo que está pasando y la razón por la cual vendrán muchos más cambios en nuestro modo de vivir. Sin embargo, para poder enfrentar a estos problemas necesitamos conocer sus orígenes. Es por ello que una de las finalidades de esta obra es la de concientizar a la gente de estos cambios, algunos tan profundos como el calentamiento global. La finalidad de este libro es el dar muchos ejemplos y ejercicios con variadas aplicaciones estadísticas en la ingeniería ambiental, la ingeniería civil, la química, física, biología, ingeniería mecatrónica, la ingeniería agrícola, hidrología, medicina y muchas más. Además, este libro brinda un mensaje de ideas creativas, reflexivas e innovadoras, para que el lector medite sobre los conceptos aplicados a las diferentes disciplinas que interaccionan con la vida del hombre. Siendo así, este texto lleva una comunicación importante, no sólo en el punto de vista estadístico, también en los puntos de vista de la salud, la sociedad, economía, política, etcétera. La estadística y los métodos probabilísticos o estocásticos juegan un papel muy importante en todas las fases del comportamiento humano. De esta manera, el uso de la probabilidad y la estadística se ha extendido, no sólo a las áreas tradicionales universitarias o escolares, sino también a todos los campos de la ingeniería, agricultura, biología, química, comunicaciones, economía, electrónica, mecatrónica, medicina, física, hidrología, ciencias políticas, psicología, sociología, encuestas políticas, mercadotecnia, ecología, meteorología, control de calidad, etcétera. Este texto de probabilidad y estadística está diseñado para cursos de licenciatura y postgrado, para ingeniería ambiental y demás ramas de la ciencia. No obstante, los prerrequisitos para entender mejor los conceptos mostrados aquí, son tener cursos básicos de cálculo diferencial e integral, con derivaciones parciales e integración múltiple. En este texto se encuentra una compilación de casi 70 libros de referencias bibliográficas de probabilidad y de estadística, además de ideas originales e innovadoras, no sólo aplicadas a la ingeniería ambiental, sino también a la ingeniería en general, la economía, química, física, agricultura, medicina, etc. Este texto consta de más de 400 páginas que incluyen conceptos teóricos y muchos ejemplos prácticos. Además, al final de cada capítulo se listan ejercicios aplicados a la ingeniería y la ciencia. Es decir, el cuerpo del libro consta de un total de casi 900 ejercicios con respuestas. El propósito de esta obra es el de ayudar al lector a entender los conceptos, ideas y funciones de la probabilidad y de la estadística con aplicación a problemas de ingeniería y demás ramas de la ciencia. Este texto deberá ser útil para aquellos estudiosos que deseen hacer aplicaciones de la probabilidad y la estadística a problemas de investigación. Cada capítulo cuenta con definiciones pertinentes y claras, teoremas y principios, abundantes gráficas de materiales descriptivos, además de muchos ejemplos y ejercicios. Por ejemplo, el Capítulo 1 da la introducción a la estadística descriptiva, trata de la clasificación de variables, medidas de tendencia central, dispersión, distribuciones de frecuencia, etc., así como también del uso de los programas Excel y Minitab. Más adelante, el Capítulo 2 discute los conceptos básicos de la teoría de probabilidad, la introducción axiomática de la probabilidad, técnicas de conteo, teorema de Bayes, etc. Después, el Capítulo 3 está relacionado con funciones de distribución de variables aleatorias discretas, esperanza matemática de

Prologo

|

variables aleatorias discretas, funciones de distribución uniforme discreta, función de distribución binomial, distribución binomial negativa, distribución hipergeométrica, distribución Poisson y así sucesivamente. El capítulo 4 habla de funciones de distribución de variables aleatorias continuas, funciones de densidad conjunta y marginal, covarianza, distribución exponencial, gamma, Weibull, lognormal, distribución normal, teorema del límite central, distribución de ji-cuadrada, distribución de t de Student, distribución F, y así sucesivamente. Además, este capítulo da muchas aplicaciones estadísticas usando el programa Minitab. El capítulo 5 habla de estimación, es decir, estimación puntual, por intervalos, determinación del tamaño de la muestra y así sucesivamente. En seguida, el Capítulo 6 discute prueba de hipótesis, es decir, para los parámetros de la distribución normal; pruebas de hipótesis para variables no normales, prueba de hipótesis sobre el parámetro de Bernoulli, pruebas de bondad de ajuste, gráficos de probabilidad normal, y así sucesivamente. Además, este capítulo da muchas aplicaciones usando Minitab y Excel. Más adelante, el Capítulo 7 está relacionado con el análisis de varianza (ANOVA). Este capítulo discute las propiedades y suposiciones del modelo de ANOVA, diseños de ANOVA, esto es, de una clasificación y diseños de bloques completamente aleatorizados, también discute modelos factoriales de dos, tres y hasta cuatro clasificaciones de efectos fijos y estudia la interpretación del problema de interacción. En seguida, el Capítulo 8 está relacionado con regresión lineal simple y múltiple, aquí se discute las propiedades de los estimadores de mínimos cuadrados, inferencias acerca de los coeficientes de regresión, los procedimientos para evaluar la calidad de los modelos de regresión seleccionados usando diagnósticos o criterios estadísticos (R2, PRESS, s, criterio Cp, etc.) y de diagnósticos gráficos de residuales, procedimiento de ANOVA y así sucesivamente. Igualmente, este capítulo describe aplicaciones muy profundas usando programas como Minitab. El Capítulo 9 está relacionado con regresión polinomial o no lineal, la cual incluye modelos polinomiales de segundo y tercer orden, con una variable independiente y con más de dos variables regresivas. Este capítulo también habla de modelos de regresión no lineales de regresión logística y de modelos exponenciales paramétricos, con una sola variable independiente, también trata el problema de autocorrelación, de análisis gráficos para diagnosticar colinealidad y las medidas para mitigar estos problemas. Finalmente discute transformaciones para corregir las violaciones a las suposiciones del análisis de regresión y así sucesivamente. En el CD encontrarás series de tiempo y sus componentes, como gráficas de series de tiempo, análisis de tendencia, etcétera. Este libro incluye, varios apéndices con tablas de distribuciones binomiales, de Poisson, normal, de t de Estudiante, de F, de ji-cuadrada, etc., es decir, contiene 44 tablas de las funciones probabilísticas y de papel de gráfica. Igualmente, incluye una lista de muchas referencias bibliográficas. También se proporciona una sección (en CD) de varios ejemplos usando Excel. En este rubro se dan muchos ejemplos de problemas resueltos usando el programa Minitab, es decir, describiendo su uso y el de Excel con minuciosidad algo presentado por muy pocos libros de estadística. Finalmente, esta obra, también da una sección con las respuestas a todos los problemas impares. Para concluir, debe decirse que, ésta es una obra de estadística diseñada para los estudiantes de ingeniería ambiental, demás ingenierías y de la ciencia en general. También, esta obra clásica de probabilidad y estadística está diseñada para todos aquellos investigadores que deseen encontrar, prácticamente, todos los conceptos de la probabilidad y estadística que les puedan ayudar en el desarrollo de su profesión de ingeniería, en la investigación o cualquier otra área de la ciencia en general. Igualmente, este libro está diseñado para todas aquellas personas que estén interesadas en conocer los impactos de la dinámica científica, climatológica, económica, política, social y de salud, por la que en la actual está pasando la humanidad.

Contenido Capítulo 1 Estadística descriptiva 1 Efectos de la radiación UVB 1 Introducción 2 1.1 Clasificación de la estadística 2 1.2 Clasificación de variables: tipo de datos 3 1.3 Medidas de tendencia central o de localización 4 1.3.1 Media aritmética 4 1.3.2 Mediana 5 1.3.3 Moda 6 1.3.4 Media geométrica 7 1.3.5 Media armónica 8 1.3.6 Cuartiles 8 1.4 Medidas de variabilidad o dispersión 9 1.4.1 Rango 10 1.4.2 Rango intercuartílico 10 1.4.3 Varianza 11 1.4.4 Desviación estándar 12 1.5 Distribuciones de frecuencia 12 1.5.1 Frecuencia absoluta 13 1.5.2 Frecuencia relativa 15 1.5.3 Frecuencia acumulada 16 1.6 Métodos gráficos 18 1.6.1 Diagrama de tallo-hoja 18 1.6.2 Histograma 19 1.6.3 Polígonos de frecuencia 20 1.6.4 Diagrama de cajas 21 1.6.5 Simetría 23 1.7 Media y varianza con datos agrupados 24 1.8 Instrucciones para el uso de Excel en estadística descriptiva 25 1.8.1 Medidas de tendencia central y de dispersión con Excel 27 1.8.2 Tabla de frecuencias con Excel 28 1.8.3 Gráficas con Excel 29 1.8.4 Uso de Minitab para el diseño de gráficas 29 1.9 Instrucciones para el uso de Minitab en estadística descriptiva 31 1.9.1 Estadísticas descriptivas usando Minitab 31 1.9.2 Diagramas de caja con Minitab 32 1.9.3 Diagrama de tallo-hoja con Minitab 33 1.9.4 Gráficas de frecuencia relativa acumulada (ojivas) usando el Minitab 34 Problemas propuestos 36

Capítulo 2 Introducción a la probabilidad 38 Introducción 38 2.1 Conceptos básicos 39 2.1.1 Diagramas de Venn 41 2.2 Introducción axiomática de la probabilidad 46 2.3 Espacios muestrales equiprobables 48 2.4 Técnicas de conteo 50 2.4.1 La regla del producto para pares ordenados 50 2.4.2 Regla de multiplicación más general 50 2.4.3 Permutaciones 53 2.4.4 Combinaciones 56 2.5 Probabilidad condicional 60 2.6 Teorema de Bayes 62

2.7 Eventos independientes 65 Problemas propuestos 72

Capítulo 3 3.1 Variables aleatorias discretas 76 3.2 Probabilidad de una variable aleatoria 77 3.2.1 Función de densidad y función de distribución acumulada 77 3.2.2 Funciones de densidad conjuntas y marginales 80 3.2.3 Funciones de densidad condicional y variables aleatorias independientes 82 3.3 Esperanza matemática de una variable aleatoria discreta 84 3.3.1 Valor esperado de una variable aleatoria 85 3.3.2 Varianza de una variable aleatoria 87 3.3.3 Covarianza 89 3.3.4 Función generatriz de momentos 92 3.4 Función de distribución uniforme discreta 93 3.5 Función de distribución Bernoulli 94 3.6 Función de distribución binomial 96 3.6.1 Definición y propiedades 96 3.6.2 Cálculo de la distribución binomial usando Excel 100 3.6.3 Cálculo de la distribución binomial usando Minitab 102 3.6.4 Ejemplos 104 3.7 Función de distribución acumulada binomial negativa 113 3.7.1 Definición y propiedades 113 3.7.2 Relación de las funciones de densidad binomial negativa y binomial 116 3.7.3 Cálculo de la distribución binomial negativa usando Excel 117 3.8 Función de distribución geométrica 119 3.9 Distribución hipergeométrica 120 3.9.1 Definición y propiedades 120 3.9.2 Relación entre las distribuciones hipergeométrica y binomial 122 3.9.3 Cálculos de la distribución hipergeométrica usando Excel 123 3.9.4 Cálculos de la distribución hipergeométrica usando el Minitab 124 3.10 Función de distribución Poisson 127 3.10.1 Definición y propiedades 127 3.10.2 Aproximación de la distribución binomial mediante la distribución Poisson 131 3.10.3 Cálculo de la distribución Poisson usando Excel 131 3.10.4 Instrucciones para la distribución Poisson usando Minitab 132

Contenido

3.10.5 Ejemplos de la función de distribución Poisson 134 Problemas propuestos 141

Capítulo 4

Introducción 143 1.4 Probabilidad de una variable aleatoria continua 144 4.1.1 Función de densidad y función de distribución 144 4.1.2 Funciones de densidad conjuntas y marginales 148 4.1.3 Densidad condicional y variables aleatorias independientes 150 4.2 Esperanza matemática de una variable aleatoria continua 151 4.2.1 Valor esperado de una variable aleatoria 151 4.2.2 Varianza de una variable aleatoria 152 4.2.3 Covarianza 154 4.2.4 Función generatriz de momentos 158 4.3 Distribución uniforme continua 159 4.4 Distribución exponencial 161 4.5 Distribución gamma 163 4.5.1 Función gamma 163 4.5.2 Función de densidad gamma 164 4.6 Distribución Weibull 168 4.7 Distribución normal 170 4.7.1 Definición y propiedades 170 4.7.2 Cálculo de probabilidades normales 173 4.7.3 Cálculos con la distribución normal inversa 177 4.8 Teorema del límite central 182 4.8.1 Presentación 182 4.8.2 La distribución normal como aproximación de la distribución binomial 186 4.9 Distribución lognormal 189 4.10 Distribuciones derivadas de la normal 192 4.10.1 La distribución ji-cuadrada 192 4.10.2 La distribución t de Student 194 4.10.3 La distribución F 196 4.11 Cálculo de las funciones de distribución acumuladas continuas usando Excel 197 4.11.1 Presentación 197 4.11.2 Ejemplo de uso de tablas y gráficas de funciones de probabilidad 198 4.12 Cálculo de distribuciones continuas usando el programa Minitab 200 4.12.1 Cálculo de los valores de la funciones de densidad y de distribución normal 200 4.12.2 Cálculo de los valores de la función de distribución exponencial 202 4.12.3 Cálculo de los valores de la función de distribución acumulada gamma 204 4.12.4 Cálculo de los valores de la función de distribución lognormal 205 4.12.5 Cálculo de los valores de la función de distribución acumulada Weibull 207 Problemas propuestos 209

Capítulo 5

Estimación 213 Introducción 213 5.1 Estimación puntual 214 5.1.1 Introducción 214 5.1.2 Propiedades de los estimadores 215

| vii

5.1.3 Método de máxima verosimilitud 223 5.1.4 Propiedades de los estimadores de máxima verosimilitud 226 5.1.5 Estimadores de máxima verosimilitud de los parámetros de la distribución normal 227 5.2 Estimación por intervalos 230 5.2.1 Introducción 230 5.2.2 Intervalo de confianza para los parámetros de la normal 231 5.2.3 Intervalos de confianza para el parámetro de la distribución Bernoulli 247 5.2.4 Intervalos de confianza de los parámetros de la normal y de distribución Bernoulli usando Minitab 249 Problemas propuestos 254

Capítulo 6 Prueba de hipótesis 256 Introducción 256 6.1 Conceptos básicos 257 6.1.1 La idea detrás de hacer pruebas de hipótesis 264 6.1.2 El valor de p en la toma de decisiones 265 6.2 Pruebas uniformemente más potentes 270 6.3 Tipos de prueba 279 6.4 Prueba de hipótesis para los parámetros de la normal 281 6.4.1 Prueba para la media 281 6.4.2 Prueba de diferencia de medias 286 6.4.3 Prueba para la varianza 291 6.4.4 Prueba de hipótesis sobre la igualdad de dos varianzas 292 6.5 Prueba de hipótesis sobre el parámetro de Bernoulli 293 6.5.1 Prueba de hipótesis sobre una proporción 293 6.5.2 Pruebas de hipótesis para la diferencia de dos proporciones p1 2 p2 295 6.6 Pruebas de bondad de ajuste 296 6.6.1 Prueba ji-cuadrada (χ2) 297 6.6.2 Prueba de Kolmogorov-Smirnov (K-S) 303 6.6.3 Gráficos de probabilidad normal 304 6.7 Uso de Minitab y Excel para las pruebas de hipótesis de la media de la normal 307 6.7.1 Prueba de hipótesis para μ con Minitab 307 6.7.2 Prueba de hipótesis para μ1 2 μ2 con Minitab 311 6.7.3 Prueba de hipótesis para diferencia de medias con Exel 312 Problemas propuestos 314

Capítulo 7 Análisis de varianza (ANOVA) 321 Introducción 321 7.1 Análisis de varianza simple 322 7.1.1 Propiedades y suposiciones en el análisis de varianza (ANOVA) 322 7.1.2 Diseños de análisis de varianza completamente aleatorizados 322 7.1.2 Análisis subjetivos (gráficos) de los residuales para revisar por la adecuación del modelo de ANOVA 324 7.1.3 Método de comparaciones múltiples para saber cuáles poblaciones son iguales y cuáles son desiguales 329

viii

| Estadística para ingeniería y ciencias

7.1.4 Uso del programa Minitab para resolver problemas de ANOVA de una clasificación 331 7.2 Análisis de varianza de diseño de bloques completamente aleatorizados 333 7.2.1 Suposiciones del modelo de bloques aleatorios completos 335 7.2.2 Uso de Excel para resolver problemas de diseños aleatorizados de bloques completos 336 7.3 Clasificaciones cruzadas: Análisis de varianza en dos sentidos 338 7.3.1 Interacción con ANOVA de dos factores 338 7.4 Problemas de ANOVA de dos clasificaciones usando el programa Minitab 343 7.5 Análisis de varianza de tres sentidos: diseño completamente aleatorizado (efectos fijos) 346 7.5.1 Interacción con ANOVA de diseños factoriales de tres clasificaciones 347 7.5.2 Uso del programa para resolver análisis de varianza de tres clasificaciones con efectos fijos 349 Problemas propuestos 354

Capítulo 8 Regresión lineal simple y múltiple 359 Introducción 359 8.1 Regresión lineal simple 360 8.1.1 Suposiciones del modelo de regresión lineal 360 8.1.2 Aplicación de análisis objetivos estadísticos para la evaluación del modelo de regresión 361 8.1.3 Aplicación de análisis gráficos subjetivos para la evaluación del modelo de regresión 363 8.2 Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente b de la curva o línea de regresión manualmente 364 8.2.1 Cálculo del coeficiente de determinación R 2 de la muestra que estima a r2 el coeficiente de determinación poblacional 365 8.2.2 Cálculo manual del coeficiente de correlación R de la muestra que estima a r, el coeficiente de correlación poblacional 365 8.2.3 Tipos de correlación lineal 366 8.2.4 Intervalo de confianza para el coeficiente poblacional b componente de la línea de regresión mY|X 5 a 1 bX, estimado por b, la pendiente de la línea 367 8.2.5 Intervalo de confianza para el parámetro poblacional a, el intercepto de la ordenada de la línea de regresión mY|X 5 a 1 bX, cuyo estimador es a 367 8.2.6 Hipótesis nula H0: b 5 b0 contra las hipótesis alternativas H1: b , 1 y H2: b . 2 368 8.2.7 Hipótesis nula H0: a 5 a0 contra las hipótesis alternativas H1: a ≠ a0, H2: a . a0 y H3: a , a0 368 8.2.8 Intervalo de confianza para mY|X de la línea poblacional estimada por Y 368 8.2.10 Hipótesis nula de H0: a 5 a0 contra las hipótesis alternativas H1: a . 0 y H2: a , 0 369 8.2.9 Hipótesis nula de H0: 0 contra las hipótesis alternativas H1: b . 0 y H2: b , 0 369 8.2.11 Pruebas de hipótesis H0: r 5 0, contra las

hipótesis alternativas H1: r ≠ 0, para el coeficiente de correlación poblacional r estimado por R 370 8.3 Regresión y correlación lineal múltiple 377 8.3.1 Modelo de regresión múltiple generalizado 378 8.3.2 Modelo de regresión múltiple con más de dos variables independientes 378 8.3.3 Cálculos y aplicaciones de regresión lineal simple usando el programa Minitab 379 8.3.3 Cálculos y aplicaciones de regresión múltiple usando el programa Minitab 380 Problemas propuestos 386

Capítulo 9 Regresión no lineal 393 9.1 Introducción 394 9.2 Modelo de regresión polinomial paramétrico o poblacional 394 9.3 Modelos polinomiales de segundo orden (k 5 2) con una variable independiente 394 9.4 Modelo de polinomios de tercer orden (k 5 3) con una variable independiente 395 9.5 Interacción en los modelos polinomiales de regresión 396 9.5.1 Modelo de segundo orden (cuadrático) con interacción 396 9.6 Modelo polinomial (de segundo orden o cuadrático) con tres variables independientes sin interacción 397 9.6.1 Modelo polinomial (de segundo orden o cuadrático), con tres variables independientes con interacción 397 9.7 Evaluación de la utilidad de los modelos de regresión 398 9.7.1 Análisis de estadísticos como R 2, s, criterio Cp y PRESS, para evaluar la utilidad del modelo polinomial 399 9.8 Resumen de los modelos de regresión usados 401 9.9 Prueba estadística para comparar la suma de los cuadrados del error (SSE) de cada modelo probado, para saber cuál modelo es superior 404 9.10 Cálculos y aplicaciones de regresión cuadrática con el programa Minitab 409 9.11 Procedimientos para la identificación de valores atípicos extremos, también conocidos como “outliers” 416 9.11.1 Procedimientos para identificar valores extremos 416 9.12 Diagnóstico de multicolinealidad 416 9.12.1 Medidas para corregir multicolinealidad severa 418 9.13 Autocorrelación en datos de series de tiempo 422 9.14 Heteroscedasticidad y homoscedasticidad 425 9.14.1 Prueba de White para el problema de heteroscedasticidad 426 9.15 Transformaciones a las variables de los modelos probabilísticos de regresión, para corregir las violaciones a las suposiciones del análisis de regresión 427 9.16 Valores inusuales extremos, su identificación y sus consecuencias 427 Problemas propuestos 429 Bibliografía B-435 Índice analítico I-437

Capítulo

1

Estadística descriptiva Efectos de la radiación UVB •

Efectos sobre la piel: Las radiaciones UV entre 290 y 320 nm se denominan B (UVB) y son las responsables de los efectos biológicos más importantes de dichas radiaciones en el ser humano. Tienen efectos nocivos sobre la piel a corto y largo plazos. El enrojecimiento de la piel (eritema solar), desde leve a quemaduras importantes, es el principal efecto nocivo inmediato. Los efectos a largo plazo suelen ser infravalorados por el público debido a que tardan años en producirse, pues no existen anormalidades inmediatas en la piel que alerten a las personas de su inadecuada exposición a la luz del Sol. Destacan la mayor frecuencia de cánceres cutáneos y el envejecimiento prematuro de la piel. Sin embargo, la radiación UV sólo constituye un riesgo para la salud cuando el ser humano se somete repetidamente, durante años, a exposiciones excesivas para su tipo de piel. El riesgo ante la radiación UV disminuye a medida que aumenta el grado de pigmentación natural de la piel del ser humano; es máximo en pieles muy blancas y mínimo en personas de piel negra.

•

Efectos sobre el ojo: De los efectos de la radiación UVB sobre el ojo cabe mencionar que aunque no se haya probado de forma absoluta, existen muchas evidencias científicas del daño que la radiación UVB puede hacer en las delicadas estructuras oculares. La afección más frecuente, en el mundo desarrollado, capaz de producir ceguera es la catarata, y no hay muchas dudas de la influencia de este tipo de radiaciones en el desarrollo de la misma. Además, 10% de las personas mayores de 65 años de nuestro medio padecen una lesión en la zona de máxima visión, denominada degeneración macular, ligada a la edad en cuya producción también interviene la radiación ultravioleta. Por último, uno de los cánceres oculares más frecuentes, llamado melanoma de úvea, está en franco aumento y se supone que tiene una relación directa con la luz solar. Fuente: http://www.solysalud.org./sys/radiacion/fradiacion.html

La explicación anterior cita los efectos en la salud del hombre debido a la radiación ultravioleta (UV) procedente del Sol. Antes del advenimiento de la era industrial, la capa de ozono estratosférico tenía como función principal proteger a los seres vivos de la dañina radiación ultravioleta. Sin embargo, en tiempos modernos esta capa natural de ozono se ha reducido por las emisiones de sustancias químicas como los clorofluorocarbonos y óxidos de nitrógeno, entre otros. En el hombre, los efectos en la salud más notables son el cáncer de piel, la inhibición del sistema inmune, las cataratas, etc. Según las estadísticas de la Organización Mundial de la Salud (oms) se estima que más de 2 millones de casos de cáncer de piel se presentan en todo el mundo cada año, de los cuales 200 000 corresponden a melanomas de carácter maligno. La oms también ha determinado que la sobreexposición a los rayos solares es responsable de un 20% de los 12 a 15 millones de casos de cataratas en el mundo. Según la oms, la exposición prolongada a la radiación ultravioleta se asocia con casos de fotoqueratitis y fotoconjuntivitis, y en algunas personas con la degeneración de la retina, tal como es el caso de las máculas oculares. Según el reporte de la oms, la radiación ultravioleta también debilita el sistema inmunológico, por tanto aumenta el riesgo de contraer enfermedades infecciosas. Los factores que intervienen en los efectos de la radiación UV son el nivel de reducción de la capa de ozono, la hora del día, la época del año, la latitud, la altitud, las condiciones climáticas, la luz reflejada, etcétera.

| Estadística para ingeniería y ciencias

Introducción El propósito de este capítulo es presentar y estudiar los principales tópicos de la estadística descriptiva. La palabra estadística se deriva del latín status que significa “estado”. En términos generales, la estadística descriptiva está relacionada con el arreglo, el resumen y la presentación de datos, de tal manera que la información sea extraída y entendida con facilidad. Asimismo, se discuten igualmente las medidas de tendencia central como la media, la mediana y la moda. Se discute igualmente, las medidas de variabilidad como la varianza, la desviación estándar y el rango, y la elaboración de tablas de frecuencia y algunos métodos gráficos. Estas técnicas tienen como finalidad desarrollar en los estudiantes su pensamiento estadístico. El propósito de los autores en este capítulo es explicar sus tópicos de manera sencilla y auxiliándose de varios ejemplos propuestos y ejercicios. En un esfuerzo para introducir a los estudiantes en el uso de la computadora como herramienta del análisis estadístico, al final del capítulo se da una explicación detallada de cómo usar los programas Minitab y Excel para obtener los cálculos de los conceptos vistos en este capítulo. Muchos estudiantes de ingeniería ambiental, medicina, economía, biología y todas las demás disciplinas de ingeniería, encontrarán numerosas oportunidades de hacer de la estadística descriptiva presentada en este capítulo una herramienta valiosa.

1.1 Clasificación de la estadística La estadística es el conjunto de métodos utilizados para coleccionar, resumir, organizar, presentar y analizar la información contenida en un conjunto de datos. Por otro lado, el término estadística también se refiere a la obtención de conclusiones válidas y a la toma de decisiones razonables, con base en el análisis de los datos. En el campo de la ingeniería ambiental y las ciencias experimentales es indispensable usar la estadística en el diseño de plantas de aguas residuales e industriales, chimeneas industriales, equipo de control de la contaminación, pruebas de rutina de laboratorio, trabajos de investigación y producción de calidad y construcción, entre otros. La estadística se clasifica en dos grandes rubros: estadística descriptiva y estadística inferencial, términos que se pueden definir como: Estadística descriptiva. Conjunto de métodos que se utilizan para organizar, clasificar y presentar la información contenida en los datos por medio de gráficas o tablas, así como el conjunto de medidas para indicar su dispersión y su localización. Esta rama de la estadística presenta una descripción de la información contenida en los datos. Estadística inferencial. Conjunto de métodos que se utilizan para deducir alguna característica de la población con únicamente información parcial. Con esta rama de la estadística se infiere cómo es la población de donde se obtuvo un subconjunto de datos. Para entender mejor la diferencia de estos dos tópicos, es importante conocer el significado de los conceptos de población y muestra. Definición 1.1. La población es el conjunto objetivo de estudio o conjunto de unidades de interés.

Capítulo 1 Estadística descriptiva

|

Por ejemplo, en un estudio sobre ingreso, la población puede ser representada por los habitantes de un país. Mientras que en un estudio sobre producción agrícola, la población puede ser las hectáreas de cultivo en un estado determinado. Además, una población puede ser finita o infinita. Por ejemplo, la población consistente de todos los tornillos producidos en una fábrica, durante un día, es finita. En contraste, la población consistente de todos los posibles resultados (caras o águilas) de los lanzamientos sucesivos de una moneda es infinita. A menudo es imposible, impráctico o caro, observar todas las unidades de la población; por ello, en lugar de examinar el grupo en su totalidad, es conveniente hacerlo sólo con una parte de la población llamada muestra. Definición 1.2. La muestra es un subconjunto de la población. La estadística estudia las muestras elegidas a través de un proceso aleatorio. Los métodos de la estadística descriptiva proporcionan únicamente la descripción de los datos muestrales. Los métodos de estadística inferencial proporcionan deducciones de la población total utilizando únicamente los datos de la muestra. Por ejemplo, al estudiar un nuevo colorante para telas de algodón se pueden hacer mediciones de la resistencia del colorante en sólo 10 piezas de un metro del material. La muestra consiste en las 10 piezas de algodón tratadas con el colorante. La población consta de todas las piezas de algodón posibles de un cierto tipo que pudieran ser tratadas con el nuevo colorante. Al estudiar las 10 piezas de algodón se puede hacer una descripción del efecto del colorante en esas 10 piezas, o se pueden hacer inferencias del efecto del colorante en cualquier otra pieza de algodón de la población. En otras palabras, la estadística inferencial se refiere al proceso de sacar conclusiones acerca de una población basándose en una muestra obtenida por un proceso aleatorio (al azar), de tal manera la exactitud de los resultados se mide mediante la probabilidad. Por tanto, para hacer un estudio adecuado de la estadística inferencial se deben conocer las bases de la teoría de probabilidades. Las técnicas utilizadas en la estadística inferencial son: la estimación de parámetros y las pruebas de hipótesis, que se estudiarán más adelante.

1.2 Clasificación de variables: tipo de datos La materia prima de la estadística son los datos recolectados y el análisis que se pueda hacer de estos datos depende de sus características, por lo que se deben conocer los niveles de medición de los datos. La primera clasificación de los datos es cualitativo y cuantitativo. El sexo, el estado civil y el tono de un colorante son datos cualitativos; la edad, el peso y el tiempo de duración de un proceso son datos cuantitativos. Los datos cualitativos, a su vez, se clasifican en datos nominales y datos ordinales. Los datos ordinales, a pesar de no ser datos numéricos, presentan un orden natural; por ejemplo, la clasificación taxonómica de los animales en Biología (peces, anfibios, reptiles, aves, mamíferos); el tono de un tinte (más claro o más oscuro); etc. Los datos nominales son aquellos que no presentan un orden establecido; por ejemplo, las licenciaturas que ofrece una escuela. Los datos cuantitativos, a su vez, se clasifican en datos de intervalo y datos de razón. Los datos de intervalo son aquellos donde el cero tiene una posición arbitraria, el ejemplo más común es el de la temperatura, ya que de la escala depende la posición del cero. El cero en la escala Kelvin no tiene la misma posición que en la escala Celsius. Los datos de razón son datos en los que el cero está bien determinado; por ejemplo, el número de hijos,

« ® ® ® « ® ® ® ® ® ® ® ® ® ® ® ® ® ® ¬ ® ® ® ® ¬ ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ®

« ® ® ® ® ® ® ® ® ¬ ® ® ® ® ® ® ® ®

« ® « para ingeniería y ciencias ® |« Estadística ® ® « « ® ® ® ingreso, ® de lluvia en el año; si una unidad muestral tiene el valor cero, implica que carece de la cua« el la cantidad « ® ® ® ® ® « ® ® lidad. Los® diferentes valores de una variable de razón se pueden comparar mediante una razón; por ejemplo, si ® ® ® « ® ® ® ® « ® « ® persona ® ® una tiene dos hijos y otra tiene cuatro, la razón es de uno a dos, una tiene el doble de hijos que la otra. ® ® ® ® ® « ® ® ® ® ® ® ® « « ® ® ® ® ® ® ® ® ® ® ® « de intervalo ® « ® ® ® ® ® ® « « cuantitativas ¬ ¬ ¬ ¬ ¬ ® ¬ ¬ ¬ ® ® ® ® de razón ® « ® ® ® « ® ® ® ® ® ® ® ® ® ® ® « ® ¬ ® ® ¬ ® ® ¬ Variables ® ¬ ® ¬ ® ¬ ® ® ® « nominales ® ® ® ® ® ® ® ® ® ® ® ® ® cualitativas ¬ ¬ ¬ ¬ ¬ ¬ ¬ ¬ ® ® ® ® ordinales ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® ® 1.1. Clasificación de las variables. ® Figura ® ® ® ® ® ® ® ® ® ® ® cuantitativas ® ® Las variables se pueden clasificar en discretas o continuas. Los valores que toma una variable ® ® ® ® ® ® ® aleatoria discreta se puedencontar o enumerar, como el número de hijos. Los valores que toma una va® ® ® ® ® ® ® riable aleatoria continua se pueden medir; por ejemplo, la cantidad de leche producida en una región. Las ® ® continuas variables toman valores en un conjunto continuo. La clasificación de variables en discreta y continua ® tiene ® mayor significado al estudiar los conceptos de probabilidad.

[

[

[

1.3 Medidas de tendencia central o de localización Las medidas de tendencia central son valores que indican la posición que tienen los datos; es decir, una medida de localización se puede ver como un representante de la posición de los datos.

1.3.1 Media aritmética Definición 1.3. La media aritmética es el promedio común de los datos; esto es, dados los datos x1, x2, . . . , xn su media aritmética es x5

x1 1 x2 1 … 1 xn n

5

1 n ∑x n i=1 i

La notación para la media aritmética es con una raya sobre la variable, por ejemplo: La media aritmética de la variable x se denota como x–. La media aritmética de la variable y, se denota como y–, etcétera. Ejemplo 1.1. Encontrar la media aritmética de los siguientes datos: 3, 5, 9, 4, 6. Solución: Con la ecuación (1.1) y sustituyendo los valores se obtiene: x5

315191416 27 5 5 5.4 5 5

Esto significa que los datos están posicionados alrededor de 5.4.

(1.1)

Capítulo 1 Estadística descriptiva

|

Ejemplo 1.2. Encontrar la media aritmética de una muestra de observaciones de ciertos análisis de aguas, cuyos valores son 8, 3, 5, 12, 10. Solución: x5

8 1 3 1 5 1 12 110 38 5 5 7.6 5 5

Como se puede ver, la media aritmética únicamente tiene sentido cuando se calcula con variables cuantitativas o numéricas.

1.3.2 Mediana A continuación se da la definición de mediana: Definición 1.4. La mediana es el valor que se encuentra en el centro cuando se han ordenado los datos. La mediana se denota con la letra M.

Para determinar la mediana se deben ordenar primero los datos, por ello sólo se puede calcular a variables cuantitativas o a variables cualitativas ordinales. ( n11) La posición de la mediana se calcula con la fórmula , donde n es el número de datos. Si el resul2

5 1dato 1) que ocupa esa posición; si el resultado de la tado de esta fórmula es un entero, entonces, la mediana es(el fórmula es fraccionario, la mediana es el promedio entre los valores que se encuentran en las posiciones de los 2 ( ) 6 1 1 enteros más cercanos al resultado de la fórmula. 2 ( 6 1 8) Ejemplo 1.3. Determinar la mediana de los datos 8, 3, 5, 2 12, 10. (10 11) Solución: 2 Primero se ordenan los datos de menor(5a1 mayor, 5) 2( n11) 3, 5, 8, 10, 12 2 (5 11) La mediana es el dato que está en el lugar 5 3, 3 es entero; entonces, es el tercer 2 dato en orden creciente: M 5 8. (6 11) Si el número de datos es par, entonces, la mediana es el promedio de los dos datos 2 del centro. ( 6 1 8) 2 Ejemplo 1.4. Encontrar la mediana de los datos 8, 3, 5, 12, 10, 6. (10 11) 2 Solución: (5 1 5) Primero se ordenan los datos de menor a mayor, es decir: 2

3, 5, 6, 8, 10, 12

( n11) ( n121) (5211) (5 121) (6211) Hay 6 datos, entonces la fórmula es(6 11) 5 3.5, esto significa que la mediana es el 2 promedio de los datos que están en los(62lugares 1 8) 3 y 4, esto es, el promedio de 6 y 8, que (6 128) son los datos centrales. Mediana 5 5 7. 2 11) (10 (10 121) (521 5) (5 125) Moda 2

| Estadística para ingeniería y ciencias

1.3.3

Definición 1.5. La moda de un conjunto de datos es el valor que ocurre con más frecuencia y se denota como Mo. La moda se calcula a datos cuantitativos o cualitativos, y a diferencia de la media aritmética o de la mediana, no necesariamente es un valor único. Si los datos aparecen una sola vez, se dice que no tienen moda. Ejemplo 1.5. Se tiene los datos del tipo de sangre de 9 personas. Obtener su moda. A, A, B, AB, A, O, AB, B, B Solución: Para obtener la moda de estos datos primero se agrupan por tipo de sangre. A A A AB AB B B B O Los datos tienen dos modas, el tipo de sangre A y el tipo de sangre B, pues la frecuencia de ambos tipos es igual a 3 y es la máxima frecuencia. Observe que con los datos de tipo de sangre no es posible calcular la media aritmética o la mediana, pues no se pueden sumar ni ordenar Ejemplo 1.6. Los datos 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tienen una moda igual a 9, es decir, el valor que ocurre con más frecuencia. Ejemplo 1.7. Los valores 3, 5, 8, 10, 12, 15, 16 no tienen moda. Ejemplo 1.8. La muestra de observaciones 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas, 4 y 7, por tanto es bimodal. Ejemplo 1.9. Encontrar la media aritmética, la mediana y la moda para la muestra del análisis de plomo en el aire, la cual está medida en partes por millón (ppm): 3, 5, 2, 6, 5, 9, 5, 2, 8, 6 Solución: La media aritmética es

| ( n11) 2 ( n11) (5 11) 3 125 1 2 1 6 1 5 1 9 1 5 1 22 1 8 1 6 x5 5 5.1 ppm (5 11) (6 11) 10 2 2 • Para obtener la (mediana (6 12,1)2, 3, 5, 5, 5, 6, 6, 8, 9; el lugar 6 1 8) se ordenan los datos: ( n11) donde se encuentra2la mediana es . Como2 son 10 datos, entonces la mediana 2 ( 6 1 8) (10 11) está en el lugar 5 5.5. (5 11) 2 2 2 (10 11) 1 5) • La mediana es el(5promedio entre los datos los lugares 5 y 6. (6 1 1) que ocupan 2 2 2 (5 1 5) La mediana(es M 5 5 5. 6 1 8) 2 2 • Para obtener la moda se utiliza la lista de datos ordenados, en la que se muestra que (10 11) el 5 aparece más veces, entonces, la moda es Mo 5 5. 2 (5 1 5) Ejemplo 1.10. Encontrar la media aritmética, la mediana y la moda de los datos: 48.7, 48.8, 49.5, 2 Capítulo 1 Estadística descriptiva

50.3, 51.6. Solución:

• La media es x– 5 49.8. • La mediana es M 5 49.5. • La moda Mo no existe.

1.3.4 Media geométrica Definición 1.6. La media geométrica se calcula con la fórmula:

(1.2)

La media geométrica es útil para promediar tasas de crecimiento (aumento o decremento) de una muestra estadística. Esta medida de localización sólo se calcula en datos numéricos positivos. Un resultado importante de esta medida de localización es que el logaritmo de G es igual a la media aritmética de los logaritmos de los datos. Al calcular el logaritmo de (1.2), se obtiene:

log(G) 5

3

n

…

n

5 log( x)

Ejemplo 1.11. Encontrar la media geométrica de los valores 3, 5, 6, 6, 7, 10, 12. Solución: G5 7 3 3 5 3 6 3 6 3 7 310 312 5 7 3 3 5 3 6 3 6 3 7 310 312 5 6.43

(1.3)

| Estadística para ingeniería y ciencias

1.3.5 Media armónica La media armónica (MA) de un juego n de números x1, x2, x3, . . . , xn es el recíproco de la media aritmética de los recíprocos de los números. Definición 1.7. La media armónica de los datos x1, x2, . . . , xn se define como: MA 5

n

∑

n

1 / xi i =1

(1.4)

Ejemplo 1.12. Calcular la media armónica de los números 2, 3, 7. Solución: El promedio armónico de los números 2, 3, 7 se calcula usando la fórmula 1.4: MA5

3 5 3.07 1 1 1 1 1 2 3 7

Es importante mencionar que las medidas de localización más utilizadas son la media aritmética, la mediana y la moda, por esta razón, a la media aritmética se le denota simplemente como media. Nota: La relación entre las medias aritmética, geométrica y armónica es la siguiente: La media geométrica de un juego de valores positivos x1, x2, . . . , xn es menor o igual que su media aritmética, pero mayor o igual que su media armónica. Esta relación en símbolos se denota como: MA # G # x–.

1.3.6 Cuartiles Los cuartiles son medidas que indican la posición de los datos sin que ésta sea central. Definición 1.8. Los cuartiles son tres datos, Q1, Q2, Q3, que dividen a la muestra en cuatro partes iguales cuando se han ordenado previamente.

• E l primer cuartil, Q1, es la mediana de la mitad de los datos más chicos y se localiza en la posición ( n11) ( m11) , donde m es la parte entera del resultado de la fórmula . 2 2 (5 11) 11) Q , coincide con la mediana; esto es, Q 5 M. • El segundo(4cuartil, 2 2 2 2 • El tercer cuartil, Q , es la mediana de la mitad de los datos mayores y se encuentra localizado en (6 11) ( 3 1 4) 3 ( m11) 2 la posición 2 , contando los datos en forma descendente. ( 6 1 8) (6 1 72) (4 11) ( m11) • De acuerdo 2con el resultado de la fórmula , los cuartiles se calculan2 siguiendo la misma 2 2 (10 11) ( 9 1 1 ) regla que se utilizó para encontrar la mediana. (23 1 4) (4 11) 2 2 (5 1 5) (5 112) (26 1 7) ( 3 1 4) 2 2 2

dada por

Capítulo 1 Estadística descriptiva

|

Ejemplo 1.13. Calcular los tres cuartiles de 3, 7, 5, 2, 4, 5, 6, 8. Solución: Primero se deben ordenar los datos en forma ascendente. 2, 3, 4, 5, 5, 6, 7, 8 Hay ocho datos, n 5 8. 9 ( n11) 5 5 2 2 (5 1 5) (5 11) 9 La mediana es el promedio de los datos que están en los lugares 4 y 5. 2 2 2 (6 11) (5 1 5) Mediana 5 Q2 5 55 2 2 ( 6 1 8) ( n11) 2 ( m1 1) La parte entera de 5 4.5 es m 5 4, la posición del primer cuartil es: 2 ( 10 11) 2 (5 11) 2 (4 11) ( m11) 5 5 2.5 ( m1 1 ) 2 ( 5 1 5) 2 2 (6 11) 2 2 ( 3 1 4) (4 11) (4 11en ) los lugares 2 y 3. El primer cuartil es el 2promedio de 2los datos que 2 están ( 6 1 8) 2 (6 1 7()m11) ( 3 1 4) 2 2 4) 5 3.5 2 cuartil 25 (3 1 Q1 5 Primer (10 11) 2 1) (9 11)(4 1 (6 1 7) ( 6 1 2 2 7) 2 están 2 datos que El tercer cuartil es el de los en los lugares 2 y 3 en la orde(5promedio 1 5) 2 4) (5 11)(3 1 (9 11) nación de mayor a menor: 2 2 1) 2 (9 1 2 2 7) (5 11) cuartil 5 (6 1 Q3 5 Tercer 5 6.5 ( 5 1 2 1) 2 2 1) (9 1

La posición del segundo cuartil o mediana se calcula con la fórmula 4.5.

2 (5 11) 2

1.4 Medidas de variabilidad o dispersión Las medidas de posición proporcionan información importante acerca de los datos; sin embargo, es insuficiente para describir como éstos se distribuyen. Por ejemplo, conociendo el tiempo de vida promedio de los marcapasos se puede diseñar el seguimiento de los pacientes en tratamiento y conocer la posición promedio de su tiempo de vida útil mediante la media, la mediana o la moda para tener una idea de cuándo se debe cambiar el aparato a los pacientes; pero resulta también importante que el tiempo de falla de los diferentes marcapasos presente poca variación según el valor central. Es claro que un buen control de calidad tendría por objetivo lograr que el tiempo de vida de los marcapasos tuviera poca variación entre ellos. Esto hace ver que es sumamente importante conocer qué tan dispersos están los datos. En esta sección se estudiarán algunas de las medidas de dispersión que se usan para describir los datos. Es importante hacer notar que únicamente a las variables cuantitativas se les puede calcular su variación.

| Estadística para ingeniería y ciencias

10

1.4.1 Rango El rango es la medida de dispersión más simple y su definición formal es la siguiente: Definición 1.9. El rango es igual al valor máximo menos el valor mínimo y se denota con la letra R. Así pues, el rango corresponde a la longitud del intervalo donde se encuentran distribuidos los datos. Si el rango es pequeño, los datos son poco variables; y si el rango es grande, los datos pueden estar muy dispersos.

Ejemplo 1.14. Hallar el rango de 2, 3, 3, 5, 5, 5, 8, 10, 12. Solución: El número más pequeño es mín 5 2 y el más grande es el máx 5 12, entonces: R 5 12 2− 2 5 10 Esta medida de dispersión es muy sensible a valores extremos, pues si algún dato está alejado del resto, será determinante para indicar una variación grande.

1.4.2 Rango intercuartílico El rango intercuartílico es una medida de dispersión que no es sensible a valores extremos y se define de la siguiente manera: Definición 1.10. El rango intercuartílico es igual al valor del tercer cuartil menos el valor del primer cuartil. El rango intercuartílico se denota con el símbolo RI.

RI 5 Q3 2 Q1

(1.5)

( m11) El rango intercuartílico corresponde a la longitud del intervalo donde se encuentra la mitad de los 2 los datos datos centrales, dejando fuera la cuarta parte de los datos más chicos y la cuarta parte de (4 11) mayores.

2 ( 3 1 4) ( m11) 2 2 Ejemplo 1.15. Encontrar el rango intercuatílico de 2, 3, 3, 5, 5, 5, 8, 10, 12. (6 1 7) (4 11) 2 2 Solución: (9 11) ( 3 1 4) El número de datos es n 5 9; entonces, la posición de la mediana es 5 5, en 2 2 los datos la mediana es el número 5. (5 11) (6 1 7) M 5 Q2 5 5 2 2 ( 9 1 1 ) El valor m es igual a m 5 5; entonces, la posición de los dos cuartiles es: 2 (5 11) ( m11) 5 53 2 2 (4 11) 2 ( 3 1 4)

Capítulo 1 Estadística descriptiva

| 11

de manera que los cuartiles están en la tercera posición. Entonces, Q1 5 3 y Q3 5 8. El rango intercuartílico es: RI 5 Q3 2 Q1 5 8 2 3 5 5

1.4.3 Varianza La varianza es una de las medidas de dispersión más utilizada y se define así: Definición 1.11. La varianza, denotada por s2, se define mediante la fórmula:

s2 5

1 n ∑ ( x 2 x )2 n 2 1 i51 i

(1.6)

La varianza es una clase de promedio al cuadrado de las desviaciones de cada dato respecto a la media. Cuando todos los datos son iguales la varianza es igual a cero y conforme la dispersión de los datos aumenta el valor de la varianza también se incrementa. Para calcular esta medida de dispersión se utilizan todos los datos.

Ejemplo 1.16. Encontrar la varianza de los datos 8, 8, 8, 8, 8. Solución: El promedio de estos datos es x 5 8; entonces, la varianza se calcula usando (1.4) y da: s2 5

( 8 2 8)2 1 ( 8 2 8)2 1 ( 8 2 8)2 1 ( 8 2 8)2 1 ( 8 2 8)2 50 5 21

Aquí, no hay variación en los datos, pues todos son iguales y la varianza es igual a 0. Ejemplo 1.17. Hallar la varianza de los datos 3, 2, 6, 5, 4. Solución: El promedio de estos datos es x 5 4; entonces, la varianza es: s2 5

( 3 2 4 )2 1 ( 2 2 4 )2 1 ( 6 2 4 )2 1 ( 5 2 4 )2 1 ( 4 2 4 )2 5 2.5 5 5 21

La razón de dividir entre n 2 1 en lugar de n se explicará más adelante cuando se explique la estimación de parámetros. Considerar que n son los términos que se están sumando.

Teorema 1.1. Una fórmula equivalente para la varianza que resulta más simple para hacer cálculos es: s2 5

2 1 n 1  n 2 1 n   2 ( x x ) x x 2 5 2  ∑ ∑ ∑  n 21 i51 i n 2 1  i51 i n  i51 i  

(1.7)

12

| Estadística para ingeniería y ciencias Demostración: Al desarrollar los términos al cuadrado de la suma en la fórmula de la varianza, se tiene que: n

n

∑ ( x 2 x) 5 ∑ ( x

2

i

i51

2

2 2 xi x 1 x )

2 i

i51

(1.7a)

Ahora, se separan los términos de la suma para formar tres sumas: n

i51

2

i

i51

2 i

n

n

i

i51

2

(1.7b)

i51

y como el término x– es constante; entonces, por las propiedades de la suma: n

n

∑ ( x 2 x) 5 ∑ x 2 ∑ 2 x x 1 ∑ x n

∑ ( x 2 x) 5 ∑ x 2

i

i51

i51

2 i

n

2 2 x∑ xi 1 nx 2

(1.7c)

i51

Finalmente, se sustituye el término x– por su expresión equivalente x 5 ∑ n x / n y resulta que: i51 i n

n

∑ ( x 2 x) 5 ∑ x i51

2

i

i51

2

2 i

2

 n   n  2 2  ∑ xi  / n 1  ∑ xi  / n  i51   i51 

(1.7d)

Al simplificar, se hallará la expresión buscada: 2  2 1 n 1  n 2 1 n   1  n 2 s 5 ( xi 2 x) 5 xi 2 n x 2  ∑ xi 2  ∑ xi   5 ∑ ∑  n 21 i51 n 21  i51 n  i51   n 2 1  i51  2

(1.7e)

1.4.4 Desviación estándar Al definir la varianza de los datos se introdujo el término al cuadrado en los sumandos para asegurar que la contribución a la suma de la variación de cada dato sea un valor positivo y que en consecuencia realmente mida qué tan diferente es el dato al valor central; sin embargo, con este hecho se distorsiona la esencia de los datos, pues se cambia de unidades. Por ejemplo, si las mediciones de la variable x es en metros, el promedio x– también está en metros, la dispersión de cada dato respecto a la media aritmética xi 2 x también está tomada en metros, pero el cuadrado de este término ( xi 2 x)2 está en metros cuadrados, por lo que la varianza mide en metros cuadrados la dispersión de los datos. Para regresar a las unidades originales se debe calcular la raíz cuadrada de la varianza que es la definición de desviación estándar. Definición 1.12. La desviación estándar de los datos es igual a:

varianza

2

(1.8)

1.5 Distribuciones de frecuencia Cuando se están procesando grandes cantidades de datos es conveniente agruparlos en clases o categorías para estudiar su frecuencia.

Capítulo 1 Estadística descriptiva

| 13

1.5.1 Frecuencia absoluta Si las variables son cualitativas (no numéricas) las clases pueden ser cada uno de sus valores. Ejemplo 1.18. La variable x es igual a la calidad del artículo elaborado. Los valores que toma la variable son: x 5 b cuando el artículo es bueno y x 5 d cuando el artículo es defectuoso. Se inspecciona una muestra de la producción de un día, dando los resultados: b, b, d, b, b, b, b, d, d, b, b, b, b, d, b Los datos se agrupan en dos categorías: Tabla 1.1.

Clase

Datos

Frecuencia

Bueno

bbbbbbbbbbb

11

Defectuoso

dddd

4

Cuando los datos son números enteros, las clases pueden ser cada uno de los posibles valores de la variable. Ejemplo 1.19. La variable es x 5 número de hijos de la persona; en la muestra tiene como x 5 0, 1, 2, 3, 4, 5. Una muestra de 20 personas dio los siguientes resultados: 3, 2, 4, 0, 0, 1, 1, 2, 2, 0, 3, 1, 0, 1, 0, 2, 1, 0, 5, 3 Los datos se pueden agrupar en seis categorías como se observa en la siguiente tabla. Tabla 1.2.

Clase

Datos

Frecuencia

0

000000

6

1

11111

5

2

2222

4

3

333

3

4

4

1

5

5

1

Si la variable es entera o continua en un rango amplio, las clases se forman por intervalos de preferencia de la misma longitud. Para estudiar cómo agrupar los datos se definen los siguientes conceptos:

Definición 1.13. El intervalo de clase es el conjunto de valores que determina una clase, por ejemplo los valores entre 60 y 62 forman un intervalo de clase. Los números 60 y 62, de este ejemplo, se llaman límites de clases o límites de clases inferior o superior. El intervalo 60262 incluye, teóricamente, las mediciones 59.5262.5 y se llaman límites de clases.

14

| Estadística para ingeniería y ciencias Definición 1.14. La marca de clases, es el punto medio de un intervalo de clase y se obtiene sumando los límites superior e inferior y dividiendo entre dos. Por ejemplo, el punto medio del intervalo 60262 es

(60 1 62) 5 61 y, así sucesivamente. 2

Definición 1.15. El tamaño de los intervalos de clase es la diferencia entre los límites o linderos superiores e inferiores.

Reglas para seleccionar los intervalos de clase Una de las prácticas más comunes para formar los intervalos de clase es:

• Obtener el mínimo y el máximo valor de los datos y calcular el rango. • Dividir el rango entre el número de intervalos que se quiere obtener, el resultado de esta división es la longitud del intervalo de clase (1).

• Los intervalos de clase son (mín, mín1l), (mín1l, mín12l), (mín12l, mín13l), etcétera. Ejemplo 1.20. Agrupar los siguientes datos en seis intervalos de clases iguales. 3.45 2.76 4.06 2.65 6.43 4.70 3.24 4.12 3.25 2.67 3.65 4.56 3.45 4.53 4.56 2.43 3.65 2.48 5.46 2.54 1.36 4.30 2.54 3.54 1.23 3.43 5.43 2.76 3.14 5.36 Solución: Primero se forman los intervalos de clase: • mín 5 1.23, máx 5 6.43; entonces, el rango es R 5 6.43 2 1.23 5 5.20. • Como se quiere 6 intervalos de clase; entonces, la longitud del intervalo de clase es l 5

5.20 5 0.8667. 6

• Los intervalos de clase son: [1.2300, 2.0967), [2.0967, 2.9634), [2.9634, 3.8301), [3.8301, 4.6968), [4.6968, 5.5635), [5.5635, 6.4302] La siguiente tabla muestra la frecuencia de estos datos. Tabla 1.3.

Intervalo de clase

Raya por dato

Frecuencia

1.2300 2 2.0967

//

2

2.0967 2 2.9634

////////

8

2.9634 2 3.8301

/////////

9

3.8301 2 4.6968

//////

6

4.6968 2 5.5635

////

4

5.5635 2 6.4302

/

1

Capítulo 1 Estadística descriptiva

| 15

Un criterio para determinar el número de clases adecuado es: número de clases ≈ n Otra manera de formar los intervalos de clase, es considerando únicamente intervalos cuyo límite inferior sea entero o mitad de un entero; el siguiente ejemplo explica cómo se forman los intervalos de clase de esta manera. Ejemplo 1.21. Con los mismos datos del ejemplo anterior, formar los intervalos de clase considerando únicamente enteros para el límite inferior de cada clase. Solución: Observe los datos: 3.45 2.76 4.06 2.65 6.43 4.70 3.24 4.12 3.25 2.67 3.65 4.56 3.45 4.53 4.56 2.43 3.65 2.48 5.46 2.54 1.36 4.30 2.54 3.54 1.23 3.43 5.43 2.76 3.14 5.36 Como el mínimo valor es 1.23 y el máximo es 6.43, los intervalos de clase son: (1, 1.9), (2, 2.9), (3, 3.9), (4, 4.9), (5, 5.9), (6, 6.9) La tabla de frecuencias con esta clasificación se muestra a continuación. Tabla 1.4.

Intervalo de clase

Raya por dato

Frecuencia

1 2 1.9

//

2

2 2 2.9

////////

8

3 2 3.9

/////////

9

4 2 4.9

///////

7

5 2 5.9

///

3

6 2 6.9

/

1

Observe que esta última forma de obtener los intervalos de clase es simple y tiene la ventaja que si se agregan nuevos datos, éstos se pueden clasificar sin modificar la agrupación ya hecha; en cambio, con la clasificación que utiliza el rango para calcular la longitud del intervalo de clase, si se agregan más datos y el rango cambia, se debe modificar toda la clasificación.

1.5.2 Frecuencia relativa Con la frecuencia relativa se pueden comparar diferentes muestras de tamaños distintos, pues lo que se revisa son las proporciones en cada clase que equivalen a porcentajes. Definición 1.16. La frecuencia relativa de una clase es igual a su frecuencia absoluta entre el total de datos.

f fr 5 n

(1.9)

16

| Estadística para ingeniería y ciencias La suma de las frecuencias relativas es igual a 1, independientemente del número de datos que se tengan.

Ejemplo 1.22. Calcular la frecuencia relativa de los datos de la tabla 1.3. Solución: La tabla 1.5 muestra la solución de este problema. Tabla 1.5. Intervalo de clase

Frecuencia

Frecuencia relativa

1 2 1.9

2

0.0666667

2 2 2.9

8

0.2666667

3 2 3.9

9

0.3000000

4 2 4.9

7

0.2333333

5 2 5.9

3

0.1000000

6 2 6.9

1

0.0333333

En ocasiones la frecuencia relativa se representa como un porcentaje en lugar de una fracción. Ejemplo 1.23. Escribir la frecuencia relativa de la tabla 1.4 con la notación de porcentaje. Solución: La tabla 1.6 da la respuesta a este ejemplo. Tabla 1.6.

Intervalo de clase

Frecuencia

Frecuencia relativa

1 2 1.9

2

6.66667%

2 2 2.9

8

26.66667%

3 2 3.9

9

30.00000%

4 2 4.9

7

23.33333%

5 2 5.9

3

10.00000%

6 2 6.9

1

3.33333%

1.5.3 Frecuencia acumulada La frecuencia acumulada absoluta y relativa es otra manera de describir los datos. Definición 1.17. La frecuencia acumulada de una clase es igual al número de elementos que están en las clases menores o iguales de dicha clase.

Capítulo 1 Estadística descriptiva

| 17

Ejemplo 1.24. Calcular las frecuencias acumuladas de los datos de la tabla 1.5. Solución: Se escriben los datos, la frecuencia acumulada en la clase 121.9 es 2, la frecuencia acumulada en la clase 222.9 es 2 1 8 5 10, etcétera. Esto se describe en la tabla 1.7. Tabla 1.7 Intervalo de clase

Frecuencia

Frecuencia relativa

Frecuencia acumulada

Frecuencia relativa acumulada

1 2 1.9

2

0.0666667

2

0.0667

2 2 2.9

8

0.2666667

10

0.3333

3 2 3.9

9

0.3000000

19

0.6333

4 2 4.9

7

0.2333333

26

0.8667

5 2 5.9

3

0.1000000

29

0.9667

6 2 6.9

1

0.0333333

30

1.0000

Ejemplo 1.25. Este es un ejemplo adaptado del libro Statistics for Management and Economics, a Systematic Approach de los autores Keller, et al., 1990. Los datos de la tabla 1.8 muestran la duración de las llamadas de larga distancia (en minutos) durante un día. Tabla 1.8. Duración de llamadas de larga distancia (minutos). 11.8

3.6

16.6

13.5

4.8

12.1

6.1

8.5

15.9

10.2

8.0

11.4

18.7

11.7

6.2

8.3

8.9

9.1

7.7

2.3

6.8

9.6

19.5

15.3

12.3

11.2

10.4

7.2

5.5

14.5

Con estos datos se elaboró la tabla de frecuencias 1.9. Tabla 1.9. Límites de clase, frecuencia relativa y frecuencia relativa acumulada. Intervalos de clase

Frecuencia relativa

Frecuencia relativa acumulada

2–5

3/30 5 0.100

03/30 5 0.100

5–8

6/30 5 0.200

09/30 5 0.300

08 – 11

8/30 5 0.267

17/30 5 0.567

11 – 14

7/30 5 0.233

24/30 5 0.800

14 – 17

4/30 5 0.133

28/30 5 0.933

17 – 20

2/30 5 0.067

30/30 5 1.000

Fuente: Statistics for Management and Economics, a Systematic Approach de los autores Keller et al. Wadeworth Publishers Company, Belmont, California (1990).

Con las frecuencias relativas acumuladas de la tabla de frecuencias se elaboró un polígono de frecuencias acumuladas u ojiva.

18

| Estadística para ingeniería y ciencias

Gráfica de frecuencia relativa acumulada en función límites de clase 5.0

7.5

10.0

12.5

15.0

17.5

Frecuencia relativa acumulada

1.0

20.0 1.000

0.8

1.0 0.8

0.800

0.6

0.6 0.567

0.4

0.4 0.300

0.2

0.2

0.100

0.0

5.0

0.0 7.5

10.0

12.5

15.0

17.5

20.0

Límites de clase

Figura 1.2. Gráfica de la frecuencia relativa acumulada (ojiva) contra los límites de clase.

En la figura anterior se observa que 30% de las llamadas telefónicas duraron menos de 8 minutos y 80% duraron menos de 14 minutos. De manera que 20% de las llamadas fueron más largas que 14 minutos y así sucesivamente.

1.6 Métodos gráficos La representación gráfica de la distribución de frecuencia permite tener una mejor imagen de los datos. El primer método gráfico revisado es el diagrama de tallo-hoja.

1.6.1 Diagrama de tallo-hoja La manera más simple de explicar qué es un diagrama de tallo-hoja es con un ejemplo: Ejemplo 1.26. Con los siguientes 40 datos de la tabla 1.10 construir el diagrama de tallo-hoja. Tabla 1.10. 2.2

4.1

3.5

4.5

3.2

3.7

3.0

2.6

3.4

1.6

3.1

3.3

3.8

3.1

4.7

3.7

2.5

4.3

3.4

3.6

2.9

3.3

3.9

3.1

3.3

3.1

3.7

4.4

3.2

4.1

1.9

3.4

4.7

3.8

3.2

2.6

3.9

3.0

4.2

3.5

Solución: Para hacer el diagrama de tallo-hoja, se separa cada observación en dos partes: una para formar el tallo y otra para la hoja. En este caso, el tallo se forma con el dígito de

Capítulo 1 Estadística descriptiva

| 19

los enteros, y la hoja con el dígito de los decimales. Por ejemplo, para el número 3.7, el dígito 3 representa el tallo y el dígito 7 representa la hoja. El tallo de los datos del ejemplo está formado por los números 1, 2, 3 y 4. tallo

• Primero se forman los tallos con la parte entera de los datos.

1.* 2.* 3.* 4.* tallo

• Después, se escriben las hojas. Para el dato 2.2, se pone en el tallo 2, el decimal 2. Para el dato 4.1, se pone en el tallo 4, el número 1, etcétera.

• El diagrama de tallo-hoja terminado queda así:

• Finalmente, en cada clase se pueden ordenar los datos

hojas

1.* 2.*

2

3.* 4.*

1

tallo

hojas

1.*

69

2.*

26596

3.*

5270413817463913172482905

4.*

15734172

tallo

hojas

1.*

69

2.*

25669

3.*

0011112223334445567778899

4.*

11234577

Si en el diagrama se observa que en una clase hay muchos números, se puede hacer un refinamiento, es decir, para cada elemento del tallo se forman dos diferentes conjuntos de hojas. En el diagrama de tallo-hoja con dos tallos por clase se puede representar de la siguiente manera: el primero con los dígitos del 0 al 4 y el segundo con los dígitos del 5 al 9: Frecuencia

tallo

2

*1

69

3

*2

2

hojas

7

*2

5669

15

*3

001111222333444

18

*3

5567778899

8

*4

11234

3

*4

577

1.6.2 Histograma La manera más común de representación gráfica de los datos son los histogramas que consisten en rectángulos adyacentes, cuyas alturas son las frecuencias de clases, mientras que sus bases se extienden entre sucesivas

20

| Estadística para ingeniería y ciencias

fronteras de clases. Esto quiere decir que cada barra tiene su base sobre la abscisa con centro en la marca de clase y con la altura igual a la frecuencia de clase.

Ejemplo 1.27. Elaborar el histograma de los 500 casos de fosfatos agrupados en la siguiente tabla. Tabla 1.11.

Intervalo de clase

f

f. r.(%)

f. a.

f. r. a. (%)

< 30.5

13

2.6

13

2.6

30.5 2 35.5

24

4.8

37

7.4

35.5 2 40.5

49

9.8

86

17.2

40.5 2 45.5

78

15.6

164

32.8

45.5 2 50.5

96

19.2

260

52.0

50.5 2 55.5

94

18.8

354

70.8

55.5 2 60.5

72

14.4

426

85.2

60.5 2 65.5

43

8.6

469

93.8

65.5 2 70.5

21

4.2

490

98.0

> 70.5

10

2.0

500

100.0

Solución:

25.5 30.5 35.5 40.5 45.5 50.5 55.5 60.5 65.5 70.5 85.5

Figura 1.3. H istograma que muestra la distribución de frecuencias de los datos de la tabla 1.11.

Gráfica de frecuencia vs. marca de clase

1.6.3 Polígonos de frecuencia 100

100

ecuencia

El polígono de frecuencia es una línea quebrada que une los puntos dados por marca de clase y frecuencia. 80

80

60

60

Capítulo 1 Estadística descriptiva

| 21

Ejemplo 1.28. Encontrar el polígono de frecuencia de los datos de la tabla 1.11. Solución: Frecuencia vs. marca de clase

Frecuencia

100

100

80

80

60

60

40

40

20

20

0

0 20

30

40 50 Marca de clase

60

70

Figura 1.4. Polígono de frecuencia de los datos de la tabla 1.11.

1.6.4 Diagrama de cajas Definición 1.18. El diagrama de cajas es una representación gráfica que utiliza los valores extremos y los cuartiles. La forma del diagrama de cajas se representa en la siguiente figura:

mín

Q1

M

Q3

máx

Figura 1.5 Diagramas de caja.

La distancia entre cada una de las medidas de posición está graduada a escala. Con este diagrama se visualiza la posición, la dispersión y la simetría de los datos; la caja es un rectángulo que indica la posición de la mitad de los datos centrales.

22

| Estadística para ingeniería y ciencias Para elaborar la gráfica de cajas siga los pasos:

• Dibuje una línea horizontal y gradúela. 0

1

2

3

4

5

6

7

8

• En la línea ubique la posición del mínimo, máximo, primer cuartil, tercer cuartil y mediana. 0

1

2

3

mín

4

5 M

Q1

6

7

8 máx

Q3

• Dibuje las líneas auxiliares.

0

1

2

3

mín

4

5 M

Q1

6

7

8 máx

Q3

• Dibuje el diagrama.

0

1 mín

2

3

4

5 M

Q1

6 Q3

7

8 máx

Ejemplo 1.29. Encontrar el diagrama de cajas de los datos que se reportan en el diagrama de tallohoja siguiente: tallo

hojas

1.*

69

2.*

25669

3.*

0011112223334445567778899

4.*

11234577

Capítulo 1 Estadística descriptiva

| 23

Solución: Primero se deben encontrar los valores extremos, los cuartiles y la mediana de estos datos. • Los valores extremos son mín 5 1.6 y máx 5 4.7. • El número de datos es n 5 40. (40 11) 5 20.5. 2 (4031.411 ) 3.4 • Entonces, la mediana es el promedio M 5 2 de los5datos 3.4 que están en la posición 20 y 21. 2 (40 11) 3.4 1 3.4 (20 11) 5 3.4 2M 5 2 2 3.4 1 3.4 • El valor de m es: m 5 20. M 5 (20 11) 5 3.4 22 (20 11) La posición de los cuartiles es 5 10.5. 2

• La posición de la mediana es

El primer cuartil es Q1 5 El tercer cuartil es Q3 5

3.1 1 3.1 5 3.1 . 2

3.8 1 3.9 5 3.85 . 2

• Después, elabore la gráfica.

1.6

3.1

3.4

3.85

4.7

Figura 1.6. Diagrama de cajas de los datos de este ejercicio.

1.6.5 Simetría Los histogramas y los diagramas de cajas permiten visualizar la distribución de los datos. Éstos pueden distribuirse o comportarse de manera simétrica alrededor del promedio, o pueden estar cargados a uno u otro lado de la recta numérica; en este sentido la relación entre las tres medidas de centralidad más comunes: media aritmética (o simplemente media), moda (la barra más alta) y mediana, con respecto a la simetría de los datos, está dada en las siguientes gráficas:

24

| Estadística para ingeniería y ciencias Mo

Mo M

M X

X

Oblicua a la derecha sesgo positivo media > mediana > moda

Simétrica sesgo cero media = mediana = moda

Oblicua a la izquierda sesgo negativo media < mediana < moda

Oblicua a la derecha

Simétrica

Oblicua a la izquierda

Figura 1.7. H istogramas con diferentes sesgos y los diagramas de caja correspondientes a cada histograma.

1.7 Media y varianza con datos agrupados Cuando se tienen los datos agrupados en una tabla de frecuencia se puede calcular la media y la varianza con las fórmula antes dadas. Ejemplo 1.30. Se tiene una muestra de tamaño 36 de análisis de fosfatos (PO423), reportados en la tabla 1.12. Encuentre la media y la varianza de estos datos. Tabla 1.12. Valores de x Frecuencia

61 5

64 8

67 4

68 3

69 4

70 7

73 5

Solución: El total de datos en la muestra se obtiene sumando las frecuencias de todas las clases. 5 1 8 1 4 1 3 1 4 1 7 1 5 5 36 Son 36 datos. La media se obtiene sumando todos los datos y dividiendo el resultado de la suma entre 36. La suma de un mismo valor se puede abreviar con una multiplicación, así al sumar los cinco datos, igual a 61, más los ocho datos, igual a 64, más, etcétera, se obtiene: 61 1 61 1 61 1 61 1 61 1 64 1 64 1 64 1 64 1 64 1 64 1 64 1 64 1 . . . 5 5(61) 1 8(64) 1 . . .

Capítulo 1 Estadística descriptiva

| 25

De esta manera la media y la varianza de dichos datos son iguales a: x5

61 3 5 1 64 3 8 1 67 3 4 1 68 3 3 1 69 3 4 1 70 3 7 1 73 3 5 5 67.2222 5 1 8 1 4 1 31 4 1 7 1 5

x5

(61 2 67.2222)2 3 5 1 (64 2 67.2222)2 3 8 1. . . 1( 73 2 67.2222)2 3 5 514.6349206 36 2 1

Y así se obtiene una fórmula equivalente considerando las frecuencias de cada clase. x5

∑

n i51

xi

n

5

∑ ∑

f xi

i51 i

f

(1.10)

i51 i

De igual manera, para la varianza muestral se obtiene la fórmula s2 5

∑

n i51

( xi 2 x)2

n 21

5

∑

i51

( xi 2 x)2 fi

∑

f 21

5

∑

i51

i51 i

xi2 fi 2 nx n 21

2

(1.11)

Esta fórmula también puede utilizarse cuando los datos están agrupados en intervalos de clase. Se emplea la frecuencia fi y la marca de clase o punto medio mi de clase. x5

∑ ∑

f mi

i51 i

f

(1.12)

i51 i

Ejemplo 1.31. Calcular la media de los datos agrupados de la siguiente tabla: Tabla 1.13. Intervalo de clase

Punto medio

Frecuencia (f)

Frecuencia relativa (f.r.)

1.5 – 1.9 2.0 – 2.4 2.5 – 2.9 3.0 – 3.4 3.5 – 3.9 4.0 – 4.4 4.5 – 4.9

1.7 2.2 2.7 3.2 3.7 4.2 4.7

2 1 4 15 10 5 3

0.050 0.025 0.100 0.375 0.250 0.125 0.075

Frecuencia relativa acumulada (f.r.a.) 0.050 0.075 0.175 0.550 0.800 0.925 1.000

Solución: Al usar la fórmula (1.12), se obtiene: x5

1.7 3 2 1 2.2 31 1 2.7 3 4 1 3.2 315 1 3.7 310 1 4.2 3 5 1 4.7 3 3 53.4125 2 11 1 4 115 110 1 5 1 3

1.8 Instrucciones para el uso de Excel en estadística descriptiva Las computadoras son una poderosa herramienta que auxilia a la estadística para organizar, clasificar y analizar los datos. Existen en el mercado diferentes paquetes de cómputo estadístico, su estructura es semejante y si

26

| Estadística para ingeniería y ciencias

se aprende a usar uno de ellos, es relativamente fácil usar otro. Excel no es un paquete de cómputo estadístico, es una hoja de cálculo. Tiene la ventaja de estar en español, pero los cálculos estadísticos que puede hacer son limitados si se comparan con los paquetes estadísticos especializados. Sin embargo, por ser una hoja de cálculo que se encuentra casi en cualquier computadora personal es adecuado utilizarlo como una primera herramienta de cálculo. Nota: Para un curso introductorio de estadística basta y sobra con el uso de Excel, incluso activando estadística VBA es suficiente para un curso de estadística aplicada. Al abrir Excel se despliega la siguiente pantalla, o una muy semejante.

Figura 1.8.

Cada celda se identifica por la letra de la columna y el número del renglón que se encuentra, así la primera celda es la A1, etcétera. En la parte superior de la pantalla se encuentra un menú con las siguientes opciones Archivo, Edición, Ver, Insertar, Formato, Herramientas, Datos, Ventana y Ayudas (?) y una serie de iconos que permiten realizar una serie de funciones. Para activarlas se usa el ratón de la computadora. La mayoría de los cálculos estadísticos que brinda Excel se encuentran en la subrutina Análisis de datos en la opción Herramientas del menú principal. La opción Análisis de datos no se carga al instalar Excel, por lo que hay que activarla la primera vez que se use. Para ello, oprima el ratón sobre la opción Herramientas y en el menú que se despliega elija la opción Complementos.

Figura 1.9.

Capítulo 1 Estadística descriptiva

| 27

En la ventana que aparece señale la opción Herramientas para análisis y oprima la opción aceptar. Con esto se activa la aplicación y la próxima vez que entre a la opción Herramientas aparecerá un menú que ya incluye la opción Análisis de datos.

Figura 1.10.

1.8.1 Medidas de tendencia central y de dispersión con Excel Para encontrar las medidas de tendencia central y las medidas de dispersión de un conjunto de datos se deben seguir estos pasos: 1. Escriba los datos en una columna, uno en cada celda. 2. Elija la opción Herramientas y ahí la opción Análisis de datos. 3. En el menú que aparece, elija la opción Estadística descriptiva. 4. En la pantalla que se despliega, con la ventanilla de Rango de entrada activada, coloque el cursor del ratón sobre el primer dato y oprimiendo su botón izquierdo arrastre hasta cubrir todos los datos. Con esto, en la ventanilla de Rango de entrada aparece el rango de las celdas donde están los datos, en este caso los datos; se encuentran de la celda B2 a la B15.

Figura 1.11.

28

| Estadística para ingeniería y ciencias 5. Si la primera celda de los datos corresponde a un rótulo (edad, concentración de plomo, etc.), señale en esta misma pantalla. En este ejemplo no se puso rótulo. 6. Los cálculos de salida saldrán en la misma página, si señala en Opciones de salida la opción Rango de salida; luego, coloque el cursor del ratón en la ventana correspondiente y señale una celda vacía desde donde aparecerán los resultados. 7. Marque la opción Resumen de estadísticas. 8. Oprima la opción Aceptar y aparecerá una tabla con los resultados. Columna 1 Media Error típico

36.5 3.45258304

Mediana

34

Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango

23 12.9183828 166.884615 0.06723329 0.76365412 42

Mínimo

23

Máximo

65

Suma Cuenta

511 14

Resultados obtenidos Figura 1.12.

La pantalla queda así antes de aceptar.

1.8.2 Tabla de frecuencias con Excel Para elaborar una tabla de frecuencias con Excel se deben escribir en una columna los datos de la muestra y en otra columna el límite superior de cada clase como se indica a continuación. Tabla 1.14. Si la clase es

Se debe escribir

60 – 62

62

63 – 64

64

1. Escriba los datos de la muestra en una columna y el límite superior de cada clase en otra columna diferente, uno en cada celda. 2. Elija la opción Herramientas y ahí la opción Análisis de datos.

Capítulo 1 Estadística descriptiva

| 29

3. En el menú que aparece, elija la opción Histograma. 4. En la pantalla que se despliega, introduzca los datos arrastrando el cursor del ratón sobre los datos, como se hizo en la explicación anterior. De igual manera, introduzca los datos de las clases y el rango de salida. 5. Puede optar por tener un gráfico o únicamente la tabla de frecuencias. Con los datos del ejemplo de la sección anterior y con las clases 20224, 25229, 30234, etc., se obtiene la siguiente tabla y gráfica.

Frecuencia

Histograma 4.5 4 3.5 3 2.5 2 1.5

Frecuencia

0.5 0 24

34

44

54

64

y mayor

Clase

Clase

Frecuencia

24 29 34 39 44 49 54 59 64 69 y mayor

4 1 3 0 3 1 1 0 0 1 0

Figura 1.13.

1.8.3 Gráficas con Excel Para elaborar un histograma con Excel se requiere tener los datos agrupados en una tabla de frecuencias, lo puede hacer con las instrucciones de histograma. 1. Señale arrastrando con el cursor del ratón los datos de la tabla de frecuencias. 2. Elija con el cursor del ratón el asistente de gráficas cuyo icono se encuentra en la parte superior de la pantalla. Esto despliega una pantalla donde puede elegir el tipo de gráfica. Seleccione el primero (columnas) y oprima el cursor en Siguiente. 3. Puede poner título a la gráfica o a los ejes. Termine con finalizar. Obtendrá una gráfica de barras verticales como la de la figura anterior. El asistente de gráficas le permitirá hacer diferentes tipos de gráficas; puede usted experimentar asistido con las ayudas de Excel.

1.8.4 Uso de Minitab para el diseño de gráficas Ejemplo 1.32. Utilizando los datos de la siguiente tabla de frecuencias elaborar la gráfica de frecuencia relativa contra puntos medios.

30

| Estadística para ingeniería y ciencias Tabla 1.15. Punto medio

Frecuencia

Frecuencia relativa

16.5

7

0.039

21.5

13

0.073

26.5

20

0.002

31.5

26

0.145

36.5

32

0.179

41.5

34

0.189

46.5

19

0.106

51.5

13

0.072

56.5

3

0.017

61.5

6

0.034

66.5

6

0.034

Solución: 1. Abra la hoja de Minitab. 2. Vaya a: Graph → Seatter-Plot. 3. En la ventanilla de “Scatterplot-Simple” introduzca las variables. 4. En la ventanilla de “Labels” y en “Data Labels” haga clic en “Use y Value Labels” y luego haga clic en OK y OK. 5. En la ventana de “Scatteplot-Simple” y en la ventanilla de “Scatterplot-Simple View” haga clic en “Symbols” y “Project Lines” y siga las instrucciones señaladas. Al seguir todas las indicaciones anteriores se produce la gráfica de frecuencias relativas contra puntos medios.

Figura 1.14.

Capítulo 1 Estadística descriptiva

| 31

1.9 Instrucciones para el uso de Minitab en estadística descriptiva 1.9.1 Estadísticas descriptivas usando Minitab Ejemplo 1.33. Para explicar el manejo del Minitab se utilizarán los datos de un problema de mecatrónica adaptado del libro Mechatronics. Principles and Applications de Godrey C. Onwubolu, 2005, pues está relacionado con una prueba de confiabilidad. Los datos consisten en los tiempos de falla de 25 emisores de luz de rectificadores de corriente alterna. Los datos son los siguientes: Tabla 1.16. 0.5

5

7

1

4

7.5

1.5

4.5

8

1.3

5

8.1

2

5.5

8.6

2.5

5.5

9

3

6

9.5

3.5

6.5

10

3

Fuente: Mechatronics. Principles and Applications. Godrey C. Onwubolu. Elsevier Butterworth-Heinemann, Ámsterdam (2005).

Solución: Para encontrar la solución al ejemplo se va a utilizar Minitab. 1. En el menú de la parte superior de la pantalla, elija las opciones: Stat → Basic Statistics → Display Descriptive Statistics Con esto, aparecerá la ventana de diálogo Display Descriptive Statistics. 2. En la ventana de diálogo de Display Descriptive Statistics y en la ventana de Variables escriba C1 para indicar que los datos que se van a utilizar están en esa columna. 3. Con el cursor seleccione la opción Statistics y en la ventana de diálogo que aparece escoja todas las estadísticas descriptivas deseadas y luego haga clic en OK. 4. Estas indicaciones producen los siguientes resultados: Descriptive Statistics: Tiempos de fallas Total Variable

Count

N

N*

CumN

Percent

CumPct

Mean

SE

Mean StDev

Tiempos de falla

25

25

0

25

100

100

5.220

0.573

2.864

Variable

Variance

CoefVar

Minimum

Q1

Median

Q3

Maximum

Tiempos de falla

8.200

54.86

0.500

2.750

5.500

7.750

10.000

Variable

IQR

Skewness

Kurtosis

Tiempos de falla

5.000

20.03

21.17

32

| Estadística para ingeniería y ciencias Nota: En la ventana Descriptive Statistics-Statistics se puede conocer la definición de cualquiera de esas estadísticas descriptivas que aparecen. Para ello, se debe hacer clic en Help y se desplegará una pantalla con los términos y sus definiciones. A fin de conocer las definiciones de todas las estadísticas antes mostradas se hace lo siguiente: Stat → Basic Statistics → Display Descriptive Statistics → Statistics 5. En la ventana de diálogo de Display Descriptive Statistics al seleccionar Graphs aparece la ventana de diálogo de Display Descriptive Statistics-Graphs, ahí se pueden seleccionar todos los tipos de gráficas como histogramas, diagramas de caja, etcétera. 6. Finalmente, haga clic.

Figura 1.15.

1.9.2 Diagramas de caja con Minitab Para hacer el diagrama de caja de los datos del ejemplo anterior, se procede de la siguiente manera: Graph → Boxplot → Aceptar. 1. En la ventana Boxplot-One y Simple y en la ventana de Graph Variables se escribe C1 para indicar que los datos están en la columna 1.

Gráfica de diagrama de caja. 0

2

0

2

4

6

8

10

4

6

8

10

2. Dentro de esa misma ventana, vaya a Data View y en la ventana Boxplot-Data View que aparece, seleccione la información deseada y haga clic en OK. Esto genera una gráfica como la que se muestra a continuación. Figura 1.16.

Tiempos de fallas

Capítulo 1 Estadística descriptiva

| 33

1.9.3 Diagrama de tallo-hoja con Minitab Para hacer gráficas de tallo-hoja con Minitab, haga lo siguiente: 1. En el menú de la parte superior de la pantalla, seleccione las opciones Stat → Stem-and-leaf 2. Con esto aparece una ventana de diálogo y en la ventanilla de Graph variables introduzca el número de columna donde están los datos y seleccione Aceptar. 3. En esta misma ventana de diálogo, Minitab permite que se eliminen algunos valores atípicos o extrínsecos, para ello seleccione las ventanillas Trim y haga clic en OK. Esta orden eliminará los valores inusuales y señalará los más altos y más bajos. Ejemplo 1.34. Con las instrucciones anteriores y los datos de la siguiente tabla de un ejercicio adaptado del libro Probability and Statistics for Engineering and the Sciences del investigador estadístico J. L. Devore, 2000, que corresponde al octanaje de varios tipos de gasolinas, se siguieron las instrucciones anteriores, con el objeto de hacer un diagrama de tallo. La siguiente tabla muestra la información del octanaje de varios tipos de gasolina. Tabla 1.17. 88.5 95.6 88.3 94.2 89.2 93.3 89.8 91.8 90.4 92.2

87.7 93.3 87.6 92.7 88.3 91.8 89.6 91.6 89.3 92.2

83.4 94.7 84.3 93.2 85.3 92.3 87.4 90.4 89.7 91.2

86.7 91.1 86.7 91.0 87.9 90.4 88.9 91.1 90.3 91.0

87.5 91.0 88.2 90.3 88.6 90.1 91.2 92.6 91.6 92.2

91.5 94.2 90.8 93.4 90.9 93.0 89.3 89.8 90.5 90.0

88.6 87.8 88.3 88.5 89.0 88.7 94.4 90.6 93.7 90.7

103.3 89.9 98.8 90.1 96.1 89.9 92.7 91.1 92.7

Fuente: Probability and Statistics for Engineering and the Sciences. J. L. Devore, Thomson Learning, Inc. (2000).

Siguiendo las instrucciones antes dadas se genera la información. Stem-and-Leaf Display: Relación de octanaje de gasolina Stem-and-leaf of Rel. de octanos de gasolina N 5 79 Leaf Unit 5 0.10 1 83 4 2 84 3 3 85 3 5 86 77 11 87 456789 21 88 2333556679 31 89 0233678899 (13) 90 0113344456789 35 91 0001112256688

34

| Estadística para ingeniería y ciencias 22 92 22236777 14 93 023347 8 94 2247 4 95 6 3 96 1 2 97 2 98 8 1 99 1 100 3 La distribución de los datos tiene un sesgo ligeramente positivo. Sin embargo, para mejorar la simetría de los datos, se pueden eliminar los valores extrínsecos. Siguiendo las instrucciones de arriba, seleccione las ventanillas Trim y haga clic en OK. Esto generará el histograma que sale del diagrama tallo-hoja que a continuación se muestra. Stem-and-Leaf Display: Relación de octanaje de gasolina Stem-and-leaf of Rel. de octanos de gasolina: N 5 79 Leaf Unit 5 0.10 LO 83.4 (valor inusual pequeño eliminado) 2 84 3 3 85 3 5 86 77 11 87 456789 21 88 2333556679 31 89 0233678899 (13) 90 0113344456789 35 91 0001112256688 22 92 22236777 14 93 023347 8 94 2247 4 95 6 3 96 1 HI 98.8, 100.3 (valores inusuales altos eliminados) Note que sí hubo alguna mejoría en la simetría de los datos, al eliminar los valores extrínsecos.

1.9.4 Gráficas de frecuencia relativa acumulada (ojivas) usando el Minitab Ejemplo 1.35. La intención de este ejercicio es usar la información del ejemplo 1.25, pero ahora se debe aplicar el programa Minitab para demostrar cómo se puede abreviar el trabajo del cálculo manual de los intervalos de clase y cálculo de frecuencias relativas acumuladas. 1. Primero, introduzca los datos en la hoja de trabajo del Minitab en la columna C1 dados en la tabla 1.8 del ejemplo 1.25.

Capítulo 1 Estadística descriptiva

| 35

2. Calcule la media y la desviación estándar de los datos. Acordemente, la media de los datos de la tabla 1.8 es 10.243 y la desviación estándar es 4.272. 3. En seguida, vaya a: Calculator → Probability Distribution → Normal. 4. En la ventana de diálogo Normal Distribution que aparece haga clic en Cumulative Probability. 5. En la ventanilla Mean ponga el valor del promedio (10.243) y en la ventanilla de Standard deviation escriba el valor de la desviación estándar (4.272). 6. Seleccione Input columns y coloque los datos de la columna C1. 7. En la ventana Optional Storage ubique los datos de la columna C2, o sea, la columna donde se almacenarán los datos de la frecuencia relativa acumulada (f.r.a.) y haga OK. 8. Para hacer la ojiva, vaya a: Graph → Scatterplot → Simple → OK. 9. En la ventana de diálogo Scatterplot-Simple que aparece ponga la variable dependiente y (f.r.a.) y la variable independiente x (duración de llamadas telefónicas). 10. En la ventana de diálogo de Scatterplot-Scale seleccione las subdivisiones gráficas deseadas. 11. En la ventana de diálogo Scatterplot-Data View seleccione Symbols y Connect line y OK, haga clic en OK. 12. Todas estas órdenes producen la ojiva o gráfica de frecuencia relativa mostrada a continuación.

1.0

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

0

5

10

15

20

0.0

Duración llamadas telefónicas

Figura 1.17. Gráfica de f.r.a. en fracción de duración de llamadas telefónicas.

Al igual que en el ejemplo 1.26 de la gráfica se puede ver que de manera aproximada 30% de las llamadas duraron menos de ocho minutos. Asimismo, 80% duraron menos de 14 minutos y así sucesivamente.

36

| Estadística para ingeniería y ciencias

Problemas propuestos 1.1 Calcular el promedio, la varianza y la desviación estándar de las observaciones de la siguiente muestra: 12, 6, 7, 3, 15, 10, 18, 5. 1.2 Encontrar la desviación estándar y el promedio de los valores: 3, 6, 2, 1, 7, 5, de acuerdo con los valores obtenidos del promedio y la desviación estándar. ¿Qué conclusiones se pueden obtener de la localización y la dispersión de los datos? 1.3 Escribir los siguientes términos usando anotación de suma. a) x21 1 x22 1 x23 1 . . . 1 x210 b) (x1 1 y1) 1 (x2 1 y2) 1 . . . 1 (x5 1 y5) c) f1 x1y1 1 f2 x2y2 1 f3 x3y3 1 f4 x4y4 1.4 Encontrar la desviación estándar. a) 23, 7, 29, 5 b) 2.4, 1.6, 3.8, 4.1, 3.4 1.5 El rango de los números 5, 3, 8, 4, 7, 6, 12, 4, 3 es: 1.6 De 50 mediciones la más grande es 8.34 kg. Si el rango es R 5 0.46, determinar la medición más pequeña. 1.7 Escribir las siguientes sumatorias en su forma desarrollada.

a) ¿Qué tipo de sesgo tiene esta distribución? b) ¿Dónde se halla la mayor concentración de valores? 1.11 En un examen final de estadística, los grados fueron: 100, 100, 66, 65, 64, 60, 59, 57, 58, 50. ¿Los datos tienen una distribución oblicua hacia la derecha o hacia la izquierda? Justificar el argumento usando la relación del promedio, la mediana y la moda. 1.12 Encontrar la media geométrica de la muestra aleatoria con observaciones 10, 12, 16. 1.13 La siguiente tabla muestra los coeficientes de inteligencia de 550 niños de una escuela elemental. Calcular la media aritmética, la desviación estándar, la moda, la mediana, los cuartiles, el rango, el rango intercuartílico, el diagrama de caja y el histograma. Marca de clase (x)

Frecuencia (y)

75

5

78

5

79

2

82

2

86

5

91

3

94

5

98

2

102

4

106

3

110

4

114

2

118

1

122

3

126

2

6

a)

∑X j=1

j

4

b)

∑( y 23) j =1

3

j

5

c)

∑ fk x j k=1

1.8 Con los datos de la siguiente tabla y usando el programa de computadora Minitab, Excel o una calculadora de bolsillo, determinar: a) La media aritmética. b) La varianza. c) La desviación estándar. Observación (x)

Frecuencia ( f )

70

49

74

16

78

28

Temp. (oC)

20

22

23

82

45

Frecuencia

3

2

1

86

66

90

85

Frecuencia acumulada

3

9

98

72

30%

20%

102

54

Frecuencia relativa (%) acumulada

106

38

90%

27

Frecuencia relativa

30%

110 114

18

118

115

1.9 En una distribución, si la media es 5.0, la mediana es 7.0 y la moda es 9.0, contestar los siguientes enunciados: a) ¿Qué tipo de sesgo tiene esta distribución? b) ¿Dónde se encuentra la mayor concentración de valores? 1.10 En una distribución, si el promedio es de 10.0, la mediana es de 8.0 y la moda es de 5.0, contestar las siguientes preguntas:

1.14 La siguiente tabla muestra las temperaturas, en oC, de 10 regiones de México. Llene los valores que están vacíos. 21

Total 10 1.15 Se hicieron análisis químicos de cloruros (Cl2) expresados en unidades de mg/L procedentes de una muestra de aguas residuales usando el método de nitrato de mercurio. Los resultados se muestran en la siguiente tabla: 17.2

17.1

17.0

17.1

16.9

17.0

17.1

17.0

17.3

17.2

16.9

17.0

17.1

17.3

17.2

17.4

17.1

17.1

17.0

17.1

Capítulo 1 Estadística descriptiva a) Hallar el promedio aritmético, la varianza y la desviación estándar. b) Encontrar el rango intercuartil. c) Hacer un histograma de frecuencia. d) Hallar el coeficiente de variación. Buscar su definición. e) ¿Son simétricos los datos? f ) Encontrar el primer cuartil, el segundo cuartil y el tercer cuartil. 1.16 Se hace un estudio de análisis de concentraciones de demanda bioquímica de oxígeno (DBO). Para esto se da un avance de la información. Hay que hacer lo siguiente: a) Completar la tabla de abajo calculando los puntos intermedios, la frecuencia relativa y la frecuencia relativa acumulada. b) Hacer el histograma. c) Calcular el primer cuartil y el tercer cuartil. d) Señalar en el histograma la media, la moda y la mediana.

Intervalos (Conc. DBO)

Número de análisis

50.00–59.99

8

60.00–69.99

10

70.00–79.99

16

80.00–89.99

14

90.00–99.99

10

100.00–109.99

5

110.00–119.99

2

Puntos intermedios

Frecuencia relativa (%)

Frecuencia relativa acumulada (%)

1.18 Con los datos de la siguiente tabla:

173.4

117.0

191.2

151.4

182.0

132.0

162.0

212.9

155.9

221.0

158.0

135.0

124.4

68.9

89.7

95.6

84.1

135.1

123.2

101.0

126.5

142.8

20.2

119.0

Marca de clase (x)

Frecuencia f (x)

Altura

(pulgadas)

60–62

61

5

5 × 61 5 305

63–65

64

18

64 × 18 5 1152

66–68

67

42

67 × 42 5 2814

69–71

70

27

70 × 27 5 1890

72–74

73

8

73 × 8 5 584

Calcular la media con la fórmula para datos agrupados. 1.19 Completar los faltantes de la tabla siguiente, de una distribución de frecuencia de las vidas de 400 tubos. Además, hacer los cálculos pedidos a continuación. a) Encontrar el límite superior de la quinta clase. b) Hallar el límite inferior de la octava clase. c) Determinar la marca de clase de la séptima clase. d) Localizar los límites de la última clase. e) Encontrar el tamaño del intervalo de clase. f ) Hallar la frecuencia de la cuarta clase. g) Determinar la frecuencia relativa de la sexta clase. h) Encontrar el porcentaje de los tubos cuyas vidas sean < 600 horas. i) Hacer una gráfica de frecuencia relativa versus puntos medios y revisar la simetría de los datos.

1.17 Una organización caritativa que ayuda a damnificados por huracanes ha hecho una lista de donaciones recibidas en miles de pesos durante el presente año, los datos se muestran en la siguiente tabla, con ellos: a) Encontrar la media y la varianza usando la fórmula para datos agrupados. b) Hacer el histograma. c) Obtener un polígono de frecuencia con la frecuencia relativa acumulada. d) En qué puntos este polígono alcanza las alturas 0.25, 0.50, 0.75. Éstos son aproximadamente los valores de los tres cuartiles. 253.0

| 37

Vida de los tubos

No. de tubos

300–399

14

400–499

46

500–599

58

600–699

76

700–799

68

800–899

62

900–999

48

1000–1099

22

1100–1199

6

(f)

f.r.

f.a.

f.r.a.

Punto medio

Problemas de tarea Revisa tu CD-ROM para encontrar más problemas:

Capítulo

2

(Jupiter Images Corporation)

(Jupiter Images Corporation)

Introducción a la probabilidad

Estas fotografías muestran el interior de un casino y un cohete interplanetario, ambos lugares extremos en donde se aplican modelos de probabilidad. La probabilidad es una medida de la incertidumbre en los resultados de un proceso; se puede pensar en la probabilidad cuando se jala la palan ca de las máquinas tragamonedas; de igual manera se puede pensar en la probabilidad al medir el consumo de combustible de un cohete que es lanzado al espacio, inclusive la probabilidad está presente para medir la incertidumbre de que el lanzamiento sea exitoso o fallido. Los juegos de azar siempre han ejercido una especial atracción tanto en hombres como en mujeres; la naturaleza aleatoria de los resultados y la posibilidad de obtener grandes ganancias rodea de glamour a los casinos; fue en estos ambientes donde se desarrolló con mayor vigor la teoría de la probabilidad. De manera paralela se desarrollaron los modelos probabilísticos, tanto en otros ámbitos diametralmente opuestos, como en la modelación del átomo y la posición de las partículas subatómicas, como en los procesos físicos y químicos, ya que es una herramienta esencial en el desarrollo de la ciencia y tecnología.

Introducción En este capítulo se presentan las bases para el estudio de la probabilidad; el objetivo es que los estudiantes adquieran los conocimientos acerca de los modelos aleatorios, los cuales les permitan generar inferencias estadísticas plausibles sobre fenómenos específicos, ya sea en la ingeniería o en las ciencias aplicadas.

Capítulo 2 Introducción a la probabilidad

| 39

2.1 Conceptos básicos La probabilidad es la rama de las matemáticas que se encarga del estudio formal de los procesos aleatorios. El desarrollo de la teoría de la probabilidad matemática ocurrió en el siglo xvii, y alguno de sus destacados promotores fueron el noble francés Antoine Gombauld y el matemático francés Blaise Pascal. En el siglo xix, Robert Brown observó en un líquido el movimiento azaroso de las moléculas; actualmente dicho movimiento se conoce como movimiento browniano, el cual es un movimiento aleatorio de coloides en un medio líquido causado por colisiones con moléculas del líquido. Posteriormente, Einstein aplicó el movimiento browniano a la física. Todo esto despertó el interés por utilizar la probabilidad para modelar problemas científicos dejando atrás el concepto original de aplicación a juegos de azar. En este capítulo, primero se estudiarán los objetos que son la materia prima de la probabilidad; esto es, los objetos que son susceptibles para medir la probabilidad.

Definición 2.1. Se llama experimento a cualquier proceso que es susceptible de ser observado.

El concepto de experimento en probabilidad difiere de las otras disciplinas. En probabilidad se consideran experimentos, por ejemplo, observar si en un día determinado llueve o no, lanzar un volado y ver el resultado u observar la concentración de contaminantes en el aire a una hora específica del día. Una vez establecido lo que es un experimento, se define el espacio muestral.

Definición 2.2. Se llama espacio muestral al conjunto de posibles resultados en un experimento y se denota con la letra S.

Ejemplo 2.1. Al lanzar una moneda, el espacio muestral es: S 5 {águila, sol} Ejemplo 2.2. Si el experimento es lanzar un dado, el espacio muestral es: S 5 {1, 2, 3, 4, 5, 6} Ejemplo 2.3. Si el experimento es observar el número de accidentes automovilísticos en un día y una ciudad determinados, el espacio muestral es: S 5 {0, 1, 2, 3, 4, 5, 6, 7, …} Ejemplo 2.4. Si el experimento es seleccionar al azar una carta de un mazo de 52 cartas, el espacio muestral es: S 5 {as de espadas, 2 de espadas, . . . , rey de diamantes} Ejemplo 2.5. Si el experimento es lanzar dos monedas al aire, el espacio muestral es: S 5 {aa, as, sa, ss}

40

| Estadística para ingeniería y ciencias Definición 2.3. Un evento es un subconjunto del espacio muestral. Los eventos se denotan con las letras mayúsculas del alfabeto.

Ejemplo 2.6. Si el espacio muestral es S 5 {águila, sol}, dos eventos posibles son: A 5 {águila} y B 5 {sol} Ejemplo 2.7. Si el espacio muestral es: S 5 {1, 2, 3, 4, 5, 6}, algunos ejemplos de eventos son: A 5 {1, 2}, B 5 {5, 3, 1}, C 5 {4} Se dice que un evento A ocurre si sucede cualquiera de sus elementos, por ejemplo, si en el experimento de lanzar un dado se tiene el evento F 5 {3, 4, 5}. Se dice que F ocurre, si al lanzar el dado sale el 4; o bien, sale el 3; o el 5; cualquiera de sus elementos hace que ocurra el evento F.

Algunos eventos particulares son: Definición 2.4. Evento seguro es el que siempre ocurre.

Por ejemplo, si en una rifa se compran todos los boletos, se juega con el evento seguro. Si en un volado se pide tanto águila o como sol, se juega con el evento seguro. El evento seguro es igual al espacio muestral. Definición 2.5. Evento imposible es el que no puede ocurrir.

Si no se compran boletos para una rifa se juega con el evento imposible, si en un volado se pide algo diferente a águila o sol, se juega con el evento imposible. El evento imposible se denota con el símbolo de conjunto vacío, φ.

Definición 2.6. Se dice que un evento es elemental o simple, si está formado por un único elemento.

Ejemplo 2.8. Considérese el experimento de lanzar dos monedas no cargadas. Suponer que las águilas se denotan con a y los soles con s. Citar los eventos elementales o simples. Solución: Los eventos simples son: {aa}, {as}, {sa}, {ss}.

Capítulo 2 Introducción a la probabilidad

| 41

2.1.1 Diagramas de Venn Una manera esquemática de denotar los eventos es con los diagramas de Venn. En estos diagramas el espacio muestral se indica con un rectángulo, los eventos se dibujan como curvas cerradas dentro del rectángulo y generalmente se sombrea el conjunto que se quiere destacar. Por ejemplo, el evento A se representa de la siguiente manera:

A

S Figura 2.1. El área sombreada es A.

Hay tres operaciones que se pueden llevar a cabo entre eventos: la unión, la intersección y el complemento. Definición 2.7. La unión de dos eventos es otro evento igual a la ocurrencia de al menos uno de los eventos y se indica con el símbolo ∪; esto es, la unión de los eventos A y B se indican como A ∪ B y significa que ocurre A, B o ambos simultáneos. Con diagramas de Venn, la unión de los eventos A y B es:

B

A

S Figura 2.2. El área sombreada es A ∪ B.

La unión se relaciona con la conjunción “o”. Por ejemplo, al elegir un estudiante al azar se tiene una unión cuando se pide que el estudiante elegido sea mujer o estudie derecho. En este caso, es la unión de todas las mujeres junto con todos los estudiantes de derecho, ya sean hombres o mujeres. Definición 2.8. La intersección de dos eventos es otro evento igual a la ocurrencia de los dos eventos simultáneamente y se indica con el símbolo ∩, es decir, la intersección de los eventos A y B se indican como A ∩ B.

42

| Estadística para ingeniería y ciencias Con diagramas de Venn, la intersección de los eventos A y B es:

B

A

S Figura 2.3. El área sombreada es A ∩ B.

La intersección se relaciona con la conjunción “y”. Por ejemplo, al elegir un estudiante al azar se tiene una intersección cuando se pide que el estudiante elegido sea mujer y que estudie derecho, esto es, la intersección, incluye todas las mujeres estudiantes de derecho. Definición 2.9. El complemento de un evento A es igual a que en el experimento no ocurra A, y se denota como Ac, símbolo que se lee como “complemento de A”. Por ejemplo, si al realizar el experimento de lanzar un dado, se tiene que A 5 {2, 3}; entonces, se sigue que Ac 5 {1, 4, 5, 6}. Con diagramas de Venn el complemento de A se representa de la siguiente manera:

Ac A

S Figura 2.4. El área sombreada es Ac.

Los elementos de un evento se pueden escribir en forma de lista o por la descripción de una característica común. Por ejemplo, el conjunto de las vocales del alfabeto latino se puede escribir de estas dos maneras: A 5 {a, e, i, o, u} o A 5 {x | x es una vocal} La línea “|”, se lee “tal que”. En ocasiones, los conjuntos únicamente se pueden escribir por la descripción de una característica, pues el número de elementos es grande y difícil de listar todos sus elementos.

Ejemplo 2.9. S 5 {x | x es una ciudad con una población de más de un millón de personas}

Capítulo 2 Introducción a la probabilidad

| 43

La descripción de los elementos de un conjunto también puede ser establecida mediante relaciones de orden.

Ejemplo 2.10. Considerar el experimento de observar el tiempo requerido para completar una tarea en particular y en un intervalo de 0 a 40 segundos. En este caso, el espacio muestral es: S 5 {x | 0 < x < 40} Ejemplo 2.11. Determinar el número de automóviles que los mecánicos encargados de verificar la emisión de óxidos de nitrógeno deben inspeccionar antes de encontrar uno que no satisface los reglamentos gubernamentales. En este caso, puede ocurrir que el que no cumple la norma sea el primer auto inspeccionado, o el segundo, o el tercero, etcétera; no se puede determinar cuántos autos tendrán que inspeccionar antes de hallar el primero que falle, por tanto el espacio muestral es infinito: S 5 {1, 2, 3, 4, 5, 6, 7, 8, . . .} Ejemplo 2.12. Sean los eventos A 5 {a, b, c} y B 5 {b, c, d, e}, encuentre la unión A ∪ B. Solución: La unión de dos eventos se forma al juntar los elementos que están en los dos conjuntos. A ∪ B 5 {a, b, c, d, e} Ejemplo 2.13. Si el espacio muestral es S 5 {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, y se tienen los eventos A 5 {0, 2, 4, 6, 8}, B 5 {1, 3, 5, 7, 9} y C 5 {2, 3, 4, 5}, encontrar: a) A ∩ B b) A ∩ C Solución: a) Debido a que A y B no tienen elementos en común; entonces, A ∩ B 5 φ, ya que es imposible que ocurran simultáneamente los eventos A y B. b) Como el 2 y el 4 son elementos de A y C; entonces, A ∩ C 5 {2, 4}. Ejemplo 2.14. Considerar el experimento de lanzar un dado si con el espacio muestral generado se definen los eventos: A 5 {1, 2, 3, 4}, B 5 {3, 4, 5, 6} y C 5 {1, 3, 5}. Encontrar: a) A ∪ B b) A ∪ C c) A ∩ B d) A ∩ C e) Ac f ) {A ∪ C}c

44

| Estadística para ingeniería y ciencias Solución: a) b) c) d) e) f)

A ∪ B 5 {1, 2, 3, 4, 5, 6} 5 S A ∪ C 5 {1, 2, 3, 4, 5} A ∩ B 5 {3, 4} A ∩ C 5 {1, 3} Ac 5 {5, 6} (A ∪ C)c 5 {6}

Ejemplo 2.15. El experimento aleatorio es lanzar dos monedas al aire; entonces, el espacio muestral es: S 5 {aa, as, sa, ss}. En este espacio muestral se definen los eventos: E1 5 {aa, as, sa} y E2 5 {as, sa, ss}, entonces, encuentre: a) b) c) d)

E1 ∪ E2 E1 ∩ E2 E1c E2c

Solución: a) b) c) d)

E1 ∪ E2 5 {aa, as, sa, ss} E1 ∩ E2 5 {as, sa} E1c 5 {ss} E2c 5 {aa}

Las operaciones de unión, intersección y complemento satisfacen las siguientes relaciones operacionales. Tabla 2.1. Propiedades que se satisfacen en el álgebra de conjuntos. Ley asociativa Ley conmutativa Ley distributiva Leyes de Morgan Leyes complementarias

Leyes idénticas Leyes con la misma potencia

(A ∪ B) ∪ C 5 A ∪ (B ∪ C) (A ∩ B) ∩ C 5 A ∩ (B ∩ C) A∪B5B∪A A∩B5B∩A A ∪ (B ∩ C) 5 (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) 5 (A ∩ B) ∪ (A ∩ C) (A ∪ B) c 5 Ac ∩ Bc (A ∩ B) c 5 Ac ∪ Bc A ∪ Ac 5 S A ∩ Ac 5 Φ (Ac) c 5 A Sc 5 Φ, Φc 5 S A∪Φ5A A∩S5A A∪S5S A∩Φ5Φ A∪A5A A∩A5A

Capítulo 2 Introducción a la probabilidad

| 45

Definición 2.10. Dos eventos A y B son mutuamente excluyentes si cuando ocurre uno de ellos es imposible que suceda el otro; en otras palabras dos eventos A y B son mutuamente excluyentes si no pueden ocurrir, de manera simultánea, si uno excluye al otro; esto es, A ∩ B 5 Φ.

A B S Figura 2.5. Diagrama de Venn de dos eventos mutuamente excluyentes.

Ejemplo 2.16. En los siguientes eventos determinar cuáles son mutuamente excluyentes y cuáles no lo son. a) Al manufacturar un componente electrónico los eventos:

A 5 {defectuoso}, B 5 {bueno}

b) Al elegir a una persona al azar y medirle su coeficiente intelectual:

A 5 {coeficiente intelectual > 100}, B 5 {coeficiente intelectual < 95}

c) Al seleccionar un médico al azar que sea:

A 5 {x | x es cirujano} y B 5 {x | x es mujer}

d) Al seleccionar a una persona, que la persona elegida sea:

A 5 {x | x un tipo con personalidad dominante}

B 5 {x | x un tipo de personalidad sumisa}

Solución: a) Los eventos son mutuamente excluyentes, pues un artículo no puede ser bueno y defectuoso al mismo tiempo. b) Los eventos son mutuamente excluyentes, ya que una persona no puede tener un coeficiente intelectual mayor a 100 y al mismo tiempo tener un coeficiente intelectual menor que 95. c) Los eventos no son mutuamente excluyentes, pues una persona sí puede ser médico cirujano y mujer al mismo tiempo. d) Los eventos son mutuamente excluyentes, pues una persona tiene personalidad dominante o personalidad sumisa, pero no puede tener ambas.

46

| Estadística para ingeniería y ciencias Ejemplo 2.17. Si el experimento es: elegir una carta de un mazo de 52 naipes, sean los eventos E1 5 {x | x es un as} y E2 5 {x | x es un rey}. ¿Estos eventos son mutuamente excluyentes? Solución: En este caso, estos eventos son mutuamente excluyentes, porque no se puede sacar el as y el rey al mismo tiempo.

2.2 Introducción axiomática de la probabilidad La probabilidad es una medida de la incertidumbre de que ocurra alguno de los posibles resultados de un experimento. La probabilidad se calcula a los eventos. Para el evento A, la probabilidad de A se denota como P(A). Son tres las propiedades básicas de la probabilidad o axiomas de la probabilidad.

Axiomas de probabilidad 1. Para cualquier evento A se satisface que P(A) $ 0. 2. P(S) 5 1, la probabilidad del evento seguro es 1. 3. Si A1, A2, A3, . . . , son eventos mutuamente excluyentes por pares, entonces: P(A1 ∪ A2 ∪ A3 ∪ . . . ∪ An ∪ . . .) 5 P(A1) 1 P(A2) 1 P(A3) 1 . . . P(An) 1 . . .

Con base en estos tres axiomas, se desarrolla la teoría de la probabilidad.

Teorema 2.1. Si A es un evento; entonces, P(Ac) 5 1 2 P(A). Demostración: Para cualquier evento A, se tiene que A y Ac son mutuamente excluyentes, A ∩ Ac 5 Φ; entonces, se puede aplicar el tercer axioma a la unión de estos dos eventos: P(A ∪ Ac) 5 P(A) 1 P(Ac) Por otro lado, también se satisface A ∪ Ac 5 S, por lo que P(A ∪ Ac) 5 1; entonces, se sigue que P(A) 1 P(Ac) 5 1, de donde al despejar da como resultado P(Ac) 5 1 2 P(A). Teorema 2.2. La probabilidad del evento imposible es cero, P(Φ) 5 0. Demostración: Se sabe que Φ 5 Sc, por lo que al aplicar el teorema 2.1, se determina que P(Φ) 5 P(Sc) 5 1 2 P(S) 5 1 2 1 5 0

| 47

Capítulo 2 Introducción a la probabilidad

Teorema 2.3. Si A ⊂ B necesariamente P(A) # P(B). Demostración: Se tiene que B 5 A ∪ (B ∩ Ac) y A ∩ (B ∩ Ac) 5 Φ, por lo que se puede aplicar el tercer axioma de probabilidad para calcular la probabilidad de B: P(B) 5 P(A ∪ (B ∩ Ac) 5 P(A) 1 P(B ∩ Ac) $ P(A) Esto último debido a que por el axioma 1, P(B ∩ Ac) ≥ 0. Las dos siguientes proposiciones se presentan sin demostración y se bosqueja una prueba usando los diagramas de Venn. Teorema 2.4. Si A y B son eventos; entonces: P(A ∪ B) 5 P(A) 1 P(B) 2 P(A ∩ B)

A

B

S Figura 2.6. P(A ∪ B) indica la probabilidad del área sombreada.

A

A B

B

S

S

P(A)

P(B)

Figura 2.7. En estos casos, se ejemplifica la probabilidad del área sombreada en ambos diagramas.

A B B S Figura 2.8.

48

| Estadística para ingeniería y ciencias La probabilidad de la intersección se contó dos veces en P(A) 1 P(B), por eso hay que restarle una vez este valor: P(A ∪ B) 5 P(A) 1 P(B) 2 P(A ∩ B) Teorema 2.5. Si A, B y C son eventos; entonces: P(A ∪ B ∪ C) 5 P(A) 1 P(B) 1 P(C) 2 P(A ∩ B) 2 P(A ∩ C) 2 P(B ∩ C) 1 P(A ∩ B ∩ C)

Ejemplo 2.18. Este caso es una adaptación del libro Probabilidad y Estadística para Ingenieros de Miller y Freund (1994), editado por Richard A. Jonson. Al probar el servicio de un nuevo dispositivo anticontaminante, se puede citar cada una de las seis clasificaciones con sus respectivas probabilidades: Muy deficiente 0.07

Deficiente 0.12

Suficiente 0.17

Bueno 0.32

Muy bueno 0.21

Excelente 0.11

Encontrar la probabilidad al hacer el consumidor la clasificación: a) b) c) d)

Muy deficiente Deficiente Suficiente o bueno Bueno, muy bueno o excelente

Solución: a) b) c) d)

P(muy deficiente) 5 0.07 P(deficiente) 5 0.12 P(suficiente o buena) 5 0.17 1 0.32 5 0.49 P(bueno, muy bueno o excelente) 5 0.32 1 0.21 1 0.11 5 0.64

Los incisos c) y d) corresponden a la unión de eventos mutuamente excluyentes, por eso se suman las probabilidades.

2.3 Espacios muestrales equiprobables Definición 2.11. Un espacio muestral finito es equiprobable si cada uno de sus eventos elementales tienen la misma oportunidad de ocurrir. En un espacio equiprobable tiene sentido la definición clásica de probabilidad.

P(A) 5 Donde #A 5 el número de elementos en A.

#A #S

(2.1)

Capítulo 2 Introducción a la probabilidad

| 49

Ejemplo 2.19. Si un dado está bien balanceado, el espacio muestral generado por un lanzamiento es equiprobable, pues todas las caras tienen la misma oportunidad de aparecer. En este espacio muestral encontrar: a) La probabilidad de obtener el número 1. b) La probabilidad de obtener un número par. c) La probabilidad de obtener los números 3 o 4. d) La probabilidad de no obtener los números 3 o 4. Solución: 1 3 1 2 1 2 6 6 2 6 3 3 3 1 11 3 23 1 71 2 12 1 41 2 12 b) P({2, 4, 6}) 8 6586 6 8652 82 6 46 3 83 3 23

a) P({1}) 5

1 1 3 3 1 1 32 23 11 11 22 22 7 71 1 4 4 1 1

c) P({3, 4}) 5 8 858 8 8 8 8 8 4 4 8 8 2 2 6 66 62 26 63 33 3 3 3 1 1 2 2 7 7 1 1 4 14 11 31 31 12 21 12 2

c d) P({3, 51− 5 8 8 84}8 )85 4 4P({3, 8 68 264}) 8 8182 62 62 26 63 33 3

3 31 12 27 71 14 41 1 8 88 88 88 84 48 82 2

Ejemplo 2.20. Encontrar la probabilidad de que una pareja con 3 hijos tenga: a) Exactamente 2 varones: A 5 {(v, v, n), (v, n, v), (n, v, v)} b) Tres varones o 3 niñas: B 5 {(v, v, v), (n, n, n)} c) A lo más dos varones: C 5 {(n, n, n), (v, n, n), (n, v, n), (n, n, v), (v, v, n), (v, n, v), (n, v, v)} d) Cuando menos 2 varones D 5 {(v, v, n), (v, n, v), (n, v, v), (v, v, v)} e) Más de 2 niñas: E 5 {(n, n, n)} f) Menos de 2 varones: F 5 {(n, n, n), (v, n, n), (n, v, n), (n, n, v)} Solución: El espacio muestral de este experimento, cuando v representa a los varones y n representa a las niñas, es: S 5 {vvv, vvn, vnv, nvv, vnn, nvn, nnv, nnn} Entonces, el1número en 1 S3 es18, 2y todos 1 2 los elementos son igualmente 3 1 de 2 elementos 1 2 probables: 6 6 2 6 3 3 6 6 2 6 3 3 1 2 7 11 134 311 12 21 12 2 d) P(D) 5 5 8 8 8 64 668 622 26 63 33 3 3 1 2 13 321 12 27 71 14 41 1 e) P(E) 5 6 2 6 38 838 88 88 84 48 82 2 1 2 7 1 1 4 31 1 2 1 2 f ) P(F) 5 5 8 8 8 4 68 62 2 6 3 3 3 1 2 7 1 4 1 Como se observa, si el espacio muestral es equiprobable, el calcular la probabilidad 8 8 8 8 4 8 2 1 6 1 3 13 b) P(B) 5 6 6 28 3 1 2 c) P(C) 5 8 8 8

a) P(A) 5

3 11113323111712221211412212 3 5 0.375 68 6628666686223826634633833323 8 21 331231127122127747111144 411 1 1 5 5 68 883888838888488888442488 822 26 7 1 4 1 3 8 4 8 2 8

de un evento se reduce a contar cuántos elementos tienen ese evento y el espacio muestral, por esta razón es importante contar con métodos de conteo eficientes, ya que algunos de estos métodos serán revisados en la siguiente sección.

50

| Estadística para ingeniería y ciencias

2.4 Técnicas de conteo 2.4.1 La regla del producto para pares ordenados Dicha regla de conteo es la más sencilla y consiste en determinar de cuántas maneras se puede elegir un par de elementos cuando la primera selección se hace de entre n elementos y la segunda selección de entre m elementos. El total de maneras de obtener este par se encuentra multiplicando los valores de m y n, “mn”.

Ejemplo 2.21. ¿Cuántos puntos tiene el espacio muestral del experimento que consiste en lanzar dos dados una vez? Solución: El primer dado puede caer en n 5 6 diferentes maneras. Para cada una de éstas, tal vez el segundo dado caiga en m 5 6 diferentes maneras. Por tanto, el par de dados caen en nm 5 (6) (6) 5 36 maneras. Los elementos del espacio muestral de este experimento se listan en la tabla siguiente: 11

12

13

14

15

16

21

22

23

24

25

26

31

32

33

34

35

36

41

42

43

44

45

56

51

52

53

54

55

56

61

62

63

64

65

66

Ejemplo 2.22. En un estudio médico los pacientes se clasifican de acuerdo con su tipo de sangre; es decir, AB1, AB−, A1, A−, B1. B− o O1, O−; y también se clasifican de acuerdo con su presión arterial en alta, baja o normal. Encontrar el número de maneras en las cuales un paciente se pueda clasificar. Solución: n 5 8 tipos de sangre y m 5 3 presiones arteriales. Por tanto, nm 5 (8) (3) 5 24 maneras de clasificar a los pacientes.

2.4.2 Regla de multiplicación más general La regla del producto para k-arreglos se define como sigue: si una operación se puede hacer en n1 maneras y, si para cada una de estas maneras, una segunda operación se puede hacer en n2 maneras, y, si por cada una de estas dos primeras operaciones, una tercera operación se puede hacer en n3 maneras y, así sucesivamente; entonces, la secuencia de k operaciones o arreglos se puede hacer en n1, n2, n3, . . . , nk arreglos, es decir:

n1 n2 n3, . . . , nk

(2-2)

Capítulo 2 Introducción a la probabilidad

| 51

Ejemplo 2.23. Suponer que un cliente desea instalar un teléfono inalámbrico y se selecciona de n1 5 10 colores decorativos que se supone que están disponibles en n2 5 3 longitudes de cables con n3 5 2 tipos de tonos rotativos. Entonces, ¿cuántas diferentes selecciones puede hacer? Solución: n1 n2 n3 5 (10)(3)(2) 5 60 arreglos Ejemplo 2.24. Si una clínica en un centro médico tiene 4 especialistas del corazón, 3 en medicina interna y cirujanos generales, ¿cuántas maneras existen de seleccionar un médico de cada tipo? Solución: n1 n2 n3 5 (4)(3)(2) 5 24 La regla de la multiplicación se puede representar de manera gráfica mediante los llamados diagramas de árbol; para describir cómo se elaboran estos diagramas se presenta el siguiente ejemplo. Ejemplo 2.25. Si una computadora selecciona, aleatoriamente, uno de dos factores, Rh (positivo y negativo) y uno de tres tipos de sangre, ¿cuántos elementos tiene el espacio muestral de este experimento? ¿Cuál es la probabilidad de tener el tipo de sangre A positivo? Solución: El número de elementos del espacio muestral de este experimento es: n1 n2 5 (2) (3) 5 6 por tanto el diagrama de árbol es: Factor Rh

Tipo de sangre

Resultado

A

1A

O

1O

B

1B

A

2A

1

2

O

2O

B

2B

Figura 2.9. Diagrama que muestra el factor Rh, el tipo de sangre y el resultado.

Del diagrama de árbol de la figura 2.9, se obtiene el espacio muestral, que es: S 5 {1A, 1O, 1B, 2A, 2O, 2B} Al examinar esta situación se observa que una sola rama corresponde a: 1A. Por 1 3 1 2 1 2 suponiendo que en la población 6 6 2 6 3 3 de interés los tres tipos de sangre y los dos factores3RL1 son 2 igualmente 7 1 4 1probables. 8 8 8 8 4 8 2

tanto, la probabilidad de este evento es P(1A) 5

52

| Estadística para ingeniería y ciencias Ejemplo 2.26. Encontrar la probabilidad de que un infante sea una niña con ojos azules. Suponer que la probabilidad de varones y mujeres es igual y que puedan tener ojos cafés, verdes, azules o castaños, también es igualmente probable. 1 3 1 2 1 2 6 6 se2obtiene: 6 3 n 3 n 5 (2) (4) 5 8. La probabilidad de tener Si se usa la regla de productos 1 2 3 1 2 7 1 4 1 una niña con ojos azules es . El diagrama de árbol de este espacio muestral es: 8 8 8 8 4 8 2

Solución:

Sexo

Color de ojos

Resultado

Varón

Cafés Azules Verdes Castaños

Varón de ojos cafés Varón de ojos azules Varón de ojos verdes Varón de ojos castaños

Mujer

Cafés Azules Verdes Castaños

Mujer de ojos cafés Mujer de ojos azules Mujer de ojos verdes Mujer de ojos castaños

Figura 2.10. Diagrama de árbol 1 3 para 1 2varones 1 2 y mujeres.

6 elementos. 6 2 6 3De3manera que la probabilidad de tener El espacio muestral S tiene ocho 3 1 2 7 1 4 1 una niña de ojos azules es igual a . 8 8 8 8 4 8 2

Ejemplo 2.27. Considerar el lanzamiento de una moneda tres veces (o el lanzamiento de tres monedas a la vez). a) Usar un diagrama de árbol para representar el número de resultados en el espacio muestral. b) Calcular la probabilidad de que caigan exactamente tres soles (caras). c) Calcular la probabilidad de que caigan cuando menos dos soles. d) Calcular la probabilidad de que caigan a lo más dos águilas. e) Calcular la probabilidad de todo el espacio muestral. Solución: a) En la siguiente figura se muestra el diagrama de árbol de este experimento, la letra s representa sol y la a representa águila. Etapa 1

Etapa 2

Etapa 3

Primera moneda

Segunda moneda

Tercera moneda

Sol Sol Águila Águila Sol Águila

Sol Águila Sol Águila Sol Águila Sol Águila

(s, s, s) (s, s, a) (s, a, s) (s, a, a) (a, s, s) (a, s, a) (a, a, s) (a, a, a)

Figura 2.11. Diagrama de árbol del experimento de lanzar las tres monedas simultáneamente.

Capítulo 2 Introducción a la probabilidad

| 53

En el diagrama de árbol hay ocho resultados posibles al lanzar una moneda tres veces consecutivas o tres monedas simultáneamente. El espacio muestral es:1 3 1 2 1 2 S 5 {(s, s, s), (s, s, a), (s, a, s), (a, s, s), (s, a, a), (a, s, a), (a, a, s),6(a,6a, 2a)} 6 3 3 3 1 2 7 1 4 1 8 8 8 8 4 8 2

b) La probabilidad de que caigan exactamente 1 3tres1 soles 2 1es: 2P{(s, s, s)} 5 c) La probabilidad de que caigan cuando menos 6 6 dos 2 6soles 3 es: 3

3 1 2 7 1 1 4 31 1 2 1 2 5 1 3 1 2 1 2 8 8 8 8 4 68 62 2 6 3 3 d) La probabilidad de caigan a lo más dos águilas es: 3 1 26 76 12 46 13 3 3 1 2 7 1 4 1 8 45 8 2 P({(s, s, s), (s, s, a), (s, a, s), (a, s, s), (s, a, a), (a, s,8a),8(a,8a, s)}) 8 8 8 8 4 8 2 e) La probabilidad de 1todo 3 el 11 espacio 32 111 32muestral 2111 322111es 3221P(S) 11 3225 1111;32es 211decir: 1 322 11 22 1 2 6 6a, 2 s) 661 623P(s, 66362a,3 6a)6361 23P(a, 663623s,6s) 6361 23 6P(a, 63623s,66a) 3 21 3 6P(a, 3 3 s, 3s) 1 P(s, s, s) 1 P(s, s, a) 16 P(s, 3 1 32 17 321 17432111743211174321117432111743211174 211 74 11 4 1 P(a, a, a) 5 1 1 1 1 1 1 1 5 1 8 8 88 88 884 88888428888842888884288888428888842888 842 88 42 8 2

P({(s, s, s), (s, s, a), (s, a, s), (a, s, s)}) 5

Ejemplo 2.28. Una pareja de recién casados desea tener cuatro hijos. a) Listar el espacio muestral para este experimento. b) ¿Cuál es la probabilidad de tener tres varones?, ¿cuatro varones? c) ¿Cuál es la probabilidad de tener sólo niñas? ¿Más de dos niñas? Solución: a) S 5 {vvvv, vvvn, vvnv, vvnn, vnvv, vnvn, vnnv, vnnn, nvvv, nvvn, nvnv, nvnn, nnvv, nnvn, nnnv, nnnn} 4 11 5 4 1 5 5 ¼ ; P(4 varones) 5 4 16 16 16 16 16 16 4 1 5 4 1 5 c) P(4 niñas) 5 ; P(más de 2 niñas) 5 16 16 16 16 16 16

b) P(3 varones) 5

2.4.3 Permutaciones Definición 2.12. Una permutación de k en n es un arreglo ordenado de k objetos o casos, tomados de un conjunto con n elementos; en una permutación k < n o k 5 n siempre. El número total de permutaciones de n elementos en k lugares se denota como nPk. En una permutación el orden es importante y los diferentes elementos del conjunto aparecen una única vez. Teorema 2.6. El número total de permutaciones en k lugares es: n(n 2 1)(n 2 2) . . . (n 2 k 1 1) Demostración: La formación de un arreglo se puede ver como un proceso que se realiza en n etapas, cada etapa es la selección del siguiente elemento en el arreglo.

54

| Estadística para ingeniería y ciencias Para elegir el primer elemento del arreglo se tienen n posibles resultados. Para elegir el segundo elemento del arreglo se tienen (n 2 1) posibles resultados, pues si ya se eligió un elemento, sólo quedan n 2 1 donde se puede hacer la elección. Para elegir el tercer elemento se tienen (n 2 2) posibles resultados, uno menos que antes. De esta manera, para elegir el elemento k del arreglo, se tienen (n 2 (k 2 1)) posibles resultados, por lo que aplicando la regla de la multiplicación, el total de maneras de completar el proceso es: n(n 2 1)(n 2 2)(n 2 3) . . . (n 2 k 1 1) Corolario Si n 5 k, el número de permutaciones es igual a n(n 2 1)(n 2 2)(n 2 3) . . . (3)(2)(1).

Notación factorial En los métodos de conteo es muy común que aparezcan productos de números que disminuyen en una unidad. Entonces, es conveniente introducir una notación para este tipo de productos la cual se llama notación factorial. Definición 2.13. Para un entero n positivo el factorial n, o n factorial, denotado como n!, es igual a: n! 5 n(n 2 1)(n 2 2)(n 2 3) . . . (3)(2)(1) y para 0 se define como 0! 5 1.

Ejemplo 2.29. Calcular los factoriales de 7, 5 y 0. Solución: a) 7! 5 (7)(6)(5)(4)(3)(2)(1) 5 5 040 b) 5! 5 (5)(4)(3)(2)(1) 5 120 c) 0! 5 1 Ejemplo 2.30. Un candidato presidencial planea visitar cada uno de los 28 estados de un país, ¿cuántas rutas diferentes son posibles? Solución: Las capitales de los diferentes 28 estados se pueden arreglar en 28! maneras; así el número de diferentes rutas es 28! 5 3.049 × 1029. Ejemplo 2.31. En la facultad de ingeniería, en cierta oficina, los escritorios de cuatro becarias se ponen en línea contra una pared. Cada becaria se puede sentar en cualquier escritorio. ¿Cuántos arreglos para sentar a las becarias son posibles? Solución: n! 5 4! 5 (4)(3)(2)(1) 5 24

Capítulo 2 Introducción a la probabilidad

| 55

Teorema 2.7. La fórmula para calcular el total de permutaciones de n elementos en k lugares es: n

Pk 5

n! ( n 2 k )!

Demostración:

P 5 n( n 21)( n 2 2) . . . (n 2 k 11) 5 n k n! P 5 Por n k la definición de permutaciones se tiene que: ( n 2 k )! n

Pk 5 n( n 21)( n 2 2) . . . (n 2 k 11) 5

(2.3)

n( n 21)( n 2 2) . . . (n 2 k 11)(n 2 k ). . ( n 2 k )(n 2 k 21). . . (3)(2)(1)

n( n 21)( n 2 2) . . . (n 2 k 11)(n 2 k ). . . (3)(2)((1) n! 5 ( n 2 k )(n 2 k 21). . . (3)(2)(1) ( n 2 k )!

(2.4)

Ejemplo 2.32. Con una calculadora de bolsillo evalúe las siguientes permutaciones: a) b) c) d)

P3 P 6 4 P 15 1 P 3 3 8

Solución: a) b) c) d)

P3 5 n!/(n 2 r)! r 5 8!/(8 2 3)! 5 336 P 5 (6)(5)(4)(3) 5 360 6 4 P 5 15 15 1 P 5 (3)(2)(1) 5 6 3 3 8

Ejemplo 2.33. El número de permutaciones de las cuatro letras, a, b, c, d en cuatro lugares: n 5 k 5 4, es: n! 5 4! 5 24 Ejemplo 2.34. En una lotería en la cual hay un primer y un segundo premio se emitieron 20 boletos. De cuántas maneras posibles se puede tener el par de boletos ganadores. Solución: Como se obtiene un primer y un segundo premios, sí importa el orden de los boletos premiados; entonces, se debe usar la fórmula de las permutaciones para n 5 20 y k 5 2, la solución es: P2 5

20

20! 5 380 (20 2 2)!

Ejemplo 2.35. Bajo las condiciones del problema anterior, ¿cuál es la probabilidad de ganar si se compra un solo boleto? Solución: Si el experimento es escoger a los dos boletos premiados de los 20 boletos que se emitieron, el espacio muestral tiene 380 elementos. Los elementos del espacio muestral

56

| Estadística para ingeniería y ciencias son de la forma (n, m), donde n es el boleto que gana el primer premio y m el boleto que gana el segundo premio. S 5 {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), . . . , (19, 20), (20, 1), (20, 2), . . . , (20, 19)} Si se compra solamente el boleto con el número k, se gana si: 1. Obtiene el primer premio; esto es, si los boletos ganadores son de la forma (k, n) con n ≠ k son 19 posibles casos. 2. Obtiene el segundo premio; esto es, si los boletos ganadores son de la forma (n, k) con n ≠ k, son también 19 casos diferentes a los anteriores. Entonces, hay 2·19 5 38 casos en que se puede ganar y la probabilidad de ganar es: P(ganar con un solo boleto) 5

38 38 1 1 5 5 0.10 38038010 10

Ejemplo 2.36. ¿Cuál es el número de permutaciones de las letras a, b, c; esto es, n 5 k 5 3? Solución: La solución es 3! 5 (3)(2)(1) 5 6, y éstas son: abc, bac, acb, cab, bca, cba. Ejemplo 2.37. Es una carrera de 10 caballos hay un premio para cualquiera que pueda escoger el orden exacto y ganar desde el primero hasta el décimo lugar. ¿Cuántos arreglos diferentes hay? Solución: 10

P10 5 3 628 800 permutaciones

2.4.4 Combinaciones Definición 2.14. Se conoce como combinaciones de n en r, al número total de subconjuntos de r elementos de un conjunto de n elementos. Las combinaciones se denotan como nCr.

Ejemplo 2.38. A 5 {a, b, c, d} encuentre todos los subconjuntos de dos elementos. Solución: Los subconjuntos de dos elementos del conjunto de cuatro elementos son: {a, b}, {a, c}, {a, d}, {b, c}, {b, d}, {c, d}. Entonces, el número total de combinaciones de 4 en 2 es igual a 6. En las combinaciones el orden no es importante, pues el conjunto {a, b} es igual que {b, a}.

Capítulo 2 Introducción a la probabilidad

| 57

Teorema 2.8. El número de combinaciones de n en r se puede calcular mediante la fórmula:

Cr 5

n

n! r !( n 2 r )!

(2.5)

Demostración:

n! ( n 2 r )! en r lugares es nPr 5 Ya se vio que el número de permutaciones de n elementos 7!

n! ( n 2 r )!

En las permutaciones el orden es importante pues si los elementos de un conjunto se escriben en 4! más. En una combinación no importa el orden, un orden diferente se cuenta como una permutación 10! importa únicamente los elementos que intervienen. De esta manera, las permutaciones son iguales 6! a las combinaciones por el número que cada subconjunto se puede presentar como una ordenación 5! diferente. 3! P 5 r!nCr (2.6) n r de donde se sigue que: n

Ejemplo 2.39. Evaluar 7C4. Solución:

P n! Cr 5 n r 5 r ! r !( n 2 r )!

n! r !( n 2 r )!

(2.7)

n! r !( n 2 r )!

n!

n!

Con la fórmula nCr 5 y sustituyendo los valores de n 5 7 y r 5 4, se obtiene ( n 2 r )! ( n 2 r )! el siguiente resultado: 7! 7! C 5 3! 5 35 7 3

4! 4! 10! 10! Ejemplo 2.40. En una fábrica de llantas se elaboran 10 tipos diferentes de neumáticos. Si se quiere 6! 6! preparar una remesa con seis tipos de llantas, ¿de cuántas maneras se puede preparar 5! 5!n! el envío? 3! ! 2 r )! r !(3n

Solución:

n!

Al preparar la remesa de llantas se debe elegir un subconjunto de seis llantas de di( n 2 r )! ferente tipo; es decir, se debe seleccionar un subconjunto de seis elementos de los 10 7! disponibles. Entonces, la solución es igual4al ! número de combinaciones de 10 en 6: 10! 4! 5 210 6! n! 5!n 2 r )! r !( Ejemplo 2.41. Se elegirán a tres inspectores de cinco disponibles para inspeccionar las actividades de 3!n!

C6 5

10

una industria contaminante. ¿De cuántas maneras se pueden seleccionar? ( n 2 r )!

Solución:

7!

Los tres inspectores integran un subconjunto 4! de los cinco inspectores disponibles; entonces se pide que se diga cuántos diferentes10subconjuntos de tres inspectores se pueden ! formar de los cinco disponibles, y esto corresponde a las combinaciones de 5 en 3: 6! C3 5

5

5! 2! 5 10 3!

58

| Estadística para ingeniería y ciencias n! r !( n 2 r )!

Ejemplo 2.42. ¿De cuántas maneras puede la Sociedad Química Mexicana seleccionar las fechas en que tres conferencistas dicten su conferencia,n!si cada conferencia debe ser dictada en ( n 2disponibles? r )! días diferentes y únicamente hay cinco fechas

7! 4! 10 Se pide elegir un subconjunto de tres días de! un total de cinco días; esto es, las com6! binaciones de 5 en 3: 5! C 5 2! 5 10 5 3 3!

Solución:

Ejemplo 2.43. Se tienen cuatro cajas para almacenar cuatro de seis objetos; ¿cuántas maneras posibles hay de escoger los cuatro objetos que queden en las cajas? Solución: Los cuatro objetos que se empacarán es un subconjunto de los seis objetos totales, por lo que la solución es la combinación de 6 en 4: C4 5 15

6

Teorema 2.9. Si de un conjunto de n elementos se quiere obtener k subconjuntos con n1, n2, n3, . . . , nk, elementos cada uno (n1 1 n2 1 n3 1 . . . 1 nk 5 n), la fórmula para obtener el total de maneras en que se puede hacer es:

n

C n n ... n 5 1 2

k

n! n1!n2!n3! . . . nk!

(2.8)

Demostración: El proceso de selección de los k subconjuntos se hace en k etapas, en cada etapa se selecciona uno de los subconjuntos. En la primera etapa se selecciona un subconjunto de n1 elementos del conjunto total de n elementos. El total de maneras en que se puede realizar la primera etapa es: n

Cn 5 1

n! n1 !( n − n1 )

(2.9)

En la segunda etapa se elige un subconjunto de n2 elementos del conjunto de n 2 n1 elementos que quedan. El total de maneras en que se puede realizar la segunda etapa es: n2n1

Cn 5 2

( n 2 n1 )! n2 !( n 2 n1 2 n2 )

(2.10)

En la etapa i, se selecciona un subconjunto de ni elementos del conjunto de n 2 n1 2 n2 … 2 ni−1 elementos que quedan. El total de maneras en que se puede realizar la etapa i es:

n2n1 2... 2ni 21

Cn 5 i

( n 2 n1 2 n2 2. . . 2 ni21 )! ni ( n 2 n1 2 n2 2. . . 2 ni21 2 ni )!

(2.11)

Capítulo 2 Introducción a la probabilidad

| 59

Hasta la etapa k-ésima, y por la regla del producto, el total de formas de hacer la selección es igual a la multiplicación del total de formas de hacer la selección de cada etapa. Al multiplicar cada una de las diferentes combinaciones se cancelan algunos términos:

n

C n ,n ... nr 5 n C n 3 n2n C n 3... 3 n2n 2...2n C n 5 1

2

1

1

2

1

k 22

k .1

n! n1!n 2!n 3! . . . n k!

(2.12)

Ejemplo 2.44. ¿De cuántas maneras pueden arreglarse en un cordón eléctrico con nueve portalámparas, tres focos rojos, cuatro focos amarillos y dos focos azules? Solución: Como se observa, lo que se pide es seleccionar tres subconjuntos de las nueve portalámparas de 3, 4 y 2 elementos cada uno, para poner los focos de diferente color. Esto implica que se utilice la fórmula

n! El resultado es: (n1!n2!n3!) 9! 5 1 260 [(3!4!2!)] 12!

Ejemplo 2.45. El equipo de un colegio juega 12 partidos durante la temporada. ¿De cuántas maneras [( 7!)(3!)(2!)] pueden darse los resultados de los juegos para el equipo si al terminar la temporada ganó 7 juegos, perdió 3 y empató 2? 7! (3!2!2!)

Solución:

10!

El total de maneras en que pueden darse es igual al número de subcon(3 3!3!los 2!2resultados !) juntos de 7, 3 y 2 elementos del total de los 12 juegos, por lo que para encontrar este 9! anterior con n 5 12, n 5 7, n 5 3 y n 5 valor se debe usar la fórmula del teorema 1 2 3 [( ! !2!)] 3 4 2 para resolver este problema: 12! 5 7 920 [( 7!)(3!)(2!)] 7!

Ejemplo 2.46. ¿En cuántas maneras pueden siete científicos ser asignados a una habitación triple y a (3!2!2!) dos habitaciones dobles en un hotel? 9! 10! 3!4!2!)] (3 3!3!2![( 2!) La solución es igual a decir, ¿de cuántas maneras 12!se pueden obtener tres subconjuntos de 3, 2 y 2 científicos, del total de siete que[( 7son? La2!)] fórmula es: !)(3!)(

Solución:

7

7! 5 210 9! (3!2!2!) [(3!4!2!)] 10!

C3,2,2 5

Ejemplo 2.47. ¿De cuántas maneras se pueden acomodar 10 viajeros en un hotel asignándoles dos 12! (3 3!3!2!2!) habitaciones triples y dos habitaciones dobles? [( 7!)(3!)(2!)]

Solución:

7! Con la fórmula de las combinaciones (3!2del !2!)teorema anterior, se obtiene: 10! 5 25 200 (3 3!3!2!2!)

60

| Estadística para ingeniería y ciencias

2.5 Probabilidad condicional Considere el experimento de seleccionar a una persona al azar de un grupo de 30 personas de las cuales 10 son mujeres y 20 son hombres, 7 de las mujeres estudian enfermería y 3 ingeniería, en cambio 18 de los hombres estudian ingeniería y 2 enfermería. Sean los eventos: A : “la persona seleccionada es mujer”. B : “la persona seleccionada estudia ingeniería”. ¿Cuál es la probabilidad de que la persona seleccionada estudie ingeniería? Solución: Al aplicar la fórmula de la probabilidad para espacios equiprobables, sabiendo que son 21 personas las que estudian ingeniería, se tiene que: P(B) 5

#B 3 118 21 5 5 5 0.7 #S 30 30

La probabilidad de que la persona seleccionada sea mujer es: P(A) 5

#A 10 1 5 5 #S 30 3

y la probabilidad que la persona seleccionada sea una mujer que estudia ingeniería, es P(A ∩ B) 5

#A ∩B 3 5 5 0.1 #S 30

Si se decide escoger a la persona únicamente de entre las mujeres, el espacio muestral se reduce y la pregunta sería: ¿cuál es la probabilidad de elegir a una persona que estudie ingeniería dado que es mujer? Solución: El resultado se encuentra dividiendo el número de mujeres que estudia ingeniería entre el total de mujeres, esto es:

A esta probabilidad se le conoce como probabilidad condicional, y se puede escribir en términos de la probabilidad con el espacio original mediante la relación dada en la expresión siguiente:

La definición formal de la probabilidad condicional es la siguiente:

Definición 2.15. Dados dos eventos A y B de un espacio muestral S, se define como probabilidad condicional de A dado B a la probabilidad que ocurra A dado que ocurrió B, y se calcula mediante la siguiente fórmula:

Capítulo 2 Introducción a la probabilidad

« P(A B) ® P(A | B) 5 ¬ P(B) ® 0

| 61

si P(B) x 0 si P(B) 5 0

Ejemplo 2.48. Si en un espacio muestral se tienen dos eventos A y D, tales que: P(D) 5 0.83, P(A) 5 0.82 y P(D ∩ A) 5 0.78 a) Encontrar la probabilidad de A dado D. b) Hallar la probabilidad de D dado A. Solución: a) P(A|D) 5 P(D ∩ A)/P(D) 5 0.78/0.83 5 0.94 b) P(D|A) 5 P(D ∩ A)/P(A) 5 0.78/0.82 5 0.95 Ejemplo 2.49. Los resultados obtenidos de 266 muestras de aire se clasifican de acuerdo con la presencia de dos moléculas raras. Sean los eventos: A 5 {x | x es una muestra con la molécula rara tipo 1} B 5 {x | x es una muestra con la molécula rara tipo 2}

¥ 12 ´ ¥ 36 ´ y P(A) 5¦ , entonces, para calcular la probabilidad de µ § 266 ¶ § 266 µ¶

Se sabe que P(A ∩ B) 5¦

tener una muestra con la molécula rara del tipo 2, si se sabe que ya tiene la molécula del tipo 1, es (Montgomery et al. 1996): Solución:

¥ 12 ´

¥ 36 ´

12

1

P(B|A) 5 P(A ∩ B)/P(A) 5 ¦ / 5 5 36 3 § 266 µ¶ ¦§ 266 µ¶

¥ 30 ´ § 266 µ¶

Ejemplo 2.50. Refiriéndose al problema anterior, encontrar P(A|B), si P(B) es igual a¦ Solución:

¥ 12 ´ ¥ 30 ´

12

P(A|B) 5 P(A ∩ B)/P(B) 5 ¦ / 5 5 0.4 § 266 µ¶ ¦§ 266 µ¶ 30

Teorema 2.10. Para cualquier par de eventos A y B se satisface que: P(A ∩ B) = P(A | B)P(B)

La demostración es directa al despejarla de la definición de probabilidad condicional.

62

| Estadística para ingeniería y ciencias Teorema 2.11. Para eventos A1, A2, A3, . . . , An se tiene que: P(A1 ∩ A2 ∩ A3 ∩ . . . ∩ An) 5 P(A1 | A2 ∩ A3 ∩ . . . ∩ An) P(A2 | A3 ∩ . . . ∩ An) . . . P(An21|An)P(An) Demostración: Se usa sucesivamente la fórmula P(A ∩ B) = P(A | B)P(B)

P(A1 ∩ [A2 ∩ A3 ∩ . . . ∩ An]) 5 P(A1 | A2 ∩ A3 ∩ . . . ∩ An) P(A2 ∩ [A3∩ . . . ∩ An]) 5 P(A1 | A2 ∩ A3 ∩ . . . ∩ An) P(A2 | A3 ∩ . . . ∩ An) P(A3 ∩ . . . ∩ An). 5 P(A1 | A2 ∩ A3 ∩ . . . ∩ An) P(A2 | A3 ∩ . . . ∩ An) . . . P(An − 1|An)P(An)

Ejemplo 2.51. Se tiene una urna con 3 bolas rojas, 4 bolas blancas y 5 bolas verdes. Se eligen sucesivamente sin reemplazo las bolas de la urna. Encontrar la probabilidad que: a) Las dos primeras bolas sean verdes. b) La tercer bola sea roja si la primera fue verde y la segunda es roja. c) La primera bola sea roja, la segunda sea blanca y la tercera sea verde. Solución: Sean los eventos: a) Ei la i-ésima bola es roja. b) Fi la i-ésima bola es blanca. c) Gi la i-ésima bola es verde. El total de bolas en la urna son 12, conforme se seleccionan las bolas se reduce este número. a) G1 ∩ G2 es el evento: las primeras dos bolas son verdes, entonces: ¥ 4 ´¥ 5 ´

¥ 5´

P(G1 ∩ G2) 5 P(G2 | G1) P(G1) 5 ¦ µ ¦ µ 5 ¦ µ § 11 ¶ § 12 ¶ § 33 ¶ b) Si ya se sacaron 2 bolas, una verde y otra roja, sólo quedan 10 bolas y de ella 2 son rojas, por lo que: 2 P(E3 | G1 ∩ E2) 5 10

¥ 5 ´¥ 4 ´¥ 3 ´

5

c) P(E1 ∩ F2 ∩ G3) 5 P(G3 | E1 ∩ F2) P(F2 | E1) P(E1) 5 ¦ µ ¦ µ ¦ µ 5 § 10 ¶ § 11 ¶ § 12 ¶ 110

2.6 Teorema de Bayes Teorema 2.12. (Probabilidad total) Sea E1, E2, E3, . . . , En eventos tales que: 1. Ei ≠ φ, para i 5 1, 2, 3, . . . , n 2. Ei ∩ Ej 5 φ, . . . si i ≠ j 3. E1 ∪ E2 ∪ E3 ∪ . . . ∪ En 5 S

Capítulo 2 Introducción a la probabilidad

| 63

Entonces, para cualquier evento A se satisface que: P(A) 5 P(A ∩ E1) 1 P(A ∩ E2) 1 P(A ∩ E3) 1 . . . 1 P(A ∩ En) 5 P(A|E1)P(E1) 1 P(A|E2)P(E2) 1 P(A|E3)P(E3) 1 . . . 1 P(A|En )P(En) Demostración: Los eventos Ei forman una partición del espacio muestral, pues la unión de todos ellos determina el espacio muestral y por parejas son mutuamente excluyentes, esto se puede representar con diagramas de Venn, tales como: E1

E2

E3

E4

E5

E6

…

En

A

S

Figura 2.12. A 5 (A ∩ E1) ∪ (A ∩ E2) ∪ (A ∩ E3) ∪ . . . ∪ (A ∩ En).

El evento A es igual a la unión de eventos mutuamente excluyentes, por lo que por el axioma 3 de la probabilidad sucede lo siguiente: P(A) 5 P(A ∩ E1) 1 P(A ∩ E2) 1 P(A ∩ E3) 1 . . . 1 P(A ∩ En) y por la definición de probabilidad condicional se obtiene: P(A) 5 P(A|E1)P(E1) 1 P(A|E2)P(E2) 1 P(A|E3)P(E3) 1 ... 1 P(A|En )P(En) La probabilidad condicional generalmente se utiliza cuando se quiere determinar la probabilidad de un evento posterior dado otro evento anterior; por ejemplo, cuál es la probabilidad del color de la segunda bola extraída dado el color de la primera bola extraída; con el teorema de Bayes se calcula la probabilidad de lo que ocurrió antes conociendo lo que sucedió después esto corresponde a la interferencia de causas conociendo el resultado. El teorema de Bayes se enuncia como: Teorema 2.13. (de Bayes) Sea E1, E2, E3, ..., En eventos, tales que:

Ei ≠ φ, para i 5 1, 2, 3, . . . , n

Ei ∩ Ej 5 φ, . . . si i ≠ j

E1 ∪ E2 ∪ E3 ∪ . . . ∪ En 5 S Entonces, para cualquier evento A se satisface que:

P(E j | A ) 5

P(A | E j )P(E j ) P(A | E1 )P(E1 ) 1 P(A | E 2 )P(E 2 ) 1. . . 1 P(A | E n )P(E n )

(2.13)

64

| Estadística para ingeniería y ciencias Demostración: Se sabe que P(E j | A ) 5

P(A ∩ E j ) P(A )

5

P(A | E j )P(E j ) P(A )

y por el teorema de la probabilidad total, el

denominador se transforma: P (E j | A) 5

P(A | E j )P(E j ) P(A | E1 )P(E1 ) 1 P(A | E 2 )P(E 2 ) 1. . . 1 P(A | E n )P(E n )

(2.14)

Los experimentos en los que se aplica la fórmula de Bayes presentan en dos etapas: una etapa anterior (una antes) y una etapa posterior (una después). La etapa anterior se relaciona con los eventos de la partición (E1, E2, E3, . . . , En); la etapa posterior se relaciona con el evento A.

Ejemplo 2.52. Considerar una urna con 4 bolas blancas y 6 bolas negras. Si se sacan 2 bolas al azar sin reemplazo, encontrar la probabilidad de que la primera bola sea negra dado que la segunda bola es blanca. Solución: Sean los eventos: E1: la primera bola es blanca. E2: la primera bola es negra. D: la segunda bola es blanca. Con la fórmula de Bayes, se obtiene: P(E 2 | D) 5

P(D | E 2 )P(E 2 ) P(D | E1 )P(E1 ) 1 P(D| E 2 )P(E 2 )

P(E 2 | D) 5

(4 / 9)(6 / 10) 6 2 5 5 (3 / 9)(4 / 10) + (4 / 9)(6 / 10) 9 3

Ejemplo 2.53. En un lote de 5 artículos se elige uno al azar. El artículo elegido se prueba y sale defectuoso; si el lote puede tener de 1 a 5 artículos defectuosos con igual probabilidad, ¿cuál es el número de artículos defectuosos más probable, dada la información de que se sacó un artículo defectuoso? Solución: La primera etapa del experimento se relaciona con la condición de los artículos del lote (cuántos artículos defectuosos hay en el lote); la segunda etapa se relaciona con la prueba del artículo para ver si es bueno o defectuoso. La primera etapa está relacionada con la partición: a) E1, en el lote hay 1 artículo defectuoso. b) E2, en el lote hay 2 artículos defectuosos. c) E3, en el lote hay 3 artículos defectuosos.

Capítulo 2 Introducción a la probabilidad

| 65

d) E4, en el lote hay 4 artículos defectuosos. e) E5, en el lote hay 5 artículos defectuosos. La segunda etapa define el evento D: a) D: el artículo elegido del lote es defectuoso. 1 i 5 5

Por hipótesis del problema, se sabe que P(Ei) 5 ; además, la probabilidad de sacar un artículo defectuoso cuando hay i defectuosos; cuando hay i defectuosos es: P(D | Ei)

1 i 5 para i 5 1, 2, 3, 4, 5. 5 5

Por la fórmula de Bayes, se tiene que: P(Ei | D) 5

P(D | Ei )P(Ei ) 5

∑ P(D | E k =1

k

)P(E k )

lo cual implica que: P(Ei | D) 5

(1 / 5)(i / 5) i 5 (1 1 2 1 3 1 4 1 5) / 25 15

Se puede ver que la máxima probabilidad se tiene cuando todos los focos del lote son defectuosos.

2.7 Eventos independientes Definición 2.16. Dos eventos A y B se dice que son independientes si y sólo si la ocurrencia de uno de ellos no cambia la probabilidad de ocurrencia del otro; es decir A y B son independientes si P(A | B) 5 P(A) y P(B | A) 5 P(B). Teorema 2.14. Si A y B son eventos independientes, entonces: P(A ∩ B) 5 P(A )P(B)

Teorema 2.15. Los eventos A1, A2, A3, . . . , An son independientes si y sólo si: P(A1 ∩ A2 ∩ A3 ∩ . . . ∩ An) 5 P(A1) P(A2) . . . P(An−1)P(An)

Ejemplo 2.54. Encontrar la probabilidad de sacar dos soles en dos lanzamientos de una moneda no cargada. Solución: Puesto que la moneda no está cargada, la probabilidad de obtener un sol en un volado es igual a 0.5; los resultados de los dos lanzamientos son independientes, por tanto la probabilidad de tener dos soles es:

66

| Estadística para ingeniería y ciencias P(s, s) 5 (0.5)(0.5) 5 0.25. Ejemplo 2.55. Se sacan dos cartas, aleatoriamente, de un mazo de 52 naipes; ¿qué probabilidad hay de obtener dos ases si. . . a) la primera carta se reemplaza antes de que se saque la segunda? b) la primera carta no se reemplaza antes de que se saque la segunda? Solución: Sean los eventos: A1: se obtiene as en la primera extracción. A2: se obtiene as en la segunda extracción. a) Si para sacar la segunda carta se regresa al mazo la carta que ya se sacó, la probabilidad del resultado de la segunda carta es independiente de lo que haya ocurrido con la primera extracción. Los dos resultados son independientes. Por otro lado, entre los 52 naipes hay cuatro ases, la probabilidad de sacar un as en cada extracción es

44 11  11  11  11 5 , por tanto,5 la5probabilidad de tener dos ases es: 169 5252 1313  1313  1313  169 4 1  1  1  1 P(A1 ∩ A2) 5 P(A1)P(A2) 5     5 52 13  13   13  169    1 entonces,  44 la segunda 1  3al3 sacar 11 b) Si carta no se regresa la carta4que1ya se1 sacó, sólo  13   13  5 169  5151  5252 55221 52 13 221 quedan 51 cartas y 3 ases si la primera carta fue as. Los resultados de las 2 extrac1 3  4  ciones son dependientes; entonces, la probabilidad tener dos ases es:  51   52  5 de 221  3  4  2020 44 1 P(A1 ∩ A2) 5 P(A2 | A1)P(A1) 5     5 2626 2626  51   52  221 20 4 Ejemplo 2.56. Se sabe que las probabilidades asociadas a los 26dos 26eventos J y K son P(J) 5 0.60, P(K) 5 20205 0.10. ¿Estas probabilidades indican que 44 ∩ K) 20 J y4 K son independientes? 0.4 y P(J .20  2626 / / 2626 550.020 4 1  1  4 1 1 126 1  1  1  4   520   26  5  Solución: / 0 . 20 5 52 13  1352 13 169 13 13 169    13     26   26  4 1  1   1  5 1  13  169  13  452 Para que los eventos J y K sean independientes, se debe satisfacer larelación: 20  13 / 5 0.20 P(J ∩ K) 5 P(J)P(K)  3   4  13   4  26 1  26  5   5 En este caso, se tiene que P(J)P(K) 0.24 y P(J ∩ K) 5 0.10, que 221 51   52 5 (0.60)(0.40)  51   52  5221 1 3  4  son valores diferentes, por tanto J y K no son independientes.  51   52  5 221 20 4 20 4 Ejemplo 2.57. Encontrar P(A|B), si P(B) 5 y P(A ∩ B) 5 26 26 26 26 20 4 Solución: 26 26  4   20   4   20  Al aplicar la fórmula de la probabilidad condicional tiene: .20 /  se 0.20 5  26  /  26  5026   26      4 20 P(A|B) 5 P(A ∩ B)/P(B) 5 P(A|B) 5   /   5 0.20  26   26 

Ejemplo 2.58. (Ejemplo adaptado del libro Statistics for Management and Economics de G. Keller, Brian Warrock, Henry Bartel, Wardsworth Publishing Co., Belmont, California, 1990.) Considerar el espacio muestral S 5 {a, b, c, d), donde P({a}) 5 P({d}) 5 0.3 y P({b}) 5 P({c}) 5 0.2.

Capítulo 2 Introducción a la probabilidad

| 67

a) Calcular las probabilidades de los eventos:

E1 5 {a, b}

E2 5 {b, c}

E3 5 {c, d}

b) ¿Cuáles de los eventos definidos en el inciso a) son independientes por pares? Solución: a) P(E1) 5 0.3 1 0.2 5 0.5

P(E2) 5 0.2 1 0.2 5 0.4

P(E3) 5 0.2 1 0.3 5 0.5

b) Los eventos E1 y E2 son independientes, ya que E1 ∩ E2 5 {b}, y se satisface que P(E1 ∩ E2) 5 P(E1)P(E2) 5 0.2. De la misma manera, los eventos E2 y E3 son independientes. Los eventos E1 y E3 no son independientes, ya que P(E1 ∩ E2) 5 0, mientras que P(E1)P(E2) 5 0.25. Estos eventos son mutuamente excluyentes. Ejemplo 2.59. Veinte unidades de un producto manufacturado se sitúan en un depósito. Dos de esas unidades están defectuosas. Si se inspeccionan 2 de las 20 unidades, ¿cuál es la probabilidad de que las piezas seleccionadas sean las defectuosas? Solución: Si se tienen los eventos: A: la primera unidad inspeccionada es defectuosa. B: la segunda unidad inspeccionada es defectuosa. Se pide calcular la probabilidad de la intersección, es decir: ¥ 1 ´¥ 2 ´

1

P(A ∩ B) 5 P(B|A)P(A) 5 ¦ µ ¦ µ 5 § 19 ¶ § 20 ¶ 190 Ejemplo 2.60. Al tirar dos dados se gana si la suma de los valores resultantes es igual a 7. ¿Cuál es la ¥ 6este ´ ¥ experimento? 6´ probabilidad de ganar en dos juegos consecutivos de ¦§ 36 µ¶ ¦§ 36 µ¶

Solución:

Sean los eventos A: se gana en el primer juego; y B: se¥ gana 1 ´ en el segundo juego; A y B son eventos independientes, porque el resultado 5 del¦§ 3primer lanzamiento no afecta 6 µ¶ el resultado del segundo. Al tirar dos dados se tienen 6 posibilidades de sumar 7 (2 1 ¥ 1 ´¥ 2 ´ 1 5, 5 1 2, 3 1 4, 4 1 3, 1 1) de un total de 36 posibles resultados, entonces ¦ 11 µ ¦ 6, 6µ 5 P(A) 5

´ ¥¶ 2 190 ´ 1 6 6§ 19 ¥¶ §120 5 y P(B) 5 , así que la probabilidad de la intersección es: ¦ µ ¦ µ 36 36 § 19 ¶ § 20 ¶ 190 ¥ P(A 6 ´ ¥∩6B)´ 5 P(A) · P(B) ¦§ 36 µ¶ ¦§ 36 µ¶ ¥ 6 ´¥ 6 ´ 5 ¦ µ¦ µ § 36 ¶ § 36 ¶ ¥ 1´ 5 5¦ µ § 36 ¥¶ 1 ´ 5¦ µ § 36 ¶

| Estadística para ingeniería y ciencias

68

Ejemplo 2.61. Supóngase que en una caja hay 20 fusibles, de los cuales 5 están defectuosos. Si se seleccionan sucesivamente 2 fusibles aleatoriamente, ¿cuál es la probabilidad de que los 2 fusibles seleccionados estén defectuosos? Solución: Si se tienen los eventos: A: el primer fusible seleccionado es defectuoso. B: el segundo fusible seleccionado es defectuoso. Se pide calcular la probabilidad de la intersección, es decir:  4  5  1 5  19   20  19

P(A ∩ B) 5 P(B|A)P(A) 5 

Ejemplo 2.62. Si P(A) 5 0.5, P(B) 5 0.4 y P(B|A) 5 0.3, encontrar P(A ∩ B).

1 1 1 11 1 2 5 6 6 36 36

Solución:

P(A ∩ B) 5 P(A)P(B|A) 5 (0.5)(0.3) 5 0.15. 4 1

Ejemplo 2.63. Con referencia al problema anterior, encontrar P(A 9∪ B). 4 Solución: Para resolver este problema se utiliza la fórmula P(A ∪ B) 5 P(A) 1 P(B) 2 P(A ∩ B). P(A ∪ B) 5 0.5 1 0.4 2 0.15 5 0.75 Ejemplo 2.64. ¿Cuál es la probabilidad de obtener al menos un 6, al tirar dos dados no cargados? Solución: Sean los eventos: A1: sale 6 en el primer dado. A2: sale 6 en el segundo dado.

 4  5 

5

1

 19y se20usa  la19fórmula: Se quiere calcular la probabilidad de la unión

P(A ∪ A ) 5 P(A1) 1  4P(A   2)52  P(A 1 1 ∩ A2)  4   5  1  4   15  2 1 511 1 1 1 5      19   20  5 19 19  19 5 Se tiene que P(A1) 5 1/6, ∩2 A 20 )5 19  P(A 20 2) 5191/6 y P(A1 6 1 6 236 36 Sustituyendo todos estos valores en la fórmula da como resultado:

1 1 11 1 1 1P(A11∪ A ) 54 1 1 1 1 1 11 1 2 5 1 2 51 1 2 5 2 6 6 36 36 6 6 36 36 6 6 36 36 9 4 2 Ejemplo 2.65. La probabilidad de que Marina pase matemáticas es y la probabilidad de que pase 3 4 1 4 1 4 1 el curso de inglés es . Si la probabilidad de 9pasar ambos cursos es de , ¿cuál es la 4 9 4 9 4

probabilidad de que Marina pase cuando menos uno de los cursos? Solución: Sean los eventos: A: Marina pasa matemáticas. B: Marina pasa inglés. Se pide la probabilidad de la unión:

Capítulo 2 Introducción a la probabilidad

| 69

P(A ∪ B) 5 P(A) 1 P(B) 2 P(A ∩ B)

2

4

1

421 5 21 31924

3 9 4 31 31 5 36 36 4 13 1 16 4 1 13 2 1 5 16 1 52 2 52 5aleatoriamente, Ejemplo 2.66. ¿Cuál es la probabilidad de que una carta52seleccionada de un mazo de 52 52 52 52 52 1 1 1 52 cartas, sea un rey o un corazón? 1 1 1 51 10 1 10 5 5 10 10 5 Solución: 2 4 8 1 12 8 2 8 12 8 Sean los eventos: 2 1 4 2211 4 2 1 2 52 1 2 5 1 50 5525 3 9 34 9 4 3 52 9 514 50 5525 A: la carta seleccionada es un rey. 12 31 31 318 8 12 B: la carta seleccionada es de corazones. 52 36 36 3652 52 52 4 13 4 1 13 16 1 4 1613 1 16 1 52 2 5 ,1P(B)25 , P(A25∩1B) . Por tanto, P(A) 5 4 5 1 52 5252 5252 525252 15252 2 52 52 31 91 4 1 1 eventos 1 1 1 1 1 mutuamente Debido a que los 1 5 1no son 5 311 5 excluyentes, se usa la regla aditiva: 10 1010 5 10 5 10 10 5 P(A ∪ B) 5 P(A) 1 P(B) 2 P(A ∩ B) 2 8 212 8 812 36 2 8 8 12 8 4 513 1 5525 16 52 52 52 5 1 50 5 1 5525 50 5525 1 50 1 2 5 5 52 52 52 52 8 12 8 12 8 12 1 1 1 52 52 52 52 52 52último 5 Ejemplo 2.67. Una computadora genera aleatoriamente1el dígito de un número telefónico. 10 10 5 Encontrar la probabilidad de que el resultado sea 8 o 9 (Triola, 1986). 2 8 12 8 52 5 1 50 5525 Solución: 8 12 Sean los eventos: 52 522 4 1 A: el número elegido es 8. 1 2 3 9 4 B: el número elegido es 9. 31 Los eventos A y B son eventos mutuamente excluyentes, pues si sale un 8, esto impi36 de que salga un 9, por tanto, al aplicar la regla aditiva se tiene que P(A ∪ B) 5 P(A) 4 13 1 16 1 P(B) y sustituyendo las probabilidades da: 1 2 5 52 52 52 52 1 1 1 P(A ∪ B) 5 1 5 10 10 5 2 8 12 8 Ejemplo 2.68. Al lanzar dos monedas, cuál es la probabilidad de obtener al menos sol. 52 51 50 5525 Solución: 8 12 52 52 Sean los eventos:

A: se obtiene sol en el primer volado. B: se obtiene sol en el segundo volado. Si la moneda no está cargada se tiene que P(A) 5 P(B) 5 0.5; además A y B son eventos independientes, por lo que P(A ∩ B) 5 0.25; entonces, finalmente, P(A ∪ B) 5 P(A) 1 P(B) 2 P(A ∩ B) 5 0.5 1 0.5 2 0.25 5 0.75

70

| Estadística para ingeniería y ciencias

sa

B

ss A

as

aa

Figura 2.13. Diagrama de Venn donde se indica la relación de los eventos A y B.

Ejemplo 2.69. Tres naipes se sacan sucesivamente, sin reemplazo; sean los eventos:

2 4 1 2 4 1 1 2 3 9 4 3 9 4 2 4 1A : la segunda carta es un 10 o una sota (hay cuatro 10 y cuatro sotas). 31 31 1 2 2 3 9 4 36 36 A3: la tercera carta tenga un número mayor que 3 y menor que 7 (hay doce cartas 31 4 13 1 4 1613 1 16 entre el 3 y el 7). 1 2 51 2 5 36 52 52A 222∩ 42452 4 .52 1411 152 52 Encontrar la probabilidad de que ocurra el evento A52 ∩ A52 1 1 2 1 2 2 1 2 1 32 4 13 1 16 1 1 1333 1 9399 14944 41 1 2 5 1 5 1 5 52 52 52 52 Solución: 10 10 531 1031 10 5 31 31 1 1 1 2 8 1236 8 8 12 8 36 362 36 1 5 , P(A2|A1) 5 , P(A3|A1 ∩ A2) 5 10 10 Las 5 probabilidades condicionales son: P(A1) 5 52 51 50 44452 5525 51 1350 413 13 13 111 15525 16 16 16 16 1 1 1 12 2 2 25 5 5 5 2 8 12 8 52 52 52en 52 52 52 52 52 52 52 52 52 52 52 52 . (Aquí nótese que, en la primera selección hay la selección el 8 5212cartas, 8 52 12segunda 52 51 50 5525 1 1 1 1 1 1 1 1 1 1 1 1 52 52 52 52 1 1 15 5 5 Por 5 2 4baja1a 10 2101 410 50 cartas.) 8 12 número de cartas baja a 51 y en la tercera selección 10 10110 555 5 tanto: 1 2 10 1 10 2 3 9 4 3222 92888 412 52 52 812 12 12888 8 P(A1 ∩ A2 ∩ A3) 5 P(A1)P(A22|A14)P(A ∩ A2) 5 ( 31 )( )( ) 5 1 3|A131 52 52 52 52 5 5 5 1 1 1 5 50 50 1 50 50 5525 5525 5525 5525 1 2 36 36 3 9 4 888 12 812 12 12 4 que 13la selección 14 16 13 se1hace 16con reemEjemplo 2.70. El mismo experimento del ejemplo 31anterior, sólo 1 22 24452 52 525 52 52 52 2 52 5 11152 plazo, encontrar la probabilidad que A3. 521 52 52 52 52 1 52 2 2 52 36 A1 ∩ A2 ∩52 33 99 44 116 1 1 1 1 1 4 13 1 Solución: 315 1 2 52 1431 1 510 1 10 5 5 10 10 52 52 52 52 1 2 36 4a la regla multiplicativa para Al haber reemplazo de cartas, el problema se 32reduce 9836 12 2 88 12 8 1 1 1 13 13 11 tres 16 16eventos son: 1 5 eventos independientes. Los valores de las probabilidades de los 31 5144 1 52 52 50 5525 5 1 50 5525 1 2 2 5 5 10 10 5 52 52 52 52 52 52 52 36 52 8 12 2 8 12 88 12 1 1 1 1 1 1 P(A1) 5 ; P(A ) 5 4 ; y 13 P(A )15 16 13 52 5 5 52 152 1 52 51 250 5525 2 552 10 10 52 10 52 10 52 5552 8 en 12la siguiente expresión En seguida, sustituyendo los valores se obtiene: 212 818 12 12 88 1 1 5 52 52 52 52 5 5 1 1 50 50 5525 5525 P(A1 ∩ A2 ∩ A3) 5 P(A )P(A )P(A ) 10 1 10 2 5 3 12 12 8 2 888 12 5 ( )( )( ) 52 52 52 5525 52 552 1 50 5 0.0013655 8 12 52 52 1 2 A1: la primera carta es un as rojo (hay dos ases rojos).

Capítulo 2 Introducción a la probabilidad

| 71

Ejemplo 2.71. Cuatro cartas se sacan en sucesión de un mazo de 52 cartas. Encontrar la probabilidad de que la primera carta sea un rey; la segunda sea un 9 de diamantes; la tercera sea, cuando menos, una sota (suponiendo que el as sea la primera carta) y, la cuarta carta sea un 7 negro. Solución: Sean los eventos: A: la primera carta seleccionada sea un rey (hay cuatro reyes). B: la segunda carta seleccionada sea el 9 de diamantes (hay un solo 9 de diamantes). C: la tercera carta sea cualquier carta menor o igual que una sota (empezando con el as, luego el 2 hasta el 10 hay 10 cartas antes de la sota, son 11 con la sota; por tanto, hay 11(4) 5 44 de estas cartas). D: la cuarta carta sea un 7 negro (hay dos 7 negros). Se puede ver que un 7 negro es menor que la sota, por tanto el evento C se puede descomponer como la unión de dos eventos mutuamente excluyentes, C 5 C1 ∪ C2, donde: C1: la tercera carta sea una carta menor o igual que una sota que no sea 7 negro (hay 42 casos) C2: la tercera carta sea un 7 negro. (Hay dos casos) Por las leyes de Morgan se tiene que:

A ∩ B ∩ C ∩ D 5 A ∩ B ∩ (C1 ∪ C2) ∩ D 5 (A ∩ B ∩ D) ∩ (C1 ∪ C2) 5 (A ∩ B ∩ D ∩ C1) ∪ (A ∩ B ∩ D ∩ C2) 5 (A ∩ B ∩ C1 ∩ D) ∪ (A ∩ B ∩ C2 ∩ D)

Entonces,

P(A ∩ B ∩ C ∩ D) 5 P((A ∩ B ∩ C1 ∩ D) ∪ (A ∩ B ∩ C2 ∩ D)) 5 P(A ∩ B ∩ C1 ∩ D) 1 P(A ∩ B ∩ C2 ∩ D)

Las probabilidades condicionales de las diferentes extracciones son: 4 1 41 2 1 2 , como es la primera extracción, ésta se realiza con las 52 cartas. 52 51 50 50 49 49 4 1 41 2 1 2 P(B | A) 5 , ya se extrajo un rey; entonces, hay 51 cartas. 52 51 50 50 49 49 4 1 41 2 1 2 P(C1 | A ∩ B) 5 , ya se extrajeron dos cartas, un rey y un 9 de diamantes que es 52 51 50 50 49 49

P(A) 5

menor que una sota, quedan 50 cartas; sólo 41 están en C1.

4 1 41 2 1 2 , ya se extrajeron dos cartas, quedan 50, y dos 7 negros. 52 51 50 50 49 49 4 1 41 2 1 2 P(D | A ∩ B ∩ C1) 5 , ya se extrajeron tres cartas, quedan 49 y dos 7 negros. 52 51 50 50 49 49 4 1 41 2 1 2 P(D | A ∩ B ∩ C2) 5 , ya se extrajeron tres cartas, quedan 49 y sólo un 7 negro. 52 51 50 50 49 49

P(C2 | A ∩ B) 5

72

| Estadística para ingeniería y ciencias Entonces: P(A ∩ B ∩ C1 ∩ D) 5 P(A) P(B | A) P(C1 | A ∩ B) P(D | A ∩ B ∩ C1)

¥ 4 ´ ¥ 1 ´ ¥ 41 ´ ¥ 2 ´

5 ¦ µ¦ µ¦ µ¦ µ §¥ 52 4 ¶´ §¥ 51 1 ¶´ §¥ 50 41 ¶´ §¥ 49 2 ¶´ ¦§ 52 µ¶ ¦§ 51 µ¶ ¦§ 50 µ¶ ¦§ 49 µ¶ 5 0.00005048

¥ 4 ´P(B ¥ 1 |´ ¥A)2 P(C ´ ¥ 1 |´ A ∩ B) P(D | A ∩ B ∩ C ) P(A ∩ B ∩ C2 ∩ D) 5 P(A) 1 1

¦§ 52 µ¶ ¦§ 51 µ¶ ¦§ 50 µ¶ ¦§ 49 µ¶ ¥ 4 ´¥ 1 ´¥ 2 ´¥ 1 ´ 5 ¦ µ¦ µ¦ µ¦ µ § 52 ¶ § 51 ¶ § 50 ¶ § 49 ¶

5 0.00000123 P(A ∩ B ∩ C ∩ D) 5 0.00005048 1 0.00000123 5 0.00005171

Problemas propuestos 2.1 Al lanzar una moneda no cargada, ¿cuál es la probabilidad de que salga sol? 2.2 Al lanzar un dado no cargado de 6 caras, ¿cuál es la probabilidad de que caiga 1? 2.3 ¿Cuál es la probabilidad de que caiga cualquiera de los números 3 o 4 al lanzar un dado no cargado? 2.4 Si una persona es seleccionada al azar de un grupo de 20 psicólogos y 30 sociólogos, ¿cuál es la probabilidad de que la persona seleccionada sea un sociólogo? 2.5 ¿Cuál de los siguientes números no representa una probabilidad y por qué? 3/7, 2, 21/2, 3/4, 99/101, 0, 1, 5, 1.11, 1.0001, 0.0001, 0.001, 0.9999 2.6 La probabilidad de que Juan esté vivo en 20 años es de 0.7 y la probabilidad de que Pedro esté vivo en 20 años es de 0.5. Si se supone que hay independencia entre la vida de estas personas, ¿cuál es la probabilidad de que ambos estén vivos en 20 años? 2.7 Si al lanzar sucesivamente una moneda no cargada se definen los eventos: E1: en el quinto lanzamiento sale águila. E2: en el sexto lanzamiento sale águila. ¿Cuál es la probabilidad de que salgan águila en ambos lanzamientos? 2.8 ¿Cuál es la probabilidad de sacar cuando menos un 6 en 2 lanzamientos de un dado no cargado? Sugerencia: usar la regla de adición. 2.9 Suponiendo que el sexo de un hijo por nacer es igualmente probable, y que es independiente del sexo de sus hermanos o hermanas. Para una familia de tres hijos: a) Describa el espacio muestral y calcule la probabilidad de que la familia tenga: • exactamente 2 varones. • exactamente 2 niñas. • cuando menos 2 varones. 2.10 Lanzar 2 veces una moneda no cargada. Encontrar: a) El espacio muestral. b) La probabilidad de que salgan exactamente sol y águila. 2.11 Encontrar el número de permutaciones de las letras a, b, c en dos lugares.

2.12 Hallar el número de combinaciones de las letras a, b, c en subconjuntos de dos elementos. 2.13 Si dos eventos A y B son tales que P(A) 5 0.10, P(B) 5 0.40 y P(A ∩ B) 5 0.05. Determinar: a) P(A|B) b) P(B|A) 2750 2.14 Si dos eventos A y B son tales que P(B) 5 y P(A ∩ 10 000 B) 5 0.14. Encontrar P(A|B). 2.15 Si al lanzar un dado se tiene el evento E 5 {2, 4, 6}. Encontrar la probabilidad de E. 2.16 Si de un grupo de 80 estudiantes, 30 son mujeres y se elige una persona al azar, encontrar la probabilidad de que la persona seleccionada no sea mujer. 2.17 De los siguientes eventos decir cuáles son mutuamente excluyentes: a) A 5 {x | x asiste a las clases de estadística regularmente}; B 5 {x | x posee una computadora}. b) A 5 {x | x tiene cabello rubio}; B 5 {x | x tiene ojos cafés}. 2.18 Sean los eventos: A: el vuelo de un avión que llega a tiempo. B: el vuelo de un avión que sale a tiempo. Las probabilidad correspondientes son: P(A) 5 0.82; P(D) 5 0.83 y la probabilidad de que el avión salga a tiempo y llegue a tiempo es P(D ∩ A) 5 0.78. Hallar la probabilidad de que el avión: a) Llegue a tiempo dado que partió a tiempo. b) Haya salido a tiempo dado que arribó a tiempo. 2.19 Se tiene una caja que contiene 3 bolas blancas y 2 bolas negras. Se eligen sucesivamente las bolas sin reemplazo, entonces: a) ¿Cuál es la probabilidad de que la primera bola sea negra? b) ¿Cuál es la probabilidad de que la segunda bola sacada sea negra dado que la primera bola sacada fue negra? c) ¿Cuál es la probabilidad de que ambas bolas sacadas sean negras? 2.20 Con la siguiente figura y la simbología del diagrama de Venn definir las regiones: a) Regiones 1 y 2.

Capítulo 2 Introducción a la probabilidad b) c) d) e) f )

Regiones 1 y 3. Regiones 1, 2, 3, 4, 5 y 7. Regiones 4 y 7. Región 1. Regiones 2, 6 y 7. A

B 7

2

5

1

3

4 6

S

C

Figura 2.14. Diagramas de Venn.

2.21 De 10 000 personas de 20 años observadas, 9 961 llegaron a los 21 años de edad. ¿Cuál es la probabilidad de que las personas de 20 años de este grupo sobrevivan hasta los 21. 2.22 De un grupo de 100 profesionistas de los cuales 40 son ingenieros y 60 arquitectos, la mitad de los ingenieros y de los arquitectos son mujeres. Encontrar la probabilidad de que un profesionista seleccionado aleatoriamente sea ingeniero o mujer. Usar la fórmula de la probabilidad de la unión de dos eventos. 2.23 ¿Cuál es la probabilidad de que una carta seleccionada al azar de un mazo de 52 naipes sea una reina o un corazón? Usar la fórmula de la probabilidad para la unión de dos eventos. 2.24 ¿Cuál es la probabilidad de sacar un 6 al lanzar dos dados no cargados? 2.25 A un ingeniero fabricante de motores de autos le preocupan tres tipos de defectos. Sean los eventos, A: el eje del motor es demasiado grande. B: las bobinas son inadecuadas. C: las conexiones eléctricas son insatisfactorias. Expresar verbalmente los eventos representados por las regiones del diagrama de Venn. a) Región 2. b) Regiones 1 y 3 juntas. c) Regiones 3, 5, 6 y 7 juntas. A

B 7

2

5

1

3

4 6 C

S

Figura 2.15. En la figura se muestran los espacios muestrales y eventos.

| 73

2.26 Del problema anterior representar con notación de conjuntos, (uniones, intersecciones y complementos) las siguientes regiones: a) 4, 6, 7 b) 1, 4 c) 1, 2, 5, 7 d) 1, 2 e) 1, 3, 4 2.27 En estudios de higiene industrial y seguridad de obreros de una industria se descubrió que 8% necesitaron botas de hule para protección contra descargas eléctricas, 15% requirieron cascos protectores para la cabeza y 3% necesitaron tanto botas de hule protectoras como cascos protectores para la cabeza. ¿Cuál es la probabilidad de que un trabajador seleccionado al azar necesite botas protectoras de hule o cascos protectores para la cabeza? Sugerencia: usar el modelo aditivo. 2.28 Se lanza una moneda dos veces. Encontrar la probabilidad de sacar una cara, ya sea en el primer o segundo lanzamiento o en ambos. Suponer que H 5 caras, T 5 águilas. 2.29 Una computadora genera aleatoriamente el último dígito de un número telefónico. Calcular: a) La probabilidad de que el resultado sea un 8 o 9. b) La probabilidad de que el resultado sea un número non o menor que 4. 2.30 Al tirar dos dados no cargados, encuentre la probabilidad de obtener en la suma de sus caras un 7 o un 11. 2.31 ¿Cuál es la probabilidad de sacar un as o un rey de un mazo de 52 cartas? 2.32 ¿Cuál es la probabilidad de sacar un as o una espada, o ambos, en la selección de una carta de un mazo de 52 naipes? 2.33 ¿Cuántas comidas consistentes en una sopa, un emparedado, un postre y un refresco son posibles, si se seleccionan 4 sopas, 3 tipos de emparedados, 5 postres y 4 refrescos? 2.34 Dos monedas se lanzan. ¿Cuál es la probabilidad de que ambas monedas caigan en águila? Usar regla multiplicativa. 2.35 Una pareja de recién casados planea tener 3 hijos. Encontrar los siguientes enunciados: a) La probabilidad de que todos los hijos sean hombres. b) La probabilidad de que sólo hayan 3 mujeres. c) La probabilidad de exactamente 2 varones. d) La probabilidad de 3 varones y 3 mujeres. e) La probabilidad de tener a lo más 2 varones. f ) La probabilidad de tener cuando menos 2 varones. Suponer que tener un varón o una niña son eventos igualmente probables y que el sexo de cada hijo es independiente del sexo de sus hermanos. g) Hacer un diagrama de árbol para facilitar el cómputo. 2.36 Con referencia al problema anterior, si la familia fuera de 4 hijos, ¿cuál sería la probabilidad de que fueran 4 varones o 4 niñas? 2.37 Se sacan dos cartas al azar de un mazo de 52 naipes. ¿Qué probabilidad hay de obtener dos ases si. . . a) la primera carta es repuesta antes de sacar la segunda carta? b) la primera carta no es repuesta antes de sacar la segunda carta? Suponer una regla multiplicativa. 2.38 Hay 10 rollos de película en una caja y tres están defectuosos. Se sacan dos rollos, uno detrás del otro. ¿Cuál es la probabilidad de seleccionar un rollo defectuoso seguido por otro rollo defectuoso, si no hay reemplazo? Usar regla multiplicativa.

74

| Estadística para ingeniería y ciencias

2.39 Responder las siguientes preguntas: a) ¿Cuántos elementos tiene el espacio muestral, generado por lanzar dos dados no cargados? ¿Cuál es este espacio muestral? b) ¿Cuántos puntos muestrales hay en un espacio muestral cuando se lanzan tres dados simultáneamente? 2.40 Un diseñador de una nueva subdivisión ofrece a los compradores de casas una selección de estilos exteriores de inglés, rústico, colonial y tradicional combinados con tipos de rancho de dos pisos y un desnivel. ¿De cuántas maneras se puede ordenar una de estas casas con esos estilos de construcción? Hacer un diagrama de árbol. Sugerencia: usar la regla del producto n1n2. 2.41 Un estudio de tráfico vehicular indica que de 3 756 automóviles que se acercan a la plaza, 857 entran en el aparcamiento. ¿Cuál es la probabilidad de que un auto no entre en el aparcamiento? 2.42 En una prueba la primera pregunta es de falso y verdadero y la segunda es de selección múltiple con posibles respuestas de a, b, c, d, e. Siendo así, ¿cuántas secuencias de posibles respuestas hay en estas dos preguntas? 2.43 En el diseño de un sistema de computadora, si un byte se define como una secuencia de 8 bits y, cada bit debe ser 0 o 1, ¿cuántos bytes diferentes son posibles? 2.44 Explicar detalladamente o con sus propias palabras lo que significan los siguientes términos: a) Experimento aleatorio. b) Espacio muestral. c) Evento. 2.45 Evaluar 50! Sugerencia: usar la aproximación de Stirling: n 2n n! ~ 2pn n e 2.46 Se lanza una moneda tres veces consecutivas. Hacer un diagrama de árbol con los resultados de sol y águila y escribir el espacio muestral. Calcular lo siguiente: a) Se obtienen cuando menos 2 soles. b) El segundo lanzamiento es un sol. c) El número de soles es exactamente 2. d) El segundo lanzamiento cae en águila. e) Todos los lanzamientos muestran la misma imagen. f ) El número de soles es menor que 2. g) El segundo lanzamiento no es sol. h) El número de soles es de cuando menos 2. i) El número de soles es no más de 3. j) El número de águilas es a lo más 3. k) Que el número de soles exceda al número de águilas. 2.47 ¿De cuántas maneras diferentes una sección sindical con 25 miembros puede elegir un presidente y un vicepresidente? 2.48 Si se lanza 3 veces consecutivas un dado, ¿cuál es la probabilidad de que salga un 6? 2.49 Se seleccionan tres cartas, sucesivamente, de un mazo de 52; encontrar el número de resultados si: a) Hay reemplazo. b) Si no hay reemplazo. 2.50 ¿De cuántas maneras pueden acomodarse cinco canicas de diferentes colores en una fila? 2.51 Calcular de cuántas maneras pueden formarse seis personas para subir a un autobús. 2.52 Un candidato presidencial planea hacer campaña política. Encontrar el número de permutaciones si: a) Planea visitar todos los estados de la República Mexicana.

b) Planea visitar únicamente los estados que colindan con Estados Unidos de América. 2.53 Evaluar los siguientes factoriales: a) 7! b) 70!/68! c) 10!/0! 2.54 Supóngase que hay 50 personas compitiendo por tres diferentes puestos, ordenados en primero, segundo y tercero. ¿De cuántas maneras se puede seleccionar a las tres personas para ocupar los tres puestos? 2.55 En cierta compañía, 5 escritorios de secretaria se sitúan en línea contra la pared. Cada secretaria puede sentarse en cualquier banco de los escritorios. ¿Cuántos arreglos se pueden hacer para sentar a las secretarias? 2.56 En un almacén hay 5 cajas adyacentes para almacenar 5 objetos diferentes. El depósito de cada objeto puede almacenarse satisfactoriamente en una caja. ¿De cuántas maneras pueden asignarse 5 objetos a 5 cajas? 2.57 Supóngase que hay 7 partes diferentes para ser almacenadas, pero sólo hay 4 cajas disponibles. ¿Cuántas maneras de acomodar los 4 objetos hay? 2.58 ¿De cuántas maneras diferentes se pueden realizar una primera, segunda, tercera o cuarta selección entre 12 empresas arrendadoras de equipo de control de contaminación ambiental? 2.59 Contestar lo siguiente. a) ¿Cuál es el número de permutaciones de las letras a, b, c? b) ¿Cuáles son estas permutaciones? Escribirlas. 2.60 Un mecanismo electrónico de control requiere de 5 chips de memoria idénticos. ¿De cuántas maneras puede habilitarse este mecanismo colocando los 5 chips en las 5 posibles posiciones dentro del controlador? 2.61 Se requiere sentar a 5 hombres y 4 mujeres en una fila, de tal manera que las mujeres ocupen lugares pares. ¿Cuántos arreglos hay? 2.62 Un aparato de seguridad de un negocio con 10 botones se inhabilita cuando 3 botones diferentes se oprimen en la secuencia apropiada (los botones no pueden oprimirse dos veces). Si el código correcto se olvida, ¿cuál es la probabilidad de inhabilitar el aparato a través de oprimir aleatoriamente, tres botones? 2.63 Se sacan dos boletos de la lotería entre 30 posibles para el primero y segundo premios. ¿Cuál es la probabilidad de ganar comprando un boleto? 2.64 En una carrera de ocho perros se juega un premio de exacta. Si se seleccionan tres números de perros, ¿cuál es la probabilidad de acertar el ganador comprando un solo boleto? 2.65 Considérese una carrera de 10 caballos con un premio para cualquiera que pueda seleccionar el orden exacto y ganar desde el primero hasta el décimo lugar. a) ¿Cuántas permutaciones posibles hay? b) ¿Cuál es la probabilidad de ganar si se compra un solo boleto? c) ¿Cuál es la probabilidad de acertar a los caballos que lleguen en los tres primeros lugares?

Problemas de tarea

Revisa tu CD-ROM para encontrar más problemas.

Capítulo

3

Funciones de distribución de variables aleatorias discretas

(Jupiter Images Corporation)

En esta fotografía se muestra el trabajo que se realiza en un laboratorio de análisis clínicos. En este ambiente se obtiene un gran número de resultados aleatorios, entre los que se encuentran el tipo y el número de análisis solicitados, que pueden ser: análisis de sangre, de orina y para descubrir hepatitis, embarazo o sida, etc. Existen otros resultados aleatorios menos evidentes, como el número de falsos positivos o falsos negativos que pueden presentarse. En un laboratorio clínico es importante cuantificar los resultados, tales como el número de solicitantes de servicios en el laboratorio de análisis clínico, el número de falsos positivos que puede haber en un día, el número de análisis que se pueden procesar en una hora, etc. Si en este tipo de empresa se conoce la probabilidad de que se tenga una demanda de x o de y análisis, se podrá planear con mejores resultados los insumos que hay que comprar y tener en el inventario, y el número de empleados que puede ser necesario tener, para que la atención hacia el cliente sea aceptable y la obtención de los resultados sea óptima; si se tiene el conocimiento de la probabilidad de los falsos positivos, se podrán implementar acciones para disminuir o eliminar estos errores.

Introducción En este capítulo se estudiarán las variables aleatorias que modelan alguna característica numérica discreta de los experimentos aleatorios. El propósito del capítulo es que los estudiantes identifiquen las características que definen a los diferentes modelos de probabilidad y así poder seleccionar el que corresponda al problema o proceso que está estudiando.

76

| Estadística para ingeniería y ciencias

3.1 Variables aleatorias discretas En ocasiones, de debe estudiar algún aspecto numérico de espacio muestral; por ejemplo, si se considera el lanzamiento de tres monedas no cargadas, el espacio muestral del experimento es: S 5 {(sss), (ssa), (sas), (ass), (saa), (asa), (aas), (aaa)} pues lo que interesa conocer es el número de águilas observadas. De esta manera, se genera una función que asocia un número a cada elemento del espacio muestral, esto es:

(sss)

(ssa)

(sas)

(ass)

(saa)

(asa)

(aas)

(aaa)

↓

↓

↓

↓

↓

↓

↓

↓

0

1

1

1

2

2

2

3

A la función que asocia un número real a cada elemento del espacio muestral se le llama variable aleatoria, y se denota en general con las últimas letras mayúsculas del alfabeto. En este ejemplo, se llamará X a la variable aleatoria: X: S → R Los valores que puede tomar la variable aleatoria son X 5 0, 1, 2 y 3, y la probabilidad asociada con cada uno de estos valores está relacionada con la probabilidad del evento que se asocia a esos valores:

1 3 4 7 8 8 8 8 1 3 P(X 5 1) 5 P({(ssa), (sas), (ass)}) 5 8 8 1 3 P(X 5 2) 5 P({(saa), (asa), (aas)}) 5 8 8 1 3 4 7 P(X 5 3) 5 P({(aaa)}) 5 8 8 8 8

P(X 5 0) 5 P({(sss)}) 5

4 8 4 8

7 8 7 8

Definición 3.1. Una variable aleatoria es una función medible cuyo dominio es el espacio muestral y cuyo codominio es igual a los números reales. Esta función se llama variable porque puede tomar diferentes valores, y se llama también aleatoria porque los valores que toma son al azar, y es medible porque se le puede calcular su probabilidad (la idea de medible tiene un significado relacionado con el concepto de espacio de probabilidad y sigmas álgebras, cuyo estudio formal sale del alcance de este texto). Definición 3.2. Una variable aleatoria discreta es aquella cuyo rango de posibles valores es finito o infinito, pero numerable.

Ejemplo 3.1. El número de hijos que puede tener una familia es una variable aleatoria discreta. Ejemplo 3.2. El número de artículos que se deben inspeccionar en un lote de una producción determinada antes de encontrar el primer artículo defectuoso es una variable aleatoria.

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 77

3.2 Probabilidad de una variable aleatoria 3.2.1 Función de densidad y función de distribución Definición 3.3. El rango o recorrido de una variable aleatoria es el conjunto de valores que puede tomar la variable con probabilidad positiva.

Ejemplo 3.3. En un negocio de autolavado se pueden atender hasta 15 autos en un día. Si X es el número de autos que se atienden en un día particular, X es una variable aleatoria que depende de la demanda del servicio en ese día. El rango de valores de esta variable va del 0 al 15. La variable toma el valor 0 cuando nadie solicita el servicio y toma el valor 15 cuando solicitan el servicio 15 clientes o más. Recorrido de X 5 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15.

Definición 3.4. Se llama función de densidad de probabilidades de la variable X a la función que nos indica su probabilidad puntual:

f (x) 5 P(X 5 x)

(3.1)

La función de densidad siempre se denota con una letra minúscula, en este caso se usó f, pero se puede utilizar g o h, etc. Se debe puntualizar que en la probabilidad es muy importante el uso de las letras mayúsculas y minúsculas, pues el significado cambia. En esta expresión, la X mayúscula corresponde al nombre de la variable aleatoria, la x minúscula corresponde al valor que puede tomar la variable aleatoria, en este sentido se puede escribir en lugar de x cualquier número, pero X siempre es igual: f (3) 5 P(X 5 3), f (5) 5 P(X 5 5), etcétera. Dado que la función de densidad representa la probabilidad de un evento, entonces satisface las propiedades de la probabilidad.

Propiedades de la función de densidad de una variable aleatoria a) f ( x)$ 0 para todo real x. b)

∑ f ( x) 51 x

Definición 3.5. Se llama función de distribución de la variable aleatoria X a la función que indica su probabilidad acumulada y se denota con la misma letra que representa la función de densidad, pero en mayúsculas.

78

| Estadística para ingeniería y ciencias Si f (x) es la función de densidad de X, la función de distribución es F(x); si h(x) es la función de densidad de X, la función de distribución es H(x); si g(x) es la función de densidad de X, la función de distribución es G(x); etc. Si la función de densidad es f (x) 5 P(X 5 x), la función de distribución es: F ( x) 5 P( X # x) 5 ∑ f (i )

(3.2)

i#x

Propiedades de la función de distribución de una variable aleatoria a) La función de distribución es creciente, es decir, si x1 , x2 , entonces, F ( x1 ) # F ( x2 ) b) La función de distribución es continua por la derecha. c) lím F ( x) 5 0 xq2h

d) lím F ( x)51 xqh

Ejemplo 3.4. Sea X la variable que indica el número de águilas al lanzar tres veces una moneda no cargada, escriba la función de densidad y la función de distribución acumulada de X. Solución: El espacio muestral de este experimento es: S 5 {(sss), (ssa), (sas), (ass), (saa), (asa), (aas), (aaa)} y el recorrido de la variable aleatoria que indica el número de águilas es X 5 0, 1, 2, 3; como este espacio muestral es equiprobable, la función de densidad de X es: a) f (0) 5

1 3 4 7 8 8 8 8

1 3 8 8 1 3 c) f (2) 5 8 8

b) f (1) 5

4 7 8 8

d) f (3) 5

e) f (x) 5 0 en cualquier otro valor de x

4 7 8 8

La función de distribución de X es:

1 3 4 7 8 8 8 8

¯0 ² ²1 ²8 ²² 4 F ( x)5 ° ²8 ²7 ²8 ² ²± 1

si x , 0 si 0 # x , 1 si 1 # x , 2 si 2 # x , 3 si 3 # x

La gráfica de la función de densidad se dibuja con líneas verticales de altura igual a la probabilidad y la función de distribución es escalonada.

| 79

Capítulo 3 Funciones de distribución de variables aleatorias discretas

Las gráficas de f (x) y de F(x) de la variable aleatoria en este ejemplo son las siguientes: Función de densidad de X de X Función de densidad 1

1

0.8

0.8

0.6

0.6

0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05

21

0

21

0 0

1 1 2 2 RangoRango de X de X

0

3

4

3

4 21

Probabilidad

0.35 0.35 0.3 0.3

Probabilidad

1.2

Probabilidad

Probabilidad

Función de distribución de X de X Función de distribución 1.2

0.4

0.4

0.4

0.4

0.2

0.2

0 21 0

0 0

1

1 2 2 3 RangoRango de X de X

3

4

4

Figura 3.1.

Cálculo de probabilidades de una variable aleatoria La probabilidad en un rango de valores se puede calcular tanto con la función de densidad como con la función de distribución. Por ejemplo, la probabilidad P(3 ≤ X ≤ 8), se puede calcular:  Con la función de densidad: P(3 # X # 8) 5 P( X 5 3) 1 P( X 5 4) 1 P( X 5 5) 1 P( X 5 6) 1 P( X 5 7) 1 P( X 5 8) 5 f (3) 1 f (4) 1 f (5) 1 f (6) 1 f ( 7) 1 f (8)

 Con la función de distribución: P(3 # X # 8) 5 P( X # 8) 2 P( X # 2) 5 F (8) 2 F (2)

Con la función de densidad el cálculo de la probabilidad siempre se hace con la suma de los diferentes valores que están entre 3 y 8, con la función de distribución el cálculo se hace con la diferencia de la probabilidad acumulada hasta el máximo valor a calcular menos el mínimo valor a calcular menos uno, en el ejemplo 8 y 2. Ejemplo 3.5. Si X es la variable aleatoria con función de densidad f (x) = cx, para x 5 1, 2, 3, 4. ¿Cuál es el valor de c? Solución: Como f (x) es función de densidad, se deben satisfacer las dos condiciones: a) f ( x)$ 0 para todo real x. b)

∑ f ( x) 51 . x

80

| Estadística para ingeniería y ciencias La primera condición implica que c debe ser positiva; la segunda condición dice que la suma de la función de densidad sobre los cuatro valores que puede tomar X debe ser igual a 1, entonces: c (1) 1 c (2) 1 c (3) 1 c (4) 5 c (10) 5 1 de aquí se obtiene que c 5 0.10.

3.2.2 Funciones de densidad conjuntas y marginales Si se tiene dos variables aleatorias sobre el mismo espacio muestral: X: S → R

y

Y: S → R

Se puede definir un vector aleatorio (X, Y ) y su función de probabilidad.

Definición 3.6. Se llama función de densidad conjunta de X y Y a la probabilidad

f (x, y) 5 P(X 5 x, Y 5 y)

(3.3)

Definición 3.7. Se llama función de distribución conjunta de la variables X y Y a la probabilidad F ( x, y) 5 P( X # x, Y # x)

(3.4)

Ejemplo 3.6. Considerar el vector aleatorio (X, Y) cuya función de densidad conjunta está dada en la tabla 3.1: Tabla 3.1. X 1 Y

2

3

4

5

1

0.03

0.08

0.10

0.06

0.02

2

0.05

0.12

0.15

0.14

0.04

3

0.02

0.05

0.08

0.04

0.02

Así, para los diferentes valores de (x, y), la función f (x, y), se encuentra en la columnas x y el renglón y correspondiente; de esta manera se tiene que f (1, 1) 5 0.03, f (4, 2) 5 0.14, etcétera. Ejemplo 3.7. Considerar la función de densidad del ejemplo anterior para encontrar la probabilidad de que X sea igual a 2. Solución: Hay tres posibilidades para que X sea igual a 2, (2, 1), (2, 2) y (2, 3), entonces P(X 5 2) 5 f (2, 1) 1 f (2, 2) 1 f (2, 3) 5 0.08 1 0.12 1 0.05 5 0.25

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 81

Cuando se quiere obtener la probabilidad de una de las dos variables que son coordenadas del vector aleatorio, se realiza una suma sobre la otra variable, como se indica en las dos definiciones siguientes.

Definición 3.8. La función de densidad marginal de X está dada por: fX ( x) 5 P( X 5 x) 5 ∑ f ( x, y)

(3.5)

y

y la función de densidad marginal de Y está dada por: fY ( y) 5 P(Y 5 y) 5 ∑ f ( x, y)

(3.6)

x

A estas funciones se les llama marginales porque en la tabla de la función de densidad conjunta el valor de las probabilidades para las variables X y Y, fX y fY se encuentra sumando los valores en las columnas y en los renglones y se registra el resultado en el margen de la tabla.

Ejemplo 3.8. Dada la tabla 3.1 del ejemplo 3.6, encontrar las funciones de densidad marginales de X y Y. Solución: Para hallar las funciones de densidad marginales de X y Y se suman en la tabla los valores que están en la misma columna y los que se encuentran en el mismo renglón, quedando así: Tabla 3.2. X

Y

1

2

3

4

5

Suma

1

0.03

0.08

0.10

0.06

0.02

0.29

2

0.05

0.12

0.15

0.14

0.04

0.50

3

0.02

0.05

0.08

0.04

0.02

0.21

Suma

0.10

0.25

0.33

0.24

0.08

1.00

La función de densidad marginal de X se halla en el margen inferior de la tabla: fX (1) 5 0.10,

fX (2) 5 0.25,

fX (3) 5 0.33,

fX (4) 5 0.24,

fX (5) 5 0.08

La función de densidad marginal de Y se encuentra en el margen derecho de la tabla: f Y (1) 5 0.29, f Y (2) 5 0.50, f Y (3) 5 0.21

82

| Estadística para ingeniería y ciencias

3.2.3 Funciones de densidad condicional y variables aleatorias independientes La relación que tiene la función de densidad conjunta con los eventos es el de la intersección de dos eventos, a saber:

{ X 5 x, Y 5 y} 5{s ∈S | X 5 x} ∩ {s ∈S | Y 5 y}

Entonces, considerando las fórmulas de la probabilidad condicional y de los eventos independientes que se revisaron en el capítulo anterior, se pueden definir los conceptos de función de densidad condicional y de variables aleatorias independientes. Definición 3.9. La función de densidad de X condicionada a que Y tome el valor de y, es igual a: ¯ f ( x, y) si fY ( y) | 0 ² fX |Y ( x | y) 5 ° fY ( y) ² 0 si fY ( y) 5 0 ±

De esta definición se obtiene lo siguiente f (x, y) 5 fX |Y ( x |

Y

(3.7)

y) .

Definición 3.10. Dos variables aleatorias X y Y son independientes si y sólo si fX |Y ( x | y) 5 fX ( x) o f ( x, y) 5 fX ( x) fY ( y)

(3.8)

Observe que estas definiciones son semejantes a las definiciones de probabilidad condicional y eventos independientes citadas en el capítulo 2.

Ejemplo 3.9. Dada la tabla del ejemplo 3.6, encontrar las funciones de densidad condicionales. a) fX |Y ( x | 3) b) fY|X ( y | 2) Solución: Para hallar la función de densidad condicional de X dado que Y 5 3, se usa la fórmula fX |Y ( x | 3) 5

f ( x, 3) , los valores que se utilizan son cuando Y 5 3 y se encuentran somfY (3)

breados en la tabla 3.3: Tabla 3.3. X 1 2 Y 3 Suma

1 0.03 0.05 0.02 0.10

2 0.08 0.12 0.05 0.25

3 0.10 0.15 0.08 0.33

4 0.06 0.14 0.04 0.24

5 0.02 0.04 0.02 0.08

Suma 0.29 0.50 0.21 1.00

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 83

Los valores calculados son: f (1, 3) 0.02 5 5 0.0952 fY (3) 0.21

fX |Y (2 | 3) 5

f (2, 3) 0.05 5 5 0.2381 fY (3) 0.21

f (3, 3) 0.08 5 5 0.3010 fY (3) 0.21

fX |Y (4 | 3) 5

f (4, 3) 0.04 5 5 0.1905 fY (3) 0.21

fX |Y (1 | 3) 5 fX |Y (3 | 3) 5

fX |Y (5 | 3) 5

f (5, 3) 0.02 5 5 0.0952 fY (3) 0.21

Para encontrar la función de densidad condicional de Y dado que X 5 2, se usa la fórmula: fY |X ( y | 2) 5

f (2, y) fX ( 2)

y los valores que se utilizan están en la columna de X 5 2, los cuales se encuentran sombreados en la tabla 3.4: Tabla 3.4.

1 2 Y 3 Suma

1 0.03 0.05 0.02 0.10

2 0.08 0.12 0.05 0.25

X 3 0.10 0.15 0.08 0.33

4 0.06 0.14 0.04 0.24

5 0.02 0.04 0.02 0.08

Suma 0.29 0.50 0.21 1.00

Los valores calculados son: fY|X (1 | 2) 5

f (2, 1) 0.08 5 5 0.32 fX (2) 0.25

fY |X (3 | 2) 5

f (2, 3) 0.05 5 5 0.20 fX (2) 0.25

fY|X (2 | 2) 5

f (2, 2) 0.12 5 5 0.48 fX (2) 0.25

Ejemplo 3.10. Dada la tabla del ejemplo 3.6, analizar si las variables X y Y son o no independientes. Demostración: Si X y Y son independientes, se debe satisfacer que fX |Y ( x | y) 5 fX ( x) para todos los valores de X y Y. Como del ejercicio anterior se tiene que: fX |Y (1 | 3) 5

f (1, 3) 0.02 5 5 0.0952 ≠ fX (1) 5 0.10 fY (3) 0.21

entonces, X y Y no son independientes.

84

| Estadística para ingeniería y ciencias

3.3 Esperanza matemática de una variable aleatoria discreta Como una variable aleatoria tiene un recorrido numérico, se pueden calcular para la variable aleatoria tanto las medidas de posición y como las de dispersión que fueron estudiadas en el capítulo 1, pero con la variante que ahora los resultados serán valores teóricos o valores esperados, pues no dependen de un experimento observado. Primeramente se definen la moda y la mediana de una variable aleatoria; sin embargo, la media de la variable aleatoria se estudia con más detalle, pues tiene mayor aplicabilidad en la estadística. Definición 3.11. La moda de una variable aleatoria X es el valor que tiene mayor probabilidad; es decir, si Mo es la moda de X, entonces P(X 5 Mo) $ P(X 5 x) para toda x.

Cuando se dibuja la gráfica de la función de densidad, la moda corresponde al valor de X cuya probabilidad tiene mayor altura. Definición 3.12. La mediana de una variable aleatoria es el valor M tal que: P(X # M) $ 0.5 y P(X $ M) $ 0.5

(3.9)

Ejemplo 3.11. C onsiderar la variable aleatoria X que indica el número de hijos que decide tener una familia. La función de densidad de X se encuentra en la siguiente tabla: X

0

1

2

3

4

5

F(x)

0.03

0.17

0.31

0.25

0.19

0.05

Esto significa que es más probable que una familia decida tener 2 hijos a que decida tener 0 hijos, etc. Encontrar la moda y la mediana de esta variable aleatoria. Solución: Para la moda observe que el valor con la probabilidad mayor es 2, pues P(X 5 2) 5 0.31 $ P(X 5 x), para cualquier valor de x. Entonces, la moda es 2. La mediana también es 2, ya que P(X # 2) 5 0.51 $ 0.5 y P(X $ 2) 5 0.70 $ 0.5.

0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0

1

2

3

Figura 3.2.

4

5

6

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 85

3.3.1 Valor esperado de una variable aleatoria El valor esperado se relaciona con la media de una variable aleatoria y para explicar mejor este concepto primero revise un ejemplo en el que se calcule la media aritmética de datos observados usando las fórmulas vistas en el capítulo 1, y luego analice el mismo ejemplo, pero con datos esperados. Considere el experimento de lanzar 60 veces un dado no cargado; en estos 60 lanzamientos se observaron 12 veces el uno, 9 veces el dos, 8 veces el tres, 9 veces el cuatro, 15 veces el cinco y 7 veces el seis, estos resultados se reportan en la siguiente tabla de frecuencia: X

1

2

3

4

5

6

Frecuencia observada

12

9

8

9

15

7

La media de los 60 datos usando la fórmula para datos agrupados es: X5

12(1) 1 9(2) 1 8(3) 1 9(4) 1 15(5) 1 7(6) 5 3.45 60

Si se lanzara de nuevo el dado 60 veces, los resultados observados podrían cambiar y en consecuencia la media calculada tomaría otro valor. Por otro lado, si en lugar de lanzar el dado 60 veces considera lo que indica la probabilidad: cada cara del dado tiene la misma probabilidad de aparecer, en este caso teóricamente se esperaría que cada cara del dado apareciera de manera exacta 10 veces. X

1

2

3

4

5

6

Frecuencia esperada

10

10

10

10

10

10

La media esperada sería: µ5

10(1) 110(2) 110(3) 110(4) 110(5) 110(6) 5 3.5 60

Los valores de la tabla son independientes de los resultados que pudieran observarse en un experimento, éste es en esencia el concepto de esperanza matemática de una variable aleatoria, cuya definición formal se establece en seguida.

Definición 3.13. Dada X una variable aleatoria con función de densidad igual a f (x), se conoce como valor esperado o esperanza matemática de X, al resultado de la expresión:

E( X ) 5 ∑ xf ( x)

(3.10)

x

Este valor corresponde a la media aritmética que en teoría tiene la variable X. Entonces, el valor esperado de X se denota con la letra griega µ, y corresponde a la media de X.

E(X) 5 µ

(3.11)

86

| Estadística para ingeniería y ciencias

Ejemplo 3.12. Para el caso de la tirada de un dado, X puede tomar los valores 1, 2, 3, 4, 5 y 6, con probabilidad igual a

1 21 , así la media de esta variable es: 6 6 1 21 6 6

1 21 6 6

1 21 6 6

1 21 6 6

1 21 6 6

1 121 21 5 3.5 6 66 6

E(X) 5 1( ) 1 2( ) 1 3( ) 1 4( ) 1 5( ) 1 6( ) 5

Este valor corresponde a la media esperada de la variable aleatoria y coincide con el valor obtenido antes en el ejemplo de introducción.

Definición 3.14. Si X es una variable aleatoria con función de densidad f (x), y g es cualquier función, entonces el valor esperado de g(X) es igual a: E( g ( X )) 5 ∑ g ( x) f ( x)

(3.12)

x

Definición 3.15. Si X y Y son variables aleatorias con función de densidad conjunta igual a f (x, y), entonces el valor esperado de g(X, Y ) es igual a: E( g ( X , Y )) 5 ∑ g ( x, y) f ( x, y)

(3.13)

x

En todos los casos, el valor esperado corresponde a la media aritmética teórica de la variable aleatoria que se esté considerando.

Teorema 3.1. (Propiedades del valor esperado de X ) Sea X y Y dos variables aleatorias y c una constante, entonces se satisfacen las relaciones: a) E(c) 5 c b) E(cX ) 5 cE(X ) c) E(X 1 Y ) 5 E(X ) 1 E(Y ) d) E(XY) 5 E(X)E(Y) cuando las variables aleatorias son independientes Demostración: a) Si g(x) 5 c, entonces por la definición 3.14 se obtiene: E( g ( X )) 5 ∑ cf ( x) 5 c∑ f ( x) 5 c x

x

b) Si g(x) 5 cx, entonces por la definición 3.14 se obtiene: E(cX ) = E( g ( X )) 5 ∑ cxf ( x) 5 c∑ xf ( x) 5 cE( X ) x

x

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 87

c) Si g(x, y) 5 x 1 y, entonces por la definición 3.15 se obtiene: E( X 1Y ) 5 E( g ( X , Y )) 5 ∑ ∑ ( x 1 y) f ( x, y) 5 ∑ ∑ xf ( x, y) 1 ∑ ∑ yf ( x, y) x

y

x

y

x

y

5 ∑ ∑ xf ( x, y) 1 ∑ ∑ yf ( x, y) 5 ∑ x∑ f ( x, y) 1 ∑ y∑ f ( x, y) x

y

x

y

x

y

y

x

5 ∑ xfX ( x) 1 ∑ yfY ( y) 5 E( X ) 1 E(Y ) x

y

d) Como X y Y son variables aleatorias independientes, entonces f ( x, y) 5 fX ( x) fY ( y) , y si se considera que g(x, y) 5 xy, entonces por la definición 3.15 se obtiene: E( XY ) 5 ∑ ∑ xyf ( x, y) 5 ∑ ∑ xyfX ( x) fY ( y) 5 ∑ xfX ( x)∑ yfY ( y) 5 E( X )E(Y ) x

y

x

y

x

y

3.3.2 Varianza de una variable aleatoria Definición 3.16. La varianza de la variable aleatoria X indica la dispersión de los valores de X y se calcula mediante la fórmula:

V ( X ) 5 E( X 2 E( X ))2 5 ∑ ( x 2 E( X ))2 f ( x)

(3.14)

x

La varianza de una variable aleatoria se denota con el símbolo σ2. De igual manera, se tiene una fórmula equivalente para calcular la varianza.

Teorema 3.2. La varianza de la variable aleatoria X se puede calcular con la fórmula equivalente: V ( X ) 5 E( X 2 ) 2(E( X ))2 5 ∑ x 2 f ( x) 2(E( X ))2

(3.15)

Demostración: V ( X ) 5 E( X 2 E( X ))2 5 ∑ ( x 2 E( X ))2 f ( x) x

5 ∑ ( x 2 2 2 xE( X ) 1(E( X )2 ) f ( x) x

5 ∑ ( x 2 f ( x) 2 2 E( X ) xf ( x) 1 (E( X ))2 f ( x)) x

5 ∑ x 2 f ( x) 2 2 E( X )∑ xf ( x) 1(E( X ))2 ∑ f ( x) x

x

5 ∑ x 2 f ( x) 2 2 E( X )E( X ) 1(E( X ))2 x

5 ∑ x 2 f ( x) 2(E( X ))2 x

x

88

| Estadística para ingeniería y ciencias

Ejemplo 3.13. La variable aleatoria que describe la demanda de servicio en un servicio de lavado de autos tiene la función de probabilidad reportada en la tabla, X

0

1

2

3

4

5

6

7

f (x)

0.05

0.10

0.13

0.18

0.23

0.17

0.11

0.03

Encontrar la media y la varianza de X. Solución: La media es:

E( X ) 5 0(0.05) 11(0.10) 1 2(0.13) 1 3(0.18) 1 4(0.23)) 1 5(0.17) 1 6(0.11) 1 7(0.03) 5 3.54 E( X ) 5 0(0.05) 11(0.10) 1 2(0.13) 1 3(0.18) 1 4(0.23)) 1 5(0.17) 1 6(0.11) 1 7(0.03) 5 3.54

Para la varianza primero se calcula:

E( X 2 ) 5 0 2 (0.05) 112 (0.10) 1 2 2 (0.13) 1 32 (0.18) 1 4 2 (0.23) 1 52 (0.17) 1 6 2 (0.11) 1 72 (0.03)

X 2 ) 5 0 2 (0.05) 112 (0.10) 1 2 2 (0.13) 1 32 (0.18) 1 4 2 (0.23) 1 52 (0.17) 1 6 2 (0.11) 1 72 (0.03) 5 15.6

y, finalmente, V(X) 5 E(X2) 2 (E(X))2 5 15.6 2 3.542 5 3.0684

Teorema 3.3. (Propiedades de la varianza) Si X y Y son variables aleatorias y c es una constante, entonces, se satisfacen las relaciones: a) V(c) 5 0, es decir, la varianza de una constante es cero. b) V(cX ) 5 c2V(X ), lo que significa que las constantes salen de la varianza al cuadrado. c) V(X 1 c) 5 V(X ). Al trasladar una variable aleatoria no se modifica su dispersión. d) V(X 1 Y ) 5 V(X ) 1 V(Y ), si X y Y son variables aleatorias independientes. Demostración: a) V(c) 5 E(c 2 E(c))2 5 E(0) 5 0. Esta propiedad dice que si la variable toma siempre el mismo valor, entonces, no tiene variación. b) V(cX ) 5 E(cX 2 E(cX ))2 5 E(cX 2 cE(X ))2 5 E(c2(X 2 E(X ))2) 5 c2E(X 2 E(X ))2 5 c2V(X ) c) V(X 1 c) 5 E(X 1 c 2 E(X 1 c))2 5 E(X 1 c 2 E(X ) 2 c))2 5 E(X 2 E(X ))2 5 V(X ) d) Dado que X y Y son variables aleatorias independientes se tiene que f ( x, y) 5 fX ( x) fY ( y) , entonces: V(X 1 Y ) 5 E(X 1 Y 2 E(X 1 Y ))2 5 E(X 1 Y 2 E(X ) 2 E(Y ))2 5 E(X 1 Y 2 E(X ) 2 E(Y ))2 5 E[(X 2 E(X )) 1 (Y 2 E(Y ))]2 5 E(X 2 E(X ))2 1 2E(X 2 E(X ))E(Y 2 E(Y )) 1 E(Y 2 E(Y ))2 5 V(X ) 1 2[E(X ) 2 E(X )][E(Y ) 2 E(Y )] 1 V(Y ) 5 V(X ) 1 V(Y )

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 89

3.3.3 Covarianza La covarianza de dos variables aleatorias indica la asociación promedio entre dos variables y su definición formal es la siguiente.

Definición 3.17. La covarianza de las variables aleatorias X y Y se define mediante la fórmula:

Cov( X , Y ) 5 E( X 2 E( X ))(Y 2 E(Y )) 5 ∑ ∑ ( x 2 E( X ))( y 2 E(Y )) f ( x, y) x

(3.16)

y

Observe que si X 5 Y, entonces la covarianza de X y Y se reduce a la varianza de X.

Para facilitar los cálculos de la covarianza se tiene una fórmula equivalente en el siguiente teorema.

Teorema 3.4. La covarianza de dos variables aleatorias se puede calcular también con la fórmula equivalente:

Cov( X , Y ) 5 E( XY ) 2 E( X )E(Y ) 5 ∑ ∑ xyf ( x, y) 2 E( X )E(Y ) x

(3.17)

y

Demostración: Cov( X , Y ) 5 E( X 2 E( X ))(Y 2 E(Y )) 5 E( XY 2 XE(Y ) 2YE( X ) 1 E( X )E(Y ))

5 E( XY ) 2 E( XE(Y )) 2 E(YE( X )) 1 E(E( X )E(Y )) se separan las sumas 5 E( XY ) 2 E(Y )E( X ) 2 E( X )E(Y ) 1 E( X )E(Y ) se eliminan las constantes

5 E( XY ) 2 E(Y )E( X )

Ejemplo 3.14. Sean X y Y variables aleatorias con función de densidad conjunta dada en la siguiente tabla, encuentra la covarianza de X y Y. Tabla 3.5. X

Y

1

2

3

4

5

Suma

1

0.03

0.08

0.10

0.06

0.02

0.29

2

0.05

0.12

0.15

0.14

0.04

0.50

3

0.02

0.05

0.08

0.04

0.02

0.21

Suma

0.10

0.25

0.33

0.24

0.08

1.00

Solución: Para calcular la covarianza se utiliza la segunda fórmula. Primero se obtienen las medias de X y Y y el valor esperado de XY:

90

| Estadística para ingeniería y ciencias E(X ) 5 1× (0.10) 1 2×× (0.25) 1 3× ×(0.33) 1 4×× (0.24) 1 5×× (0.08) 5 5(0.08) 5 2.95 E(Y ) 5 1× (×0.29) 1 2×× (0.50) 1 3×× (0.21) 5 1.92 E(XY ) 5 1× 3 ×1× 3 ×0.03 1 1×× 3 2× 3 ×0.08 1 1×× 3 3× 3 ×0.10 1 1×× 3 4×× 3 0.06 1 1×× 3 5× 3 ×0.02 1 2×× 3 1×× 3 0.05 1 2×× 3 2× 3 ×0.12 1 2× 3 ×3 3 0.15 1 2×× 3 4× 3 ×0.14 1 2×× 3 5×× 3 0.04 1 3 3 1× 3 ×0.02 1 3×× 3 2×× 3 0.05 1 3 3 3 3 0.08 1 3 3 4×× 3 0.04 1 3 3 5×× 3 0.02 5 5.69 Cov (X, Y ) 5 5.69 2− 2.95× 3 ×1.92 5 0.026

Teorema 3.5. (Propiedades de la covarianza) Si X, Y y Z son variables aleatorias y a y b son constantes, entonces se satisfacen las relaciones: a) Si X y Y son variables aleatorias independientes, entonces Cov(X, Y ) 5 0. b) Cov (aX, bY ) 5 abCov(X, Y ), las constantes salen de la covarianza. c) Cov (X 1 a, Y 1 b) 5 Cov(X, Y ) d) V(X 1 Y, Z ) 5 Cov(X, Z ) 1 Cov(Y, Z ). Demostración: a) Debido a que X y Y son independientes, la función de densidad conjunta es igual al producto de las probabilidades marginales, y por tanto: Cov( X , Y ) 5 ∑ ∑ ( x 2 E( X ))( y 2 E(Y )) fX ( x) fY ( y) x

y

5 ∑ ( x 2 E( X )) fX ( x)∑ ( y 2 E(Y )) fY ( y) x

y

5 E(X 2 E(X ))E(Y 2 E(Y )) 5 0

b) Cov (aX, bY) 5 E(aX 2 E(aX ))(bY 2 E(bY )) 5 E(aX 2 aE(X))(bY 2 bE(Y )) 5 E(a[X 2 E(X)])(b[Y 2 E(Y )]) 5 abE [X 2 E(X )][Y 2 E(Y )] 5 abCov(X, Y )

c) Cov (X 1 a, Y 1 b) 5 E(X 1 a 2 E(X 1 a))(Y 1 b 2 E(bY 1 b)) 5 E(X 1 a 2 E(X ) 2 a)(Y 1 b 2 E(Y) − b) 5 E(X 2 E(X ))(Y 2 E(Y )) 5 Cov(X, Y )

d) Cov (X 1 Y, Z ) 5 E(X 1 Y 2 E(X 1 Y ))(Z 2 E(Z )) 5 E(X 1 Y 2 E(X ) 2 E(Y ))(Z 2 E(Z )) 5 E((X 2 E(X )) 1 (Y 2 E(Y )))(Z 2 E(Z )) 5 E((X 2 E(X ))(Z 2 E(Z )) 1 E(Y 2 E(Y ))(Z 2 E(Z )) 5 V(X, Z ) 1 V(Y, Z )

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 91

La primera de las propiedades de la covarianza hace suponer que con ella se puede determinar el grado de asociación de las dos variables; si las variables son independientes no hay asociación entre ellas, ¿cómo se determina cuando hay la máxima asociación? y ¿qué tipo de asociación indica la covarianza? Con el coeficiente de correlación se determina que tipo de asociación entre X y Y considera la covarianza.

Definición 3.18. Dadas X y Y variables aleatorias se define el coeficiente de correlación mediante la fórmula: ρxy 5

Cov( X , Y ) Cov( X , Y ) 5 σxσ y V ( X )V (Y )

(3.18)

Teorema 3.6. Si X y Y son dos variables aleatorias, entonces se satisface que: −1 # ρxy # 1 Demostración: Considérese las variables Z1 5 (X 2 µx )/σx y Ζ2 5 (Y 2 µy )/σy, donde µx 5 E(X ), σx2 5 V(X ), µy 5 E(Y ) y σy2 5 V(Y ). Observe que: µ1 5 E(Z1) 5 E[(X 2 µx )/σx] 5 [E(X ) 2 µx]/σx 5 0; de la misma manera µ2 5 E(Z2 ) 5 0. Entonces, V(Z1) 5 E(Z1 2 E(Z1))2 5 (E(Z1)2 5 E((X 2 µx )/σx)2 5 E((X 2 µx )2)/V(X ) 5 1, de la misma manera: V(Z2 ) 5 1. Por tanto Cov(Z1, Z2 ) 5 E[(Z1 2 µ1)(Z2 2 µ2 )]5 E(Z1Z2 ). Por otro lado, se sabe que (Z1 6 Z2 )2 $ 0 entonces E[(Z1 6 Z2 )2] $ 0 Al desarrollar el cuadrado y aplicar las propiedades del valor esperado se tiene que:

E[(Z1 6 Z2 )2] 5 E[(Z1)2 6 2 Z1 Z2 1 (Z2 )2] 5 E[(Z1)2] 6 2E(Z1 Z2 ) 1 E[(Z2 )2] 5 V(Z1) 6 2Cov(Z1 Z2 ) 1 V(Z2 ) 5 1 6 2Cov(Z1 Z2) 1 1 5 2(1 6 Cov(Z1 Z2)) $ 0 De lo anterior se obtienen dos desigualdades:  1 1 Cov(Z1 Z2)) $ 0 implica que 21 # Cov(Z1, Z2).  1 2 Cov(Z1 Z2)) $ 0 implica que Cov(Z1, Z2) # 1. De las dos desigualdades se concluye que 21 # Cov(Z1, Z2) # 1

Cov(Z1, Z2) 5 E(Z1Z2) 5 E[(X − µx)/σx] [(Y 2 µy)/σy] 5 E[(X 2 µx)(Y 2 µy)]/σxσy 5 Cov(X, Y)/σxσy 5 rxy

92

| Estadística para ingeniería y ciencias

Corolario 1. Dadas X y Y variables aleatorias se tiene que rxy 5 61 si y sólo si X = aY + b, con a y b constantes. Demostración: E[(Z1 6 Z2)2] 5 0 si y sólo si Z1 = 6Z2, entonces (X 2 µx)/σx 5 6(Y 2 µy)/σy y al despejar de esta ecuación la variable X, se obtiene: X 56

σx σy

Y7

σx σy

µ y 1µ x b

a

Como se muestra, si el coeficiente de correlación es igual a 1 o a 21, entonces X y Y están asociados mediante la ecuación de una recta. La asociación entre X y Y que mide la covarianza es la de una línea recta.

3.3.4 Función generatriz de momentos Definición 3.19. Se conocen como momentos de orden i de la variable aleatoria X al valor esperado de la potencia i-ésima de X, y se denota como Mi; esto es Mi 5 E( X i ) ; para i 5 1, 2, 3, ... Definición 3.20. Dada X variable aleatoria con función de densidad f (x), se llama función generatriz de momentos a MX(t) 5 E(eXt).

El nombre de función generatriz de momentos se justifica con el desarrollo en series de potencia de la función exponencial: etX 51 1 tX 1

(tX )2 (tX )3 (tX )4 1 1 1. . . 2! 3! 4!

(3.19)

La función generatriz de momentos corresponde a una serie de potencias de t, cuyos coeficientes son los momentos de orden i.

MX (t ) 5 E(etX ) 5 1 1 tE( X ) 1

t 2 E( X 2 ) t 3 E( X 3 ) t 4 E( X 4 ) 1. . . 1 1 4! 2! 3!

(3.20)

Dada la función generatriz de momentos, se pueden obtener los momentos de orden i, derivan esta función y evaluando t 5 0, como se indica en el siguiente teorema.

Teorema 3.7. Dada una variable aleatoria X, se tiene que:

dk M X (t ) 5 E ( X k ) dt k t 50

(3.21)

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 93

Demostración: k 12 ) dk 2 E( X k k 11 ( ) 5 ( ) 1 ( ) 1 1. . . M t E X tE X t X k 2 ! dt t 50

5 E( X k ) t 50

El siguiente teorema indica la principal propiedad de la función generatriz de momentos, pues aplicando este resultado se puede caracterizar la función de distribución acumulada de la variable aleatoria. Teorema 3.8. La función generatriz de momentos es una transformación inyectiva. Inyectiva significa que si X y Y son variables aleatorias con función de densidad diferentes, entonces sus funciones generatrices de momentos son diferentes: ( MX (t ) ≠ MY (t ) ), y si se tienen dos variables aleatorias para las cuales las funciones generatrices de momentos son iguales, entonces dichas variables tendrían la misma función de densidad.

Ejemplo 3.15. Calcular la función generatriz de momentos de la variable aleatoria generada por la tirada de un dado no cargado. Solución: 1 21 6 6

1 21 6 6

1 21 6 6

1 21 6 6

1 21 6 6

1 21 6 6

E(eXt) 5 et( ) 1 e2t( ) 1 e3t( ) 1 e4t( ) 1 e5t( ) 1 e6t( ) 5(et 2 e7t)/6(1 2 et)

3.4 Función de distribución uniforme discreta La variable aleatoria uniforme discreta considera experimentos con resultados equiprobables.

Definición 3.21. Un experimento uniforme discreto tiene n posibles valores que pueden ser observados con igual probabilidad. La función de densidad uniforme discreta es:

¯1 si x 51, 2, 3, . . . , n ² f ( x) 5 ° n ² 0 en otro caso ±

(3.22)

El ejemplo más conocido de variable aleatoria uniforme es el relacionado con la tirada de un dado no cargado.

Otro ejemplo es el de una lotería con n boletos numerados del 1 al n, con un solo premio y eligiendo el boleto premiado con un proceso en que todos los números tienen igual probabilidad.

Teorema 3.9. Sea X una variable aleatoria uniforme con parámetro n, entonces la media, la varianza y la función generatriz de momentos son:

94

| Estadística para ingeniería y ciencias a) µ 5 (n 1 1)/2; b) σ2 5 [n2 2 1]/12 c) MX(t) 5 et (ent 2 1)/n(et 2 1) Demostración: Para encontrar la media y la varianza se utilizan las fórmulas de la suma de los primeros n enteros positivos y la suma de los primeros n enteros positivos al cuadrado; estas fórmulas se citan al principio del este libro. a) µ 5 E(X ) 5 1(1/n) 1 2(1/n) 1 ... 1 n(1/n) 5 (1 1 2 1 3 1 ... 1 n)/n 5 (n 1 1)n/2n 5 (n 1 1)/2 b) Para la varianza primero se encuentra E(X2): E(X 2) 5 12(1/n) 1 22(1/n) 1 . . . 1 n2 (1/n) 5 (12 1 22 1 32 1 . . . 1 n2)/n 5 n (n 1 1) (2n 1 1)/ 6n 5 (n 1 1)(2n 1 1)/6 Entonces: σ2 5 (n 1 1)(2n 1 1)/6 2 (n 1 1) 2/4 5 [2(2n2 1 3n 1 1) 2 3(n2 1 2n 1 1)]/12 5 [4n2 1 6n 1 2 2 3n2 2 6n 2 3]/12 5 [n2 21]/12 b) Para la función generatriz de momentos se tiene que MX(t) 5 E(e tX ) 5 e t(1/n) 1 e 2t (1/n) 1 . . . 1 e nt (1/n) 5 (e t 1 e 2t 1 . . . 1 e nt)/n 5 e t (e nt 2 1)/ n(e t 2 1) Tabla 3.6. Resumen Función de densidad

Variable aleatoria uniforme f (x) 5 1/n, si x 5 1, 2, . . . , n f (x) 5 0 en otro caso

Media

µ 5 (n 1 1)/2

Varianza

σ2 5 [n2 21]/12

Función generatriz de momentos

MX(t ) 5 e t (e nt 2 1)/n(e t 2 1)

3.5 Función de distribución Bernoulli Definición 3.22. Cualquier experimento que tiene dos posibles resultados se llama experimento Bernoulli. Algunos ejemplos de experimentos Bernoulli son:

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 95

Tabla 3.7. Experimento

Resultados

Volados

Águila

Sol

Nacimientos

Niño

Niña

Análisis clínico

Positivo

Negativo

Control de calidad

Defectuoso

Bueno

Toma de decisiones

De acuerdo

En desacuerdo

Para caracterizar a los experimentos Bernoulli en un solo modelo, a uno de los resultados se denota como éxito y al otro como fracaso; dicha asignación de los resultados del experimento es arbitraria. Definición 3.23. La variable que asigna 1 al éxito y 0 al fracaso se llama variable aleatoria Bernoulli. Éxito → 1 Fracaso → 0 Por convención a la probabilidad de que ocurra éxito en un experimento Bernoulli se le denota con la letra p y de que ocurra un fracaso se denota con la letra q. f (0) 5 P(X 5 0) 5 q, f (1) 5 P(X 5 1) 5 p y por la segunda propiedad de la funciones de densidad se obtiene que p 1 q 5 1.

Teorema 3.10. La media y la varianza de una variable aleatoria Bernoulli son:

µ 5 p y σ2 5 p(1 2 p) 5 pq

(3.23)

Demostración: La media de la variable es el valor esperado de X, siguiendo la fórmula se tiene que E(X ) 5 0f (0) 1 1f (1) 5 0q 1 1p 5 p La varianza de X es E(X 2 E(X ))2 5 E(X 2 p)2 5 (0 2 p)2f (0) 1 (1 2 p)2f (1) 5 p2(1 2 p) 1 (1 2 p)2p 5 p(1 2 p)(p 1 (1 2 p)) 5 p(1 2 p) 5 pq Teorema 3.11. La función generatriz de momentos de la variable aleatoria Bernoulli es

MX(t ) 5 1 2 p 1 pe t Demostración: MX(t ) 5 E(e tX) 5 e 0tf (0) 1 e1tf (1) 5 1 2 p 1 pe t

(3.24)

96

| Estadística para ingeniería y ciencias Tabla 3.8. Resumen Función de densidad

Variable aleatoria Bernoulli f (0) 5 1 2 p 5 q f (1) 5 p

Media

µ5p

Varianza

σ2 5 pq

Función generatriz de momentos

MX(t ) 5 1 2 p 1 pe t

3.6 Función de distribución binomial 3.6.1 Definición y propiedades El experimento binomial consiste en efectuar un número fijo n de experimentos Bernoulli independientes y con igual probabilidad de éxito, y al final se cuenta cuantos éxitos ocurrieron. Por ejemplo, realizar 20 exámenes médicos de la misma enfermedad a individuos de la misma población y al final determinar cuántos de estos análisis clínicos son positivos.

Definición 3.24. La variable que indica el número de éxitos en n experimentos Bernoulli iguales e independientes se llama variable aleatoria binomial.

Los experimentos Bernoulli son iguales cuando la probabilidad de éxito es la misma, y son independientes si la función de densidad conjunta es igual al producto de las densidades marginales. Por ejemplo: Si se lanzan 20 veces una moneda y X indica el número de águilas observadas en este experimento, X es una variable aleatoria binomial, porque es la misma moneda que se lanza y porque el resultado en un volado es independiente de los resultados de los otros volados. Si se inspeccionan 30 artículos en una línea de ensamblaje y X indica el número de artículos defectuosos encontrados, X es una variable aleatoria binomial, porque los artículos fueron fabricados con el mismo procedimiento y el que un artículo sea defectuoso es independiente de que otro artículo lo sea. Si en un matrimonio con 5 hijos, X indica el número de hijos varones, entonces X es una variable aleatoria binomial. El recorrido de la variable aleatoria binomial va de 0 a n.

Teorema 3.12. Sea X una variable aleatoria binomial con parámetros n y p, su función de densidad es:

¯² C p x q n2x si x 5 0, 1, . . . , n f ( x) 5 ° n x en otro caso ²± 0

(3.25)

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 97

Demostración: Se hará para el caso particular n 5 7 y k 5 3. Esto es, cuando se realizan siete experimentos Bernoulli iguales e independientes y se quieren observar tres éxitos. Ésta no es una demostración formal, pero da una idea de cómo efectuar la demostración en general. Suponga que Xi es la variable aleatoria del i-ésimo experimento Bernoulli, esto es, Xi 5 0 si en el i-ésimo experimento Bernoulli ocurre un fracaso y Xi 5 1 cuando en ese experimento ocurre un éxito. Alguna de las diferentes formas de tener tres éxitos en los siete experimentos Bernoulli, son:

X1 5 1, X2 5 1, X3 5 1, X4 5 0, X5 5 0, X6 5 0, X7 5 0

X1 5 1, X2 5 1, X3 5 0, X4 5 1, X5 5 0, X6 5 0, X7 5 0

X1 5 1, X2 5 1, X3 5 0, X4 5 0, X5 5 1, X6 5 0, X7 5 0

X1 5 1, X2 5 1, X3 5 0, X4 5 0, X5 5 0, X6 5 1, X7 5 0

X1 5 1, X2 5 1, X3 5 0, X4 5 0, X5 5 0, X6 5 0, X7 5 1

X1 5 1, X2 5 0, X3 5 1, X4 5 1, X5 5 0, X6 5 0, X7 5 0

X1 5 1, X2 5 0, X3 5 1, X4 5 0, X5 5 1, X6 5 0, X7 5 0

X1 5 1, X2 5 0, X3 5 1, X4 5 0, X5 5 0, X6 5 1, X7 5 0

X1 5 1, X2 5 0, X3 5 1, X4 5 0, X5 5 0, X6 5 0, X7 5 1

X1 5 0, X2 5 1, X3 5 1, X4 5 1, X5 5 0, X6 5 0, X7 5 0

X1 5 0, X2 5 1, X3 5 1, X4 5 0, X5 5 1, X6 5 0, X7 5 0 Aquí se muestran 11 formas de obtener tres éxitos en siete experimentos Bernoulli. El total de formas es igual al número de subconjuntos de tres elementos del total de siete, es decir, hay C3 5 7!/3!4! 5 35

7

diferentes formas de obtener tres éxitos en siete experimentos. Cada una de estas formas tiene la misma probabilidad y por ser las variables Bernoulli independientes, se tiene que: P(X1 5 1, X2 5 1, X3 5 1, X4 5 0, X5 5 0, X6 5 0, X7 5 0)

5 P(X1 5 1)P(X2 5 1)P(X3 5 1)P(X4 5 0)P(X5 5 0)P(X6 5 0)P(X7 5 0)

5 pppqqqq 5 p3q4 La probabilidad de tener tres éxitos en los siete experimentos Bernoulli es igual al número de formas que dan tres éxitos, multiplicados por la probabilidad de cada una de estas maneras, por lo que P(X 5 3) 5 35 p3q4 De la misma manera, para n y k arbitrarios se obtiene que: P(X 5 k) 5 nCk pkqn2k De las 11 formas listadas antes de obtener tres éxitos en los siete experimentos se puede ver que el número de éxitos es igual a la suma de las variables Bernoulli individuales, esto es: X 5 X1 1 X2 1 X3 1 X4 1 X5 1 X6 1 X7

| Estadística para ingeniería y ciencias

98

Este resultado siempre es cierto: para cualquier n la variable binomial es igual a la suma de n variables aleatorias Bernoulli iguales e independientes. Teorema 3.13. Si X es una variable aleatoria binomial con parámetros n y p, entonces existen n variables Bernoulli iguales e independientes Xi, tales que:

X 5 X1 1 X2 1 X3 1 . . . 1 Xn

(3.26)

Demostración: La demostración es directa, basta recordar que una variable Bernoulli toma el valor de 0 cuando ocurre un fracaso y toma el valor de 1 cuando ocurre un éxito, por tanto, esta suma es igual al número de unos en ella y esto equivale al número de éxitos en los n experimentos Bernoulli. Teorema 3.14. Si X es una variable aleatoria binomial con parámetros n y p, entonces su media es µ 5 np y su varianza es σ2 5 npq. Demostración: Si X es variable aleatoria binomial, entonces existen X1, X2, X3, X4, X5, . . . , Xn variables aleatorias Bernoulli iguales e independientes, tales que: X 5 X1 1 X2 1 X3 1 X4 1 X5 1 X6 1 . . . 1 Xn Entonces, por las propiedades del valor esperado y de la varianza se obtiene: a) µ 5 E(X ) 5 E(X1 1 X2 1 X3 1 X4 1 X5 1 X6 1 . . . 1 Xn)

5 E(X1) 1 E(X2) 1 E(X3) 1 E(X4) 1 E(X5) 1 E(X6) 1 . . . 1 E(Xn) 5p1p1p1...1p 5 np

b) σ2 5 V(X) 5 V(X1 1 X2 1 X3 1 X4 1 X5 1 X6 1 . . . 1 Xn) por ser variables aleatorias independientes 5 V(X1) 1 V(X2) 1 V(X3) 1 V(X4) 1 V(X5) 1 V(X6) 1 . . . 1 V(Xn) 5 pq 1 pq 1 pq 1 . . . 1 pq 5 npq Teorema 3.15. Si X es una variable aleatoria binomial con parámetros n y p, entonces su función generatriz de momentos es MX(t ) 5 (1 2 p 1 pe t )n. Demostración: El desarrollo de un binomio elevado a la n es igual a: n

(a 1 b)n 5 ∑ n Ck a k bn2k

(3.27)

0

Entonces, la función generatriz de momentos de la variable aleatoria binomial es:

n

n

n

0

0

0

MX (t ) 5 E(etX ) 5 ∑ etx f ( x) 5 ∑ n C x etx p x q n2x 5 ∑ n C x (et p) x q n2x

(3.28)

esta última expresión es el desarrollo de un binomio a la n, por lo que:

MX (t ) 5(et p 1 q)n 5 (et p 11 2 p)n

(3.29)

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 99

Tabla 3.9. Resumen

Variable aleatoria b�� inomial

Función de densidad

f (x ) 5 nCx pxqn2x f (x ) 5 0 en otro caso

Media

µ 5 np

Varianza

σ2 5 npq

Función generatriz de momentos

MX(t ) 5 (1 2 p 1 pe t )n

La notación simplificada para la función de densidad y la función de distribución acumulada binomial es para la densidad P(X = x) = b(x; n, p) y para la distribución P(X ≤ x) = B(x; n, p).

Relación de la media y la varianza con los valores de n y p Para revisar la relación de la media y la varianza de una variable aleatoria binomial y los valores de n y p, se calculó con Excel la función de densidad para n 5 10 y p 5 0.10, 0.20, 0.30, 0.50, 0.70 y 0.90, y se realizaron n 5n10; p5 media 5 1,5varianza 5 0.9 n 5n10; p 5p0.20; media 5 2,5varianza 5 1.6 sus respectivas gráficas de 5 10; p0.10; 5barras: 0.10; media 1, varianza 5 0.9 5 10; 5 0.20; media 2, varianza 5 1.6 n 5 10; p 5 0.20; media 5 2, varianza 5 1.6 0.35 0.35 n 5 10; p 5 0.20; media 5 2, varianza 5 1.6 0.30.35 0.35 0.3 n 5n10; p 5p0.20; media 5 2,5varianza 5 1.6 5 10; 5 0.20; media 2, varianza 5 1.6 0.25 0.3 0.3 0.25 0.35 0.35 0.20.25 0.25 0.2 0.30.3 0.15 0.2 0.2 0.15 0.25 0.25 0.10.15 0.15 0.1 0.20.2 0.05 0.1 0.1 0.05 0.15 0.15 0 0 0.05 0.10.05 0.1 10 10 0 00 01 12 23 34 45 56 67 78 89 9 0.05 0.05 0 01 12 23 Probabilidad 6 67 78 8 9 10 34 Probabilidad 45 5 9 10 0 0 Probabilidad 0 01 12 23 34 Probabilidad 10 10 45 56 67 78 89 9

Número Número de Número éxitos de éxitos de éxitos Número de éxitos Número de éxitos Número de éxitos

Número Número de Número éxitos de éxitos de éxitos Número de éxitos Número de éxitos Número de éxitos

0.45 n 5n10; p 5p0.10; media 5 1,5varianza 5 0.9 5 10; 5 0.10; media 1, varianza 5 0.9 0.45 0.40.4 0.45 0.45 n 5n10; p 5p0.10; media 5 1,5varianza 5 0.9 5 10; 5 0.10; media 1, varianza 5 0.9 0.35 0.4 0.35 0.4 0.3 0.45 0.45 0.35 0.3 0.35 0.25 0.4 0.4 0.3 0.25 0.3 0.2 0.35 0.35 0.25 0.2 0.25 0.15 0.3 0.3 0.2 0.15 0.2 0.1 0.25 0.25 0.15 0.1 0.15 0.05 0.2 0.2 0.1 0.05 0.1 0 0.15 0.15 0.05 0 0.05 0.1 10 10 00.1 00 01 12 23 34 45 56 67 78 89 9 0.05 0.050 1 2 3 Probabilidad 6 67 78 8 9 10 0 1 2 34 Probabilidad 45 5 9 10 0 0 Probabilidad 0 01 12 23 34 Probabilidad 10 10 45 56 67 78 89 9 Probabilidad Probabilidad

Probabilidad Probabilidad n 5 10; p 5 0.50; media 5 5, varianza 5 2.5 n 5 10; p 5 0.50; media 5 5, varianza 5 2.5 p 5p0.50; media 5 5,5varianza 5 2.5 0.3 n 5n10; 5 10; 5 0.50; media 5, varianza 5 2.5 0.3

n 5n10; p 5p0.30; media 5 3,5varianza 5 2.1 5 10; 5 0.30; media 3, varianza 5 2.1 n 5n10; p 5p0.30; media 5 3,5varianza 5 2.1 0.30.3 5 10; 5 0.30; media 3, varianza 5 2.1

0.1 0.05 0.1 0.15 0.15 0.05 0.05 00.05 0.1 0.1 0 0 00 01 12 23 34 45 56 67 78 89 0.05 0.05 0 01 12 23 Probabilidad 6 67 78 8 9 34 Probabilidad 45 5 0 0 Probabilidad 0 01 12 23 Probabilidad 4 5 6 7 8 3 4 5 6 7 89

10 9 10 10 9 10

0.3 0.3 0.25 n 5n10; p 5p0.50; media 5 5,5varianza 5 2.5 5 10; 5 0.50; media 5, varianza 5 2.5 0.25 0.25 0.2 0.30.25 0.3 0.2 0.2 0.2 0.15 0.25 0.25 0.15 0.15 0.1 0.15 0.20.2 0.1

Número Número de Número éxitos de éxitos de éxitos Número de éxitos Número de éxitos Número de éxitos

Número Número de Número éxitos de éxitos de éxitos Número de éxitos Número de éxitos Número de éxitos

0.3 0.3 0.25 n 5n10; p 5p0.30; media 5 3,5varianza 5 2.1 5 10; 5 0.30; media 3, varianza 5 2.1 0.25 0.25 0.2 0.30.25 0.3 0.2 0.2 0.2 0.15 0.25 0.25 0.15 0.15 0.10.15 0.2 0.2 0.1

0.1 0.1 0.05 0.15 0.15 0.05 0.05 00.05 0.1 0.1 0 0 1 2 3 4 5 6 7 8 9 0 0.05 0.050 0 1 2 3 4 5 6 7 8 0 01 12 23 Probabilidad 6 67 78 8 9 34 Probabilidad 45 5 0 0 0 01 12 23 Probabilidad 34 Probabilidad 45 56 67 78 89

10 10 9

Número Número de Número éxitos de éxitos de éxitos Número de éxitos Número de éxitos Número de éxitos

n 5n10; p 5p0.70; media 5 7,5varianza 5 2.1 0.30.3 5 10; 5 0.70; media 7, varianza 5 2.1 0.3 0.3 0.25 n 5n10; p 5p0.70; media 5 7,5varianza 5 2.1 5 10; 5 0.70; media 7, varianza 5 2.1 0.25 0.25 0.2 0.30.25 0.3 0.2 0.2 0.15 0.2 0.25 0.25 0.15 0.15 0.1 0.20.15 0.2 0.1 0.1 0.1 0.05 0.15 0.15 0.05 0.05 00.05 0.1 0.1 0 0 00 01 12 23 34 45 56 67 78 89 0.05 0.05 0 01 12 23 Probabilidad 6 67 78 8 9 34 Probabilidad 45 5 0 0 Probabilidad Probabilidad 0 01 12 23 34 45 56 67 78 89 Probabilidad Probabilidad

10 9 10 10 9 10 10 10 9

Figura 3.3.

10 10 9

Probabilidad Probabilidad n 5 10; p 5 0.90; media 5 9, varianza 5 0.9 n 5 10; p 5 0.90; media 5 9, varianza 5 0.9 p 5p0.90; media 5 9,5varianza 5 0.9 0.45 n 5n10; 5 10; 5 0.90; media 9, varianza 5 0.9 0.45 0.4 0.45 0.4 0.45 n 5 10; p 5 0.90; media 5 9, varianza 5 0.9 n 5 10; p 5 0.90; media 5 9, varianza 5 0.9 0.35 0.4 0.35 0.4 0.3 0.45 0.45 0.35 0.3 0.35 0.25 0.4 0.4 0.3 0.25 0.3 0.2 0.35 0.35 0.25 0.2 0.25 0.15 0.3 0.3 0.2 0.15 0.2 0.1 0.25 0.25 0.1 0.15 0.15 0.05 0.2 0.2 0.1 0.05 0.1 0 0.15 0.15 0.05 0 0.05 0.1 0.1 10 0 00 01 12 23 34 45 56 67 78 89 9 10 0.05 0.050 1 2 3 4 5 6 7 8 9 10 0 1 2 Probabilidad 3 Probabilidad 4 5 6 7 8 9 10 0 0 0 01 12 23 Probabilidad 10 10 34 Probabilidad 45 56 67 78 89 9

Número Número de Número éxitos de éxitos de éxitos Número de éxitos Número de éxitos Número de éxitos

Probabilidad Probabilidad n 5n10; p 5p0.70; media 5 7,5varianza 5 2.1 5 10; 5 0.70; media 7, varianza 5 2.1

10 9 10 10 9 10

Probabilidad Probabilidad

100

| Estadística para ingeniería y ciencias

Como se puede ver, en todos los casos el valor más probable es cuando X toma el valor de la media, y la mayor variación es cuando p 5 0.5.

3.6.2 Cálculo de la distribución binomial usando Excel Los valores de la probabilidad para la función de densidad binomial son difíciles de obtener usando una calculadora de bolsillo y aplicando la fórmula directamente, por tal razón es conveniente tener los cálculos ya efectuados para algunos valores de n y p y reportarlos en una tabla. Al final del libro se encuentra un apéndice con una tabla de la función distribución binomial (la probabilidad acumulada). Con esta tabla se pueden calcular las probabilidades de cualquier intervalo, de acuerdo con las relaciones:

P(X # x) 5 B(x; n, p) valores que trae la tabla.

P(X 5 x) 5 B(x; n, p) 2 B(x 2 1; n, p) P(x1 # X # x2) 5 B(x2; n, p) 2 B(x1 2 1; n, p) P(X $ x) 5 1 2 B(x 2 1; n, p)

Pero a pesar que se tenga reportada en libros la tabla con las probabilidades de la variable aleatoria binomial, éstas sólo se anexan para algunos valores reducidos de n y p, entonces si se tienen que calcular las probabilidades con valores que no se encuentren en la tabla, los cálculos de la distribución binomial se pueden obtener usando una hoja de cálculo como Excel o un programa estadístico como Minitab. Las instrucciones para hacer una tabla con los valores de la función de densidad y con los valores de la función de distribución acumulada de la variable aleatoria binomial con n 5 5 y p 5 0.35 utilizando Excel, se citan a continuación.

1. Escriba en una columna los valores del recorrido de X 5 0, 1, 2, 3, 4, 5. . . 2. Colóquese en la celda frente al valor 0 y haga �� clic �� sobre el icono de función. 3. En el menú que aparece, elija la opción Estadísticas. 4. En el nuevo menú elija la opción Distr. Binom. 5. Llene los espacios en la pantalla de diálogo; con el cursor en la ventanilla de Núm éxito señale la celda donde esta el 0, en este caso es A2, Ensayos es n 5 5, Prob_éxito es 0.35, en Acumulado escriba 0, que equivale a falso, para que proporcione el valor puntual.

Figura 3.4.

Figura 3.5.

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 101

6. Con esto se obtiene la probabilidad P(X 5 0). 7. Ahora colóquese nuevamente en esta celda y lleve el cursor del ratón a su esquina inferior derecha, hasta que la crucecita del cursor se hace delgada. 8. Entonces, oprimiendo el botón izquierdo del ratón arrastre la información hasta llegar al renglón donde está el número 15. Con esto se obtienen los valores de la función de densidad en una columna.

Figura 3.6.

Ahora, en la siguiente columna calcule la función de distribución, siga las mismas instrucciones, sólo que en la ventanilla de Acumulado escriba 1, en vez de 0. Si sigue las instrucciones obtendrá los datos que se presentan en la siguiente tabla.

Figura 3.7.

Tabla 3.10. X

Densidad

Distribución

0

0.11602906

0.11602906

1

0.31238594

0.428415

2

0.33641563

0.76483063

3

0.18114688

0.9459775

4

0.04877031

0.99474781

5

0.00525219

1

Con el asistente de gráficas se pueden obtener las gráficas de las dos funciones de probabilidad. Siga las instrucciones para obtenerlas.

1. Señale las celdas donde están los valores de la función de densidad. 2. Haga clic en el icono del asistente de gráfica. 3. Elija el tipo de gráfica Columnas y haga clic en Siguiente. 4. En la pantalla que aparece haga clic en Series y ponga el cursor en la ventanilla de Rótulos del eje de categorías (X ). 5. Luego coloque el cursor en la celda donde está el 0 y arrastre el cursor hasta cubrir los datos del 0 al 5. Haga clic en Siguiente. 6. Puede ponerle nombre a la gráfica, a los ejes y termínela.

Figura 3.8.

Haga lo mismo con los datos de la función de distribución acumulada. Las gráficas que obtendrá son las siguientes.

102

| Estadística para ingeniería y ciencias

0.4

Función Función de densidad de densidad 0.4

0.35

0.35

0.3

0.3

0.25

0.25

0.2

0.2

0.15

0.15

0.1

0.1

0.05

0.05

0

1.2

0 0

Función Función de distribución de distribución 1.2

1

1

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0 10 2 1 32 4 3 5 4 NúmeroNúmero de éxitosde éxitos

5

0 0

1 0 21 32 4 3 5 4 NúmeroNúmero de éxitosde éxitos

5

Figura 3.9.

3.6.3 Cálculo de la distribución binomial usando Minitab Para calcular los valores de las probabilidades acumuladas y de la probabilidad puntual de la función binomial siga estas indicaciones: 1. Calc → Probability distributions → Binomial 2. En la ventana Binomial Distribution haga clic en Cummulative Probability. 3. En la ventanilla Number of trials introduzca el número de ensayos. Igualmente, en la ventanilla Probability of success ponga la probabilidad de éxito. 4. En la ventanilla Optional Storage ponga la columna donde se almacenarán los resultados de las probabilidades acumuladas y haga clic en OK. 5. Análogamente, para calcular las probabilidades de función de masa proceda como lo hizo antes, pero ahora haciendo clic en Probability. También, para hacer gráficas con los valores de las probabilidades acumuladas y de la probabilidad de densidad proceda de la siguiente manera: 1. Graph → Scatterplot 2. En la ventana Scatterplot-Simple introduzca las probabilidades acumuladas (en la ventanilla Y variable). Asimismo, introduzca las probabilidades de densidad de masa (en la ventanilla Y variable). Igualmente, introduzca los valores de la variable aleatoria X (en la ventanilla de x variables), para cada uno de sus casos.

Ejemplo 3.16. Se utiliza Minitab en un estudio de higiene industrial y seguridad llevado a cabo en muchas maquiladoras industriales, supóngase que hay una población grande compuesta de operadores de maquiladoras con dos características: tomadores de licor y abstemios. Si se elige una persona al azar de esta población se considerará éxito si la persona seleccionada es tomadora de licor y fracaso si es abstemio. La probabilidad de obtener un éxito se supone igual a p 5 0.4 y la probabilidad de fracaso es q 5 0.6. Si se saca una muestra al azar de n 5 11 operadores de la maquiladora:

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 103

a) Preparar una tabla mostrando las probabilidades con sus respectivos valores de X. b) Preparar una gráfica con los valores obtenidos en el inciso a). c) Calcular la media y la varianza de esta distribución. d) Calcular la probabilidad de que el valor de X sea de cuando menos 5. e) Calcular la probabilidad de que el valor de X esté entre 3 y 6 inclusivamente. f ) Calcular la probabilidad de que el valor de X esté entre 3 y 6 exclusivamente. g) Calcular la probabilidad de que el valor de X sea igual a 4. Solución: a) La variable que indica el número de éxitos en las 11 observaciones es binomial con parámetros n 5 11 y p 5 0.4. La tabla siguiente muestra las funciones de densidad y de distribución de esta variable aleatoria. Tabla 3.11. Variable aleatoria binomial X 0

Función de distribución P(X ≤ x) 0.003628

Función de densidad P(X = x) 0.003628

1

0.030233

0.026605

2

0.118917

0.088684

3

0.296284

0.177367

4

0.532774

0.23649

5

0.753498

0.220724

6

0.900647

0.147149

7

0.970719

0.070071

8

0.994076

0.023357

9

0.999266

0.00519

10

0.999958

0.000692

11

1.000000

0.000042

b) Las gráficas siguientes muestran la solución para este inciso. 0.0 2.5 5.0 7.5 10.0 Función de distribución acum.

Función de distribución acum.

0.25

1.0

1.0 0.25

0.8

0.8 0.20

0.20

0.6

0.6 0.15

0.15

0.4

0.4 0.10

0.10

0.2

0.2 0.05

0.05

0.0 00.0

0.00

0.0 0.0

2.5

5.0

7.5

10.0 Var. aleatoria

Figura 3.10.

104

| Estadística para ingeniería y ciencias En la figura de la derecha nótese que debido a que p 5 0.4 , 0.5, la distribución es oblicua hacia la derecha. c) El promedio μ, la varianza σ2 y la desviación σ estándar σ de σ esta distribución son:

μ 5 np 5 (10)(0.4) 5 4.0, σ2 5 npq 5 (10)(0.4)(0.6) 5 2.4, σ 5

2.4 5 1.555

d) P(X $ 5) 5 1 2 P(X # 4) 5 1 2 0.532774 5 0.4672 (de la tabla 3.11) e) P(3 # X # 6) 5 0.78173 f ) P(3 , X , 6) 5 0.23649 1 0.220724 5 0.4572 g) P(X 5 4) 5 0.23649

3.6.4 Ejemplos Usar el Minitab o Excel para comparar los resultados obtenidos.

Ejemplo 3.17. Calcular las siguientes probabilidades binomiales usando la fórmula b( x; n, p) 5

n! p x (1 2 p)n2x x!( n 2 x)!

a) b(3; 8, 0.6) b) b(5; 8, 0.6) c) P(3 # X # 5) cuando n 5 8 y p 5 0.6 d) P(1 # X ) cuando n 5 12 y p 5 0.1 e) b(x; 8, 0.6) donde x 5 0 Solución: a) b(3; 8, 0.6) es la densidad binomial cuando X 5 3, n 5 8, p 5 0.6.

P(X 5 3) 5 8!/3!(8 2 3)! (0.6)3 (1 2 0.6)8−3 5 0.124

b) b(5; 8, 0.6) es la densidad binomial cuando X 5 5, n 5 8 y p 5 0.6. P(X 5 5) 5 8C5 (0.6)5 (0.4)825 5 8!/5!(8 2 5)! (0.6)5 (0.4)3 5 (56) (0.078) (0.064) 5 0.279

c) P(3 # X # 5) es la suma de los valores de la densidad binomial en X 5 3, 4 y 5. Por tanto: P(3 # X # 5) 5 b(3; 8, 0.6) 1 b(4; 8, 0.6) 1 b(5; 8, 0.6) 5 0.124 1 0.232 1 0.279 5 0.635 d) P(X $ 1) con n 5 12 y p 5 0.1. Se debe hacer el cálculo de b(x; 12, 0.1) para x 5 1, 2, 3, . . . , 12 y luego sumarlos, o se puede utilizar la fórmula vista en el capítulo 2:

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 105

P(Ac) 5 1 2 P(A), es decir: P(X $ 1) 5 1 2 P(X , 1) 5 1 2 P(X 5 0) 5 1 2 0.282 5 0.718

Ejemplo 3.18. En la tabla de la distribución binomial, encontrar los valores para: a) B(4; 10, 0.3) b) B(6; 10, 0.7) Solución: a) B(4; 10, 0.3) en la tabla se buscan los valores para n 5 10, luego la columna para p 5 0.3, y finalmente el renglón correspondiente a x 5 4; el valor que se obtiene es: 0.8497. Por tanto, P(X # 4) 5 B(4; 10, 0.3) 5 0.8497. b) B(6; 10, 0.7) en la tabla se buscan los valores para n 5 10, luego la columna para p 5 0.7 y finalmente el renglón correspondiente a x 5 6; el valor que resulta es: 0.3504. Por tanto, P(X # 6) 5 B(6; 10, 0.3) 5 0.3504. Ejemplo 3.19. Una moneda no cargada se lanza 6 veces (que es lo mismo que lanzar seis monedas a la vez). Calcular las siguientes probabilidades: a) La probabilidad de que salgan exactamente 2 soles. b) La probabilidad de que salgan cuando menos 4 soles. c) La probabilidad de tener 0 soles. Solución: Cada lanzamiento de la moneda es un experimento Bernoulli, por tanto, éxito corresponde a que salga sol en el volado y los resultados de cada volado son independientes y la moneda no está cargada, por lo que la variable que determina el número de soles es una binomial con parámetros n 5 6 y p 5 0.5. a) Entonces, la probabilidad de que salgan exactamente 2 soles es:

P(X 5 2) 5 b(2; 6, 0.5) 5 6C2 (0.5)2 (0.5)62−2 5

15 1 64 64

b) La probabilidad de que salgan cuando menos 4 soles (X $ 4) es:

P(X 5 4 o 5 o 6) 5 b(4; 6, 0.5) 1 b(5; 6, 0.5) 1 b(6; 6, 0.5) 5 6C4(0.5)4 (0.5)624 1 6C5 (0.5)5 (0.5)625 1 6C6 (0.5)6 (0.5)626 5 0.34375 15 1 . 64 64

c) La probabilidad de tener 0 soles es: P(X 5 0) 5 6C0 (0.5)0 (0.5)620 5

106

| Estadística para ingeniería y ciencias

Ejemplo 3.20. Por un estudio de toxicología se sabe que la probabilidad de que un enfermo se recupere de una intoxicación es de 0.4. Si se tiene una muestra de 15 personas que se han intoxicado, calcular las siguientes probabilidades: a) La probabilidad de cuando menos 10 personas sobrevivan. b) La probabilidad de que 3 de 8 personas (inclusivamente) intoxicadas sobrevivan. c) La probabilidad de que exactamente 5 personas intoxicadas sobrevivan. Solución: Sea X el número de intoxicados que sobrevivan. Dado que cada persona intoxicada puede recuperarse o no, cada persona corresponde a un experimento Bernoulli, y la recuperación de cada una de las personas en la muestra es independiente, entonces X es una variable aleatoria binomial con n 5 15 y p 5 0.4. a) El término “cuando menos 10” equivale a X $ 10. Entonces, se utiliza la fórmula de la probabilidad del complemento y se encuentra el valor en la tabla de la distribución binomial: P(X $ 10) 5 1 2 P(X # 9) 5 1 2 0.9662 5 0.0338 b) La probabilidad de que se recuperen entre 3 y 8 intoxicados, inclusivamente, equivale a P(3 # X # 8). Se puede calcular usando la tabla de distribución binomial. P(3 # X # 8) 5 P(X # 8) 2 P(X # 2) 5 0.9050 2 0.0271 5 0.8779

c) La probabilidad de que exactamente 5 intoxicados sobrevivan es: P(X 5 5) 5 P(X # 5) 2 P(X # 4) 5 0.4032 2 0.2173 5 0.1859

Ejemplo 3.21. Si 20% de los tornillos producidos por una máquina están defectuosos, determinar la probabilidad que de 4 tornillos seleccionados aleatoriamente: a) Uno esté defectuoso. b) Ninguno esté defectuoso. c) A lo más 2 estén defectuosos. d) Cuando menos uno esté defectuoso. Solución: Si al elegir 4 tornillos al azar X indica el número de tornillos defectuosos, X se distribuye binomialmente de acuerdo con unos parámetros n 5 4 y p 5 0.20. Entonces: a) P(X 5 1) 5 4C1 (0.2)1 (0.8)421 5 0.4096 b) P(X 5 0) 5 4C0 (0.2)0 (0.8)420 5 0.4096

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 107

c) El término “a lo más 2” equivale a X # 2. En la tabla de la distribución binomial es directa, P(X # 2) 5 0.9728. d) El término “cuando menos 1” significa X $ 1, P(X $ 1) 5 1 2 P(X 5 0) 5 1 2 0.41 5 0.59

Ejemplo 3.22. Suponer que 40% de los ríos de cierta región industrial de México están contaminados con benceno. Si se toma una muestra aleatoria de tamaño n 5 30, calcular la probabilidad: a) Exactamente 15 ríos en la muestra estén contaminados con benceno. b) Cuando menos 15 ríos en la muestra estén contaminados con benceno. c) No más de 10 ríos, pero cuando menos de 5 ríos en la muestra estén contaminados con benceno. Solución: Cada río elegido puede o no estar contaminado, esto es un experimento Bernoulli, y la condición de cada río es independiente de los otros: entonces, la variable X que indica el número de ríos contaminados es binomial con n 5 30 y p 5 0.40. Para el cálculo se usa Excel o Minitab porque no se tienen valores tabulados para n 5 30. a) P(X 5 15) 5 30!/(30 2 15)! (0.4)15(0.6)30∼15 5 0.0783 b) Cuando menos 15 indica que X $ 15.

P(X $ 15) 5 1 2 P(X , 15) 5 1 2 P(X # 14) 5 1 2 0.8246 5 0.1754 c) “No más de 10 ríos, pero cuando menos de 5” equivale a 5 # X # 10.

P(5 # X # 10) 5 P(X # 10) 2 P(X # 4) 5 0.2915 2 0.0015 5 0.2900 Ejemplo 3.23. En un estudio de laboratorio bacteriológico de aguas se afirma que 3% de las tomas domiciliarias contienen la bacteria E. coli, en concentraciones arriba del límite estipulado por las leyes ambientales. Suponiendo que esta afirmación es correcta, encontrar la probabilidad de que en una muestra aleatoria de 25 tomas domiciliarias, se encuentre: a) Ninguna toma contaminada. b) Cuando menos 1 toma contaminada. c) Entre 1 y 5 tomas contaminadas. d) Más de 5 tomas contaminadas. e) Más de 5, pero menos de 10 tomas contaminadas.

108

| Estadística para ingeniería y ciencias Solución: Cada toma muestreada puede o no estar contaminada, independientemente de las otras tomas en la muestra. Por tanto, la variable aleatoria X que indica el número de tomas domiciliarias contaminadas en la muestra, es una variable aleatoria binomial con parámetros n 5 25 y p 5 0.03. Debido a que para el valor de p 5 0.03, no hay valores en la tabla de distribución binomial incluida en este libro, los cálculos para este problema se deben calcular usando la fórmula o con ayuda de Excel o Minitab. a) Ninguna toma contaminada: P(X 5 0) 5 25C0 (0.03)0 (0.97)25 5 0.4070

b) Cuando menos se encuentra 1 toma contaminada es equivalente a X $ 1 y se expresa como: P(X $ 1) 5 1 2 P(X , 1) 5 1 2 P(X 5 0) 5 1 2 0.4670 5 0.5330

c) Entre 1 y 5 tomas contaminadas: P(1 # X # 5) 5 P(X # 5) 2 P(X , 1) 5 0.9999 2 0.467 5 0.5329 d) Más de 5 tomas contaminadas: P(X . 5) 5 1 2 P(X # 5) 5 1 2 0.9999 5 0.0001 e) Más de 5, pero menos de 10 tomas contaminadas. P(5 , X , 10) 5 P(X # 9) 2 P(X # 5) 5 1 2 0.9999 5 0.0001 Ejemplo 3.24. En un río adyacente a una zona industrial, la probabilidad de que al tomar una muestra de agua ésta exceda el límite de cromo que es de 10 mg/L, es de 0.10. Si se toman n 5 18 muestras de agua del río y se supone que las muestras de agua son independientes con respecto a la presencia de cromo, entonces: a) Encontrar la probabilidad de que dos de las muestras excedan el límite de 10 mg/L de cromo. b) Hallar la probabilidad de que, al menos 4 muestras excedan el límite. c) Determinar la probabilidad de que, cuando menos 3 muestras, pero menos de 7 excedan el límite estipulado. d) Encontrar la probabilidad de que más de 3 muestras, pero menos de 7 excedan el límite estipulado de cromo. Solución: Sea X 5 número de muestras de agua que excedan el límite estipulado de 10 mg/L del total de las 18 observaciones. Entonces, X es una variable aleatoria binomial con parámetros p 5 0.1 y n 5 18.

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 109

a) P(X 5 2) 5 18!/2!(18 2 2)! (0.1)2 (0.9)1822 5 (153)(0.01)(0.1853) 5 0.284 b) P(X $ 4) 5 1 2 P(X , 4) 5 1 2 P(X # 3) 3

∑ 18Cx (0.1)x (0.9)182x

512

5 1 2 (0.15 1 0.30 1 0.284 1 0.168) 5 1 2 0.902 5 0.098

x50

Ahora, si se usa la tabla binomial acumulada para buscar el valor de n 5 18, con X 5 3 y p 5 0.1 y el valor P(X , 4) es 0.902. Por tanto: P(X $ 4) 5 1 2 0.902 5 0.098 c) Aquí se busca P(3 # X , 7), esto nos lleva a: P(3 # X , 7) 5 P(X # 6) 2 P(X # 2) 5 0.9988 2 0.7338 5 0.265

d) P(3 , X , 7) 5 P(X # 6) 2 P(X # 3) 5 0.9988 2 0.9018 5 0.097 Ejemplo 3.25. Se sabe que la probabilidad de que una industria elegida al azar no cumpla con las regulaciones ambientales es igual a p 5 0.5; si se elige una muestra de 10 industrias al azar y X indica el número de industrias que no cumplen con las regulaciones ambientales del aire y del agua en esa muestra, encontrar: a) La probabilidad de que, exactamente, 5 industrias cumplan con los límites ambientales. b) La probabilidad de que no más de 2 cumplan con el reglamento. c) La probabilidad de que cuando menos 9 lo cumplan. d) La probabilidad de que menos de 5 industrias cumplan, pero cuando menos 3 sí lo cumplan. Solución: a) P(X 5 5) 5 P(X # 5) 2 P(X # 4) 5 0.246 (usando la tabla binomial) b) P(X # 2) 5 0.055 (usando la tabla binomial)

c) P(X $ 9) 5 1 2 0.989 5 0.011

d) P(3 # X , 5) 5 P(X # 4) 2 P(X # 2) 5 0.7338 2 0.3770 5 0.3568 (de la tabla binomial)

110

| Estadística para ingeniería y ciencias

Ejemplo 3.26. La fabricación de accesorios para un sistema de control de partículas (ciclón) se asocia con un proceso Bernoulli. Si la probabilidad de obtener una parte defectuosa es igual a 0.20, estimar la probabilidad: a) De no encontrar partes defectuosas del sistema de control en una muestra aleatoria de 10 partes. b) De no hallar partes defectuosas de los ciclones fabricados en una muestra de 20 partes. Solución: a) Usando la fórmula binomial: b(x; n, p) 5 nCx px qn2x P(X 5 0) 5 10C0 (0.2)0 (0.8)2100 5 0.107 Este resultado también se puede obtener con la tabla de la distribución binomial con n 5 10, p 5 0.2 y X 5 0. b) Nuevamente usando la fórmula binomial y sustituyendo da: P(X 5 0) 5 20C0 (0.2)0 (0.8)2200 5 (1)(1)(0.012) 5 0.012

Ejemplo 3.27. Se toma una muestra aleatoria de n 5 20 (peces), sea p 5 0.05, la probabilidad que un pez muera por la exposición a cierta concentración tóxica proveniente de una descarga industrial a un río. Sea X el número de peces de la muestra que morirán durante el experimento, entonces a) Calcular la media μ y la desviación estándar σ de X. b) La probabilidad de que muera a lo más 1 pez de la muestra. c) La probabilidad de que no muera ningún pez de la muestra. d) La probabilidad de que mueran cuando menos 3 peces de la muestra. e) La probabilidad P(X 5 10). Solución: a) Media: μ 5 np 5 (20)(0.05) 5 1

Varianza: s2 5 npq 5 (1.0)(0.95) 5 0.95

Desviación estándar: s5 npq 5 0.95 5 0.9747

b) P(X # 1) 5 0.736 c) P(X 5 0) 5 0.358 d) P(X $ 3) 5 1 2 P(X , 3) 5 1 2 0.9245 5 0.0755 e) P(X 5 10) 5 1.08(1028)

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 111

Ejemplo 3.28. La posibilidad de que una muestra de aire contenga un microorganismo letal es de 10%. Suponiendo que las muestras son independientes, con respecto a la presencia del microorganismo y que se toman 18 muestras. Encontrar la probabilidad de que: a) Exactamente 2 muestras contengan el germen. b) Al menos 4 muestras contengan el germen. c) La probabilidad de que menos de 7 muestras de aire contengan el germen, pero cuando menos 3 muestras también lo tengan, e.g., P(3 # X , 7). Solución: Sea X el número de muestras de aire que contienen el germen patógeno en las 18 muestras analizadas. Entonces, X es una variable aleatoria binomial con parámetros p 5 0.1 y n 5 18. Por consiguiente: a) P(X 5 2) 5 18C2 (0.1)2 (0.9)16 5 0.284 b) P(X $ 4) 5 1 2 P(X # 3) 5 1 2 0.9018 5 0.982 c) P(3 # X , 7) 5 P(X # 6) 2 P(X # 2) 5 0.9983 2 0.7338 5 0.2645 Ejemplo 3.29. La paraestatal PEMEX de México se avocó a hacer perforaciones en el sureste de Tabasco. Para ver la factibilidad financiera de que fuera conveniente hacer las perforaciones, PEMEX contrató los servicios de una firma de estudios estadísticos. Se sabe que cada pozo perforado se clasifica como productivo o no productivo. La experiencia de PEMEX es que, en este tipo de exploraciones 15% de los pozos perforados son productivos. Para las exploraciones petroleras se seleccionaron aleatoriamente 12 sitios. Con esta información presente, hacer los siguientes cálculos. a) ¿Cuál es la probabilidad de que los 12 pozos que se perforen sean productivos? b) ¿Cuál es la probabilidad de que ningún pozo perforado sea productivo? c) ¿Cuál es la probabilidad de que exactamente un pozo sea productivo? d) Para hacer rentable al país, cuando menos tres de los pozos de exploración deben ser productivos. Siendo así, ¿cuál es la probabilidad de que el negocio sea rentable? Solución: Sea X la variable aleatoria que indica el número de pozos productivos de los 12 pozos perforados, entonces X es una variable aleatoria binomial con parámetros n 5 12 y p 5 0.15, entonces: a) P(X 5 12) 5 1.297(10210) b) P(X 5 0) 5 0.1422 c) P(X 5 1) 5 0.3012 d) P(X $ 3) 5 1 2 P(X # 2) 5 1 2 0.7358 5 0.2642

112

| Estadística para ingeniería y ciencias

Ejemplo 3.30. Un fabricante de precipitadores electrostáticos afirma que 6% de los equipos que fabrica para controlar las partículas contaminantes del aire están defectuosos. Si esta afirmación es correcta y se toma una muestra aleatoria de 10 aparatos, encontrar la probabilidad de que: a) Exactamente dos aparatos estén defectuosos. b) Cuando menos dos aparatos estén defectuosos. c) Menos que un aparato esté defectuoso. d) Entre 2 y 5 estén defectuosos (incluyendo los extremos y sin incluirlos). e) P(S). f ) Graficar la función de densidad P(X = x) y la función de distribución P(X ≤ x). Solución: Sea X 5 número de aparatos defectuosos contenidos en la muestra, entonces X es variable aleatoria binomial con parámetros n 5 10 y p 5 0.06, entonces se pueden utilizar los valores de la tabla binomial, a) P(X 5 2) 5 P(X # 2) 2 P(X # 1) 5 0.0988 b) P(X $ 2) 5 1 2 P(X # 1) 5 1 2 0.8824 5 0.1176 c) P(X , 1) 5 P(X 5 0) 5 0.5386

d) P(2 # X # 5) 5 P(X # 5) 2 P(X # 1) 5 0.1176

e) P(2 , X , 5) 5 P(X # 4) 2 P(X # 2) 5 0.0187 f ) P(S) 5 1 g) La siguiente figura muestra la función de distribución acumulada a) y de densidad de X b). a)

b)

Figura mostrando gráfica P(X 5variable x) versus variable Figura mostrando gráfica P(X 5variable x) versus variable Figura mostrando la gráfica delaP(X 5 x)de versus aleatoria x aleatoria Figurax mostrando la gráfica delaP(X 5 x)de versus aleatoria x aleatoria x 1.0

1.0

0.9

0.9

0.8

0.8

0.7

0.7

0.6

0.6

0

1 0

2 1 3 2 4 3 5 4 Variable Variable aleatoria x aleatoria x

6 5

6

2 1

3 2

4 3

5 4

6 5

6

0.6

0.6

0.6

0.5

0.5

0.5

0.5

0.4

0.4

0.4

0.4

0.3

0.3

0.3

0.3

0.2

0.2

0.2

0.2

0.1

0.1

0.1

0.1

0

Figura 3.11.

0.0

0.0

0.0

0.0

0.5

0.5

1 0

0 0.6

1 0

2 1 3 2 4 3 5 4 Variable Variable aleatoria x aleatoria x

6 5

6

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 113

Ejemplo 3.31. Teóricamente, cierta forma de desnutrición ocurre en 15% de personas sin que se den cuenta. Este tipo de desnutrición no se debe a que no se coma lo suficiente, sino a situaciones en que el cuerpo no asimila los nutrientes, sin importar cuánto o cómo se alimente. Esto se debe a la alteración química de la sangre por vida antinatural. Siendo así, determinar las siguientes probabilidades para una muestra de 5 personas. a) Ninguna persona la tiene. b) Cuando menos 2 personas la tienen. c) Entre 2 y 4 la tienen, inclusivamente. Solución: La variable X que indica el número de personas con el problema de desnutrición en la muestra es binomial con parámetros n 5 5 y p 5 0.15, entonces a) P(X 5 0) 5 0.59049 b) P(X $ 2) 5 1 2 0.91854 5 0.08146 c) P(2 # X # 4) 5 0.99999 2 0.91854 5 0.08145 Nota: se le pide a usted que use el programa Minitab o el programa Excel para resolver los ejemplos anteriores y comparar los resultados.

3.7 Función de distribución acumulada binomial negativa 3.7.1 Definición y propiedades Como ya se vio, la variable aleatoria binomial indica el número de éxitos en n experimentos Bernoulli independientes, el número de ensayos Bernoulli es fijo y el número de éxitos en la muestra es la variable. En la variable binomial negativa se requiere tener un número de éxitos fijado de antemano y el número de experimentos Bernoulli independientes necesarios para obtener ese número de éxitos es la variable. Por ejemplo, supóngase que se lanza sucesivamente una moneda y se detiene cuando sale la quinta águila. En este caso, no se sabe cuántos volados deben ser lanzados, se sabe que el mínimo número de volados que deben realizarse es 5; si X indica el número de volados que se deben lanzar, el recorrido de X es: X 5 5, 6, 7, 8, . . . Definición 3.25. La variable aleatoria X que indica el número de experimentos Bernoulli iguales e independientes que son necesarios realizar para obtener k-éxitos se llama variable aleatoria binomial negativa. El recorrido de la variable aleatoria binomial negativa es infinito e igual a X 5 k, k 1 1, k 1 2, k 1 3, k 1 4, . . .

114

| Estadística para ingeniería y ciencias

Teorema 3.16. La función de densidad de la variable aleatoria binomial negativa es: ¯² C pk q x2k si x 5 k, k 11, k 1 2, . . . f ( x) 5 ° x21 k21 0 en otro caso ±²

(3.30)

Demostración: Suponga que X 5 x, esto significa que en los primeros x 2 1 experimentos Bernoullis independientes ya ocurrieron k 2 1 éxitos, y en el experimento número x ocurrió el éxito número k y ahí se detiene el proceso, esto es:

P(X 5 x) 5 P(en x 2 1 experimentos ocurren k 2 1 éxito, y hay un éxito en el experimento x) 5 P(en x 2 1 experimentos ocurren k 2 1 éxito) P (hay un éxito en el experimento x) 5 x–1Ck21 pk–1qx2k p 5 b(k21; x21, p) p 5 x21Ck21 pkqx2k Teorema 3.17. La media, la varianza y la función generatriz de momentos de la distribución binomial negativa es igual a:  µ 5

k p

 σ 2 5

kq p2

 pet   MX (t )5    1 2 qet 

k

Demostración: Para calcular la media, la varianza y la función generatriz de momentos se utiliza la relación que se deriva de la segunda propiedad de las funciones de densidad: ∞

( x 21)!

∑ (k 21)!( x 2 k )! p

k

(1 2 p) x2k 51

x5k

para toda k . 0 y 0 , p , 1. a) µ 5 E(X) 5

∞

∑ xf ( x)

x5k ∞

x( x 21)! pk (1 2 p) x2k x5k ( k 2 1)!( x 2 k )!

5∑ 5

k ∞ x! pk11 (1 2 p) x2k ∑ p x5k k !( x 2 k )!

haciendo la sustitución x 5 x* 2 1 y k 5 k*2 1:

Capítulo 3 Funciones de distribución de variables aleatorias discretas

5

( x * 21)! k k ∞ pk* (1 2 p) x*2k* 5 (1) ∑ p p x*5k* (k * 21)!( x * 2 k*)!

5

k p

| 115

b) Para la varianza primero se calcula E(X(X11)) 5 E(X2) 1 E(X ), y luego con este resultado, se calcula V(X ) 5 E(X2) 2 (E(X ))2 5 E(X(X 1 1)) 2 E(X ) 2 (E(X ))2 c) E(X(X 1 1)) 5

∞

∑ x( x 11) f ( x)

x5k ∞

x( x 1 1)( x 2 1)! k p (1 2 p) x2k ( k 1 )!( x k )! 2 2 x5k

5∑

5

k(k 11) p

2

∞

( x 11)!

∑ (k 11)!( x 2 k )! p

k 12

(1 2 p) x2k

x5k

haciendo la sustitución: x 1 1 5 x* 2 1 y k 1 1 5 k*2 1 5

5

k(k 11) p

2

∞

( x * 21)!

∑ (k * 21)!( x * 2 k*)! p

k*

(1 2 p) x*2k*

x*5k*

k(k 1 1) p2

La varianza de X es: σ2 5 V(X) 5 E(X(X 1 1)) 2 E(X) 2 (E(X))2

5

d) MX(t ) 5 E(e tX) 5

∞

∑e

f ( x)

∞

etx ( x 21)! pk (1 2 p) x2k x5k ( k 2 1)!( x 2 k )!

5∑

5

5

5

p2

k k 2 kq 2 2 25 2 p p p

x5k

tx

k(k 11)

pk qk

∞

( x 21)!

∑ (k 21)!( x 2 k )! (e q) t

x

x5k

pk etk (1 2 et q)k pk etk (1 2 et q)k

∞

( x 21)!

∑ (k 21)!( x 2 k )! (1 2 e q)

x5k

t

k

(et q) x2k

116

| Estadística para ingeniería y ciencias Tabla 3.12. Resumen

Variable aleatoria binomial negativa

Función de densidad

f (x) 5 x21Ck−21 pkqx2k si x 5 k, k 1 1, . . . f (x) 5 0 en otro caso

Media

µ 5 k/p

Varianza

σ2 5 kq/p2

Función generatriz de momentos

MX(t ) 5

pk etk ( 12 et q ) k

3.7.2 Relación de las funciones de densidad binomial negativa y binomial Si X es binomial negativa con parámetros k y p, entonces: P( X 5 x) 5 b(k 21; x 21, p) p

(3.31)

Esta relación permite obtener los valores de la probabilidad de la binomial negativa, utilizando los cálculos de la probabilidad binomial. Ejemplo 3.32. Se sabe que 10% de los empleados de una industria padecen de una enfermedad degenerativa. Para el estudio de la enfermedad, se requiere de 3 pacientes que tengan la enfermedad por lo que se analiza sucesivamente al azar a los empleados de la industria hasta tener a los 3 pacientes que den positivo en los análisis. Encontrar la probabilidad de que: a) Se tenga que analizar exactamente 5 empleados para tener a los 3 con la enfermedad. b) Se tengan que hacer más de 7 análisis. c) Se tengan que hacer exactamente 3 análisis. Solución: Considerar que X es la variable aleatoria que indica el número de análisis que es necesario hacer para encontrar los tres positivos, entonces X se distribuye de acuerdo con una binomial negativa con parámetros k 5 3 y p 5 0.10: a) P(X 5 5) 5 b(k21; x21, p) p 5 b(2; 4, 0.10) (0.10) 5 (0.0486)(0.10) 5 0.00486

b) P(X . 7) 5 1 2 P(X # 7) 5 1 2 (b(2; 2, 0.10) 1 b(2; 3, 0.10) 1 b(2; 4, 0.10) 1 b(2; 5, 0.10) 1 b(2; 6, 0.10))p 5 1 2 0.02569 5 0.97431 c) P(X 5 3) 5 b(2; 2, 0.10) 5 0.001

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 117

Las siguientes gráficas muestran las funciones de distribución acumulada binomial negativas considerando diferentes valores de p y k, observe cómo la probabilidad se concentra hacia el 0. BinomialBinomial negativa;negativa; p 5 0.3,pk550.3, 3 k53 0.12

0.12

0.25

0.25

0.01

0.01

0.02

0.01

0.01

0.02

0.015 0.015

0.005 0.005 0

0.08 0.06

0.08 0.06

0.04

0.04

0.02

0.02

0

0

Probabilidad

0.03

Probabilidad

0.03

Probabilidad

Probabilidad

BinomialBinomial negativa;negativa; p 5 0.1,pk550.1, 3 k53

3

6

0

9 3

12 18 15 21 18 24 21 24 6 15 9 12

1 6 1111662111 2616 3121 3626 4131 4651 564651 56 36 41 Número de experimentos Número de experimentos

Media 5 30

Número de experimentos Número de experimentos

Media 5 10

Figura 3.12.

3.7.3 Cálculo de la distribución binomial negativa usando Excel Las instrucciones para elaborar una tabla de la función de densidad y la función de distribución de la variable aleatoria binomial negativa con parámetros k 5 3 y p 5 0.4 son los siguientes: 1. Escriba en una columna los primeros valores del recorrido de X (3, 4, 5, 6, 7, 8, 9, 10, 11 y 12). 2. Coloque el cursor en la celda frente al número 3. 3. Escriba 50.4*. 4. Seleccione luego el icono de función fx y elija las funciones Estadísticas. 5. Seleccione la función DISTR.BINOM. 6. Escriba 2 en Núm_éxito; en Ensayos anote la ubicación de la celda en que está el tres, menos 1: por ejemplo: A2-1, en Prob_éxito 0.4 y en Acumulado 0, haga clic en Aceptar. Véase la figura 3.14. 7. Coloque el cursor en la esquina inferior derecha de la celda hasta que aparece una crucecita delgada y oprimiendo el botón izquierdo del ratón arrástrelo hasta la celda B11.

Figura 3.13.

118

| Estadística para ingeniería y ciencias

Figura 3.14.

8. Coloque el cursor ahora dos celdas enfrente del número 3 y escriba el signo 5 y la ubicación de la celda donde está la probabilidad de X 5 3; en este caso es B2 y queda así 5 B2. Después, teclee Intro. 9. Ahora, en la celda de abajo escriba el signo 5 y la suma de la localización de la celda de arriba y la celda de la izquierda, en este caso queda como 5 C2 1 B3 10. Colóquese en la esquina inferior derecha de la misma celda y con el botón izquierdo del ratón oprimido arrastre el cursor hasta el renglón donde está el número 12.

Figura 3.15.

El resultado es la tabla con la densidad y distribución de la binomial negativa. Tabla 3.13. X

Densidad

Distribución

3

0.064

0.064

4

0.1152

0.1792

5

0.13824

0.31744

6

0.13824

0.45568

7

0.124416

0.580096

8

0.10450944

0.68460544

9

0.08360755

0.76821299

10

0.06449725

0.83271025

11

0.04837294

0.88108319

12

0.03547349

0.91655668

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 119

En esta tabla la función de distribución acumulada no llega a 1 porque sólo se graficaron los primeros 12 valores para X.

3.8 Función de distribución geométrica Definición 3.26. La variable aleatoria que indica el número de experimentos Bernoulli independientes que se deben realizar para encontrar el primer experimento exitoso se llama variable aleatoria geométrica.

Teorema 3.18. La función de densidad de la variable aleatoria geométrica es igual a: ²¯ pq x21 si x 51, 2, 3, . . . f ( x) 5 ° en otro caso ±² 0

(3.32)

Demostración: Observe que la variable aleatoria geométrica es una variable binomial negativa con parámetros k 5 1 y p, entonces: P(X 5 x) 5 b(0; x21, p)p 5

( x 21)! 0 x21 p q p 5 pq x21 0!( x 21)!

Teorema 3.19. La media, la varianza y la función generatriz de momentos de la distribución binomial negativa es igual a:  µ 5

1 p

 σ 2 5

q p2

 MX (t )5

pet 1 2 qet

Demostración: Es suficiente sustituir k 5 1, en la media, varianza y función generatriz de momentos de la función de densidad binomial negativa. Tabla 3.14. Resumen

Variable aleatoria geométrica

Función de densidad

f (x) 5 pqx21 si x 5 1, 2, 3, . . . f (x) 5 0 en otro caso

Media

µ 5 1/p

Varianza

σ2 5 q/p2

Función generatriz de momentos

MX(t ) 5

pe t ( 12 et q )

| Estadística para ingeniería y ciencias

120

3.9 Función de distribución hipergeométrica 3.9.1 Definición y propiedades Definición 3.27. Supóngase que se tiene una población de tamaño N cuyos elementos son de dos clases: unos elementos tienen una característica de interés y otros elementos no la tienen. Entonces M elementos tienen la característica de interés y N–M no la tienen, y para utilizar la misma nomenclatura ya vista se dirá que es éxito si el elemento elegido presenta la característica de interés y fracaso si no la tiene. Si de esa población se elige una muestra al azar sin reemplazo, la variable X que indica el número de éxitos en la muestra se llama hipergeométrica.

Teorema 3.20. Si X es una variable aleatoria hipergeométrica, entonces su función de densidad es: « M C x ( N 2M ) C n2x ® f ( x) 5 ¬ Cn N ® 0

si máx {0, n 2 N 1 M} # x # mín{n, M} en otro caso

Demostración: El espacio muestral de este experimento es equiprobable, por lo que para calcular la probabilidad de la variable aleatoria X, se cuentan los elementos del espacio muestral y los elementos con el valor X especificado. El total de maneras en que se pueden escoger n elementos de un total de N elementos es igual a las combinaciones de N en n, esto es #S 5 NCn. El total de formas de tener x éxitos de un conjunto total de M éxitos, es igual a las combinaciones de M en x, esto es MCx, y el total de maneras de tener n–x éxitos de N–M éxitos son las combinaciones de N–M en n–x, esto es, N–MCn–x y por la regla de la multiplicación, el total de maneras de tener x éxitos y n–x fracasos es igual al producto de estos dos números MCx N–MCn–x. En resumen: Cn Representa la cantidad de formas en las que se puede seleccionar una muestra de tamaño n de una población de tamaño N.

N

Cx Representa la cantidad de maneras en las que se puede seleccionar x éxitos de un total de k éxitos de la población.

M

Cn–x Representa la cantidad de maneras en las que se puede seleccionar n2x fracasos de un total de N2M fracasos en la población.

N–M

Ahora, para determinar el recorrido de x, basta con ver que la expresión rCk, r y k satisfaga la relación 0 # k # r, entonces de la expresión MCx N2MCn2x se sigue que 0#x#M y 0#n2x#N2M

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 121

Estas desigualdades equivalen a: 0#x#M

n2N1M#x#n

y

De aquí se sigue que: máx{0, n 2 N 1 M} # x # mín{M, n} Teorema 3.21. Si X es una variable aleatoria hipergeométrica, entonces su media y su varianza son:  µ 5

Mn N

 σ 2 5

Mn( N 2 M )( N 2 n) 2

N ( N 21)

5n

M M   N 2n 12    N N   N 21 

(3.34)

Demostración: Se utiliza la segunda propiedad de las funciones de densidad para cualquiera de los valores factibles de N, M y n.

∑ f ( x) 5 ∑ x

 ∑ x f ( x) 5 x

M

x

C x N 2M C n2x N

Cn

51

xMCxN 2M C n2x N

Cn

En el numerador se tiene que: xM C x 5

( M 21)! xM ! M! 5 MM21 C x21 5 5M x!( M 2 x)! ( x 21)!( M 2 x)! ( x 21))!( M 2 x)!

y en el denominador: N

Cn 5

N C ( N 21)! N! N 5 5 N 21 n21 n n!( N 2 n)! n ( n 2 1)!( N 2 n)

Si se hace el cambio de variable M*5 M 2 1, n* 5 n 2 1, N*5 N 2 1 y x* 5 x 2 1, se tiene que: µ 5∑

xM C x N 2M C n2x N

Cn

5

Mn M* C x* N * 2M* C n* 2x* Mn 5 ∑ C n* N N x N*

 Para calcular la varianza, primero se encuentra E(X(X 2 1)) 5 E(X2) 2 E(X ) y luego se calcula el término σ2 5 E(X(X 2 1)) 1 E(X ) 2 (E(X ))2. E( X ( X 21)) 5 ∑ x

x( x 21)M C x N 2M C n2x N

Cn

122

| Estadística para ingeniería y ciencias En el numerador se tiene que: x( x 21)M C x 5

x( x 21)M ! M! 5 x!( M 2 x)! ( x 2 2)!( M 2 x)!

5 M ( M 21)

( M 2 2)! 5 M( M 21)M22 C x22 ( x 2 2)!( M 2 x)!

y en el denominador: N

Cn 5

N ( N 21)N 22 C n22 N ( N 21) ( N 2 2)! N! 5 5 n( n 21) n!( N 2 n)! n( n 2 1) ( n 2 2)!( N 2 n)

Si se hace el cambio de variable M* 5 M 2 2, n* 5 n 2 2, N* 5 N 2 2 y x* 5 x 2 2, se tiene que: E( X ( X 21)) 5 ∑

E( X ( X 2 1)) 5

x( x 21)M C x N 2M C n2x N

Cn

5

M( M 21)n( n 21) M* C x* N * 2M* C n* 2x* ∑ N ( N 21) C n* x N*

M ( M 21)n( n 21) N ( N 21)

De esta manera: σ2 5

M ( M 21)n( n 21) Mn M 2 n2 M( N 2 M )( N 2 n) 1 2 5 N ( N 21) N N2 N 2 ( N 21) Tabla 3.15.

Resumen

Variable aleatoria hipergeométrica f (x) 5

M

C x( N 2M ) C n2x N

Función de densidad

Cn

si x 5 máx{0, n − N 1 M}, . . . , mín{n, M} f (x) 5 0 en otro caso Media

µ 5 nM/N

Varianza

σ2 5 nM(N 2 M)(N 2 n)/N2(N 2 1) No tiene una expresión analítica simple

Función generatriz de momentos

La función de densidad hipergeométrica se denota como h(x; N, n, M) y la distribución hipergeometrica como H(x; N, n, M).

3.9.2 Relación entre las distribuciones hipergeométrica y binomial Observe que la distribución hipergeométrica se puede escribir de la siguiente manera: C x N 2M C n2x M N

Cn

( N 2 M )! M! x!( M 2 x)! ( n 2 x)!( N 2 M 2 n 1 x) 5 N! n!( N 2 n)!

| 123

Capítulo 3 Funciones de distribución de variables aleatorias discretas

5

M ( M 21) … ( M 2 x 11)( N 2 M )( N 2 M 21) … ( N 2 M 2 n 1 x 11) n! x!( n 2 x)! N ( N 21)( N 2 2) … ( N 2 n 11)

5

n! M ( M 21) ( M 2 x 11) ( N 2 M ) ( N 2 M 21) ( N 2 M 2 n 1 x 11) … … ( N 2 n 11) x!( n 2 x)! N ( N 21) ( N 2 x 11) ( N 2 x) ( N 2 x 21)

Y cuando N es suficientemente grande con respecto a n, se tiene que: •

M 2i M i M cuando 1 # i # x 21 , n y 5 2 ≈ N 2i N 2i N 2i N

•

N 2M 2 j M1 j N M 5 2 ≈ 12 cuando 0 # j # n 2 x 21 o x # x 1 j # n 21 N 2x2 j N 2x2 j N 2x2 j N

lo que implica que: M

C x N 2M C n2x N

Cn

x

z

¥ M´ ¥ n! M´ 12 µ ¦ µ ¦ x!( n 2 x)! § N ¶ § N¶

n2x

¥ M´ 5 b ¦x; n, µ N¶ §

Por esta razón, la media y la varianza de la distribución hipergeométrica se pueden aproximar mediante las fórmulas: n2x x M

C x N 2M C n2x N

Cn

z

cuando N es grande con respecto a n.

¥ M´ ¥ ¥ n! M´ M´ µ¦5 np 51 2 n µ 5 b ¦x; n, µ µ ¦ x!( n 2 x)! § N ¶ § N¶ N¶ § ¥ ´ ¥ ´ M M σ2 5 npq 5 n ¦ µ ¦ 1 2 µ N¶ §N¶ §

(3.35) (3.36)

3.9.3 Cálculos de la distribución hipergeométrica usando Excel Los cálculos para la distribución hipergeométrica con parámetros N 5 8, M 5 3, n 5 5, con Excel, se hacen con las instrucciones siguientes: a) Escriba en una columna los 4 datos del recorrido (0, 1, 2, y 3). b) Colóquese en la celda frente al 0. c) Haga clic en el asistente de función, fx ; luego en las funciones estadísticas seleccione DISTR.HIPERGEOM y llene los datos de la siguiente manera: en Muestra_éxito escriba la celda donde está el 0 (por ejemplo, A2), en Núm_de_muestra escriba 5, en Población_éxito escriba 3, en Núm_de_población escriba 8 y luego arrastre el ratón para obtener los restantes cálculos. Con estas instrucciones se obtiene la tabla de probabilidades y con estas probabilidades se puede elaborar la gráfica.

Densidad hipergeométrica, N 5 8, M 5 3 y n 5 5 0.60000 0.50000 0.40000

X

h(x; 8, 3)

0.30000

0

0.01786

0.20000

1

0.26786

2

0.53571

3

0.17857

Figura 3.16.

0.10000 0.00000 0

1

2 Probabilidad

3

124

| Estadística para ingeniería y ciencias

Las probabilidades acumuladas se calculan de la misma manera que se hizo la probabilidad acumulada de la variable aleatoria binomial negativa.

3.9.4 Cálculos de la distribución hipergeométrica usando el Minitab 1. Ubíquese en Calc → Probability Distributions → Hypergeometric. 2. Se abre la ventana Hypergeometric Distribution y haga clic en Cummulative Probability y/o Probability. 3. En la ventanilla Population size (N) ponga N, el número de éxitos (k) en la población. 4. En la ventanilla de Simple Size (n) indique el tamaño de muestra (n). 5. En la ventanilla de Input columns ingrese la columna de datos que se quieran evaluar. Igualmente, en Optional Storage ponga la columna donde se almacenen los valores generados. Haga clic en OK y se obtiene la tabla de valores. Igualmente, para hacer gráficas de los valores generados, proceda como en el caso de la distribución binomial. Ejemplo 3.33. Una población de 10 medidores de pH (que determinan la acidez y alcalinidad de soluciones químicas) tiene cuatro unidades defectuosas (éxitos arbitrariamente). Si una muestra de tres medidores se selecciona de manera aleatoria, sin reemplazo, hacer lo siguiente: a) Una tabla que incluya los valores de la variable aleatoria hipergeométrica X con los valores correspondientes de las probabilidades acumuladas y las probabilidades de que X sea menor que un valor especificado de x (P(X , x)). b) La probabilidad de que un aparato de pH está defectuoso. c) La probabilidad de que dos aparatos estén defectuosos. d) La probabilidad de que tres aparatos estén defectuosos de la muestra seleccionada. e) La probabilidad de que a lo más dos estén defectuosos. f) La probabilidad de que entre uno y tres medidores, inclusive, estén defectuosos. g) Hacer gráficas para las probabilidades generadas. Solución: Aquí, N 5 10, k 5 4, n 5 3, X 5 0, 1, 2, 3. a) La siguiente tabla muestra los resultados requeridos. Tabla 3.16. Variante aleatoria hipergeométrica X 0

Probabilidad acumulada 0.16667

P(X = x) 0.166667

1

0.66667

0.5

2

.96667

0.3

3

1

0.03333

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 125

Con los cálculos computarizados de la tabla generada por Minitab, los resultados se simplifican: b) P(X 5 1) 5 0.5000 (de la tabla anterior columna 2) c) P(X 5 2) 5 0.3000 d) P(X 5 3) 5 0.0333 e) P(X # 2) 5 0.9667 f ) P(1 # X # 3) 5 (1 2 0.16667) 5 (0.5000 1 0.3000 1 0.0333) 5 0.8333 Comprobar los resultados de los siguientes ejemplos usando Minitab o Excel y comparar los resultados. Ejemplo 3.34. Un comité de tamaño 5 es seleccionado aleatoriamente, de entre 3 químicos y 5 físicos. Registrar en una tabla los valores de la función de densidad de X 5 número de químicos en el comité. Solución: Aquí, N 5 8, M 5 3 (los químicos) y n 5 5, el comité es un subconjunto de las ocho personas disponibles, por lo que la distribución de X es una hipergeométrica con parámetro N 5 8 y M 5 3, éstos son: f ( x)5 3

C x 5 C 52x 8

C5

con x 5 0, 1, 2, 3

La tabla de probabilidades se pueden elaborar con una calculadora de bolsillo, pues los cálculos no son laboriosos. Sustituyendo a x en la fórmula, se tiene que: P(X 5 0) 5 h(0; 8, 5, 3) 5 3C0 • 5C5/8C5 5 (1)(1)/56 5 1/56 5 0.018 P(X 5 1) 5 h(1; 8, 5, 3) 5 3C1 • 5C4/8C5 5 (3)(5)/56 5 15/56 5 0.268 P(X 5 2) 5 h(2; 8, 5, 3) 5 3C2 • 5C3/8C5 5 (3)(10)/56 5 30/56 5 0.536 P(X 5 3) 5 h(3; 8, 5, 3) 5 3C3 • 5C2/8C5 5 (1)(10)/56 5 10/56 5 0.179 Recorrido de X

0

1

2

3

h(x; 8, 3)

0.018

0.268

0.536

0.179

Ejemplo 3.35. Refiriéndose al problema anterior, calcular las siguientes probabilidades: a) La probabilidad de que, exactamente, 1 químico sea seleccionado. b) La probabilidad de que, cuando menos 1 químico sea seleccionado. c) La probabilidad de que, entre 1 y 3 (inclusive) químicos sean seleccionados. Solución: Con los datos de la distribución hipergeométrica obtenidos en el problema anterior, se tiene que

126

| Estadística para ingeniería y ciencias a) P(X 5 1) 5 0.268 b) P(X $ 1) 5 1 2 P(X 5 0) 5 1 2 0.018 5 0.982

c) P(1 # X # 3) 5 P(X 5 1) 1 P(X 5 2) 1 P(X 5 3) 5 (0.268) 1 (0.536) 1 (0.179) 5 0.983 Ejemplo 3.36. Un embarque de 20 computadoras contiene cinco que están defectuosas. Si 10 de estas computadoras se seleccionan aleatoriamente, para su inspección, ¿cuál es la probabilidad de que 2 de las 10 estén defectuosas? Solución: La variable X que indica el número de computadoras defectuosas que hay entre las 10 seleccionadas para su inspección es una variable aleatoria hipergeométrica con parámetros n 5 10, M 5 5 y N 5 20 y se pide la probabilidad que X 5 2. Ahora, sustituyendo estos valores en la fórmula hipergeométrica se obtiene: P(X 5 2) 5 h(2; 20, 10, 5) 5 5C2 • 15C8/20C10 5 (10)(6435)/184 756 5 0.348 Ejemplo 3.37. Con ayuda del ejemplo anterior resolver el problema. Si un lote de 100 computadoras tiene 25 defectuosas: a) Usar la fórmula hipergeométrica. b) Con la fórmula binomial obtener una aproximación de la distribución hipergeométrica. Solución: a) Sustituyendo x 5 2, n 5 10, k 5 25, N 5 100 en la fórmula da: P(X 5 2) 5 h(2; 100, 10, 25) 5 25C2 • 75C8/100C10

5 (300)(1.687×1010)/1.731×1013

5 0.292 b) Si considera que N 5 100 y que es grande con relación a n 5 10; entonces, se puede usar la fórmula binomial como una aproximación a la hipergeométrica; en este caso se utiliza como parámetros de la binomial n 5 10, p 5 k/N 5 25/100 5 0.25. P(X 5 2) 5 B(2; 10, 0.25) 5 10C2 (0.25)2 (0.75)8

5 (45)(0.0625)(0.100) 5 0.2813 Nota: obsérvese que la diferencia entre los dos valores es de sólo 0.01. En general, es posible usar la distribución binomial como una aproximación a la distribución hipergeométrica, si n , N/10. Ejemplo 3.38. Una población de 10 medidores de pH (que miden la acidez y la alcalinidad de soluciones químicas) contiene 4 unidades defectuosas. Si una muestra de 3 medidores se selecciona al azar, sin reemplazo, encontrar las siguientes probabilidades:

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 127

a) Exactamente 1 aparato de pH esté defectuoso. b) Dos aparatos estén defectuosos. c) Tres aparatos de pH estén defectuosos de la muestra seleccionada. d) A lo más 2 aparatos estén defectuosos. Solución: Dado que los elementos de la muestra se seleccionan sin reemplazo, se tiene que la variable X que indica el número de unidades defectuosas en la muestra es una variable aleatoria hipergeométrica con parámetros N 5 10, M 5 4 y n 5 3; entonces, aplicando la fórmula binominal realizar los cálculos. a) P(X 5 1) 5 4C1 • 6C2/10C3 5 0.500 b) P(X 5 2) 5 4C2 • 6C1/10C3 5 0.300 c) P(X 5 3) 5 4C3 • 6C0/10C3 5 0.033 d) P(X # 2) 5 0.5000 1 0.1667 1 0.3000 5 0.9667 Ejemplo 3.39. Una encuesta universitaria hecha a 24 estudiantes del último año reveló que 12 de ellos recomiendan tomarse cuando menos una o dos cervezas diariamente para estudiar mejor. Si se seleccionan de manera aleatoria 11 de estos estudiantes, ¿cuál es la probabilidad de que 4 estudiantes en la muestra tengan esta opinión? Solución: La variable X que indica el número de estudiantes en la muestra que piensan que tomarse cuando menos una o dos cervezas diariamente para estudiar mejor es una variable aleatoria hipergeométrica con parámetros N 5 24, n 5 11, M 5 12, entonces, X 5 4 y sustituyendo los valores en la fórmula hipergeométrica: P(X 5 4) 5 h(4; 24, 11, 12) 5 12C4 • 24−12C11−4/24C11

5 (495)(792)/2 496 144

5 0.26

3.10 Función de distribución Poisson 3.10.1 Definición y propiedades La variable aleatoria Poisson indica el número de éxitos que ocurren en un intervalo de tiempo, de área, de volumen, etc. La distribución de Poisson es una aproximación de la binomial para n grande y probabilidad p muy pequeña, porque así es como se define y determina el tipo de problemas que resuelve. Ejemplos de una variable aleatoria de Poisson son: el número de partículas que emite un material radiactivo en un minuto, el número de huevos que pone una mariposa en una hoja o el número de accidentes automovilísticos en una ciudad durante un año.

128

| Estadística para ingeniería y ciencias

El experimento Poisson satisface las siguientes propiedades: a) El número de éxitos que ocurren en cualquier intervalo es independiente del número de éxitos que suceden en cualquier otro intervalo. b) La probabilidad de que un éxito ocurra en un intervalo es la misma para todos los intervalos de tamaños iguales y es proporcional al tamaño del intervalo. c) La probabilidad de que dos o más éxitos ocurran en un intervalo se aproxima a cero, a medida que el intervalo se hace más pequeño. Teorema 3.22. Sea X una variable aleatoria Poisson, entonces la función de densidad de X es:

¯ Q x e2Q ² f ( x) 5 ° x! ² 0 ±

si x 5 0, 1, 2, 3, . . .

(3.37)

en otro caso

Demostración: Si X es variable aleatoria Poisson, entonces se satisfacen las tres propiedades enlistadas en el subtema 3.10.1. Represente el intervalo de interés con el intervalo [0, 1], y considere los subintervalos de longitud igual a 1/n, cuya unión es igual a [0, 1]  ( n 21) 

[0, 1/n], [1/n, 2/n], [2/n, 3/n], [3/n, 4/n], . . . ,    n, 1  Sea Xi la variable que indica el número de éxitos que ocurren en el intervalo [(i 2 1)/n, i/n], de esta manera la variable aleatoria Poisson X que indica el número de éxitos en el intervalo [0, 1] es igual a: X 5 X 1 1 X 2 1…1 X n

Por otro lado, sea pn 5 P ( X i 51) , entonces 1 2 pn 5 P ( X i 5 0) 1 P ( X i $ 2) y por la propiedad 2 de los experimentos Poisson esta probabilidad es proporcional al tamaño del intervalo y si λ es la constante de proporcionalidad pn 5λ / n . Las variable aleatoria Yi dada por: ²¯1 si X i 51 Yi 5 ° ²±0 si X i 5 0 o X i $ 2

son Bernoulli independientes, con p 5 pn , por lo que Y 5Y1 1Y2 1…1Yn es una variable aleatoria binomial con parámetros n y p 5 pn , y por la propiedad 3 de los experimentos Poisson se sigue que lím P ( X i $ 2) 5 0 lo que implica que Y → X cuando n→ ∞ y en consecuencia la función de densin→∞ dad de Y fn, converge a la función de densidad de X cuando n va a infinito, esto es lím fn 5 fX . nmd

Entonces, para encontrar la función de densidad Poisson se debe encontrar fn y luego calcular su límite cuando n va a infinito.

fn ( x) 5 b( x; n, pn ) 5

5

n! p x q n2x x!( n 2 x)! n n [ npn ][( n 21) pn ][( n 2 2) pn ] …[( n 2 x 11) pn ] x!

(1 2 pn )n2x

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 129

y sustituyendo a pn por λ / n , en esta última expresión, se sigue que fn ( x ) 5

λ x [( n 21) / n][( n 2 2) / n] … [( n 2 x 11) / n]  λ  1 2 n  x!

n2x

de aquí, se sigue que llím fn ( x) 5 fX ( x) 5 xmd

L x e 2L x!

Algunos procesos que se describen con variables aleatorias Poisson a) El número de tóxicos emitido por una industria (contaminación atmosférica) encontrados en un volumen de aire. b) El número de tempestades, ciclones, tornados, granizadas, inundaciones, fuegos forestales, etc., en cierta región del mundo durante un año. c) El número de bacterias en un plato de prueba. d) El número de partículas emitidas por una sustancia radiactiva, como partículas alfa, beta o gamma durante un minuto. e) El número de ítems defectuosos de la producción total de un día. f ) El número de accidentes entre los trabajadores en una industria. g) Las demandas de un producto o las demandas de servicios. h) El número de reclamos por accidentes de autos, en una compañía de seguros durante un periodo de tiempo. i) El número de accidentes en un determinado tramo carretero durante 3 meses. j) El número de defectos sobre la superficie de una mesa. k) El número de errores de imprenta de un libro, etc.

Teorema 3.23. Si X es la variable aleatoria Poisson, entonces la media, la varianza y la función generatriz de momentos de X son:  µ 5 λ  σ2 5 λ  MX(t ) 5 e2λ 1λetx Demostración: Para la demostración se utiliza: ∞

xi i51 i !

ex 5∑

130

| Estadística para ingeniería y ciencias xλ x e2λ x! x50

∞

∞

 La media es µ 5 ∑ xf ( x) 5 ∑ x50

*

∞ λ x e2λ λx 5 λe2λ ∑ * x51 ( x − 1)! x* 50 x ! ∞

5∑

sustituyendo a x 5 x* 1 1, se obtiene: 5 λe2λ e λ 5 λ

 Para calcular la varianza primero se encuentra E(X(X 2 1)) 5 E(X 2) 2 E(X) y luego se obtiene σ2 5 E(X(X 2 1)) 1 E(X) 2 [E(X)]2 x( x 21)λ x e2λ x! x50

∞

∞

E( X ( X 21)) 5 ∑ x( x 21) f ( x) 5 ∑

x50

*

∞ λ x e2λ λx 5 λ 2 e2λ ∑ * x52 ( x 2 2 )! x* 50 x ! ∞

5∑

sustituyendo a x 5 x* 1 2, se obtiene:

5 λ 2 e2λ e λ 5 λ2

Ahora si, se calcula la varianza de X:

σ2 5 λ2 1 λ 2 λ2 5 λ etX λ x e2λ x! x50

∞

∞

MX(t ) 5 E(etX ) 5 ∑ etX f ( x) 5 ∑ x50

(e t λ ) x x! x50 ∞

5 e2λ ∑

5 e2λ e λe 5 e2λ1λe

t

t

Tabla 3.17. Resumen

Función de densidad

Variable aleatoria Poisson F(x) 5

λ x e2λ si x 5 0, 1, 2, 3, . . . x!

f (x) 5 0 en otro caso Media

µ5λ

Varianza

σ2 5 λ

Función generatriz de momentos

MX(t) 5 e2λ 1λe

tx

Un resultado importante de la distribución Poisson es cuando se calcula la probabilidad de ocurrencia de los éxitos en intervalos de longitud igual a un múltiplo o en un submúltiplo del intervalo. Teorema 3.24. Sea X el número de éxitos en un intervalo de longitud a. X se distribuye de acuerdo con una Poisson con media igual a λ. Si Y indica el número de éxitos en un intervalo de longitud igual a ab; entonces, Y se distribuye según la ley Poisson con media igual a bλ.

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 131

Demostración: Es directa de la propiedad 2 de los experimentos Poisson.

Ejemplo 3.40. Si durante un mes el número de accidentes laborales en una factoría es una variable Poisson con media igual a λ 5 3, entonces: El número de accidentes laborales en una factoría durante dos meses es una variable Poisson con media igual que 2λ 5 6. El número de accidentes laborales en una factoría durante medio mes es una variable Poisson con media igual que λ/2 5 1.5.

3.10.2 Aproximación de la distribución binomial mediante la distribución Poisson La distribución binomial con parámetros p # 0.05 y n $ 20 se puede aproximar adecuadamente mediante una distribución Poisson con parámetro λ 5 np, este resultado es consecuencia de la demostración del teorema 3.22. En la siguiente tabla se muestra los valores de la distribución binomial con parámetros n 5 40 y p 5 0.05 y la distribución Poisson λ 5 np 5 2. Tabla 3.18. Distribución binomial

Distribución Poisson

Diferencia

P(X $ 1) 5 1 2 F (0) 5 1 2 0.1285 5 0.8715

P(X $ 1) 5 1 2 F (0) 5 1 2 0.1353 5 0.8641

0.0074

P(X # 2) 5 F (2) 5 0.67674

P(X # 2) 5 F (2) 5 0.67667

0.00007

P(X $ 3) 5 1 2 F (2) 5 1 2 0.67674 5 0.32326

P(X $ 3) 5 1 2 F (2) 5 1 2 0.67667 5 0.32333

0.00007

3.10.3 Cálculo de la distribución Poisson usando Excel Los cálculos para la distribución Poisson con parámetro λ 5 3, con Excel, se hacen con las instrucciones siguientes: 1. Escriba en una columna los primeros datos del recorrido, por lo menos 10. 2. Colóquese en la celda frente al 0. 3. Haga clic en el asistente de función, fx; luego en las funciones estadísticas seleccione POISSON y llene los datos de la siguiente manera: en X ponga la celda donde está el 0 (por ejemplo, A2), en Media escriba 3, en Acumulado escriba 0 (0 para la probabilidad puntual y 1 para la acumulada) y acepte. 4. Colóquese nuevamente en la misma celda y con el cursor del ratón posiciónese en la esquina inferior derecha hasta que aparezca la crucecita delgada, y oprimiendo el botón izquierdo del ratón arrástrelo para obtener los cálculos restantes.

132

| Estadística para ingeniería y ciencias

Con estas instrucciones se obtiene la tabla de probabilidades siguiente y con estas probabilidades se puede elaborar la gráfica de la densidad. X

Densidad

0

0.04978707

1

0.14936121

2

0.22404181

3

0.22404181

4

0.16803136

5

0.10081881

6

0.05040941

7

0.02160403

8

0.00810151

9

0.00270050

10

0.00081015

Distribución Poisson, media 5 3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 10 Número de éxitos

Figura 3.17.

3.10.4 Instrucciones para la distribución Poisson usando Minitab 1. Posiciónese en Calc → Probability distribution → Poisson 2. En la ventana Poisson Distribution haga clic en Cummulative probability y/o Probability. 3. En la ventanilla Mean ponga el valor del promedioλ. 4. En la ventanilla Input columns introduzca los valores de la variable aleatoria Poisson X. En Optional Storage coloque la columna donde se almacenarán los datos generados y haga clic en OK. Para hacer gráficas sobrepuestas debe usar el programa Minitab y proceda de la siguiente manera: 1. Vaya a Scatterplot-Simple y en las ventanillas Y-variable y X-variable escriba las probabilidades y los valores de la variable aleatoria discreta Poisson X. 2. En la ventana Scatterplot-Multiple graphs haga clic en Overlaid on the same graph y haga clic en OK. Ejemplo 3.41. Para la distribución Poisson con parámetro λ 5 8, siga las instrucciones anteriores para generar una tabla con los valores de la distribución y la densidad Poisson. En la misma gráfica poner las dos funciones. Una vez hecho esto, calcular las siguientes probabilidades: a) P(X $ 5) b) P(8 # X # 10) c) P(X 5 7) d) P(4 , X , 8)

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 133

Solución: La tabla y la gráfica siguientes muestran los resultados requeridos. Tabla 3.19. Variable aleatoria X

Probabilidades

Probabilidades acumuladas

0

0.000335

0.000335

1

0.002684

0.003019

2

0.010735

0.013754

3

0.028626

0.042380

4

0.057252

0.099632

5

0.091604

0.191236

6

0.122138

0.313374

7

0.139587

0.452961

8

0.139587

0.592547

9

0.124077

0.716624

10

0.099262

0.815886

11

0.072190

0.888076

12

0.048127

0.936203

13

0.029616

0.965819

14

0.016924

0.982743

15

0.009026

0.991769

16

0.004513

0.996282

17

0.002124

0.998406

18

0.000944

0.999350

Datos

Gráficas de probabilidades en función de variable aleatoria X 0.6

0.6

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1 0.0

0.0 0

Figura 3.18.

a) P(X $ 5) 5 0.9084 b) P(8 # X # 10) 5 0.3629 c) (X 5 7) 5 0.1396 d) P(4 , X , 8) 5 0.3053

1

2

3

4

5

6

Var. aleatoria X

7

8

9

Variable Probabilidades generadas Probabilidades acumuladas

134

| Estadística para ingeniería y ciencias

3.10.5 Ejemplos de la función de distribución Poisson Aplicar el programa Minitab o Excel y comparar los resultados

Ejemplo 3.42. Suponer que X se distribuye de acuerdo con la Poisson dada por: f (x) 5 [(0.72)x e20.72]/x! Encontrar: a) f (0) b) f (1) c) f (2) d) f (3) Solución: a) f (0) 5 [(0.72)0 e20.72]/0! 5 0.4868 b) f (1) 5 [(0.72)1 e20.72]/1! 5 0.3505 c) f (2) 5 [(0.72)2 e20.72]/2! 5 0.1262 d) f (3) 5 [(0.72)3 (0.4868]/3! 5 0.030 Ejemplo 3.43. Un estudio de higiene y seguridad industrial que se realizó a largo plazo llevó a la gerencia a concluir que el número de accidentes por trabajador, durante un año (X), sigue una distribución Poisson. Si el promedio anual de accidentes por trabajador fue de 0.3, estimar lo siguiente: a) ¿Cuál es la probabilidad de que un trabajador seleccionado, aleatoriamente, no tenga un accidente durante el año siguiente? b) ¿Cuál es la probabilidad de que un empleado seleccionado, aleatoriamente, tenga cuando menos 1 accidente durante el siguiente año? c) ¿Cuál es la probabilidad de que un trabajador tenga, exactamente, 1 accidente? d) ¿Cuál es la probabilidad de que un trabajador seleccionado al azar de la fábrica tenga entre 2 y 4 accidentes, inclusivamente, el próximo año? Solución: El número de accidentes por trabajador durante un año, X es una variable aleatoria Poisson con parámetro λ 5 0.3; entonces, para resolver el problema se usa la función: f (x; λ) 5 λxe2λ /x!: a) f (0) 5 P(X 5 0) 5 (0.3)0 e20.3/0! 520.741

Esto se puede interpretar como que en el próximo año, de cada 100 trabajadores, en promedio 74 no tendrán ningún accidente y 26 si lo pueden tener.

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 135

b) La probabilidad de que un trabajador tenga cuando menos un accidente se puede encontrar en las tablas de Poisson. P(X $ 1) 5 1 2 P(X 5 0) 5 1 2 0.741 5 0.259 c) La probabilidad de que el trabajador tenga exactamente un accidente, se puede encontrar usando la fórmula o las tablas de probabilidades.

f (1) 5 (0.3)1 e20.3/1! 5 0.2222 d) La probabilidad de que un trabajador tenga entre 2 y 4 accidentes, inclusive, es: P(2 # X # 4) 5 f (2) 1 f (3) 1 f (4) 5 0.0333 1 0.0033 1 0.0002 5 0.0368

Ejemplo 3.44. El número de defectos por pie cuadrado de la tela de un equipo de filtros se distribuye de acuerdo con la ley Poisson, con λ 5 0.08. Si se elige un pie cuadrado de tela al azar, calcular la probabilidad de que la tela tenga: a) Ningún defecto. b) Cuando menos 1 defecto. c) Exactamente, 2 defectos. Solución: Se utiliza la fórmula de la función de densidad Poisson con λ 5 0.08. a) Ningún defecto: P(X 5 0) 5 (0.08)0 (e20.08)/0! 5 0.923

b) Cuando menos un defecto: P(X $ 1) 5 1 2 P(X 5 0) 5 1 2 0.923 5 0.077 c) Exactamente 2 defectos: P(X 5 2) 5 (0.08)2 e20.08/2! 5 (0.0064) (0.92)/2 5 0.00295

Ejemplo 3.45. En un estudio de higiene y seguridad industrial una población de trabajadores de un grupo de industrias que manejan procesos muy ruidosos tienen 5% de problemas emocionales que interfieren con su trabajo. Si se saca una muestra aleatoria de 60 trabajadores, utilice la distribución Poisson para dar una aproximación a las probabilidades de la distribución binomial y calcule: a) Si más de 2 trabajadores sufren de disturbios emocionales. b) Cuando menos 4. c) 5 o más.

136

| Estadística para ingeniería y ciencias Solución: Para usar la aproximación Poisson y la fórmula binomial, se calcula primero el valor de λ usando la relación λ 5 np 5 (60)(0.05) 5 3; para resolver los diferentes incisos primero calcular las probabilidades para x 5 0, 1, 2, 3, 4. Con la función P(X = x) 5 f (x) 5 λx e−λ/x! y sustituyendo los valores, obtener: P(X 5 0) 5 30(e28)/0! 5 0.0498 P(X 5 1) 5 31(0.0498)/1! 5 0.1494 P(X 5 2) 5 32(0.0498)/2! 5 0.2240 P(X 5 3) 5 33(0.0498)/3! 5 0.2240 P(X 5 4) 5 34(0.0498)/4! 5 0.1680 a) Más de 2 trabajadores sufren disturbios emocionales: P(X . 2) 5 1 2 P(X # 2) 5 1 2 P(X 5 0, 1, 2) 5 1 2 0.4232 5 0.5768

b) Cuando menos 4 trabajadores: P(X $ 4) 5 1 2 P(X # 3) 5 1 2 0.6472 5 0.3528

c) Cinco o más trabajadores: P(X $ 5) 5 1 2 P(X # 4) 5 1 2 0.8152 5 0.1848

Ejemplo 3.46. De los artículos producidos por una factoría, 3% están defectuosos. Una muestra de 25 artículos se selecciona para una inspección. Calcular la probabilidad: a) Exactamente 4 artículos estén defectuosos. b) 3 o más objetos estén defectuosos. Use las distribuciones binomial y la Poisson para encontrar estas probabilidades y compare los resultados. Solución: Con la distribución binomial y los parámetros n 5 25 y p 5 0.03. a) P(X 5 4) 5 0.0054 b) P(X $ 3) 5 0.038 Con la distribución de Poisson con parámetro λ 5 25(0.03) 5 0.75. a) P(X 5 4) 5 0.006 b) P(X $ 3) 5 0.041

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 137

Ejemplo 3.47. Un promedio de 3 autos arriban a la caseta de cobro de una carretera cada minuto. Si esta tasa es aproximada por un proceso Poisson, ¿cuál es la probabilidad de que, exactamente, 5 autos arribarán en un periodo de un minuto? Solución: En este caso, se tiene que λ 5 3, x 5 5. P(X 5 5) 5 (3)5 (e) 23/5! 5 [(243)(0.0498)]/120 5 0.1008 El valor de 0.1008 es la probabilidad de que 5 autos arriben en un minuto. Ejemplo 3.48. 10% de las herramientas producidas en cierto proceso de manufactura son defectuosas. Encontrar la probabilidad de que, en una muestra de 10 herramientas seleccionadas, aleatoriamente sólo 2 herramientas estén defectuosas. Utilice lo siguiente: a) La distribución binomial. b) La distribución de Poisson. Solución: La variable aleatoria X que indica el número de herramientas defectuosas en la muestra de 10 es binomial con parámetros n 5 10 y p 5 10% 5 0.10, entonces: 1. P(X 5 2) 5 10C2 (0.1)2 (0.9)1022 5 10!/[2!(10− 2 2)!] 5 0.19 2. Si usa la aproximación Poisson, se calcula λ 5 np 5 (10)(0.10) 5 1,

P{X 5 2} 5 (1)2 (e21)/2! 5 1/2e 5 0.1839

Ejemplo 3.49. Si 3% de los focos eléctricos manufacturados por una compañía son defectuosos encontrar la probabilidad de que, en una muestra de 100 focos: a) Ningún foco esté defectuoso.

d) Tres focos estén defectuosos.

b) Un foco esté defectuoso.

e) Cuatro focos estén defectuosos.

c) Dos focos estén defectuosos.

f ) Cinco focos estén defectuosos.

Solución: Dado que n es grande, es más conveniente usar la aproximación Poisson en lugar de la distribución binomial que es exacta, y como los parámetros de la distribución binomial son n 5 100, p 5 0.03, entonces λ 5 np 5 (100)(0.03) 5 3, a) P(X 5 0) 5 (3)0 (e23)/0! 5 (1)( 0.04979) 5 0.04979 b) P(X 5 1) 5 (3)1 (e23)/1! 5 (3)(0.04979)/1 5 0.1494 c) P(X 5 2) 5 (3)2 (e23)/2! 5 (9)(0.04979)/2 5 0.44811

138

| Estadística para ingeniería y ciencias d) P(X 5 3) 5 (3)3 (e23)/3! 5 (27)(0.04979)/6 5 0.2241 e) P(X 5 4) 5 (3)4 (e23)/4! 5 (81)(0.04979)/24 5 0.1680 f ) P(5, 3) 5 (3)5 (e23)/5! 5 (243)(0.04979)/120 5 0.1008

Ejemplo 3.50. La probabilidad de que una persona muera de un ataque cardiaco por fumar en exceso es de 0.002. Encontrar la probabilidad de que menos de 5 personas, de las siguientes 2 000, mueran de un problema cardiaco y obtener el promedio y la varianza de la variable aleatoria X que indica el número de personas que mueren de un problema cardiaco de las 200 de la muestra. Solución: Primero calcule el promedio y la varianza. Las fórmulas para esto son:

µ 5 np 5 (2000)(0.002) 5 4.0 σ2 5 npq 5 (2 000)(0.002)(0.998) 5 3.992 Para calcular la probabilidad se utiliza la aproximación Poisson, pues n es grande y p es muy pequeña. P(X , 5) 5 P(X # 4) 5 0.6288 Ejemplo 3.51. En un estudio de contaminación ambiental se instala una red de 3 840 sensores de alto volumen para medir las concentraciones de partículas atmosféricas menores que 10 micras. Si la probabilidad de que cualquiera de estos muestreadores falle es de 0.00083 durante un año, entonces, determinar las probabilidades de que 0, 1, 2, 3, 4, . . . de los muestreadores fallen durante el año en cuestión. Hacer una gráfica usando papel semilogarítmico. Solución: Si X indica el número de sensores que fallan, X se distribuye de acuerdo con una binomial con parámetros n 5 3 840 y p 5 0.00083. Además, debido a que n es muy grande y p muy pequeña es conveniente utilizar la aproximación Poisson, por lo que se calcula el valor de λ. λ 5 np 5 (3840)(0.00083) 5 3.2 Los cálculos se realizan con la fórmula o con la computadora, f (x) 5 p(x; 3.2) 5 (3.2)x e− 23.2/x! Al sustituir los valores de la variable aleatoria X en la fórmula anterior tenemos: Para graficar los datos de la variable aleatoria X (abscisa) y de la probabilidad f (x) 5 p(x; μ) (ordenada), se usó papel semilogarítmico. p(0; 3.2) 5 3.20 (0.041)/0! 5 0.041 p(1; 3.2) 5 3.21 (0.041)/1! 5 0.130 p(2; 3.2) 5 3.22 (0.041)/2! 5 0.209

Capítulo 3 Funciones de distribución de variables aleatorias discretas

p(3; 3.2) 5 3.23 (0.041)/3! 5 0.223 p(4; 3.2) 5 3.24 (0.041)/4! 5 0.178 p(5; 3.2) 5 3.25 (0.041)/5! 5 0.114 p(6; 3.2) 5 3.26 (0.041)/6! 5 0.061 p(7; 3.2) 5 3.27 (0.041)/7! 5 0.028 p(8; 3.2) 5 3.28 (0.041)/8! 5 0.011 p(9; 3.2) 5 3.29 (0.041)/9! 5 0.00397 p(10; 3.2) 5 3.210 (0.041)/10! 5 0.0013 Gráfica logarítmica de f(x) vs. variable aleatoria X 0.2230 0.2090 0.1780 0.1300 0.1140 0.100

0.0610 0.0410

f(x)

0.0280 0.0110

0.010 0.0034 0.0013 0.001 0

5

10

Figura 3.19.

Ejemplo 3.52. Refiriéndose al problema anterior, calcule las siguientes probabilidades. a) La probabilidad de que fallen (inclusivamente), entre 3 y 9 muestreadores. b) La probabilidad de que fallen más de 8 muestreadores. c) La probabilidad de que fallen (exclusivamente), entre 4 y 6 muestreadores. d) La probabilidad de que fallen más de 10 muestreadores. e) La probabilidad de que fallen todos los muestreadores. f ) La probabilidad de que no falle ningún muestreador. Solución: a) P(3 # X # 9) 5 0.61833 b) P(X . 8) 5 1 2 P(X # 8) 5 1 2 0.9943 5 0.0057 c) P(4 , X , 6) 5 P(5 # X # 5) 5 0.1140 d) P(X . 10) 5 1 2 P(X # 10) 5 1 2 0.9995 5 0.0005 e) P(X 5 3 840) 5 0 f ) P(X 5 0) 5 0.041

| 139

140

| Estadística para ingeniería y ciencias

Ejemplo 3.53. El número X de huracanes observados en la región del Caribe, durante los últimos 3 años, tiene una distribución de Poisson con una media λ 5 8. Calcular las siguientes probabilidades: a) La probabilidad de que ocurran a lo más 8 huracanes. b) La probabilidad de que ocurran exactamente 8 huracanes. c) La probabilidad de que ocurran cuando menos 9 huracanes. d) La probabilidad de que ocurran entre 5 y 8 huracanes, de manera inclusiva. e) La probabilidad de que ocurran entre 5 y 8 huracanes, de manera exclusiva. f ) La probabilidad de que ocurran a lo más 8 huracanes, pero más de 5. g) La probabilidad de que ocurran más de 2 huracanes. h) Graficar las probabilidades P(X 5 x) y P(X # x) en función de x. Solución: Los resultados se encuentran usando Excel o Minitab. a) P(X # 8) 5 0.59255 b) P(X 5 8) 5 0.1396. c) P(X $ 9) 5 1 2 P(X , 9) 5 1 2 0.5925 5 0.4075. d) P(5 # X # 8) 5 0.492 e) P(5 , X , 8) 5 0.251 f ) P(5 , X # 8) 5 P(X 5 6) 1 P(X 5 7) 1 P(X 5 8) 5 0.3159 g) 1 2 P(X # 2) 5 0.9863 Densidad Poisson, media Densidad Poisson, media 55 88

Distribución Poisson, media Distribución Poisson, media 55 88 1.2 1.2

Probabilidad Probabilidad

Probabilidad Probabilidad

0.16 0.16 0.14 0.14 0.12 0.12 0.1 0.1 0.08 0.08 0.06 0.06 0.04 0.04 0.02 0.02 00

11

0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 00 Número éxitos Número dede éxitos

Número éxitos Número dede éxitos

Figura 3.20.

Capítulo 3 Funciones de distribución de variables aleatorias discretas

| 141

Problemas propuestos 3.1 Si la variable aleatoria X tiene una distribución binomial con parámetros n 5 10 y p 5 0.5. Calcular las siguientes probabilidades: a) P(X 5 5) b) P(X # 2) c) P(X $ 9) d) P(3 # X , 5) 3.2 La variable aleatoria X tiene una distribución binomial con n 5 10 y con p 5 0.01. Calcular lo siguiente: a) P(X 5 5) b) P(X # 2) c) P(X $ 9) d) P(3 # X # 5) 3.3 Se sabe que 20% de la producción de sensores de alto volumen son defectuosos y fallarán al realizarse una prueba de muestreo de partículas con filtros de cierta porosidad. Si se eligen al azar 15 sensores y X indica el número de sensores que fallan la prueba en esta muestra, entonces, X tiene una distribución binomial con n 5 15 y p 5 0.2. Determinar lo siguiente: a) La probabilidad de que a lo sumo 9 sensores fallen la prueba. b) La probabilidad de que exactamente 8 fallen. c) La probabilidad de cuando menos 8 sensores fallen. d) La probabilidad de que fallen entre 4 y 7 de manera exclusiva. 3.4 De acuerdo con la Chemical Engineering Progress (noviembre de 1990), aproximadamente 30% de todas las fallas de operación de tuberías en plantas químicas son ocasionadas por errores del operador. Calcular: a) La probabilidad de que de las siguientes 20 fallas al menos 10 fallas se deban al error del operador. b) La probabilidad de que, no más de 4 de 20 fallas se deban a error del operador. 3.5 De acuerdo con un reporte publicado en la revista Parade, una encuesta nacional de Estados Unidos de América de la Universidad de Michigan a estudiantes universitarios del último año, revela que casi 50% fuman marihuana. Si se seleccionan 12 estudiantes aleatoriamente y se les pide su opinión al respecto, encontrar la probabilidad de que el número que fuman marihuana todos los días sea: a) Entre 7 y 9 inclusive. b) A lo más 5. c) No menos de 8. 3.6 Un estudio de higiene industrial examinó las actitudes de los trabajadores industriales acerca de los antidepresivos. Esta investigación reveló que, aproximadamente, 70% de los trabajadores entrevistados creen que los antidepresivos no curan nada, sino que sólo encubren el problema real y no ayudan a resolver los problemas de trabajo. De acuerdo con esta investigación, ¿cuál es la probabilidad de que al menos 3 de los siguientes 5 trabajadores seleccionados, aleatoriamente, sean de esta opinión? 3.7 Con respecto al problema anterior de los antidepresivos, si X representa el número de trabajadores de la industria que cree que los antidepresivos no ayudan a resolver los problemas

emocionales del trabajo, sino que dan solamente una solución paliativa al problema de las depresiones emocionales, encontrar la media y la varianza suponiendo que el tamaño de la muestra n es igual a 20. 3.8 En una investigación de higiene y seguridad industrial, el ingeniero encargado del departamento de seguridad afirma que sólo 40% de todos los trabajadores usan cascos de seguridad cuando almuerzan en el lugar del trabajo. Suponiendo que esta afirmación sea correcta, hallar la probabilidad de que 4 de los siguientes 6 trabajadores de la industria, elegidos, aleatoriamente, usen los cascos de seguridad, mientras comen en el lugar del trabajo. 3.9 Una compañía constructora de precipitadores electrostáticos sabe que en promedio 29% de este equipo de control de partículas requerirán de reparaciones después de un año de usarse. Si se seleccionan, aleatoriamente, 20 precipitadores electrostáticos, de la producción total, encontrar la probabilidad que: a) Al menos 5 precipitadores requieran de reparaciones después de un año. b) Exactamente 5 de estas unidades de control de la contaminación atmosférica requieran reparación después de un año. 3.10 En un estudio de ahorro de energía, se argumenta que, en el 40% de las calefacciones activadas con energía solar, la cuenta por servicio baja considerablemente. De acuerdo con este argumento, ¿cuál es la probabilidad de que la cuenta de servicio baje, en cuando menos 5 de una muestra de 50 calefacciones? Hacer este problema usando la distribución binomial y después la distribución normal. 3.11 Hacer el mismo problema 3.10, pero usando 50% con n 5 25 y P(X $ 5). 3.12 Se argumenta que 60% de las instalaciones de calefacción solar reduce la cuenta por concepto de servicio en al menos un tercio. En consonancia con esto, ¿cuáles son las probabilidades de que la cuenta de servicio se reduzca en al menos un tercio en: a) cuatro de cinco instalaciones? b) al menos cuatro de cinco instalaciones? 3.13 En estudios de ingeniería civil, si la probabilidad de que cierta columna de ala ancha caiga bajo una carga axial de 0.05, calcular la probabilidad de que entre 16 columnas de ese tipo: a) ¿Caigan cuando más dos? b) ¿Caigan al menos cuatro? 3.14 Considerar el experimento de probar sucesivamente los componentes que salen de una línea de producción deteniéndose cuando se encuentra el primer artículo defectuoso. Suponga que la probabilidad que un componente sea defectuosos es igual a 0.3. Encontrar la probabilidad que se detenga el experimento al probar el sexto componente. 3.15 Ejemplo adaptado del libro Probability and Statistics for Engineers and Scientists de Walpole et al. (1993). Se afirma que 2/3 de los 20 millones de personas que toman Valium son mujeres. Suponiendo que esta afirmación es correcta, encuentre la probabilidad de que en un día determinado la quinta

142

| Estadística para ingeniería y ciencias

persona que se le prescribe Valium sea la primera paciente mujer de ese día. 3.16 Un agente vendedor de equipo de laboratorio de química compra un lote de 7 medidores de pH, 3 de los cuales son defectuosos; porque no están bien calibrados. El agente vendedor entrega cinco de estos medidores a un laboratorio; si X es el número de medidores defectuosos adquiridos por el laboratorio, encontrar el promedio de X. 3.17 Se lanza un dado no cargado; sea X la variable aleatoria que indica la cara del dado que cae hacia arriba. Encontrar el espacio muestral de este experimento y la función de densidad de X. 3.18 Se lanza una moneda no cargada sucesivamente; encontrar la probabilidad de que salga la primera cara en el cuarto lanzamiento. 3.19 Suponga que la probabilidad de que una industria en un complejo industrial esté procesando objetos a base de mercurio (metal pesado muy peligroso) es igual a 0.01. Bajo el supuesto que la inspección de las industrias es independiente, encontrar la probabilidad de que sea imperativo inspeccionar exactamente 125 industrias de ese complejo industrial antes de que se pueda detectar una industria que procese ese tipo de objetos a base de mercurio. 3.20 En un complejo industrial hay industrias que emiten 4 toneladas de SO2 por hora, 5 toneladas de SO2 por hora, 7 toneladas de SO2 por hora, 9 toneladas de SO2 por hora y 10 toneladas de SO2 por hora. Suponga que los 5 tipos de industrias tienen la misma probabilidad de ser seleccionadas. Si se escoge una industria al azar del complejo industrial y X indica la cantidad de SO2 que emite la industria seleccionada, entonces: a) Encontrar la función de densidad de X. b) Dibujar la gráfica de su función de densidad de X. c) Encontrar la media y la varianza de X. 3.21 La probabilidad de que cierta clase de componente resista una prueba de choque es de 0.55. Encontrar la probabilidad de que sobrevivan, exactamente, dos de los siguientes 4 componentes que se prueben. 3.22 La probabilidad de que un paciente se recupere de un problema cardiaco es de 0.4. Si se selecciona aleatoriamente una muestra de 15 pacientes con síntomas de problemas cardiacos y si X indica el número de paciente que se recuperan, ¿cuál es la probabilidad de: a) P(X $ 10). b) P(3 # X # 8). c) P(X 5 5). d) P(3 , X , 8). 3.23 Supóngase que X tiene distribución hipergeométrica con parámetros N 5 10, M 5 3 y n 5 4 entonces, calcular las probabilidades para los siguientes valores de X. a) X 5 1. b) Si el valor de la variable aleatoria X es de cuando menos uno. c) Si P(1 # X # 4). 3.24 Un fabricante de llantas para autos reporta que entre un cargamento de 600 llantas de la marca Goodyear remitidas a un

distribuidor local, 50 tienen defectos leves. Si un motorista compra, al azar, 10 de estas llantas, ¿cuál es la probabilidad de que 4 de estas llantas estén un poco dañadas? Hacer este problema usando la distribución hipergeométrica y la binomial. 3.25 Un fabricante de aparatos de monitoreo ambiental para la medición de monóxido de carbono (CO) sabe que sólo 10% de los aparatos requieren de reparación, dentro del periodo de garantía de un año. Si se saca una muestra al azar de 10 de estos aparatos, entonces, calcular: a) La probabilidad de que cuando menos 3 de los 10 aparatos requieran de reparación dentro del periodo de garantía. b) Si cinco de los 10 aparatos requirieron de reparación en el primer año, ¿apoyaría esto o refutaría la afirmación del fabricante? ¿Qué significado tiene la probabilidad calculada (en cuanto a la afirmación del fabricante de que sólo 10% de los aparatos requieren de reparación dentro de un año), cuando la probabilidad de que cualquiera de los aparatos requiera de reparación en el periodo de garantía? 3.26 Se sabe que 50% de las personas que sufren enfermedades genéricas padecen de un tipo de desnutrición no tradicional. Si se toma una muestra aleatoria de 20 enfermos genéricos, encuentre la probabilidad de que: a) Todas las personas en la muestra tengan problemas de desnutrición. b) Cuando menos 15 personas enfermas estén desnutridas. c) Ninguna persona esté desnutrida. 3.27 En una encuesta a cierta universidad del hemisferio norte aplicada a estudiantes del último año revela que casi 40% de esa población de estudiantes aprueba el consumo diario de marihuana. Si se seleccionan al azar 10 estudiantes y se les pide su opinión al respecto, calcular las siguientes probabilidades: a) Entre 6 y 8 estudiantes aprueban este hábito diariamente. b) A lo más 5 estudiantes lo aprueba. c) No menos de 6 lo aprueban. 3.28 Supóngase que 0.01 es la probabilidad de que un enfermo, quien padece de los síntomas del llamado cáncer hepático, pudiera recuperarse. Si se selecciona una muestra aleatoria de 15 enfermos de este síntoma, calcular la probabilidad de que 3 enfermos se recuperen de este mal. 3.29 Dos éxitos ocurrieron en los primeros 6 ensayos de un proceso de Bernoulli con p 5 0.3. Siendo así, calcular la probabilidad de tener 2 éxitos en los siguientes 6 ensayos. 3.30 Supóngase que X tiene una distribución Poisson con media igual a 4. Calcular las siguientes probabilidades: a) P(X 5 0). b) P(X # 2). c) P(X 5 4). d) P(X 5 8). e) P(X $ 2).

Problemas de tarea

Revisa tu CD-ROM para encontrar más problemas.

Capítulo 4 Funciones de distribución de variables aleatorias continuas

(Jupiter Images Corporation)

Esta fotografía muestra las columnas que sostienen un puente o paso a desnivel, el cual debe tener la suficiente resistencia para soportar el tránsito de un innumerable número de autos que circulen sobre él, la velocidad del viento en ese lugar, la fuerza de los temblores y otros factores más. Para la construcción de este tipo de estructuras se requiere determinar los factores aleatorios que pudieran incidir en ella. Las aplicaciones estadísticas son de vital importancia en el diseño y construcción de puentes. Generalmente, los estudios estadísticos se aplican a todas las variables relacionadas con la construcción y diseño de un puente. Estas variables son las siguientes: 1. 2. 3. 4. 5. 6. 7.

Longitud, ancho, altura y peso del puente. Deflexión y capacidad de carga del puente. Torres principales. Cables principales. Cables verticales suspendidos. Cantidades de concreto. Cantidades de acero estructural.

Por ejemplo, el puente Golden Gate de San Francisco, California, tiene dos torres principales que soportan al puente. Las dimensiones de estas torres son de 227 m y 152 m, respectivamente. Los cables principales del puente Golden Gate pasan por arriba de las dos torres. La longitud total del cable principal usado es de 80 000 millas. En cuanto a los cables verticales suspendidos, el puente Golden Gate tiene un total de 250 pares cuyos diámetros son de 2.69 pulgadas. La cantidad de concreto fue de 389 000 yardas cúbicas. La cantidad total de acero estructural que se usó en la construcción del puente fue de 83 000 toneladas. Indudablemente, los estudios estadísticos desempeñan un papel muy importante en el diseño de cada una de las variables que intervinieron en la construcción del puente Golden Gate.

Introducción En este capítulo se discutirá el concepto de variable aleatoria continua y las funciones de probabilidad asociadas a ésta y para explicar mejor estos conceptos se comienza con la definición de intervalo en los números reales.

144

| Estadística para ingeniería y ciencias

4.1 Probabilidad de una variable aleatoria continua La idea de aleatoriedad ligada a valores continuos ocurre en la práctica con mucha frecuencia; algunos ejemplos de variación aleatoria continua son: el tiempo en que un componente electrónico deja de funcionar, el tiempo que tarda el microbús en hacer su recorrido, la cantidad de leche que da una vaca cada día, etc.; todas estas variables toman valores en un conjunto continuo.

Definición 4.1. Dados dos números reales a y b, tales que a , b, se conoce como intervalos a los conjuntos de números reales definidos como: • (a, b) 5 {x | a < x < b} intervalo abierto. • [a, b) 5 {x | a # x < b} intervalo semiabierto o semicerrado. • (a, b] 5 {x | a < x # b} intervalo semiabierto o semicerrado. • [a, b] 5 {x | a # x # b} intervalo cerrado. Estos conjuntos son continuos. observe que si el conjunto incluye los extremos se llama cerrado y si no los incluye se llama abierto. Definición 4.2. Una variable aleatoria continua es una variable cuyo rango de valores es un intervalo o la unión de dos o más intervalos.

Ejemplo 4.1. E l tiempo de vida de un componente eléctrico es una variable aleatoria continua porque un componente electrónico se puede descomponer en cualquier momento dentro de un intervalo de tiempo. Ejemplo 4.2. L a cantidad de precipitación pluvial en la temporada de lluvia es una variable aleatoria continua, porque el volumen de agua puede tomar cualquier nivel en un intervalo de volumen.

4.1.1 Función de densidad y función de distribución Definición 4.3. Se llama función de distribución de la variable aleatoria X a la función que indica su probabilidad acumulada y se denota con una letra mayúscula. F ( x) 5 P ( X # x)

Propiedades de la función de distribución de una variable aleatoria a) La función de distribución es creciente, es decir, si x1 , x2, entonces, F ( x1 ) # F ( x2 ) . b) La función de distribución es continua por la derecha.

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 145

c) lím F(x) 5 0 xm d

d) lím F(x) 5 1 xmd

En su definición, la función de distribución de una variable aleatoria continua no difiere de la definición de distribución de una variable aleatoria discreta, la diferencia radica en que la gráfica de la distribución de una variable aleatoria continua es continua y la gráfica de la función de distribución discreta es escalonada.

Definición 4.4. La función de densidad de una variable aleatoria continua es igual a la derivada de la función de distribución, y se denota con la misma letra, pero minúscula: f ( x) 5

d F ( x) dx

(4.1)

En este sentido, una función de densidad no representa propiamente una probabilidad, sin embargo, satisface las propiedades siguientes:

Propiedades de la función de densidad de una variable aleatoria a) f (x) $ 0 para todo real x b)

∫

∞ −∞

f (x)dx 5 1

La primera propiedad se satisface porque la derivada de una función creciente siempre es mayor o igual a cero. La segunda propiedad se deriva de que la integral sobre todos los reales corresponde a la probabilidad del espacio muestral. Por el teorema fundamental del cálculo se sigue que: x

F ( x) 5 ∫ f (t )dt

(4.2)

−∞

Para el cálculo de probabilidades, se utiliza la relación:

b

P(a ≤ X ≤ b) 5 ∫ f ( x)dx 5 F(b) 2 F(a)

(4.3)

a

Nótese que en las funciones de densidad continuas se usan discretas tienen sumatorias. La probabilidad se puede obtener usando la integral de la función de densidad o la diferencia de la función de distribución acumulada evaluada en los extremos del intervalo. En este sentido, la probabilidad de X corresponde al área bajo la curva de la gráfica de la función de densidad en el intervalo correspondiente de acuerdo con la figura siguiente. Figura 4.1. Gráfica que muestra la probabilidad de X correspondiente al área bajo la curva de la gráfica de la función de densidad en el intervalo correspondiente.

integrales donde las funciones de densidad P (1 < X < 3) 0.045 0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0

0

1

2

3

4

146

| Estadística para ingeniería y ciencias

Cuando la variable aleatoria es continua, se tiene que: P(a , X , b) 5 P(a # X , b) 5 P(a , X # b) 5 P(a # X # b)

(4.4)

Esto significa que da lo mismo que se incluyan o no los extremos del intervalo, ya que en el caso continuo la probabilidad en un punto siempre es cero P(X 5 x) 5 0; esta probabilidad corresponde al área de un segmento de recta que siempre es cero; en el caso discreto sí hay diferencia en incluir o no los extremos del intervalo.

Ejemplo 4.3. Dada la función de densidad: ¯cx f ( x) 5 ° ±0

si 0 # x # 2, en otro caso

Encuentre el valor de c y la función de distribución acumulada de la variable aleatoria. Solución: ∞

El valor de c debe ser tal que se satisfagan las condiciones f (x) $ 0 y ∫ f ( x)dx 51; la −∞ primera condición implica que c . 0; la segunda condición implica que:

∫

2 0

2

cxdx 5

cx 2 5 2c 5 1 2 0

1 2

De donde se concluye que c5 . Ejemplo 4.4. Si una variable aleatoria tiene la densidad de probabilidad: ¯²2e 2 x f ( x)5 ° ²± 0

si x $ 0 en otro caso

Encontrar las probabilidades cuando: a) 1, X , 3 b) X . 0.5 c) 1 , X , 2 Solución: b

Se usa la fórmula P(a , X , b) 5 ∫ f ( x)dx a

3

a) P(1 , X , 3) 5 ∫ 2e −2 x dx 1

3

5− e −2 x

5 − e −6 1 e −2

5 0.3654

1

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 147

∞

b) P( X . 0.5) 5 ∫ 2e −2 x dx 0.5

∞

5− e −2 x

5 − 0 1 e −1

5 0.3679

0.5

2

c) P(1 , X , 2) 5 ∫ 2e −2 x dx 1

2

5− e −2 x

5 − e −4 1 e −2

5 0.3496

1

Ejemplo 4.5. L a variable aleatoria X indica la cantidad de tiempo de incubación de bacterias en un plato de prueba durante 2 horas y su función de densidad es igual a f (x) 5 0.5x, para 0 # x # 2. Calcular las siguientes probabilidades: a) P (X # 1) b) P (0.5 # X # 1.5) c) P (1.5 , X) Solución:

1

1

a) P (X # 1) 5 ∫ 0.5 xdx 5 0

0.5 x 2 5 0.25 2 0

1.5

0.5 x 2 b) P (0.5 # X # 1.5) 5 ∫ 0.5 xdx 5 2 0.5 2

∫ 0.5 xdx 5

c) P (1.5 , X) 5

1.5

0.5 x 2 2

1.5

5 0.5 0.5

2

5 0.4375 1.5

Ejemplo 4.6. E l error en la reacción de temperatura (en °C) de una incubadora en un laboratorio de bacteriología para la incubación de un plato de agar es una variable X continua que tiene una densidad de probabilidad de f (x) 5

x2 cuando −1 , X # 2, y 0 en otro caso. En3

contrar la probabilidad de que la temperatura esté entre 0 °C y 1 °C. Solución: 1

P(0 , X # 1) 5

1

x2 x3 1 5 5 dx ∫0 3 9 0 9

Ejemplo 4.7. L a proporción de industrias que responden a cierto cuestionario ecológico es una variable aleatoria continua X cuya función de densidad es:

148

| Estadística para ingeniería y ciencias 2( x 1 2) / 5 f ( x) 5  0 

si 0 , x , 1 en otro caso

a) Mostrar que f (x) es una función de densidad. b) Encontrar la probabilidad de que más de 25% de las industrias contactadas pero menos que 50%, responderán voluntariamente a este cuestionario. Solución: a) Si f (x) es densidad se deben satisfacer las relaciones f (x) $ 0 para todo real x y

∫

∞ −∞

f ( x)dx 51 .

Observe que la función es mayor o igual que cero, ahora basta probar que la integral de la función es igual a 1:

∫

∞ −∞

f ( x)dx 5 ∫

1 0

1

2( x 1 2) x2 1 4 x 1 1 4 0 1 4(0) 51 dx 5 5 − 5 5 5 5 0

b) Se quiere calcular la probabilidad en el intervalo [0.25 , X , 0.50]. 0.5

2( x 1 2) 0.25 1 4(0.5) 0.0625 1 4(0.25) 1.1875 x2 + 4 x 5 2 5 5 0.2375 ∫0.25 5 dx 5 5 5 5 5 0.25 0.5

4.1.2 Funciones de densidad conjuntas y marginales Si se tienen dos variables aleatorias continuas sobre el mismo espacio muestral: X: S → R

y

Y: S → R

Se puede definir un vector aleatorio (X, Y ) y su función de probabilidad.

Definición 4.5. Se llama función de distribución conjunta de las variables X y Y a la probabilidad. F ( x, y) 5 P ( X # x, Y # y)

(4.5)

Definición 4.6. Se llama función de densidad conjunta de X y Y, f (x, y) a la función definida como:

f (x, y) 5

d2 F ( x, y) dxdy

La función de densidad conjunta de las variables aleatorias X y Y satisface las condiciones: a) f ( x, y) ≥ 0 para todo real x. b)

∞

∞

−∞

−∞

y)dxdy ((x, x51 )dx 51 5 1 ∫ f∫( x)ffdx

(4.6)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 149

Ejemplo 4.8. P ruebe que la siguiente función es una función de densidad conjunta de las variables aleatorias X y Y. 1  f ( x, y) 5  4 0 

si −1 # x # 1, x − 1 # y # x 11 en otro caso

Solución: • La primera condición se satisface, pues

1 . 0. 4

• La segunda condición se satisface porque:

1

x +1

−1

x −1

∫ ∫

f ( x, y)dxdy 5

1 1 x +1 dydx 4 ∫−1 ∫ x−1 1

5∫

−1

5∫

−1

1

∫

x +1 x −1

y 4

x +1

dx x −1

1 dx51 2

Se concluye que f (x, y) es función de densidad conjunta de las variables X y Y.

Definición 4.7. Dado el vector aleatorio (X, Y) con función de densidad conjunta dada por f (x, y), se define • La función de densidad marginal de X como: ∞

fX ( x) 5 ∫ f ( x, y)dy

−∞

(4.7)

• Y la función de densidad marginal de Y como: ∞

fY ( y) 5 ∫ f ( x, y)dx

−∞

(4.8)

La función de densidad marginal de una variable aleatoria corresponde a su función de densidad.

Ejemplo 4.9. E ncontrar las dos funciones de densidad marginal cuando la función de densidad conjunta está dada por: 1  f ( x, y) 5  4 0 

si −1 # x # 1, x − 1 # y # x 11 en otro caso

Solución: La región donde f (x, y) es positiva es el interior del romboide de la figura 4.2. Es sobre esta región donde se debe integrar para obtener la función de densidad marginal de X, al integrar sobre los posibles valores de y:

150

| Estadística para ingeniería y ciencias Figura 4.2.

y5x11 x +1

fX ( x)

∫

x −1

5

1

dy

y

x51

x +1

x −1

x 11 x − 1 1 − 1,x,1 − 5 si 2 4 4 2

x 52 1

y5x21

La función de densidad marginal de Y tiene dos formas de calcularse, cuando 0 , y , 2 y cuando −22 , y , 0. • Caso 0 , y , 2,

• Caso 2−2 , y , 0,

dx

dx

x

1

1 y−1 2− y 5 − 5 4 4 4 y −1 y +1

x

5 −1

y 11 −1 y 1 2 − 5 4 4 4

De aquí se obtiene que la función de densidad marginal de Y es:  y12   4 2− y fY ( y)5   4  0  

si −2 , y , 0 si 0 # y , 2 en otro caso

4.1.3 Densidad condicional y variables aleatorias independientes Definición 4.8. La función de densidad de X condicionada a que Y tome el valor de y es igual a:

 f ( x, y)  fX |Y ( x | y) 5  fY ( y)  0 

si fY ( y) ≠ 0

(4.9)

si fY ( y) 5 0

De esta definición se obtiene que: f ( x, y) 5 fX |Y ( x | y) fY ( y) . Definición 4.9. Dos variables aleatorias X y Y son independientes si y sólo si:

fX |Y ( x | y) 5 fX ( x) o f ( x, y) 5 fX ( x) fY ( y)

Como se puede ver, estas definiciones son iguales que en el caso discreto.

(4.10)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 151

4.2 Esperanza matemática de una variable aleatoria continua 4.2.1 Valor esperado de una variable aleatoria Definición 4.10. El valor esperado o esperanza matemática de la variable aleatoria X cuya función de densidad es f (x), es igual a: ∞

E( X ) 5 ∫ xf ( x)dx

(4.11)

−∞

este valor corresponde a la media teórica de la variable X, y se denota con la letra griega µ. E(X ) es una medida de posición.

Ejemplo 4.10. E ncontrar el valor esperado de la variable aleatoria cuya función de densidad es igual a:  −2 x f ( x)5   0

en otro caso

Solución: ∞

∞

−∞

0

∞

µ5 E( X ) 5 ∫ xf ( x)dx 5 ∫ x 2e −2 x dx 5

e −2 x 1 − xe −2 x 5 2 2 0

El valor esperado de una variable aleatoria continua tiene definiciones y propiedades semejantes al valor esperado de las variables aleatorias discretas, la diferencia significativa está en el hecho que en lugar de sumas se usan integrales.

Definición 4.11. Si X es una variable aleatoria con función de densidad f (x), entonces el valor esperado de g(X ) es igual a:

(4.12)

Definición 4.12. Si X y Y son variables aleatorias con función de densidad conjunta igual a f (x, y), entonces el valor esperado de g(X, Y) es igual a:

E( g ( X , Y )) 5

∫

∞ −∞

g ( x, y) f ( x, y)dxdy

(4.13)

En todos los casos, el valor esperado corresponde a la media aritmética teórica de la variable aleatoria que se esté considerando.

Teorema 4.1. (Propiedades del valor esperado) Sean X y Y dos variables aleatorias y c una constante, entonces, se satisfacen las relaciones: 1. E(c) 5 c

152

| Estadística para ingeniería y ciencias

2. E(cX ) 5 cE(X ) 3. E(X + Y ) 5 E(X ) 1 E(Y ) 4. E(XY ) 5 E(X )E(Y ), cuando las variables aleatorias X y Y son independientes. Demostración: a) Si g (x) 5 c, entonces por la definición 4.11 se sigue que: ∞

∞

0

0

E( g ( X )) 5 ∫ cf ( x)dx 5 c ∫ f ( x)dx 5 c

b) Si g (x) 5 cx, entonces por la definición 4.11 se obtiene que: E(cX ) 5 E( g ( X )) 5

∫

∞ -∞

∞

cxf ( x)dx 5 c ∫ xf ( x)dx 5 cE( X ) -∞

c) Si g (x, y) 5 x 1 y, entonces por la definición 4.12 se obtiene que: ∞

E( X 1Y ) 5 E( g ( X ,Y )) 5 5∫

∞

∫

∞

-∞ -∞

∫ ∫

∞

∞

∞

-∞ -∞

xf ( x, y)dydx 1 ∫

∫

-∞ -∞

∫

∞

-∞

( x 1 y) f ( x, y)dxdy 5 ∫

∞

∫

∞

-∞ -∞

xf ( x, y)dxdy 1 ∫

∞

∫

∞

-∞ -∞

∞

∞

∞

∞

-∞

-∞

-∞

-∞

yf ( x, y)dxdy

yf ( x, y)dxdy 5 ∫ x ∫ f ( x, y)dydx 1 ∫ y ∫ f ( x, y)dxdy ∞

xf ( x)dx 1 ∫ yf ( y)dy 5 E( X ) 1 E(Y ) -∞

d) Como X y Y son variables aleatorias independientes, entonces f ( x, y) 5 fX ( x) fY ( y) , y si g(x, y) 5 xy, por la definición 4.12 resulta: E( XY ) 5

∞

∫ ∫

∞

-∞ -∞

xyf ( x, y)dxdy 5 ∫

∞

∫

∞

-∞ -∞

∞

∞

-∞

-∞

xyf ( x) f ( y)dxdy 5 ∫ xf ( x)dx ∫ yf ( y)dy 5 E( X )E(Y )

4.2.2 Varianza de una variable aleatoria Definición 4.13. La varianza de la variable aleatoria X, V(X ), es una medida de dispersión de la variable aleatoria y se calcula mediante la fórmula: ∞

V ( X ) 5 E( X − E( X ))2 5 ∫ ( x − E( X ))2 f ( x)dx

−∞

(4.14)

La varianza de una variable aleatoria se denota con el símbolo V(X ) 5 σ2.

Teorema 4.2. La varianza de la variable aleatoria X se puede calcular con la fórmula equivalente: ∞

V ( X ) 5 E( X 2 ) − (E( X ))2 5 ∫ x 2 f ( x)dx − (E( X ))2 −∞

Demostración:

∞

V ( X ) 5 E( X − E( X ))2 5 ∫ ( x − E( X ))2 f ( x)dx −∞

∞

5 ∫ ( x 2 − 2 xE( X ) 1(E( X )2 ) f ( x)dx −∞

(4.15)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 153

∞

5 ∫ ( x 2 f ( x) − 2 xE( X ) f ( x) 1(E( X )2 f ( x))dx −∞ ∞

∞

∞

−∞

−∞

−∞

5 ∫ x 2 f ( x)dx − 2 E( X ) ∫ xf ( x)dx 1(E( X ))2 ∫ f ( x)dx ∞

5 ∫ x 2 f ( x)dx − 2 E( X )E( X ) 1(E( X ))2 −∞ ∞

5 ∫ x 2 f ( x)dx − (E( X ))2 −∞

5E( X 2 ) − (E( X ))2

Ejemplo 4.11. S e están lanzando dardos a una ruleta giratoria. Sea X la variable que indica la distancia entre el punto donde cayó el dardo y el centro de la ruleta, suponiendo que la función de densidad de X es igual a: 6 x(1 − x) f ( x) 5  0 

si 0 , x , 1 en otro caso

Encontrar la media y la varianza de X. Solución: La media es: 1

3 1 3x 4 E( X ) 5 ∫ xf ( x)dx 5 ∫ 6 x (1 − x)dx 5 2 x − 52 − 5 0 0 2 2 2 0 1

1

2

3

Para la varianza primero se calcula: 1

3x 4 6 x 5 3 6 15 − 12 3 E( X ) 5 ∫ x f ( x)dx 5 ∫ 6 x (1 − x)dx 5 − 5 − 5 5 5 0.3 0 0 2 5 0 2 5 10 10 2

1

2

1

3

y, finalmente, σ2 5 V(X) 5 E(X2) 2 (E(X))2 5 0.3 2 0.52 5 0.05

Teorema 4.3. (Propiedades de la varianza) Si X y Y son variables aleatorias y c es una constante, entonces se satisfacen las relaciones: a) V(c) 5 0, la varianza de una constante es 0. b) V(cX ) 5 c2V(X ), las constantes salen al cuadrado de la varianza. c) V(X 1 c) 5 V(X ), si se traslada la distribución, no se modifica la varianza. d) V(X 1 Y) 5 V(X ) 1 V(Y), cuando X y Y son variables aleatorias independientes. Demostración: a) V(c) 5 E(c 2 E(c))2 5 E(0) 5 0. Esta propiedad dice que si la variable toma siempre el mismo valor entonces no tiene variación.

154

| Estadística para ingeniería y ciencias

b) V(cX) 5 E(cX 2 E(cX))2 5 E(cX – cE(X))2 5 E(c2(X 2 E(X))2) 5 c2E(X – E(X))2 5 c2V(X) c) V(X 1 c) 5 E(X 1 c 2 E(X 1 c))2 5 E(X 1 c 2 E(X) − c))2 5 E(X 2 E(X))2 5 V(X) d) Cuando X y Y son variables aleatorias independientes se tiene que f ( x, y) 5 fX ( x) fY ( y) , entonces V(X 1 Y) 5 E(X 1 Y 2 E(X 1 Y))2 5 E(X 1 Y 2 E(X) 2 E(Y))2 5 E(X 1 Y 2 E(X) − E(Y))2 5 E[(X 2 E(X)) 1 (Y 2 E(Y))]2 5 E(X 2 E(X))2 1 2E(X 2 E(X))E(Y 2 E(Y)) 1 E(Y 2 E(Y))2 5 V(X) 1 2[E(X) 2 E(X)][E(Y) 2 E(Y)] 1 V(Y) 5 V(X) 1 V(Y).

4.2.3 Covarianza La covarianza de dos variables aleatorias continuas tiene una definición semejante a la del caso discreto. Definición 4.14. La covarianza de las variables aleatorias X y Y se define mediante la fórmula:

Cov( X ,Y ) 5 E( X − E( X ))(Y − E(Y )) 5 ∫

∞

∫

∞

−∞ −∞

( x − E( X ))( y − E(Y )) f ( x, y)dxdy

(4.16)

Cuando X es igual a Y, la covarianza de X y Y se reduce a la varianza de X. Para facilitar los cálculos de la covarianza se tiene una fórmula equivalente en el siguiente teorema.

Teorema 4.4. La covarianza de dos variables aleatorias se puede calcular también con la fórmula equivalente: Cov( X ,Y ) 5 E( XY ) − E( X )E(Y ) 5 ∫

∞

∫

∞

−∞ −∞

xyf ( x, y)dxdy − E( X )E(Y )

Demostración: Cov( X ,Y ) 5 E( X − E( X ))(Y − E(Y )) 5 E( XY − XE(Y ) − YE( X ) 1 E( X )E(Y ))

5 E( XY ) − E( XE(Y )) − E(YE( X )) 1 E(E( X )E(Y )) (se separan las sumas)

5 E( XY ) − E(Y )E( X ) − E( X )E(Y ) 1 E( X )E(Y ) (se sacan las constantes)

5E( XY ) − E(Y )E( X )

Ejemplo 4.12. Sean X y Y variables aleatorias con función de densidad conjunta dada por: 1  f ( x, y) 5  4 0 

si −1 # x # 1, x − 1 # y # x 11 en otro caso

Encontrar la covarianza de X y Y.

(4.17)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 155

Solución: Para calcular la covarianza se utiliza la segunda fórmula. Primero se obtienen las medias de X y Y y el valor esperado de XY. E(X) 5 E(Y) 5

E(XY) 5

Finalmente, se tiene que: Cov(X, Y) 5 1/3 2 0 5 1/3

Teorema 4.5. (Propiedades de la covarianza) Si X, Y y Z son variables aleatorias y a y b son constantes, entonces se satisfacen las relaciones: a) Si X y Y son variables aleatorias independientes, entonces Cov (X, Y) 5 0. b) Cov (aX, bY) 5 abCov (X, Y), las constantes salen de la covarianza. c) Cov (X 1 a, Y 1 b) 5 Cov (X, Y) d) V(X 1 Y, Z) 5 Cov (X, Z) 1 Cov (Y, Z). Demostración: a) Debido a que X y Y son independientes se tiene que E(XY) 5 E(X)E(Y), por tanto: Cov( X ,Y ) 5 E( XY ) − E( X )E(Y )

5 E( X )E(Y ) − E( X )E(Y ) 5 0

b) Cov (aX, bY) 5 E(aX 2 E(aX))(bY 2 E(bY))

5 E(aX 2 aE(X))(bY 2 bE(Y))

5 E(a[X 2 E(X)])(b[Y 2 E(Y)])

5 abE [X 2 E(X)][Y 2 E(Y)]

5 abCov (X, Y) c) Cov (X 1 a, Y 1 b) 5 E(X 1 a 2 E(X 1 a))(Y 1 b 2 E(bY 1 b))

5 E(X 1 a 2 E(X) 2 a)(Y 1 b 2 E(Y) − b)

5 E(X 2 E(X))(Y 2 E(Y))

5 Cov (X, Y)

156

| Estadística para ingeniería y ciencias

d) Cov (X 1 Y, Z) 5 E(X 1 Y 2 E(X 1 Y ))(Z 2 E(Z )) 5 E(X 1 Y 2 E(X ) 2 E(Y ))(Z – E(Z )) 5 E((X 2 E(X ) ) 1 (Y2 E(Y )))(Z 2 E(Z )) 5 E((X 2 E(X ) )(Z 2 E(Z )) 1 E(Y2 E(Y ))(Z 2 E(Z )) 5 V(X, Z ) 1 V(Y, Z ) La primera de las propiedades de la covarianza hace suponer que con ella se puede determinar el grado de asociación de las dos variables; si las variables son independientes no hay asociación entre ellas, el inverso no necesariamente es cierto, pues variables aleatorias que no son independientes pueden tener covarianza igual a 0, como se ve en el siguiente ejemplo.

Ejemplo 4.13. Sea X y Y variables aleatorias con función de densidad conjunta dada por: 1  f ( x, y)5  π 0 

si x 2 1 y2 # 1 en otro caso

a) Compruebe que X y Y no son independientes. b) Encuentre la covarianza de X y Y. Solución: a) Para probar que X y Y no son independientes, se debe ver que f (x, y) ≠ fx(x)fy(y). Para encontrar las funciones de densidad marginales de X y Y se debe integrar a x en el rango − 1 − y2 # x # 1 − y2 y a y en el rango − 1 − x 2 # y # 1 − x 2 . fX ( x)5 ∫

1− x 2

− 1− x

2

2 2 1− y2 1 dy 5 2 1 − y 1 dy 5 2 1 − x y f ( y)5 2 Y ∫ − 1− y π π π π

con esto se obtiene f (x, y) ≠ fx(x)fy(y) y se concluye que X y Y no son independientes. 1

b) E( X )5 ∫−1 ∫−

1− x 2 1− x 2

y

 y2  dydx 5 ∫   −1 π  2π − 1

1− x 2

dx 5 0 de la misma manera se llega a 1− x 2

que E(Y) 5 0, falta calcular E(XY). E( XY )5 ∫

1

∫

1− x 2

−1 − 1− x 2

xy

 y2  dydx 5 ∫ x   −1 π  2π − 1

1− x 2

dx5 0 1− x 2

Entonces la covarianza de X y Y es Cov(X, Y) 5 0.

Definición 4.15. Dadas X y Y variables aleatorias, se define el coeficiente de correlación mediante la fórmula: rxy 5

Cov( X ,Y ) Cov( X ,Y ) 5 X xX y V ( X )V (Y )

(4.18)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 157

Teorema 4.6. Si X y Y son dos variables aleatorias, entonces se satisface que:

−1 # rxy # 1

(4.19)

Demostración: Considérese las variables Z1 5 (X − µx) /σx y Z2 5 (Y 2 µy) /σy, donde µx 5 E(X), σx2 5 V(X), µy 5 E(Y) y σy2 5 V(Y), observe que: µ1 5 E(Z1) 5 E[(X 2 µx) /σx] 5[E(X) 2 µx] /σx 5 0; de la misma manera µ2 5 E(Z2) 5 0. Entonces V(Z1) 5 E(Z1 − E(Z1))2 5 (E(Z1)2 5 E((X 2 µx) /σx)2 5 E((X 2 µx)2) / V(X) 5 1, de la misma manera V(Z2) 5 1. Por tanto, Cov(Z1, Z2) 5 E[(Z1−µ1)(Z2 2 µ2)] 5 E(Z1Z2). Por otro lado, se sabe que (Z1 ± Z2)2 $ 0, entonces E[(Z1 ± Z2)2] $ 0. Al desarrollar el cuadrado y aplicar las propiedades del valor esperado, se tiene que: E[(Z1− Z2)2] 5 E[(Z1)2 ± 2 Z1 Z2 + (Z2)2] 5 E[(Z1)2] ± 2Ε(Z1 Z2) + E[(Z2)2] 5 V(Z1) ± 2Cov(Z1 Z2) + V(Z2) 5 1 ± 2Cov(Z1 Z2) + 1 5 2(1 ± Cov(Z1 Z2)) $ 0 De esto se obtienen dos desigualdades:  1 + Cov (Z1 Z2)) $ 0 implica que −1 # Cov (Z1,Z2).  1 − Cov (Z1 Z2)) $ 0 implica que Cov (Z1,Z2) # 1. De las dos desigualdades resulta: −1 # Cov (Z1,Z2) # 1. Cov (Z1,Z2) 5 E(Z1Z2) 5 E[(X 2 µx) /σx] [(Y 2 µy ) /σy] 5 E[(X 2 µx)(Y 2 µy)] /σxσy 5 Cov (X, Y)/σxσy 5 rxy

Corolario 4.1. Dadas X y Y variables aleatorias se tiene que rxy 5 ±1 si y sólo si X 5 aY + b, con a y b constantes. Demostración: E[(Z1 ± Z2)2] 5 0 si y sólo si Z1 = ±Z2, entonces (X 2 µx) /σx 5 ±(Y 2 µy) /σy; al despejar de esta ecuación la variable X, se obtiene: σy

Y

a

σx

σy

µ y 1µ x

    

σx

{

X 5±

b

158

| Estadística para ingeniería y ciencias

Como se observa, si el coeficiente de correlación es igual a 1 o a −1, entonces X y Y están asociados mediante la ecuación de una recta. Cualquier otra asociación entre X y Y no necesariamente la detecta la covarianza o el coeficiente de correlación.

4.2.4 Función generatriz de momentos Definición 4.16. Se llama momento de orden i de la variable X al valor esperado de la potencia i-ésima de X, y se denota como Mi, esto es Mi 5 E(Xi ); con i 5 1, 2, 3, … Definición 4.17. Dada X variable aleatoria con función de densidad f (x), se llama función generatriz de momentos de X a la función MX(t) definida como MX(t) 5 E(eXt). El nombre de función generatriz de momentos se justifica en que a partir del desarrollo en series de potencia de la función exponencial etX 51 1 tX 1

(tX )2 (tX )3 (tX )4 1 1 1. . . 2! 3! 4!

(4.20)

La función generatriz de momentos es una serie de potencias de t, en cuyos coeficientes están los momentos de orden i, E( X i ) . MX (t ) 5 E(etX ) 51 1 tE( X ) 1

t 2 E( X 2 ) t 3 E( X 3 ) t 4 E( X 4 ) 1 1 1. . . 2! 3! 4!

(4.21)

Conocida la función generatriz de momentos, se pueden obtener los momentos de orden i, derivando esta función y evaluando en t 5 0; como se indica en el siguiente teorema.

Teorema 4.7. Dada una variable aleatoria X, se tiene que: dk M (t ) 5 E ( X k ) dt k X t =0

(4.22)

Demostración: dk M (t ) dt k X

5 E( X k ) 1 tE( X k +1 ) 1 t 2 t =0

E( X k +2 ) 1... 2!

5 E( X k ) t =0

El siguiente teorema se aplica para identificar la función de distribución de una variable aleatoria. Teorema 4.8. La función generatriz de momentos es una transformación inyectiva. En una transformación inyectiva, funciones de densidad diferentes tienen función generatriz de momentos diferentes: ( MX (t ) ≠ MY (t ) ), y si se tienen dos variables aleatorias para las cuales las funciones generatrices de momentos son iguales, las variables aleatorias tienen la misma función de densidad.

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 159

Ejemplo 4.14. C alcular la función generatriz de momentos de la variable aleatoria X cuya función de densidad está dada por:  −2 x f ( x)5   0

en otro caso

Solución: ∞

∞

0

0

MX (t ) 5 E(etX ) 5 ∫ etx 2e −2 x dx 5 ∫ 2e( t −2 ) x dx 5

2 e( t − 2 ) x t −2

∞

5 0

2 2−t

si t , 2, en otro caso la integral diverge.

4.3 Distribución uniforme continua Definición 4.18. Se conoce como variable aleatoria uniforme continua en el intervalo (a, b) a la variable X que tiene función de densidad igual a:  1  f ( x)5  b − a  0 

si a # x # b

(4.23)

en otro caso

Teorema 4.9. Si X es una variable aleatoria uniforme en (a, b), entonces su media, varianza y su función generatriz de momentos son iguales a:  µ 5 (a 1 b)/2  σ2 5 (a − b)2/12  MX(t) 5

etb − eta t (b − a )

(4.24)

Demostración: b

 µ 5 E(X ) 5

∫

b

a

x x2 b2 − a 2 (a − b)(a 1 b) a 1 b dx 5 5 5 5 b− a 2(b − a) a 2(b − a) 2(b − a) 2

 Para la varianza primero calculamos E(X2). b

E(X ) 5 2

∫

b

a

x2 x3 b3 − a 3 (a − b)(a 2 1 ab 1 b2 ) a 2 1 ab 1 b2 dx 5 5 5 5 b− a 3(b − a) a 3(b − a) 3(b − a) 3

De esta manera la varianza es:

σ2 5 E(X2) 2 (E(X))2 5

a 2 1 ab 1 b2 (a 1 b)2 − 3 4

160

| Estadística para ingeniería y ciencias

5

4(a 2 1 ab 1 b2 ) − 3(a 2 1 2 ab 1 b2 ) 12

5

a 2 − 2 ab 1 b2 12

5

(b − a ) 2 12

 La función generatriz de momentos es MX(t) 5 E(e tX ) 5

∫

b

a

b

etx etx etb − eta dx 5 5 b− a t (b − a ) a t ( b − a ) Tabla 4.1.

Resumen

Variable aleatoria uniforme continua

Función de densidad

f (x) 5 1/(b 2 a) si a , x , b f (x) 5 0 en cualquier otro caso

Media

µ 5 (a 1 b)/2

Varianza

σ2 5 (b 2 a)2/12

Función generatriz de momentos

MX (t)5 5

etb − eta t (b − a )

Ejemplo 4.15. Sea X una variable aleatorias uniforme en el intervalo [2, 4]; (X , U(2, 4)). Calcular: a) P(2.3 # X # 3.4) b) Graficar f (x) c) La media de X d) La varianza de X e) La función generatriz de momentos Solución: a) P(2.3 # X # 3.4) 5

∫

3.4

2.3

1 x dx 5 4−2 2

b) La gráfica correspondiente se muestra a continuación: (4 1 2)2 c) µ 5 53 2 2 (4 2 2) 1 d) σ2 5 5 12 3 t4 t2 4t 2t e) MX(t) 5 e − e 5 e − e

t ( 4 − 2)

2t

Figura 4.3.

3.4

5 2.3

3.4 − 2.3 1.1 5 5 0.55 2 2 Función de densidad uniforme (2, 4)

0.6 0.5 0.4 0.3 0.2 0.1 0

0

1

2

3

4

5

6

7

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 161

4.4 Distribución exponencial La distribución exponencial se utiliza, entre otras cosas, para modelar el tiempo de vida de baterías, transistores, baleros o componentes eléctricos de computadora; también para modelar la distancia entre los principales defectos en una carretera, etcétera. La distribución exponencial se aplica en la ingeniería ambiental. Por ejemplo, se puede usar para modelar el tiempo que se tardan los pesticidas en degradarse en la tierra o para medir el tiempo en que se toma en degradarse una sustancia radiactiva. Igualmente, se utiliza para medir la cinética de la demanda bioquímica de oxígeno (DBo5). De manera análoga, se puede usar para medir el tiempo que tardan las partículas atmosféricas en caer en la superficie de la Tierra. Definición 4.19. Se dice que una variable aleatoria continua X está exponencialmente distribuida si su función de densidad es: f (x) 5 e2λx para X $ 0 con λ $ 0

(4.25)

Donde: λ es el parámetro de la distribución. Considerando la definición de función de distribución, se tiene que:  F(x) 5  P(X $ x) 5 e2λx

Teorema 4.10. Sea X una variable aleatoria exponencial con parámetro λ, entonces su media, varianza y función generatriz de momentos son iguales a:  µ 5 1/λλ  σ2 5 1/λ2  MX(t) 5 λ/(λ − t)

(4.26)

Demostración:  µ 5 E(X) 5

∫

∞

0

λ x2e− λ xdx 5 −

∞ 1 e − λx − xe − λ x 5 0 λ λ

 Para la varianza primero se calcula E(X 2). E(X 2) 5

De esta manera, la varianza es:

σ2 5 E(X 2) 2 (E(X))2 5

2 1 1 − 5 λ2 λ2 λ2

∫

∞

0

λxe − λx dx 5 −

∞ 2e − λx 2 xe − λx 2 − − x 2 e − λx 5 2 0 λ λ2 λ

162

| Estadística para ingeniería y ciencias

 La función generatriz de momentos es: MX(t) 5 E(e tX ) 5

∫

∞

0

etx λe − λx dx

∞

∫

0

λe( t −λ ) x dx

λe( t −λ ) x t −λ

∞

5

; con t , λ

0

Tabla 4.2. Resumen

Variable aleatoria exponencial f (x) 5 λe λx si x . 0, con λ . 0 f (x) 5 0 en cualquier otro caso

Función de densidad Media

µ 5 1/ λ

Varianza

σ2 5 1/ λ2

λ λ−t

;t,λ MX (t) 5

Función generatriz de momentos

Ejemplo 4.16. S ea X la variable aleatoria que indica el tiempo en años en que un componente electrónico se mantiene en servicio, X se distribuye de acuerdo con una exponencial con parámetro λ 5 0.2. Calcular la probabilidad de que: a) El componente se mantenga trabajando después de cumplir dos años. b) El componente esté funcionando entre tres y cuatro años. c) El componente deje de funcionar antes de cumplir el año. Solución: a) El componente se mantenga trabajando después de cumplir dos años.

∫

P(X . 2) 5

∞

2

∞

λe − λx dx 5 −e −0.2 x 5 e −0.4 5 0.67 2

b) El componente esté funcionando entre tres y cuatro años. P(3 , X , 4) 5

∫

4

3

4

λe − λx dx 5 −e −0.2 x 5 − e −0.8 1e −0.6 5 0.99 3

c) El componente deje de funcionar antes de cumplir el año.

∫

1

0

1

λe − λx dx 5 −e −0.2 x 5 − e −0.2 1e −0 5 0.1813

La distribución exponencial es una familia paramétrica de funciones; la gráfica siguiente muestra la función de densidad exponencial para algunos valores de λ. Figura 4.4. Gráfica con curvas de funciones de probabilidad de densidad de la distribución exponencial con diferentes valores de λ.

0

Gráfica de curvas exponenciales de densidad para valores lambda 5 2, .5, 1

Datos Y

P(0, X , 1) 5

2.0

2.0

1.5

1.5

1.0

1.0

0.5

0.5

0.0

0.0 0

2

4 6 8 Variable aleatoria X

10

Variable f(x; 2) f(x; .5) f(x; 1)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 163

Ejemplo 4.17. E l tiempo en años que tarda una sustancia radiactiva en degradarse se distribuye exponencialmente con función de densidad: f (x) 5

1 12x/15 e para x . 0 15 5

¿Cuál es la probabilidad de que el tiempo que tarda en degradarse sea... a) A lo más de 6 años? b) Entre 6 y 18 años? Solución: a) P(X # 6) 5

∫

6

0

6

λe − λx dx 5 −e − x/15 51 − e −6/15 5 0.3297

b) P(6 # X # 18) 5

0

∫

18

6

λe

− λx

dx 5 −e

−

x 15

18

5e

−

6 15

−e

−

18 15

5 0.6988 − 0.3297 5 0.3691

6

Ejemplo 4.18. E l tiempo requerido para que ocurra una reacción química está exponencialmente distribuido con un tiempo esperado de 5 minutos. a) ¿Qué proporción de la sustancia se formará dentro de 1 minuto? b) ¿Dentro de 5 minutos? c) ¿Entre 4 y 8 minutos? Solución: 1 1 1 Se sabe que el valor esperado es igual a E(X ) 5 5 5, por lo que λ 5 5 0.20; 15 5 λ entonces:

a) P(X # 1) 5 1 2 e−0.20(1) 5 0.1813 b) P(X # 5) 5 1 2 e−0.20(5) 5 0.6321 c) P(4 , X , 8) 5 e−0.20(4) 2 e−0.20(8) 5 0.2474

4.5 Distribución gamma 4.5.1 Función gamma Antes de entrar al estudio de la función de densidad gamma se revisará la función gamma que se define mediante una integral. Definición 4.20. La función dada por la relación. Г

G(αα) 5 se conoce como función gamma.

∫

∞

0

x α−1e − x dx

(4.27)

164

| Estadística para ingeniería y ciencias

Teorema 4.11. La función gamma satisface las siguientes condiciones. a) Para cualquier α . 1, G(α) 5 (α 2 1) G(α 2 1). b) Para cualquier entero positivo n, G(n) 5 (n 2 1)! c) G(0.5) 5

π

Demostración: a) Al aplicar integración por partes a la función gamma, se tiene que: u 5 xα 21 dv 5 e–x

du 5 (α 2 1)xα22 v 5 2e2x

∫

∞

0

∞

∞

0

0

x α−1e − x dx 5 − x α−1e − x 1(α − 1) ∫ x( α−1)−1e − x dx 5 (a 2 1) G(G 2 1)

b) Para n entero mayor que 1, se satisface la relación anterior, esto es GГ(n) 5 (n 2 1) 2 G(n 2 1); de esta manera, aplicando la misma relación repetidamente se llega a que: GГ(n) 5 (n 2 1) (n 2 1) (n 2 1) . . . 2 · 1 G(1) 5 (n 2 1)! GГ(1) y se puede ver de la integral que G(1) 5 1, con lo que se termina la demostración. c) Para demostrar que G(0.5) 5 π, se requiere aplicar la técnica de cambio de variable en la inte2 2 gración; al hacer el cambio de variable u 5 x , se x tiene que 2dux5 x dx, entonces: 1 2

∞

1 2

1 2

1 2

El siguiente paso es calcular la integral I 5 ∫ e − u du como una integral iterada doble: 2

0

∞

∞

I 2 5 ∫ e − u du ∫ e − v dv 5 ∫ 2

0

0

2

∞

0

∫

∞

0

2

2

e − ( u +v )dudv

Haciendo un cambio de variable a coordenadas polares, se tiene que: u 5 r cos(θ) y v 5 r sen(θ), el jacobiano de esta transformación es igual a |J|5 r y dado que 0 # u, v # `; entonces 0 # r # ` y 0 # θ # Π/2, efectuando el cambio de variables se tiene que:

De esto se obtiene que: Γ(0.5) 5 2 I 5 2

π 5 π , lo cual se quería probar. 2

4.5.2 Función de densidad gamma Con base en la función gamma se define la función de densidad gamma considerando dos parámetros, de acuerdo con la siguiente definición.

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 165

Definición 4.21. Una variable aleatoria X tiene distribución gamma si su función de densidad es:

para x . 0, con α, b . 0; 0 en otro caso

f (x) 5

(4.28)

La función f (x) satisface la primera propiedad de una función de densidad, ya que es positiva; para ver que también cumpla con la segunda propiedad se aplica el cambio de variable y 5 x/b, se sigue que dy 5 dx/ b, entonces se obtiene la función gamma dividida entre la función gamma que da igual a 1.

µ

h

0

F 1 y hx x F 1 e x /b e dx dy 51 5 µ F 0 , (F ) b ,( F)

(4.29)

la distribución gamma se convierte en la distribución exponencial. Esto se ve en la figura 4.5. La siguiente figura presenta la función de densidad gamma para diferentes valores de los parámetros α y b. a)

b) Gráfica sobrepuesta de fdp gamma incompleta vs. de valores Gráfica sobrepuesta de fdp gamma incompleta vs. valores alfa de alfa

1.2

1.2

1.2

1.6

1.6

1.6

1.6

1.0

1.0

1.0

1.0

1.4

1.4

1.4

1.4

1.2

1.2

1.2

1.0

1.0

1.0

0.8

0.8

Variable Variable densidad alfa 5 1 Prob. alfa 5 1 1.0 densidadProb. densidad alfa 5 .6 Prob. densidadProb. alfa 5 .6 densidad alfa 5 2 Prob. densidadProb. alfa 5 2 0.8 densidad alfa 5 5 Prob. densidadProb. alfa 5 5

0.6

0.6

0.6

0.4

0.4

0.4

0.4

0.2

0.2

0.2

0.2

0.0

0.0

0.0

0.8

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

0.2

0.0

0.0

0.0 6 7

0.0

0.8 0.6 0.4

0

1

02

1 3

24

35

46

57

f(x; alfa)

0.8

Variable Variable 0.8 densidad 5 2, beta 5 .333 Prob. densidadProb. alfa 5 2, beta alfa 5 .333 densidad Prob. densidadProb. alfa 5 1, beta alfa 5 15 1, beta 5 1 densidad Prob. densidadProb. alfa 5 2, beta alfa 5 25 2, beta 5 2 0.6 densidad Prob. densidadProb. alfa 5 2, beta alfa 5 15 2, beta 5 1

0.8 0.6

f(x; alfa)

1.2

f(x; alfa, beta)

f(x; alfa, beta)

Gráfica sobrepuesta de fdp gamma vs. diferentes valores alfa y beta Gráfica sobrepuesta de fdp gamma vs. diferentes valores de alfa yde beta

0

X VariableVariable aleatoriaaleatoria X

20

42

64

86

108

1.2

0.0 10

X VariableVariable aleatoriaaleatoria X

Figura 4.5. a) La función de densidad gamma con diferentes valores de α y b. b) La función de densidad gamma con b 5 1.

Teorema 4.12. Si X es una variable aleatoria que se distribuye como una gamma con parámetros α y β, entonces la media, la varianza y la función generatriz de momentos de X es:  E(X) 5 µ 5 αβ,  V(X) 5 σ2 5 αβ2  MX(t) 5 (1 − tβ)2α

(4.30)

Demostración Para encontrar la media, la varianza y la función generatriz de momentos se utiliza para todos los valores de α y β positivos.  E(X) 5

∫

∞

0

xf ( x)dx 5 ∫

∞

0

( α +1 )−1 − x /β ∞ x e xx α−1e − x/β dx 5 αβ dx 5 αβ ∫ α α +1 0 β Γ (α ) β Γ(α 11)

 Para calcular la varianza se determina primero E(X 2):

µ

h

0

x F 1 e x /b dx 51 bF ,( a)

166

| Estadística para ingeniería y ciencias ∞

∞

0

0

E(X2) 5 ∫ x 2 f ( x)dx 5 ∫

( α + 2 )−1 − x /β ∞ x e x 2 x α − 1 e − x /β 2 dx 5 α(α 11)β 2 dx 5 ( 1 1 ) α α β ∫ α α+2 0 β Γ (α ) β Γ (α 1 2 )

Entonces, la varianza es: σ2 5 E(X 2) 2 (E(X ))2 5 α(α 1 1)β2 − α2β2 5 αβ2  La función generatriz de momentos es: MX(t) 5

∫

∞

0

etx f ( x)dx 5 ∫

∞

0

tβ

−α

∫

∞

0

tx α −1 x ( t −1/β ) ∞e x e etx x α−1e − x/β dx dx 5 ∫ α α 0 β Γ (α ) β Γ (α ) *

x α−1e − x/β dx β * α Γ (α )

tβ

−α

, donde β* 5 β/(1−tβ) Tabla 4.3.

Resumen

Función de densidad

Variable aleatoria gamma

x α − 1 e − x /β β Γ (α )

f (x) 5 α si x . 0, con α, β . 0 f (x) 5 0 en cualquier otro caso

Media

µ 5 αβ

Varianza

σ2 5 αβ2

Función generatriz de momentos

MX (t) 5 (12tβ)2α; t , 1/β

Definición 4.22. Se conoce como distribución gamma estándar a la distribución gamma con b 5 1.

Ejemplo 4.19. S ea X una variable aleatoria con función de distribución gamma estándar con parámetro α 5 3, calcular: a) La probabilidad de que X esté entre 4 y 5. b) La probabilidad de que X sea mayor que 4. Solución: Para obtener los cálculos, se usa la tabla de la distribución gamma que se incluye en el apéndice de este libro o usando Excel o Minitab, de acuerdo con las instrucciones que vienen en la última sección de este capítulo. Para ello, se utiliza la fórmula P(a # X # b) 5 F(b) 2 F(a).

a) P(4 # X # 5) 5 F(5) 2 F(4) 5 0.875 2 0.762 5 0.113 b) P(X . 4) 5 1 2 P(X # 4) 5 1 2 F(4) 5 1 − 0.762 5 0.238

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 167

Ejemplo 4.20.* S ea X el tiempo de supervivencia, en días, de los conejillos de indias expuestos a una radiación gamma de 400 rads (dosis de radiación absorbida). Se supone que X sigue a una distribución gamma con parámetros α 5 10 y β 5 20. a) Calcular la media y la varianza de la supervivencia. b) Calcular la probabilidad de que un conejillo sobreviva entre 80 y 120 días. c) Calcular la probabilidad de que un animal sobreviva cuando menos 20 días. Solución: De acuerdo con las fórmulas obtenidas, a) La media de X es E(X) 5 µ 5 αβ 5 (10)(20) 5 200 días. La varianza es V(X) 5 σ2 5 αβ2 5 (10)(20)2 5 4 000. Para saber la variación promedio de la supervivencia en días se debe obtener la desviación estándar, σ 5 63.25 días.

b) P(80 # X # 120) 5 F(120/20, 10) 2 F(80/20, 10) 5 F(6, 10) 2 F(4, 10) 5 0.084 2 0.008 (de la tabla de la distribución de gamma) 5 0.076

c) P(X $ 20) 5 1 2 P(X , 20) 5 1 2 F(20/20, 10) ≈ 0.000 (de la tabla de la distribución gamma) Ejemplo 4.21. S upóngase que el consumo de electricidad X en kilowatts-hora, sigue a una distribución gamma con parámetro de forma α 5 3 y parámetro de escala β 5 3. Encontrar: a) La media y la varianza de X. b) La probabilidad de que en cierto día el consumo de electricidad sea mayor que 15 kilowatts-hora. c) La probabilidad de que el consumo diario de electricidad sea de cuando menos 20 kilowatts-hora. d) La probabilidad de que el consumo por día esté entre 30 y 50 kilowatts-hora. Solución: Para calcular la media y la varianza µ y σ2 se utilizan las fórmulas: µ 5 αβ y que σ2 5 ααβ2. a) μ 5 (3)(3) 5 9 y σ2 5 (3)(3)2 5 27 b) P(X . 15) 5 0.4490 c) P(X $ 20) 5 0.2928 d) P(30 # X # 50) 5 0.0797 *Problema adaptado de Probabilidad y estadística para Ingeniería y Ciencias de J. L. Devore, Thomson (2001).

168

| Estadística para ingeniería y ciencias

4.6 Distribución Weibull La distribución Weibull la introdujo el físico Weibull en 1939 y de forma análoga a las distribuciones gamma y exponencial, se utiliza para modelar tiempo de falla de componentes mecánicos o eléctricos. Por ejemplo, la distribución Weibull proporciona la probabilidad de que, bajo condiciones experimentales específicas, un componente se mantenga funcionando en forma apropiada por cuando menos un tiempo determinado. Esta función, igualmente, se usa en el diseño de sistemas complicados, cuya operación o seguridad depende de los varios componentes involucrados en el sistema; por ejemplo, si una columna de acero puede vencerse. Otra aplicación de la distribución Weibull es en el modelado de las fallas que puede tener algún aparato sensible al calor y el estudio de componentes idénticos sujetos a condiciones ambientales idénticas, los cuales pueden fallar a tiempos diferentes e impredecibles. Definición 4.23. La variable aleatoria X se distribuye de acuerdo con una distribución Weibull si su función de densidad es: α

f (x) 5

αx α−1e − ( x/β ) α β

(4.31)

para x $ 0 con α . 0 y β . 0; 0 en otro caso. La siguiente gráfica muestra el comportamiento de la función de densidad de Weibull, según diferentes valores de α y β.

Datos Y

Gráfica sobrepuesta de valores de alfa y beta vs. var. aleatoria Weibull 1.6

1.6

1.4

1.4

1.2

1.2

1.0

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

Variable Alfa 5 1, beta 5 1 Alfa 5 2, beta 5 1 Alfa 5 2, beta 5 .5

0.0 0

1

2

3

4

5

6

Var. aleatoria X de Weibull

Figura 4.6. Gráfica que muestra la curva de densidad de Weibull. Nótese que cuando α 5 1, la curva se torna exponencial.

El siguiente teorema muestra una forma simple de la función de distribución acumulada Weibull, lo que ayudará a calcular las probabilidades de que X esté en cualquier intervalo.

Teorema 4.13. La función de distribución acumulada de una variable aleatoria Weibull con parámetros α y β es:

F(x; α, β) 5 1 2 exp[2 (x/β)α] para x $ 0

(4.32)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 169

Demostración: La demostración es directa, por tanto sólo es necesario derivar esta función respecto a x y ver que el resultado es la función de densidad Weibull. El resultado de este teorema permite tener una manera directa de calcular probabilidades para la variable aleatoria Weibull mediante la fórmula: P(a # X # b) 5 F(b; α, β) 2 F(a; α, β) Teorema 4.14.

Si X es una variable aleatoria Weibull, entonces su media y varianza son: 1  E(X) 5 µ 5 Γ( 11) 2 α 1 V(X) 5 Γ( 11) [Γ( 11)]2 α α

(4.33)

Demostración:  E(X) 5

∫

∞ 0

xf ( x)dx 5 ∫

∞ 0

α

x α e2( x /β ) dx βα

x dx Si se hace el cambio de variable u 5 ( )α se tiene que du 5 xα−1 α y, por tanto, la integral se β β convierte en: E(X) 5

∫

∞

0

u(1/α+1)−1e − udu 5 Γ(

1 11) α

 Para calcular la varianza se determina primero E(X 2), en donde se usa el cambio de variable x u 5 ( )α β α + 1 − ( x /β ) ∞ ∞x ∞ 2 e E(X 2) 5 ∫ x 2 f ( x)dx 5 ∫ dx 5 ∫ u( 2/α+1)−1e − udu 5 Γ( 11) 0 0 0 α βα α

Entonces la varianza es: σ2 5 E(X2) 2 (E(X))2 5 Γ(

2 1 11) 2 [Γ( 11)]2 α α

Tabla 4.4. Resumen

Variable aleatoria Weibull α

Función de densidad

x α−1e − ( x/β ) β

f (x) 5 si x . 0, con α, β . 0 α f (x) 5 0 en cualquier otro caso

Media

µ 5 Γ(1/α 11),

Varianza

Σ2 5 Γ(2/α 11) 2 [Γ(1/α 11)]2

La función generatriz de momentos no tiene una expresión simple, por tal razón no la incluimos.

170

| Estadística para ingeniería y ciencias

Ejemplo 4.22.* S ea X una variable aleatoria con función de distribución acumulada Weibull con parámetros α 5 20 y β 5 100. Calcular: a) P(X # 105) b) P(98 # X # 102) Solución:

105 20 a) P(X # 105) 5 F(105; 20, 100) 5 1 2 exp[−( ) ] 100 5 1 2 0.070 5 0.930 b) P(98 # X # 102) 5 F(98; 20, 100) 2 F(102; 20, 100) 98 20 102 20 5 exp[2( ) ] 2 exp[2( ) ] 100 100 5 0.513 2 0.226 5 0.287

*Problema adaptado del libro de Devore (2001).

4.7 Distribución normal 4.7.1 Definición y propiedades En las aplicaciones estadísticas, la distribución normal es la más importante de todas las distribuciones debido, entre otras razones, a que muchos procesos aleatorios tienen resultados simétricos y concentrados en un punto. Esta distribución fue primeramente propuesta por Abraham De Moivre (1667-1754). Sin embargo, 100 años después Karl Gauss (1777-1855) y Pierre Simon, marqués de Laplace (1749-1827), la propusieron de manera independiente. Por esta razón, a la distribución normal también se le llama gaussiana o campana de Gauss. La normal se obtuvo como una aproximación cuando n → ∞ de la binomial. Definición 4.24. La variable aleatoria X se distribuye según una normal con parámetros µ y σ, si la función de densidad de X es: f ( x) 5

2 2 1 e − ( x−µ ) /2 σ para 2` , x , `, con 2` , µ , ` y σ . 0 2 πσ

Se utiliza la expresión:

Densidad Normal

X ~ N(µ, σ2) para indicar que X es normal con parámetros µ y σ2. La gráfica de la función de densidad normal es simétrica con respecto al parámetro µ; la amplitud de la gráfica está dada por el parámetro σ. Figura 4.7.

s

m

(4.34)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 171

La probabilidad de que X esté en un intervalo es igual al área bajo la curva de la función de densidad. Entonces se observa que:

mm

mm

Figura 4.8.

El área bajo la curva antes de µ es igual al área después de µ: P(X , µ) 5 P(X . µ) 5 0.5. El área antes de µ − a y área después de µ + a son iguales: P(X , µ 2 a) 5 P(X . µ 1 a)

m2a

m

m1a

Figura 4.9.

 Para intervalos de igual longitud, si el intervalo está más cerca de µ, el área correspondiente es mayor que si se está lejos de µ. En la gráfica se ve que b – a 5 d 2 c, pero: P(a , X , b) , P(c , X , d)

a

b c

m

d

Figura 4.10.

Por ser la normal una función de densidad se tiene que el área total bajo la curva normal es igual que 1.

172

| Estadística para ingeniería y ciencias

Teorema 4.15. Si X es una variable aleatoria normal con parámetros µ y σ2, entonces la media, varianza y función generatriz de momentos de X son:  E(X) 5 µ  V(X) 5 σ2  Mx(t) 5 e

tµ1

t 2σ 2 2

(4.35)

Demostración:  Se calcula el valor esperado E(X − µ ) 5 E(X) − µ y se utiliza el cambio de variable: y 5 x 2 µ, lo que implica que dy 5 dx.  E(X − µ ) 5

∫

∞

−∞

( x − µ) f ( x)dx 5

∞ 2 2 1 ( x − µ)e − ( x−µ ) /2 σ dx ∫ −∞ 2 πσ

∞ 2 2 2 2 1 1 ye − y /2 σ dy 5 e − y /2 σ 2 πσ ∫−∞ 2 πσ

5

∞

50 −∞

De donde se obtiene que E(X) − µ = 0 , lo cual implica que E(X) = µ.  La varianza es: V(X) 5 E(X − µ)2 5

∫

2 2 σ2 5 ye − y /2 σ 2 πσ

∞

0

( x − µ)2 f ( x)dx 5

∞

∞ 2 2 1 y2 e − y /2 σ dx ∫ 0 2 πσ

∞ 2 2 σ2 e − y /2 σ dy 5 σ 2 ∫ −∞ 2 πσ

1 −∞

 La función generatriz de momentos es: µ

MX(t) 5

5

∞

( x −µ )

0

t M

∫

e

t 2S 2 2

d

2 PS °0

f ( x)dx 5

2 2 2

e ( y t S

) /2 S 2

et µ ∞ ty − y2 /2 σ 2 e e dy 2 πσ ∫0 t M

dy 5 e

t 2S 2 2

Tabla 4.5. Resumen

Variable aleatoria normal

1

2

2

Función de densidad

f (x) 5 e − ( x−µ ) /2 σ si 2` , x , ` con σ . 0 2 πσ 2` , µ , `

Media

µ

Varianza

σ2

Función generatriz de momentos

MX (t) 5 e

tM1

t 2S 2 2

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 173

4.7.2 Cálculo de probabilidades normales La distribución normal se utiliza para modelar infinidad de procesos aleatorios. A pesar de la importancia de la distribución normal dentro de la estadística, no es posible calcular las probabilidades integrando la función de densidad, pues no existe su antiderivada, por esta razón, la única manera de calcular las áreas bajo la curva normal es mediante integración numérica. Los resultados se pueden encontrar en tablas incluidas en los libros o calcularlas empleando una computadora. La relación que tiene el área de la curva normal y su desviación estándar está dada esquematizada en las dos gráficas siguientes: f (z) f (z) 68.27% 95.45%68.27%

2.15%

2.15% 13.6% 34.1% 34.1% 13.6% m 2 3s m 2 2s m 2 s m

m 1 s m 1 2s m 13s

2.15% 13.6% 34.1% 34.1% 13.6% 68.2%

68.2% 95.4% 99.7%

99.73%95.45%

2.15%

95.4% m 2 3s m 2 2s m 299.7% s m m 1 s m 1 2s m 13s

23

22

21

0

23

22

21

a) X ~ N(µ, σ2)

1 2 99.73%

0

z,

3

1

2

3

z,

b) Z ~ N(0, 1)

Figura 4.11. Esquemas que muestran las áreas bajo la curva normal. (Understanding Statistics. Concepts and Methods, Heath and Company, P. Brase et. al. 1995).

En estas gráficas se observa que, aproximadamente, 68.27% de los valores de los datos están dentro de una desviación estándar a cada lado de la media; aproximadamente, 95.45% de los valores están dentro de dos desviaciones estándar en cada lado de la media; y aproximadamente, 99.73% de las observaciones están dentro de tres desviaciones estándar de la media.

Teorema 4.16. Si X ~ N(µ, σ2), entonces la variable Z definida como Z 5 (X 2 µ)/σ se distribuye como una normal con media 0 y varianza 1; esto es, Z ~ N(0, 1). Demostración: Para probar este resultado primero se encuentra la función de distribución Z en términos de la función de distribución de X, a partir de la definición de la función de distribución como la probabilidad acumulada de Z: FZ(z) 5 P(Z # z) 5 P((X 2 µ)/σ # z) 5 P(X # zσ 1 µ) 5 FX(zσ 1 µ) Se encuentra la función de densidad de Z al derivar su función de distribución respecto a z usando la técnica de la regla de la cadena: fZ (z) 5

5

d d FZ (z) 5 FX (zσ 1 µ) 5 fX (zσ 1 µ)σ dz dz 2 2 1 1 − z2 /2 e − ( zσ + µ − µ ) / 2 σ × σ 5 e 2 πσ 2π

174

| Estadística para ingeniería y ciencias

De donde se sigue que: fZ (z) 5

1 − z2 /2 e 2π

que es la función de densidad de la normal con media µ 5 0 y varianza σ2 5 1. El resultado de este teorema se usa para tener una única tabla de distribución normal, pues cualquier variable aleatoria normal la podemos llevar a una normal Z ~ N(0, 1).

Definición 4.25. La distribución normal con media µ 5 0 y varianza σ2 5 1 se conoce como normal estándar. Nota: La distribución normal estándar se denota como φ(z) 5 P(Z # z). En el apéndice se anexa una tabla de la distribución normal estándar, con ella se resuelven los siguientes ejemplos. Ejemplo 4.23. S ea Z una variable aleatoria con distribución normal estándar. Encontrar el área bajo la curva que esté entre z 5 −1.97 y z 5 0.86. Solución: El área entre z 5 −1.97 y z 5 0.86 es igual a la probabilidad: P(−1.97 , Z , 0.86) 5 φ(0.86) 2 φ(−1.97) 5 0.8051 2 0.0244 5 0.7807

Estos valores se encuentran en la tabla de la normal estándar. Ejemplo 4.24. D ada una distribución normal, con µ 5 50 y σ 5 10, encontrar la probabilidad de que X esté entre 45 y 62. Solución:

Se quiere hallar la probabilidad P(45 , X , 62), para calcularla usando la tabla de la normal estándar se aplica la transformación Z 5 (X 2 µ) / σ en los números X 5 45 y X 5 62. (45 − 50)/10 5 − 0.5 (62 − 50)/10 5 1.2 P(45 , X , 62) 5 P(2 0.5 , Z , 1.2) 5 φ(1.2) 2 φ(−0.5) 5 0.8849 2 0.3085 5 0.5764 Ejemplo 4.25. S ea Z la variable aleatoria, tal que Z ~ N(0, 1). Encontrar su gráfica y la probabilidad que esté entre z 5 −1.73 y z 5 12.45. Solución:

P(−1.73 # Z # 2.45) 5 φ(2.45) 2 φ(−1.73) 5 0.9929 − 0.0418 5 0.9511

Capítulo 4 Funciones de distribución de variables aleatorias continuas

21.73

0

| 175

2.45

Figura 4.12. Gráfica de la curva normal.

Ejemplo 4.26. ¿Cuál es el área bajo la curva normal a la izquierda de z 5 −1.96? Solución: En la tabla de la distribución normal se busca el valor de la variable aleatoria z 5 −1.96: P(z , −1.96) 5 φ(−1.96) 5 0.0250 Ejemplo 4.27. ¿Cuál es el área bajo la curva normal a la izquierda de −2.58? Solución: Se busca el valor de z 5 −2.58 en la tabla de la normal estándar: P(z , −2.58) 5 φ(−2.58) 5 0.005 Ejemplo 4.28. Calcular la probabilidad de que la variable z esté entre −0.5 y 1.25. Solución: P(−0.5 , z , 1.25) 5 φ(1.25) 2 φ(−0.5) 5 0.8944 2 0.3085 5 0.5859 P (20.5 < Z < 1.25) 5G1.0 2G.3085 2 G.1056 5 G.5859 P (Z > 2 1.25) 5 G.1056

P (Z < 2 0.5) 5 G.3085

z 20.5

1.25

Figura 4.13. Gráfica que muestra la probabilidad de P(20.5 , z , 1.25).

Ejemplo 4.29. S i X es una variable aleatoria normal con parámetros µ 5 24 y σ 5 3. ¿Qué valor de z le corresponde a X 5 19? Solución: z 5 (X 2 µ) / σ 5

(19 2 24) 25 5 5 −1.67 3 3

176

| Estadística para ingeniería y ciencias

Ejemplo 4.30. S i X es una variable aleatoria normal con parámetros µ 5 150 y σ 5 24, ¿cuál es el valor de z correspondiente a un valor de X 5 182? Solución: z 5 (182 2 150)/24 5 1.33 Ejemplo 4.31. S i X es una variable aleatoria normal con parámetros µ 5 100 y desviación estándar σ 5 15, calcular la probabilidad de P(70 , X , 130). Solución:

Primero se estandarizan los valores de X 5 70 y X 5 130 por valores de la variable aleatoria z, esto es: (70 2 100) 5 −2.00 15 (130 2 100) 5 2.00 15 El valor de z correspondiente al intervalo (70 , X , 130) es (−2.00 , z , 2.00) y la probabilidad es: P(70 # X # 130) 5 P(−2.00 # z # 2.00) 5 φ( 2.00) 2 φ(− 2.00) 5 0.9772 2 0.0228 5 0.9544

.4772

22.00 70

<
Normal 2. En la ventana de diálogo de Normal Distribution haga clic en Cummulative distribution, es decir, para calcular las probabilidades acumuladas. 3. En la ventanilla de Mean escriba el valor de la media y en la ventanilla de Standard deviation el valor de la desviación estándar. 4. Haga clic en OK. Todo esto generará la columna de los valores de la distribución acumulada correspondiente a la media y desviación estándar impuestos. De manera similar, para generar los valores de la función de densidad se debe proceder de la siguiente manera: 1. En la ventana de diálogo de Normal Distribution haga clic en Probability density, es decir, para calcular las probabilidades de densidad. 2. Proceda como en los incisos 3) y 4). Ejemplo 4.51. Calcular las siguientes probabilidades bajo la curva normal estándar. a) Entre z 5 21.5 y z 5 21 b) Entre z 5 1 y z 5 21 c) La probabilidad de que el valor de z sea de cuando menos 2. d) La probabilidad de que el valor de z sea de cuando mucho 2.

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 201

Solución: Aquí es conveniente introducir un rango de valores apropiados de la variable aleatoria z en la hoja de Minitab, de acuerdo con lo que se desee hacer: en este caso, por ejemplo, de 24 a 14. La figura 4.33 muestra esta situación.

Figura 4.33.

Solución: a) P(21.5 # Z # 21.0) ) 5 0.1587 2 0.0668 5 0.0919 (de la tabla de la figura 4.33) b) P(21 # Z # 1) (en este caso no se necesita usar ninguna tabla. ¿Por qué?) c) P(Z $ 2) 5 1 2 P(Z # 0.9332) 5 0.0668 d) P(Z # 2) 5 0.9773 Ejemplo 4.52. C alcular la distribución de las probabilidades acumuladas para los valores de la variable aleatoria normal X de 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1, 3.2, 3.3, 3.4. Determinar lo siguiente: a) P(X $ 2.9) b) P(2.7 # X # 3.0) Solución: Siga las instrucciones para calcular las probabilidades pedidas por el problema.

202

| Estadística para ingeniería y ciencias Tabla 4.12. Variable aleatoria X

Probabilidad acumulada

2.5

0.068622

2.6

0.123865

2.7

0.204508

2.8

0.310167

2.9

0.434423

3

0.565577

3.1

0.689833

3.2

0.795492

3.3

0.876135

3.4

0.931378

a) P(X $ 2.9) 5 0.6898 b) P(2.7 # X # 3.0) 5 0.4417

4.12.2 C álculo de los valores de la función de distribución exponencial Los valores de la función de distribución acumulada (probabilidad acumulada) exponencial se obtienen con las instrucciones siguientes: 1. Escriba en una columna los valores de X donde quiere tener los cálculos de la función de distribución acumulada. 2. Vaya a Calc > Probability distributions > Exponential. 3. En la ventana de Exponential distribution haga clic en Cummulative probability. En la ventana de 1 Mean escriba el valor de μ (recuerde que μ 5 ). λ 4. En la ventana de Input column escriba el número de la columna donde está la variable aleatoria X y en la ventanilla de Optional Storage ponga la columna donde se almacenarán los datos y haga clic en OK. Para hacer las gráficas correspondientes introduzca los valores como se muestra en el recuadro de la figura 4.34.

Figura 4.34.

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 203

Ejemplo 4.53. S uponer que el tiempo promedio que se tarda una sustancia radiactiva (un isótopo radiactivo que tiene el mismo número atómico pero diferente peso molecular) en descomponerse es una variable aleatoria exponencial con μ 5 15 años. Hacer lo siguiente: a) Una tabla con los valores de las probabilidades acumuladas y de función de masa para los valores de la variable aleatoria exponencial X de 0, 5, 10, 15, 20, 25, 30, 35, 40, 45 y 50 años. b) ¿Cuál es la probabilidad de que el isótopo tarde en degradarse a lo más en 5 años? c) ¿Cuál es la probabilidad de que el isótopo tarde en oxidarse entre 20 y 50 años? d) ¿Cuánta materia orgánica quedó (lo que se consumió) después de 40 años? e) Graficar las probabilidades acumuladas e individuales en función del tiempo en años. Solución: a) Siga las instrucciones para calcular los valores de la función exponencial dadas por Minitab:

Figura 4.35.

b) P(X # 5) 5 0.2835 c) P(20 # X # 50) 5 0.2279 d) P(X . 40) (para resolverse por el lector) e) Para graficar las probabilidades acumuladas e individuales en función del tiempo en años proceder como se observa en la ventana anterior. Estas instrucciones generan las gráficas siguientes.

0.07 0.07

0.06 0.06

0.06 0.06

0.05 0.05

0.05 0.05

0.04 0.04

0.04 0.04

0.03 0.03

0.03 0.03

0.02 0.02

0.02 0.02

0.01 0.01

0.01 0.01

0.00 0.00 0

0

10

10

20

20

30

30

40

40

50

0.00 0.00 50

Gráfica de probabilidad acum. vs. aleatoria var. aleatoria exponencial Gráfica de probabilidad acum. vs. var. exponencial X X

Prob. acum. o cantidad de material oxidado

Prob. individual o cantidad de material restante

Gráfica de prob. individual vs. variable aleatoria exponencial Gráfica de prob. individual vs. variable aleatoria exponencial X X

0.07 0.07

Prob. acum. o cantidad de material oxidado

| Estadística para ingeniería y ciencias

Prob. individual o cantidad de material restante

204

1.0

1.0

1.0

1.0

0.8

0.8

0.8

0.8

0.6

0.6

0.6

0.6

0.4

0.4

0.4

0.4

0.2

0.2

0.2

0.2

0.0

0.0

0.0

0.0

Var. aleatoria exponencial Var. aleatoria exponencial X X

0

0

10

10

20

20

30

30

40

40

50

50

Var. aleatoria exponencial Var. aleatoria exponencial X X

Figura 4.36. G ráficas de las probabilidades exponenciales acumuladas e individuales en función del tiempo.

4.12.3 Cálculo de los valores de la función de distribución acumulada gamma Los valores de la función de distribución acumulada (probabilidad acumulada) gamma se obtienen con las instrucciones siguientes: 1. Escriba en una columna los valores de X donde quiere tener los cálculos de la función de distribución acumulada. 2. Vaya a Calc > Probability distributions > Gamma. 3. En la ventana de diálogo Gamma distribution haga clic en Cummulative probability. 4. En la ventanilla de Shape parameter escriba el valor de α deseado. Igualmente, en la ventanilla de Scale parameter escriba el valor de β. 5. Para todas las demás instrucciones proceda como en los incisos anteriores.

Ejemplo 4.54. H acer el mismo ejemplo 4.20 de la supervivencia de los conejillos de indias con parámetro de forma α 5 10 y con escala β 5 20. Calcular las siguientes probabilidades, pero ahora usando Minitab: a) P(80 # X # 120) b) P(X $ 80) c) P(X # 80) d) P(X $ 20) Solución: Siga las instrucciones antes mencionados para la distribución gamma e introduzca un rango de valores de X apropiado para obtener la tabla siguiente.

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 205

Tabla 4.13. Variable aleatoria de distribución gamma X

Probabilidad acumulada

Función de densidad

19

0.0000001

0

20

0.0000001

1E-07

21

0.0000002

1E-07

79

0.0074911

0.000621

80

0.0081322

0.000662

81

0.0088148

0.000704

119

0.0805251

0.003356

120

0.083924

0.003442

De la tabla anterior: a) P(80 # X # 120) 5 0.0839 2 0.0081 5 0.0758 b) P(X $ 80) 5 1 2 0.0081 5 0.9919 c) P(X # 80) 5 0.0081 d) P(X $ 20) 5 1 2 0.0000001 5 0.9999999 Nótese que los valores correspondientes son muy parecidos usando la fórmula y Minitab.

4.12.4 Cálculo de los valores de la función de distribución lognormal Los valores de la función de distribución lognormal (probabilidad acumulada) se obtienen siguiendo estas instrucciones: 1. Escriba en una columna los valores de X donde quiere tener los cálculos de la función de distribución acumulada. 2. Vaya a Calc → Probability distribution → Lognormal. 3. En la ventana de diálogo que aparece Lognormal distribution haga clic en Cummulative probability. 4. En la ventanilla Location introduzca el valor de μ y en la ventanilla Scale, el valor de σ. 5. En la ventanilla Input column escriba la columna donde están los valores de la variable aleatoria X. En la ventanilla Optional storage introduzca la columna donde se almacenarán los resultados. Luego, haga clic en OK. 6. Todas estas órdenes generan la tabla de las probabilidades acumuladas. De ahí, se pueden calcular todas las probabilidades de X deseadas.

206

| Estadística para ingeniería y ciencias

Ejemplo 4.55. S i los datos de un experimento siguen a una distribución lognormal y dan un modelo de probabilidad razonable para la variable aleatoria X lognormal, con valores paramétricos de μ 5 3.3 y σ 5 1.1, entonces calcular las siguientes probabilidades: a) La probabilidad de que el valor de X esté entre 40 y 60. b) La probabilidad de que el valor de X sea igual o mayor que 99. c) La probabilidad de que el valor de X sea 50. d) Para atestiguar la suposición del modelo lognormal, hacer una gráfica de probabilidad lognormal. Solución: Siguiendo las instrucciones anteriores se genera la tabla siguiente, para la distribución lognormal, la cual puede usarse para calcular las probabilidades pedidas. Tabla 4.14. Variable aleatoria lognormal X

Probabilidad acumulada

39

0.629493

40

0.638153

41

0.646532

49

0.704718

50

0.711026

51

0.717147

59

0.760171

60

0.764893

61

0.769487

99

0.880478

100

0.882291

a) P(40 # X # 60) 5 0.1267 b) P(X $ 99) 5 0.1195 c) P(X 5 50) 5 φ d) Para hacer la gráfica de probabilidad lognormal proceda de la siguiente manera: 1. Vaya a Graph → Probability Plot. 2. En la ventana Probability Plots haga clic en Single y en OK. 3. En la ventana Probability Plot-Single introduzca los valores de la variable X. 4. En la ventanilla Distribution haga clic en lognormal y luego en OK. Nótese que no es necesario introducir los parámetros históricos, puesto que el programa los calcula. 5. Prosiga con las demás indicaciones pedidas por el programa y haga clic en OK. Todas estas indicaciones generan la gráfica de probabilidad lognormal.

Capítulo 4 Funciones de distribución de variables aleatorias continuas

Gráfica de probabilidad lognormal lognormal 2 95% CI

Probabilidad

99

Distribución logormal 1.2

Loc 4.026 Sacel 0.3250 N 11 AD 0.573 P-Value 0.105

95 90

1

80 70 60 50 40 30 20

0.8 0.6 0.4

10 5 1

| 207

0.2

20

30

40

50 60 70 80 90100

0

150

0

50

100

150

200

250

Variable aleatoria lognormal X

Figura 4.37. Gráfica de probabilidad lognormal usando el programa Minitab.

4.12.5 C álculo de los valores de la función de distribución acumulada Weibull Las instrucciones para el uso de la función Weibull con Minitab son las siguientes: 1. Vaya a Calc → Probability distributions → Weibull 2. En la ventana de diálogo Weibull Distribution y en las ventanillas de Shape parameter y Scale parameter introduzca los valores del parámetro de forma y escala que definen la distribución Weibull. 3. Prosiga con las instrucciones pedidas por el programa. Ejemplo 4.56. É ste es un ejercicio de ingeniería civil, es decir, de calidad de seguridad y confiabilidad adaptado del libro Statistics in Civil Engineering de Metcalfe (1997), el cual está relacionado con las vidas (en semanas) de 23 bombas sumergibles, suponga que la vida de estas bombas es una variable aleatoria Weibull. Los valores de los parámetros de forma y escala son, respectivamente, 2.109 y 82.163. Los datos se encuentran en la tabla siguiente. Tabla 4.15. Vidas de 23 bombas sumergibles. 18

29

33

41

42

46

48

52

52

54

56

69

70

72

84

93

99

105

106

128

129

173

68

Efectúe lo siguiente: a) Una tabla con la probabilidad acumulada y la probabilidad de función de masa. b) Una gráfica de probabilidad Weibull. ¿Qué tanta fidelidad tienen los datos bajo estas condiciones? c) Calcular la probabilidad de que la vida de las bombas sea de 70 semanas. d) Calcular la probabilidad de que la vida de las bombas esté entre 68 y 70 semanas. Solución: a) Siga las instrucciones anteriores para generar la tabla siguiente.

208

| Estadística para ingeniería y ciencias Tabla 4.16. Vidas de las bombas (semanas) 18

Probabilidad acumulada 0.039858

Función de densidad 0.0045757

29

0.105249

0.0072365

33

0.135883

0.0080655

41

0.206133

0.0094265

42

0.215629

0.009566

46

0.254903

0.0100516

48

0.27521

0.0102502

52

0.316866

0.0105579

54

0.338096

0.010667

56

0.359515

0.0107467

68

0.488792

0.0106383

69

0.499406

0.0105875

70

0.509965

0.0105309

72

0.530901

0.0104009 0.0092262

84

0.64927

93

0.727089

0.008037

99

0.772735

0.0071733

105

0.81314

0.0062956

106

0.819363

0.0061503 0.0032863

128

0.921695

129

0.924927

0.003178

173

0.991838

0.0004784

b) Para realizar la gráfica de probabilidad de Weibull proceda de la siguiente manera:

c) P(X 5 75) 5 φ d) P(68 # X # 70) 5 0.021173 Figura 4.38. Gráfica de probabilidad Weibull para este ejercicio usando Minitab.

Porciento

1. Vaya a: Graph → Probability Distribution → Weibull. 2. En la ventana de diálogo Probability Plots haga clic en Single y en OK. 3. En la ventana de Probability Plot-Single y en la ventanilla Graph Variables introduzca las variables de acuerdo con las instrucciones dadas. 4. En la ventana de Probability Plot-Distribution haga clic en la distribución Weibull. En las ventanillas de Historical parameters introduzca los valores de los parámetros de forma y escala y haga clic en OK. Siga todas las demás instrucciones para completar los cálGráfica de probabilidad de las bombas (semanas) culos para generar la gráfica Weibull 2 95% CI 99 99 Shape 2.108 de probabilidad Weibull. Scale 82.16 90 90 80 70 60 50 40 30 20

N 23 80 AD 0.287 70 60 P-Value >0.250 50 40 30 20

10

10

5

5

3 2

3 2

1

1 10

100

Vidas de las bombas (semanas)

Capítulo 4 Funciones de distribución de variables aleatorias continuas

| 209

Problemas propuestos 4.1 Dada la tabla siguiente: Tabla 4.17 X

P(X)

0

0.8574

1

0.1354

2

0.0071

3

0.0001

Calcular las sumas: 1 1

P( x) . ∑ ∑ P( x) ∑ PP(( xx)) 2 ∑ P( x) ∑ b) ∑ P( x) 2 ∑ P( x) . P P(( x x)) 2 ∑ P( x) ∑ 4.2 Con∑ referencia P( x) al ejercicio 4.1, calcular: ∑ c) ∑ P( x) . a)

x 50 10 x5 2 2

1 1

x 50 x 50 20 x5 3

x 50 10 x5

3

x 50 x 50 30 x5

x 50

x 50

4.3 Este ejercicio (adaptado del libro Probability and Statistics de Devore (2000)), está relacionado con el estudio que hizo un ecologista, quien deseaba marcar una región circular de muestreo con un radio de 10 metros. Sin embargo, el radio resultante R de la región muestreada es en realidad una variable aleatoria R con una función de probabilidad de densidad de: 2  f (r )  3(1 2 (104 2 r ) ) 0 

si 9 ≤ r ≤11 en otro caso

Hallar el área esperada de la región circular resultante. 4.4 Este ejercicio (adaptado del libro Elementary Statistics de M. Tripla, 6a. edición. Addison-Wesley ([1995]) está relacionado con una distribución uniforme de temperaturas que tienen un rango de 0 °C a 5 °C. Si una temperatura se selecciona al azar, encontrar P(X . 1 °C). 4.5 Dar el dominio de cada una de las siguientes variables y decir si las variables son continuas o discretas. a) El número de litros de agua en un radiador de automóvil. b) El número de libros en el estante de una librería. c) El diámetro D de una esfera. 4.6 Actualmente hay mucho debate por saber si las emisiones de campos electromagnéticos producidos por los teléfonos móviles (celulares) y sus estaciones de antenas base pueden estar afectando la salud de las personas. De acuerdo con la fuente SRI International, 2007, la cantidad de teléfonos celulares aumentó de 500 millones en 2003 a 2 500 millones de teléfonos móviles en 2007. (http://www.sri.com/policy/csted/reports/ sandt/techin2/chp4.html). Este incremento tan desmesurado del uso de la telefonía celular y sus consiguientes efectos en las funciones cognitivas y fisiológicas debido a las radiaciones electromagnéticas (RE) es una situación que está causando mucha preocupación entre las personas conocedoras de este problema. Se han realizado muchas investigaciones con rela-

ción a los efectos en la salud producidos por la radiación de microondas debidas a la proximidad de los teléfonos celulares a la cabeza del usuario y a la proximidad a las estaciones de antenas base de telefonía celular, a estaciones eléctricas, a líneas de alta tensión, a hornos de microondas, antenas base de televisión y de radio, etc. La mayoría de estas investigaciones coinciden en que los efectos de las RE están afectando el cerebro y al sistema nervioso en mayor o menor grado. Hay estudios que han relacionado las emisiones electromagnéticas con casos de cáncer en el cerebro, efectos en la actividad enzimática y espermática, efectos visuales y auditivos, prevalencia de dolores de cabeza entre los usuarios de teléfonos móviles, problemas con el sueño, efectos en las células linfáticas humanas, mutaciones, etc., en las personas expuestas. En cuanto a la proximidad de las antenas base de telefonía móvil y sus efectos en la salud, algunos países han estipulado, como un criterio seguro, el establecimiento de las antenas de microondas a distancias mínimas de 600 metros de complejos habitacionales (recomendaciones que no se han considerado). De acuerdo con lo anterior, se diseña un ejemplo hipotético relacionado con las mediciones de radiación electromagnética y la proximidad a la fuente emisora, es decir, haciendo mediciones a diferentes distancias de las antenas base de telefonía celular. Esto se hace con el objeto de examinar el efecto que tienen factores como distancia, hora del día, estación del año, etc. Para este ejemplo, en particular, se calculan los promedios de una muestra aleatoria de 30 mediciones de radiación electromagnética para cada una de las siguientes distancias: 25, 50, 100, 200, 300, 400, 500 y 600 metros de la antena base de telefonía celular. Los promedios de la radiación electromagnética para cada distancia son: 950 MHz, 800 MHz, 550 MHz, 300 MHz, 125 MHz, 30 MHz, 0.02 Hz y 0.001 Hz, respectivamente. El estudio se llevó a cabo durante todo un año (cada mes) para evaluar variables como la distancia, la altura, época del año, factores meteorológicos (como temperatura, presión atmosférica, intensidad y dirección del viento, humedad relativa, contaminación del aire, por partículas y gases, etc.), que pudieran afectar el poder de la densidad de la radiación electromagnética emitida. Para resolver este problema haga lo siguiente: a) Una gráfica de intensidad de radiación electromagnética en función de las distancias. Si hubiese valores atípicos extremos, enlistar tres posibles factores físicos (no estadísticos) que puedan explicar estas situaciones. b) Una gráfica de probabilidad exponencial y calcular el valor del parámetro histórico. ¿Se ajustan bien los datos bajo estas condiciones? c) De acuerdo con los resultados obtenidos en el inciso (b) hacer una tabla con las probabilidades acumuladas y su gráfica correspondiente y calcular las siguientes probabilidades. 1) P(X # 200). 2) P(100 # X # 400). d) Desde el punto de vista de la salud, ¿cree usted que a medida que las antenas base de telefonía celular se sitúen más alejadas de los complejos habitacionales la gente estará

210

| Estadística para ingeniería y ciencias menos expuesta a daños a la salud por los efectos de la radiación electromagnética?

4.7 Supóngase que la función de densidad de cierto experimento de mediciones de oxígeno disuelto (OD) es exponencial con λ 5 1. Encontrar las siguientes probabilidades: a) P(0 , X , 4). b) P(X , 4). c) P(2 , X , 5). d) P(0 , X , 3). 4.8 La vida promedio de una partícula en la atmósfera sigue la ley de Stoke. Ésta se encuentra en función del diámetro de sedimentación, misma que se halla en función de la densidad de la partícula, la densidad del medio, la viscosidad absoluta del medio, la aceleración de la gravedad (981 cm/s2), etc. De esta manera, X, la vida promedio de la partícula, se modela con la función densidad exponencial. Suponiendo que la vida promedio en la atmósfera de esa partícula sea de 12 años, entonces: a) ¿Cuál es la probabilidad de que la vida de residencia atmosférica de la partícula sea a lo más de 6 años? b) ¿Cuál es la probabilidad de que la vida de residencia atmosférica de la partícula sea entre 5 y 10 años? Sugerencia: Usar las siguientes relaciones: P(X # x0) 5 1 2 e−x/μ y P(5 # X # 10) 5 P(X # 10) 2 P(X # 5) 4.9 La vida (en horas) de un dispositivo electrónico es una variable aleatoria con función de densidad exponencial f (x) 5 1/50 e−x/50 para x $ 0. a) ¿Cuál es la vida media del dispositivo? b) Hacer una gráfica con valores de x 5 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20 con su probabilidades correspondientes f (x). Sugerencia: Usar el programa Minitab. c) Calcular P(X # 10). Hacerlo con la fórmula y también revisando la gráfica. d) Calcular P(10 # X # 15). Hacerlo con la fórmula y la gráfica. 4.10 La vida de un transistor de televisión está exponencialmente distribuida con un promedio de 1 000 horas. Encontrar la probabilidad de que semejante transistor de televisión durará: a) Entre 800 y 1 200 horas. b) Cuando menos 1 500 4.11 Este ejercicio está adaptado del libro Probabilidad y estadística aplicadas a la ingeniería de los autores Montgomery et al. (1996). Supóngase que la variable aleatoria X tiene una distribución exponencial con promedio igual que 10. Calcular: a) P(X $ 10) b) P(X $ 20) c) P(X $ 30) d) P(X $ 60) e) Entre 5 y 50 f ) P(X # 30) Sugerencia: Para esto, usando el paquete de computadora Minitab, hacer una gráfica con la función exponencial en los valores x 5 0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55 y 60 en función de las probabilidades acumuladas. Una vez hecho esto, determinar los valores de las probabilidades requeridas. 4.12 La vida promedio de un pesticida organoclorado (pesticida muy tóxico y persistente que todavía se usa en países en

desarrollo) depositado en la Tierra es una variable aleatoria con función de densidad: f (x) 5 1/60 e−x/60 para x $ 0 a) Dar el promedio del tiempo de degradación del pesticida. b) Calcular la probabilidad de que el pesticida, sobreviva a los 100 días. 4.13 Supóngase que el tiempo en horas requeridas para reparar una bomba de calor es una variable aleatoria X que tiene una distribución gamma con parámetros históricos de α 5 2 y β 5 0.5. a) Encontrar el promedio, la varianza y la desviación estándar de la variable X. b) ¿Cuál es la probabilidad de que el siguiente servicio requiera más que 4 horas para reparar la bomba? c) La probabilidad de que se requieran entre 3 y 4 horas para reparar la bomba. 4.14 Suponiendo que un estudio relacionado con la producción de cierta sustancia química siga a una distribución gamma con α 5 3; entonces, encontrar las siguientes probabilidades: a) P(X . 5) b) P(3 # X # 5) 4.15 Éste es un problema que involucra el uso de la distribución gamma en donde aparecen distribuciones que no son estándares. (Devore 2001, p. 171.) Supóngase que el tiempo X de supervivencia, en semanas, de un ratón macho, seleccionado al azar y expuesto a 240 rads de radiación gamma tiene una distribución gamma con α 5 8 y β 5 15. a) Calcular la media y la varianza de X. Encontrar la probabilidad de que un ratón sobreviva: b) Entre 60 y 120 semanas. c) A lo más 30 semanas. 4.16 Sea X la resistencia final a la tensión (ksi) a −200 °F de un tipo de metal que presenta problemas de resistencia a temperaturas bajas. Supóngase que X tiene una distribución Weibull con parámetros α 5 20 y β 5 100. Calcular lo siguiente: a) La probabilidad de que la resistencia final a la tensión (ksi) a −200 °F se dé 105 a lo más. b) Entre 98 y 102. 4.17 La duración de cierta refacción (en meses) para automóviles sigue a una distribución Weibull con α 5 25 y β 5 105. Calcular: a) P(X # 110 meses). b) P(90 # X 115 meses). c) La probabilidad de que la refacción se desgaste después de 60 meses. 4.18 Se sabe que la distribución de Weibull se usa ampliamente en problemas de estadística relacionados con el envejecimiento y deterioro de materiales sólidos aislantes sujetos a voltajes de CA. Los valores de los parámetros dependen del voltaje y de la temperatura; considere que se tiene un aparato cuya vida útil (en horas) sigue una distribución Weibull con parámetros de densidad α 5 2.5 y β 5 200. a) ¿Cuál es la probabilidad de que la vida de uno de estos aparatos sea a lo más de 200? b) Menos que 200 horas. c) Más de 300 horas. d) Entre 100 y 200 horas. 4.19 Éste es un ejercicio relacionado con la distribución normal inversa. Considerar a Z ≈ N(0, 1). Encontrar el valor de la variable aleatoria z de tal manera que P(Z , z) 5 0.04.

Capítulo 4 Funciones de distribución de variables aleatorias continuas 4.20 Se tiene una variable aleatoria con media igual a 1800 y desviación estandar igual a 200; si se obtiene una muestra aleatoria de 60 unidades, utilice el teorema central del límite para promedio muestral esté entre 1 800 y 1 900. 4.21 Calcular las siguientes probabilidades de precipitaciones pluviales suponiendo que los datos siguen una distribución normal. a) ¿Cuál es la probabilidad de que las mediciones de precipitaciones pluviales de 24 horas no difieran del promedio por 3/4 de la desviación estándar? Dibujar la gráfica. b) ¿Cuál es la probabilidad de que las mediciones de precipitaciones anuales no difieran del promedio por más de 0.5 de la desviación estándar? Dibujar la gráfica. c) ¿Cuál es la probabilidad de que las precipitaciones anuales difieran del promedio por más de la mitad de la desviación estándar? 4.22 Sea X una variable aleatoria normal con media de 72 micras y desviación estándar de 15 micras. Determinar los valores de la función de distribución acumulada de X en: a) 60 micras. b) 93 micras. c) 72 micras. 4.23 Refiriéndose al problema anterior, encontrar los valores de X correspondientes a la variable aleatoria normal Z y su función de distribución acumulada para los valores: a) z 5 21. b) z 5 1.6. 4.24 Encontrar el área bajo la curva normal estándar entre z 5 0 y z 5 1.2. 4.25 Considere que el nivel de contaminación X de las industrias en una región es tal que X ~ N(µ, σ2). Se observa el nivel de contaminación de dos industrias independientemente; los valores que dieron son: X1 5 90 y X2 5 74; si al estandarizar los valores de X1 y X2 se obtuvieron Z1 5 0.7, y Z2 5 20.5, respectivamente, encontrar la media y la desviación estándar de X. 4.26 Hallar el área bajo la curva normal estándar entre z 5 0 y z 5 2.05. 4.27 Determinar el área bajo la curva normal entre z 5 10.92 y z 5 1.94. 4.28 Encontrar la probabilidad de que una Z observada se encuentre a la derecha de z 5 2.05 y a la izquierda de z 5 1− .44. 4.29 Si X es el promedio y s es la desviación estándar de una muestra aleatoria de 40 mediciones de partículas atmosféricas menores de 10 micras, encontrar la probabilidad de que las mediciones estén fuera del rango de ( X ± 1.2 s). Dibujar la gráfica. 4.30 Determinar el valor o los valores de z cuando: a) La probabilidad entre 0 y z es de 0.3770. b) La probabilidad a la izquierda de z es de 0.8621. 4.31 Si los diámetros de las chumaceras de una maquinaria están normalmente distribuidos con una media de 0.6140 pulgadas y una desviación estándar de 0.0025 pulgadas, determinar la probabilidad de que las chumaceras tengan diámetros: a) Entre 0.610 y 0.618 pulgadas inclusivamente. b) Menor que 0.617 pulgadas. c) Mayor que 0.608 pulgadas. d) Igual que 0.615 pulgadas. 4.32 La precipitación pluvial tiene distribución normal con media igual que 50 mm y una desviación estándar igual que

| 211

10 mm. Encontrar la probabilidad de que X tenga un valor entre 45 mm y 62 mm de lluvia. 4.33 Si la concentración de nitratos, en mg/L, en aguas residuales tiene distribución normal con media µ y desviación estándar σ. ¿Cuál es la probabilidad de que las concentraciones estén: a) dentro del rango (µ ± 2σ)? b) sea mayor que (µ −1.5σ)? 4.34 Sea X variable aleatoria normal con µ 5 300 y σ 5 50. Encontrar la probabilidad de que X tome un valor mayor que 362. 4.35 Dada X, una variable aleatoria normal, con µ 5 40 y σ 5 6, hallar el valor de X que tenga: a) 45% del área a la izquierda. b) 14% del área a la derecha. 4.36 La tela de fibra de vidrio del equipo de control para partículas atmosféricas tiene una duración con distribución normal con media de 3.0 años, y una desviación estándar de 0.5 años. Encontrar la probabilidad de que una tela de un filtro dure menos de 2.3 años. 4.37 Una compañía fabrica electrodos para precipitadores electrostáticos (equipo de control para partículas contaminantes en aire), cuya duración está normalmente distribuida con una media igual a 800 horas y una desviación estándar de 40 horas. Determinar la probabilidad de que un electrodo se funda entre 778 y 834 horas. 4.38 Se utilizan medidores para rechazar todos los componentes cuyas dimensiones no se encuentren dentro de la especificación dada por 1.50 ± d. Se sabe que esta dimensión está normalmente distribuida con un promedio de 1.50 y una desviación estándar de 0.2; determinar el valor de d para que la especificación cubra 95% de las mediciones. 4.39 En un estudio de ingeniería de higiene industrial y seguridad, el supervisor de producción encuentra que, los trabajadores, en promedio, completan una tarea en 10 minutos cuando están expuestos a altas concentraciones de gases. Los tiempos requeridos para completar la tarea son aproximadamente normales con una desviación estándar de 3 minutos. Encontrar lo siguiente: a) La proporción de empleados que completan la tarea en menos de 4 minutos. b) El porcentaje de empleados que requieren más de 5 minutos en completar la tarea. c) La probabilidad de que un empleado, quien acaba de ser asignado a la tarea, la completará dentro de 3 minutos. 4.40 En un estudio de meteorología de precipitación pluvial, el promedio de lluvia registrado, a la centésima de un centímetro, para el mes de marzo fue de 9.22 centímetros. Suponiendo que estos valores están normalmente distribuidos con una desviación estándar conocida de 2.83 cm, encontrar la probabilidad de que en el mes de marzo del siguiente año, se reciban: a) Menos de 1.84 cm de lluvia. b) Más de 5 cm de lluvia. c) Cuando menos 13.8 cm de lluvia. d) Igual que 5 cm de lluvia, e.g., P(4.5 # X # 5.5). e) Graficar cada inciso. 4.41 Sea Z una variable aleatoria normal estándar, calcular las siguientes probabilidades y dibujar las gráficas. a) P(0 # Z # 2.17) b) P(0 # Z # 1)

212 c) d) e) f )

| Estadística para ingeniería y ciencias P(−2.5 # Z # 0) P(−2.5 # Z # 2.5) P(1.5 # Z) P(|Z| # 2.50)

4.42 Si X es una variable aleatoria normal con promedio de 80 y desviación estándar de 10, hallar las siguientes probabilidades mediante estandarización. a) P(X # 100) b) P(65 # X # 100) c) P(85 # X # 95) d) P(70 # X) e) P(90 # X # 100) f ) P(80 # X # 110) g) P(2 . Z . −2) 4.43 Encontrar las siguientes probabilidades: a) P(−1 , Z , 2.0) b) La probabilidad de que la variable aleatoria Z no se encuentre entre estos dos valores. c) Si X ~ N(4, 1), ¿qué valores de X llevan a Z 5 −1 y Z 5 2? 4.44 En un estudio de ahorro de combustible, se sabe que 40% de los coches no americanos de 4 cilindros tienen un consumo de gasolina considerablemente menor, con relación a los coches americanos de 6 u 8 cilindros (la reducción del consumo de gasolina es muy importante para aminorar el calentamiento global de la Tierra). Si se saca una muestra aleatoria de 15 coches de 4 cilindros, calcular la probabilidad de que 4 de estos coches sean eficientes en el ahorro de combustible. Usar la distribución binomial y la normal. Comparar los resultados. 4.45 En un estudio de higiene industrial y seguridad, se sabe que la probabilidad de que un operador de las plantas de reactores nucleares sea adicto al uso de narcóticos es de 0.05. ¿Cuál es la probabilidad de que, exactamente, 5 de los siguientes 100 operadores sean adictos a los narcóticos? Usar la distribución binomial y la distribución normal para resolver este importante y delicado problema. 4.46 Se dan los siguientes datos: n 5 15, p 5 0.4. Calcular la probabilidad de que el valor de la variable aleatoria X sea igual a 4. Hacer esto de la siguiente manera: a) Aplicar la distribución binomial. b) Usar la distribución normal como aproximación a la binomial. 4.47 En un estudio de la ingeniería del aire, es decir, de contaminación atmosférica, se tomó una muestra de partículas, cuyas mediciones siguen a una distribución lognormal con μ igual que 10 y σ igual que 0.02. a) Calcular promedio, varianza, mediana y moda de la distribución lognormal. b) Determinar la probabilidad de que las mediciones de las partículas sean igual o menor que 2 micras. 4.48 En un estudio de ingeniería civil adaptado del libro Statistics in Civil Engineering de Metcalfe (1997), se investiga el número de ciclos de falla para 25 especímenes de prueba de asfalto almástigo (12% de adherencia), sujeto a vibraciones de carga axial con una tensión inicial de 200 μe. El valor del pará-

metro de forma para la distribución lognormal es igual que 5.627 y el valor de escala es igual que 0.458. Igualmente, los valores históricos para la distribución Weibull son de 2.167 y 349.3. Los datos se dan abajo ordenados en forma ascendente. Hacer lo siguiente: a) Presentar análisis de gráficas de probabilidad Weibull y lognormal e indicar cuál distribución ajusta mejor los datos, es decir, justificando la aserción. b) Una vez que se decida qué distribución es más posible, hacer una tabla de probabilidades acumuladas. c) Del inciso b) calcular lo siguiente: 1) La probabilidad de que los ciclos a falla del asfalto sean a lo más de 114. 2) La probabilidad de que los ciclos a falla del asfalto sean de cuando menos 786. 3) La probabilidad de que los ciclos a falla del asfalto sean de 200. Tabla 4.18. Datos de ciclos (miles) a falla de asfalto de 25 especímenes de asfalto almástigo. 114

143

144

167

170

200

219

246

251

251

260

264

269

271

274

312

321

352

362

383

389

416

516

624

786

4.49 Éste es un ejercicio adaptado del libro Probability and Statistics For Engineering and the Sciences de Jay L. Devore (2000). Sea X la mediana por hora de la potencia (en decibeles) de las señales de radio recibidas transmitidas entre dos ciudades. Los autores del artículo “Families of Distributions for Hourly Median Power and Instantaneous Power of Received Radio Signals” (J. Research National Bureau of Standards, vol. 67D, 1963: 753-762) argumentan que la distribución lognormal provee un modelo de probabilidad razonable para X. Si los valores de los parámetros son μ 5 3.5 y σ 5 1.2, calcular: a) La media y la desviación estándar de la potencia recibida. b) La probabilidad de que la potencia de la transmisión recibida esté entre 50 y 250 decibeles (dB). c) La probabilidad de que el valor de la potencia de la transmisión recibida sea menor que 50 dB. 4.50 Suponiendo que las emisiones de concentraciones atmosféricas de óxidos de azufre (SO2) (causante de muchos problemas respiratorios), en cierta ciudad cercana a un complejo industrial, sigan un modelo lognormal con μ 5 2.0 y σ 5 1.0, calcular: a) La media y la desviación estándar de la concentración de SO2. b) La probabilidad de que la concentración de SO2 sea a lo más de 100. c) La probabilidad de que la concentración de SO2 esté entre 50 y 100. d) La probabilidad de que la concentración de la calidad del aire de SO2 sea menor que la estipulada por las legislaciones ambientales, es decir, de 300 μg/m3.

Problemas de tarea

Revisa tu CD-ROM para encontrar más problemas:

Capítulo

5

Estimación

(Jupiter Images Corporation)

La fotografía que se muestra corresponde a un auto deportivo. Éste es uno de los inventos que más fascinan a hombres y mujeres de todas las edades. Existe en el mercado una gran variedad de marcas y modelos de automóviles. Cuando de elegir auto se trata, una de las características deseables es que sea económico en el consumo de combustible y en el costo de las refacciones. En este sentido, se dice que los autos europeos o japoneses cumplen con estas características, pues el consumo de gasolina es menor comparado con los autos elaborados en Estados Unidos de América. El consumo de gasolina por kilómetro recorrido es una variable aleatoria que depende de varios factores, entre ellos: la marca y el modelo del auto, pero también depende de la velocidad y la temperatura ambiente a las cuales se maneja, además de la presión atmosférica, etc. Se puede suponer de manera simplista que el consumo de gasolina sigue un modelo de probabilidad f (x) (por ejemplo, una densidad normal), pero los parámetros de esta distribución, como la media y la varianza, son desconocidos y sólo se puede obtener cierta información acerca de ellos a través de datos obtenidos al experimentar el manejo de un auto, esto es por medio de datos muestrales.

Introducción En este capítulo se estudiará el concepto de parámetro y de su estimador estadístico, así como se revisará el método de estimación de máxima verosimilitud (el más común de los métodos de estimación), se analizarán las propiedades deseables para ser considerados buenos estimadores y se citarán varios ejemplos en cada uno de los temas tratados.

214

| Estadística para ingeniería y ciencias

5.1 Estimación puntual 5.1.1 Introducción En la mayoría de los procesos aleatorios que se encuentran en la industria o en las ciencias naturales y las ciencias sociales, entre otras, se puede identificar el tipo de función de distribución que rige el experimento observado; sin embargo, no siempre es posible conocer la función de distribución específica que lo determina, debido a que se desconoce el o los parámetros que la identifican. Por ejemplo, si se prueban los artículos que salen de una línea de producción, se sabe que cada artículo inspeccionado puede ser bueno o defectuoso, por tanto, cada observación corresponde a un experimento Bernoulli, pero se desconoce cuál es la probabilidad de que un artículo inspeccionado sea bueno o defectuoso, esto es, se desconoce el valor del parámetro p. En otras palabras, si consideramos que éxito es encontrar un artículo defectuoso, la función de densidad de X es igual a: f (0) 5 1 2 p y f (1) 5 p con 0 , p , 1 y en esta función de densidad se desconoce el valor de p. Otro ejemplo es el tiempo que los focos de una fábrica se mantienen funcionando; este tiempo es una variable aleatoria exponencial con parámetro λ: f (x) 5 λe2λx para x $ 0, 0 en otro caso; con λ . 0 pero se desconoce el valor de λ. Un tercer ejemplo es cuando se quiere determinar el tiempo que se mantendrá funcionando apropiadamente un componente electrónico bajo ciertas condiciones; la función de distribución que lo modela es una Weibull con parámetros α y β; entonces, se sabe que su función de densidad es: f (x) 5

αx α−1e − ( x/β )α para x $ 0, 0 en otro caso; con α . 0 y β . 0 β

sin embargo, puede desconocerse alguno de los parámetros α o β. En estos casos, y en otros semejantes, se requiere conocer el valor de uno o más parámetros para calcular las probabilidades sobre el tiempo de funcionamiento del componente electrónico; en estos casos, la única información que se puede obtener del parámetro respectivo es la proporcionada por una muestra aleatoria; Xl, X2, . . . , Xn. El investigador se ve en la necesidad de usar los datos de la muestra para obtener un estimador de los parámetros desconocidos. Ante esta situación la estadística proporciona criterios de estimación fundamentados en la teoría de la probabilidad. Definición 5.1. Se llama muestra aleatoria al conjunto de observaciones independientes Xl, X2, X3, . . . , Xn de la función de distribución F(x; θ). En este contexto, θ denota de manera genérica a cualquier parámetro, es decir, θ representa indistintamente a µ, σ, λ, etc., además por ser las observaciones de la muestra independientes entre sí, su función de densidad conjunta es igual al producto de las funciones de densidad marginales. Definición 5.2. Sea Xl, X2, X3, . . . , Xn una muestra aleatoria de una función de distribución F(x, θ). Se llama estimador del parámetro θ a una función de los datos muestrales. Al estimador del parámetro θ se denota como θˆ , es decir, con la misma letra que se designa el parámetro y un gorrito encima: Si θ es el parámetro, entonces θˆ 5 h(Xl, X2, X3, . . . , Xn ) es un estimador.

Capítulo 5 Estimación

| 215

Definición 5.3. Dado θˆ , un estimador del parámetro θ, se llama estimación de θ al valor del estimador evaluado en una muestra particular. De manera que un estimador es una regla para calcular y una estimación es el valor que toma un estimador.

Ejemplo 5.1. S upóngase que se tiene una muestra aleatoria X1, X2, X3, . . . , Xn de una función de distribución Bernoulli con parámetro p. Un estimador de p está dado por pˆ 5 X ; es decir, el estimador de p es el promedio de los datos muestrales. Ahora, supóngase que se tomó una muestra de 10 observaciones dadas por: X1 5 1, X2 5 0, X3 5 1, X4 5 1, X5 5 0, X6 5 1, X7 5 1, X8 5 0, X9 5 0, X10 5 1 (1 1 0 11 11 1 0 1 1 11 1 0 1 0 11) 6 5 5 0.6, enton10 10 ces una estimación del parámetro es p50 .6 . ˆ

El promedio de estos 10 datos es

5.1.2 Propiedades de los estimadores Para cada parámetro θ pueden existir varios estimadores diferentes. En general, se escogerá el estimador que posea mejores propiedades que los restantes. Entre las propiedades deseables de un estimador se hallan el insesgamiento, la eficiencia, la consistencia, la suficiencia y la robustez.

Insesgamiento El insesgamiento está relacionado con el concepto de exactitud. Una manera simple de explicarlo es la siguiente: cada posible muestra aleatoria proporciona un diferente valor de estimación para el parámetro θ; si se encuentran todos los valores posibles de θˆ y se obtiene su promedio y éste concuerda con θ, entonces, se dice que el estimador θˆ es insesgado. La definición formal de esta propiedad es: Definición 5.4. Un estimador θˆ del parámetro θ se dice que es insesgado si se satisface la relación E( θˆ ) 5 θ.

Ejemplo 5.2. S ea X1, X2, X3, . . . , Xn una muestra aleatoria de una distribución Poisson con parámetro λ, mostrar que la media aritmética de los datos muestrales es un estimador insesgado de λ. Solución: Dado que Xi tiene distribución Poisson con parámetro λ, se tiene que E(Xi) 5 λ para toda i 5 1, 2, . . . , n. Por otro lado, se tiene que la media aritmética de los datos muestrales es X 5

1 n ∑ X , entonces por la propiedad de linealidad del valor esperado (la n i =1 i

esperanza matemática saca constantes y separa sumas) se obtiene:

216

| Estadística para ingeniería y ciencias 1 n  1 E ( X ) 5 E  ∑ i =1 X i  5 E n  n

(∑ X )5 1n ∑ n

i =1

i

n i =1

E( X i )5

1 n nλ ∑ λ 5 n 5λ n i =1

En general, la media aritmética de la muestra es un estimador insesgado de la media de la variable aleatoria. En efecto, si una muestra X1, X2, X3, . . . , Xn procede de una población de media µ, quiere decir que: E[Xi] 5 µ para cualquier i 5 1, . . . , n lo cual corresponde a la solución del problema anterior.

Eficiencia El concepto de eficiencia está relacionado con la precisión del estimador, así que primero se citará la definición de eficiencia relativa. Definición 5.5. Si θˆ 1 y θˆ 2 son ambos estimadores insesgados de θ y V ( θˆ 1 ) # V( θˆ 2 ), diremos que θˆ 1 es más eficiente que θˆ 2 . Un estimador es más eficiente (más preciso), si su varianza es menor. Cuando se tiene un estimador insesgado de un parámetro θ es útil saber si hay otro estimador insesgado más eficiente; en este sentido el teorema de Cramér-Rao proporciona una cota mínima para las varianzas de los estimadores insesgados. Antes de citar el teorema veremos dos lemas siguientes.

Lema 5.1. Si X1, X2, X3, . . . , Xn es una muestra aleatoria de una función de densidad, tal que f (x, θ) . 0 para x en una región que no depende del parámetro θ , entonces:

(5.1)

Demostración: Primero encontremos el valor esperado de Para ello, se utiliza el hecho de que f (x1, x2, . . . , xn; θ), es una función de densidad conjunta, entonces:

si derivamos esta ecuación respecto a θ, se tiene que: h y h h … µ f ( x1 , x2 , …, xn ; V)dx1dx2 … dxn 0 µ µ h yV h h

y como la región donde f (x1, x2, . . . , xn; θ) . 0 no depende del parámetro se puede intercambiar la derivada con las integrales, quedando así: µ

h

µ

h

µ

h

µ

h

h h

h h

…µ

h

…µ

h

h

h

y f ( x1 , x2 , … , xn ; V)dx1dx2 … dxn yV y yV

f ( x1 , x2 , … , xn ; V)

f ( x1 , x2 , … , xn ; V)

f ( x1 , x2 , … , xn ; V)dx1dx2 … dxn

Capítulo 5 Estimación

© y log( f ( X 1 , X 2 , … , X n ; V)) Eª « yV

| 217

¹

º» 0

Por otro lado, se sabe que X1, X2, X3, . . . , Xn son variables aleatorias independientes que satisfacen la relación: f (x1, x2, . . . , xn; θ) 5 f (x1; θ) f (x2; θ) . . . f (xn, θ) entonces:

De manera que

, por lo que:

y dado que X1, X2, X3, . . . , Xn son variables aleatorias independientes, se obtiene:

Lema 5.2. Si X1, X2, X3, . . . , Xn es una muestra aleatoria de una función de densidad, tal que f (x; θ ) . 0 para x en una región que no depende del parámetro θ y θˆ es un estimador insesgado de θ, entonces: Demostración: Dado que

, se obtiene:

(5.2)

218

| Estadística para ingeniería y ciencias

Ahora, como θˆ es un estimador insesgado de θ, resulta: E(Vˆ ) µ

h h

µ

h h

h

… µ Vˆ f ( x1 , x2 , … , xn ; V)dx1dx2 … dxn V h

por tanto, al derivar esta relación respecto a θ, se tiene que: h h h y y E(Vˆ ) µ µ … µ Vˆ f ( x1 , x2 , … , xn ; V)dx1 , dx2 , …, dxn 1 h h h yV yV h h h y y E(Vˆ ) µ µ … µ Vˆ log[ f ( x1 , x2 , … , xn ; V)] f ( x1 , x2 , …, xn ; V)dx1 , dx2 , …, dxn h h h yV yV

Teorema 5.1. (Cramér-Rao) Si X1, X2, X3, . . . , Xn es una muestra aleatoria de una función de densidad, tal que f (x; θ) . 0 para x en una región que no depende del parámetro θ, entonces, para todo θˆ estimador insesgado de θ satisface la desigualdad:

(5.3)

Demostración: Se sabe que el coeficiente de correlación de dos variables aleatorias es un valor entre –1 y 1, entonces para las variables aleatorias θˆ y

, se tiene que:

De esto sigue que:

Al aplicar los lemas 5.1 y 5.2, queda demostrado el teorema. En el texto de este teorema se indica que la función de densidad de X es que f (x; θ ) . 0 para x en una región que no depende del parámetro θ. Un ejemplo de función de densidad que no satisface esta condición es la uniforme continua, ya que como se recordará su definición es: 1 / (b − a) si a # x # b f ( x; a, b) 5  0 en otro caso 

Capítulo 5 Estimación

| 219

la cual significa que el rango de x está determinado por los parámetros a y b. Con esta función de densidad no se aplica el teorema.

Definición 5.6. Un estimador insesgado θˆ es eficiente si alcanza la cota de Cramér-Rao. Un estimador eficiente tiene varianza mínima.

Ejemplo 5.3. E ncontrar la cota de Cramér-Rao para la función de densidad Bernoulli y mostrar que la media aritmética de la muestra es un estimador eficiente de p. Solución: Se sabe que la función de densidad Bernoulli es igual a f (0) 5 12 p y f (1) 5 p; estas funciones se pueden escribir como f (x; p) 5 px(12 p)1−x para x 5 0, 1, 0 , p , 1 y 0 en otro caso. El logaritmo de esta función de densidad es log( f (x; p)) 5 xlog(p) 1 (1 2 x)log(1 – p). Su derivada respecto a p es

2   0 1 − 0 2  1 1−1  5 n  −  (1 − p) 1  p − 1 − p      p 1 − p 

Entonces, la cota de Cramér-Rao es

.

  1− p p n 1 25 p = n  2  p  p(1 − p)  (1 − p)

.

Por otro lado, se encuentra que la varianza de la media aritmética de los datos muestrales es:  n  1 n np(1 − p) p(1 − p) 1 n V ( X ) 5V  1n ∑ X i  5 2 ∑ V ( X i ) 5 2 ∑ p(1 − p) 5 5 n n i =1 n2  i =1  n i =1

La varianza de la media aritmética de la muestra coincide con la cota de Cramér-Rao, por lo que se concluye que la media aritmética es un estimador eficiente de p. No existe ningún otro estimador de p que tenga menor varianza.

Consistencia Si no es posible emplear estimadores de mínima varianza, el requisito mínimo deseable para un estimador es que a medida que el tamaño de la muestra crece, el valor del estimador tienda a estar cerca del valor del parámetro, propiedad que se denomina consistencia. Existen diversas definiciones de consistencia, más o menos restrictivas, pero la más utilizada es la siguiente.

220

| Estadística para ingeniería y ciencias

Definición 5.7. Un estimador θˆ del parámetro θ se dice que es consistente si cuando n crece, θˆ tiende en probabilidad a θ. Esto significa que si para toda ε . 0 es imposible que cuando n sea grande, la distancia entre θˆ y θ es mayor que ε; en símbolos esto se expresa:

lím P(| θˆ 2 θ|. ε) 5 0

(5.4)

nmd

entonces, θˆ es consistente. La idea de la consistencia es que conforme el tamaño de la muestra crece, el valor del estimador se aproxima al del parámetro con probabilidad igual a 1. Una condición necesaria para determinar que un estimador es consistente se presenta en el siguiente teorema.

Teorema 5.2. Si la varianza de un estimador insesgado θˆ es tal que:

lím V( θˆ ) 5 0

(5.5)

nmd

entonces, θˆ es un estimador consistente de θ. Demostración: Sea g( θˆ ) la función de densidad del estimador θˆ , entonces: ∞

V (θˆ ) 5 ∫ (θˆ − θ)2 g (θˆ )dθˆ 5 ∫ ˆ −∞

|θ − θ )| > ε

(θˆ − θ)2 g (θˆ )dθˆ $ ε 2 ∫ ˆ

|θ − θ )| > ε

g (θˆ )dθˆ 5 ε 2 P (| θˆ − θ | . ε)

Por tanto, V( θˆ ) $ ε2 P(| θˆ 2 θ|. ε) $ 0 Si lím V( θˆ ) 5 0, entonces necesariamente para una ε fija lím P(| θˆ 2 θ|. ε) 5 0 y θˆ es un estimador nmd nmd consistente de θ.

Suficiencia E1 concepto de estadística suficiente lo introdujo Fisher en 1922, y ha sido objeto de numerosas e importantes investigaciones. Como originalmente indicó Fisher, un estadístico (o función de la muestra de valores observados) es suficiente para el objetivo de la inferencia estadística si contiene, en un cierto sentido, toda la “información” sobre la distribución generadora (función de distribución de acuerdo con la cual ha sido generada la muestra de valores observados). ¿En qué sentido hemos de usar la palabra “información” aquí? Supondremos que el modelo estadístico de las variables aleatorias observables tiene una cierta función de distribución conjunta que pertenece a una familia especificada F(x; θ) de funciones de distribución. Sin embargo, la verdadera función de distribución generadora es desconocida, pues se ignora el valor de θ. Definición 5.8. Sea Xl, X2, . . . , Xn una muestra aleatoria de la función de densidad f (x; θ); se llama estadística a cualquier función de los datos muestrales, es decir, cualquier función de la forma T 5 h(Xl, X2, . . . , Xn) es una estadística. La única información que se tiene para tomar una decisión sobre θ es el resultado del experimento aleatorio, es decir, la muestra aleatoria Xl, X2, . . . , Xn. Sin embargo, los datos muestrales son un

Capítulo 5 Estimación

| 221

complicado conjunto de números y el investigador se ve en la necesidad de introducir una simplificación deseable, para la cual siempre que sea posible se elegirá un estadístico que pierda la menor información contenida en la muestra relativa al parámetro θ. Éste es el deseo que incita a la definición de estadístico suficiente. Supóngase, pues, que T es una estadística (es decir, una función medible de la variable aleatoria X ) y sea Z otra estadística; si consideramos la probabilidad condicionada de Z, dado T, en general esta probabilidad dependerá de θ; si ocurre que la función condicionada no depende del parámetro, esto significará que la estadística Z en presencia de T no proporciona ninguna información adicional acerca de θ. Si esto ocurre para cualquier otra estadística se concluye que toda la información que existía en la muestra Xl, X2, . . . , Xn nos la ha proporcionado la estadística T, de manera que se llama estadística suficiente. Definición 5.9. Se dice que una estadística T es suficiente para el parámetro θ si la función de densidad condicional de U (cualquier otra estadística dada T ), no depende del parámetro. Esto es, si para toda U se tiene que fU|T(u|t) no depende de θ, entonces T es estadística suficiente para θ. En otras palabras, un estimador es suficiente para θ cuando ya tiene toda la información sobre el parámetro que está contenida en la muestra. Es difícil probar con todas las posibles estadísticas si fU|T(u|t) no depende de θ, y debido a que todas las estadísticas dependen de la muestra, se puede tomar en lugar de todas las estadísticas la propia muestra Xl, X2, . . . , Xn. Entonces, un método para verificar si una estadística T es suficiente, es determinar la distribución condicionada de Xl, X2, . . . , Xn, dado T. Sin embargo, este método es también laborioso y de gran dificultad. Fisher y después Neyman proporcionaron un criterio simple, con el cual generalmente podemos determinar si una familia F(x; θ) de funciones de distribución admite un estadístico suficiente no trivial y definir cuál es la forma de este estadístico. Este criterio lo proporciona el célebre teorema de factorización de Neyman-Fisher.

Teorema 5.3. (Factorización de Neyman-Fisher) Sea T una estadística de la muestra aleatoria de la función de densidad f (x; θ). T es estadística suficiente del parámetro θ si y sólo si la función de densidad conjunta se puede expresar como el producto de dos funciones: una que depende de la estadística suficiente y el parámetro y otra que depende únicamente de la muestra, esto es:

f (x1, x2, . . . , xn; θ) 5 f (x1; θ) f (x2; θ) . . . f (xn; θ) 5 g(T; θ)h(x1, x2, . . . , xn)

(5.6)

Demostración: Primero se demuestra que si T es estadística suficiente, entonces se satisface la relación: f (x1, x2, . . . , xn; θ) 5 g(T; θ)h(x1, x2, . . . , xn) Por la definición de función de densidad condicional se tiene que:

donde la función h( x1 , x2 , . . . , xn ) no depende de θ, ya que T es función de la muestra, se obtiene:

222

| Estadística para ingeniería y ciencias

entonces, de la función de densidad condicional de la muestra dada T, resulta: f ( x1 , x2 , … , xn , t ; V) g (T ; V)

f ( x1 , x2 , … , xn ; V) g (T ; V)

y por ser T estadística suficiente, la función de densidad dado T no depende de θ. f ( x1 , x2 , … , xn , t ; V) g (T ; V)

h( x1 , x2 , … , xn )

por tanto, se satisface la desigualdad: f ( x1 , x2 , … , xn ; V) g (T ; V)

h( x1 , x2 , … , xn )

y de aquí se despeja la densidad conjunta: f (x1, x2, . . . , xn; θ) 5 g(T; θ)h(x1, x2, . . . , xn

Ejemplo 5.4. C omprobar que la función de distribución exponencial admite una estadística suficiente para el parámetro λ. Solución: La función de densidad conjunta de la muestra es: f (x1, x2, . . ., xn; λ) 5 f (x1; λ) f (x2; λ) . . . f (xn; λ)

5 λ exp(2λ x1) λ exp(2λ x2) . . . λ exp(2λ xn)

5 λn exp(2λ[ x1 + x2 1 . . . 1 xn])

5 λn e2λΤ Las dos funciones de la factorización son g(T, λ) 5 λn e2λΤ y h(x1, x2, . . . , xn) 5 1. De lo anterior, resulta que la estadística suficiente para λ es T 5 X1 + X2 1 . . . 1 Xn.

Robustez Al estudiar un proceso aleatorio es posible que la función de distribución generadora de la muestra sea F(x; θ) (por ejemplo, una exponencial) y se está suponiendo que la distribución correcta es G(x; θ), (por ejemplo, una Weibull) si la estimación de θ no se afecta fuertemente por considerar la verdadera distribución es G(x; θ), en lugar de F(x; θ), entonces se dice que el estimador es robusto. ~ es un estimador robusto del parámetro θ si los supuestos de partida en Definición 5.10. Se dice que θ los que se basa la estimación, atribuida a la selección de la función de distribución que, en realidad, no es la correcta, no alteran de manera significativa los resultados que éste proporciona.

Capítulo 5 Estimación

| 223

5.1.3 Método de máxima verosimilitud Se conocen varios métodos utilizados para obtener estimadores de parámetros, entre los que destacan el método de máxima verosimilitud, el método de Bayes o el método de momentos. En este libro nos abocaremos a estudiar sólo el método de máxima verosimilitud, el cual es el que se utiliza más ampliamente. La idea del método de máxima verosimilitud se centra en escoger como estimador del parámetro el valor de θ que maximiza la probabilidad dada la muestra. Definición 5.11. Dada una muestra aleatoria X1, X2, X3, . . . , Xn con función de densidad f (x; θ), se conoce como función de verosimilitud a la función de densidad conjunta de la muestra. En esta función, el parámetro θ es la variable, y la muestra se considera fija, esto es: L(θ; x1, x2, x3, . . . , xn) 5 f (x1; θ) f (x2; θ) f (x3; θ) . . . f (xn; θ) con θ en Θ∗ Como observamos, la función de verosimilitud es el producto de las funciones de densidad marginales evaluada en los datos muestrales, ya que las observaciones son independientes. Debido a que en la función de verosimilitud la variable es el parámetro y los valores x1, x2, x3, . . . , xn se consideran conocidos y en consecuencia, fijos, por simplicidad se utiliza la notación: L(θ) 5 L(θ; x1, x2, x3, . . . , xn) con θ en Θ

(5.8)

Θ es el conjunto de todos los parámetros posibles.

*

Ejemplo 5.5. S ea X1, X2, X3, . . . , Xn una muestra aleatoria de una función de densidad Bernoulli con parámetro p, encontrar la función de verosimilitud de esta distribución. Solución: La función de densidad Bernoulli es f (x; p) 5 p x(1 2− p)1−x para x 5 0, 1, 0 , p , 1 y 0 en otro caso. Entonces, la función de verosimilitud es: x

1 x1

L( p) p 1 (1 p)

x

1 x2

p 2 (1 p)

… p xn (1 p)1 xn p x1 x2

… xn

(1 p)

n( x1 x2 … xn )

Definición 5.12. Dada una muestra aleatoria X1, X2, X3, . . . , Xn con función de densidad f (x; θ), se conoce como estimador de máxima verosimilitud del parámetro θ al número θˆ , donde la función de verosimilitud alcanza el valor máximo. Entonces, el objetivo del método de máxima verosimilitud es encontrar el valor del posible rango de valores del parámetro que optimiza la función de verosimilitud, dados los datos de la muestra.

Ejemplo 5.6. D eterminar el estimador de máxima verosimilitud del parámetro p en la función de densidad Bernoulli. Solución: La función de verosimilitud en este caso es:

224

| Estadística para ingeniería y ciencias x

1 x1

L( p) p 1 (1 p)

1 x2

x

p 2 (1 p)

… p xn (1 p)1 xn p x1 x2

… xn

(1 p)

n( x1 x2 … xn )

Para hallar el valor de p donde L(p) alcanza su valor máximo, se debe derivar la función de verosimilitud respecto a p y encontrar la raíz de esta derivada, así que su función de verosimilitud es: y x … xn n ( x … xn ) 1 x … xn 1 n( x … xn ) L( p) ( x1 … xn ) p 1 (1 p) 1 p 1 ( n ( x1 … xn ))(1 p) 1 yp x K xn 1

p 1

(1 p)

n( x1 K xn )1

( x … x )(1 p) p(n ( x … x )) 1

1

n

n

Los puntos críticos de L(p) son las raíces o soluciones de la relación ∂p∂ L( p)50 . Hay tres soluciones: p 5 0, 1 2 p 5 0 y (x1 1 x2 1 . . . 1 xn)(1 2 p) 2 (n 2 (x1 1 x2 1 . . . 1 xn))p 5 0. • La primera ecuación implica que: p 5 0 y L(0) 5 0. • La segunda ecuación implica que: p 5 1 y L(1) 5 0. • La tercera ecuación implica que: (x1 1 x2 1 . . . 1 xn) 2 p(x1 1 x2 1 . . . 1 xn) 5 np 2 (x1 1 x2 1 . . . 1 xn)p Ψ (x1 1 x2 1 . . . 1 xn) 5 np Ψ p 5 (x1 1 x2 1 . . . 1 xn)/n 5 x y L( x ) 5 x

x1 x2 … xn

(1 x)

n( x1 x2 … xn )

0

De las tres posibles soluciones de la ecuación ∂p∂ L( p)50 , la tercera es la que da mayor valor al sustituirse en la función de verosimilitud. Entonces, el estimador del parámetro p de máxima verosimilitud es pˆ = x . Una manera de simplificar la obtención del estimador de máxima verosimilitud es utilizar el logaritmo de L(θ); ya que la función logaritmo es estrictamente creciente, el valor que hace máxima la función L(θ) también maximiza la función log(L(θ)). En general, el método de máxima verosimilitud consiste en los siguientes pasos: a) Obtener la función de verosimilitud L(θ; x1, x2, x3, . . . , xn) como el producto de las funciones de densidad marginales evaluadas en los datos muestrales. b) Obtener el logaritmo de la función de verosimilitud, Log(L(θ; x1, x2, x3, . . . , xn)). c) Derivar el logaritmo de la función de verosimilitud. d) Encontrar las raíces del logaritmo de la derivada de la función de verosimilitud. e) Las raíces obtenidas en el punto anterior más los extremos en el intervalo de la definición del parámetro son los candidatos de ser el valor que maximiza a la función de verosimilitud. Determinar cuál de estos puntos maximiza la función de verosimilitud; ese punto es el estimador de máxima verosimilitud. Ejemplo 5.7. S ea X1, X2, . . . , Xn una muestra aleatoria de una función de distribución Weibull con parámetros α 5 2 y β desconocida, encontrar el estimador de máxima verosimilitud de β.

Capítulo 5 Estimación

| 225

Solución: La función de verosimilitud para la función de densidad Weibull, con α 5 2 y β es: f (x) 5

2 x e −( x /β ) 2 para x $ 0, 0 en otro caso; con β . 0. β

Entonces, la función de verosimilitud es: L(G)

2 n ( x1 x2 … xn )e

( x12 x22 … xn2 )/G 2

Gn

El logaritmo de esta función es: log[ L(G)] n log(2) log( x1 ) … log( xn ) ( x12 x22 … xn2 ) / G 2 n log(G)

y su derivada con respecto a β es: y log[ L(G)] 2( x12 x22 … xn2 ) / G 3 n / G yG

La solución de la ecuación x12 x2 ma verosimilitud, y éste es igual a:

. . .1 x

n

/ β 3 2 n / β 5 es el estimador de máxi-

ˆ G 2( x12 x22 … xn2 ) / n

Ejemplo 5.8. S ea X1, X2, . . . , Xn una muestra aleatoria de una variable aleatoria exponencial con parámetro desconocido λ, encontrar el estimador de máxima verosimilitud de λ. Solución: La función de densidad exponencial con parámetro λ es igual a: f (x) 5 λe − λx para x $ 0, 0 en otro caso; con λ . 0 Entonces la función de verosimilitud es: L(Q) Q n e

Q ( x1 x2 … xn )

El logaritmo de esta función es: log[ L(Q)] n log(Q) Q( x1 x2 … xn )

y su derivada de λ es: n y log[ L(Q )] ( x1 x2 … xn ) yQ Q n

La solución de la ecuación ( x1 x2 … xn ) 0 es el estimador de máxima veQ rosimilitud y éste es igual a: λˆ 5

x1 1 x2 1. . .1 xn 5x n

Ejemplo 5.9. S ea X1, X2, . . . , Xn una muestra aleatoria de una variable aleatoria uniforme en el intervalo [0, θ], encontrar el estimador de máxima verosimilitud de θ.

226

| Estadística para ingeniería y ciencias Solución: La función de densidad uniforme en el intervalo [0, θ] es igual a: f (x) 5 1/ θ para 0 # x # θ, 0 en otro caso Entonces, la función de verosimilitud es: L(θ) 51 / θ n para 0 # x1, x2, . . . , xn # θ

El logaritmo de esta función es: log[ L(θ)]5 2 n log(θ)

y su derivada con respecto a θ es: n ∂ log[ L(θ)]5 2 ∂θ θ n θ

La ecuación 2 5 0 no tiene solución; por tanto, la función de verosimilitud no tiene puntos críticos, pues es estrictamente decreciente. El máximo de L(θ) se debe alcanzar en uno de los extremos del rango de θ. De la definición de la función de densidad se observa que: x1 # θ, x2 # θ, . . . , xn # θ de aquí se deduce que el rango de definición de θ es máx{x1, x2, . . . , xn}# θ # ∞, en el extremo inferior se tiene que L(θ) es mayor; de aquí se sigue que el estimador de máxima verosimilitud de θ es: ˆ máx{ x x … x } V 1 2 n

5.1.4 Propiedades de los estimadores de máxima verosimilitud Los estimadores de máxima verosimilitud satisfacen la mayoría de las propiedades anteriormente descritas, así como otras más y por esta razón se recomienda el uso de estos estimadores. Son cinco las principales propiedades de los estimadores de máxima verosimilitud, estas propiedades se listan en seguida y se presentan sin su demostración formal debido a la complejidad de la misma. a) Los estimadores de máxima verosimilitud son consistentes. Si θ0 es el verdadero valor del parámetro θ y θˆ es el estimador de máxima verosimilitud, entonces θˆ converge a θ0 conforme el tamaño de la muestra aumenta. b) Los estimadores de máxima verosimilitud tienden a una distribución normal cuando el tamaño de la muestra aumenta. θˆ → X ~ N(µ, σ2) cuando n → ∞

c) Los estimadores de máxima verosimilitud son los más eficientes. Si el dominio de la función de densidad no depende de θ, entonces, θˆ alcanza la cota de Cramér-Rao. d) Si existe una estadística suficiente para θ, entonces el estimador de máxima verosimilitud es suficiente.

Capítulo 5 Estimación

| 227

e) Los estimadores de máxima verosimilitud son invariantes bajo transformaciones funcionales. Esto significa que si θˆ es el estimador insesgado de θ, entonces, u( θˆ ) es el estimador de máxima verosimilitud de u(θ). Los estimadores de máxima verosimilitud no necesariamente son insesgados; sin embargo, en la mayoría de los casos se puede eliminar el sesgo con operaciones aritméticas simples de suma o multiplicación.

5.1.5 E stimadores de máxima verosimilitud de los parámetros de la distribución normal Cuando estudiamos la distribución normal se dijo que era la distribución más importante de la estadística y el teorema del límite central justifica esta aseveración, por esta razón la estimación de los parámetros de la distribución normal se tratará de manera especial en este capítulo. Primeramente, se obtendrán los estimadores de máxima verosimilitud y se encontrarán sus propiedades.

Estimación de la media de la normal con s conocida Dada una muestra aleatoria X1, X2, . . . , Xn de una distribución normal con media µ y varianza σ2 conocida (Xi ~ N(µ, σ2)) se tiene que la función de verosimilitud es: − 1 ∑ ( xi − µ )2 1 i =1 2 σ2 e (2 π )n/ 2 σ n n

L(µ) 5

(5.9)

El logaritmo de esta función es:

log(L(µ)) = 2log((2π)n/2) 2 nlog(σ) 2

1 2 σ2

∑

n i =1

( xi − µ)2

(5.10)

y su derivada respecto a µ es:

(5.11)

La raíz de esta derivada es ∑ i =1 ( xi 2 µ) 5 0 ⇒ µˆ 5 x , esto significa que el estimador de máxima verosimilitud de la media de la normal es la media aritmética de la muestra y como se ve no depende del valor de la varianza. n

Estimación de la varianza de la normal con  conocida Si la media µ es conocida, la función de verosimilitud es: − 1 ∑ ( xi − µ )2 1 e 2 σ2 i =1 n/ 2 n (2 π ) σ n

L(σ) 5

(5.12)

El logaritmo de la función es:

log(L(σ)) = 2log((2π)n/2) 2 nlog(σ) 2

1 2 σ2

∑

n i =1

2

( xi − µ)

(5.13)

y su derivada respecto a σ es:

(5.14)

228

| Estadística para ingeniería y ciencias n σ

La raíz de esta derivada es 2 1

2 1 n n 2 2 1 1 n ∑ ( x 2µ) 5 0 ⇒ σˆ 2 5 n ∑ i=1 ( xi 2µ) , entonces, σˆ 2 5 n ∑ i=1 ( xi 2 µ) , σ 3 i =1 i

es el estimador de máxima verosimilitud de la varianza de la normal cuando se conoce µ.

Estimación de la media y la varianza de la normal, ambas desconocidas La función de verosimilitud de la normal con µ y σ desconocidas es: − 1 ∑ ( xi − µ )2 1 e 2 σ2 i =1 n/ 2 n (2 π ) σ n

L(µ, σ) 5

(5.15)

El logaritmo de la función de verosimilitud es: log(L(σ)) 5 2log((2π)n/2) 2 nlog(σ) 2

1 2 σ2

∑

2

n i =1

( xi 2 µ)

(5.16)

y sus derivadas parciales respecto a µ y σ son:

(5.17)

Al igualar a cero las dos derivadas se obtiene un sistema de dos ecuaciones con dos incógnitas: n 1 ( xi − µ) 5 0 2 ∑ i =1 2σ

n 2 n 1 2 1 3 ∑ i =1 ( xi 2 µ) 5 0 σ σ

(5.18) 1

La solución de este sistema de ecuaciones está dada por µˆ = x y σˆ 22 5 ∑ i =1 ( xi 2 x) , éstos son los estiman dores de máxima verosimilitud de los respectivos parámetros. 2

n

Propiedades de los estimadores de la media y la varianza de la normal Dado que µˆ = x , σˆ 2 5

2 2 1 n 1 n ∑ ( x 2 x) y σˆ 2 5 n ∑ i=1 ( xi 2µ) son estimadores de máxima verosimilitud, éstos n i =1 i

satisfacen las propiedades enunciadas en el apartado; la única propiedad que se debe probar es la de insesgamiento. Teorema 5.4. Para una muestra aleatoria de una distribución normal, se tiene que µˆ = x es y un estimador insesgado para la µ. Demostración: E(µˆ ) 5 E( X ) 5 1n E(∑ i =1 X i ) 5 1n ∑ i =1 E( X i ) 5 1n ∑ i =1 µ 5 n

n

n

nµ 5µ n

Teorema 5.5. Para una muestra aleatoria de una distribución normal, se tiene que el estimador σˆ 2 5

2 1 n ( xi 2 µ) es insesgado para σ2. ∑ i =1 n

Capítulo 5 Estimación

| 229

Demostración: E(σˆ 2 ) 5

2 1 n 1 n E ( X i − µ ) 5 ∑ i =1 σ 2 5 σ 2 ∑ i =1 n n

Teorema 5.6. Para una muestra aleatoria de una distribución normal se tiene que el estima2 1 n dor de σ2 dado por Sˆ 2 5 ¤ i 1 ( xi 2 x) es sesgado, mientras que el estimador de σ2, dado por

n n 2 n 2 1 σˆ 5 ( xi 2 x) es insesgado. s 5 ∑ i =1 n−1 n−1 2

Demostración: E(σˆ 22 ) 5

2 n 2 1 n 1 n E( xi 2 x) 5 ∑ i =1 E ( xi 2 µ) − 1n ∑ j =1 ( x j 2 µ)  ∑ i =1   n n

5

n n 1 n  E( xi 2 µ)2 1 n12 ∑ j =1 E( x j 2 µ)2 2 n2 ∑ j =1 E( xi 2 µ)( x j 2 µ) 1 1n ∑ j ≠ k E( xk 2 µ)E( x j 2 µ)  ∑ i =1    n

5

n 1 n  2 1 ∑ σ 1 n2 ∑ j =1 σ 2 2 n2 σ 2  n i =1 

5

1 n ∑  σ 2 1 nn2 σ 2 2 n2 σ 2  n i =1 

5

n 21 2 σ n

Como vemos, en este caso, E(σˆ 2 ) 5

n−1 2 σ , por tanto, el estimador de la varianza tiene sesgo. n

Por otro lado, el valor esperado s 2 5

n 2 σˆ es igual a: n−1 2

E( s 2 ) 5

n n 21 2 n E(σˆ 22 ) 5 σ 5σ2 n 21 n n 21

así se concluye que s2 es un estimador insesgado para σ2. Tabla 5.1. Estimadores de los parámetros de la distribución normal. Parámetro

Estimador

Valor esperado del estimador

µ

µˆ 5 X

σ2

σˆ 2 5 1n ∑ i =1 ( X i 2 µ)

σ2

s 2 5 n1−1 ∑ i =1 ( X i 2 X )

µ n

2

n

σ2 (µ conocida) 2

σ2

230

| Estadística para ingeniería y ciencias

5.2 Estimación por intervalos 5.2.1 Introducción La estimación puntual de un parámetro da una idea de su valor, pero nada dice de la precisión y la exactitud con la cual se está estimando ese valor. Para remediar esta deficiencia se puede estimar la distancia media entre el estimador y el parámetro y con esta estimación se construye un intervalo de confianza. La idea de la estimación de un parámetro mediante un intervalo se basa en encontrar dos estadísticas T1 y T2, tales que satisfagan la relación P(T1 # θ # T2) 5 1 2 α, donde 1 2 α se conoce como nivel de confianza. Las dos estadísticas definen el intervalo (T1, T2) que con una probabilidad de 12 α contiene al parámetro θ. Es importante aclarar la diferencia que existe entre decir intervalo aleatorio e intervalo de confianza. Cuando se tiene el intervalo indicando los extremos mediante la fórmula de las estadísticas T1 y T2, se considera que el intervalo es aleatorio. Cuando se obtiene la muestra y con sus datos se evalúan las estadísticas T1 y T2, el intervalo obtenido se dice que es de confianza, pues lo que se tiene es la confianza que la muestra obtenida sea una de las que harían que T1 # θ # T2. El valor de 1 2 α corresponde a la probabilidad de que el intervalo aleatorio contenga el parámetro; cuando se evalúan los extremos del intervalo en la muestra particular, se tiene un intervalo de confianza y el término (1 2 α)100% corresponde al porcentaje de confianza que el parámetro se encuentra contenido en el intervalo. En general, para determinar los intervalos de confianza del parámetro θ se debe tener una estadística cuya función de distribución no dependa de algún parámetro desconocido. El siguiente ejemplo muestra la forma de obtener un intervalo de confianza para el parámetro λ de la exponencial.

Ejemplo 5.10. S ea X1, X2, . . . , Xn una muestra aleatoria de una distribución exponencial con parámetro λ. Encontrar el intervalo de confianza del parámetro λ usando la suma de valores muestrales como base. Solución: Primero se determina la función de distribución de la variable Y 5λ ∑ i =1 X i , utilizando la técnica de la función generatriz de momentos. Recuerde que si dos variables tienen la misma función generatriz de momentos, entonces las dos variables se distribuyen igual: n

h h Q MY(t) 5 E(etY) µ … µ etY Q n e ¨ 0

0

1 (1 t )n

µ

h 0

h

n i "1

Xi

dx1 … dxn

… µ Q n (1 t )n e 0

Q ( 1 t )

¨ i "1 Xi dx … dx (1 t ) n n 1 n

Ésta es la función generadora de momentos de la función de distribución gamma con parámetros α 5 n, β 5 1, esto implica que: fY ( y) 5

y n−1 e − y si y . 0, con n . 0 Γ( n)

Como se puede ver, la función de densidad no depende de ningún parámetro desconocido, pues n es el tamaño de la muestra.

Capítulo 5 Estimación

| 231

Ahora, se encuentran dos números a y b, tales que satisfacen la relación: P(a # Y # b) 5 1 2 α De esta manera, se obtiene el intervalo aleatorio para λ . {y | a # y # b} 5 {x1, . . . , xn | a # λ ∑ i =1 xi # b} n

5{x1, . . . , xn | a/ ∑ i =1 xi # λ # b/ ∑ i =1 xi } n

n

Ejemplo 5.11. U na muestra aleatoria de una función de distribución exponencial de tamaño 20 da una suma igual a 34.7. Encontrar un intervalo de 95% de confianza para λ. Solución: Dado que se quiere un intervalo de 95% de confianza, entonces 1 2 α 5 0.95 y se deben hallar los números a y b, tales que P(a # Y # b) 5 0.95, cuando Y es una variable aleatoria gamma con α 5 20, β 5 1. Existen infinidad de parejas a y b que satisfacen la relación y por facilidad y conveniencia se elegirán los números considerando que en los dos extremos se deja fuera la misma área, esto es: P(Y # a) 5 P(Y $ b) 5 0.025 De aquí se obtiene que P(Y # b) 5 0.975. Los valores de a y b que satisfacen esta relación se encuentran usando Excel con el asistente de función f . Elija funciones ESTADÍSTICAS, luego DISTR.GAMMA.INV, introduzca los datos que se piden y se obtiene que a 5 12.22 y b 5 29.67. El extremo inferior del intervalo es 12.22/34.7 5 0.352 y el extremo superior del intervalo es 29.67/34.7 5 0.855, usando la fórmula obtenida en el ejemplo 5.10 se determina que: 0.352 # λ # 0.855 con 95% de confianza

5.2.2 Intervalo de confianza para los parámetros de la normal Función de distribución de los estimadores de  y 2 Para hallar los intervalos de confianza de los parámetros de la normal, primero se estudian las funciones de distribución de la media y la varianza de la muestra. Teorema 5.7. Si X1, X2, . . . , Xn es una muestra aleatoria de una función de distribución normal con media µ y varianza σ2, entonces n ( X 2µ) / σ ~ N(0, 1). Demostración: Encontrar la función generatriz de momentos de la variable aleatoria: Z 5 n ( X 2 µ) / σ 5(∑ i =1 ( X i 2 µ)) / nσ n

Y si concuerda con la función generatriz de momentos de la normal estándar se habrá probado el teorema.

232

| Estadística para ingeniería y ciencias 1 (2 U )n/ 2 X n

MZ(t) 5 E(etZ) 5

µ

2

et / 2 (2 U )n/ 2 X n

5et

2

µ

h h

h h

… µ e ¨ i "1 h

n

t

( x R )2 / 2 X 2 e ¨ i "1 i dx1 … dxn

( xi R )/ nX

h

n

h ( x R tX / n )2 / 2 X 2 dx1 … dxn … µ e ¨ i "1 i n

h

/2

ésta es la función generatriz de momentos de la normal estándar y así queda demostrado el teorema. Teorema 5.8. Si X1, X2, . . . , Xn es una muestra aleatoria de una función de distribución normal con n media µ y varianza σ2, entonces ( n 21)s2 / σ 2 5 ∑ i =1 ( X i 2 X )2 / σ 2 ~ ji-cuadrada con n 2 1 grados de libertad. La demostración de este teorema sale del alcance de este libro. Teorema 5.9. Si X1, X2, . . . , Xn es una muestra aleatoria de una función de distribución normal con n media µ y varianza σ2, entonces las variables n ( X 2µ) / σ y ( n 21)s2 / σ 2 5 ∑ i =1 ( X i 2 X )2 / σ 2 son independientes. La demostración de este teorema no será tema de este libro. Tabla 5.2. Distribución de los estimadores de los parámetros de la normal. Parámetro

Estimador

Función de distribución asociada

µ

ˆ X µ5

σ2

σˆ 2 5 1n ∑ i =1 ( X i 2 µ)2

σ2

s 2 5 n1−1 ∑ i =1 ( X i 2 X )

µˆ 5 X ≈ N (µ, σ 2 / n) µ n 1 2 ∑ ( X 2 µ) ≈ χ2 con n grados de libertad σ 2 i =1 i

n

n

2

n 2 1 ∑ ( X 2 X ) ≈ χ2 con n 1 grados de libertad σ 2 i =1 i

Intervalo de confianza para  Para calcular el intervalo de confianza de la media de la normal µ, se consideran dos casos: con σ2 conocida y σ2 desconocida. Caso 1. Se conoce el valor de σ2. El teorema 5.7 indica que n ( X 2µ) / σ ~ N(0, 1), por tanto se debe tener el valor de zα/2, tal que P(2zα/2 # n ( X 2µ) / σ # zα/2) 5 1 2 α. Si se despeja de este intervalo el parámetro se obtiene: {2zα/2 # n ( X 2µ) / σ # zα/2 } Ψ { X 2 zα/2σ/ n # µ # X 1 zα/2σ/ n } Donde:

α y Z ~ N(0, 1). 2 La probabilidad (1 – α) es el nivel de confianza y cuando se reporta el intervalo se considera como porcentaje y no como probabilidad. zα/2 es el valor tal que P(zα/2 . Z) 5

Capítulo 5 Estimación

| 233

X – zα/2 σ / n es el límite de confianza inferior. X 1 zα/2 σ/ n es el límite de confianza superior.

El término / n es el error estándar. Tabla 5.3. Valores de zα/2 para los niveles de confianza más comúnmente usados. Nivel de confianza 1 – α

α

α/2

zα/2

0.90

0.10

0.050

1.645

0.95

0.05

0.250

1.96

0.99

0.01

0.005

2.58

Determinación del tamaño de la muestra. La selección más apropiada del tamaño de la muestra es importante, porque no queremos una muestra de tamaño excesivamente grande, ya que será muy costosa, ni tan pequeña que dé resultados deficientes. Como vemos, la longitud del intervalo de confianza para µ está determinado por el error E 5 zα/2σ/ n . De esta ecuación, se puede despejar el término zα/2 o el valor de n. Entonces, manipulando esta ecuación se pueden calcular tres términos: a) E 5 zα/2σ/ n es la mitad de la longitud del intervalo; es el error máximo permitido para la distancia entre µ y X . Para calcularlo se deben conocer los valores de 1 2 α y n. b) zα/2 5 E/ n /2σ es el valor de Z para una confianza de 1 2 α; para calcularlo se deben conocer los valores del error E y de n. c) n 5 (2zα/2σ/E)2 es el tamaño de la muestra; para calcularlo se deben conocer los valores del error E y de 1 2 α. La primera ecuación se utiliza para construir el intervalo de confianza cuando se tiene el tamaño de la muestra n y la confianza del estimador. La segunda ecuación se usa si se quiere determinar el valor de la confianza y se conoce la longitud del intervalo de confianza y el tamaño de la muestra. La tercera ecuación se emplea para encontrar el tamaño de la muestra, la longitud del intervalo de confianza y el nivel de confianza.

Ejemplo 5.12. S upóngase que se tiene una muestra aleatoria de 100 observaciones de concentraciones de óxidos de nitrógeno (NO) atmosférico obtenida de una población normal con σ 5 25. Se calculó el promedio muestral y se obtuvo X 5 20. Encontrar el intervalo de confianza de 95% y 99% para el promedio poblacional μ. Solución: La estimación puntual de μ es X 5 20. Se utiliza la primera de las tres fórmulas. Intervalo de 95% para μ. α 5 0.05, entonces α/2 5 0.025. En la tabla de la distribución normal estándar se encuentra que z0.025 5 1.96 • El extremo inferior del intervalo es X 2 zα/2σ/ n 5 20 – 1.96 (25)/ 100 5 15.1 • El extremo superior del intervalo es X 1 zα/2σ/ n 5 20 1 1.96 (25)/ 100 5 24.9

234

| Estadística para ingeniería y ciencias De esta manera se tiene que 15.1 , μ , 24.9 con 95% de confianza. Intervalo de confianza del 99% para µ α 5 0.01, entonces α/2 5 0.005. En la tabla de la distribución normal estándar se determina que z0.005 5 2.58. • El extremo inferior del intervalo es X 2 zα/2σ/ n 5 20 – 2.58 (25)/ 100 5 13.55. • El extremo superior del intervalo es X 1 zα/2σ/ n 5 20 1 2.58 (25)/ 100 5 26.45. Así que 13.55 , μ , 26.45 con 99% de confianza.

Ejemplo 5.13. U n consultor estadístico intenta usar el promedio de una muestra aleatoria de tamaño n 5 150, para estimar la aptitud mecánica promedio (promedio mediante cierta prueba) de obreros de la línea de montaje de una industria. Si con base en la experiencia, el estadístico puede suponer que σ 5 6.2 y la normalidad de las observaciones, entonces, para estos datos, ¿qué puede afirmar este consultor con probabilidad de 0.99, acerca de la dimensión máxima del error E? Solución: Los datos que se tienen son: n 5 150, σ 5 6.2, α 5 0.01; entonces, zα/2 5 z0.005 5 2.575. Al usar la fórmula E 5 zα/2 (σ/ n ) y sustituyendo, resulta: E 5 2.575(6.2/ 150 ) 5 1.30

Con este resultado, el consultor estadístico puede afirmar, con un nivel de confianza de 99%, que la distancia entre la media poblacional y la media muestral será a lo mas de 1.30. Ejemplo 5.14. S uponer que el consultor estadístico del problema anterior desea un nivel de confianza de 95%; siendo así, ¿cuál sería la magnitud del error, E? Solución: Al usar nuevamente la fórmula E 5 zα/2 (σ/ n ) con zα/2 5 z0.025 5 1.96 E 5 1.96(6.2 150 ) 5 0.992 Nótese que debido a que se quiere menos precisión (usando el nivel de confianza de 95%), el intervalo es de menor longitud que en el ejemplo anterior. Observe que si se cambia la confianza o el tamaño de la muestra, el error de estimación máximo E también cambia. Ejemplo 5.15. E n un estudio de química, en un artículo publicado en el Journal of Heat Transfer, se describe un nuevo método para medir la conductividad térmica del hierro Armco. Suponer que se desea que el error promedio en la conductividad térmica del hierro

Capítulo 5 Estimación

| 235

Armco sea menor que 0.05 Btu/h-ft-oF, con un nivel de confianza de 95%. Entonces, si de estudios previos se sabe que la desviación estándar es de σ 5 0.10, estimar el tamaño de muestra requerido. Solución: Aquí, zα/2 5 z0.05/2 5 z0.025 5 1.96, σ 5 0.10, E 0.05. Al sustituir estos valores en la ecuación n 5 (zα/2 σ/E)2 obtenemos: n 5 [(1.96)(0.10) / 0.05)]2 5 15.37 ≈ 16

Nota: Siempre debemos redondear por arriba el tamaño de la muestra, de manera que el número requerido sea cuando menos adecuado. Esto es un convencionalismo usado en estadística. Ejemplo 5.16. E n un estudio de recolección de basura desechada por el sector doméstico, es decir, del reciclado de basura, queremos estimar el promedio del plástico desechado en las casas. ¿Qué tamaño de muestra de casas debe ser seleccionado, aleatoriamente, si deseamos estar seguros en 99% que el promedio muestral esté dentro de 0.250 kilogramos del verdadero promedio poblacional μ? Suponer que estudios pilotos dan una desviación estándar conocida de σ 5 1.100 kilogramos. Solución: Queremos un tamaño de muestra n, dado que α 5 0.01 (99% de nivel de confianza), de manera que zα/2 5 z0.005 5 2.575 (valor constante de la tabla de la distribución normal con 99% nivel de confianza). Además, E 5 0.250, σ 5 1.100. Así, sustituyendo los datos en la fórmula n 5 (zα/2 σ/E)2, obtenemos: n 5 [(2.575)(1.100) / (0.250)]2 5 128.37 ≈ 129

En conclusión, debemos de obtener una muestra de cuando menos 129 casas domésticas seleccionadas aleatoriamente (que están descartando el plástico). Con semejante muestra, estaremos confiados en un 99% de que el promedio muestral X no se alejará de μ más de 0.250 kilogramos. Ejemplo 5.17. R efiriéndose al ejemplo anterior, si quisiéramos tener resultados menos precisos empleando un margen de error de 0.500 kilogramos, calcular el tamaño de la muestra n suponiendo las mismas condiciones anteriores. Solución: Usando la fórmula n 5 (zα/2 σ/E)2, obtenemos:

n 5 [(2.575)(1.100) / (0.500)]2 5 32.09 ≈ 33

236

| Estadística para ingeniería y ciencias Observaciones: a) Conforme disminuye la longitud del intervalo 2E, el tamaño requerido de la muestra n aumenta para un valor fijo de σ y para el nivel de confianza especificado. b) A medida que aumenta, el tamaño requerido de la muestra n se incrementa el nivel de confianza, para una longitud deseada 2E fija. c) Conforme aumenta el nivel de confianza, el tamaño requerido de la muestra n también se incrementa para una longitud fija deseada 2E.

Caso 2. Se desconoce el valor de σ2. Cuando se desconoce el valor de σ se utiliza su estimador s y se encuentra la función de distribución de n ( X R) . Los teoremas 5.7, 5.8 y 5.9 indican que s

~ N(0, 1), (n – 1)s /σ ~ ji-cuadrada con n 2

2

2 1 grados de libertad y que son independientes; entonces, por la definición 4.27 se tiene que el cociente: n ( X 2 µ) / σ n ( X 2 µ) 5 s/σ s

(5.20)

se distribuye como una t con n – 1 grados de libertad. Así que se satisface la relación:

P(2t12α/2 # n ( X 2µ) / s # t12α/2) 5 1 2 α

(5.21)

Si se despeja de este intervalo el parámetro, resulta:

{2t12α/2 # n ( X 2µ) / s # t12α/2 } 5 { X 2 t12α/2 s/ n # µ # X 1 t12α/2 s/ n }

(5.22)

Determinación del tamaño de la muestra. En este caso se pueden utilizar las mismas fórmulas derivadas de la longitud del intervalo de confianza para µ que está determinado por el error E 5 t12α/2s/ n . De esta ecuación se pueden despejar tres términos: • E 5 t12α/2s/ n es la mitad de la longitud del intervalo y es el error máximo permitido para la distancia entre µ y X . Para calcularlo se deben conocer los valores de 1 2 α y n. • t12α/2 5 E n /2s es el valor de t para una confianza de 1 2 α. Se calcula al conocer el error E y n. Es poco probable que el resultado del cálculo de la parte de la derecha de la ecuación sea uno de los que cita la tabla de t de Student (recuerde que la tabla de t únicamente contiene los reportes para unos cuantos valores de la probabilidad) entonces, t12α/2 y se obtiene usando las funciones de Excel o Minitab; otra opción es que cuando n es suficientemente grande se puede considerar que la distribución t es aproximadamente normal estándar. • n 5 (t12α/2 s/E)2 es el tamaño de la muestra; para calcularlo se debe conocer el error E y 1 2 α, pero también se debe tener una estimación de σ, por lo que se requiere obtener una muestra piloto preliminar para calcular el valor de s. Ejemplo 5.18. E l gerente de una fábrica sabe que el tiempo que usan los trabajadores para hacer una determinada faena se distribuye como una normal con media desconocida µ y varianza desconocida σ. Se seleccionó una muestra de 18 empleados y se les tomó el tiempo

Capítulo 5 Estimación

| 237

que tardaron en hacer la faena, el promedio y la desviación estándar de los 18 datos fue igual a X 5 15 minutos y s 5 2 minutos. Construya un intervalo de confianza de 95% para la µ. Solución: El intervalo de confianza se encuentra con la fórmula; X 2 t12α/2 s/ n # µ # X 1 t12α/2 s/ n

de esta fórmula desconocemos únicamente el valor de t12α/2 con 18 2 1 5 17 grados de libertad. Dado que se quiere el intervalo de 95% de confianza, se tiene que α 5 0.05 y α/2 5 0.025. En la tabla de la distribución t de Student se encuentra que t0.975 5 2.110 y se calcula s/ n 5 0.47. El intervalo de confianza es: 15 – 2.110 (0.47) , µ , 15 1 2.110 (0.47) 14.01 , µ , 15.99 Esto significa que basado en la muestra de 18 empleados, estamos confiados en 95% que los límites de 14.01 y 15.99 minutos contienen el verdadero promedio del tiempo requerido para completar la tarea.

Intervalos de confianza para la diferencia de dos medias Sean X11, X12, . . . , Xn , una muestra aleatoria de n1 observaciones tomadas de una primera población con va1 2 lor esperado µ1 y varianza σ 1 , y X21, X22, . . . , Xn una muestra aleatoria de n2 observaciones tomada de una 2 2 segunda población con valor esperado µ2 y varianza σ 2 . Si las muestras vienen de una distribución normal y X 1 

σ2



1

σ2 

y X 2 son las medias muestrales, entonces X 1 − X 2 ~ N  µ1 2 µ 2 , 1 1 2  . n n 2



Para calcular el intervalo de confianza para la diferencia de dos medias se debe saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas si son iguales o diferentes. Cada uno de estos tres casos se analizará por separado. Caso 1. Varianzas conocidas. Si las varianzas poblacionales son conocidas, los pasos a seguir para encontrar el intervalo de confianza son los siguientes: a) Se calcula X 1 − X 2 , el estimador suficiente de µ1 2 µ2. b) Se encuentra el valor de zα/2 en la tabla de la distribución normal estándar, tal que:   X 1 2 X 2 2 (µ 1 2 µ 2 ) P  2zα / 2 , , z  51 2 α α / 2   σ 12 / n1 1 σ 22 / n2

c) Al manipular la expresión anterior en forma similar a como se hizo en los casos de una sola muestra, se llega al siguiente teorema que nos define el intervalo de confianza para la diferencia entre dos medias µ1 – µ2 con varianzas conocidas σ 12 y σ 22 .

238

| Estadística para ingeniería y ciencias

Teorema 5.10. Si X 1 y X 2 son las medias de dos muestras aleatorias independientes de tamaño n1 2 2 y n2 tomadas de poblaciones que tienen varianzas conocidas σ 1 y σ 2 , respectivamente; entonces un intervalo de 100(1 – α)% de confianza para µ1 2 µ2 es: X 1 2 X 2 2 zα / 2 σ 12 / n1 1 σ 22 / n2 , (µ1 2 µ 2 ) , X 1 2 X 2 1 zα / 2 σ 12 / n1 1σ 22 / n2

Ejemplo 5.19. C onstruir un intervalo de confianza de 94% para la diferencia real entre las duraciones de dos marcas de focos, si una muestra de 40 focos tomada al azar de la primera marca dio una duración media de 418 horas y una muestra de 50 focos de otra marca dio una duración media de 402 horas. Las desviaciones estándares de las dos poblaciones son 26 horas y 22 horas, respectivamente. Solución: Se tiene que X 1 5 418, X 2 5 402, σ1 5 26, σ2 5 22, n1 5 40, n2 5 50, a 5 0.04, z0.03 5 1.88. El intervalo de confianza es:

6.3 R1 R 2 25.7

El hecho de que ambos límites sean positivos y, por tanto, el intervalo no contenga el valor cero, indica que es poco probable que ambas marcas tengan la misma duración media, y sugiere que la primera marca de focos tenga una duración media superior a la segunda. Ejemplo 5.20. C on la finalidad de reducir el consumo de gasolina (para que se contamine menos el medio ambiente, especialmente, con CO2 que está calentando la Tierra y cambiando el clima), se hizo un estudio para comparar el rendimiento en kilómetros por litro de dos tipos de máquinas A y B. Para esto se seleccionó una muestra de 50 unidades del tipo de máquina A y otra muestra de 50 unidades del tipo de máquina B. El promedio de gasolina consumida para las máquinas tipo A fue de X 1 5 36 km por litro y el promedio para las máquinas tipo B fue de X 2 5 42. Las desviaciones estándar fueron de 6 y 8 km para las máquinas A y B, respectivamente. Encontrar el 95% de intervalo de confianza para (µA 2 µB). Solución: Los promedios aritméticos y las desviaciones estándar son: X 1 5 36 km y X 2 5 42 km con σ1 5 6 y σ2 5 8, respectivamente. Los tamaños de las muestras son n1 5 n2 5 50. Intervalo de 95%: α 5 0.05, entonces α/2 5 0.025. En la tabla de la distribución normal estándar se encuentra que z0.025 5 1.96.

Capítulo 5 Estimación

| 239

• El extremo inferior del intervalo es: X 1 2 X 2 2 zα / 2 σ 12 / n1 1 σ 22 / n2 5 36 2 42 21.96 6 2 / 50 1 8 2 / 50 5 28.772

• El extremo superior del intervalo es: X 1 2 X 2 1 zα / 2 σ 12 / n1 1 σ 22 / n2 5 36 2 42 11.96 6 2 / 50 1 8 2 / 50 5 23.228

De esta manera se tiene que 28.57 , µ1 2 µ2 , 23.43 con 95% de confianza. Intervalo de confianza de 99% para µ: α 5 0.01, entonces, α/2 5 0.005. En la tabla de la distribución normal estándar se encuentra que z0.005 5 2.58. • El extremo inferior del intervalo es: X 1 2 X 2 2 zα / 2 σ 12 / n1 1 σ 22 / n2 5 36 2 42 2 2.58 6 2 / 50 1 8 2 / 50 5 29.649

• El extremo superior del intervalo es: X 1 2 X 2 1 zα / 2 σ 12 / n1 1 σ 22 / n2 5 36 2 42 1 2.58 6 2 / 50 1 8 2 / 50 5 22.351

De esta manera, se tiene que 29.649 , µ1 2 µ2 , 22.351 con 99% de confianza. En ambos casos el 0 no está incluido en el intervalo de confianza y los extremos son negativos, por tanto se concluye que existe suficiente evidencia estadística para afirmar que: µ1 , µ 2 Selección del tamaño de la muestra para dos poblaciones. Se puede encontrar el tamaño de muestra apropiado para construir un intervalo de confianza considerando un error específico y un nivel de confianza 100(1 – α)% especificado y que las dos muestras sean del mismo tamaño, es decir, n1 5 n2 5 n, en este caso el error máximo permitido es:

E 5 zα / 2 σ 12 / n 1 σ 22 / n 5 zα / 2 (σ 12 1 σ 22 ) / n

(5.23)

por tanto, al despejar el valor de n se tiene que: n5

zα2 / 2 (σ 12 1 σ 22 ) E2

(5.24)

Nota: Recuerde que es necesario redondear al entero mayor del resultado de esta fórmula. Con esto, se asegura que el nivel de confianza sea al menos de 100(1 – α) por ciento. Ejemplo 5.21. S e prueban dos fórmulas diferentes de gasolina oxigenada para reducir las emisiones de monóxido de carbono (CO) emitidas por los motores de combustión interna. Se sabe de antemano que la varianza para la primera fórmula es de 1.5, mientras que la varianza para la segunda fórmula es de 1.2. ¿Qué tamaño de muestra debe usarse para cada población muestreada, si se desea tener una confianza de 95% de que el error, al estimar la diferencia entre los promedios de las dos fórmulas diferentes, sea menor que 1?

240

| Estadística para ingeniería y ciencias Solución: Se sustituyen los datos en la fórmula: n5

zα2 / 2 (σ 12 1 σ 22 ) E

2

5

1.96 2 × (1.5 11.2) 510.37 ≈ 11 12

Por tanto, el tamaño de la muestra para las poblaciones µ1 y µ2 es: n 5 n1 5 n2 5 11 2 2 Caso 2. Varianzas desconocidas, pero iguales ( σ 1 5 σ 2 5 σ2).

Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadística para verificar si son iguales o diferentes, esto se puede hacer usando las técnicas que se verán en el siguiente capítulo. Si se concluye que no hay diferencia significativa entre las dos varianzas, entonces se efectúan los pasos siguientes para obtener el intervalo de confianza. El estadístico usado como estimador puntual de la diferencia de medias µ1 2 µ2 será X 1 − X 2 , que es un estimador suficiente. Para el caso que las dos muestras sean independientes y obtenidas de una distribución normal, resulta: X 1 2 X 2 2 (µ 1 2 µ 2 )

σ 1 / n1 11 / n2

~ N(0, 1) y

( n1 21)s12 1( n2 21)s22 σ2

~χ 2

(5.25)

Con n1 1 n2 2 2 grados de libertad, por lo que de la definición de la distribución t de Student, definición 4.27, al efectuar el cociente de la variable normal estándar entre la raíz cuadrada de la variable ji-cuadrada entre sus grados de libertad, se obtiene: X 1 2 X 2 2 (µ 1 2 µ 2 ) sp 1 / n1 11 / n2

donde: sp2 5

~ t con n1 1 n2 2 2 grados de libertad

( n1 21)s12 1( n2 21)s22 n1 1 n2 2 2

De esta expresión resulta el siguiente teorema. Teorema 5.11. Si X 1 , X 2 , s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaños n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero iguales, entonces un intervalo de confianza de 100(1 – α)% para la diferencia de las medias µ1 2 µ2 es: X 1 2 X 2 2 t1−α / 2 sp 1 / n1 11 / n2 , µ1 2 µ 2 , X 1 2 X 2 2 t1−α / 2 sp 1 / n1 11 / n2

con sp2 5

( n1 21)s12 1( n2 21)s22 n1 1 n2 2 2

Ejemplo 5.22. L a siguiente tabla presenta los resultados de dos muestras aleatorias para comparar el contenido de nicotina de dos marcas de cigarros.

Capítulo 5 Estimación

| 241

Tabla 5.4. Resultados. Marca A

Marca B

ni

10

8

Xi

3.1

2.7

8i

0.5

0.7

Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones normales con varianzas desconocidas pero iguales, construir un intervalo de confianza de 95% para la diferencia real de nicotina de las dos marcas. Solución: Como las varianzas son iguales pero desconocidas, se calcula el valor de la varianza combinada sp: sp2 5

(9 × (0.5)2 1 7 × (0.7)2 5 0.355 ⇒ sp 5 0.596 16

El valor de t0.975 con 16 grados de libertad es igual a 2.12, entonces el intervalo de confianza de 95% está dado por: 3.1 2 2.7 2 2.21 × 0.596

1 1 1 1 1 1 , µ1 2 µ 2 , 3.1 2 2.7 1 2.21 × 0.596 10 8 10 8 20.2 , µ1 2 µ 2 , 1.0

Debido a que la diferencia real entre las dos medias puede ser cero, no se concluye que existe una diferencia en el contenido de nicotina de las dos marcas de cigarros. Ejemplo 5.23. E l gerente de una refinería piensa modificar el proceso para producir gasolina a partir de petróleo crudo. Él hará la modificación sólo si la gasolina promedio que se obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor con respecto al proceso en uso. Con base en experimentos de laboratorio y mediante el empleo de dos muestras aleatorias de tamaño 12, una para cada proceso, la cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviación estándar de 2.3, y para el proceso propuesto fue de 28.2 con una desviación estándar de 2.7. El gerente piensa que los resultados proporcionados por los dos procesos son variables aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en esta evidencia, ¿debe adoptarse el nuevo proceso? Solución: Para determinar si hay diferencia significativa entre los dos procesos de elaboración de gasolina se encuentra el intervalo de confianza de µ1 2 µ2, con 95% de confianza. Como las varianzas son iguales pero desconocidas, calculamos el valor de sp: sp2 5

(11 × (2.3)2 111 × (2.7)2 5 6.29 ⇒ sp 5 2.508 22

El valor de t0.975 con 22 grados de libertad es igual a 2.074, entonces el intervalo de confianza de 95% está dado por

242

| Estadística para ingeniería y ciencias 24.6 2 28.2 2 2.074 × 2.508

1 12

1 121 , µ1 2 µ 2 , 24.6 2 28.2 1 2.074 × 2.508

1 12

1 121

25.724 , µ1 2 µ2 , 21.476 Debido a que el cero no está contenido en este intervalo y que los dos extremos son negativos, se puede concluir que el nuevo proceso de obtención de gasolina tiene una media mayor. Ejemplo 5.24. S e hace un experimento agrícola para probar dos tipos de fertilizantes (fosfatados y nitrogenados) en el cultivo de maíz sembrado en dos tipos de suelos. Uno de cada tipo de fertilizantes se aplica a cada suelo por separado. Después del crecimiento de las plantas de maíz se selecciona una muestra de 13 mazorcas cultivadas en la parcela con la aplicación del fertilizante fosfatado. El peso promedio muestral fue de 2.1 libras, con una varianza de 0.5 libras. Similarmente, se seleccionan 12 mazorcas cultivadas en la parcela con la aplicación del fertilizante nitrogenado. El peso promedio muestral fue de 1.0 libras con una varianza de 0.6 libras. Suponiendo que las dos poblaciones de la producción de maíz son normales y que las dos varianzas son iguales, hacer un intervalo de confianza de 90% para la diferencia de los dos promedios poblacionales. Solución: Los datos son: X 1 5 2.1, s12 5 0.6, n1 5 13, X 2 5 1.0, s22 5 0.6, n2 5 12, n2 5 12. Para determinar si hay diferencia significativa entre los dos procesos de elaboración de gasolina se encuentra el intervalo de confianza para µ1 2 µ2, con 90% de confianza. Como las varianzas son iguales pero desconocidas, calculamos el valor de sp: sp2 5

(12 × 0.5 111 × 0.6 5 0.548 ⇒ sp 5 0.740 23

El valor de t0.975 con 22 grados de libertad es igual a 2.074, entonces el intervalo de confianza de 95% está dado por: 2.1 21.0 2 2.069 × 0.740

1 13

1 121 , µ1 2 µ 2 , 2.1 21.0 2 2.069 × 0.740

1 13

1 121

0.48 , µ1 2 µ2 , 1.713 Debido a que el cero no está contenido en este intervalo, se puede concluir que el fertilizante fosfatado da mazorcas son significativamente más pesadas que el fertilizante nitrogenado.

Varianzas desconocidas y desiguales 21  22 Si se determina que las varianzas de las dos poblaciones son diferentes se puede calcular el intervalo de confianza para la diferencia de las dos medias considerando la estadística: X 1 2 X 2 2 (µ 1 2 µ 2 ) s12 / n1 1 s22 / n2

( s 2 / n 1 s 2 / n )2

1 1 2 2 ~ t con ( n 21)s 4 / n2 1( n 21)s 4 / n2 grados de libertad 1 1 1 2 2 2

El intervalo de confianza lo da el siguiente teorema, basado en la distribución t con n grados de libertad.

Capítulo 5 Estimación

| 243

Teorema 5.12. Si X 1 , X 2 , s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaños n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas y diferentes, entonces un intervalo de confianza de 100(1 – α)% para la diferencia de las medias µ1 2 µ2 es:

X 1 2 X 2 2 t1−α / 2 s12 / n1 1 s22 / n2 , µ1 2 µ 2 , X 1 2 X 2 1 t1−α / 2 s12 / n1 1 s22 / n2

la variable t tiene

( s12 / n1 1 s22 / n2 )2 s14 / n12 ( n1 21) 1 s24 / n22 ( n2 21)

(5.27)

grados de libertad.

Ejemplo 5.25. U n ingeniero sanitario muestrea dos poblaciones de concentraciones de DBO (demanda bioquímica de oxígeno) provenientes de dos plantas de tratamiento de aguas residuales. Para la primera planta se toma una muestra de n1 5 16 análisis del DBO, los 16 datos dan un promedio muestral igual a X 1 5 4.00 con una varianza de s12 5 1.5. Para la segunda planta de tratamiento se toma una muestra de n2 5 15 análisis de DBO, de estos 15 datos se obtiene un promedio muestral de X 2 5 3.6 con una varianza s22 5 1.3. El ingeniero desea construir un intervalo de confianza de 95% para las diferencias de promedios µ1 y µ2 de cada planta. Solución: Primeramente, se calculan los grados de libertad usando la ecuación: ( s12 / n1 1 s22 / n2 )2 s14 / n12 ( n1 21) 1 s24 / n22 ( n2 21)

5

(1.5 / 16 11.3 / 15)2 0.033 5 5 30 2 2 2 2 (1.5 ) / (16 × 15) 1(1.3 ) / (15 × 14) 0.0011

La estimación puntual de µ1 2 µ2 es ( X 1 – X 2 ) 5 (4.0 – 3.6) 5 0.4. Usando un nivel de confianza de 95% con 30 grados de libertad y consultando la tabla de la distribución de t da t0.975; 30 5 2.042. Por tanto, sustituyendo todos estos valores en la relación del teorema anterior se obtiene: 4.0 2 3.6 2 2.042 1.5 / 16 11.3 / 15 , µ1 2 µ 2 , 4.0 2 3.6 1 2.042 1.5 / 16 11.3 / 15

–0.467 , (µ1 2 µ2) , 1.267 Nótese que el intervalo contiene a 0, lo que indica que es probable que las dos medias sean iguales.

Intervalo de confianza para la media de datos pareados mD 5 m1 2 m2 En algunos casos se quiere determinar el efecto de un proceso aplicado a unidades muestrales y se obtienen datos pareados, a las mismas unidades en dos tiempos diferentes o aplicados a unidades muestrales semejantes. Por ejemplo, cuando se desea calcular el efecto de un nuevo proceso de prevención de accidentes industriales se puede elegir una muestra de n industrias y para cada industria se tienen dos datos:

244

| Estadística para ingeniería y ciencias

• X1i 5 Número de accidentes en el mes anterior a la aplicación del método de prevención de accidentes. • X2i 5 Número de accidentes después de aplicarse el método. Las dos mediciones son dependientes porque miden la misma unidad muestral; en estos casos el efecto del método está contenido en la diferencia de las dos mediciones; de esta manera se elimina el efecto de las distintas industrias. Si el método de prevención de accidentes es efectivo, entonces la diferencia X2i 2 X1i deberá tener un valor esperado positivo, sin importar qué tan grandes o qué tan chicos sean los valores que tomen las variables X1i y X2i. La diferencia X2i 2 X1i contiene el efecto del método aplicado, el efecto de las distintas industrias ha sido eliminado en esta diferencia. El método de construcción de parámetros de datos pareados consiste en los siguientes pasos: • Se obtienen datos pareados (X11, X21), (X12, X22), (X13, X23), . . . , (Xn, Xn). • Se calculan las diferencias de los dos datos. D1 5 X11 2 X21, D2 5 X12 2 X22, D3 5 X13 2 X23, . . . , Dn 5 Xn 2 Xn • Y bajo el supuesto de que Di ~ N(µd, σd2), se aplica la misma fórmula que para el intervalo de confianza de una media cuando la desviación estándar es desconocida. D 2 t12α/2 sd/ n # µ D # D 1 t12α/2 sd/ n

donde D y sd son la media y la desviación estándar de las diferencias Di. De la misma manera, se pueden comparar dos diferentes métodos de prevención de accidentes aplicados a dos conjuntos de industrias independientes: • D11, D12, . . . , Dn son las diferencias correspondientes al método A. • D21, D22, . . . , Dm son las diferencias correspondientes al método B. Se puede determinar un intervalo para la diferencia de las medias R D R D , utilizando las fórmulas de intervalos de confianza para la diferencia de medias con muestras independientes. 1

2

Ejemplo 5.26. E jercicio adaptado del texto Statistical Inference de Jerome C. R. Li (1964). En un estudio para determinar el efecto de un fertilizante nitrogenado en la producción de betabeles, se dividió un campo agrícola en 10 bloques del mismo tamaño y cada bloque se fraccionó en dos parcelas iguales haciendo 10 pares de bloques. Un bloque de cada par fue seleccionado aleatoriamente para la aplicación del fertilizante a una tasa de 50 libras por acre y el otro bloque quedó sin fertilizante. La tabla 5.5 muestra los datos obtenidos de los 20 bloques. Si se supone normalidad, construir un intervalo de confianza de 95% para µD 5 µ1 – µ2. Tabla 5.5. Datos de la aplicación del fertilizante nitrogenado en parcelas con dos bloques. Fertilizante Bloque 1 2 3 4 5

Bloque sin aplicación a) 140.4 174.7 170.2 174.6 154.5

Bloque con aplicación b) 170.5 207.4 215.9 209.0 171.6

Diferencias b) – a) 30.1 32.7 45.7 34.4 17.1 (Continúa)

Capítulo 5 Estimación

| 245

(Continuación)

6 7 8 9 10 Suma total

185.0 118.9 169.8 174.7 176.7 1 639.5

201.2 209.9 213.3 184.1 220.4 2 003.3

16.2 91.0 43.5 9.4 43.7 363.8

Solución: a) Se usa la fórmula de intervalos de confianza para datos pareados, entonces se calcula la media y la desviación estándar de las diferencias: D 5 36.38, sd 5 22.95 y el valor de t con 9 grados de libertad: tα/2; n-1 5 t975;9 5 2.262, sustituyendo y simplificando da el intervalo de confianza de 95% para la diferencia de los promedios µd 5 µ1 – µ2. 19.9626 , µ1 – µ2 , 52.7974

Intervalo de confianza para una media o para la diferencia de dos medias en poblaciones que no están normalmente distribuidas (muestras grandes) El teorema del límite central afirma que con un tamaño de muestra suficientemente grande el promedio muestral de variables aleatorias distribuidas de acuerdo con cualquier función de distribución se distribuye aproximadamente normal. Según este resultado se concluye que cuando las poblaciones bajo estudio no son normales todavía se puede encontrar un intervalo de confianza, tanto para una media o para la diferencia de dos medias si el tamaño de muestra es “grande” (en la mayoría de los casos es suficiente y es mayor que 30). Las fórmulas estudiadas en esta sección se pueden utilizar cuando n (el tamaño de una sola muestra) es grande, o cuando el tamaño de n1 y n2 (dos muestras independientes) también es grande.

Intervalo de confianza para 2, la varianza Es importante estimar la magnitud de la dispersión de los datos, por ejemplo es útil para determinar las condiciones que se pueden ofrecer en la garantía de los diferentes productos elaborados en la industria. Es por esta razón que conviene tener un conocimiento, aunque sea estadístico, de la magnitud de la varianza. El teorema 5.8 afirma que cuando las observaciones son normales, entonces: ( n 21)s 2 / σ 2 5 ∑ i =1 ( X i 2 X )2 / σ 2 ~ χ2 con n 2 1 grados de libertad n

Al utilizar esta estadística se pueden hallar dos números a y b, tales que: P (a , ( n 21)s 2 / σ 2 , b) 51 2 α

Existe una infinidad de parejas a y b que pueden satisfacer esta relación, y por simplicidad se puede elegir que en ambos lados del intervalo se tenga la misma probabilidad, es decir, se eligen los valores de a y b, tales que: P((n 2 1)s2/σ2 , a) 5 α/2 y P((n 2 1)s2/σ2 , b) 5 1 2 α/2 2 2 De manera que a 5 χα/2 y b 5 χ1−α / 2 , entonces el intervalo de confianza se obtiene de la relación:

χα2 / 2 , ( n 21)s 2 / σ 2 , χ12−α / 2 b

246

| Estadística para ingeniería y ciencias

De la primera desigualdad se obtiene lo siguiente: 2 2 χα/2 , ((n 2 1)s2/σ2 Ψ σ2 , ((n 2 1)s2/ χα/2

y de la segunda parte:

2 2 ((n 2 1)s2/σ2 , χ1−α / 2 Ψ ((n 2 1)s2/ χ1−α / 2 , σ2

De estas dos desigualdades se concluye que el intervalo de 100(1 2 α)% de confianza de σ2 está dado por: ( n 21)s 2 ( n 21)s 2 2 , , σ χα2 / 2 χ12−α / 2

Ejemplo 5.27. S i una muestra aleatoria de 17 mediciones tiene una varianza de s2 5 196.38, encontrar los intervalos de 95% y 99% de confianza para σ2. Solución: a) Se utilizará la relación

( n 21)s 2 ( n 21)s 2 con α 5 0.05, α/2 5 0.025 , σ2 , 2 2 χα / 2 χ 1− α / 2

Primero se encuentra en las tablas de la ji-cuadrada con 16 grados de libertad los valores de χ 20.975 = 6.91 y χ 20.025 = 28.85, entonces se halla el intervalo: 16 × 196.38 16 × 196.38 , σ2 , 28.85 6.91

108.91 , σ2 , 454.71 b) Ahora se tiene que α 5 0.01, α/2 5 0.005, entonces los valores correspondientes de la ji-cuadrada con 16 grados de libertad son χ 20.995 = 5.14 y χ 20.005 5 34.27, por lo que el intervalo es: 16 × 196.38 16 × 196.38 , σ2 , 34.27 5.14

91.69 , σ2 , 611.30 El intervalo de confianza para la desviación estándar σ se calcula obteniendo la raíz cuadrada de los extremos del intervalo de confianza para la varianza, es decir, α 5 0.05 y el intervalo de confianza para σ es (10.45, 21.32) y para α 5 0.01, es (9.59, 24.72). Tabla 5.6. Resumen de los intervalos de confianza para los parámetros de la normal. Parámetro

Condiciones

Intervalo de confianza

µ

σ conocida

Extremo inferior: X 2 zα/2σ/ n Extremo superior: X 1 zα/2σ/ n

µ

σ desconocida

Extremo inferior: X 2 t12α/2 s/ n Extremo superior: X 1 t12α/2 s/ n t con n – 1 grados de libertad

µ1 2 µ 2

σ1 y σ2 conocidas

Extremo inferior:

X 1 2 X 2 2 zα / 2 σ 12 / n1 1 σ 22 / n2

2 2 Extremo superior: X 1 2 X 2 1 zα / 2 σ 1 / n1 1 σ 2 / n2

(Continúa)

Capítulo 5 Estimación

| 247

(Continuación)

Extremo inferior: µ1 2 µ 2

σ1 y σ2 desconocidas pero iguales

X 1 2 X 2 2 t1−α/ 2 s 1 / n1 11 / n2

Extremo superior: X 1 2 X 2 1 t1−α/ 2 s 1 / n1 11 / n2 con s 2 5

( n1 21)s12 1( n2 21)s22 n1 1 n2 2 2

y t con n1 1 n2 2 2 grados de libertad

µ1 2 µ2

σ1 y σ2 desconocidas y diferentes

Extremo inferior:

X 1 2 X 2 2 t1−α/ 2 s12 / n1 1 s22 / n2

Extremo superior:

X 1 2 X 2 1 t1−α/ 2 s12 / n1 1 s22 / n2

( s12 / n1 1 s22 / n2 )2 t con grados de libertad ( n1 21)s14 / n12 1( n2 21)s24 / n22 Extremo inferior:

σ2

( n 21)s 2 / χ12−α / 2

Extremo superior: ( n 21)s 2 / χα2 / 2 La ji-cuadrada tiene n 2 1 grados de libertad

5.2.3 Intervalos de confianza para el parámetro de la distribución Bernoulli Intervalos de confianza para p Cuando se desea determinar el intervalo de confianza de una proporción (el parámetro p de la distribución Bernoulli), se utiliza el estimador: número de éxitos en la muestra ¨ i "1 X i tamaño de la muestra n n

p ˆ

entonces, si n es suficientemente grande se puede aplicar el teorema del límite central, considerando que pˆ ~ N(p, p(12p)/n). De donde se deduce que el intervalo de confianza para p está determinado por: pˆ 2 zα / 2

pq pq ˆˆ ˆˆ , p , pˆ 1 zα / 2 n n

(5.28)

Ejemplo 5.28. E n un experimento agrícola se sembraron 36 semillas de girasol germinando 31 de ellas. Con estos datos se quiere obtener el intervalo de 90% de confianza de la proporción de semillas que pueden germinar de la población total de semillas. Solución: Las semillas pueden germinar o no germinar, entonces cada semilla que se siembra corresponde a un experimento Bernoulli; si se considera que el evento “la semilla germina” es éxito, entonces se tiene una muestra aleatoria de variables Bernoulli X1, X2, . . . , X36, con las que se puede calcular la probabilidad p de que las semillas germinen.

248

| Estadística para ingeniería y ciencias

De manera que p5 ˆ

33 5 0.9167, y en la tabla de la distribución normal se encuentra que 36

z0.05 5 1.645; con estos valores se aplica la fórmula para el intervalo de confianza para p, quedando así: 0.9167 21.645

0.9167 × 0.0833 0.9167 × 0.0833 , p , 0.9167 11.645 36 36

de donde se obtiene el intervalo: 0.841 , p , 0.992

Intervalos de confianza para la diferencia de proporciones p1 2 p2 De igual manera, cuando se quiere comparar las proporciones de dos poblaciones y el tamaño de las dos muestras de variables Bernoulli es grande se puede considerar que los estimadores de las proporciones p1 y p2 dados por: pˆ 1 5

∑

n i =1

X 1i

n1

y pˆ 2 5

∑

n i =1

X 2i

n2

(5.29)

se distribuyen aproximadamente normal: pˆ 1 ~ N(p1, p1(12p1)/n1) y pˆ 2 ~ N(p2, p2(12p2)/n2)

(5.30)

entonces, un intervalo de confianza del (1 – α)100% para la diferencia pˆ 1 − pˆ 2 está dado por: pˆ 1 2 pˆ 2 2 zα / 2

pˆ 1qˆ 1 pˆ 2 qˆ 2 pˆ qˆ pˆ qˆ 1 , p1 2 p2 , pˆ 1 2 pˆ 2 1 zα/ 2 1 1 1 2 2 n1 n2 n1 n2

(5.31)

Ejemplo 5.29. S e eligieron al azar 140 hombres y 150 mujeres entre 40 y 50 años de edad y se halló que 56 de los hombres y 27 de las mujeres usan lentes; con estos datos construir un intervalo de confianza de 95% para la diferencia de las proporciones reales de hombres y mujeres que usan lentes en la población. Solución: De acuerdo con los datos obtenidos, se tiene que pˆ 1 5 56 / 140 5 0.40 y pˆ 2 27 / 150 0.18, y debido a que las dos muestras son grandes se puede suponer normalidad, entonces se determina que z0.025 5 1.96, y el intervalo de confianza es: 0.6 2 0.18 21.96

0.4 × 0.6 0.18 × 0.82 0.4 × 0.6 0.18 × 0.82 1 1 , p1 2 p2 , 0.6 2 0.18 21.96 140 150 140 150

0.318 , p1 – p2 , 0.522

Capítulo 5 Estimación

| 249

Tabla 5.7. Resumen de intervalos de confianza para el parámetro de una distribución Bernoulli. Parámetro p

Intervalo de confianza Extremo inferior:

pˆ 2 zα / 2 pq / n

Extremo superior: pˆ 1 z pq / n α /2

p1 2 p2

Extremo inferior:

p1 2 p2 2 zα/ 2 p1 (1 2 p1 ) / n1 1 p2 (1 2 p2 ) / n2

Extremo superior: p 2 p 1 z p1 (1 2 p1 ) / n1 1 p2 (1 2 p2 ) / n2 1 2 α/ 2

5.2.4 I ntervalos de confianza de los parámetros de la normal y de distribución Bernoulli usando Minitab Intervalos de confianza para  con  conocida Siga las instrucciones: 1. Stat → Basic Statistics → 1-Sample z. 2. En la ventana de diálogo 1-Sample z (Test and Confidence Interval) haga clic en Summarized data. 3. En la ventanilla Sample size ponga el tamaño de la muestra y en la ventanilla de Mean escriba el valor de la media y en la ventanilla de Standard deviation ponga el valor de la desviación estándar (si no se hace prueba de hipótesis deje intacto todo lo demás). 4. Si desea hacer gráficas, haga clic en Graphs y en OK. 5. Todas estas órdenes dan el intervalo de confianza para µ.

Ejemplo 5.30. D ados los datos n 5 100, σ 5 25, X 5 20 para determinar un intervalo de confianza de 95% y 99% en intervalos de confianza de µ con σ conocida y siguiendo las instrucciones anteriores.

Figura 5.1.

250

| Estadística para ingeniería y ciencias One-Sample Z The assumed standard deviation 5 25 N Mean SE Mean 95% CI 100 20.0000 2.5000 (15.1001, 24.8999)

Intervalo de confianza para  con  desconocida Siga las instrucciones: 1. Stat → Basic Statistics → 1-Sample t. 2. En la ventana de diálogo 1-Sample t (Test and Confidence Interval) haga clic en data y llene los datos solicitados.

Ejemplo 5.31. S i para el ejemplo 5.18 del gerente de la fábrica que desea estimar el tiempo con n 5 18 empleados y en la muestra dio que X 5 15 minutos, s 5 2, se quiere obtener el intervalo de confianza de 95%. Usando las instrucciones de Minitab se obtienen los siguientes resultados:

Figura 5.2.

One-Sample T N 18

Mean 15.0000

StDev 2.0000

SE Mean 0.4714

95% CI (14.0054, 15.9946)

Intervalos de confianza para 1 2 2 con varianzas iguales y desconocidas Siga las instrucciones: 1. Stat → Basic statistics → 2-Sample (Test and Confidence Interval).

Capítulo 5 Estimación

| 251

2. En la ventana de diálogo de 2-Sample (Test and Confidence Interval) puntear Summarized data. 3. En las ventanillas Simple size, Mean y Standard deviation se deben poner los valores correspondientes del tamaño de la muestra, del promedio y de la desviación estándar, para la primera y segunda muestra, respectivamente.

Ejemplo 5.32. C on los siguientes datos: X 1 5 10.0, n1 5 15, s12 5 1.3, X 2 5 6.19, n2 5 13, s22 5 1.0. Encontrar el intervalo de confianza para µ1 2 µ2 con nivel de confianza de 95%. Siguiendo las instrucciones anteriores se obtiene: Solución: Two-Sample T-Test and CI Sample 1 2

N 15 13

Mean 10.00 6.19

StDev 1.14 1.00

SE Mean 0.29 0.28

Difference 5 µ (1) 2 µ (2) Estimate for difference: 3.81000 95% CI for difference: (2.97061, 4.64939)

Figura 5.3.

Intervalos de confianza para la proporción poblacional  (muestras grandes) Siga las instrucciones: 1. Stat → Basic Statistics → 1-Proportion. 2. En la ventana de diálogo 1-Proportion (Test and Confidence Interval) haga clic en Summarized data. 3. En la ventanilla de Number of trials escriba el tamaño de la muestra y en la ventanilla Number of events registre el número de eventos observados.

252

| Estadística para ingeniería y ciencias

Ejemplo 5.33. S e sacó una muestra aleatoria de 100 industrias potencialmente contaminadoras del medio ambiente. Se encontró que 26 industrias estaban violando los límites de concentraciones del aire impuestos por las legislaciones ambientales. Hallar un intervalo de confianza de 95% y 99% para la proporción de industrias que violaron los límites gubernamentales. Solución: Test and CI for One Proportion

Figura 5.4.

Exact Sample 1

X 26

N 100

Sample p 0.260000

95% CI (0.177394, 0.357312)

Intervalos de confianza para la diferencia entre dos proporciones (1 2 2) Siga las instrucciones: 1. Stat → Basic statistics → 2-Proportions. 2. En la ventana de 2 Proportions (Test and Confidence Interval) haga clic en Samples in different columns. 3. En la ventanilla First en Trials ponga n1, el número de ensayos y en la ventanilla Events registre el número de éxitos en la primera muestra. 4. En la ventanilla Second en Trials ponga n2, el número de ensayos y en la ventanilla Events escriba el número de éxitos en la segunda muestra.

Capítulo 5 Estimación

| 253

Ejemplo 5.34. É ste es un estudio adaptado del libro de Probabilidad y estadística de Walpole, et. al. (1992). En un estudio médico en el que el especialista en genética está interesado en la proporción de hombres y mujeres en la población que tienen un leve desorden sanguíneo, se tiene una muestra aleatoria de 1 000 hombres y se encontró que 250 presentaron esta afección, mientras que en otra muestra aleatoria de 1 000 mujeres, 275 de ellas lo padecían. Calcular un intervalo de confianza de 95% para la diferencia entre la proporción de hombres y mujeres que sufren este desorden sanguíneo. Solución: Con el programa Minitab y siguiendo las instrucciones de anteriores, se obtienen los siguientes resultados: Test and CI for Two Proportions Sample 1 2

X 250 275

N 1000 1000

Sample p 0.250000 0.275000

Figura 5.5.

Difference = p (1) - p (2) Estimate for difference: -0.025 95% CI for difference: (-0.0635508, 0.0135508)

254

| Estadística para ingeniería y ciencias

Problemas propuestos 5.1 Se llevó a cabo un análisis de las concentraciones de nitratos (NO-3) de un sistema de tratamiento de aguas industriales. Las concentraciones de nitratos se reportaron en mg/L en la siguiente tabla: 6.9

7.8

8.9

5.2

7.7

9.6

8.7

6.7

4.8

8.0

10.1

8.5

6.5

9.2

7.4

6.0

9.4

6.1

6.3

5.6

5.2

5.4

7.3

8.2

8.3

7.2

7.5

6.1

6.0

5.4

7.6

8.1

7.9

8.5

5.2

5.3

5.4

5.5

Con estos datos realizar lo siguiente: a) Un resumen de estadística descriptiva. b) Un intervalo de confianza para el promedio poblacional (µ). Sugerencia: Usar el programa Minitab para resolver este problema. El problema de los reactores nucleares es que los fragmentos fisionables o desintegrados son siempre radiactivos y su disposición, como residuos peligrosos, siempre ha sido muy cuestionable. Esto se debe a que los fragmentos fisionables típicos incluyen cesio 137, estroncio 90 y yodo 131. La EPA (Environmental Protection Agency) define como residuos peligrosos aquellas sustancias que poseen las características de reactividad, carácter ígneo, corrosividad, radiactividad y toxicidad. Otra definición de residuos peligrosos se refiere a cualquier cosa que, debido a su cantidad, concentración, o características físicas, químicas o infecciosas, puede causar o contribuir a la muerte o enfermedades irreversibles o representar peligros presentes o potenciales a la salud humana, cuando son inapropiadamente manejados, almacenados o transportados. Se obtuvo una muestra aleatoria de 40 trabajadores expuestos a esos residuos peligrosos y sus análisis de sangre y orina dieron un promedio de 5.0 mg/L de estroncio con una desviación estándar de 0.25. Calcular un intervalo de confianza para el promedio poblacional con los niveles de confianza de 95 y 99%. Las temperaturas en grados Celsius medidas en un experimento se consideran normales. Si se tomaron las siguientes muestras: 22, 24, 22, 25, 30, 28, 29, 28, 24, 23, 25, 27, 26, 23, 24, 21, 22, 21, 25, 21, 23, 24, 21, 20, 21, 20, 22, 28, 27, 31, construir los intervalos de 95 y 99% de confianza para el promedio poblacional µ. Describir qué sucedería al intervalo de confianza de µ, en el ejercicio anterior si: a) La confianza del intervalo aumenta de 90 a 95%. b) El tamaño de la muestra aumenta con α constante, es decir, con el nivel de confianza de 95%. c) El tamaño de la muestra disminuye con α constante, es decir, con el nivel de confianza de 95%. d) El valor de σ aumenta o si disminuye con n y α constantes. Ejercicio adaptado del libro de Elementary Statistics de Mario Triola (1995). En un estudio médico sobre terapia de hipnosis para aminorar el dolor se midieron las tasas sensoriales a 16 pacientes tomados al azar; las mediciones se reportan en la tabla siguiente. Suponer que la población muestreada es normal.

a) Construir un intervalo de 95% de confianza para la tasa sensorial promedio de la población de la cual fue obtenida la muestra. b) Usar la regla de 68-95-99.7 para probar que efectivamente la población muestreada es normal. (Esta regla es una forma rápida de revisar la normalidad de la distribución muestreada.) Siendo así, para que la distribución de los datos sea normal o, aproximadamente normal, el 68% de las observaciones deben estar dentro de σ y el promedio µ; el 95% de las observaciones deben caer dentro de 2σ y promedio µ, y 99.7% de las observaciones se encuentran dentro de 3σ y el promedio µ. Tasas sensoriales para este estudio. 8.8

6.6

8.4

6.5

8.4

7.0

9.0

10.3

8.7

11.3

8.1

5.2

6.3

11.6

6.2

10.9

5.6 Una muestra de 56 partículas atmosféricas de plomo (Pb) dio un promedio de 148.48 ppm (partes por millón) y una desviación estándar de 12.44; con estos datos construya un intervalo de 99% de confianza para µ, suponiendo que los datos se distribuyen de acuerdo con una ley normal. 5.7 Las proporciones muestrales de dos muestras de distribuciones Bernoulli son 0.6 y 0.4, respectivamente, con n1 5 400 y n2 5 350. Construir un intervalo de confianza de 99% para la diferencia de dos proporciones. 5.8 Con los siguientes datos: D 5 6.0, sd 5 9.0 y n 5 10 construir un intervalo de confianza de 99% para µd. 5.9 Para medir la eficiencia de una planta piloto de filtros por goteo, en cuanto a las concentraciones de los sólidos suspendidos (SS) expresados en miligramos por litro (mg/L), se tomaron los datos en la entrada y en el efluente de la planta. Los datos muestreados se dan en la tabla 5.8. Construir un intervalo de confianza de 95% para la media poblacional usando las fórmulas para datos pareados. Tabla 5.8. Concentraciones de SS en la entrada de la planta (mg/L)

Concentraciones de SS en el efluente de la planta (mg/L)

75.5

39.1

47

25

33

23

56

32

61

38

33

20

32

23

26

19

38

22

49

30

100

77

92

55

Capítulo 5 Estimación 56

33

61

42

64

36

56

28

59

35

63

33

57

34

62

47

5.10 Este estudio está adaptado del libro Basic Statistics: A Primer for the Biomedical Sciences de Olive Jean Dunn. John Wiley & Sons, New York. London. Sydney, Toronto. (1977). A cinco mujeres se les administró una inyección para inducir el parto. Sus presiones arteriales fueron tomadas antes y después de la inyección. Hacer un intervalo de confianza de 95 y 99% suponiendo un modelo de t pareada. Los datos se dan en la tabla 5.9. Tabla 5.9. Presión arterial

Número de paciente

Antes

Después

1

97

100

2

85

94

3

87

98

4

97

96

5

71

88

5.11 Una muestra aleatoria de tamaño n1 5 0 de una población normal dio un promedio igual a X 1 5 70.0 y una desviación estándar s1 5 4.0. Una segunda muestra aleatoria de tamaño n2 5 35 sacada de una población normal diferente dio un promedio igual a X 2 5 65 y una desviación estándar de s2 5 2.5; suponiendo que las varianzas poblacionales son iguales: a) Encontrar el intervalo de confianza de 95% para la diferencia de las medias poblacionales. b) Hallar el intervalo de confianza de 99% para la diferencia de las medias poblacionales. c) Interpretar en palabras los resultados de a) y b). 5.12 Para un estudio médico se seleccionaron 34 pacientes que fueron separados aleatoriamente en dos grupos, uno de n1 5 16 pacientes y el otro de n2 5 18; a cada grupo se le aplicó un diferente medicamento para mitigar el dolor de cabeza; los datos medidos fue el tiempo en días que duró el alivio. Para el primer grupo se obtuvo una media muestral igual a X 1 5 20.0 y una desviación estándar igual a s1 5 1.1. Para el segundo grupo se obtuvo una media muestral igual a X 2 5 24.0 y una desviación estándar igual a s2 5 1.4. Suponiendo que los datos obtenidos en las dos muestras provienen de

| 255

distribuciones normales con varianzas iguales, encontrar un intervalo de confianza para µ1 2 µ2. 5.13 En cierto complejo industrial se tomó una muestra aleatoria de 500 industrias, de las cuales 30% estaban contaminando el aire con partículas de polvo de tamaños menores que 10 micras. En otro complejo industrial, se tomó otra muestra de 400 industrias, de las cuales 40 estaban contaminando el aire con el mismo tipo de contaminantes. Construir un intervalo de confianza de 95% para las diferencias de las proporciones poblacionales ρ ρ 1 2 ρρ2. 5.14 En un sondeo para examinar la cantidad de personas que usan paneles solares en cierta ciudad, se tomó una muestra aleatoria de 1 200 casas y se encuentra que, únicamente, 75 tienen este tipo de sistemas para ahorrar energía. Hallar un intervalo de confianza de 90% para la proporción de dueños de casas que han instalado este tipo de dispositivos. 5.15 Se sabe que el tiempo de vida útil, en horas, de un foco de 75 watts tiene una distribución, aproximadamente normal, con una desviación estándar de 25 horas. Si se desea una confianza de 95% en el error de estimación para que la duración media sea menor que 5 horas, ¿qué tamaño de muestra debe usarse? 5.16 Hacer el mismo problema que el anterior, pero ahora usando una confianza de 99% y un error E 5 1 y comparar los resultados. 5.17 Un ingeniero automotriz desea estimar el tiempo esperado que tardaría un mecánico en girar las llantas de un auto. Para ello, quiere obtener un intervalo de confianza de 95%, con un error máximo de E 5 0.50 minutos. Si se sabe de estudios pilotos anteriores que la desviación estándar es de 5 1.6 minutos, ¿qué tan grande deberá ser la muestra seleccionada? Sugerencia: Usar la fórmula n 5 (zα/2 σ/E)2. 5.18 El director de cierta universidad desea estimar el tiempo promedio que les lleva a los estudiantes ir de un salón a otro al cambiar de clase, sin llegar tarde, con una confianza de 99% y un error de cuando más E 5 0.25 minutos. Experiencias anteriores estiman una desviación estándar de σ 5 1.40 minutos. Siendo así, ¿qué tan grande deberá ser la muestra que se deba tomar? 5.19 La Environmental Protection Agency (EPA por sus siglas en inglés) de Estados Unidos de América desea conducir una prueba de millaje de cierto modelo de un auto importado. El ingeniero estadístico de la EPA quiere estimar el promedio µ, de millas por galón de combustible, usado por este modelo, con 95% de nivel de confianza. Si σ 5 2.5 millas por galón, ¿qué tamaño de muestra (número de autos de este modelo) deberá tomar para conducir esta prueba? El error de estimación de E es igual a E 5 0.1.

Problemas de tarea

Revisa tu CD-ROM para encontrar más problemas:

6

Capítulo

3 ... otra parte vuelve al espacio.

Tropopausa

Energía solar

EL CALENTAMIENTO GLOBAL Es el incremento a largo plazo en la temperatura promedio de la atmósfera. Se debe a la emisión de gases de efecto 50 km invernadero que se desprenden por actividad Est del hombre. ESTR ra 20 km

ato ATO pa SF u 1 La quema de combustibles, la ER A deforestación, la ganadería, etc.,

TRO PO SF ER A

12 km

reflejada Gases de efecto invernadero

12 km 12 km

Ca pa de

20 km 20 km

ozono

incrementan la cantidad de gases de efecto invernadero en la atmósfera.

Tropopausa

EL EFECTO INVERNADERO Es el calentamiento natural de la Tierra. Los gases de efecto invernadero, presentes en la atmósfera, retienen parte del calor del Sol y mantienen ttooppaauussaa 50 km ttrraa una temperatura apta para la vida. EEss SFERA ATO 1 La energía colar atraviesa la 20 km TR S E atmósfera. Parte de ella es ERA F S absorbida por la superficie PO TRO 12km y otra parte es reflejada. 2 Una parte de la radiación reflejada Gases es retenida por los de efecto invernadero gases del efecto invernadero... Energía solar

ssaa

Fuente: http:/www.clarin.com|diario|2005|07|06|um|calentamiento_global_jpg

Prueba de hipótesis

Energía solar

2 La atmósfera modificada retiene más calor. Así se daña el equilibrio natural y aumenta la temperatura de la Tierra.

o zon de o a p a C

50 km 50 km

En alusión al calentamiento global, la mayoría de los científicos están de acuerdo con que este fenómeno está cambiando los patrones meteorológicos de temperatura, precipitaciones, incidencias de tornados, huracanes, granizadas, vientos y así sucesivamente. La foto de arriba muestra en el lado izquierdo el efecto invernadero cuando la Tierra estaba en su estado prístino; en el lado derecho, se citan los efectos después de la era industrial debido a la quema indiscriminada de compuestos fósil; esto ha propiciado que las emisiones de gases de invernadero estén calentando la Tierra y distorsionado el clima, situación que está alterando todas nuestras formas de vida. La estadística puede ayudar a entender y a resolver los problemas causados por el calentamiento global. El comparar estadísticamente las mediciones de la temperatura, antes y después de la industrialización masiva, permite determinar la existencia de un aumento de temperatura. Por otra parte, la estadística posibilita probar si nuevos motores para automóviles, o nuevos filtros de maquinarias disminuyen las emisiones de gases que provocan el calentamiento global.

Introducción En este capítulo se estudian las pruebas de hipótesis estadística. Esta técnica se utiliza para determinar con base en datos muestrales cuáles conjeturas son estadísticamente verdaderas.

Capítulo 6 Prueba de hipótesis

| 257

6.1 Conceptos básicos Las pruebas de hipótesis es una parte de la inferencia estadística que consiste, básicamente, en decidir cuál de dos posibles conjeturas sobre la población es verdadera, basándose en la información proporcionada por una muestra aleatoria. Las conjeturas relativas a la población objeto de las pruebas de hipótesis pueden relacionarse con la forma de la distribución de una variable aleatoria (por ejemplo, si la distribución generadora de los datos es una Weibull), o con los valores de uno o varios parámetros de la misma (por ejemplo, si el valor esperado de una normal es µ 5 100). De esta manera, las pruebas de hipótesis presentan dos enfoques: a) Pruebas de hipótesis sobre parámetros. Consisten en determinar si el parámetro de una distribución toma o no un determinado valor. b) Pruebas de bondad de ajuste. Definen si un conjunto de datos se ha generado de una determinada distribución. Así pues, por ejemplo de la información que nos da una muestra aleatoria se tiene que decidir si el proceso de llenado de botellas de refresco la media del contenido en cada botella es igual a µ 5 725 ml, o si una determinada droga ayuda a prevenir los infartos al miocardio en un grupo particular de pacientes. Definición 6.1. Una hipótesis estadística es una afirmación o conjetura acerca de la función de distribución F(x, θ) generadora de la muestra aleatoria. Si la hipótesis estadística identifica por completo la distribución, recibe el nombre de “hipótesis simple” (por ejemplo, que el parámetro de una exponencial es λ 5 10) y si no la especifica recibe el nombre de “hipótesis compuesta” (por ejemplo, λ . 10). De esta manera, se tiene que: • Una hipótesis simple es de la forma: µ 5 100, σ2 5 16, θ 5 0.03 o “la función generadora de la muestra es una normal estándar”. • Una hipótesis compuesta es de la forma: µ ≠ 100, µ . 100, σ2 . 16, θ , 0.03, o “la función generadora es simétrica respecto a la media”.

Como ya se citó, la prueba de hipótesis esencialmente consiste en decidir entre dos conjeturas contrapuestas cuál es la verdadera. Una de las conjeturas se supone verdadera ya sea porque la historia o la experiencia así lo ha establecido o porque así lo indica el modelo que genera los datos. La otra conjetura es la que los datos parecen respaldar. La primera conjetura se denota como hipótesis nula y la segunda conjetura se denota como hipótesis alternativa. Generalmente, la hipótesis alternativa es aquella que defiende el investigador. Definición 6.2. Se llama hipótesis alternativa a la conjetura que se pone a prueba. Es la hipótesis de investigación. La hipótesis alternativa se denota como Ha o H1. Definición 6.3. Se llama hipótesis nula a la conjetura que se considera cierta, ya sea porque el modelo así lo indica, porque la historia lo ha probado o porque es lo aceptado. La hipótesis nula se identifica con el símbolo H0.

258

| Estadística para ingeniería y ciencias

Ejemplo 6.1. Suponer que una máquina programada para verter un contenido de 250 mililitros está llenando botellas de refresco. Al observar la banda de llenado el ingeniero de producción nota que las botellas parecen tener un contenido mayor al esperado. Ante esta situación el ingeniero de producción debe tomar una decisión: • Puede decidir que la máquina está bien calibrada y que el sobrellenado observado se debe sólo al azar, pues el proceso es aleatorio y es probable que algunas botellas tengan un contenido por arriba de la media sin que cambie el valor de la media de llenado real que es de 250 mililitros. • Puede decidir que la máquina necesita ajustes, pues el sobrellenado se debe a algo más que el azar. La primera conjetura: “la máquina sigue bien calibrada” es la hipótesis nula porque es lo que indica la programación de la máquina. La conjetura: “la máquina necesita ajustes” es la hipótesis alternativa. En este sentido, la hipótesis nula es verdadera hasta que se demuestre lo contrario. El rechazo o la aceptación de la hipótesis nula se hace con base en los datos observados. Si bajo el supuesto que la hipótesis nula es cierta, lo que ocurre con los datos muestrales es poco probable, entonces rechazaremos la hipótesis nula. La prueba se establece como: H0: µ 5 250 mililitros contra Ha: µ . 250 mililitros Ejemplo 6.2. Considerar el ejemplo 6.1. El ingeniero de producción decide tomar una muestra aleatoria de 30 botellas de refresco llenadas por la máquina sospechosa y con el promedio del contenido de las 30 botellas seleccionadas elegirá una de las dos conjeturas como verdadera. ¿Cómo debe hacerlo? Solución: El ingeniero de producción sabe que si la hipótesis nula es verdadera, entonces el contenido de cada botella se distribuye como una normal con media µ 5 250 mililitros y varianza desconocida σ2; entonces, si X1, X2, . . . , X30 es el contenido de las 30 botellas de la muestra, se tiene que el promedio de su contenido es una variable aleatoria norσ mal con media igual a 250 mililitros y desviación estandar mililitros. Si es verdad n que la media del contenido de las botellas es µ 5 250, entonces se espera que X 2 250 . c sea un valor cercano a cero. En el caso que µ sea mayor que 250, se esperaría que X 2 250 .sea c un valor “grande”. Se tiene que dar una definición objetiva de “grande”. Se puede decir que el término es grande si X 2 250 . c , donde c es un valor tal que P ( X 2 250 . c | µ 5 250) 5 α con α un valor pequeño. Si se está de acuerdo con esta definición siguiente ) n ( Xde 2 µgrande, 30el( X 2 250) paso es encontrar el valor de c y para hacerlo, como tc 5se conoce el valor 5 no de σ, la variable. s s sePutiliza ( X 2 250 . c | µ 5 250) 5 α tc 5

n ( X 2 µ) 30 ( X 2 250) 5 s s

que se distribuye como una t de Student con n 2 1 5 29 grados de libertad.

Capítulo 6 Prueba de hipótesis

| 259

Si tc se encuentra cerca del cero no habrá evidencia para rechazar la hipótesis nula y la decisión será que la máquina sigue bien calibrada. Si por el contrario tc es positiva y se encuentra alejado de cero se tendrá evidencia de que la hipótesis nula es falsa y se concluirá que la máquina necesita ajustes. El ingeniero de producción decide que no desea equivocarse al rechazar la hipótesis nula en más de 0.05 de probabilidad, por tanto busca que:  P( X 2 250 . c | µ 5 250) 5 P  

 30 ( X 2 250) . t 0.95  5 0.05 s 

Y encuentra en la tabla de la distribución t con n 2 1 5 29 grados de libertad que t0.095 5 1.699. El ingeniero de producción decide que rechazará la hipótesis nula cuando tc . 1.699.

Definición 6.4. Se llama estadística de prueba a la función de los datos muestrales que se utiliza para tomar la decisión. En el ejemplo 6.1 la estadística de prueba es tc 5

n ( X 2 µ) . s

Definición 6.5. Se llama región crítica o región de rechazo para H0 al conjunto de valores de la estadística de prueba que hace que se rechace la hipótesis nula. En el ejemplo 6.1. la región de rechazo es tc . 1.699. Dado que la decisión se toma según una variable aleatoria, se puede equivocar si se rechaza la hipótesis nula como si no se rechaza. Tabla 6.1. Relación entre la veracidad de la hipótesis de prueba y la decisión del investigador. En la realidad

Decisión es

No rechazar H0 Rechazar H0

H0 es verdadera Acierto

H0 es falsa Error tipo II

Error tipo I

Acierto

Como se puede ver en la tabla 6.1, hay dos tipos de error: a) Rechazar la hipótesis nula cuando es verdadera; este error se denota como error tipo I. b) No rechazar la hipótesis nula cuando es falsa; este error se denota como error tipo II. Definición 6.6. Se conoce como nivel de significancia de la prueba de hipótesis a la probabilidad de cometer el error tipo I y se denota con la letra α. P(error tipo I) 5 α 5 Nivel de significancia de la prueba Definición 6.7. Se conoce como potencia de la prueba a la probabilidad de acertar cuando se rechaza H0, esto es potencia 5 1 2 P(error II), a la probabilidad del error II, P(error II), se le denota con la letra β, entonces

260

| Estadística para ingeniería y ciencias 1 2 P(error tipo II) 5 1 2 β 5 Potencia de la prueba

Es deseable que la región de rechazo sea tal que la probabilidad de cometer los errores tipo I y tipo II sean pequeñas; sin embargo, no es posible disminuir la probabilidad de ambos errores simultáneamente, pues conforme disminuye uno de ellos, aumenta el otro. En el caso de tener dos hipótesis simples de la forma: H0: θ 5 θ0 contra Ha: θ 5 θ1 Observe que la probabilidad de cometer el error tipo I depende de θ0: P(error tipo I) 5 P(rechazar H0 | θ 5 θ0) 5 α(θ0)

La probabilidad de cometer el error tipo II depende de θ1: P(error tipo II) 5 P(aceptar H0 | θ 5 θ1) 5 β(θ1).

Cuando la hipótesis alternativa es una hipótesis compuesta, de la forma: H0: θ 5 θ0 contra Ha: θ . θ0 Se tiene que la probabilidad de cometer el error II es una función que depende de θ y en consecuencia la potencia de la prueba también es una función. Potencia 5 1 2 β(θ) para θ . θ0 La gráfica de la función potencia recibe el nombre de curva característica operativa o curva OC, y es muy empleada principalmente en estudios de control de calidad.

Ejemplo 6.3. Se diseña un examen de 10 preguntas de opción múltiple. Cada pregunta tiene cinco posibles respuestas marcadas con la letra a, b, c, d, e. Al aplicar este examen a una persona se establece una prueba de hipótesis. Identificar los elementos de la prueba de hipótesis en este ejemplo. Solución: Un estudiante al entrar a un curso no conoce el material de la materia, esto no se pone en duda, porque en otro caso no se inscribiría. Cuando se aplica un examen al estudiante es porque se quiere probar si el estudiante ya conoce el material estudiado o sigue sin conocerlo. Éstas son las dos conjeturas. En este caso se tienen dos conjeturas: a) El estudiante ya conoce el material estudiado. b) El estudiante no conoce el material estudiado. La hipótesis nula es la que nos arroja la historia del estudiante, si nació sin conocer el material estudiado entonces ésta debe ser la hipótesis nula. Las dos hipótesis son: a) Hipótesis nula.

H0: el estudiante no conoce el material estudiado.

b) Hipótesis alternativa. Ha: el estudiante ya conoce el material estudiado.

Capítulo 6 Prueba de hipótesis

| 261

• El examen es una muestra aleatoria de los conocimientos del estudiante. Con el examen se hace un sondeo de qué tanto sabe el estudiante del material estudiado. • La calificación del examen es la estadística de prueba. La calificación del examen se utiliza para decidir si el estudiante sabe o no sabe sobre el tema examinado. • La región crítica de la prueba es cuando la calificación es mayor o igual a 6. Si la calificación es mayor o igual a 6 se rechazará la hipótesis de ignorancia sobre el tema. Calificación menor que 6 no rechaza la hipótesis nula. • El error tipo I (rechazar H0 cuando es verdadera), es que apruebe el estudiante cuando realmente no sabe. • El error tipo II (acepta H0 cuando es falsa), es que repruebe un estudiante que sí conoce sobre el tema. Ejemplo 6.4. En referencia al ejemplo 6.3, encuentre el nivel de significancia de esta prueba de hipótesis. Solución: La hoja de respuesta del examen del ejemplo 6.3 es de la forma: 1. (a) (b) (c) (d) (e)

5. (a) (b) (c) (d) (e)

9. (a) (b) (c) (d) (e)

2. (a) (b) (c) (d) (e)

6. (a) (b) (c) (d) (e)

10. (a) (b) (c) (d) (e)

3. (a) (b) (c) (d) (e)

7. (a) (b) (c) (d) (e)

4. (a) (b) (c) (d) (e)

8. (a) (b) (c) (d) (e)

La respuesta a cada pregunta es un experimento Bernoulli, porque puede ser correcta e incorrecta la respuesta; si se hace que éxito sea “la respuesta es correcta” y que p sea la probabilidad de éxito. En estas circunstancias se tiene que la calificación del examen C (número de respuestas correctas en las 10 preguntas contestadas) es una variable aleatoria binomial con parámetros n 5 10 y p desconocida, C ~ B(10, p). Si la hipótesis nula es cierta, esto es si la conjetura “el estudiante no sabe” es verdadero, entonces el estudiante estará contestando al azar. Si en cada pregunta hay cinco opciones y una de ellas es correcta, la probabilidad de acertar en cada pregunta es p 5 1/5 5 0.20. Así que cuando H0 es cierta se tiene que C ~ B(10, 0.20). De esta manera, se tiene que la significancia es:

P(error tipo I) 5 P(que el estudiante apruebe el examen cuando no sabe) 5 P(C $ 6 | p 5 1/5) 5 1 2 0.9936 5 0.0064 De manera que es poco probable que un estudiante que no sabe nada pueda aprobar el examen. Ejemplo 6.5. En referencia al ejemplo 6.3, encuentre la potencia de esta prueba de hipótesis.

262

| Estadística para ingeniería y ciencias Solución: Cuando la hipótesis nula es falsa porque el estudiante sí sabe, se tiene que p . 0.20, pero no se conoce qué tanto es lo que el estudiante sabe. La probabilidad de cometer el error tipo II es igual a: P(error II) 5 P(que el estudiante repruebe cuando sí sabe) 5 P(C , 6 | p . 0.20)

y la potencia de la prueba es:

Potencia 5 1 – P(error II) 5 1 – P(C # 5 | p . 0.20) 5 1 – β(p) Con Excel se calcula la potencia de esta prueba para diferentes valores de p y los resultados se reportan en la siguiente tabla y figura. Tabla 6.2. p

P(Error II)

Potencia

0.25

0.9803

0.0197

0.3

0.9527

0.0473

0.35

0.9051

0.0949

0.4

0.8338

0.1662

1.2

0.45

0.7384

0.2616

1.0

0.5

0.6230

0.3770

0.8

0.55

0.4956

0.5044

0.6

0.3669

0.6331

0.65

0.2485

0.7515

0.2

0.7

0.1503

0.8497

0.0

0.75

0.0781

0.9219

0.8

0.0328

0.9672

0.85

0.0099

0.9901

0.9

0.0016

0.9984

0.95

0.0001

0.9999

0.0000

1.0000

1.00

Potencia

Potencia de la prueba

0.6 0.4

0

0.2 0.4 0.6 0.8

1

1.2

p Probabilidad éxito

Figura 6.1.

Observe que mientras la probabilidad de contestar correctamente cada pregunta es menor, la probabilidad de que repruebe el examen conociendo un poco (error II) es más alta y la potencia de la prueba es baja. Conforme aumenta el valor de p, esto es, mientras más sabe el estudiante, la probabilidad de reprobar el examen es más baja y la potencia es mayor. Cuando el estudiante sabe todo lo del curso, se tiene que p 5 1, y entonces la probabilidad de cometer el error II es 0 y la potencia de la prueba es 1. En los ejemplos 6.3, 6.4 y 6.5, se observa que se modifica la región de rechazo para disminuir la probabilidad de uno de los errores y la probabilidad del otro aumenta. Por ejemplo, si para que acredite un estudiante el curso se le pide una calificación mayor

Capítulo 6 Prueba de hipótesis

| 263

o igual a 8, se reduce la probabilidad de que alguien que no sabe pase el examen, pero aumenta la probabilidad de que alguien que sabe no pase. Si para pasar el curso se pide que la calificación sea mayor o igual a 4, entonces disminuye la probabilidad de reprobar a alguien que sabe, pero aumenta la probabilidad que pase alguien que no sabe. Por esto, se debe elegir una región crítica donde los dos errores tengan una probabilidad pequeña y de ser posible, semejante. En resumen, una prueba o contraste de una hipótesis estadística es una regla o procedimiento que conduce a la decisión de aceptar o rechazar cierta hipótesis, identificada como hipótesis nula, con base en los resultados de una muestra. Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en una muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis nula se concluye que ésta es verdadera; sin embargo, si esta información es inconsistente con la hipótesis se concluye que es falsa. Los pasos a seguir en una prueba de hipótesis es: a) Formular las hipótesis. b) Tomar una muestra aleatoria de la variable de interés {X1, X2, . . . , Xn}. c)

Generar o calcular un “Estadístico de prueba” que sirva para definir la acción de aceptar o rechazar la hipótesis nula.

d) Definir el criterio de aceptación o de rechazo. Es decir, el procedimiento de prueba parte los posibles valores del estadístico de prueba en dos subconjuntos o regiones: Una “región de aceptación de H0” y una “región de rechazo de H0”. e) Tomar la decisión de aceptar o rechazar H0 dependiendo de si el estadístico de prueba queda en la región de aceptación o en la región de rechazo. Es importante comprender que la aceptación de una hipótesis nula simplemente implica que los datos obtenidos no dan suficiente evidencia para rechazarla. Por otro lado, el rechazo de una hipótesis implica que la evidencia muestral pone en duda la hipótesis planteada. Ejemplo 6.6. Un laboratorio quiere probar que un nuevo medicamento tiene una efectividad de 90% comparado con la efectividad de un medicamento en uso que es de 60%. Se aceptará el nuevo medicamento si al aplicarse el medicamento a 20 personas el número de éxitos es mayor o igual a 16; en caso contrario se rechazará. Establecer las hipótesis adecuadas (según lo planteado) y evaluar los valores de α y β. Solución: La aplicación del medicamento a un paciente es un experimento Bernoulli donde éxito es que el medicamento sea efectivo y p es la probabilidad de éxito. El nuevo medicamento se aceptará sólo si prueba que es mejor que el medicamento en uso y la efectividad demostrada por el medicamento en uso es que la probabilidad de éxito es p 5 0.60, entonces la hipótesis nula es que a lo más el nuevo medicamento es igual al medicamento en uso. Las hipótesis se pueden formular de la siguiente manera:

264

| Estadística para ingeniería y ciencias H0: p 5 p0 5 0.60 Ha: p 5 pa 5 0.90 n 5 20 Región de rechazo. Si se denota por X el número de éxitos observados, entonces la región crítica es C 5 {X | X $ 16}. Observe que X se distribuye binomial con parámetros n 5 20 y p desconocida. Error tipo I. Rechazar que p 5 0.60 cuando en realidad sí lo es; esto ocurre cuando X $ 16 y p 5 0.60. El nivel de significancia es igual a: α 5 P(error I) 5 P(X $ 16 | p 5 0.60) 5 0.051, valor que se obtiene de tablas de la binomial. Error tipo II. Aceptar que p 5 0.60 cuando en realidad es igual a 0.90. Esto ocurre cuando X # 15 y p 5 0.90. La probabilidad del error tipo II es: β 5 P(error II) 5 P(X # 15 | p 5 0.90) 5 0.043, valor que se obtiene de tablas de la binomial. Un buen procedimiento de prueba es aquel en que tanto α como β sean pequeños. Para este ejemplo, α 5 0.051 y β 5 0.043, ambos datos son relativamente bajos, lo que se puede considerar como adecuado. En la siguiente tabla se presentan los términos más importantes que deben ser recordados. Tabla 6.3. Términos que deben ser recordados. Hipótesis nula

Hipótesis alternativa

Estadística de prueba

Región crítica

Error tipo I

Error tipo II

Significancia

Potencia

6.1.1 La idea detrás de hacer pruebas de hipótesis De acuerdo con el estadístico Jerome C. R. Li (1964), toda la idea de hacer pruebas de hipótesis es de tratar de producir evidencia para rechazar la hipótesis nula H0 y aceptar la hipótesis alternativa Ha (que es la más importante). Si la hipótesis no se puede rechazar pueda deberse a que la evidencia para rechazar H0 no se pudo generar. Esta falta de evidencia puede resultar de un tamaño de muestra insuficiente o debido a un experimento con excesivo error. En el campo de la investigación científica todos los investigadores siempre están esperanzados en rechazar las hipótesis nulas de sus trabajos de investigación. Esto se debe a que cuando se rechaza la hipótesis nula en un trabajo de investigación, esto conlleva a un experimento conciso y preciso. Bajo estas condiciones el tamaño de la muestra es suficientemente grande y la variación de sus replicaciones o de sus experimentos es baja. Sin embargo, algunas ocasiones no es posible rechazar la hipótesis nula porque existen situaciones donde no se puede controlar la variación, como en el caso de los registros meteorológicos (como las temperaturas a nivel mundial), que están alterados por el calentamiento global. En este caso para mitigar dicha situación tiene que aumentarse el tamaño de la muestra, lo que implicaría costos más altos. En el caso de la ingeniería industrial y de manufactura, los ingenieros industriales siempre tienen que hacer pruebas de hipótesis periódicas de

Capítulo 6 Prueba de hipótesis

| 265

los productos manufacturados o de los artículos producidos por la industria de manufactura. Esto se hace con el objeto de revisar la eficiencia de la línea de producción de la fábrica. En las pruebas de hipótesis, el valor de s o de σ es muy importante, porque ahí se reflejan las técnicas del laboratorio refinadas o defectuosas. Un valor bajo de s refleja técnicas de laboratorio muy sofisticadas o refinadas, mientras que un valor alto de s refleja lo contrario. Todo esto se explica y se prueba a través del poder de la prueba y de los errores estándares del promedio, de la desviación estándar, etcétera.

6.1.2 El valor de p en la toma de decisiones En las pruebas de hipótesis hay otra forma alternativa moderna computarizada de probar la misma situación (que se hace con la prueba clásica de hipótesis que se diseñó en el siglo antepasado), es decir, el enfoque de la era cibernética. De acuerdo con Keller et al. (1998), el valor de p de una prueba de hipótesis se define como el valor más pequeño de α que llevará al rechazo de la hipótesis nula. En verdad, el valor de p es la probabilidad, bajo la hipótesis nula (o la probabilidad si la hipótesis nula es verdadera), de obtener un valor tan inusual o más inusual que el de la muestra, cuando la hipótesis nula es verdadera (una situación inusitada). Esta prueba de hipótesis no tradicional se hace usando el valor de la probabilidad p. Por ejemplo, cuando rechazamos o aceptamos una hipótesis nula H0: y nos inclinamos por la hipótesis alternativa, Ha, con un nivel de significancia de α 5 0.05 o igual a 0.01, etc., queremos saber qué tanta confiabilidad podemos tener al tomar nuestras decisiones estadísticas, ya que de esto depende la probabilidad, p. Es por esta razón que la inclusión del valor p es necesaria porque el simple rechazo de una prueba de hipótesis no le dice nada al tomador de decisiones si la prueba estuvo en el umbral del rechazo. Esto dejará a los tomadores de decisiones en una situación de incertidumbre, con los riesgos implicados por los niveles de significancia de α 5 0.05 o α 5 0.01 seleccionados. En términos simples, el concepto filosófico del valor de p es que este valor representa un decremento en el grado de confiabilidad en un resultado. Dicho enfoque está diseñado para darnos la alternativa (en términos de probabilidad), de rechazar o no la hipótesis sustentada. Así, entre más bajo sea el valor de p, menos podemos creer en la hipótesis nula y mientras mayor sea la estadística de prueba menos se puede creer en la hipótesis nula). Específicamente hablando, el nivel de p representa la probabilidad de error en aceptar los resultados observados como válidos. Por ejemplo, con un valor de p 5 0.05, esto significa 1/20, es decir, que tal vez estamos equivocados con una probabilidad de 1 en 20 en la decisión de rechazar la hipótesis nula, H0: sustentada. Además, si p 5 0.01, esto es, 1/100, indica que podemos estar equivocados en nuestra decisión de rechazar la hipótesis con una probabilidad de 1 en 100. (En estos casos, nadie argumentará que vamos a equivocarnos en nuestra decisión con esta probabilidad tan baja.) En términos generales, valores grandes de p, digamos mayores que 0.1, apoyan el no rechazo de la hipótesis (es decir, se acepta o se reserva una decisión). Por otro lado, valores pequeños de p apoyan el rechazo de la hipótesis nula.

Mecanismos para calcular los valores de la probabilidad p (para la distribución normal) cuando se hacen las pruebas de hipótesis no tradicionales a) Para calcular el valor de la probabilidad p, se busca el valor de la z calculada en la tabla de la distribución normal, con el valor del nivel de significancia usado. Los criterios que se siguen se hacen comparando el valor de p con el valor de α. b) Los criterios que se siguen para interpretar el valor de p son: • P # 0.05. La prueba está en el umbral de la significancia. Aquí casi siempre se acepta la hipótesis nula. Es un argumento débil y no convincente. Nos deja en una situación de incertidumbre. Esto dice que, “tal vez así sea”.

266

| Estadística para ingeniería y ciencias • P # 0.01 La prueba es altamente significativa. Se considera un argumento estadístico muy fuerte en contra de la aceptación de la hipótesis nula. La probabilidad de 0.01 dice que podemos equivocarnos en la decisión de rechazar la hipótesis nula, con una probabilidad de 1 en 100 de haber rechazado una hipótesis verdadera, cuando debió ser aceptada. • P # 0.001. La prueba es mucho muy significativa. Se considera un argumento estadístico mucho muy fuerte y convincente. Aquí, la probabilidad con la cual podemos equivocarnos en haber hecho una decisión errónea en el rechazo de la hipótesis nula es de una milésima, es decir, de 1 en 1 000.

De acuerdo con Pfaffenberger (1987) la interpretación matemática de los valores de la probabilidad p a) Para pruebas bilaterales: • Valor de p 5 2p(X . x), si H0: µ 5 µ0 con H1: µ .µ0. • Valor de p 5 2p(X , x), si H2: µ , µ0. b) Para prueba unilateral derecha: • Valor de p 5 (X , x), si H0: µ $ µ0, con H1: µ , µ0. c) Para prueba unilateral izquierda: • Valor de p 5 p(X . x), si H0: µ # µ0 con H1: µ . µ0. – Donde: X es #, $, 5, que el promedio muestral X . Ejemplo 6.7. A continuación se dan los valores de la z calculada; así, encontrar el valor de la probabilidad p, si: a) El valor de z 5 3.2, con H0: µ 5 µ0. b) El valor de z 5 3.0, con H0: µ # µ0. c) El valor de z 5 23.2, con H0: µ $ µ0. Solución: a) Buscamos el valor de z 5 3.2 en la tabla de la distribución normal y da un valor de 0.9993. Entonces, p 5 1 2 0.9993 5 0.0007. Sin embargo, debido a que la prueba es bilateral, este valor de p se multiplica por 2 para dar p 5 0.0014. b) Buscamos el valor de z 5 3.0 en la tabla de la distribución normal y nos da 0.9987. Entonces, p 5 1 20.9987 5 0.0013. No obstante, como la prueba es unilateral, así se queda. c) Para z 5 23.2 con H0: µ $ µ0. Ésta es una prueba unilateral izquierda (porque el valor de z es negativo) y este valor en la tabla de la distribución normal da 0.0007.

Metodología para calcular los valores de la probabilidad p por medio de fórmulas empíricas Para las pruebas de hipótesis no tradicionales, es decir, usando el valor de la probabilidad p, es necesario hacer interpolaciones de los valores obtenidos. Sin embargo, en el caso de la distribución normal, para calcular el valor de la probabilidad p no es necesario hacer interpolaciones, porque se puede leer directamente en la tabla

Capítulo 6 Prueba de hipótesis

| 267

de la distribución normal, el valor de la estadística z calculada. No obstante, para la distribución de t de Student y para distribución F, para la distribución de la ji-cuadrada, etc., sí es necesario hacer interpolaciones. Esto se hace buscando el valor calculado en la tabla de la distribución que se está usando, con su correspondiente valor de grados de libertad y del valor porcentual deseado, como se muestra a continuación.

Fórmula empírica para hacer interpolaciones y calcular el valor de p Aquí vamos a dar un método para hacer interpolaciones usando la fórmula empírica señalada. Donde:

(λ2 2 λ1)/(TR2 2 TR1) 5 (λ2 2 X)/(TR2 2 TRcalc.)

λ2 5 Nivel de confianza más alto de la tabla de la distribución usada. λ1 5 Nivel de confianza más bajo de la tabla usada. TR2 5 Probabilidad de la estadística usada correspondiente a λ2. TR1 5 Probabilidad de la estadística usada correspondiente a λ1. X 5 Valor que se quiere interpolar. Aquí, cuando la prueba es bilateral, este valor se multiplica por 2. TRcalc. 5 Valor de la estadística calculada. Por ejemplo, para la distribución de t de Student se obtiene la formula empírica siguiente: (λ2 2 λ1)/(t2 2 t1) 5 (λ2 2 X)/(t2 2 tcalc.) Igualmente, para la distribución de la ji-cuadrada: (λ2 2 λ1)/(χ22 2 χ21) 5 (λ2 2 X)/(χ22 2 χ2calc.) También, para calcular la distribución F: ( λ2 2 λ1) /(F2 2 F1) 5 ( λ2 2 X) /(F2 2 Fcalc.) Ejemplo 6.8. Para explicar cuál sería la diferencia en la decisión de aceptar o rechazar una hipótesis nula, supongamos que el valor de la hipótesis nula es igual a un valor esperado de µ0 – 5 10, esto es, H0: µ 5 10. Además, supongamos que X 5 12, σ 5 4.5 y n 5 25 y, si – después de sustituir los valores en la variable aleatoria normal calculada por zcalc. 5 (X 2 µ0) / σ / n , con α 5 0.05 con sus valores críticos de 61.96, entonces, zcalc. 5 2.22, y, por tanto, 2.22 . 1.96 y se rechaza H0. Aquí, la certidumbre es dictada por el valor de la probabilidad p, esto es, p 5 1 2 0.9861 5 0.0139. Ejemplo 6.9. Ahora, supongamos que zcalc. 5 1.2, con σ 5 8.333 y con las demás variables constantes. Bajo estas condiciones, 1.2 , 1.96 y, se acepta H0 con un valor de probabilidad de p 5 1 2 0.8849 5 0.12. Aquí, el valor de p dice que la probabilidad de haber hecho una decisión errónea y aceptar una hipótesis falsa es de una posibilidad en diez. Entonces, de acuerdo con el razonamiento expuesto anteriormente, ¿en cuál de las dos situaciones hay más confiabilidad, es decir, más certeza en nuestras decisiones? Ejemplo 6.10. Éste es un ejemplo donde se muestra la manera de calcular el valor de la probabilidad p. Siendo así, hacer lo siguiente:

268

| Estadística para ingeniería y ciencias a) Si el valor calculado de la estadística de la distribución de z fuera de z 5 23.4 con una prueba de hipótesis bilateral, calcula el valor de p. b) Ahora, si z 5 23.4 con una prueba de hipótesis bilateral, entonces calcular el valor de p. Solución: a) Buscar este valor en la tabla de la distribución normal y nos da 0.0003. Este valor es precisamente el valor de la probabilidad p. Pero como la prueba es bilateral, se multiplica por 2 y da p 5 0.0006. b) Determinar el valor de 23.4 en la tabla de la distribución normal y vemos que tiene un valor de 0.9998. Ahora, le restamos 1 y nos da p 5 1 2 0.9998 5 0.0002. Nuevamente, como la prueba es bilateral, el valor lo multiplicamos por 2 y da p 5 0.0004.

Ejemplo 6.11. Se dan los siguientes datos de una muestra aleatoria de 15 mediciones (micras) de partículas atmosféricas en unidades de partes por millón (ppm): 33.38, 32.15, 33.99, 34.10, 33.97, 34.34, 33.95, 33.85, 34.23, 32.73, 33.46, 34.13, 34.45, 34.19, 34.05. Hacer los siguientes cálculos: a) Probar la hipótesis nula de H0: µ 5 34.5 contra la hipótesis alternativa de H1: µ ≠ 34.5. Calcular el valor de la probabilidad p. b) Probar la hipótesis de H0: µ $ 34.5 contra la hipótesis alternativa de H1: µ , 34.5. Calcular el valor de p. Solución: a) Al hacer los cómputos pertinentes y sustituir en la variable aleatoria t, obtenemos. – tcalc. 5 ( X 2 µ0) / s/ n 5 (33.8 – 34.5) / 0.63/ 15 5 2 4.3

El valor de la probabilidad p se calcula usando la fórmula de interpolación: ( λ2 2 λ1)/(t2 2 t1) 5 ( λ2 2 X ) / (t2 2 tcalc.)

Se consulta la tabla de la distribución t y se busca el valor |24.3|, vemos que:

λ2 5 0.99975, t2 5 4.499, λ1 5 0.9995, t1 5 4.14, tcalc. 5 24.3 (aquí en este caso, se toma el valor absoluto), X igual a valor buscado, el cual corresponde a la interpolación de t 5 24.3 con n 5 14 g.l. Sustituyendo los valores en la fórmula anterior se obtiene: (0.99975 – 0.9995)/(4.499 – 4.140) 5 (0.99975 2 X)/(4.499 – 4.3)

X 5 0.99987 y el valor de p 5 2(1 2 0.99999) 5 0.00002. Este valor es mucho muy significativo y apoya, muy contundentemente, la contención de que el promedio no es mayor que 34.5.

b) Probando la hipótesis nula de H0: µ $ 34.5 contra H1: µ , 34.5 La t calculada es la misma que en el inciso a), es decir, 24.3. Ésta es una prueba unilateral izquierda con α 5 0.5 con el valor porcentual de t.95;14 5 21.761, o sea que la región crítica izquierda es 21.761 (de la tabla de la distribución de t). Para hacer una decisión de rechazar o aceptar H0: se compara el valor de t.95;14

Capítulo 6 Prueba de hipótesis

| 269

5 21.761 con tcalc. 5 24.3 y vemos, nuevamente, que se introduce en el extremo izquierdo de la distribución, por tanto, se rechaza la hipótesis. El valor de la probabilidad p se calcula buscando el valor absoluto de |24.3| en la tabla con α 5 0.05 y vemos que está entre 4.499 y 4.140 con sus respectivos valores de λ igual a 0.99975 y 0.9995, es decir, que el valor de p está entre 0.00025 , p , 0.0005, con un valor de p ≈ 0.0002. Ejemplo 6.12. Supóngase que se saca una muestra de 8 mediciones de nitratos (NO32) y se calcula un valor de t 5 23.62, con un nivel de significancia de α 5 0.05. Probar la hipótesis nula de H0: µ 5 32.0. Calcular el valor de la probabilidad p. Solución: Aquí la prueba es bilateral. Las regiones críticas son de t[.05;7] 5 2.365. El valor de t es 23.62. Se usa la función de P para dos colas dadas como: p 5 P(t.025 , 2|t|) 1 P(t.025 . |t|) Estamos buscando la probabilidad de sacar un valor de t que exceda 3.62 con y 5 7 grados de libertad, pero vemos que este valor no se encuentra en la tabla de la distribución t. Entonces, tenemos que interpolar el valor y lo buscamos en la tabla y vemos que está entre λ2 5 0.9975 con t2 5 4.029 y 1λ 5 0.995 con t1 5 3.499. Además, sabemos que t[.05;7] 5 22.375 (porque es de la cola izquierda). Luego, se sustituyen todos estos valores en la fórmula de interpolación siguiente: P 5 ( λ2 2 λ1) / (t2 2 t1) 5 ( λ2 2 X ) / (t2 2 tcalc. ) En seguida se sustituyen los valores anteriores: p 5 [(0.9975 2 0.995)/(4.029 2 3.499) 5 (0.9975 2 X)/(4.029 2 3.62)] 5 (0.0025)/(0.53) 5 (0.9975 2 X)/(0.409) 5 0.99785. .95 0.025

0.025

La probabilidad p es 1 2 0.99785 5 0.002. Sin embargo, debido a que la prueba int t volucra dos extremos, por tanto, el valor de la probabilidad p se multiplica por 2 para t t t t de abajo muestran dar p 5 0.0043. Este valor es mucho muy significativo. Las figuras t 2.365 t 2.365 esta situación.

0.025 t (1F/2; n1) t (1.05/2; 81) t (.975;7) t 2.365

.95

0.025 t (1F/2; n1) t (1.05/2; 81) t (.975;7) t 2.365

(1F/2; n1)

(1F/2; n1)

(1.05/2; 81)

(1.05/2; 81)

(.975;7)

(.975;7)

p .002 t (1F/2; n1) t (1.01/2; 81) t (.975;7) t 3.499

.996

p .002 t (1F/2; n1) t (1.01/2; 81) t (995;7) t 3.499

Figura 6.2. Regiones críticas y valores de p.

Ejemplo 6.13. Este problema está encaminado a estimar el valor de la probabilidad p para pruebas .996 p .002 p .002 con la distribución F. Por ejemplo, con α 5 0.05, para una prueba de hipótesis con n1 5 5 y n2 5 t7 y con un valor de tFcalc. 5 5.70, la región crítica es F0.05;4,6 5 4.53. Entont t ces, al comparar el valor de Fcalc. t t 5 5.70 con F0.05;4,6 5 4.53, se rechaza la hipótesis y 3.499 3.499 se inclina t por Ha. Sin embargo,t esta prueba de hipótesis tradicional no dice qué tanta (1F/2; n1)

(1F/2; n1)

(1.01/2; 81)

(1.01/2; 81)

(.975;7)

(995;7)

270

| Estadística para ingeniería y ciencias convicción se le puede dar al resultado obtenido. Para esto, se hace una prueba de hipótesis no tradicional usando el valor de la probabilidad p. Siendo así, se busca en la tabla de la distribución F el valor de Fcalc. 5 5.70, con 4 y 6 grados de libertad, y con α 5 0.05, pero vemos que no está explícitamente mostrado; es decir, está entre 4.53 y 9.15 con sus valores respectivos de α 5 0.50 y 0.010, por tanto la probabilidad es 0.01 , p , 0.05. Ahora, para obtener un valor de p más preciso se usa la siguiente fórmula de interpolación: ( λ2 2 λ1)/(F2 2 F1) 5 ( λ2 2 X)/(F2 2 Fcalc.) Donde: 5 λ2 5 Valor porcentual más alto que el valor de Fcalc.

λ1 5 valor porcentual más bajo que Fcalc.

F2 5 Valor de la distribución F correspondiente a λ2.

F1 5 Valor de la distribución F correspondiente a λ1.

X 5 Valor que se quiere interpolar.

Fcalc. 5 Valor calculado.

Ahora, con λ2 5 0.05, λ1 5 0.01, F2 5 4.53, F1 5 9.15 y Fcalc. 5 5.70 y sustituyendo y resolviendo por X, se obtiene: (0.05 2 0.01)/(4.53 2 9.15) 5 (0.05 2 X )/(4.53 2 5.70) X 5 p 5 0.04 El valor es 0.025.

6.2 Pruebas uniformemente más potentes Al establecerse las hipótesis de prueba puede existir más de una estadística que pueda utilizarse para tomar la decisión. Es deseable que la estadística de prueba y la región de rechazo para H0 sean tales que fijando la probabilidad de cometer el error I, se minimice la probabilidad de cometer el error II. Esto significa que de todas las regiones críticas de significancia igual a α, se quiere tener la de menor valor de β 5 P(error II). Si esto es posible, se dirá que se tiene la mejor prueba. Cuando se prueban dos hipótesis simples el llamado lema de Newman Pearson da la pauta para encontrar la mejor prueba.

Teorema 6.1. [Lema de Newman Pearson] Para la prueba de hipótesis: H0: θ 5 θ0 contra Ha: θ 5 θ1 La mejor región crítica de tamaño α es de la forma:

  L(θ0 ) L(θ0 ; X 1 , X 2 , ..., X n ) C 5 ( X 1 , X 2 , ..., X n ) 5 ,k L(θ1 ) L(θ1 ; X 1 , X 2 , ..., X n )  

con k una constante positiva.

(6.1)

Capítulo 6 Prueba de hipótesis

| 271

Esto significa que cuando se tiene una muestra aleatoria, la mejor decisión se hace de acuerdo con la siguiente regla: a) Si L(θ0)/L(θ1) , k, entonces se rechaza la hipótesis nula (si ocurre C ). b) Si L(θ0)/L(θ1) $ k, entonces no se rechaza (si ocurre C c ). Demostración: Si C es una región crítica o región de rechazo de tamaño α para H0, se tiene que: • P(error I) 5 P(C | θ 5 θ0) 5 α • 1 2P(error II) 5 1 2 P(Cc | θ 5 θ1) 5 P(C | θ 5 θ1) 5 1 2 βc 5 potencia en C Para probar que C es la mejor región crítica se debe ver que para cualquier otra región de rechazo C * de tamaño α; el error tipo II tiene probabilidad menor en C que en C * (βc , βc*) en consecuencia, la potencia es mayor en C que en C *. El error tipo I y el error tipo II en la región C *: • P(error I) 5 P(C * | θ 5 θ0) 5 α • 1 2 P(error II) 5 1 2 P(C *c | θ 5 θ1) 5 P(C * | θ 5 θ1) 5 1 2 βc 9 potencia en C *. La prueba se hará considerando que la distribución generadora de la muestra es continua, con algunas modificaciones se puede hacer la demostración para variables discretas. Las dos regiones críticas se pueden descomponer en la unión de dos conjuntos mutuamente excluyentes: C 5(C ∩ C * ) ∪ (C ∩ C *c ) y C * 5(C * ∩ C ) ∪ (C * ∩ C c ). De aquí se sigue que: P(C | θ 5 θ0 ) 5 P(C ∩ C ∗ | θ 5 θ0 ) 1 P(C ∩ C ∗c | θ 5 θ0 ) 5 α P(C * | θ 5 θ0 ) 5 P(C * ∩ C | θ 5 θ0 ) 1 P(C * ∩ C c | θ 5 θ0 ) 5 α P(C | θ 5 θ ) 2 P(C * | θ 5 θ ) 5 P(C ∩ C *c | θ 5 θ ) 2 P(C * ∩ C c | θ 5 θ0 ) 5 0 y consecuentemente: P(C * | θ 5 θ ) 5 P(0C * ∩ C | θ 5 θ )01 P(C * ∩ C c | θ 5 θ )05 α 0

0

0

P(C ∩ C *c | θ* 5 θ0 ) 5 ∫ C ∩C *c f ( x1 *;cθ0 )f ( x2 ; θ0 ). . . f*( xn ; θc 0 )dx1dx2 . . . dx * θ ) 2 P(C | θ 5 θ )*5 P(C c ∩ C | θ 5 θ ) 2 P(C ∩ C | θ 5 θ ) 5 0 . n (CP|(θC5 0 ∩ C | θ 5θ )5α 0 0 P(C | θ 5 θ0 )P5 ∩0C | θ 5 θ ) 1 P(C 0 *c 0 *c *(cC ∩ C | θ 5 θ ) # k | θ 5 θ1 ) P *c f ( x1 ; θ*1 ). . . fc( xn ; θ1 )dx1 dx2 . . . dxn 5 kP(C ∩ C 0 * * c ∫ P ( C C | 5 ) 5 f ( x ; ) f ( x ; ) . ∩ θ θ θ θ . . f ( x ; θ ) dx dx . . . dx C ∩C la diferencia. Ahora, calculará cada uno 1de n | θ5 (C∫términos ∩ P(Cse | θ5 θ0 *) 2 P(C θ0 *)de 50 Plos θ00*) 2 P2c(C 0 ∩ C | θn5 θ00 ) 510 2 C ∩C C *c | θ 5 P(C | θ 5 θ0 )2 5P (C* ∩∩CCc ||θθ5 P(C ∩cCf (|xθ ;5θθ)0 f)(5xα; θ ). . . f ( x ; θ )dx dx *. c. . dx cP 5θθ00 ))*1 52 n kP 0 (C 1∩ C 2 1x ;0θ )dx2 dx0 . . . dx 5 x)∫.1c.;C|.θ*θf∩1(5 )x. θ . .; fθ)(5 | θ 5n θ1 ) (C C* *∩ |(C θC5 C • P(C *∩| θC5*cθ| 0θ)P5 5 (0 x)θ1# ;)θk x *c;∩ θP0∩ θf (0C )dx 5 ()C | θfθ5 1)Pf (C α dx . . . dx2cn n n 0 0 n 1 1 2* 1 ∫ 0 0 ∫ C ∩C2 *c C ∩C **c * | θ 5θ c ) 5 P(C ∩ C | θ 5 θ ) 2 P(C ∩ C | θ 5 θ ) 5 0 P ( C P(C | θ 5 θ0 )**2 0 0 0 c θ5 θ0*)c #2 θ10))dx dx dx2......dx dxn 52kP(C * ∩ C c | θ 5 θ1 ) 2P (C ..θ.. 5 (θxxn);;θ5 * c1dx * θ∩C0P)cdx ;;. θθdx fkf(P Pθ*(c*cC 5 θP0x()|C52 )2 |k (ffC((xx*.21.∩ C01 ))c..|5 P((C C∩ | θC 5*θc 0| θ θPC 5 θ|0θ)∩ 5C θc5fk;(θθ∫x0 1)C);2 *f|( 5C ; θ∩1 )C . .C.)/L(θ dx (0nC ∩que: P ) #∩ 0 C 1| θ 5 2 θ1 ) n ∫ *c f ( ∩Cx n ) , 1 L(θ 1 k, 1 entonces 2 n se sigue 0 se satisface ∫ En la región C ∩ que C ∩ C c ). . . f*( P*(*|C 5 ∫ |Cθ∩5 ∩ C | θ 5(C θ0* )∩ * c( x1 0; θ 0 ) f* (1x2 ; θ c xn ; θ 0 )dx1 dx2 . . . dxn * *c f 0 ∩5 (C P(;θC ∩ )| θ55 αθ1.)]. .5 cθ 5 θ ) 5*P CC kc[|PθC C k[dx (5 θk P(C | θ 5 θ1 ) 2kP 5cθ|1θ)]5 θ ) *C | θ P(PC(PC ) 50∩∫,C (θ x∩C ; θθ00))f|1 ( x5 . f.P.C ∩ θ(0C θ1x0))2 (.1.x|;.θθ ;C θ.θ0.)0.;dx f (1)dx xdx P((C C * |∩θ C (f(x)C ; θ1 )dx *c f c; θ 1 ) #2 2fC(* ∩ nf1()x n1. dx2 . . . dxn 52 ) θ . . 2 ∩ C c2P |5 θP05 C ∩C n 21 dx 1 * c 0f ( x1 ; θ 0 ∫ C * c θ 0 ) 52 * c 2 0 n 0 2 n ∫ * )# * c). . . f ( x ; θ )dx *dx . . c. dx 5 kP(C ∩ C | θ 5 θ ) ∩C Ck ∩ 5 f ( x ; θ P ( C C | θ θ P(C | *θc 5 θ0* ) 2 P(C 0| θ 5*cθ0∫* )C5 θ ) 21Pc (C1 ∩2C | θ 5 *c(C ∩ 1 C 1 | θ5 n θ0 ) 5 1 * c0 ∩CP * c *0n * *C P|(θ cC * c ∩ 5 # f ( x ; θ ) . . . f ( x ; θ ) dx dx . . . dx 5 k P ( C ∩ C | θ 5 θ ) P ( C θ ) k C)∫5 ∩C C(C| θ∩5 [ Pθ)(#2 θ | 1θ) 2 θ2 1|)] (Cα52 | θ 5kθP1()C2 P∩(C θk0 θ 5 P 5P θ(0C θ5.k θn.[0.P )dx 5 n fPC 1C dx C 1|| θθ 5 5θθ11 )] )Cdx ) 2P P(C ∩ C *0|c*θ,|5 .).1 .∩ ((x1C ;|θθ∩15 Ck ∩C *c * c f (1x1 ; θ1 ) 0c 0 C ∩C xn1dx ; θ*n02 ). dx dx . . . dxn 2∩PC (C Cθ |0θ) 5 θ∫ 0C∫)∩52 P(C |∩ x*1∩; Cθc0 f)(f x(1x;2θ; 0θ)0f)(.n*c.x.2f1;(θx0n);.1θ. .0f)2(dx θ5 . . dx * *c f∫( C 1c n 2 * c C c5 Pf ((θC )θ2 (CC 5 • 2 x2)]∩ ;5 θC0k).[.P|.θ(fC ( x|θnθ0;5 )P dx(C dx∩ . .C*. dx| θn 5θθ)]0 ) 5 0 P(kC[ P(∩CP C∩C | θ| *θ5 f5(C xθ1*0;c)θ|5 0, | θθθc05)0 )52 θ2 )P2(C P* (C| cθ∩ θ0 )5 0θ1 ) 2 1 P( 2C | θ 5 1 ∫ C ∩C 1 * c* C ∩ C θ 5 θ #2 x θ f x θ dx dx . . .Pdx k*cP|(θC ) 2P P ( | ) ( ; ) . . . ( ; ∩ 5 # ( x ) . . . f ( x ; θ ) dx dx . . . dx 5 k (C 52 ∩ 1C 5* θ∩1 )C c | θ 5 θ1 ) P(C C | θ θ ) k * c *1 ; θc1 f *ckf∫ n 0 1 1 1 1 2 n 1 1 2 n 0 ∫ * cC ∩ C | θ 5 θ )C5 * c C ∩ C( x ; θ ) f ( x ; θ ). . . f ( x ; θ )dx dx n. . . dx ∩C P ( f * c 2P P(C ∩ C *| θ 5 θc0 ) #2k0∫ C * ∩∫CCc ∩fC( x1 ; θ11). . .0 f ( xn2; θ10)dx1dx2 .n. . dx 0 n 52 1 k2P(C ∩ n C | θ 5 θ1 ) *c y en la 2 región se*csatisface que ) ;$ ,* kC (*cC θ 5 θ∫1 )*2 P (C θθ10)]k, 5 ) 2 Pque: (C * | θ 5 θ1 )] θ)/L(θ )f| (θx15 ).5.entonces .kf[(Px(nC ; θ|0θ)se dxθsigue dx P0(C ∩[ P C∩ |Cθ∩C (L(θ x∩ ; 0C *5 *c c Cθ 0 )| 52 c f* c 1 *2 . . . dxn c 0 2 1 1 ∩ C C f ( x1 ; θ)]15 ). k . .[fP((xCn ;| θθ15 )dx (CC∩ C )# 0 , k[ P(CP∩C | θ 5| θθ5 )θ 20 P (Ck∩∫ C θ11)dx 22P. .(.Cdx|nθ5 5kθP1()]C ∩ C | θ 5 θ1 ) C ∩C *|c θ 5 θ 1 1 2P P(C * ∩ C c*| θ 5 θc 0 ) #2k ∫ C * ∩C c f ( x1 ; θ1 ). . . f ( xn ; θ1 )dx1dx2 . . . dxn 52kP(C * ∩ C c | θ 5 θ1 ) 2 P(C ∩ C | θ 5 θ0 ) 52∫ C * ∩C c f ( x1 ; θ0 )f ( x2 ; θ0 ). . . f ( xn ; θ0 )dx1dx2 . . . dxn , k P(C ∩C C *c | θ 5 θ1 ) 2 P(C ∩ C *c | θ 5 θ1 )]5 k[ P(C | θ 5 θ1 ) 2 P(C * | θ 5 θ1 )] 0 [ Finalmente, se 2P Pconcluye (C * ∩ C c que: | θ 5 θ0 ) #2k ∫ C * ∩C c f ( x1 ; θ1 ). . . f ( xn ; θ1 )dx1dx2 . . . dxn 52kP(C * ∩ C c | θ 5 θ1 ) *

C *c | θ 5 θ1 ) 2 P(C ∩ C *c | θ 5 θ1 )]5 k[ P(C | θ 5 θ1 ) 2 P(C * | θ 5 θ1 )] 0 , k[ P(C ∩C

272

| Estadística para ingeniería y ciencias

Por tanto, P(C * | V V1 ) P(C | V V1 ) , con lo que se prueba que la potencia en C es mayor que la potencia en C*, por tanto C es mejor región ( x x . .crítica. .x )/G n L(G)

2 ( x1 , x 2 , ..., x n e )

2 1

2 2

2 n

2

Lo que nos dice en palabras simples G n el lema de Neyman Pearson es que la probabilidad del error II * ( x x . . .x )/G en C es menor que en2 nC( x, ,por lo que es C. ( x x . . .x )/10 x , ..., x ) la mejor región crítica 1

2 1

2

2 2

2 n

n 0

n

2 1

e

2 2

2 n

2

n

n L(G 0 ) G © 3 ¹ ( x12 x22 . . .xn2 )/180 ( x2 x10 e k 2 2 ª 2 ( x12 x22 . . .xn2 )/G1n )/ 15 . . . x n n L(G1 ) 2 ( x , x , ..., x ) « 2 º» e 1 2 1 2 n n n Ejemplo 6.14. Sea X , X , . . . , X G1 una muestra aleatoria15de una función de distribución Weibull n 0

1

2

100

con parámetros α 5 2 y β desconocida; encontrar la mejor región crítica de tamaño α 5 0.05 para la prueba: H0: β 5 10 contra Ha: β 5 15 Solución: La función de verosimilitud en* este caso es:

P(C | V V1 ) P(C | V V1 ) ( x12 x22 . . .xn2 )/G 2

2 n ( x1 , x 2 , ..., x n e )

P(C | V V1 ) P(C | V V1 )L(G) *

Gn

( x12 x22 . . .xn2 )/G 2 n

2 n ( x1 , x 2 , ..., x n e )

( x 2 x 2 . . .x 2 )/G n

) región críticanes: L(Gmejor La

n 0 ( x 2 x 2 . . .xn2 )/10 2 2 ( x1, x 2, ..., xn ) 1 2 e 1 2 G n n L(G ) 2 n G0 © 3 ¹ ( x12 x22 . . .xn2 )/1 10 n ( x12 x220. . .xn )/G 0 n 2 2 2 2 ( x . . . x )/ 10 x 2 ( x1, x 2, ..., xn ) L(G ) ª« 2 º» e 1 2 (nx 2 x 2 . . .xn2 )/G1n ( x 2 x 2 . . .xn2 )/152 2 n ( x1 , xe 2 , ..., xn ) 1 2 e 1 2 1 n n n 2 2 L(G 0 ) G0 © 3¹ . .xnn2 )/180 G1n 2 2 ª º e( x1 x2 .15 ( x2 x10 k 2 ( x12 x22 . . .xn2 )/G1n )/ 15 . . . x n n L(G1 ) 2 ( x , x , ..., x ) « 2» e 1 2

1

2

n

15 n

G1n

Al calcular el logaritmo natural en ambos lados de la desigualdad, se sigue que:

Para conocer el valor de c para un nivel de significancia α (cα) se debe conocer la distribución de la variable aleatoria Yn X 12 . . . X n2 ; la manera de encontrar esta distribución es calculando la función generatriz de momentos si coincide con 1 h deh Ynn y después buscar ( x x . . .x )( 1t G ) /G tY ) distribución 2 x1, conocida. dx1dx2 . . . dxn M de E(ealguna x 2 , ..., xn e n µ0 µ0 2 2 Y la función Y generatriz de momento G X 2 . . . X 2 2 1

n

2 2

2 n

2

2

n

Ynn X11 . . . Xnn h Gh/ 1t G2 1G* ( x 2 x 2 . . .x 2 )( 1t G 2 ) /G 2 tY MY E(e tYnn) 1n µ hµ h2 nnx1, x 2 , ..., xn e ( x112 x222 . . .xnn2 )(1t G2 )/G2dx1dx2 . . . dxn dx1dx2 . . . dxn MYn E(e ) G n µ0 µ0 2 x1, x 2 , ..., xn e n G 0 0 2 * G G / 1 t G si se hace G* G / 1 t G 2 en esta integral se puede completar una integral para que

integre 1.

n

1 (1 2 t β 2 )n/ 2

1 β* n

∞

∞

0

0

∫ ∫

2 n x1 x2 … xne

− ( x12 1x22 1…1xn2 )/β*2

dx1dx2 …dxn 5

              

tY

MY 5 E(e n ) 5

1 (1 2 t β 2 )n/ 2

51

Ésta es la función generatriz de momentos de una distribución gamma con parámetros: α 5 n/2 5 50 y β∗ 5 β2.

| 273

Capítulo 6 Prueba de hipótesis

Se tiene que P(error I) 5 P( x12 x22 … xn2 c0.05 |β 5 10) 5 0.05, el valor de c0.05 se busca usando Excel y se encuentra que c0.05 5 6217.1044. 1 1 1 ( x R ) / 2 X ( x R ) / 2 X 2

2

2

2

( xn R )2 / 2

L(R; x1 , ..., xn ) e 1 e 2 ... e 2 UX 2 UX Se rechaza la hipótesis nula cuando x12 x22 … y es la mejor de las 2 UX xn2 c6217.1044 0.05 n ¨ ( xi R )2 / 2 X22 2 1 pruebas. 1 i 1 ( x1 R ) / 2 X 1 ( x R )2 / 2 X 2 e L(R; x1 , ..., e 2 ... (2 Ux)nn/)2 X n 2 UX e 2 UX

2 © ¹ lema de Ejemplo 6.15. Considerar una muestra aleatoria de una normal, esto ª ¨ x 2 σ R ). Use x nR el ~ N(µ, º /2 X 1 es X «1 ¨ ( x R ) »/ 2 X ¨ e n lasn/ 2hipótesis. e Neyman-Pearson y encuentre la mejor región crítica n / 2para n (2 U ) X n 2 i 1 i

n n i 1 i i 1 i

2 2

2 2

(2 U ) X

H0: µ 5 µ0 contra Ha: µ 51µ1

Solución:

(2 U )n/ 2 X

© ª «

e n

¨ i 1 xi2 2 R ¨ i 1 xi nR2 ¹»º / 2 X 2 n

n

La función de verosimilitud está dada por: x 2 x 2 … x 2 c 1

2

0.05

n

1 ( x R )2 / 2 X 2 e 1 2 UX

L(R; x1 , ..., xn )

1 ( x R )2 / 2 X 2 e 2 ... 2 UX

n ( x R )2 / 2 X 2 1 e ¨ i 1 i n/ 2 n (2 U ) X

© ¹ ª ¨ xi2 2 R ¨ xi nR 2 º / 2 X 2 1 i 1 « i 1 » e (2 U )n/ 2 X n n

1 ( x R )2 / 2 X 2 e n 2 UX

n

Aplicando el lema de Neyman-Pearson se obtiene: 



2  ∑ xi2 22 µ 0 ∑ xi 1nµ 20  / 2 σ 2 1 i 51 n   n  2  ∑ xi2 22 µ 0 ∑ xi 1nµ 20  / 2 σ 2 e  i 51 i 51  n/ 2 n L(µ 0 ) (2 π) σ e  i 51 5 = n n  n    n 2  ∑ xi2 22 µ1 ∑ xi 1nµ12  / 2 σ 2 2  ∑ xi2 22 µ1 ∑ xi 1nµ12  /2 σ 2 L(µ1 ) 1 1 i 51 i 51   e  i 51 e  i 51 n/ 2 n (2 π ) σ n

n

Por tanto, la hipótesis nula H0 se rechaza si se cumple que:  2 

e

 2 

∑ i 51 xi2 22 µ0 ∑ i 51 xi 1nµ20  / 2 σ 2 n

n

=e

( µ 0 2µ1 )

 n x2 1nµ 2  / 2nσ 2x 1nµ 2  / 2 σ 2 1 i22 µ 01  i 5x 0 i 51 i i 51 i 

∑ i 51 xi / 2 σ 2 , k n

∑ i 51 xi2 222 µ 1∑∑ ∑ n ( µ 2µ ) x /2 σ2 e = e 0 1 ∑ i 51 i , k nn 2 n  2 2 2 2σ µ1 ∑ xi 1nµ1  / 2se σ tiene que: 2 ∑ xi 2desigualdad µ1 )∑ Al obtener el logaritmo(µ natural de esta i 51 0  e  i5i151 i n

n

e

(µ 0

µ1 )∑ i51 n

i

σ2

Aquí se tienen dos casos: Caso 1. µ0 2 µ1 . 0 (µ1 , µ0). y dado que la parte derecha es constante, que x– ~ N(µ, σ2) y que el tamaño de la región crítica es α se tiene que se rechaza la hipótesis nula si: zc 5

n( x 2µ 0 ) n( x 2µ 0 ) ,2zα si σ es conocida, o tc 5 ,2t12α si σ es desconocida. σ s

Caso 2. µ0 2 µ1 , 0 (µ0 , µ1).

1 2 UX

274

| Estadística para ingeniería y ciencias ∑ in51 xi . σ 2 log(k ) / (µ 0 2 µ1 ) ⇒ x . σ 2 log(k ) / (µ 0 2 µ1 )

lo que implica que se rechaza la hipótesis nula si: n( x R 0 ) n( x 2µ 0 ) t1F si σ es desconocida. . zα si σ es conocida, o tc s σ 1 1 ( x R )2 / 2 X 2 ( x R )2 / 2 X 2 L(R; x1 , ..., xn ) e 1media de µ y e 2 ... Ejemplo 6.16. Considerar una reacción química que se distribuye normalmente con 2 UX 2 UX 2 zc 5

una varianza σ 5 1. Se quiere probar la hipótesis µ 5 10 contra la hipótesis µ 5 11, a ( x R ) / 2 X 1 un nivel de significancia de 0.05, con base en una muestra de n 5n9/ 2 reacciones. e ¨ n n

i 1

(2 U ) X

Solución:

i

2

1 2 UX

2

© ¹ ª ¨ xi2 2 R ¨ xi nR 2 º / 2 1 i 1 « i 1 » e /2 De acuerdo con el enunciado se tiene que las hipótesis de prueba (2 U )nson: n

n

H0: µ 5 µ0 5 10 contra Ha: µ 5 µ1 5 11

Se sabe que n 5 9, σ 5 1 y α 5 0.05. n( x R ) s

0 tc de verosimilitud t1Festá dada por: La función

1 ( x R )2 / 2 X 2 e 1 2 UX

L(R; x1 , ..., x n )

1 ( x R )2 / 2 X 2 ... e 2 2 UX

n ¨ ( xi R )2 / 2 X 2 1 i 1 e (2 U )n/ 2 X n

© ¹ ª ¨ xi2 2 R ¨ xi nR 2 º / 2 1 i 1 « i 1 » e (2 U )n/ 2 n

1 ( x R )2 / 2 X 2 e n 2 UX

n

Aplicando el lema de Neyman-Pearson se tiene: 



2  ∑ xi2 22 µ 0 ∑ xi 1nµ 20  / 2 1 i 51 n   n  2  ∑ xi2 220 ∑ xi 1100 n / 2 e  i 51 i 51  n/ 2 L(µ 0 ) (2 π) e  i 51 5 5 n n n n     2  ∑ xi2 22 µ1 ∑ xi 1nµ12  / 2 2  ∑ xi2 222 ∑ xi 1121 n / 2 L(µ1 ) 1 i 51 i 51   e  i 51 e  i 51 n/ 2 (2 π ) n

n

Por tanto, la hipótesis nula H0 se rechaza si se cumple que:  2 

∑ i 51 xi2 220 ∑ i 51 xi 1100 n / 2

 2 

∑ i 51 xi2 222 ∑

e

e

n

n

n

 x 1121 n / 2 i 51 i  n

2 x 121 n / 2 5 e ∑ i 51 i ,k n

Al obtener el logaritmo natural de esta desigualdad se tiene que:  9 ( x 10 )   9( x 10)  n Al suma, secsigue: z0.05   1.645 0.05 P (estandarizar Error _ I ) Pla (∑ x |µ 10) P  i1 1

σ σ      9 ( x 10 )   9( x 10)  z0.05   1.645 0.05 P (Error _ I )9 (∑ µ 0i)1 x1 c |µ 10) P  ( xP σ σ     zc 1.645 σ  9 ( x 10 )   9( x n 9 ( x µ0 ) z0.05   P ((Error _ nI )(cP10 (∑ x1 c |µ 10) P  i 1 P (esta Errormanera, | ) Z ) ) X µ 10 z 0 . 05 _ I ) zc De 1.P 645 se sigue que la mejor región crítica está σ σ 0.05dada por:    σ P (Error _ II ) P X | µ 11) (Z n ( c 11 ) z ) 0 . 0 6 x ) 0.06 P (Error _ I ) P X | µ 10) (Z n (9c( 10µ) 0 z0.05 ) 0.05 zc 1.645 σ P (Error _ II ) P X | µ 11) (Z n (c 11) z0.06 ) 0.06 P (Error _ I ) P X | µ 10) (Z n (c 10) z0.05 ) 0.05 n

P (Error _ II ) P X | µ 11) (Z n (c 11) z0.06 ) 0.06

Capítulo 6 Prueba de hipótesis

| 275

Ejemplo 6.17. Refiérase al ejemplo 6.16. ¿Cuál será el tamaño mínimo requerido de la muestra para efectuar las pruebas de hipótesis con la condición de que α 5 0.05 y β 5 0.06?

 9 ( x 10 )   9( x 10)  n z0.05   1.645 0.0 P (Error _ I ) P (∑ i1 x1 c |µ 10) P  σ σ     La hipótesis nula se rechaza sin x– . c para un valor de9c( positivo.   9( x 10)  1 0 ) x z0.05   1.645 0.0 P (Error9_(Ix) µP0 )(∑ i1 x1 c |µ 10) P  zc del error tipo I1.es: 645 σ σ     La probabilidad σ ) 9 ( x_I µ P (Error n (c 10) z0.05 ) 0.05 ) 0 P X | µ 10) ( Z zc 1.645 σ P (Error _ II ) P X | µ 11) (Z n (c 11) z0.06 ) 0.06 y la probabilidad del_ Ierror P (Error | µ 10) (Z n (c 10) z0.05 ) 0.05 X II es: ) Ptipo

Solución:

P (Error _ II ) P X | µ 11) (Z n (c 11) z0.06 ) 0.06

De estas dos relaciones se obtiene un sistema de dos ecuaciones con dos incógnitas, cuando se sustituye z0.05 y z0.06, buscando en la tabla de la normal estándar: n (c 10) 1 645 y

n c 11) 1.555

Se despeja el valor de raíz de n y se igualan las dos ecuaciones: n5

1.645 1.555 ⇒ 1.645(c 211) 521.555(c 210) 52 c 210 c 211 ⇒ (1.645 11.555)c 51.555(10) 11.645(11)

⇒ c 5 10.514 De aquí se sigue que: n5

1.645 5 3.2 ⇒ n 510.2424 ≈ 11 10.514 210

) 5 P ( X para . c | µsatisfacer 510) se requiere de una muestra Error de 11 elementos las condiciones pedidas. 

n ( X 2 µ)

n (c 2 µ )



P . µ 510  Ejemplo 6.18. Refiérase al ejemplo 6.16.5Considerar pero modificanσ la prueba de σ hipótesis anterior,   do la hipótesis alternativa de la siguiente manera:

H0: µ 5 10 contra Ha: µ . 10 La región crítica de esta prueba para un nivel de significancia de α 5 0.05 está deter1.645 – 645 11 n 5 510 minada por un valor c, tal 10 que P(X .5c 3|.21µ.⇒ 5n10) 5.2424 que: .2 ⇒≈nesto .2424 ≈ 11 30.05; 5 510implica .514 2n105

Error  5P 

10.514 210 )5 P ( X . c |)µ55P10 ) . c | µ 510) Error (X

 n ( X 2 µ) n (nX (c2 2µµ)) µ 5n 10(c 2 µ) µ 510  . 5 P .   σ  σσ σ   5 P (Z . 9 (c 210)) 5 0.05

De esta manera, se tiene que zα/ 2 51.645 5 9 (c 2 10) ⇒ c 510 11.645 / 3 510.548 , es decir, se rechaza H0: µ 5 10 si X $ 10.548 . P (Error ) 5 P ( Xdel , 10 .548específico | µ 511) que tome la hiDebe observarse que el valor crítico c no_ II depende valor pótesis alternativa, sino que sólo depende del hecho que µ es mayor o menor que µ0.

276

| Estadística para ingeniería y ciencias La probabilidad delXerror $ 10tipo .548 II cuando µ 5 11, es igual a: P (Error _ II ) 5 P ( X , 10.548 | µ 511)

© P ª «

n ( X R) X

¹ n(10.548 R) R 11º X »

(

5 P Z , 9 (10.548 211)

)

5 P (Z ,21.356) 5 0.08754

La probabilidad de cometer el error tipo II en función de µ es igual a:

P (Error _ II ) P ( X 10.548 | R) © P ª «

n ( X R) X

n (10.548 R) ¹ Rº X »

P (Z 9 (10.548 R)) G(R)

Para construir la curva OC y la gráfica de la función potencia se presentan en la tabla siguiente diferentes valores de µ para la hipótesis alternativa, la probabilidad de cometer el error tipo II cuando µ toma esos valores y la función potencial de la prueba. Tabla 6.4. Diferentes valores de µ para la hipótesis alternativa, la probabilidad de cometer el error tipo II cuando µ toma esos valores y la función potencia de la prueba. 

10

() Potencia

10.2

10.4

10.6

10.8

11

11.2

11.4

11.6

11.8

12

0.95

0.852 0.672 0.438 0.225 0.088 0.025 0.005 8E-04

9E-05

7E-06

0.05

0.148 0.328 0.562 0.775 0.912 0.975 0.995 0.999

1

1

Con estos datos se hacen las dos gráficas siguientes: la primera es de la probabilidad del error tipo II, P(error II) 5 β(µ) y la segunda es de la función potencia de esta prueba.

9

10

11 m

Figura 6.3.

10

Potencia 5 1 2 b(m)

1

1

0.8

0.8

0.6

0.6

b

b

P(error II) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 12 13 9

b

b

P(error II) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

0.4

0.4

0.2

0.2

0 11 12 13 9 10 11 m m

12

0

Potencia 5 1 2 b(m)

913

10

11 m

12

13

Figura 6.4.

Observe que conforme el valor de µ se aleja de 10, la probabilidad de cometer el error tipo II disminuye porque es más fácil determinar cual es el verdadero valor de µ y la potencia de la prueba aumenta.

Capítulo 6 Prueba de hipótesis

| 277

Definición 6.7. Sea la prueba de una hipótesis simple contra otra compuesta. H0: θ 5 θ0 contra H1: θ P Θ1 Se dice que una prueba es uniformemente más potente de tamaño α si es la mejor prueba para las hipótesis simples H0: θ 5 θ0 contra H1: θ 5 θ1; para toda θ1 P Θ1.

Ejemplo 6.19. Considerar que se tiene una muestra de una distribución normal con media µ y varianza conocida igual a σ2 5 4. ¿Cuál es la prueba uniformemente más potente para las hipótesis? H0: µ 5 10 contra Ha: µ > 10 Solución: La hipótesis alternativa es compuesta, entonces para encontrar la prueba uniformemente más potente se debe escoger la mejor prueba para las hipótesis simples H0: µ 5 10 contra H1: µ 5 µ1 cuando µ1 . 10. Aplicando el lema de Neyman-Pearson se tiene:

  2  ∑ x12 220 ∑ xi 1100 n  / 2 α 2 1 i 51 n  i 51   n  2  ∑ x12 220 ∑ xi 1100 n  / 2 α 2 e i 51  L(µ 0 510) (2 π)n/ 2 σ n e  i 51 5 n n5 n 22 22  n n    n 2 2 2 x x 2 2 1 / 2 α 20 100 x 1nµ1  / 2 α∑ 2  ∑ 1x1 22 µ1 ∑  ∑ x 22 µ x 1nµ1  / 2 α 2 n i 2 n  L(µ1 ) 1 1 in  20  i 51 x2 2 e i 51 ii 51 1  i 51 e  ∑i 51 1 1 ∑2i5∑ ∑ i 51 xi 1100n  / 2 α 2 e i 51 1 n / n 2 / 2 ) n (2 π ) n10 L((µ20π5 e σ ) σ5 n  n 2  x1 2n20 ∑ x2i11002n 5 /2 α2  n 2 n   n2 1 n x 1i 5 nµ 2  ∑ x1 22nµ1 ∑ xi 1nnµ12  / 2 α 2   n ) 2  /2α  1 1 2  ∑ei 51 x12∑22i 5µ11 ∑ 1 x 2 2i 20 x 1100 n  / 2 α 2 i 51 i 1 ∑ 51 ∑  i 52 2  ∑ x12 220 ∑ L xi( 1µ 100 1 n  /2α i 51 1 i 51 i   i 51 i 51nula H nne / 2sensatisface  e Por tanto,e la hipótesis se rechaza si que: 2 2 L(µ 0 5 e /µ21π n2 n xσ ( ) 1 2 )∑ / σ ( µ 100 ) 0 10) ( 102 (n2e5 π2 2)20 σn ix511i100  / 2 α1 2 n n , k n  5 5 n n x 2 n n     i 51 1   2 2 2 ∑ i 51 i n 2  ∑ x12 22µ1 ∑n 2xi 1nµ12 n/ 2 α 2 /µ 2  ∑ x12 22 µ1 ∑  1xi n1nL µ12 ( 2 α2)∑ 2 2 i 51 x1 22 µ1 ∑ i 51 xi 1nµ1  / 2 α   i 51 2  ∑ i 5x11 220 ∑ xi 1100 n  / 2α∑ 2 1  i 51 e 1 n x 1100  / 2 α1 2i5∑ x12n2 20 ∑ i 51 i 51    n / 2 e e i n e 1 1 5 5 i i  n e L(µ 0 510) (e2 π) σ n/ 2 n 2 2 (2 π)2n 5σe(102µ1 )∑ 5i 51 xi /σ 1n( µ1 22 100 )n ,n k 2  2 5 n 2  gnn( k 2) 2 (  n/ σ2 , µ 22 100 x1 2 x1 nµ12 )/ 2nα 2 2lo 2  ∑ x1 22 µ1 ∑ xi 1nµ1  / 2 α 2 1 ∑ L(10 (µ12 ) µ1 )∑ i521x∑ nn2 1 / 2 α1i 5 µµ i 2x1 22nµ1x∑ 2∑ i 51xi 1 2  1 i i 51  i 51   1 x 1100 n  / 2 α 51 ∑ n  en 2n  e 1 2i20 i 51 i  e2  ne/i251  ∑ x 220 σ 2 1( µxi21 2 100  / 2 α 2 n i 51  ∑ n 1 1 1 xi /∑ i5 n n 2( 102µ1 i)5∑ 21 1 2100n)n 2 ( π ) σ 2 i 51 20 ∑ e (log(k ) 2(µ1 2100), x ,5σ n)k/ n(µ20 ∑ 2i 5µ1 x112)25 c i 51 xi 1100n  / 2 α 2 (log(k) 2n (µn2 1 2100 )n) ⇒ ∑ i51 xi .nσ(10 n 2 ne 2  (nk/22) 2 L ( µ 5 ) µ ) / σ 2 100 2 g ) n /)2 α σ (µse x10de 2 2x µ10 x, 1(nlo µ12π e 2  n el2 logaritmo 2 2∑   ∑ ∑ Al obtener natural está desigualdad tiene que 1 i 1 1 i 5 5 1 1 i i  2  ∑ x1 220 ∑ xi 1100 n  / 2α i51 5  n 2 5n i 51 e n n n  210 n2(((µ X 102 µ1 10 ) ∑) xi / σ 2 1( µ12 2100 )n2  ∑ x 2 22 µ ∑ x 1nµ 2  / 2 α 2 e  i 51 n ( X 2  ∑ x1 22 µ1 ∑ xi 1nµ12  / 2 α 2 n ) L )2 1 2 i 51 i 1 i 51. z2 1 2 i 51 1 i 51  i 51   k z 5 5 1 n k)2 e 5 , 2 2 n ) ⇒ x , σ (log( k ) 2 ( µ 2 100 ) n ) / n ( µ 2 µ ) 5c . σ µ 2 100 x (log( ( ) a n ∑ e e  cn 2  2 10 2 µ ) 1 0 1 1 i ( / σ lo 2 µ 2 100 2 x , g ( k ) ( ) n i 5 1 2 2  ∑ x1 22 µ1 ∑σ xi 1nµ1  / 2 α 1 1 ∑ i51 i ( 2 π ) n / 2 σ n i 51  i 51  e nn( X 2n 1022) n n ( X 2 2102 ) 2 ∑ x 220 100(nµ 5 2> 10) 5∑ . z)an) ⇒ xn , σ 2 (log(k ) 2(µ12 2100)n) / n(µ 0 2 µ1 ) kxi)12  / 2 α2 100 y como .n 0 xzc(µ 5 i 51100 (1010 µ1µ)∑ / σ1∑ µ12que: 2 22 ,i5elo1 gxσse (i . kisigue )1σ21 ((log( 1 2)n 1 ( 102µ ) x / σ 2 1( µ12 2100 )n i51 i e ) 1 ∑ i 51 i ,k  n (n X 2 10)n n ( X 2510 n 2 2 22 ∑ x12 22 µ1 ∑ xi 1nµ12  2/ 2 α 2 51 1x , σ i5 5 .(zµa 1 2100)n) / n(µ 0 2 µ1 ) 5 c  (log( k ) 2 )n) ⇒ ∑ i51 xi . σ (log(k )z2c 5(eµ12i100 σ 2 n 2 2 n ( X 2 10 ) n ( X 2 10 ) 2 (µ 2 100) n – ( 10 µ ) / σ log(kσ 2 x , )2 y dadoz que x ~ N(µ, ) y que el tamaño de la región 1 1 ∑ i 5 la parte derecha 5 es constante, .i5z1aque c σ que se rechaza n2 crítica es α se tiene la hipótesis nula 2 2 si: ∑ i51 xi . σ (log(k ) 2(µ1 2100)n) ⇒ x , σ 2 (log(k ) 2(µ12 2100)n) / n(µ 0 2 µ n

zc 5

n

n ( X 210) n ( X 210) 5 . za σ 2

por tanto, ésta es la prueba uniformemente más potente para la prueba con Ha: µ > 10. Hay pruebas que no admiten una región crítica uniformemente más potente. Por ejemplo, para la prueba: H0: µ 5 10 contra Ha: µ ≠ 10

278

| Estadística para ingeniería y ciencias No hay una mejor región crítica para la prueba, pues cuando 10 , µ1 la mejor región es x– . c y cuando 10 . µ1 la mejor región es x– , c; en ambos casos la mejor región es diferente y por tanto no existe la prueba uniformemente más potente.

Ejemplo 6.20. Se ha propuesto un nuevo diseño para el sistema de frenos de un automóvil. Se sabe que para el sistema actual la distancia de frenado a una velocidad de 60 kilómetros por hora bajo condiciones específicas tiene una media real igual a 40 metros. Se propone que el nuevo diseño se ponga en práctica sólo si los datos muestrales indican una fuerte reducción en el verdadero promedio de la distancia de frenado para el nuevo diseño. a) Definir el parámetro de interés e indicar las hipótesis pertinentes. b) Suponer que la distancia de frenado para el nuevo diseño está distribuida normalmente con una desviación estándar de 3 metros. Si x– es la distancia media de frenado para una muestra aleatoria de 36 observaciones, ¿cuál de las siguientes regiones de rechazo es apropiada? • C1 5 { x–|x– . 51.3} • C2 5 { x–|x– , 38.56} • C3 5 { x–|x– . 51.3} o {x–|x– , 38.56} c) ¿Cuál es el nivel de significancia para la región crítica pertinente del inciso b)? Cómo cambia la región crítica para obtener una prueba con α 5 0.02? d) ¿Cuál es la probabilidad de que el nuevo diseño no se ponga en práctica cuando su verdadera distancia media de frenado es de 38 metros y se usa la región crítica definida en el inciso b)? e) Si se desea un nivel de significancia del 0.05, ¿cuál es la mejor región crítica para probar la hipótesis H0: µ 5 40 contra la hipótesis alternativa H1: µ 5 38? Solución: a) El parámetro de interés es µ, la media de la distancia de frenado a una velocidad de 60 kilómetros por hora y las hipótesis respectivas son: H0: µ 5 40 contra Ha: µ < 40 b) En este caso µ1 , µ0, entonces la mejor región crítica es de la forma x– , c, por tanto la región crítica más apropiada es C2 5 { x–|x– , 38.56}; ya que queda a la izquierda de µ 5 40, que es el sentido de la hipótesis alternativa. c) El nivel de significancia de C2 se encuentra considerando que se rechaza H0 cuando x– , 38.56. Entonces, la probabilidad de cometer el error tipo I está dado por:  α 5 P( X , 38.569 | µ 5 40) 5 P  

n ( X 2 40) 6(38.56 2 40)  ,  5 P(Z ,22.88) 5 0.002 3 σ 

Si el tamaño de la región crítica fuera α 5 0.02, la región crítica estaría definida por c, que satisface la relación:

Capítulo 6 Prueba de hipótesis

| 279

 6(c 2 40)  )5  Z ,  5 P(Z ,2z0.02 ) 5 0.02 3 

De aquí se obtiene que: 6(c 2 40) 52z0.02 522.055 ⇒ c 5 40 2 2.055 3 3 / 6 5 38.9725 3

d) ¿Cuál es la probabilidad de que el nuevo diseño no se ponga en práctica cuando su verdadera distancia media de frenado es 38 metros y se usa la región crítica definida en el inciso b)? Se está pidiendo la probabilidad de que se cometa el error tipo II, esto es, que no se rechace que µ 5 40 cuando en realidad es 38. El nuevo diseño no se pone en práctica si la media muestral es mayor o igual a 38.56, por tanto esta probabilidad está dada por:  β P( X 38.56 | µ 38) P  

n ( X 38) 6(38.56 38)   P(Z 1.12 0.1314 3 σ 

e) Si se desea un nivel de significancia de 0.05, ¿cuál es la mejor región crítica para la hipótesis H0: µ 5 40 contra Ha: µ 5 38, entonces resulta que:  6(c 2 40)  P( X , c | µ 5 40) 5 P  Z ,  5 P(Z ,2 z0.05 ) 5 0.05 3 

Y a partir de esto se obtiene: f )

6(c 2 40) 52z0.05 521.645 ⇒ c 5 40 21.645 3 3 / 6 5 39.1775 3 n( x 2µ 0 ) tc 5 , 2t12α s

6.3 Tipos de prueba Cuando se plantean las hipótesis estadísticas sobre un parámetro θ, se pueden presentar dos posibles situaciones: a) Pruebas unilaterales o pruebas de una cola. H0: θ 5 θ0 contra Ha: θ . θ0 o H0: θ 5 θ0 contra Ha: θ , θ0 b) Pruebas bilaterales o pruebas de dos colas. H0: θ 5 θ0 contra Ha: θ ≠ θ0 Según se formule la hipótesis alternativa (unilateral inferior, unilateral superior o bilateral) queda definida la región crítica, que es el conjunto de valores que indican que la hipótesis alternativa es cierta. Ejemplo 6.21. La experiencia dice que el tiempo promedio de secado de la pintura de un fabricante es igual a 20 minutos. El fabricante modificó la composición química de su pintura y quiere probar que esta modificación disminuya significativamente el tiempo de secado. ¿Qué hipótesis alternativa debe usar el fabricante?

280

| Estadística para ingeniería y ciencias La hipótesis de prueba es la hipótesis alternativa, entonces las hipótesis son: H0: µ 5 20 contra Ha: µ , 20 Como se puede ver en los diferentes ejemplos revisados sobre región crítica, ésta depende del nivel de significancia, α; es posible que para algunos valores de α se rechace la hipótesis nula y para otros valores no se rechace.

Ejemplo 6.22. Ver ejemplo 6.14 para una muestra aleatoria de 17 muestras de secado de pintura con la modificación en la composición química, el promedio y la desviación estándar de los datos muestrales son iguales a x– 5 18.2 y s 5 3.6 para la prueba H0: µ 5 20 contra Ha: µ , 20. ¿Qué decisión se toma para los valores de α 5 0.05, 0.025, 0.01?

6(c 2 40) 52z0.05 521.645 ⇒ c 5 40 21.645 3 3 / 6 5 39.177 3 n( x 2µ 0 ) La región de rechazo para H0 es de la forma tc 5 , 2t12α , donde la vas

Solución:

riable t tiene 16 grados de libertad. La estadística de prueba evaluada en los valores muestrales es: tc 5

n( x 2µ 0 ) 17 (18.2 2 20) 5 522.0616 3.6 s

Entonces, para cada uno de los diferentes niveles de significancia se tienen regiones de rechazo. Tabla 6.5. Nivel de significancia

Región de rechazo de H0

Resultado tc respecto a tα

Decisión

α 5 0.05

22.0616 , n( x 2µ 0 ) 17 (18.2 2 20) tc 5 522.0616 5 , 21.7419 3.6 s 21.7419

Se rechaza H0

α 5 0.025

22.0616 . n( x 2µ ) 17 (18.2 2 20) tc 5 522.0616 0 5 , 22.1199 3.6 s 22.1199

No se rechaza H0

α 5 0.01

22.0616 . n( x 2µ ) 17 (18.2 2 20) tc 5 522.0616 0 5 , 22.5835 3.6 s 22.5835

No se rechaza H0

Como se observa, en este último ejemplo, la decisión de rechazar a H0 se hace con base en la estadística de prueba; se revisa si cae o no en la región de rechazo y la región de rechazo está en función del nivel de significancia. En la tabla anterior se observa que t0.95 5 1.7459, t0.975 5 2.1199 y t0.99 5 2.5835. Para el nivel de significancia α 5 0.05 se rechaza la hipótesis nula porque 2tc , 2tα para los niveles de significancia α 5 0.025 y α 5 0.01, no se rechaza la hipótesis nula porque 2tc . 2tα. La pregunta es: ¿Cuál es el valor menor del nivel de significancia con el cual todavía se rechaza la

Capítulo 6 Prueba de hipótesis

| 281

hipótesis nula? La respuesta es: el valor αc que satisface la relación P(t , 22.0616) 5 αc; este valor se encuentra usando Excel y resulta ser αc 5 0.02794. En conclusión: • Si α . 0.02794 se rechaza H0. • Si α , 0.02794 no se rechaza H0. Con la aparición de las computadoras y su uso masivo, se tiene la posibilidad de calcular el valor de la significancia mínimo para el cual todavía se rechaza H0; este valor se identifica simplemente como p o como probabilidad, y equivale a un valor de la significancia calculado a partir de la estadística de prueba. Su definición es:

Definición 6.8. Al valor p 5 αc que satisface las dos condiciones siguientes para una muestra aleatoria dada: • Si α , αc, entonces se rechaza H0. • Si α . αc, entonces no se rechaza H0. A este valor se le conoce como nivel de significancia calculado o valor p de la prueba. El valor de p 5 αc se puede utilizar para tomar la decisión de rechazar o no la hipótesis nula comparándola con el valor de α propuesto. El α calculada se obtiene usando Excel o de paquetes de cómputo como Minitab y en algunos casos particulares de las tablas de probabilidad. Mientras el valor de p sea más pequeño mayor es la seguridad de no equivocarse al rechazar la hipótesis nula. Entonces la decisión se puede tomar con base en el valor de p o en el valor de la estadística de prueba, la decisión es equivalente.

6.4 Prueba de hipótesis para los parámetros de la normal 6.4.1 Prueba para la media Cuando la distribución generadora de la muestra es una normal con media µ y varianza σ2, y la hipótesis nula – es H0: µ 5 µ0 el lema de Newman Pearson indica que la región crítica está determinada por X ∼ N(µ, σ2) y se sabe que tiene dos posibles estadísticas de prueba: (ver ejemplo 6.8). •

zc 5

n( x 2µ 0 ) cuando el valor de σ es conocido, zc es normal estándar. σ

•

tc 5

n( x 2µ 0 ) cuando el valor de σ es desconocido, tc es t de Student con n 2 1 grados de libertad. s

Por otro lado, son tres las posibles formas en que se puede formular una prueba de hipótesis. En la siguiente tabla se cita la región de rechazo para cada una de estas tres formas.

282

| Estadística para ingeniería y ciencias Tabla 6.6. Formulación de la prueba

Región de rechazo, σ conocida

Región de rechazo, σ desconocida

a) H0: µ 5 µ0 contra Ha: µ . µ0

zc . zα

tc . t12α

b) H0: µ 5 µ0 contra Ha: µ , µ0

zc , 2 zα

tc , 2 t12α

c) H0: µ 5 µ0 contra Ha: µ ≠ µ0

| zc | . zα/2

| tc | . t12α/2

Valor de P según σ sea conocida o no p 5 P (z . zc)0 p 5 P (t . tc) p 5 P (z , zc)0 p 5 P (t , tc) p 5 2P (z . zc)0 p 5 2P (t . tc)

Los pasos para realizar la prueba de hipótesis son: a) Seleccione la muestra aleatoria y calcule los estimadores. • •

1 n ∑ X n i51 i n 1 s2 5 X i2 2 n( X )2 , este estimador se calcula en el caso de que s sea desconocida. ∑ i =1 n 21 X5

(

)

b) Formule las hipótesis de prueba. c) Calcule la estadística de prueba zc o tc, según sea el caso. • •

n n (( x x2 2µ µ 00 )) z zcc 5 5 σ σ n ( x 2 n ( x 2µ µ 00 )) ttc 5 5 ss c

d) Tome la decisión más conveniente si la estadística de prueba cae en la región de rechazo o en la región de aceptación. Ejemplo 6.23. El gerente de ventas de una fábrica empacadora de especias quiere verificar si el peso neto de las bolsas de canela para venta al público es realmente el indicado en la etiqueta. El gerente de producción asegura al gerente de ventas que el peso promedio de cada bolsa es de 750 gramos con una desviación estándar de 5 g. El gerente de ventas selecciona, al azar, 100 bolsas y encuentra que el peso promedio es de 748 g. Bajo estas condiciones y usando un nivel de significancia de 0.05, ¿qué actitud debe tomar el inspector de calidad? Solución: El gerente de ventas debe establecer una prueba de hipótesis donde la hipótesis nula es H0: µ 5 µ0 5 750; hay dos posibles maneras de formular la hipótesis alternativa: a) Ha: µ 5 µ1 ≠ 750 b) Ha: µ 5 µ1 , 750 La primera tiene sentido, ya que el gerente de ventas quiere probar si el peso no es el indicado. La segunda manera de formular la hipótesis alternativa tiene sentido por el valor que se observó en la media muestral, pues 748 , 750. Esta segunda forma tiene la ventaja de tener una prueba uniformemente más potente.

Capítulo 6 Prueba de hipótesis

| 283

Entonces, las hipótesis de prueba son: H0: µ 5 µ0 5 750 contra Ha: µ 5 µ1 , 750 La estadística de prueba es zc 5

n( x 2µ 0 ) , porque se conoce el valor de σ y la región σ

de rechazo de tamaño 0.05 es igual a zc , 2z0.05 5 21.645. De acuerdo con los datos muestrales se encuentra que zc 5

n( x 2µ 0 ) 100 ( 748 2 750) 5 524 y como 24 < 5 σ

21.645 se rechaza la hipótesis nula, concluyendo que la media del peso real de las cajas es menor que 750, cantidad correspondiente al peso especificado.

Ejemplo 6.24. Las siguientes son las lecturas del aumento de la temperatura en un contenedor que transporta verduras para exportación: 6.9, 4.8, 6.2, 5.4, 7.0, 6.4, 6.9 y 5.6. El fabricante afirma que sus contenedores están bajo control, por lo que la temperatura media del agua no es mayor que 6 grados centígrados. Con un nivel de significancia de 5%, ¿es posible que los datos contradigan la información del fabricante? Solución: La afirmación del fabricante “la temperatura media del agua no es mayor que 6 grados centígrados, esta conjetura corresponde a la hipótesis nula. Las hipótesis son entonces: H0: µ ≤ 6 contra H1: µ . 6 Para aplicar las técnicas estudiadas en este capítulo, se requiere que la hipótesis nula sea una hipótesis simple entonces se escoge el valor de 6, pues si se rechaza la hipótesis nula para µ 5 6 también se rechazará con cualquier otro valor de µ , 6. Entonces, se debe plantear las hipótesis de prueba como: Con n 5 8, α 5 0.05.

H0: µ 5 6 contra H1: µ . 6

La media y la desviación estándar de los datos muestrales son x– 5 6.16 y s 5 0.81, el valor calculado de la estadística de prueba es: tc 5

n( x 2µ 0 ) 8 (6.16 2 6) 5 5 0.5587 0.81 s

El valor de las tablas de la distribución t con 7 grados de libertad es igual a t120.05 5 1.895. La región de rechazo es tc . 1.895. En este caso, la estadística de prueba cae en la región de aceptación, pues 1.895 . 0.5587, y se concluye que no hay suficiente evidencia para rechazar la hipótesis nula y por tanto se acepta. Ejemplo 6.25. El promedio de una muestra aleatoria de 36 concentraciones atmosféricas de óxidos – de nitrógeno (NOx), en mg/L, es igual a X 5 74.0 mg/L. Suponiendo normalidad y que σ2 5 81.0 mg/L, ¿dan estos datos suficiente evidencia para afirmar que la media de las concentraciones de NOx esté por arriba de 70 mg/L? Usar α 5 0.05.

284

| Estadística para ingeniería y ciencias Solución: Debido a que se busca evidencia de que la media de las concentraciones de NOx está por arriba de 70 mg/L, dicha conjetura corresponde a la hipótesis alternativa. Las hipótesis de prueba son: H0: µ 5 70 contra Ha: µ . 70. La estadística de prueba es: zc

n( x R 0 ) 36 ( 74. 70) 2.66 9 X

La región crítica es zc . zα 5 z0.05 5 1.645. En este caso se tiene que zc 5 2.66 . 1.645; esto significa que la estadística de prueba cae en la región de rechazo, por tanto hay suficiente evidencia para rechazar la hipótesis nula y decir que la alternativa es cierta. Ejemplo 6.26. Para evitar la contaminación ambiental producida por el consumo excesivo e innecesario de gasolina se realiza un estudio de la ingeniería ambiental atmosférica. En el departamento de ingeniería de una fábrica de autos se está diseñando un nuevo modelo de motor de combustión interna; se afirma que este nuevo motor tiene rendimiento del millaje por arriba de 35 millas por galón. Se tiene la convicción que el valor de la desviación estándar es σ 5 4 millas. La Environmental Protection Agency de Estados Unidos de América quiere probar si el nuevo motor cumple las especificaciones reportadas por el fabricante. Para ello se eligen 50 autos nuevos con este motor y se prueban bajo circunstancias iguales. Los resultados de la prueba dan un promedio muestral de 36.4 millas por galón. ¿Estos datos confirman lo afirmado por el fabricante? Usar el nivel de significancia de 0.025. Solución: El fabricante afirma que su motor tiene un rendimiento de cuando menos 35 millas por galón, entonces lo que se quiere probar es que µ . 35. Como hipótesis nula se establece la frontera de esta afirmación; entonces la prueba se formula así: H0: µ 5 35 contra Ha: µ . 35. Como se conoce el valor de σ se tiene que la estadística de prueba es: zc 5

n( x 2µ 0 ) 50 (36.4 2 35) 5 5 2.47 4 σ

La región crítica de la prueba está dada por zc . z0.025 5 1.96. En este caso se tiene que zc 5 2.47 . 1.96, esto significa que la estadística de prueba cae en la región de rechazo, por tanto hay suficiente evidencia para rechazar la hipótesis nula y decir que el nuevo motor sí tiene un rendimiento mayor que 35 millas por galón.

Capítulo 6 Prueba de hipótesis

| 285

Ejemplo 6.27. Se sabe que el estándar químico para el agua potable, en cuanto a sólidos disueltos totales (SDT), es de 500 mg/L y una muestra de 144 casos tomados en diferentes domicilios de una ciudad da un promedio aritmético estadístico de 503 mg/L, con una desviación estándar de 15 mg/L. La diferencia de la media muestral con respecto al estándar permitido, ¿es suficiente para decir que el agua de esa ciudad está por arriba en la concentración del químico? Usar α 5 0.05. Encontrar el valor de p. Solución: Dado que se quiere probar si la concentración del químico está por arriba del estándar químico, las hipótesis de prueba son: H0: µ 5 500 contra Ha: µ . 500. Como se desconoce el valor de σ y se tiene su estimación, la estadística de prueba es: tc 5

n( x 2µ 0 ) 144 (503 2 500) 5 5 2.4 15 s

La región crítica de la prueba está dada por la desigualdad zc . z0.05 5 1.645. En este caso se tiene que zc 5 2.4 . 1.645, es decir, que la estadística de prueba cae en la región de rechazo, por tanto hay suficiente evidencia para rechazar la hipótesis nula y decir que el agua potable de esa ciudad está por arriba del estándar del químico. El valor de la probabilidad p se calcula buscando el valor de 2.4 en la tabla de la distribución normal y da 0.9918, pero como queremos conocer sólo el valor de p le restamos 1 y nos da p 5 1 2 0.9918 5 0.0082. Debido a que este valor es pequeño, se dice que es muy significante. Ejemplo 6.28. Un fabricante de sistemas de aspersión contra incendios que se instalan dentro de casas y edificios, argumenta que sus sistemas tienen una media poblacional de temperatura de 54.4 oC. Para probar su aseveración se obtiene una muestra aleatoria de 16 unidades, que al probarse dan un promedio estadístico de 55.0 oC, con una desviación estándar de 1.0 oC. Si se sabe que la distribución de los tiempos de activación de los sistemas de aspersión contra los incendios, de este fabricante, es normal, ¿se refutaría el argumento del fabricante de que el verdadero promedio es el que se menciona antes? Suponer un nivel de significancia de 0.05. Solución: Dado que no se indica hacia qué lado se quiere obtener evidencia estadística, la prueba se puede formular como: H0: µ 5 54.4 contra Ha: µ ≠ 54.4 Como se desconoce el valor de σ y se tiene su estimación, la estadística de prueba es: tc 5

n( x 2µ 0 ) 16 (55 2 54.4) 5 5 2.4 1 s

La prueba es bilateral, entonces se debe buscar el valor de tablas en α/2 5 0.025 y la región crítica de la prueba está dada por la desigualdad | zc | . z0.025 5 1.96.

286

| Estadística para ingeniería y ciencias En este caso, se tiene que zc 5 2.4 . 1.96, esto significa que la estadística de prueba cae en la región de rechazo, por tanto hay suficiente evidencia para rechazar la hipótesis nula y decir que la afirmación del fabricante es falsa.

6.4.2 Prueba de diferencia de medias Cuando se conjetura sobre la diferencia de dos medias de una distribución normal, la región crítica está determinada por la variable aleatoria:  σ2 σ2  X 1 2 X 2 ~ N  µ1 2 µ 2 , 1 1 2  n1 n2  

La siguiente tabla muestra la forma de la región crítica con base en esta variable aleatoria y de acuerdo con la región crítica formulada. Tabla 6.7. Formulación de la prueba

Región de rechazo

a)

H 0: µ 1 2 µ2 5 δ0

contra

Ha: µ1 2 µ2 . δ0

b)

H0: µ1 2 µ2 5 δ0

contra

H a: µ 1 2 µ 2 , δ 0

c)

H 0: µ1 2 µ2 5 δ0

contra

Ha: µ1 2 µ2 ≠ δ0

– – X1 2 X2 . c – – X1 2 X2 , c – – – – X 1 2 X 2 , c1 o X 1 2 X 2 . c2

El valor de c depende del nivel de significancia seleccionado y para obtener este valor se requiere conocer una función de distribución asociada a la diferencia de los promedios muestrales independiente de cualquier otro parámetro desconocido, para ello se tienen tres casos. σ2 1

Caso 1. σ y σ 22 conocidas. 2 1

σ 2 se puede obtener una normal estándar al restar la media y dividirla entre su desviación estándar; así En este caso se tiene que: 2

X 1 2 X 2 2 (µ 1 2 µ 2 ) σ 12 / n1 1 σ 22 / n2

≈ N (0, 1)

Entonces, la probabilidad del error tipo I para la prueba es: H0: µ1 2 µ2 5 δ0 contra Ha: µ1 2 µ2 . δ0 es igual a:

P(error I ) 5 P( X 1 2 X 2 . c | µ1 2 µ 2 5 δ 0 )  X 1 2 X 2 2δ    X 1 2 X 2 2δ c 2δ0 0 0 | µ1 2 µ 2 5 δ 0  5 P  5P . . zα  2 2 2 2 2 2 σ 1 / n1 1 σ 2 / n2  σ 1 / n1 1 σ 2 / n2    σ 1 / n1 1 σ 2 / n2

La estadística de prueba es: zc 5

X 1 2 X 2 2δ0 σ 12 / n1 1 σ 22 / n2

Con esta nueva estadística de prueba se reescribe la región de rechazo como:

Capítulo 6 Prueba de hipótesis

| 287

Tabla 6.8. Formulación de la prueba

Se rechaza H0 si:

Valor de p

a)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 . δ0

zc . zα

p 5 P(z . zc)

b)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 , δ0

zc , 2 zα

p 5 P(z , zc)

c)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 ≠ δ0

| zc | . zα/2

p 5 2P(z . zc)

σ 12

σ 12

Caso 2. σ 12 y σ 22 desconocidas pero iguales: σ 12 5 σ 22 5 σ2. σ 2 se puede obtener una normal estándar σ2 En este caso al restar la media y dividirla entre su desviación estándar. 2

2

X 1 2 X 2 2 (µ 1 2 µ 2 ) σ 2 1 / n1 11 / n2

≈ N (0, 1)

Además, se tiene que la variable aleatoria: sp2 5

( n1 21)s12 1( n2 21)s22 n1 1 n2 2 2

Se distribuye como una ji-cuadrada con n1 1 n2 2 2 de libertad, y siguiendo la definición 4.29 al efectuar la división de la variable normal estándar entre la raíz cuadrada de la variable ji-cuadrada entre sus grados de libertad, se obtiene que: X 1 2 X 2 2 (µ 1 2 µ 2 ) , t con n1 1 n2 2 2 grados de libertad sp 1 / n1 11 / n2

De aquí se puede obtener la probabilidad del error tipo I para la prueba: H0: µ1 2 µ2 5 δ0 contra Ha: µ1 2 µ2 . δ0

como:

(

P(error I ) 5 P X 1 2 X 2 . c | µ1 2 µ 2 5 δ 0

)

  X 1 2 X 2 2δ   X 1 2 X 2 2δ c 2δ0 0 0 | µ1 2 µ 2 5 δ 0  5 P  5P . . t12α    sp 1 / n1 11 / n2   sp 1 / n1 11 / n2 sp 1 / n1 11 / n2

La estadística de prueba es: tc 5

X 1 2 X 2 2δ0 sp 1 / n1 11 / n2

y se rechaza la hipótesis nula cuando esta estadística de prueba cae en la región de rechazo: Tabla 6.9. Formulación de la prueba

Se rechaza H0 si:

Valor de p

a)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 . δ0

tc . t 12α

p 5 P(t . tc)

b)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 , δ0

tc , 2 t 12α

p 5 P(t , tc)

c)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 ≠ δ0

| tc | . t 12α/2

p 5 2P(t . tc)

288

| Estadística para ingeniería y ciencias σ 12

σ 12

Caso 3. σ 12 y σ 22 desconocidas y desiguales σ 12 ≠ σ 22 . 2 Si se tieneσcomo hipótesis nula H0: µ1 2 µ2 5σ 2δ0, la estadística de prueba está dada por: 2

2

tc 5

X 1 2 X 2 2δ0 2 1

2 2

s / n1 1 s / n2

, t con

( s12 / n1 1 s22 / n2 )2 ( n1 21)s14 / n12 1( n2 21)s24 / n22

grados de libertad

De esto resulta que la región de rechazo es igual a: Tabla 6.10. Formulación de la prueba

Se rechaza H0 si:

Valor de p

a)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 . δ0

tc . t 12α

p 5 P(t . tc)

b)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 , δ0

tc , 2 t 12α

p 5 P(t , tc)

c)

H0: µ1 2 µ2 5 δ0 contra

Ha: µ1 2 µ2 ≠ δ0

| tc | . t 12α/2

p 5 2P(t . tc)

Prueba de diferencia de medias para observaciones pareadas Hay situaciones en que se tienen dos conjuntos de datos dependientes porque son tomados a la misma unidad muestral o a unidades muestrales semejantes por pares. El resultado de estas mediciones se da en parejas (X11, X21), (X12, X22), . . . (X1n, X2n), donde (X1i, X2i) son las mediciones tomadas sobre el i-ésimo elemento de la muestra. La forma de eliminar las diferencias entre unidades muestrales distintas es considerando la diferencia D 5 X1 2 X2. Suponiendo que D ~ N(µd, σd2) se tiene que la estadistica de prueba es: tc 5

n(D2µd 0 ) ≈ t y se distribuye como una t con n 2 1 grados de libertad. sd

Lo anterior corresponde a la prueba de una media con varianza desconocida. El procedimiento para realizar la prueba es: a) Se recoge la muestra aleatoria de los datos como un conjunto de n parejas: (X11, X21), (X12, X22), . . . , (X1n, X2n). b) Con los datos de la muestra se calculan las diferencias Di 5 X1i 2 X2i para i 5 1, 2, . . . , n. – c) Se calculan la media y la varianza muestral de los datos Di, D y sd2, respectivamente. d) Como la varianza muestral es desconocida, el estadístico de prueba se calcula como: tc 5

n(D2µd 0 ) sd

e) La decisión se toma de acuerdo con la siguiente tabla: Tabla 6.11. Formulación de la prueba

Región de rechazo, σ desconocida

Valor de p

a) H0: µd 5 µd 0 contra Ha: µ d . µd 0

tc . t 12α

p 5 P(t . tc)

b) H0: µd 5 µd 0 contra Ha: µd , µd 0

tc , 2 t 12α

p 5 P(t , tc)

c) H0: µd 5 µd 0 contra Ha: µd ≠ µd 0

| tc | . t 12α/2

p 5 2P(t . tc)

Capítulo 6 Prueba de hipótesis

| 289

Ejemplo 6.29. S e realiza un estudio para medir la efectividad de dos tipos de antigripales y el aumento del sueño. Para este efecto, a seis personas se les suministra el primer antigripal en una noche y el segundo antigripal en una segunda noche. Se registran los respectivos tiempos de sueño y se reportan en la siguiente tabla: Tabla 6.12. Paciente 1

2

3

4

5

6

Antigripal A

4.8

4.1

5.8

4.9

5.3

7.4

Antigripal B

3.9

4.2

5.0

4.9

5.4

7.1

Con un nivel de significancia de 5%, ¿hay diferencias significativas entre los periodos de sueño provocados por ambos remedios? Solución: Como los antigripales se aplicaron a las mismas personas durante dos noches diferentes, se trata de un experimento con observaciones apareadas y como no hay información sobre cuál de los dos antigripales produce mayor tiempo de sueño las hipótesis a probar se formulan de la siguiente manera: H0: µd 5 0 contra Ha: µd ≠ 0 Con los datos pareados se calculan las diferencias. Tabla 6.13. Paciente Antigripal A

1

2

3

4

5

6

4.8

4.1

5.8

4.9

5.3

7.4

Antigripal B

3.9

4.2

5.0

4.9

5.4

7.1

Diferencia

0.9

20.1

0.8

0.0

20.1

0.3

– La media y la desviación estándar muestrales de las diferencias son d 5 0.30 y s 5 0.452, respectivamente. La estadística de prueba evaluada en los valores muestrales es: tc 5

n(D2µd 0 ) 6 (0.30 2 0) 5 51.63 0.452 sd

La región de rechazo es | tc | . t12α/2. El valor de tablas de la distribución t con un nivel de significancia de 0.05 y 5 grados de libertad es t0.95 5 2.05. En este caso, se tiene que 1.63 5 | tc | , t0.95 5 2.05, por lo que, se concluye que no hay suficiente evidencia estadística para rechazar la hipótesis nula. No se rechaza H0. Ejemplo 6.30. N ueve pares de gemelos participan en un experimento en el cual a uno de cada par de gemelos se les entrena para anotar en el lanzamiento hacia la canasta de básquetbol;

290

| Estadística para ingeniería y ciencias después de una semana se les pide a todos los gemelos, entrenados o no, a que realicen 30 lanzamientos. Los datos se reportan en la siguiente tabla. ¿La información de la tabla reporta que el programa de adiestramiento es efectivo? Use un nivel de significancia de α 5 0.05. Tabla 6.14. Números de canastas anotadas 1

2

3

4

5

6

7

8

9

Con adiestramiento

18

27

17

28

25

23

13

22

28

Sin adiestramiento

23

20

12

29

22

20

10

21

25

Solución: Dado que los gemelos tienen características genéticas semejantes, los datos obtenidos son pareados; entonces, se debe considerar la diferencia de las anotaciones entre el gemelo que recibió el adiestramiento menos las anotaciones del que no lo recibió. La hipótesis alternativa es que con el adiestramiento se anotan en promedio más canastas. Las hipótesis de prueba: H0: µd 5 0 contra Ha: µd . 0 Las diferencias se reportan en la siguiente tabla: Tabla 6.15. Números de canastas anotadas 1

2

3

4

5

6

7

8

9

18

27

17

28

25

23

13

22

28

Sin adiestramiento

23

20

12

29

22

20

10

21

25

Diferencia

25

7

5

21

3

3

3

1

3

Con adiestramiento

La media y la desviación estándar muestrales de las diferencias son d– 5 2.1 y s 5 3.48, respectivamente. La estadística de prueba evaluada en los valores muestrales es: tc 5

n(D2µd 0 ) 9 (2.1 2 0) 5 51.82 3.48 sd

La región de rechazo es | tc | . t12α/2. El valor de tablas de la distribución t con un nivel de significancia de 0.05 y 8 grados de libertad es t0.95 5 1.8595. En este caso, se tiene que 1.82 5 | tc | , t0.95 5 1.8595, por tanto no se rechaza la hipótesis nula y se concluye que el programa de entrenamiento no es efectivo, o que una semana no es suficiente para que sea efectivo.

Prueba para la media de variables no normales Con base en el teorema central del límite, si el tamaño de la muestra es suficientemente grande se pueden utilizar las mismas pruebas que para el caso normal.

Capítulo 6 Prueba de hipótesis

| 291

6.4.3 Prueba para la varianza En algunas ocasiones se necesita plantear una prueba de hipótesis sobre la varianza de una distribución normal; dichas hipótesis se pueden presentar en tres formas: a) H 0: σ 2 5 σ 20 contra H a: σ 2 . σ 20 b) H 0: σ 2 5 σ 20 contra H a: σ 2 , σ 20 c) H 0: σ 2 5 σ 20 contra H a: σ 2 ≠ σ 20 El estimador de la varianza poblacional σ² es la varianza muestral s², y la variable aleatoria asociada con este estadístico es la distribución ji-cuadrada, esto es: ( n 21)s 2 / σ 2 5 ∑ i51 ( X i 2 X )2 / σ 2 ~ χ2 con n 2 1 grados de libertad. n

De aquí se obtiene que la estadística de prueba es: χc2 5 ∑ i51 ( X i 2 X )2 / σ 20 n

(6.2)

Los criterios de decisión se presentan en la siguiente tabla: Tabla 6.16. Formulación de la prueba

Se rechaza H0 si:

Valor de p

H 0: σ 5 σ 0 contra a)

H a: σ 2 . σ 20

χc2 . χ122α

p 5 P(χ2 . χ2c )

H 0: σ 5 σ 0 contra b)

H a: σ 2 , σ 20

χc2 , χα2

p 5 P(χ2 , χ2c )

H 0: σ 5 σ 0 contra c)

H a: σ 2 ≠ σ 20

χc2 , χα2 / 2 o χc2 . χ122 α / 2

p 5 ZP(χ2 . χ2c )

2

2

2

2

2

2

Ejemplo 6.31. Suponga que el diámetro de los balines de una herramienta hidráulica es una magnitud que se distribuye normalmente con una desviación estándar de 0.6 milésimas de pulgada. El proceso de producción se sale de control si la desviación estándar es mayor a 0.6. Para controlar el proceso se toman muestras periódicas de 20 piezas, y se considera que el proceso está fuera de control cuando la evidencia estadística hace que se rechace la H0 que afirma que la desviación estándar del proceso es a lo más de 0.6 con un nivel de significancia de 0.01. ¿Qué se puede concluir si para una muestra dada la desviación estándar es de 0.84 milésimas de pulgada? Solución: El proceso se considera fuera de control si la desviación estándar y consecuentemente la varianza exceden de cierto límite. Por tanto, las hipótesis pueden plantearse como: H 0: σ 2 5 0.36 contra H 0: σ 2 . 0.36

La región de rechazo para esta prueba es χc2 . χ 20.99 5 36.19077 . Los datos para la prueba son n 5 20, α 5 0.01, y el estadístico de prueba está dado por: ( n 21)s 2 / σ 20 5(20 21)0.84 2 / 0.36 5 37.24

292

| Estadística para ingeniería y ciencias El valor 37.24 es mayor que 36.19077, lo que significa que el estadístico de prueba cae en la región de rechazo y se concluye con la evidencia de la muestra que la varianza es mayor que 0.36, de manera que el proceso se encuentra fuera de control.

Ejemplo 6.32. Un fabricante de medidores de CO2 afirma que la desviación estándar poblacional de sus aparatos es menor que 3 partes por trillón (ppt). Se toma una muestra aleatoria de 10 aparatos y se calcula la desviación estándar muestral que resulta ser 1.6. ¿Existe suficiente evidencia (en términos del valor de p), para apoyar la afirmación del fabricante? Solución: a) El fabricante desea probar que sus medidores tienen una desviación estándar manor que 3, y ésta es la hipótesis alternativa, entonces las hipótesis de prueba son: H1: σ2 , 9, la prueba de hipótesis nula debe ser H0: σ2 $ 9 con esta prueba se utiliza la distribución χ2. b) La región de rechazo es χ2calc. , χ212α;n21, o sea, χ2calc., χ2.95;9, o sea, χ2 , 3.33. c) La estadística a usar es χ2 5 (n – 1)s2/σ2. d) Los cálculos son χ2calc. 5 9(1.6)2/9 5 2.56. e) En conclusión, se rechaza la hipótesis nula y se dice que sí hay suficiente evidencia para apoyar la afirmación del fabricante. f) El valor de p se hace buscando 2.56 en la tabla de la distribución de ji-cuadrada con ν 5 9 y vemos que es (0.025 , p , 0.01). Usando la función de interpolación de ji-cuadrada y sustituyendo los valores da (0.025 – 0.01)/(2.7 – 2.09) 5 (0.025 – X)/(2.7 – 2.56) y la probabilidad es p 5 0.022. La figura siguiente muestra esta situación. Este cálculo también se puede realizar con las herramientas estadísticas de Excel. f (D2)

Valor de p .022 Región de rechazo

Región crítica

D2

D2 2.56

Figura 6.5.

6.4.4 Prueba de hipótesis sobre la igualdad de dos varianzas

σ 12

Se tienen dos poblaciones normales e independientes con varianzas desconocidas σ 12 y σ 22 , respectivamente, y se desea verificar la hipótesis de que las varianzas son iguales contra una hipótesis σ 22 alternativa de que son diferentes. Las posibles hipótesis pueden ser:

Capítulo 6 Prueba de hipótesis

| 293

a) H 0: σ 12 5 σ 22 contra H a: σ 12 , σ 22 b) H 0: σ 12 5 σ 22 contra H a: σ 12 . σ 22 c) H 0: σ 12 5 σ 22 contra H a: σ 12 ≠ σ 22 Se sabe que:

( n 21)s12 / σ 12 , χ 2 con n1 2 1 grado de libertad y

( n 21)s22 / σ 22 , χ 2 con n2 2 1 grado de libertad

entonces, de la definición de la distribución F se obtiene que: s12 / σ 12

,F con n1 2 1 y n2 2 1 grado de libertad s22 / σ 22 σ 2 1

Debido a la hipótesis nula: σ 12 5 σ 22 5 σ2, esta estadística se convierte en: σ 22

Fc 5

s12 / σ 2

s12

s22 / σ

s22

5 2

,F

(6.3)

Como la tabla de la distribución F únicamente reporta valores para α en el extremo derecho de la figura (para F grande), la estadística de prueba debe ser el cociente que bajo la hipótesis alternativa se espera tenga un valor “grande”. Esto es, si H a: σ 12 , σ 22 , la región de rechazo es F21 c 5 s22 / s12 . F21α y si H a: σ 12 . σ 22 , la región de rechazo es F12c 5 s12 / s22 . F12 α ; con los grados de libertad correspondientes al numerador y denominador del cociente. Tabla 6.17. Formulación de la prueba

Se rechaza H0 si:

Valor de p

a) H 0: σ 12 5 σ 22 contra

H a: σ 12 , σ 22

F21c . F21α

p 5 P(F . F21c)

b) H 0: σ 12 5 σ 22 contra

H a: σ 12 . σ 22

F12 c . F12 α

p 5 P(F . F12c)

c) H 0: σ 12 5 σ 22 contra

H a: σ 12 ≠ σ 22

p 5 P(F . F21c) 1 P(F . F12c)

6.5 Prueba de hipótesis sobre el parámetro de Bernoulli

6.5.1 Prueba de hipótesis sobre una proporción Muestras pequeñas Para una población cuyos elementos son de dos tipos, unas unidades tienen una característica y otros elementos carecen de ella, las conjeturas acerca de la proporción de los elementos que tienen la característica son hipótesis sobre el parámetro p de una distribución Bernoulli. Las hipótesis de prueba se pueden formular de tres maneras: a) H0: p 5 p0

contra

Ha: p . p0

b) H0: p 5 p0

contra

Ha: p , p0

c) H0: p 5 p0

contra

Ha: p ≠ p0

294

| Estadística para ingeniería y ciencias

El estimador de máxima verosimilitud del parámetro p es: número de éxitos en la muestra ¨ i1 X i tamaño de la muestra n n

pˆ

(6.4)

Entonces, Xc 5 n pˆ se distribuye como una binomial con parámetros n y p, así que la región de rechazo se determina con esta distribución de probabilidades. Debido a que esta variable aleatoria es discreta se debe escoger la región de rechazo de tamaño lo más cercano al valor de α seleccionado. La región de rechazo de acuerdo con la forma de la hipótesis alternativa se describe en la siguiente tabla: Tabla 6.18. Se rechaza H0 si:

Valor de p

a) H0: p 5 p0 contra Ha: p . p0

Xc . X12α

p 5 P(X . Xc)

b) H0: p 5 p0 contra Ha: p , p0

Xc , Xα

p 5 P(X . Xc)

Formulación de la prueba

c) H0: p 5 p0 contra Ha: p ≠ p0

Xc . X12α/2 o

Xc , Xα/2

p 5 ZP(X . Xc)

Ejemplo 6.33. Un agricultor asegura que al menos 90% de sus semillas germinarán, sin embargo, al sembrar 20 de estas semillas resulta que sólo 15 de ellas germinan. ¿Estos datos dan evidencia suficiente para rechazar la afirmación del fabricante? Solución: Las semillas germinadas dan pauta para considerar que el porcentaje de semillas útiles en el lote es menor al que afirma el agricultor. Si p es la probabilidad de que cada semilla germine al sembrarlas, la prueba se puede formular como H0: p 5 0.90 contra Ha: p , 0.90. Bajo el supuesto de que la afirmación del agricultor es cierta, la variable X igual al número de semillas que germinan de las 20 sembradas; es binomial con parámetros n 5 20 y p 5 0.90, X ~ B(20, 0.90). Los siguientes datos de la tabla son de la distribución binomial. Tabla 6.19. Distribución binomial

con n 5 20 y p 5 0.90

x

11

12

13

14

15

16

17

P(X ≤ x)

0.00006

0.0004

0.0024

0.0113

0.0432

0.1330

0.3231

En la tabla anterior se busca el valor de P(X # x) que está más cercano a α 5 0.05 y que es P(X # 15) 5 0.0432, por tanto la región de rechazo es X # 15. Y como fueron 15 semillas que germinaron, entonces se tiene suficiente evidencia para rechazar la afirmación del agricultor.

Muestras grandes El teorema del límite central afirma que la variable binomial se aproxima a una normal cuando n es grande. Así que cuando la muestra de variables Bernoulli es grande (n . 30) se puede suponer que pˆ ~ N(p, p(12p)/n) y por tanto, la estadística de prueba es:

Capítulo 6 Prueba de hipótesis

zc 5

| 295

n ( pˆ 2 p0 ) p0 (1 2 p0 )

(6.5)

y la región de rechazo se encuentra en la tabla siguiente:

Tabla 6.20. Se rechaza H0 si:

Valor de p

a) H0: p 5 p0 contra Ha: p . p0

zc . zα

p 5 P(Z . zc)

b) H0: p 5 p0 contra Ha: p , p0

zc , 2zα

p 5 P(Z . zc)

c) H0: p 5 p0 contra Ha: p ≠ p0

zc . zα/2 o zc , 2zα/2

p 5 ZP(Z . zc)

Formulación de la prueba

6.5.2 Pruebas de hipótesis para la diferencia de dos proporciones p1 2 p2 Suponga que se tienen dos poblaciones provenientes de ensayos de Bernoulli, con probabilidad de éxito p1 y p2, respectivamente. Se desea verificar si las dos proporciones son iguales y la manera de hacerlo es mediante una prueba de hipótesis sobre la diferencia de las dos proporciones. Las tres posibles maneras de formular la prueba son: a) H0: p1 2 p2 5 0 contra Ha: p1 2 p2 . 0 b) H0: p1 2 p2 5 0 contra Ha: p1 2 p2 , 0 c) H0: p1 2 p2 5 0 contra Ha: p1 2 p2 ≠ 0 Para probar las hipótesis anteriores, se toman dos muestras de tamaño n1 y n2, respectivamente. Sea X1 el número de éxitos observados en la primera muestra de tamaño n1, y sea X2 el número de éxitos observados en la segunda muestra de tamaño n2. Tanto X1 como X2 son variables aleatorias binomiales independientes con parámetros (n1, p1) y (n2, p2). Las probabilidades de éxito estimadas son pˆ 1 5 X1 /n1 y pˆ 2 5 X2 /n2, de manera respectiva. Estos estimadores son normales de modo aproximado si los tamaños de la muestra son suficientemente grandes, si esto ocurre entonces la siguiente estadística tiene una distribución que es aproximadamente normal estándar. Z5

pˆ 1 2 pˆ 2 2( p1 2 p2 ) ≈ N (0, 1) p1 (1 2 p1 ) p2 (1 2 p2 ) 1 n1 n2

(6.6)

Al suponer que la hipótesis es nula, se tiene que p1 5 p2 5 p, y como este parámetro es desconocido, se tiene que estimar con base en la información muestral y el mejor estimador es el promedio combinado, dado por: pˆ 5

X1 1 X 2 n1 1 n2

(6.7)

Por tanto, la estadística de prueba bajo la hipótesis nula está dada por: Zc 5

pˆ 1 2 pˆ 2 ≈ N (0, 1) pˆ (1 2 pˆ )(1 / n1 11 / n2 )

La región de rechazo se reportan en la tabla siguiente:

(6.8)

296

| Estadística para ingeniería y ciencias Tabla 6.21. Se rechaza H0 si:

Valor de p

a) H0: p1 2 p2 5 0 contra Ha: p1 2 p2 . 0

zc . zα

p 5 P(Z . zc)

b) H0: p1 2 p2 5 0 contra Ha: p1 2 p2 , 0

zc , 2zα

p 5 P(Z . zc)

c) H0: p1 2 p2 5 0 contra Ha: p1 2 p2 ≠ 0

zc . zα/2 o zc , 2zα/2

p 5 2P(Z . zc)

Formulación de la prueba

Ejemplo 6.34. En 1987 un artículo del New York Times reportó que se puede reducir el riesgo de sufrir ataques al corazón ingiriendo una aspirina diaria. Para llegar a esta conclusión el articulista se basó en los resultados de un experimento diseñado con dos grupos de individuos. El primer grupo tenía 11 034 personas y a éstas se le suministró una dosis diaria de una pastilla que no contenía ninguna droga (un placebo), de éstos 189 sufrieron posteriormente ataques cardiacos. Por su parte, al otro grupo de 11 037 personas se les suministró una aspirina diaria y sólo 104 sufrieron un ataque cardiaco. ¿Usando una prueba de hipótesis y un nivel de significancia de 1%, considera que el articulista del New York Times estaba en lo correcto? Solución: Sea p1 la proporción real de personas que sin tomar aspirina sufren un infarto cardiaco, y p2 la proporción real de personas que al tomar aspirina sufren posteriormente un infarto; las hipótesis de prueba se plantean de la siguiente manera: H0: p1 2 p2 5 0 contra Ha: p1 2 p2 . 0 Para obtener la región de rechazo se calculan los estimadores y la estadística de prueba: • • • pˆ 5

X1 1 X 2 189 1104 5 0.0133 5 11 034 111 037 n1 1 n2

• Zc 5

pˆ 1 2 pˆ 2 0.0171 2 0.0094 5 5.00 5 pˆ (1 2 pˆ )(1 / n1 11 / n2 ) 0.0133(1 2 0.0133)(1 / 11 034 11 / 11 037)

Como Zc 5 5.00 . Z0.99 5 2.33, se rechaza la hipótesis nula y se concluye que hay evidencia estadística suficiente para afirmar que tomar una aspirina diaria reduce las posibilidades de sufrir infarto en el futuro.

6.6 Pruebas de bondad de ajuste Ya se revisaron las pruebas referentes a conjeturas que involucran a los parámetros de una distribución, ahora se estudiarán las pruebas referentes a conjeturas sobre la distribución misma. Esto es, se harán conjeturas sobre cuál es la función de distribución generadora de los datos muestrales; estas pruebas se denominan “pruebas de bondad de ajuste”.

Capítulo 6 Prueba de hipótesis

| 297

Se analizarán dos pruebas básicas: • La prueba ji-cuadrada. • La prueba de Kolmogorov-Smirnov. Estas pruebas miden el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis: H0: f (x, θ) 5 f0(x, θ) contra H1: f (x, θ) ≠ f0(x, θ) donde f0(x, θ) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre enuncia que los datos muestrales son generados por una distribución distinta a f0(x, θ). Al especificar la hipótesis nula, el conjunto de parámetros definidos por θ puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos es necesario estimarlos mediante el método de máxima verosimilitud. Para formular la hipótesis nula se debe: a) Observar la naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de falla de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gamma o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si analizamos los caudales de un río en un determinado sitio podemos pensar en una distribución logarítmica normal, pero no en una distribución normal. b) Elaborar y analizar un histograma de los datos. La forma que tome el histograma de frecuencia es quizá la mejor indicación del tipo de distribución a considerar.

6.6.1 Prueba ji-cuadrada (χ2) La prueba ji-cuadrada se basa en la comparación entre la frecuencia observada y la frecuencia esperada en un intervalo de clase. Es decir, se quiere determinar si las frecuencias observadas en la muestra están lo suficientemente cerca de las frecuencias esperadas bajo la hipótesis nula. Para realizar esta prueba se agrupan los datos en intervalos de clase [ci21, ci), preferiblemente del mismo tamaño, y se calcula la probabilidad de que la variable esté en ese intervalo de clase pi 5 P(ci21 # X , ci) suponiendo que X ~ f0(x, θ); esta clasificación se muestra en la siguiente tabla. Tabla 6.22. Intervalo de clase

[c0, c1)

[c1, c2)

[c2, c3)

Probabilidad de que X esté en [ci−1, ci)

p1

p2

p3

pk

Valor esperado

E1 5 np1

E2 5 np2

E3 5 np3

Ek 5 npk

...

[ck−1, ck)

El estadístico de prueba está definido como: χc2 5 ∑ i51 k

Donde:

(Oi 2 Ei )2 Ei

• Oi 5 Total de datos que caen en la clase i. • Ei 5 Número esperado de datos en la clase i. • k 5 Número de clases en que se agruparon los datos.

(6.9)

298

| Estadística para ingeniería y ciencias

La estadística de prueba se distribuye aproximadamente como una ji-cuadrada con k 2 1 grados de libertad. La razón por la cual se tiene esta distribución aproximada es porque al obtener una observación ésta puede caer o no en un intervalo de clase, lo cual lleva a que el número de observaciones en un intervalo de clase se distribuya como binomial; por esta razón si el número de datos es suficientemente grande, el número de datos en cada intervalo de clase se distribuye aproximadamente normal con media npi y varianza npi(12pi), y entonces, se puede demostrar que la estadística de prueba definida antes se distribuye aproximadamente como una ji-cuadrada con k 2 1 grados de libertad. Si los valores observados son cercanos a los valores esperados, no se puede rechazar la hipótesis nula; en caso contrario, se rechaza la hipótesis nula (H0) de acuerdo con la formulación de las hipótesis y se muestra en la siguiente tabla. Tabla 6.23. Formulación de la hipótesis

Se rechaza H0 cuando:

Valor de p

H0: f (x, θ) 5 f0(x, θ) contra H1: f (x, θ) ≠ f0(x, θ)

χ .χ

p 5 P(χ2 . χ2c )

2 c

2 α

Es importante tener en cuenta las siguientes recomendaciones al aplicar esta prueba de hipótesis: a) El número de intervalos de clase k debe estar entre 5 y 20 para que sea adecuada y fácil la identificación de la posible función de distribución. b) El número esperado de observaciones en cada intervalo debe ser mayor o igual a cinco; en caso contrario, deben agruparse varios intervalos para lograr esto, ya que la distribución ji-cuadrada es una aproximación para números grandes. c) El primer intervalo de clase viene desde 2` y el último intervalo de clase va hasta `. Con estos intervalos de clase se calculan las probabilidades. Ejemplo 6.35. A un grupo de 80 empleados de una maquiladora se les aplicó una prueba para determinar sus habilidades en el manejo de una nueva maquinaria. Las calificaciones se dan en un rango de 0 a 100 y se reportan en la tabla siguiente: Tabla 6.24. 29

78

48

29

30

44

72

73

45

82

84

71

75

84

45

45

47

32

33

54

56

33

62

63

64

36

38

53

54

38

40

57

42

51

52

53

56

57

58

71

76

77

58

60

60

62

65

65

14

16

73

74

45

21

23

66

67

42

43

51

67

70

57

78

55

27

78

48

49

50

51

86

58

59

89

36

37

91

92

93

Los datos dan evidencia de que las calificaciones provienen de una distribución normal. Solución: La prueba a resolverse es: H0: X ~ N( µ, σ2) contra H1: X ~ f (x, θ) ≠ N( µ, σ2) La hipótesis nula no está completamente identificada, pues se desconocen los valores de los parámetros de la normal; entonces, se estiman los parámetros siguientes: x– 55.8 y s 5 18.6.

Capítulo 6 Prueba de hipótesis

| 299

Se proponen hacer los intervalos de clase, de forma simétrica a la media muestral y con una longitud igual a 10. Antes de 55.8 se forman 6 intervalos de clase y después de 55.8 se forman otros seis. Todos los intervalos de clase son de longitud igual a 10, excepto el primero y el último que se van a menos infinito y más infinito, respectivamente. La probabilidad de que una observación se encuentre en cada intervalo de clase, se calcula con Excel y con el asistente de función f x. Siga las instrucciones para obtener el valor de pi. En la pantalla de Excel haga clic en el asistente de función: fx → Estadísticas → DISTR.NORM Llene los datos de la siguiente manera: en la ventanilla de X ponga la ubicación de la celda donde está el dato 5.8 (por ejemplo, A2), en la ventanilla de Media escriba 55.8. En la ventanilla de Desviación estándar escriba 18.6 y en la ventanilla de Acumulado escriba 1; haga clic en Aceptar y ya tiene el primer cálculo; el valor que aparece es 0.003592266. Ahora, vuelva a colocarse en la misma celda y lleve el cursor a la esquina inferior derecha hasta que aparezca una crucecita delgada; arrastre el cursor con el botón izquierdo oprimido hasta llegar a emparejarse con la celda que tiene el dato 115.8. Con esto obtiene los resultados de la distribución normal acumulados. Ahora, copie el valor 0.003592266 en la celda frente a este número. Esto es, hay dos celdas con el mismo valor. Ahora, baje a la siguiente celda y escriba el símbolo “5”, luego indique la ubicación de la celda a la izquierda, después indique el signo – y luego la ubicación de la celda de la izquierda y arriba (por ejemplo, A3-A2). Luego, vaya a la esquina inferior izquierda de la celda y arrastre el cursor hasta emparejarse con el último cálculo de la columna anterior. En esta columna se encuentran los valores de pi. Con estos valores multiplicados por 80 se obtienen los valores esperados bajo el supuesto de que la hipótesis nula es cierta. Con Excel se puede obtener la tabla de frecuencia de los 80 datos. Los resultados así obtenidos se hallan en la siguiente tabla; antes de pasarlos a esta tabla para disminuir los números decimales se utilizó el icono, el cual tiene esta forma

0 0 . → 0

Tabla 6.25. Valores esperados y i observados elaborados con Excel. 2 Ei )2 k (O 2 Clase

(xi21, xi)

, 5.8 5.9 – 15.8 15.9 – 25.8 25.9 – 35.8 35.9 – 45.8 45.9 – 55.8 55.9 – 65.8 65.9 – 75.8 75.9 – 85.8 85.9 – 95.8 95.9 – 105.8 105.9 ,

χc 5 ∑ i51

pi = F (xi) 2 F E (xii21) 0.0036 0.0122 0.0376 0.0877 0.1543 0.2046 0.2046 0.1543 0.0877 0.0376 0.0122 0.0036

5 3.73643705

Ei = n pi

Oi = frecuencia

0.2874 0.9731 3.0101 7.0196 12.3430 16.3668 16.3668 12.3430 7.0196 3.0101 0.9731 0.2874

0 1 3 7 14 14 17 11 8 5 0 0

300

| Estadística para ingeniería y ciencias Con los datos obtenidos para los valores esperados y los valores observados, se puede elaborar un histograma. Con Excel se hicieron los siguientes histogramas: El histograma de los valores observados tiene cierta asimetría y no se tiene la forma de campana perfecta; sin embargo, en el centro se tiene la mayor concentración de los datos. El hecho de que los valores observados no tenga un histograma totalmente apegado a los valores esperados se debe a que es un proceso aleatorio y se tienen variaciones aleatorias, la prueba de hipótesis indicará si estas variaciones son extremadamente inusuales. Los histogramas de los valores observados y esperados son los siguientes. Valores esperados Valores esperados

Valores observados Valores observados 18 16 14 12 10 8 6 4 2 0

18.0000 16.0000 14.0000 12.0000 10.0000 8.0000 6.0000 4.0000 2.0000 0.0000

18 16 14 12 10 8 6 4 2 0

15 < 5 .9 .8 -2 5. 35 8 .9 -4 1555 < 5 5.8 .9.9 .8 - 2- 6 55 7 35 5. .8.8 .9 9 9 4 85 555.9 5.8.8 .9 - 1 - 6 05 5. .8 75 8 .9 -8 95 5. 8 .9 -1 05 .8 0.150

95 90 80 70 60 50 40 30 20 10 5 1

20.0

22.5

25.0 27.5 var. X

30.0

32.5

Figura 6.15.

Prueba de normalidad de Kolmogorov-Smirnov Nótese que los valores de la gráfica de prueba de normalidad de Anderson-Darling y la de Kolmogorov-Smirnov (K-S) difieren notablemente. La prueba de normalidad de Anderson-Darling es más precisa que la prueba de K-S; sin embargo, algunos estadísticos todavía usan la prueba de normalidad de K-S por su valor histórico.

310

| Estadística para ingeniería y ciencias

Instrucciones usando Minitab con  desconocida 1. Vaya a: Stat → Sample t. 2. En la ventana de diálogo haga clic en Sample in columns. 3. En la ventanilla de Test Mean ponga el valor esperado de µ0. 4. En Options escriba el nivel de α deseado y la prueba de hipótesis alternativa deseada. Ejemplo 6.42. Se dan las siguientes mediciones de una muestra aleatoria de 15 mediciones de partícu– las atmosféricas menores de 10 micras en unidades de ppm, con un promedio de X 5 33.798 con s 5 0.6303. a) Probar la hipótesis nula de H0: µ 5 34.5 contra H1: µ ≠ 34.5. b) Probar la hipótesis nula H0: µ 5 34.5 contra H1: µ , 34.5. c) Probar la hipótesis nula H0: µ 5 33.2 contra H1: µ . 33.2. d) Calcular el valor de p en cada uno de sus casos. Solución: Siguiendo las instrucciones anteriormente dadas se tiene que: a) One-Sample T: Partículas atmosféricas

Test of mu 5 34.13 vs. not 5 34.13

Variable Partículas atmos.

N 15

Mean 33.7980

StDev 0.6303

SE Mean 0.1627

t 22.04

P 0.061

t 3.67

P 0.001

b) One-Sample T: Partículas atmosféricas

Test of mu 5 34.05 vs. , 34.05

N 15

Mean 33.7980

StDev 0.6303

SE Mean 0.1627

t 21.55

P 0.072

c) One-Sample T: Partículas atmosféricas

Test of mu 5 33.2 vs . 33.2

Variable Partículas atmos.

N 15

Mean 33.7980

StDev 0.6303

Figura 6.16.

SE Mean 0.1627

Capítulo 6 Prueba de hipótesis

| 311

Figura 6.17.

Las figuras 6.15 y 6.16 muestras las entradas a la hoja del Minitab para los incisos a) y b).

6.7.2 Prueba de hipótesis para 1 2 2 con Minitab Las hipótesis que se prueban con estas instrucciones son: a) H0: µ1 2 µ2 5 δ0 contra Ha: µ1 2 µ2 . δ0 b) H0: µ1 2 µ2 5 δ0 contra Ha: µ1 2 µ2 , δ0 c) H0: µ1 2 µ2 5 δ0 contra Ha: µ1 2 µ2 ≠ δ0 Con σ1 y σ2 desconocidas: 1. Vaya a: Stat → 2-Sample t. 2. Haga clic en Summarized data. 3. En la ventanilla de First y Second y en las ventanillas de Sample size y Estandar deviation, ponga los tamaños de muestras, los promedios y las desviaciones estándares para cada caso y haga clic en Aceptar. Ejemplo 6.43. Se dan los siguientes datos de dos muestras aleatorias: – n1 5 10; X 1 5 2 902.8; s1 5 277.2 s21 5 76 875.99 – n2 5 8; X 2 5 3 108.1; s2 5 205.9 s22 5 42 382.41 Probar que no hay diferencias entre las dos poblaciones muestreadas. Interpretar el valor de p.

312

| Estadística para ingeniería y ciencias Solución: Los resultados obtenidos con las instrucciones antes citados son: Two-Sample T-Test and CI Sample

N

SE Mean

StDev

Mean

1

16

2 909

277

69

2

8

3 108

206

73

Difference 5 mu (1) - mu (2) Estimate for difference: 2199.300 95% CI for difference: (2429.794, 31.194) T-Test of difference 5 0 (vs. not 5): T-Value 5 21.79 P-Value 5 0.087 DF 5 22 Both use Pooled StDev 5 256.6711 Con este valor de p 5 0.087 no se rechaza la hipótesis nula a un nivel de significancia de 0.05, 0.087 . 0.05.

Figura 6.18.

Figura 6.19.

Las figuras 6.17 y 16.18 muestran las ventanas para las entradas de los datos.

6.7.3 Prueba de hipótesis para diferencia de medias con Excel Con Excel se pueden efectuar las pruebas de hipótesis de una media y de diferencia de medias de la distribución normal. Para ello, se deben poner los datos en una o en dos columnas, según sea el caso. Luego, se eligen las opciones: Herramientas → Análisis de datos y aparece la pantalla siguiente: Figura 6.20.

Capítulo 6 Prueba de hipótesis

| 313

• La prueba t para la media de dos muestras emparejadas es la diferencia de dos medias cuando los datos son pareados. • La prueba t para dos muestras que suponen varianzas iguales es la prueba de diferencia de dos medias cuando las muestras son independientes y las varianzas son iguales pero desconocidas. • La prueba t para dos muestras suponiendo varianzas desiguales, es la prueba de diferencia de dos medias cuando las muestras son independientes y las varianzas son desiguales y desconocidas. • La prueba z para medias de dos muestras es la prueba de diferencia de dos medias cuando las muestras son independientes y las varianzas son conocidas. Se elige la prueba que se desea hacer.

Ejemplo 6.44. Se tienen dos muestras, una de hombres y otra de mujeres, dadas por: Edades de hombres: 34, 44, 36, 38, 47, 37, 56, 47, 46, 38. Edades de mujeres:

29, 35, 33, 28, 31, 34, 27, 29, 32, 36.

Si se suponen varianzas iguales, haga la prueba H0: µ1 – µ2 5 3 contra Ha: µ1 – µ2 . 3 con Excel. Use α 5 0.01. Se escriben los datos en dos columnas y luego se elige la prueba t para dos muestras suponiendo varianzas iguales. En la ventana de diálogo se escribe la siguiente información:

Figura 6.21.

El rango de las variables 1 y 2 se introduce colocando el cursor sobre las celdas donde están los datos y arrastrándola se palomea el cuadrito de rótulos porque el rango de las variables incluye las celdas donde están los rótulos, es decir, las celdas A1 y B1. La salida se pondrá desde la celda A13. Los resultados son:

314

| Estadística para ingeniería y ciencias Tabla 6.34. Prueba t para dos muestras suponiendo varianzas iguales.

Edades de hombres

Edades de mujeres

Media

42.3

31.4

Varianza

46.9

9.6

10

10

Observaciones Varianza agrupada Diferencia hipotética de las medias Grados de libertad

28.25 3 18

Estadístico t

3.32355498

P(T , 5 t) una cola

0.00188975

Valor crítico de t (una cola)

2.55237865

P(T , 5 t) dos colas

0.00377951

Valor crítico de t (dos colas)

2.87844159

La t calculada es tc 5 3.32356 y como la prueba es de una cola se tiene que el valor de t en tablas es t0.01 5 2.55, el valor de p 5 0.00189 y se concluye que: tc 5 3.32356 . t0.01 5 2.55 y p 5 0.00189 , α 5 0.01, lo que implica que hay suficiente evidencia para rechazar la hipótesis nula.

Problemas propuestos 6.1 En un estudio de meteorología, después de analizar una muestra de 106 tomas de temperaturas ambientales, un ingeniero ambiental sospecha que la media real de la temperatura es menor que 98.6 oF. Encontrar: a) La hipótesis nula H0. b) La hipótesis alternativa H1. c) Si esta prueba es de dos colas, de cola izquierda o de cola derecha. 6.2 El proceso de envasado de café llena bolsas con 200 gramos de peso. En forma periódica se escogen al azar 25 bolsas llenas y se pesa el contenido real de cada una de ellas. Se considera que el proceso de llenado está fuera de control si la media muestral se encuentra por debajo de 197.9 g o por arriba de 201.9 g. Se supone que la cantidad de café contenido en cada bolsa sigue una distribución normal con desviación estándar igual a 5 gramos. Hacer lo siguiente: a) Enunciar las hipótesis nula y alternativa adecuadas para este proceso de control. b) Obtener la probabilidad del error de tipo I. c) Como una región crítica alternativa, considerar rechazada H0 cuando la media muestral está por debajo de 197.7 g o por encima de 202.3 g. Si el tamaño máximo del error de tipo I es de 0.05, ¿cuál de las dos pruebas es la mejor? d) Si la media real de llenado es de 201 gramos, ¿cuál es la potencia de la prueba?

6.3 La siguiente es una muestra aleatoria de 16 observaciones del análisis de contenido de cobre (Cu) en el agua: 62, 43, 60, 49, 72, 56, 45, 46, 37, 56, 41, 43, 36, 45, 56, 49, estos datos – dan una media muestral igual a X 5 49.75 y una desviación estándar de 10. Suponer que los datos son generados de una distribución normal y con un nivel de significancia de 0.01 comprobar las hipótesis. a) H0: µ 5 40 contra Ha: µ ≠ 40 b) H0: µ 5 49 contra Ha: µ ≠ 49 c) H0: µ 5 52 contra Ha: µ ≠ 52 6.4 Un proceso de producción envasa el producto en bolsas de 600 gramos. Para controlar el proceso se toman muestras de 20 artículos cada cinco horas, se pesan y se acepta que el proceso está bajo control si sus pesos promedio se encuentran entre los límites aceptables. Cuando se rechaza el proceso, éste se debe detener para investigar cuál es la causa del problema y corregirlo. El proceso se considera fuera de control (se rechaza) si el peso medio es o muy pequeño, caso en el cual se estaría engañando al consumidor, o es muy grande, caso en el cual perdería la empresa. Si la desviación estándar del proceso es de 4 gramos y tiene un nivel de significancia de 0.001: a) Enunciar las hipótesis nula y alternativa adecuadas para esta situación. b) Establecer los límites adecuados (de control) para decidir cuándo se debe aceptar o rechazar el proceso.

Capítulo 6 Prueba de hipótesis c) Si el nivel medio del proceso se aumenta a 603 gramos, ¿cuál es la probabilidad de que se descubra este cambio en la siguiente muestra que se tome después de ocurrido el cambio? 6.5 Escribir las siguientes conjeturas sobre la media poblacional en cada uno de los seis casos como una hipótesis de prueba. En todos los casos, el parámetro es µ. a) La media del coeficiente de los instructores de estadística es 185. b) La media del peso del papel descartado cada semana en un estudio de reciclaje de papel es menor que 10 kilogramos. c) El tiempo medio requerido para que los estudiantes puedan adquirir su título es mayor que 5 años. d) La media anual de ingresos de los médicos es de $300 000 dólares. e) La media de la edad de los aviones comerciales es de cuando menos 10 años. f ) La tasa media de consumo de gasolina de los automóviles Chevrolet es de no más de 17 millas/galón. 6.6 Una empresa de investigación de mercados reparte un producto nuevo a 200 personas y luego de que éstas lo prueban les dicen el precio de venta y les pregunta si comprarían el producto, 82 personas dijeron que no; luego, ofrece el mismo producto a 400 personas distintas y después de probarlo les dice el precio de venta aumentado en 10% y les pregunta si lo comprarían y 116 dijeron que no. ¿Estos datos dan evidencia de que la modificación del precio del producto cambia la proporción de personas dispuestas a comprarlo? 6.7 El presidente de cierta compañía fabricante de partes de automóvil afirma que el número promedio de partes vendidas diariamente es de 1 500. El director general de toda la cadena de establecimientos quiere comprobar esta afirmación. Para ello, se toma una muestra aleatoria consistente en 36 días, la cual mostró un promedio de 1 450 partes vendidas por día. Suponer que σ 5 120 partes. ¿Estos datos dan evidencia de que el fabricante está equivocado? Usar α 5 0.05. 6.8 El administrador de una empresa de investigación de mercados desea determinar si los jugadores de ajedrez prefieren sus piezas en madera o en plástico. De un total de 250 jugadores entrevistados, 145 expresaron su preferencia por las piezas de madera y los restantes, 105 jugadores, por las piezas de plástico. Estos datos una evidencia fuerte de que hay una diferencia entre las preferencias por estos dos tipos de materiales? Use un nivel de significancia de 0.025. 6.9 En un estudio de oceanografía (el estudio físico, químico y biológico de las aguas de los océanos), un oceanógrafo requiere que la profundidad promedio del océano sea de 62.3 brazas para poder llevar a cabo sus estudios de ciertos análisis biológicos. Para determinar si la zona que ha elegido satisface esta condición, tomó una muestra de sondeos de profundidad en 40 localizaciones marinas y encontró que el promedio de la muestra estadística es de 64.8 brazas con una desviación estándar de 5.1. ¿Son estos datos suficiente evidencia para rechazar la zona seleccionada a fin de hacer los estudios biológicos? Usar niveles de significancia de 0.05 y 0.01 para hacer la prueba. 6.10 Dos negocios de autolavado tienen métodos diferentes para hacer la limpieza integral de un automóvil. Se desea comparar los dos métodos de lavado y para ello se toma el tiempo en que se terminaron de limpiar 100 autos en cada uno de los

| 315

negocios. Los datos obtenidos dieron un promedio de 52.9 y 50.1 con desviación estándar de 4.7 y 5.1, respectivamente. Si se supone que los tiempos de limpieza se distribuyen de acuerdo con una normal con varianzas iguales, ¿se puede decir que uno de los dos negocios de autolavado es más eficiente que el otro? Usar α 5 0.01 para efectuar la prueba. 6.11 Para determinar si en las aguas residuales de una ciudad se encuentran disueltos pesticidas clorinados hidrocarbonados (estos pesticidas ya no se usan en países industrializados por su persistencia tan acentuada), se usan cromatografía de gas en dos laboratorios distintos. Los tamaños de las muestras usadas por los laboratorios fueron de 40 y 50 observaciones, respectivamente. Si los análisis procedentes del primer labo– ratorio dan un resultado de X 1 5 74 con desviación estándar de s1 5 8 y los resultados del segundo laboratorio dan – un promedio de X 2 5 78 con una desviación estándar de s2 5 7, determinar si hay una diferencia significante entre los resultados de los dos laboratorios. Suponer niveles de significancia de α 5 0.05 y α 5 0.01, y que la varianza real de ambas muestras son iguales. 6.12 Decidir en cada caso si la hipótesis dada es simple o compuesta: a) Una variable aleatoria tiene una distribución Weibull con α 5 3 y β 5 2. b) Una variable aleatoria tiene una distribución Weibull con α 5 3 y β . 2. c) Una variable aleatoria tiene una densidad exponencial. d) Una variable aleatoria tiene una distribución Bernoulli con P 5 0.35. e) Una variable aleatoria tiene una distribución de Poisson con λ 5 3.25. f) Una variable aleatoria tiene una distribución de Poisson con λ . 2.65. g) Una variable aleatoria tiene una distribución normal con desviación estándar s 5 10. i) Una variable aleatoria tiene una distribución binomial negativa con k 5 4 y p , 0.60. 6.13 Para la prueba H0: µ ≥ 32 contra Ha: µ , 32, se dan los – siguientes valores de la muestra aleatoria: n 5 50, X 5 31.8 y σ 5 0.75. Encontrar la estadística de prueba si α 5 0.05 y calcular el valor de la probabilidad p correspondiente. 6.14 Un recipiente contiene 10 canicas de las cuales m son rojas y las otras son azules. Para demostrar la hipótesis nula m 5 2 contra la alternativa m 5 4, se sacan del recipiente al azar dos de las canicas sin reemplazo y se rechaza la hipótesis nula si y sólo si ambas son rojas. Determinar las probabilidades de cometer errores de tipo I y II con este criterio. 6.15 Para una muestra al azar de 36 casos de análisis de aguas que contienen cloratos (mg/L de ClO322), se usa el méto– do argento métrico de titulaciones. Los resultados dan X 5 138.84 y una desviación estándar igual a 10.0. a) Probar la hipótesis de que el promedio poblacional es igual a 145.0 mg/L, contra la hipótesis de que este promedio es diferente con niveles de significancia de α 5 0.05 y α 5 0.01. b) Calcular el valor de la probabilidad p. c) Estimar el intervalo de confianza para el promedio poblacional. 6.16 Con referencia a las siguientes pruebas de hipótesis: H0: p 5 0.95, H1: p 5 0.6, n 5 20 donde p es la probabilidad de éxito

316

| Estadística para ingeniería y ciencias

en los ensayos de Bernoulli, ¿cuáles son las probabilidades de cometer los errores tipo I y II si la región de aceptación es X $ 16 y la región de rechazo correspondiente es X , 16. 6.17 Sean X1 y X2 una muestra aleatoria de tamaño 2 tomada de una población normal con σ2 5 1. Sea la prueba H0: µ 5 µ0 contra Ha: µ 5 µ1, donde µ1 . µ0. Si se rechaza H0 cuando – X . µ0 1 1, ¿cuál es el nivel de significancia? 6.18 Se utiliza una sola observación de una variable aleatoria con una distribución exponencial para probar la hipótesis nula de que la media de la distribución es 1/λ 5 2 contra la alternativa de que es 1/λ 5 5. Si se acepta la hipótesis nula si y sólo si el valor observado de la variable aleatoria es menor o mayor que 0.3, determinar las probabilidades de cometer los errores de tipo I y II. 6.19 En un estudio de química acerca del agua, el promedio de una muestra aleatoria de 100 análisis de sulfatos (SO422) es de 1 570 mg/L, con una desviación estándar de 120 mg/L. Si µ es el promedio de todos los casos de sulfatos, probar la hipótesis nula de H0: µ 5 1 600 mg/L contra la hipótesis alternativa de H1: µ ≠ 1 600 mg/L usando los niveles de significación de 0.05 y 0.01. Calcular el valor de la probabilidad p. 6.20 Sea λ el parámetro de la Poisson; encontrar la mejor región crítica para la prueba: H0: λ 5 10 contra H1: λ 5 20 6.21 Un fabricante de fusibles afirma que con una sobrecarga de 25% los fusibles se fundirán en 14 minutos en promedio. Para probar esta afirmación se tomó una muestra aleatoria de 20 fusibles y se sometió a una carga de 25% y los tiempos que tardaron en fundirse tuvieron un promedio de 10.63 minutos, con una desviación estándar de 2.48 minutos. Suponiendo que la población muestreada es normal, hacer una prueba de hipótesis para refrendar o rechazar la afirmación del fabricante de fusibles. Usar un nivel de significancia de α 5 0.05. También, calcular el valor de p. 6.22 Suponer que X1 y X2 constituyen una muestra aleatoria de tamaño 2 tomada de la población dada por:  θ21 f ( x; θ) 5   0

para en otro caso

Encontrar la mejor región crítica para la prueba H0: θ 5 1 contra Ha: θ 5 2 con un nivel de significancia de a 5 0.06. Calcular la potencia para esta región crítica. 6.23 Se utilizará una muestra aleatoria de tamaño 100 para probar la hipótesis de que la media de una población normal es menor que 30. Se sabe que la varianza σ2 5 169. Si se rechaza la hipótesis nula si y sólo si la media de aleatoria excede de 33, determinar la probabilidad de cometer el error tipo I. 6.24 Suponer que X1 y X2 constituyen una muestra aleatoria de tamaño 2 tomada de la población dada por:  θ21 f ( x; θ) 5   0

para en otro caso

Encontrar la mejor región crítica para la prueba H0: θ 5 1 contra Ha: θ 5 2 con un nivel de significancia de a 5 0.05. Calcular la potencia para esta región crítica. 6.25 En un estudio relacionado con el análisis de aguas industriales relativas a su contenido de calcio (mg/L) usando el método gravimétrico se obtiene una población de 48 muestras de agua y se analiza su contenido de calcio y se encuentra que

la media muestral es de 76.4 mg/L con una desviación estándar de 3.6. Empleando un nivel de significancia de 0.05, probar la hipótesis cuyo promedio poblacional es mayor que 75 mg/L y calcular el valor de p. 6.26 Para la prueba de hipótesis H0: λ 5 4 contra H1: λ 5 9 de una población exponencial utilizar el lema de Neyman y Pearson para obtener la región crítica de mayor potencia de tamaño α 5 0.10. 6.27 Con referencia a los datos de precipitaciones de la tabla 5.10 de Comisión Nacional del Agua (CONAGUA) del capítulo 5 de distribuciones continuas, ejercicio 5.21 relacionado con la estadística histórica de los promedios anuales de precipitaciones pluviales correspondientes al periodo de 1957 a 2006 de Ciudad Juárez, Chihuahua, México, hacer lo siguiente: a) Un resumen de la estadística descriptiva. b) Probar la hipótesis nula de H0: µ $ 28.0 cm contra la hipótesis alternativa de H1: µ , 28.0 cm a un nivel de significancia de 0.01. c) Hacer una gráfica de probabilidad en función de los 50 valores anuales y por medio de extrapolación calcular el promedio y la desviación estándar y compararlos con los calculados. 6.28 Utilizar el lema de Neyman y Pearson para obtener la mejor región crítica para una distribución binomial en la prueba H0: p 5 0.4 contra H1: p 5 0.8. 6.29 Una empresa de camiones de carga sospecha que el ciclo de vida de ciertos neumáticos que usa es menor que 28 000 millas (µ # 28 000), lo cual va en contra de lo que afirma su distribuidor. Para verificar su sospecha la empresa instala 40 de esas llantas en sus camiones y obtiene al final un ciclo de vida promedio de 27 463 con σ 5 1 348 millas. ¿Estos datos confirman la sospecha de la empresa? 6.30 Utilizar la aproximación normal para obtener la región crítica de tamaño α 5 0.01 para la prueba H0: p 5 0.40 contra H1: p 5 0.30, cuando se tiene una muestra de variables aleatorias Bernoulli de tamaño n 5 100. Determinar la probabilidad de cometer un error de tipo II. 6.31 Una muestra aleatoria de 100 muertes en Estados Unidos de América. reportó un promedio de vida de 71.8 años con una desviación estándar de 8.9 años. ¿Puede esto indicar que la vida promedio de hoy en día es mayor que 70 años? Usar α 5 0.05. 6.32 Se utilizará una sola observación de una variable aleatoria que tiene una distribución uniforme (0, θ) para verificar la prueba H0: θ 5 θ0 contra H1: θ 5 θ1, con θ0 , θ1. Aplicar el lema de Neyman y Pearson para obtener la mejor región crítica de tamaño α. 6.33 Un fabricante de cables de acero afirma que su producto tiene una resistencia de ruptura de 8.0 kg. Probar la hipótesis nula de que H0: µ 5 8.0 kg, contra la prueba alternativa de que H1: µ ≠ 8.0 kg. Para ello, se sacó una muestra aleatoria de 50 cables y se encuentra que tiene una resistencia prome– dio de X 5 7.8 kg, con una desviación estándar de 0.5 kg. En esta prueba se usó un nivel de significancia de α 5 0.05 y α 5 0.01. 6.34 Dada una muestra aleatoria de tamaño n tomada de una población normal con µ 5 µ0, aplicar el lema de Neyman y Pearson para construir la mejor región crítica de tamaño α, con el fin de probar la H0: σ 5 σ0 contra H1: σ 5 σ1, tal que σ1 . σ0.

Capítulo 6 Prueba de hipótesis 6.35 En un estudio de la aplicación del pH (potencial hidrógeno que tiene una escala de 0 a 14, donde 7 es neutral y abajo de 7 es ácido y arriba de 7 es alcalino), para medir la alcalinidad y la acidez de soluciones, un ingeniero, dedicado al estudio de la contaminación del agua, asegura que dos muestras de soluciones (A y B) provienen del mismo lugar de un río, donde supuestamente hubo una descarga industrial de ácido clorhídrico (HCl). Si esto fuera cierto el pH y las medias reales relativas a las dos muestras de soluciones serían iguales. Los datos recolectados se encuentran en la tabla siguiente. Suponer que las observaciones provienen de poblacionales normales. a) Probar la hipótesis nula de igualdad de las medias de pH contra las que son diferentes, usar α 5 0.05. b) Construir un intervalo de 95% de confianza para la diferencia de las medias e interpretarlo acordemente. c) ¿Desaprueben los datos la afirmación del ingeniero? Tabla 6.35. Datos de las mediciones del pH. Mediciones de pH de solución A

Mediciones de pH de solución B

6.24 6.31 6.28 6.30 6.25 6.26 6.24 6.29 6.22 6.28

6.27 6.25 6.33 6.27 6.24 6.31 6.28 6.29 6.34 6.27

6.36 El gerente de un restaurante sabe que 60% de sus clientes prefieren la zona de fumar, sin embargo, a últimas fechas cree que este porcentaje ha aumentado. Establecer las hipótesis de prueba y decir en qué condiciones cometerían un error de tipo I y en qué condiciones uno de tipo II, si p 5 0.70. 6.37 Una compañía está en el proceso de decidirse si producirá un nuevo componente electrónico. En la planta hay dos máquinas que pueden ser adaptadas para hacer este componente. Para ello, se hace una prueba en la máquina 1 y se mide el tiempo de producción por componente y da un promedio de – X 1 5 5.23 minutos para una muestra de 100 componentes. – En la máquina 2 el promedio de tiempo fue de X 2 5 5.37 minutos para una muestra de 64 componentes. En pasadas experiencias, se sabe que las desviaciones estándar fueron de 0.15 y 0.10 minutos, respectivamente. a) Probar la hipótesis nula de que no hay diferencias entre las medias de las dos poblaciones de componentes muestreadas. b) Hacer un intervalo de confianza para la diferencia de las medias. c) Calcular el valor de p. 6.38 Un buscador de talentos entrevista a un ejecutivo para probar la hipótesis nula de que podrá ocupar un puesto de mayor nivel. De qué manera él cometería un error de tipo I y en qué condiciones uno de tipo II. 6.39 A pesar de que el plomo (Pb) es un elemento muy peligroso, los seres vivos se adaptan crónicamente a las acumulaciones de este metal pesado. La presencia de Pb en el agua potable puede venir de descargas industriales, minas y fundiciones

| 317

de metales. Hay algunos métodos para determinar las concentraciones de Pb en el agua. Uno de ellos es el método de absorción atómica espectrométrico (método A) y otro es el método calorimétrico (método B). En una investigación se pretende comparar los resultados de los métodos de absorción atómica y el de ditizone. El método de absorción atómica espectrométrica consiste en aspirar la muestra preparada en una flama y atomizarla. El método ditizone consiste en extraer en tetracloruro de carbono (CCl4) el Pb en una solución ligeramente básica. Los datos que se citan a continuación dan las concentraciones (en mg/L) de las lecturas obtenidas por los métodos A y B. Usando un nivel de significación de 0.05 y suponiendo que las poblaciones muestreadas son normales: a) Probar que no hay diferencia entre las medias de los dos métodos de análisis utilizados. b) Calcular el valor de p. c) Hacer un intervalo de confianza de 95%. Método A 0.055, 0.048, 0.057, 0.043, 0.056,

0.051, 0.049, 0.049, 0.046, 0.078,

0.052, 0.05, 0.048, 0.055, 0.076,

0.053, 0.055, 0.053, 0.055, 0.053, 0.052, 0.054, 0.056, 0.05, 0.057, 0.059, 0.040, 0.03, 0.07, 0.075, 0.08, 0.077

0.049, 0.054, 0.042, 0.086,

0.06, 0.07, 0.057, 0.059, 0.059, 0.049, 0.075, 0.06, 0.067, 0.068, 0.064, 0.069, 0.079, 0.074, 0.05, 0.06, 0.07, 0.08, 0.082, 0.079, 0.087, 0.04, 0.04, 0.04, 0.046, 0.081, 0.083

0.06, 0.078, 0.081, 0.043,

Método B 0.057, 0.07, 0.07, 0.072, 0.044,

6.40 Un laboratorio clínico realizó ocho análisis para identificar a los portadores de cierta bacteria; m es el número de pacientes que dio positivo en la prueba. Con el fin de demostrar la hipótesis nula m 5 2 contra la alternativa m . 2, se extraen al azar dos de los resultados de los análisis y se rechaza la hipótesis nula si y sólo si ambos resultados son positivos. a) Determinar las probabilidades que existen de cometer errores de tipo I cuando m 5 0, 1 y 2. b) Obtener las probabilidades de cometer errores de tipo II cuando m 5 4, 5, 6 y 7. Además, trazar la gráfica de la función de potencia. 6.41 Ejercicio adaptado del libro Probabilidad y estadística para ingeniería y ciencias de Jay L. Devore (2001). Para probar si la media real de la resistencia del acero laminado en frío es diferente que la media de la resistencia del acero galvanizado de los dos lados, se tomaron dos muestras, una de cada tipo de acero y se obtuvieron los siguientes datos: n1 5 20 especí– menes de acero laminado en frío, con X 1 5 29.8 ksi; n2 5 25 – especímenes de acero galvanizado de dos lados, X 2 5 34.7 ksi. Si se supone que las dos distribuciones de resistencia de los aceros son normales con σ1 5 4.0 y σ2 5 5.0 ksi (sugeridas por una gráfica en el artículo “Zinc-Coated Sheet Steel: An Overview”, Automotive Engr., diciembre de 1984, pp. 39-43). ¿Significan estos datos que las verdaderas resistencias promedio µ1 y µ2 son diferentes? 6.42 Supóngase que en el caso de una distribución binomial con n 5 20 se tiene la prueba H0: p 5 0.10 contra H1: p . 0.10; se acepta la hipótesis nula si X # 4 y se rechaza si X . 4.

318

| Estadística para ingeniería y ciencias

Construir la función potencia evaluada en distintos valores de p de esta región de rechazo y graficar. 6.43 Dos astrónomos registraron observaciones de cierta estrella en el firmamento. El primer astrónomo obtuvo 12 observaciones y dio un promedio de 1.20 mediciones. El segundo astrónomo obtuvo una muestra de 8 observaciones y obtuvo un promedio de 1.15 mediciones. La experiencia pasada indicó que estos astrónomos obtuvieron mediciones con varianzas iguales a 0.40 mediciones. Suponer que la población muestreada es normal. Usar el nivel de significación de 0.05 para probar las hipótesis: H0: µ1 2 µ2 5 0 contra Ha: µ1 2 µ2 ≠ 0. 6.44 Se usará una sola observación para probar la hipótesis nula de que el parámetro de una distribución exponencial es igual a 15 contra la hipótesis alternativa de que no es igual a 15. La hipótesis nula se rechazará si y sólo si el valor observado es menor que 13 o mayor que 17, determinar: a) La probabilidad de cometer un error tipo I. b) Las probabilidades de cometer errores tipo II cuando λ 5 2, 4, 8, 16 y 20. c) Trazar la gráfica de la función de potencia. 6.45 Decir qué tipo de prueba se tiene (bilateral o unilateral). a) H0: µ 5 14.00 contra Ha: µ . 14.00. b) H0: µ 5 14.00 contra Ha: µ ≠ 14.00. c) H0: µ 5 14.00 contra Ha: µ , 14.00. 6.46 Dada una muestra Poisson de tamaño 10: a) Encontrar la región crítica uniformemente más potente de tamaño α 5 0.01 para la prueba H0: λ 5 3 contra H1: λ # 3. b) Hallar las probabilidades de cometer errores de tipo II cuando la media de la población es 2.0, 1.5, 1.0 y 0.5. c) Trazar la gráfica de la función potencia. 6.47 Se usó una muestra de 49 mediciones de ruidos (en decibeles, dB) para probar las hipótesis H0: µ 5 145 contra Ha: – µ ≠ 145. Si la media muestral es X 5 138.00 dB con una desviación estándar de 20. a) Establecer la región crítica con un nivel de significancia α 5 0.05. b) Calcular la estadística de prueba y decir si de acuerdo con su valor, se rechaza o se acepta la hipótesis nula. 6.48 Una persona dice que tiene la capacidad de determinar la marca de café con sólo probarlo; si se le dan a probar 10 tazas de café de dos marcas diferentes y acierta en 8 casos, ¿estos datos son evidencia suficiente para aceptar que esta persona tiene la habilidad que dice? Formular las hipótesis y concluir con α 5 0.05. 6.49 El médico de una empresa de refrigeración afirma que la temperatura promedio de sus empleados no baja de 98.6 oF, la cual es frío tolerable para el cuerpo. El departamento de sanidad quiere probar si esto es cierto; para ello se tomó una muestra al azar de 50 trabajadores del frigorífico y se midió su temperatura. El promedio de la temperatura de este gru– po fue de X 5 98.2 oF con una desviación estándar de σ 5 0.62. Para este problema: a) Identificar la hipótesis nula H0 y la hipótesis alternativa H a. b) Establecer las regiones críticas para los niveles de significación de α 5 0.05 y α 5 0.01. c) Calcular la estadística de prueba. d) Si se rechaza la hipótesis nula, calcular el valor de la probabilidad p.

– 6.50 Con los siguientes datos: X 5 31.8, σ 5 0.25, n 5 50 para H0: µ ≥ 32. a) Formular la hipótesis alternativa. b) Establecer las regiones críticas cuando α 5 0.05 y α 5 0.01 c) Calcular la estadística zc. 6.51 Para construir las carreteras estatales se requiere un concreto con bajo valor de conductividad térmica para reducir al mínimo los daños ocasionados por cambios de temperatura y, así, evitar accidentes automovilísticos en las carreteras. Supóngase que hay dos tipos de concreto, uno es un agregado escalonado y el otro no tiene agregados finos. La tabla siguiente resume los datos de un experimento realizado para comparar los dos tipos de concreto. ¿Sugiere esta información que el verdadero promedio de conductividad del concreto, con agregado escalonado, supera al del concreto sin agregado fino? (Adaptado del libro Probabilidad y estadística para ingeniería y ciencias de J. L.Devore, 2000.) Tabla 6.36. Tipo de concreto

Tamaño de muestra

Promedio muestral

Desviación estándar muestral

Con agregados

42

0.486

0.187

Sin agregados

42

0.359

0.158

Fuente: Adaptación del libro Probabilidad y estadística para ingeniería y ciencias, quinta edición de Jay. L.Devore (2000). Thomson-Learning.

6.52 El gerente de una cadena de hoteles está considerando construir un motel a lo largo de una autopista. El dueño que vende el terreno al gerente para la construcción del motel, asegura qué por ahí pasan 1 100 vehículos por día. Sin embargo, el gerente de la cadena de hoteles dice que una cifra mayor que 1 100 vehículos sería adecuada para la construcción del motel en ese sitio. Para esto se cuentan los autos que pasan por el lugar durante 18 días; los datos observados son: 1 150; 1 225; 1 195; 1 195; 1 210; 1 100; 1 150; 1 195; 1 105; 1 205; 1 121; 1 190; 1 195; 1 192; 1 100; 1 20; 1 09; 1 095. ¿Los resultados reafirman o desaprueban la afirmación del dueño del terreno? Usar α 5 0.05. 6.53 Una muestra al azar de 49 análisis de aguas residuales dio un – promedio igual a X 5 800 mg/L y una desviación estándar de s 5 60.0 mg/L. Con estos datos efectuar la prueba de hipótesis H0: µ 5 850 contra Ha: µ . 850; usar α 5 0.05. Calcular el valor de p. 6.54 Se sacó una muestra aleatoria de SO3 atmosférico en unidades de ppm provenientes de un complejo industrial, los datos obtenidos son 50, 52, 56, 57, 55, 55, 54, 55, 56, 57, 56, 54. Probar H0: µ 5 52 contra H0: µ 5 52 que es diferente. Se sabe que la población muestreada es normal. Usar α 5 0.01. 6.55 49 muestras de agua tomadas al azar de cierto río fueron analizadas para medir las concentraciones de fosfatos (PO234) y los datos resultantes dieron una media muestral de 60.0 mg/L de PO234 y una desviación estándar igual a 5.5 mg/L. a) Probar la hipótesis nula de H0: µ 5 62.0 mg/L contra Ha: µ ≠ 62.0 mg/L. Usar α 5 0.05. b) ¿Qué tanta confiabilidad se le puede dar a los resultados considerando el valor de p estimado? 6.56 Un maestro de estadística y asiduo cliente de un banco dijo al gerente que de acuerdo con sus estimaciones él considera que el tiempo requerido para cambiar un cheque tiene una

Capítulo 6 Prueba de hipótesis desviación estándar de 6 minutos; el gerente argumenta que con una muestra aleatoria de 25 clientes calculó una desviación estándar de 4 minutos. Usando un nivel de significancia de α 5 0.05, probar la hipótesis del gerente que afirma que la variación es menor que 6.0 minutos. 6.57 Decir si las siguientes afirmaciones son falsas o verdaderas. a) A medida que el tamaño de la muestra n disminuye y la desviación estándar s aumenta, el valor de la probabilidad p disminuye. b) Cuando n y s disminuyen, el valor del error estándar aumenta y, por tanto, el valor de p disminuye. c) A medida que n aumenta y las técnicas del laboratorio se refinan causando una varianza pequeña, el error estándar del promedio baja y, por consiguiente, el valor de p aumenta y la hipótesis nula se rechaza. d) A medida que el error estándar del promedio disminuye por tamaños de muestras grandes, con pequeñas variaciones, esto conlleva a un valor pequeño de p mucho muy significante, lo cual nos lleva a retener la hipótesis nula. e) Cuando la varianza disminuye con n constante, el valor de p disminuye y la hipótesis nula se rechaza. f ) Si n aumenta y las técnicas del laboratorio se refinan causando una varianza pequeña, el error estándar baja y, por consiguiente, el valor de p disminuye y se retiene H0. g) A medida que n aumenta y las técnicas del laboratorio se refinan causando una varianza pequeña, el error estándar baja y, por consiguiente, el valor de p disminuye y se acepta Ha. h) Los incisos d), e) y f) son correctos. i) Los incisos e) y g) son correctos. 6.58 Encontrar los valores críticos de t por los cuales el área del extremo derecho de la distribución de t es de α 5 0.05 y de α 5 0.01, si los grados de libertad son: a) 16 b) 28 c) ∞ 6.59 Para mantener el control de la calidad industrial, un fabricante de sistemas de control de partículas (ciclones), supone que la producción de estos sistemas para el control de partículas menores que 10 micras tienen un eficiencia promedio de 32%. Para probar esta aseveración se tomó una muestra de 8 ciclones y se midieron las eficiencias de cada uno para ese tamaño de partículas. Las eficiencias (%) fueron: 29.4, 30.8, 30.6, 31.5, 32.1, 31.7, 30.3 y 30.8, respectivamente. Hacer las siguientes estimaciones: a) Establecer un intervalo de confianza para µ, con α 5 0.05. b) Hacer una prueba de hipótesis bilateral al 95%. c) Calcular el valor de la probabilidad p. 6.60 En una prueba para medir la acumulación de plomo (Pb) atmosférico en la sangre, se realizó un experimento con 15 voluntarios. La prueba consistió en exponer a los sujetos en un sitio aledaño a una planta de fundición de metales y de exaltar el metabolismo, esto es, correr. Antes y después de correr se les sacó sangre y se midió la concentración de Pb. Los datos se muestran en la tabla siguiente. ¿Los datos dan evidencia suficiente para indicar que después del ejercicio se tenía más plomo en la sangre? Usar α 5 0.01.

| 319

Tabla 6.37. Núm. sujeto

Concentración de Pb antes de correr

Concentración de Pb después de correr

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

2.76 5.18 2.68 3.05 4.10 7.05 6.60 4.79 7.39 7.30 11.78 3.90 26.00 67.48 17.04

7.02 3.10 5.44 3.99 5.21 10.26 13.91 18.53 7.91 4.85 11.10 3.74 94.03 94.03 41.70

6.61 En una prueba para diseñar un equipo de control para partículas emitidas por una fuente industrial, se hicieron dos pruebas para saber cuál de los dos sistemas de control eran más eficientes. La primera prueba consistió en instalar un filtro de vidrio (baghouse). La otra prueba agregó al sistema de control del baghouse un ciclón. Probar la hipótesis que con el equipo adicional no hubo diferencia en las reducciones de contaminantes. Calcular el valor de la probabilidad p. La siguiente tabla muestra los resultados de los dos equipos de control. Supóngase que la selección de la muestra fue completamente al azar, sin emparejamiento y suponer que las poblaciones son normales. Haga una prueba de diferencia de varianzas para elegir el tipo de prueba a usar. Utilisar α 5 0.05. Tabla 6.38. Concentraciones de partículas para ambas situaciones. Concentración de partículas con el sistema de control agregado

Concentración de partículas con el sistema de control al cual se le agregó el ciclón

Microgramos/m3

Microgramos/m3

421 462 400 378 413

207 17 412 74 116

6.62 Para probar si una droga experimental puede curar los síntomas de la leucemia, 10 enfermos con el síntoma avanzado fueron sometidos a una prueba. Cinco de ellos recibieron el tratamiento experimental y otros cinco no. El tiempo de supervivencia, en años, se midió en cada uno de los sujetos. Usando α 5 0.05, probar que la droga experimental fue efectiva. Suponer que las dos distribuciones son normales y tienen varianzas iguales. Los datos se citan a continuación. (Nota: independientemente del enfoque puramente estadístico que se le pudiera dar a este problema, la llamada leucemia no es una enfermedad en particular de la sangre, sino un síntoma [crónico destructivo] que acusa que todo el cuerpo esté enfermo, no únicamente la sangre. De no pensarse así, entonces, se diría que la sangre es una parte independiente del cuerpo y no un componente contingente de todo el organismo, como unidad independiente.)

320

| Estadística para ingeniería y ciencias Tabla 6.39. Datos. Supervivencia en años

Sujetos tratados

2.1 5.3 1.4 4.6 2.9

Sujetos sin tratamiento

1.9 1.5 2.8 3.1 2.0

6.63 La tabla siguiente muestra los datos de oxígeno disuelto (OD) obtenidos por varios laboratorios usando el método de Winkler y el método de electrodos en la misma muestra de agua. Las concentraciones del oxígeno disuelto (OD), se expresan en mg/L. Use la prueba de diferencia de medias para datos pareados a fin de determinar si los dos métodos de análisis dan el mismo resultado. Usar α 5 0.05. (Sugerencia: Utilizar los programas de computadora Minitab o Excel.) Tabla 6.40. Método de Winkler 1.2 1.4 1.4 1.3 1.2 1.3 1.4

2.0 1.9 .1 1.8 1.0 1.1 1.4

Método de electrodos 1.6 1.4 1.9 2.3 1.7 1.3 2.2 1.4 1.3 1.7 1.9 1.8 1.8 .8

6.64 Se instaló un nuevo equipo de seguridad para reducir los accidentes industriales en una industria tendiente a disminuir el número de horas-hombre perdidas. Para medir la eficiencia del equipo de seguridad instalado, se examinó una muestra aleatoria en varios departamentos de esta industria. El número de horas-hombre perdido en el mes antes de la instalación del equipo y el siguiente mes después de instalar el equipo se reporta en la siguiente tabla. Tabla 6.41. Horas perdidas por departamento Mes

1

2

3

4

5

6

Antes de instalar el equipo

18

26

43

17

29

30

Después de instalar el equipo

15

20

31

17

25

27

¿Realmente valió la pena la inversión en la instalación del equipo de seguridad? Usar α 5 0.05. 6.65 Los siguientes datos forman una muestra aleatoria de óxidos de azufre (SO2) atmosféricos, en ppm, provenientes de una fundición: 56, 58, 58, 59, 57, 57, 56, 57, 58. Suponiendo que los datos provienen de una población normal de óxidos de azufre. a) Estimar el intervalo de confianza de 95% e interpretarlo acordemente. b) Probar la hipótesis nula de que el promedio poblacional es de 58.5 ppm contra que es diferente. Establecer las regiones de rechazo y aceptación. Usar α 5 0.05. c) Si la hipótesis nula no se rechaza, explicar por qué podría haber ocurrido esto. 6.66 Un fabricante de bombillas afirma que, con una sobrecarga de 25%, las bombillas se fundirán en 15 minutos, en pro-

medio. Para probar esta afirmación, se tomó una muestra aleatoria de 25 bombillas y se sometió a una carga de 25% y los tiempos que tardaron en fundirse tuvieron un promedio de 12.13 minutos, con una desviación estándar de 2.48 minutos. Suponiendo que la población muestreada es normal, hacer una prueba de hipótesis para refrendar o rechazar la afirmación del fabricante de fusibles. Usar un nivel de significancia de α 5 0.05. También, calcular el valor de p. 6.67 En un estudio de seguridad de caminos, la policía federal cree que los accidentes carreteros se deben a que la velocidad promedio de los automovilistas que manejan sobre cierta zona carretera exceden el límite de velocidad de 110 kilómetros por hora. Para probar esta aseveración se tomó una muestra aleatoria de 20 vehículos con sus respectivas velocidades en kilómetros por hora registrada por el radar. Los resultados de los 20 vehículos fueron: 113.6, 115.0, 117.0, 118.0, 115.9, 84.0, 87.0, 90.0, 110.0, 95.0, 98.0, 99.0, 118.0, 120.0, 121.0, 119.0, 118.0, 111.0, 112.0, 112.6. a) ¿Proveen estos datos suficiente evidencia para apoyar la aseveración de la policía federal de caminos de que los automovilistas están violando el reglamento del límite de velocidad de 110 kilómetros por hora? Usar α 5 0.05. b) Estimar el intervalo de confianza con α 5 0.05 y con α 5 0.1 para el promedio poblacional de velocidad. 6.68 En un esfuerzo por establecer el tiempo estándar para realizar determinada tarea en el ensamble de partes de carburadores para automóviles, el ingeniero de producción de una fábrica selecciona aleatoriamente a 10 trabajadores experimentados para realizar esta faena y se calcula una desviación estándar de 1.22 minutos. El ingeniero de producción afirma que la desviación estándar poblacional es menor que 2.00 minutos. ¿Existe suficiente evidencia para apoyar la aseveración del ingeniero? Usar α 5 0.05. 6.69 Se tomaron las temperaturas de los hornos de ladrillo medidas en grados Celsius (oC) y en grados Fahrenheit (oF). La hipótesis nula es que el promedio de la temperatura del horno es de 50 oC. Hacer la misma prueba, pero con el promedio en oF. La tabla siguiente muestra los resultados de las temperaturas de los hornos en oC. Convertir estas temperaturas a oF para completar la tabla y comparar los resultados de las dos pruebas de hipótesis. ¿Los resultados de la estadística de prueba son iguales para las dos escalas de temperatura? (Sugerencia: Usar la fórmula de conversión de temperaturas de grados Celsius a Fahrenheit dada como: oF 5 9/5(oC) 1 32). Usar α 5 0.05. Temperaturas oC 47

55

68

55

51

50

49

45

53

47

48

51

Temperaturas oF

Problemas de tarea

Revisa tu CD-ROM para encontrar más problemas:

Capítulo

7

Análisis de varianza (ANOVA) Promedios máximos de cadmio

6 5 4 3 2 1 0 1

2

3

4

5

Tipos de laboratorios

Gráfica de las mediciones de los promedios del metal pesado cadmio (sustancia muy peligrosa), las cuales proceden de cinco laboratorios distintos. Los resultados obtenidos por los diferentes laboratorios presentan cierta variación que se observa en la gráfica, esta variación puede deberse al azar o a que los laboratorios tienen métodos diferentes de análisis que dan resultados significativamente diferentes. El análisis de varianza (ANOVA) es una técnica estadística que permite decidir cuál de estas dos conjeturas es la verdadera disminuyendo la probabilidad de cometer un error. En este capítulo se estudiará esta técnica estadística.

Introducción Este capítulo discutirá diseños de ANOVA completamente aleatorizados, métodos de comparaciones múltiples para saber qué poblaciones son iguales y cuáles no, el ANOVA de diseños de bloques completamente aleatorizados y las clasificaciones cruzadas: análisis de varianza de dos sentidos, análisis de varianza de tres sentidos (efectos fijos) e interacciones de ANOVA con dos o más factores. Además, este capítulo demostrará, detalladamente, las aplicaciones de ANOVA usando el programa Minitab.

322

| Estadística para ingeniería y ciencias

7.1 Análisis de varianza simple Al método utilizado para comparar varios promedios se llama análisis de varianza o simplemente ANOVA. En su forma más simple, el análisis de varianza compara varios tratamientos para determinar la igualdad de los promedios. En contraste con las pruebas de z o de t que estudia la igualdad de dos poblaciones, el análisis de varianza estudia más de dos distribuciones, y usa la estadística F. Específicamente, el modelo ANOVA simple estudia las pruebas de hipótesis de la forma H0: µ1 5 µ2 5 µ3 5 . . . 5 µn contra Ha: alguna µi es diferente de las otras.

7.1.1 P ropiedades y suposiciones en el análisis de varianza (ANOVA) 1. Para las pruebas del análisis de varianza se usa la distribución de F. Ésta no es simétrica, sino sesgada, es decir, oblicua hacia la derecha. 2. Los valores de F pueden ser cero o positivos, pero no negativos. 3. La prueba de la hipótesis es siempre unilateral derecha. 4. Hay una distribución de F diferente para cada par de grados de libertad, (g.l.). La figura 7.1 muestra esta situación. Para denotar los grados de libertad con el numerador se usa la anotación y1 y para los grados de libertad en el denominador se usa la anotación y2. 5. Las poblaciones tienen distribuciones normales. 6. Las poblaciones tienen la misma varianza o desviación estándar. Si esta condición no puede ser cumplida, la prueba de F no es válida. En este caso se debe usar una prueba de hipótesis diferente. 7. Las muestras son aleatorias e independientes. Nota: Cuando no se pueden cumplir las condiciones de normalidad o de independencia de los datos, uno se tiene que remitir a la pruebas no paramétricas, que no requieren de estas suposiciones. 8 f r

Z1 4, Z2 25 (grados de libertad)

6

Z1 4, Z2 4 (grados de libertad)

4

Z1 1, Z2 4 (grados de libertad)

2

1

2

3

4

5

F6

Figura 7.1. Gráfica de la distribución F. Hay una distribución diferente de F para cada par de grados de libertad del numerador n1 y del denominador n2.

7.1.2 Diseños de análisis de varianza completamente aleatorizados Existen dos tipos básicos de análisis de varianza: el diseño completamente aleatorizado y el diseño de bloque completamente aleatorizado. En el caso del diseño completamente aleatorizado, conocido como análisis de varianza en un sentido (ANOVA de una clasificación), se asignan los tratamientos en forma aleatoria a las unidades experimentales. En este diseño se sacan las muestras de manera independiente, por tanto, la selección de una muestra no afecta la selección de cualquier otra. Para cada una se puede calcular el promedio, – X j y la varianza s2j. La idea

Capítulo 7 Análisis de varianza (ANOVA)

| 323

de la prueba es que si las medias son iguales para todos los grupos, la variación dentro de los grupos es igual a la variación entre grupos. Si hay diferencia en las medias de los grupos, entonces la variación entre grupos es mayor que la variación dentro de los grupos. Por ejemplo, supóngase que se quiere probar cuatro marcas de neumáticos, 1, 2, 3 y 4, para determinar si hay diferencias con respecto a la duración. Para esto se puede asignar, aleatoriamente, una muestra de 8 neumáticos de cada marca y colocarlos a 8 vehículos (dos con el mismo tipo de llantas), luego se corren los autos en condiciones semejantes de clima, carretera, entre otras y al final se mide el dasgaste de las llantas. Si el deasgaste sufrido tiene igual media para cada tipo de llanta, entonces la variación entre el dasgaste de las llantas de un mismo grupo es igual a la variación en el desgaste de las llantas de diferente grupo. El análisis de varianza (ANOVA) compara estas dos variaciones. El diseño de bloques completamente aleatorizados, se utiliza cuando las unidades experimentales no son homogéneas y debido a eso aumenta la probabilidad de cometer los errores tipo I o tipo II. Por ejemplo, en el caso anterior de las llantas, el interés se ubica en la influencia de la marca de las llantas sobre el desgaste de las mismas, sin embargo, los operarios de los automóviles de prueba pueden introducir una variación adicional no controlada, por lo que sería conveniente que todos los choferes manejaran los autos con los cuatro tipos de llantas, y considerar a cada chofer como un bloque. Una suposición importante del modelo para un diseño de bloques completos aleatorizados es que se supone que los efectos de tratamiento y bloqueo son aditivos. Por ejemplo, para ilustrar esta situación, si se grafican los promedios poblacionales versus tratamientos, digamos de bloque 1 y 2 y, si las gráficas son paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o que no interactúan. Sin embargo, si las líneas se cruzan entre sí, se dice que hay interacción o no aditividad. El formato de la tabla de ANOVA de un sentido completamente aleatorizado se da abajo. La tabla 7.1 da una descripción de todos los componentes de clasificaciones unilaterales o de diseños completamente aleatorizados. Tabla 7.1. Análisis de varianza de un sentido de diseños completamente aleatorizados. Fuente de la variación

Suma de (SS) los cuadrados

Grados de libertad

Cuadrado (MSa) medio

Fcalc.

Ftab.

Tratamientos

SSa

a21

MSa 5 SSa/(a 2 1)

F1 5 MSa/s2

F[12α;a 21,a(n21)]

Error (residual)

SSe

a(n 2 1)

s2e 5 SSe/[a(n 2 1)]

Total

SSt

an 2 1

Valor de p

Donde:

(7-1)

a

n

SSe ∑ yi ) SStexplicada). SSa SSa representa la variación entre las diferentes muestras ∑ ( yij (variación 2

i1 j 1

a

n

a

n

2 SSe ∑ y )2 SS SSa ( y∑ SS∑ ij ∑ (iyij y. .t .) t i1 j 1 a

n

i1 j 1 a n

(7-2)

SS ( y (yy. ij. .) yia) lacasualidad SSt SSa (variacion inexplicada). SSe representa la variación dentroSSde ∑muestras t las e∑ ∑ij ∑ debido 2

2

i1 j 1 i1 j 1

a

n

SSt ∑ ∑ ( yij y. . .)2

i1 j 1

a

n

SSt representa la suma total de los cuadrados y esSSlo mismo (Σyij /n).a yij Σ yij )2 2 SS 2SS ∑ ∑ (que i e t i1 j 1 a

n

SSt ∑ ∑ ( yij y. . .)2 i1 j 1

(7-3)

324

| Estadística para ingeniería y ciencias

Donde:

yij 5 j-ésima observación del i-ésimo tratamiento

y–i 5 promedio de todas las observaciones para el i-ésimo tratamiento y–... 5 promedio de todas las an observaciones o promedio de los promedios

a 5 número de tratamientos

n 5 tamaño de la muestra

Tratamiento. El término “tratamiento” no se refiere a un tratamiento propiamente dicho, sino a diferentes muestras de las cuales es el resultado de distintos factores que estamos analizando. Es decir, combinaciones de un nivel de cada factor en el experimento. Error o residual. Para cualquier juego de mediciones de la misma cosa hay un promedio que se identifica con el “verdadero valor” teórico, es decir, un valor singular, el cual existe, solamente, como un concepto. El “error” o residual se debe a las variaciones de las observaciones individuales acerca de su propia media. Este error algunas veces se llama variación inexplicable, porque el error de la suma de los cuadrados mide la diferencia entre los valores de la muestra que se deben a variación casual, por la que no se encuentra una causa identificada. En estadística, el error puede ser la variación debido a factores incontrolables o a un muestreo de error debido a la naturaleza arbitraria de la muestra seleccionada para representar a la población. El término “error” no es un error en el sentido estricto de la palabra. Valor de p. Esto se refiere al nivel de probabilidad de la cola derecha usando la distribución F. Cuando el valor de p es menor que un valor predeterminado de alfa, digamos 0.05, se rechaza la hipótesis de que la influencia de los términos es cero.

7.1.2 Análisis subjetivos (gráficos) de los residuales para revisar por la adecuación del modelo de ANOVA Las suposiciones del modelo de ANOVA es que las observaciones son normales e independientes con la misma varianza en cada tratamiento o nivel de factores. Esta suposición se hace por medio de examinar los gráficos de residuales para determinar la adecuación del modelo de ANOVA. Por ejemplo, la suposición de normalidad se puede verificar haciendo gráficas de probabilidad normal con los residuales. Igualmente para verificar la suposición de independencia, esto se hace graficando los residuales en función de los valores ajustados y–i, para ver que no haya tendencias definidas y que debe haber, aproximadamente, el mismo número de residuales positivos y negativos. De manera análoga, también se pueden hacer histogramas de residuales y gráficas de residuales versus el orden. Estos diagnósticos gráficos subjetivos se aplicarán en ejemplos usando Minitab.

Ejemplo 7.1. Éste es un ejemplo relacionado con el uso de ANOVA unilateral o de diseño completamente aleatorizado. Para esto se coleccionaron las concentraciones atmosféricas de óxidos de azufre, SO2, en partes por millón (ppm) provenientes de cinco muestreadores localizados a diferentes distancias (aleatoriamente asignadas), de una fuente emisora industrial. Se busca probar la hipótesis nula de que las cinco poblaciones de SO2 son iguales, es decir, H0: µ1 5 µ2 5 µ3 5 µ4 5 µ5. Calcule el valor de p. Los datos se dan en la tabla siguiente. Use un paquete de computadora para procesar los datos.

Capítulo 7 Análisis de varianza (ANOVA)

| 325

Tabla 7.2. Concentraciones de SO2 de los cinco muestreadores. Número de muestreador

1

2

3

4

5

500

550

648

720

890

510

540

630

700

900

490

500

620

710

920

530

520

600

736

880

Solución: Usando un programa de computadora dan los resultados de abajo: Tabla 7.3. Resultados de este problema usando un programa de computadora. Fuente de la variación

Suma de los cuadrados (SS)

Grados de libertad (g.l.)

Cuadrado medio (MSa)

Fcalc.

Ftab.

Valor de p

Entre los grupos

406 132.20

4

101 530.80

296.58

3.06

4.4 3 10214

Dentro de los grupos

5 135.00

15

342.33

Total

411 258.20

En conclusión, al juzgar por el valor de F 5 296.58 .... Fcrítica 5 3.06, la hipótesis nula de igualdad de poblaciones de SO2 se rechaza de una manera muy significante. La aceptación de Ha es contundentemente apoyada por el valor tan pequeño de p 5 4.4 × 10214. Ejemplo 7.2. Los nitratos (NO23) representan la fase más oxidada en el ciclo del nitrógeno. Generalmente, esto ocurre en muy pequeñas cantidades en las superficies de los almacenamientos de agua, pero puede existir en grandes cantidades en algunas aguas subterráneas. En cantidades excesivas, los nitratos pueden ocasionar una enfermedad infantil llamada metemeglobinemia. Por esta razón, el límite establecido para los NO23 es de 45 mg/L para el agua potable. Para los análisis de los nitratos, existen varios métodos. Por ejemplo, un método es el del ácido fenoldisulfónico; otro es el de la reducción de cadmio; otro es el del ácido cromotrópico y, otro más es el de brucina o alcaloide tóxico. Para esto, se hizo un estudio estadístico para comparar los resultados de los cuatro métodos mencionados antes para analizar los nitratos. Los siguientes datos se dan abajo. Para esto, llamemos tratamiento (1) al método del ácido fenoldisulfónico, tratamiento (2) al método de la reducción del cadmio, tratamiento (3) al método de ácido cromotrópico, y tratamiento (4) al método de brucina. La tabla 7.4 da los resultados en mg/L. Suponer un nivel de significancia de 0.05. Hacer los siguientes cálculos: a) Enlistar las suposiciones implicadas por el modelo de ANOVA. b) Hacer una tabla de análisis de varianza y probar que no hay diferencias entre los 4 métodos. c) Estimar el valor de la probabilidad p y sacar las conclusiones apropiadas.

326

| Estadística para ingeniería y ciencias Tabla 7.4. Datos de las concentraciones de nitratos. Tratamiento

Resultados de los seis análisis (mg/L)

1

99

40

61

72

76

84

2

96

84

82

104

99

105

3

63

57

81

59

64

72

4

79

92

91

87

78

71

Solución: a) Las suposiciones implicadas por el modelo de análisis de varianza de una sola clasificación son: 1. Las cuatro poblaciones de los nitratos están normalmente distribuidas. 2. Las varianzas de las cuatro poblaciones de nitratos son iguales. 3. Las 24 observaciones (análisis) son independientes, es decir, que las muestras fueron seleccionadas aleatoriamente. b) Usando un programa de computadora da los resultados de abajo. Tabla 7.5. ANOVA para los resultados del ejemplo de arriba mediante el uso de un programa de computadora. Fuente de variación

g.l.

Suma de cuadrados

Cuadrado medio

Fcalculada

Ftabulada

Valor p

Debido a los métodos

3

940

980

5.99

3.098

0.0044

Error

20

3272

164

Total

23

6212

Nota: El valor de la probabilidad p también se puede calcular manualmente usando la relación 7-4. (λ2 2 λ1) / (F2 2 F1) 5 (λ2 2 X ) / (F2 2 Fcalc.)

(7-4)

Donde: λ2 5 valor porcentual de F más alto que el valor de Fcalc. λ1 5 valor porcentual de F más bajo que el valor de Fcalc. F2 5 valor de la distribución F correspondiente a λ2. F1 5 valor de la distribución F correspondiente a λ1. X 5 valor que se quiere interpolar. Fcalc. 5 valor calculado usando la tabla de la distribución F. El mecanismo que se sigue para interpolar es buscando el valor de la Fcalc. 5 5.99 en la tabla de la distribución F con n1 5 3 (numerador) y n2 5 20 (denominador) y vemos que 5.99 está entre λ2 5 0.001 con F2 5 8.10 (valor más alto) y λ1 5 0.01 con F1 5 4.94 (valor más bajo). En seguida, sustituimos el valor de la Fcalc. 5 5.99 y los demás valores en la fórmula de interpolación (7-4) para dar: (0.001 2 0.01)/(8.10 2 4.94) 5 (0.001 2 X)/(8.10 2 5.99)

Capítulo 7 Análisis de varianza (ANOVA)

| 327

Resolviendo por X 5 0.0038 5 p 5 0.0038. Este valor está de acuerdo con el valor de 0.0044 de la tabla 7.5. En conclusión, el valor de p 5 0.0044 apoya contundentemente la decisión de aceptar Ha. Por otra parte, un método corto para hacer análisis de varianza de un sentido, es decir, manualmente, se da usando el formato de la tabla de abajo. Tabla 7.6. Análisis de varianza (ANOVA) para una clasificación, con muestras de tamaños iguales usando el método abreviado. Fuente de variación Debido al tratamiento Residuo Total

Suma de los cuadrados SSa 5 ∑T 2/n − G /an

2

g.l.

Cuadrado del promedio

a−1

MSa 5 SSa / (a − 1)

Fcalc.

Ftab.

MSa /s 2e F[1− α;a−1,a(n−1)]

Valor de p Estimado

SSr 5 ∑X 2 − ∑ T 2 /n a (n − 1) s 2e 5 SSr /a (n − 1) SSt 5 ∑X 2 − G 2/an

na − 1

Donde: T 2 5 cuadrado de los totales g.l. 5 n 5 grados de libertad n 5 tamaño de la muestra G 5 gran total a 5 número de muestras Ejemplo 7.3. La tabla siguiente muestra los datos de los análisis de demanda química de oxígeno (DQO) hechos por tres laboratorios diferentes. Se tomaron 3 muestras de 5 observaciones cada una. Suponer que las tres muestras vienen de poblaciones normales aleatorias y que tienen la misma varianza. Suponer un nivel de significancia de α 5 0.05. Hacer el problema manualmente aplicando el método corto mostrado en la tabla 7.6. Desarrollar los siguientes enunciados: a) Una tabla con un análisis de varianza para el DQO. b) Establecer la región crítica. c) Probar la hipótesis nula de H0: µ1 5 µ2 5 µ3, o sea que σµ2 5 0, es decir, que los promedios de las tres poblaciones de DQO son iguales. Además, establecer la hipótesis alternativa apropiada. d) Si se rechaza H0: calcular el valor de la probabilidad p. Se da la tabla siguiente con algunos cálculos preliminares:

328

| Estadística para ingeniería y ciencias Tabla 7.7. Valores preliminares de la muestra. Número de muestra

1)

2)

3)

Observación

3

9

1

7

12

2

7

11

6

6

8

4

2

5

7

Totales

25

45

20

– Promedio X

5

9

4

Combinación

G 5 90 – X 56

Solución: Usando las estadísticas de la tabla 7.8, los cálculos son: G 5 ΣT 5 ΣX 5 T1 1 T2 1 T3 1 . . . 1 Tk 5 25 1 45 1 20 5 90, an 5 (3)(5) 5 15 – Promedio general o promedio de los promedios 5 X 5 G/an 5 90/15 5 6 – – – – También, X 5 (X 1 1 X 2 1 X 3)/a 5 (5 1 9 1 4)/3 5 6 ΣX 2 5 688, n 5 5, a 5 3, ΣT 2/n 5 3 050 / 5 5 610 SS(entre las muestras) 5 (2T 2/n) − (2T )2/an 5 2T 2/n 2 G 2/an 5 (252 1 452 1 202)/5 2 [(25 1 45 1 20)2] / [(3)(5)] 5 70.0 Nota: La suma de los cuadrados SSa 5 SS(entre las muestras) mide la variación entre los promedios muestrales. SS 5 ΣX2 − ΣT 2/n 5 Σ(X − – X )2 5 688 − 610 5 78 (dentro de las muestras)

• SSr 5 SS(dentro de las muestras) mide la variación de las observaciones dentro de los promedios muestrales. SS 5 SS 1 SS 5 ΣX 2 − G 2/an 5 Σ(X − – X )2 (total)

(entre las muestras)

(dentro de las muestras)

• SS(total) mide la variación total de las observaciones an. La varianza de los promedios muestrales es: s2x– 5 cuadrado del promedio de SS(entre las muestras) 5 Σ(X − – X )2/a − 1 5 [(5 − 6)2 1 (9 2 6)2 1 (4 2 6)2]/3 − 1 5 (212 1 32 2 22)/2 5 7.0 s2e 5 cuadrado del promedio de SS(dentro de las muestras) – 5 Σ(X − X )2/a(n − 1) 5 SS(dentro de las muestras) /a(n − 1) 5 78/3(5 2 1) 5 6.5 MSa 5 70.0/2 5 35.00 y s 2e 5 78.0/12 5 6.5 y F 5 35.90/6.5 5 5.38

Capítulo 7 Análisis de varianza (ANOVA)

| 329

Sustituyendo todos los valores anteriores en el formato de la tabla 7.6 da lo siguiente. Tabla 7.8. Información relacionada con este ejemplo. Fuente de variación

Suma de los cuadrados

g.l.

Cuadrado del promedio

Fcalc.

Ftab.

Valor de p

Debido al tratamiento

70.0

2

35.00

5.38

3.89

0.021

Residuo

78.0

12

6.50

Total

148.0

14

7.1.3 M étodo de comparaciones múltiples para saber cuáles poblaciones son iguales y cuáles son desiguales Una vez dado que el análisis de varianza encuentra una diferencia significante entre los promedios de los tratamientos, la siguiente tarea consiste en determinar cuáles tratamientos son diferentes. Hay distintas opciones para determinar qué tratamientos son iguales y cuáles no. Ejemplos de éstos son los métodos de Tykey-Kramer, Fisher LSD, Dunnett, Duncan, Newman-Keuls, Bonferroni, etcétera. El análisis de varianza es un procedimiento poderoso para probar la homogeneidad de un grupo de promedios. Sin embargo, si rechazamos la hipótesis de igualdad (H0: µ1 5 µ2 5 µ3 5 µn), y nos inclinamos por la hipótesis alternativa de que cuando menos dos de los promedios son iguales, todavía no sabemos cuáles de los promedios son iguales y cuáles no. El uso del método de comparaciones múltiples implica hacer varias comparaciones emparejadas entre los tratamientos o promedios. Por ejemplo, Walpole y colaboradores (1993) da las funciones para comparaciones emparejadas de pruebas como la de abajo, las cuales dicen que son iguales o que no hay diferencia:

H0: µi 2 µj 5 0

(7-5)

H1: µi 2 µj ≠ 0

(7-5a)

Para hacer estas pruebas emparejadas usamos la versión de t de Student de la forma de:

t

Xi

Xj

s2$n a

Donde: SSa b¨ ( y i i1 – X 5 unos de los promedios que se quiere comparar.

y. . .)2

b

i

(7-6)

SSb a¨ ( y j – X j 5 otro de los promedios que se quiere comparar. j 1

y. . .)2

a b s 5 desviación estándar combinada o la raíz cuadrada del cuadrático promedio del error MS. 2

SS

¨ ¨( y

SSt

¨ ¨( y

e n 5 tamaño de la muestra de cada tratamiento. i1 j 1 a

ij

yi

ij

y. . .)2

b

i1 j 1

j

. . .)

Ejemplo 7.4. Éste es un estudio traducido y adaptado adel libro Probability and Statistics for Engineers and Scientists de Walpole y colaboradores (1993), .)2 un ejemplo del uso de las comparaSSa bn ¨ ( yi...el cual. . da i1 datos relacionados con este problema. Se busca ciones múltiples. La tabla siguiente da los b suponer un nivel de significancia estimando el valor de la probabilidad p. ( . . .)2 SS de αan5 0.05,

¨

...

j 1 a

SSab

b

n ¨ ¨ ( yij... i1 j 1

a

b

n

yi...

y j...

y. . .)2

330

| Estadística para ingeniería y ciencias Tabla 7.9. Datos del número de agregados. Número de agregados 1

2

3

4

5

551

595

639

417

563

457

580

615

449

631

450

508

511

517

522

731

583

573

438

613

499

633

648

415

656

632

517

677

555

679

Adaptación de Probability and Statistics for Engineers and Scientists. Fifth edition. E.R. Walpole, H. Myers. Prentice-Hall, Inc. Nueva York (1993).

Resolver los siguientes enunciados: a) Hacer un análisis de varianza usando en paquete de computadora. b) Probar la hipótesis nula de que la población del agregado 1 es igual a la población del agregado 5, es decir, H0: µ1 5 µ5 contra la hipótesis alternativa de H1: µ1 ≠ µ5. c) Probar la hipótesis nula de que la población del agregado 4 es igual a la población del agregado 5, es decir, H0: µ4 − µ5 5 0, contra H1: µ4 − µ5 ≠ 0. Solución: a) Usando un programa de computadora como Excel da los siguientes resultados. Tabla 7.10. Resultados mediante análisis de varianza de un solo factor. ANOVA Fuente de variación

SS

MS

g.l.

Fcalc.

Entre los grupos

85356.47

4

Dentro de los grupos

124020.3

25

4960.813

Total

209376.8

29

Valor de p

Fcrit.

21339.12 4.301536 0.008752 2.75871

Al juzgar por los resultados obtenidos se rechaza los hipótesis de igualdad de promedios, es decir, H0: µ1 5 µ2 5 µ3 5 µ4 5 µ5, con una probabilidad de p 5 0.009. Tabla 7.11. Agregados y los promedios correspondientes a cada uno. Resumen Grupos

Conteo

Suma

Promedio

Varianza

Agregado 1

6

3 320

553.3333

12 133.87

Agregado 2

6

3 416

569.3333

2 302.667

Agregado 3

6

3 663

610.5

3 593.5

Agregado 4

6

2 791

465.1667

3 318.567

Agregado 5

6

3 664

610.6667

3 455.467

Capítulo 7 Análisis de varianza (ANOVA)

| 331

b) Ahora bien, para probar la hipótesis de que la población del agregado 1 es igual a la población del agregado 5, se usa la relación: H0: µ1 5 µ5 y H1: µ1 ≠ µ5. Usando la función (7-6) y sustituyendo los valores de la tabla 7.11 de µ1 5 553.33, µ5 5 610.67, desviación estándar combinada 5 s 5 4960.813 5 70.43 y n 5 6 da: 2 Xi X j 6 s2$n

t

4960.813

a

b¨ ( y

SS

y. .2.)2 )] 5 21.41 6

a i t 5 (553.33 2 610.67) / [(70.43) ( i1 b

y. . .) absoluto, |−1.41| en la tabla SSpb se abusca ¨ ( y elj valor Para calcular el valor de la probabilidad j 1 de la distribución de t de Student y está entrea 0.05 y 0.10 y por interpolación da p 5 b 2 ( yij que yi “tal jvez” .µ. .) 0.17. Este valor no es significante y, porSStanto, 5 µ5. ¨se¨dice e 1 2

i1 j 1

b c) Aquí se quiere probar la hipótesis nula dea que no hay diferencias entre las poblaSS ( yµ y. . .)2 ¨ ¨ ij . Para esto, se procede en forma ciones de los agregados 4 y 5, esto es,t H0i:1µj415 5 análoga al inciso b) usando los valores de la tabla 11 de µ4 5 465.17, µ5 5 610.67, s 5 a 2 . . .)estos SSSustituyendo bn¨ ( yi... todos 70.43 y tamaño de muestra de n 5 6. valores en la función a i1 4960 . 813 (7-6) da: b

an¨ (

SS

...

t 5 (465.17 2 610.67) / j[(70.43)( 1 a

. . 2.)2 6

b

) 5 23.58

n ¨ ¨ (layij... y. . .) Para calcular el valor de la probabilidadSSpabse consulta tablayi...de laydistribución de t con j... i1 j 1 25 grados de libertad y vemos que el valor p correspondiente a 3.58 está entre 0.0005 a b n 2 n ¨ ¨ de y y , p , 0.001. Por interpolación, el valor p es igual a 0.0008. Este valor SSe calculado ¨ ijk ij... i1 j 1 k 1 apoya, muy contundentemente, la hipótesis alternativa de H1: µ4 ≠ µ5. a

SSt

b

2

n

¨¨ ¨( i1 j 1 k 1

ijk

y. . .)2

7.1.4 Uso del programa Minitab para resolver problemas SS bcn¨ y. . .) de ANOVA (y de una clasificación SS acn¨ ( y y. . .) a

a

i1

2

i...

b

b

j 1

2

j...,

c Ejemplo 7.5. Éste es un estudio relacionado con el ahorro de energía, es decir, de gasolina usando . . .)2 SSb abn¨ ( y k... diferentes tipos de automóviles. Para esto la tareakconsistió en hacer una prueba a seis 1 a b 3, auto 4, auto 5 y auto 6). Para tipos de autos de cada modelo (auto 1, auto 2, auto SS cn ¨ ( ij... y j... y. . .)2 cada uno de los seis autos, en cada una abde las ¨ seis muestrasi...se puso exactamente 10 i1 j 1 litros de gasolina en el tanque. Se tomó una muestra aleatoria de tres para cada tipo a c y y . . .)2 consumir SS bn ( ¨ ¨ ik... similares), de auto. En seguida cada auto se manejóac (en condiciones hasta i... k... i1 k 1 totalmente el combustible. Las distancias manejadas, bajo estas condiciones (en kilób c 2 yresolver . . .)este an¨ ¨ ( jk... Para metros) se registraron como se muestraSS enbc la tabla siguiente. estudio j... k... j 1 k 1 se debe suponer α 5 0.05, hacer una tabla de análisis de varianza y probar que no hay a b c diferencias entre las seis poblaciones muestreadas, interpretar SSabc n ¨además yij...2 ik...los resultados ¨ ¨ ( yde ijk... jk... i... j 1 k 1 del modelo se puede hacer adecuadamente. También si se desea evaluar lai1utilidad a b c n gráficos de residuales, es decir, pruebas de normalidad, residuales versus valores ajus) SSe an¨ ¨ ¨ ¨ (y ijkl ijk... tados, etc. Estos conceptos de momento son unj1poco prematuros, pero seijk...explicarán k 1 k 1 l 1 detalladamente en el capítulo 8 de regresión. a b c n

SSe

an¨ ¨ ¨ ¨ (y ijkl j 1 k 1 k 1 l 1

yijk...

y. . .)

j...

k...

...

332

| Estadística para ingeniería y ciencias Tabla 7.12. K ilometraje de cada uno de los seis modelos después de consumir los 10 litros de gasolina. Tipos de autos Auto 1 Kilometraje

Auto 2

Auto 3

Auto 4

Auto 5

Auto 6

34

38

38

40

38

41

38

38

38

44

39

39

36

35

40

46

42

40

Solución: Seguir las indicaciones del programa Minitab como: 1. Vaya a: Stat → ANOVA → One Way (unstacked). 2. En la ventana de diálogo de One Way Analysis of Variance y en la ventanilla de Responses introduzca las columnas de datos. 3. Si desea evaluar la utilidad del modelo de ANOVA vaya a Graphs y luego seleccione OK. a) La tabla de ANOVA se da abajo. Tabla 7.13. Análisis de varianza. Fuente de variación

g.l.

SS

MS

Fcalc.

Ftab.

Valor de p

Debido a los autos

5

99.78

19.96

5.21

3.11

0.009

3.83

Error

12

46.00

Total

17

145.78

Figura 7.2. Programa Minitab para resolver problemas de ANOVA.

Capítulo 7 Análisis de varianza (ANOVA)

| 333

En conclusión, debido a que Fcalc. 5 5.21 es mayor que 3.11 se rechaza la hipótesis sustentada con un valor de p 5 0.009, el cual es muy significante. b) La figura 7.3 muestra los diagnósticos gráficos para verificar la utilidad del modelo de ANOVA de este estudio. Gráficas de residuales para Auto 1, Auto 2, Auto 3, Auto 4, Auto 5, Auto 6 Gráficas de probabilidad normal de residuales 2

90

Residual

Porcentaje

99

50

1

0

2

10 4

2

0

2

Residual

4

4

36

38

40

Valor ajustado

42

44

Frecuencia

Histograma de residuales 4.8 3.6 2.4 1.2 0.0

3 2

1

0

Residual

1

2

3

Figura 7.3. Esquema de los diagnósticos gráficos.

Con relación a la figura 7.2, debido a que los valores residuales están muy cercanos a la línea, dan un fuerte apoyo a la suposición de normalidad. Igualmente para la prueba de independencia, de valores ajustados versus residuales, hay de manera aproximada el mismo número de residuales positivos y negativos y la variabilidad de los residuos no dependen de modo alguno del valor de y–i., lo que sugiere un buen ajuste del modelo de ANOVA. Esto se explicará detalladamente en el capítulo de regresión.

7.2 Análisis de varianza de diseño de bloques completamente aleatorizados Como se dijo anteriormente, el diseño de bloques completamente aleatorios se usa para reducir el error experimental, ya sea debido a muestras pequeñas o a la variación inherente de las observaciones. Con este tipo de diseño por bloques completos es posible controlar la variación dentro de las muestras (residual) generadas por algún factor indeseable. De manera que, al bloquear las observaciones, se reduce la variación, que tal vez no se pueda controlar cuando se usan diseños completamente aleatorizados. El diseño de bloques aleatorizados también se refiere como ANOVA con dos factores, en el sentido de que se usa I para representar el número de niveles del primer factor A y J para representar el número de niveles del segundo factor B (bloques). Así, hay IJ posibles combinaciones que constan de un nivel de factor A y otro de factor B. Cada una de estas combinaciones se llama tratamiento, por lo que hay IJ diferentes tratamientos. Aquí, en el diseño de bloques, el número de observaciones hechas en el tratamiento IJ se representan con Kij 5 1, el cual es un caso especial del diseño de bloques aleatorizados, donde un solo factor A es de interés principal, y el otro factor (B) bloques es incluido para reducir el error experimental. En la siguiente discusión de ANOVA de dos factores, nos centraremos en el caso de Kij 5 K . 1, para diferenciarlo del diseño de bloques aleatorios con Kij 5 1. De cualquier manera, el término “bloque” se deriva de diseños experimentales agrícolas, en los cuales las parcelas de tierras de cultivos se refieren como “bloques”. Por ejemplo, en el caso del diseño de bloques aleatorios, los tratamientos se asignan aleatoriamente a unidades dentro de cada bloque con características de

334

| Estadística para ingeniería y ciencias

suelos semejantes. De no ser así, las parcelas a las que se le aplica fertilizante, no todas podrían tener el mismo tipo de tierra, nutrientes o humedad (lo que causaría variaciones en los rendimientos agrícolas). Al agrupar las parcelas por características similares de suelos, minerales, nutrientes, humedad, etc., el error experimental se reduce. Otro ejemplo es el relacionado con experimentos médicos. Si los tratamientos son tres drogas y hay 24 pacientes, usando el diseño completamente aleatorizado, ocho pacientes son asignados de manera aleatoria a cada uno de los tratamientos. Pero puede ocurrir que el historial clínico de los 24 pacientes no sea el mismo, lo cual puede afectar su comportamiento con las drogas (lo que puede causar un error o residual grande). Sin embargo, agrupando a los pacientes por historiales clínicos similares, edades, sexo, pesos, fumadores, tomadores, orientaciones sexuales, etc., se controla esta variación. En el caso de la ingeniería ambiental, usando modelos de contaminación atmosférica, se esperaría que las concentraciones de los contaminantes disminuyeran en función de la distancia (siempre y cuando las alturas de los muestreadores fueran iguales, las condiciones meteorológicas fueran uniformes y el tipo de terreno por donde está pasando la pluma fuera similar). Al controlar estos factores, las concentraciones de los contaminantes disminuyen exponencialmente, en función de la distancia de la fuente emisora, sin producir mucha variación. La tabla de abajo da el formato de ANOVA para el diseño de bloques completos. Tabla 7.14. ANOVA de un diseño aleatorizado por bloques completos. Fuente de variación

Suma de los cuadrados

Grados de libertad

Cuadrado medio

Debido a los tratamientos

SSa

a21

MSa 5 SSa/(a 2 1)

MSa/s 21 F[12a;a21,(a21)(b21)]

Debido a los bloques

SSb

b21

MSb 5 SSb/(b 2 1)

MSb/s 22 F[12a;b21,(a21)(b21)]

Residual (Error)

SSe

(a 2 1)(b 2 1)

s2e 5 SSe/[(a 2 1)(b 2 1)]

Total

SS

ab 2 1

Fcalc.

Ftab.

Xi X j t Xi X j t X i s 2X$ nj t Donde: X i s 2X$ nj t t s a2 $ n a2 $ n SSa bs¨ y. . .)22 Suma de cuadrados de tratamientos. a ( yi SSa b¨ y. . .)2 a1 ( y i i (y SSa b¨ y. . .)2 i SSa b¨ y. . .) b1 ( y i i i1 b1 i y. . .)22 SSb a¨ b (y j y. . .)2 Suma de cuadrados de bloques. SSb a¨ b1 ( y j j y. . .)2 (y SSb a¨ j 1 ( y j y. . .) SSb aa¨ b j j 1 aj 1b SSe ¨ yi . . .)22 a ¨ b ( yij j SSe ¨ yi . . .)2 a1 ¨ b 1 ( yij j i j SSe ¨ (y yi . . .)2 Suma de cuadrados del error. j j 1 ( yij i1 ¨ SSe ¨ y . . .) a1 ¨ b1 ij i j j i 2 a 1 j b1 i SSt ¨ y. . .)2 a ¨ b ( yij SSt ¨ y. . .)2 a1 ¨ b 1 ( yij i j SSt ¨ (y y. . .)2 i1 ¨ j 1 ( yij SSt ¨ y. . .) Suma total de los cuadrados. a1 ij i1 ¨ j a 1 j 1 y . . .)22 SSa ibn ( a i... y . . .)2 SSa bn¨ ( a ¨ i1 ( yi... . . .)2 SSa bn¨ i Donde: . . .) SSa bn¨ b1 ( yi... i... i1 b i1 ( . . .)22 SS an¨ b – ... y i... 5 an promedio de ( . .las .) observaciones para el i-ésimo tratamiento. SS b ¨ j 1 ( ... . . .)22 SS an¨ j 1 ( ... .) observaciones para el j-ésimo bloque. SS a1 b ... de. .las ¨ j y–j... 5 an promedio a1 b j SS n ( y yi... y j... y. . .)22 a ¨ b ¨ ij... –ab SyS n ( y yi... las y ab yobservaciones . . .) a b 5 promedio de todas o el promedio de los promedios. ¨ ¨ i1 j 1 ( yij... SS...ab n¨ yi... y j... y. . .)22 j... i1 ¨ j 1 ( yij... SSab n y y y . . .) a b n ¨ ¨ ij... i... j... i1 j 1 y ab 5 j-ésima del i-ésimo tratamiento. ai1 bj 1 observación n yijk yij... 22 SSij...e n ¨ a ¨ b ¨ n y y SSe n ¨ a b n 2 1 yijk i1 ¨ j 1 k¨ yij... SSe n ¨ 2 1 yijk i1 ¨ j 1 k¨ yij... SSe n ¨ a1 ¨ b 1 k¨ n ijk ij... 1 i j 2 a1 j b 1 kn 1( i y. . .)2 SSt a ¨ b ¨ n ¨ ijk y. . .)2 SSt a1 ¨ b 1 k¨ n 1 ( ijk ¨ i j

Valor de p Calculada

(7-7) (7-8) (7-9) (7-10)

Capítulo 7 Análisis de varianza (ANOVA)

| 335

7.2.1 Suposiciones del modelo de bloques aleatorios completos El modelo o diseño de bloques aleatorios completos asume cuatro suposiciones: 1. La respuesta al i-ésimo tratamiento en el j-ésimo bloque proviene de una distribución normal. 2. Las varianzas de las poblaciones ab son todas iguales. Esto se llama homoscedasticidad. Este término se discutirá, nuevamente, en el capítulo de regresión y correlación lineal simple y múltiple. 3. Los promedios de las distribuciones normales ab pueden expresarse en la forma de µ 1 α 1 β. Esta propiedad usualmente se llama aditividad o no interacción. Este término se discutirá, nuevamente, en el capítulo de regresión y correlación. 4. Las desviaciones de los promedios εεij son independientes. Por ejemplo, si se sabe que ε11 es grande, no se puede esperar que ε12 sea pequeña o grande. Una suposición importante del modelo para un diseño de bloques completos aleatorizados es que se supone que los efectos de tratamiento y de bloqueo son aditivos. Por ejemplo, para ilustrar esta situación, si se grafican los promedios poblacionales versus tratamientos, digamos de los bloques 1 y 2, y si las gráficas son paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o que no interactúan. Sin embargo, si las líneas de la gráfica se cruzan entre sí, se dice que hay interacción. En este renglón, si no se cumple la condición de aditividad, conducirá a conclusiones erróneas. El diseño completamente aleatorio tiene muchas aplicaciones en la producción industrial y en modelos educativos. Para esto vamos a usar un ejemplo para ilustrar esta situación. Ejemplo 7.6. Éste es un ejercicio relacionado con un experimento de bloques aleatorios completos para determinar los efectos corrosivos de cuatro sustancias químicas diferentes, v.g., HCl, H2SO4, HNO3 y HF. Estos ácidos gaseosos que entran en el flujo de aire (flujo transportador que entra al equipo de control, el cual se genera de un procesamiento industrial), pasan por los filtros, es decir, en las telas usadas en los filtros o baghouses (hechas de fibra de vidrio, asbestos, dacron, nailon, polietileno), para controlar la contaminación del aire. Para tales fines se seleccionan cinco muestras de telas y se aplica un diseño aleatorio por bloques completos, para probar cada sustancia química, en un orden aleatorio, sobre cada una de las muestras de las telas. Se sacan las conclusiones debidas. Los datos se dan en la tabla de abajo. Hacer lo siguiente: a) Probar la hipótesis nula de igualdad de promedios. b) Hacer una tabla de análisis de varianza de diseño aleatorizado por bloques completos. c) Sacar todas las conclusiones apropiadas. Tabla 7.15. R espuesta de los índices de corrosividad de las cuatro sustancias químicas en las muestras de telas. Tipos de telas Sustancias químicas

Vidrio

Asbestos

Dacron

Nailon

Polietileno

HCl

1.8

2.1

1.1

1.7

1.6

H2SO4

2.7

2.9

0.8

2.5

2.5

HNO3

2.3

2.3

1.1

2.0

1.8

HF

4.4

4.8

2.5

4.4

3.9

336

| Estadística para ingeniería y ciencias Usando un el paquete computadora se dan abajo. Tabla 7.16. A NOVA de los resultados de las resistencias a la corrosión de las telas mediante el uso de un diseño aleatorizado de bloques completos. Fuente de variación

SS

g.l.

MS

Fcalc.

Ftab.

Valor de p

Debido a los ácidos

16.778

3

5.596

68.04

3.49

8.39 × 1028

Debido a las telas

6.593

4

1.648

20.04

3.26

3.03 × 1025

Error

0.987

12

0.082

Total

24.368

19

Debido a que el valor de la Fcalc. 5 68.05 . F0.05,3,12 5 3.49 se rechaza la hipótesis nula de igualdad de tratamientos, y se dice que hay una diferencia muy marcada en la acción de los ácidos, en cuanto el efecto que tienen sobre la resistencia promedio de las telas. Esta contención está muy bien sustentada por el valor tan pequeño de p 5 8.39 3 1028. Por otra parte, en cuanto a modelos estadísticos para controlar la variación, existe otro tipo de diseño para reducir el error experimental llamado cuadrados latinos. Aun cuando el diseño en bloques aleatorizados es muy efectivo para reducir el error experimental (residual), al eliminar una fuente de variación, los cuadrados latinos son muy útiles para reducir dos fuentes de variación, mientras se reduce el número de combinaciones. Este diseño, sin embargo, no se discutirá en este texto.

7.2.2 Uso de Excel para resolver problemas de diseños aleatorizados de bloques completos Ejemplo 7.7. Supóngase que queremos usar cuatro vehículos diferentes para probar el kilometraje dado por cuatro tipos de combustibles. Usando un diseño de bloques aleatorizado se quema cada tipo de combustible en cada uno de los cuatro vehículos, seleccionando aleatoriamente el orden en que se hace esto. Así, se tienen cuatro tratamientos correspondientes a cuatro tipos de combustibles. Es decir, cuatro bloques correspondientes a los cuatro vehículos probados. Los datos se dan en la tabla 7.17. Usando α 5 0.05 y suponiendo que no hay interacción, sacar las conclusiones apropiadas. Tabla 7.17. Kilometraje por litro dado de los diferentes tipos de combustibles y de los cuatro tipos de vehículos. Tipos de automóviles Tipos de gasolinas

1

2

3

4

Gasolina con aditivo

13.5

15.8

17.8

18.9

Gasolina sin plomo

13.2

15.6

17.3

18.7

Gasolina premium

13.3

15.2

17.1

18.5

Gas propano

19.3

18.9

18.8

20.0

Capítulo 7 Análisis de varianza (ANOVA)

| 337

Solución: Usando el programa Excel, se procede así: 1. Introduzca los datos en la hoja de Excel. 2. Vaya a: Tools → Data Analysis 3. En la ventana de Data Analysis seleccione ANOVA: Two-Factor Without Replication y en la ventanilla de Input Range introduzca las columnas de datos y haga clic en OK.

Figura 7.4. Esquema de la ventana de Data Analysis con el análisis de varianza de bloques completamente aleatorizados.

Siguiendo estas instrucciones se generan los datos la tabla 7.18. Tabla 7.18. ANOVA de los resultados del diseño aleatorizado de bloques completos. Fuente de variación

SS

g.l.

MS

Fcalc.

Valor de p

Fcrítica

Vehículos

27.61188

3

9.203958

7.599163

0.00774

3.862548

10.771

0.002465

3.862548

Combustibles

39.13688

3

13.04563

Error

10.90063

9

1.211181

Total

77.64938

15

Conclusiones: De acuerdo con los efectos de los tratamientos (renglones) el valor de Fcalc. 5 7.6 es mayor que la Fcrítica 5 3.86 y se rechaza la hipótesis nula. Esto quiere decir que los tipos de combustibles no tienen un efecto sobre el kilometraje dados por los vehículos. Esta decisión es apoyada por un valor de p 5 0.008 muy significante. Similarmente, de acuerdo con los efectos de los bloques (columnas) el valor de Fcalc. 5 10.8 es mayor que Fcrítica 5 3.86 y se rechaza la hipótesis nula de promedios de bloques iguales. Con esto, se concluye que los vehículos tienen valores de kilometrajes diferentes. Esta decisión es apoyada por un valor de p 5 0.002 muy significante.

338

| Estadística para ingeniería y ciencias

7.3 C lasificaciones cruzadas: Análisis de varianza en dos sentidos El análisis de varianza en dos direcciones, de dos clasificaciones o de dos sentidos es útil para estudiar más de dos tipos diferentes de tratamientos. La característica del diseňño factorial en dos sentidos es que, cada nivel de un factor, se usa en combinación con cada nivel del otro factor. Por ejemplo, considérese el caso de n réplicas de las combinaciones del tratamiento que se determinan por a niveles del factor A y b niveles del factor B. En este aspecto, las observaciones se estructuran por medio de un arreglo rectangular, donde los renglones representan los niveles del factor A y las columnas representan los niveles del factor B. Así, hay ab celdas, cada una de las cuales contienen n observaciones (tamañňo de la muestra). Por ejemplo, si un ingeniero agrónomo investiga el comportamiento de dos tipos de semillas, por medio de variar el nivel del fertilizante, digamos, a tres niveles, alto, mediano y bajo, un factor sería el tipo de semilla y el otro el nivel de fertilizante. Éste sería un ejemplo factorial con dos factores, el cual consistiría en usar seis tratamientos formados por medio de usar cada tipo de semilla con cada nivel de fertilizante. Otro ejemplo, de ANOVA de dos factores está relacionado con la medición de las concentraciones de contaminantes del aire emitidos por una fuente industrial. Aquí para un factor se pueden seleccionar distintos niveles de distancias de la fuente emisora y, para el otro factor, se pueden seleccionar diferentes alturas donde están situados los muestreadores (porque la altura afecta las concentraciones).

7.3.1 Interacción con ANOVA de dos factores Cuando se estudian experimentos factoriales es importante determinar si los factores principales tienen una influencia en la respuesta, también lo es analizar lo que se llama interacción (no aditividad). El texto de Dunn et al. (1974) explica el concepto de la interacción. Por ejemplo, en la figura 7.5, en un experimento que involucra tres niveles de agua y tres de fertilizante, las líneas son paralelas, lo que indica que no hay interacción, o sea que hay independencia en los datos. Esto ocurrió porque los factores tipo de semilla, temperatura, suelos, etc., fueron constantes o controlados. Sin embargo, en la figura 7.6 se observa que, en ambas gráficas hay una respuesta promedio con interacción, es decir, que hay dependencia. En la primera gráfica un nivel alto de fertilizante interacciona positivamente con un nivel alto de agua; mientras que en la segunda gráfica niveles altos de agua y fertilizante dan una respuesta baja, en comparación con la respuesta a niveles bajos y medianos de agua. En términos simples, se dice que hay interacción entre dos factores (digamos A y B), si el cambio en uno de los factores (digamos factor B) produce un cambio en respuesta a un nivel (digamos nivel 1) del otro factor (digamos A) diferente de aquél producido en los otros niveles (digamos nivel 2) de este segundo factor A, donde un nivel es uno de los tratamientos dentro de un factor.

Figura 7.5. Gráfica de una respuesta promedio sin interacción (aditividad), es decir hay independencia en los datos.

Respuesta media

Nivel alto de agua Nivel mediano de agua Nivel bajo de agua

1

2 Nivel de fertilizante

3

Fuente: Adaptación del libro Applied Statistics: Analysis of Variance and Regression. Dunn et al. 1974. John Wiley and Sons. Nueva York, (1974).

Capítulo 7 Análisis de varianza (ANOVA)

Respuesta media

Respuesta media

Respuesta media

Nivel mediano de agua

Nivel mediano de agua

Nivel bajo de agua

Nivel bajo de agua

3 1

2

2

Respuesta media

Nivel alto Nivel alto de agua Nivel alto de agua de agua

Nivel alto de agua

1

| 339

3

1

Nivel de fertilizante Nivel de fertilizante

2

Nivel mediano de agua

Nivel mediano de agua

Nivel bajo de agua

Nivel bajo de agua

31

2

3

Nivel de fertilizante Nivel de fertilizante

Figura 7.6. Gráficas de una respuesta promedio con interacción (no aditividad), es decir, hay dependencia entre los datos. Fuente: Adaptación del libro Applied Statistics: Analysis of Variance and Regression. Dunn et al. 1974. John Wiley and Sons. Nueva York (1974).

Cuando ocurre una interacción en algún experimento es importante investigar por qué ocurrió. Por ejemplo, cuando se establece la tabla de análisis de varianza, se estudian los comportamientos de los efectos principales y también la posible interacción entre los dos factores bajo estudio. En términos estadísticos, si la F calculada es mayor que la F crítica eso indica que los factores están interactuando. No obstante, la interacción puede ocurrir por mera casualidad. Pero también, la interacción puede ocurrir, causalmente, debido a algún valor extremo o factor que no se ha podido controlar. La interacción, también se puede deber a algún problema en los datos o a una respuesta errónea. De cualquier manera, cuando los datos obtenidos indican que existe una interacción grande, los efectos principales correspondientes serán de poca utilidad. Como se verá en el siguiente ejemplo, si hay interacciones entre las alturas y las distancias. Cuando se modelan las emisiones de contaminantes atmosféricos, hay muchas variables que pueden afectar los resultados. En este ejemplo, tal vez hubo cambios meteorológicos imprevistos, emisiones fugitivas o diferencias en los tipos de terreno por donde pasa la pluma de la chimenea. Esto pudo contribuir a la interacción de los dos factores estudiados en ese ejemplo. Situaciones similares pueden ocurrir en estudios de agricultura. Por ejemplo, si el ingeniero agrónomo desea estudiar los rendimientos agrícolas usando dos factores, como el tipo de semilla y la cantidad de fertilizante aplicado, tiene que analizar si hubo interacción entre los factores semilla-fertilizante. Si la hubo, pudo deberse a que, en las parcelas seleccionadas para los cultivos experimentales, no había uniformidad de variables como humedad, tipos de suelos, cantidad de nutrientes, etc. Para remediar esta situación se tendría que hacer un experimento por bloques aleatorizados, es decir, teniendo cuidado de que las parcelas agrícolas fueran todas uniformes en las variables anteriormente descritas. De cualquier manera, la tabla de abajo muestra el formato que se usa para experimentos factoriales en dos sentidos o con dos tratamientos. La tabla 7.19 muestra el formato que se sigue para los análisis de varianza en dos sentidos. Tabla 7.19. Análisis de varianza en dos sentidos. Fuente de variación

SS

MS

g.l.

Fcalc.

Ftab.

Efecto principal Debido a A

SSa

a21

MSa 5 SSa/(a 2 1)

F1 5 MSa/s2e

F[12α;a21,ab(n21)]

Debido a B

SSb

b21

MSb 5 SSb/(b 2 1)

F2 5 MSb/s2e

F[12α;b21,ab(n21)]

Debido a AB

SSab

(a 2 1)(b 2 1)

F3 5 MSab/s2e

F[12α;(a21)(b21),ab(n21)]

Residual

SSe

ab(n 2 1)

Total

SSt

abn 2 1

Interacción de dos factores MSab 5 SSab/(a 2 1)(b 2 1) s e 5 SSe/[ab(n 2 1)] 2

a SSa b¨ y. . .) i1 b ( yi y. . .)22 a i1 SSba b b ( y ij y . . .) ( SSb a¨ y ¨ j ij1 b1 y. . .)22 SSb a¨ j 1 ( y j b b y. . .)2 SS aaa¨ j 1b( y j aa¨ SSbbe ¨ ( yj ij y.y. .) . . .)22 j ¨ 1b( y j y ciencias 340 | SS Estadística (para yij ingeniería yii . . .)2 ¨ ¨ j 1 e j j i 1 1 a b (y SSe ¨ yi . . .) j 1 i1 ¨ ij j a bb a SSe ¨ ( yij yi 2 j . . .)22 j i a1 ¨ b1 SSte ¨ . . .) y. . .) j i a1¨ b 1 ( yijij Donde: SSt ¨ ( yij y.i . .)22 j ii 11 ¨ jj 11 a b SSt ¨ y. . .) i1 ¨ j 1 ( yij a b a (y SSt ¨ y. . .)22 i1 ¨ j ij a1 SSta ¨ y. . .) 2 Suma de los cuadrados debido al factor A bn (7-11) 1 ¨ j a 1 ( yi... . . .)2 SSa iibn ( yij 1 ¨ ij a 1 ( yi... . . .) SSa bn ¨ i 1 i... ab . . .)222 SSa bn¨ i b1 ( yi... an¨ . . .) 2 SSa bn b1 ( yi... i ... ( ... . . .)2 Suma de los cuadrados debido al factor B SS an¨ (7-12) ij b11 . . .)2 SS an¨ j 1 ( ... ba b . . .)2 SS an¨ j 1 ( b ... SS SSab an n jaa1 (¨ y . . .) yi... y j... y. . .)22 b ( ... ij... SSab n ¨ ( y yi... y j... y. . .)2 ¨ ¨ ij... ji 1 j 1 a b (y SSab n ¨ yi... y j... y. . .) Suma de los cuadrados de la interacción i1 ¨ j 1 a bb n ij... a SSab n ¨ (y yi... y2j... y. . .)22 de los factores AB (7-13) ai1 ¨ bj 1 n ij... S S (nyij...yijk yi... yij... y2j... y. . .) nn ¨ SS ¨ ai1¨ bj 1¨ yijk yij... 2 SSeeab n ¨ ¨ ¨ 1 1¨ i j ai bj 11k n1 yij... SSe n ¨ 1 yijk i1 ¨ j 1 k¨ a b nn (7-14) yij... 222 Suma de los cuadrados del error o residual SSe n ¨ 1 yijk i j a1 ¨ b 1 k¨ n SSet n ¨ yy. ij... . .)2 1( yijk i j ¨ ijk a1 ¨ b 1k n ( ijk y. . .)2 SSt ¨ ¨b 11 kk¨ 11 i a 11 j n y. . .)2 SSt ¨ i1 ¨ j 1 k¨ 1 ( ijk a ab n y. . .) SSt i1 a¨ j 1 k¨ 1 ( ijk ¨ (7-15) ( yijk. . .)y22 . . .)2 Suma de los cuadrados del total SSta bcn i1¨ j (1y k¨ ¨ a¨ i...1 SSa bcn y y ) ( . . . ¨ 2 i1i j 1 1 k i...1 a SSa bcn¨ y. . .) 1 ( y i... i ab SSa bcn¨ y. . .)222 i b1 ( y i... SS ac n y ( bcn ib1 i... yy......) ) Donde: SSbba acn¨ y. . .)22 ( y jj..., ¨ ..., 1 j 1 i b SSb acn¨ y. . .)2 j 1 ( y j..., bc A5 factor A SSvariación acn¨ ( y j..., yal. .primer .) j c1debido SSbb ac n¨ y. . .)22 yjk... abn j c1 ((y ..., .) SSvariación abn¨ (y B5 debido al. . segundo factor B c11 ( y k... . . .)22 SSbb abnjkk¨ 1 a c b k... y .)2 SSinteracción abnk¨ AB 5 el. .factor A y B (interacción que ocurre cuando no hay aditividad) a1 ( b entre SSbab abn cn¨ y j... y. . .)22 . . .) (b y(k... a1¨ k ¨ i... k...ij... cn y y. . .)2 ( 2 2SSb 2 2 ¨ ¨ ij... i... j... los cuadrados i 1 1j 1 formación s 1, s 2SS , sab3 y scne son medios y se obtienen dividiéndolos entre sus corresponka bla yde y. . .)2 ¨ i1 ¨ j 1 ( ij... i... ab j... a bc SSabgrados cn¨ y y . . .) ( iade j 1¨ 1 dientes libertad i... c cn¨ yyj... y.y...). .)2 22 ( ij... SSab bn ia1 ¨ j i...i... c1 ( ij... ac yj...k... y. . .))-ésima bn ( ik... ¨ ¨ ik... i... ialas j 1 k 11observaciones k... ac suma de en celda yijk 5SS c y k... lay.(ij . .)22 SSac bn¨ ¨ 1 ( ik... i 1k i... b a c y y . . .) SS bn ( – i k 1 1 ¨ ¨ b de c las ik... i... ac y i.. 5SSpromedio observaciones an¨ y k... ypara . . .)22 el i-ésimo nivel del factor A bn b1 k c 1 ( jk... i ¨ j... ik... i... ac y k... . . .)2 SSbc an¨ ( jk... ¨ j... k... bc j – i k 1 1 b c . . .) an¨ y … 5SSpromedio de lasj... abny k... observaciones ¨ j 1 k 1 (todas jk... bc ba cb c y k... . . .)22 SSbc an¨ ( j ¨ j... a1 k b 1 c jk... – y .j. 5SSpromedio de el j-ésimo nivel del factor y 2 ik...para . . .) jk... an (las n¨ y j... yij... . . .)22B (observaciones j ¨ a1 k b1 ¨ c jk... i... j... k... abc SSbc n¨ yij...k... 2 ik... . . .)2 ( yijk... ¨ ¨ ijk... jk... i... j... k... ji k 1 1 abc j 1 1 k a b c n¨ yijk... yij...2 ik...en lajk... . . .) ¨ ¨ i1 de j 1 k 1 (observaciones y–ij. 5SSpromedio las (ij)-ésima celda i... j... k... abc a b c a b c ny SSabc n ¨ yij...2 ik... . . .)22 j 1 kc¨ 1( jk... i... j... k... ai1 ¨ b n ijk... y (yen y 2 . . .)j-ésimo nivel del factor B ) del factor ann ¨ j 1¨ ¨ 1( kc¨ ¨ observación el nivel yijk 5SS i... j...A y k... ai1¨ b n ijk... ijk... ik... nivel ijk...jk... eabc an¨ ) SSk-ésima (y ijkl elij...i-ésimo ¨ ¨ ijk... j 1 k ijk... e j 11k 1 1k¨ 1 l¨ ai b c n 1 (y ijkl ) SS an ¨ ¨1 k¨c 1 l¨ j 1de k 1 ijk... ijkl primer ijk... e a5 factor a n ) SSnúmero an¨ (ydel j k¨ ¨bb 1muestras ijk... ijkl ijk... e c 1 l¨ n1 a1 k SS an (y y y . . .) ) j k¨ 1k ¨ ¨ ijk... c 1 l¨ n1 a de b 1muestras ijkl segundo ijk... e b5 número del factor SSe an¨ (y ijkl yijk... y. . .) ¨ ¨c 1 l¨ j n1 a 1 k b1k SSe an¨ yijk... y. . .) ¨ j 1 k 1 k¨ 1 l¨ 1 (y ijkl cde ncasos a total b n5 número SSe an¨ yijk... y. . .) j 1 k 1 k¨ 1 l¨ 1 (y ijkl ¨ SSe an¨ yijk... y. . .) j 1 k 1 (y ijkl ¨1 k¨ 1 l¨

Aquí es importante recapitular las suposiciones del modelo de ANOVA en dos direcciones, es decir: j 1 k 1 k 1 l 1

1. Los residuales o errores εijk deben ser independientes. 2. Los residuales εijk deben estar normalmente distribuidos. 3. Los residuales εijk deben de venir de una población con la misma varianza. De no cumplirse con estas suposiciones, el diseño será incierto. Ejemplo 7.8. Para estudiar los efectos de la altura y la distancia en las concentraciones de contaminantes atmosféricos (SO3), que son emitidos por una chimenea industrial se instalaron, viento debajo de la fuente emisora, tres muestreadores, a tres alturas diferentes (tres niveles de A) y, a cuatro distancias distintas (cuatro niveles de B), con dos observaciones obtenidas para cada una de las 12 combinaciones de altura-distancia. Para esto se dan

Capítulo 7 Análisis de varianza (ANOVA)

| 341

los siguientes avances informativos: SSa 5 7.00, SSb 5 20.00, SSe 5 7.0 y SSt 5 45.00. Suponiendo un nivel de significancia de α 5 0.05, resolver los siguientes enunciados: a) Establecer una tabla de análisis de varianza. b) Hacer pruebas de F para demostrar que ninguno de los valores de F, para interacciones de la altura y la distancia, es significativo. Probar la hipótesis nula H’0: de que no hay diferencias en las concentraciones promedio de SO3 en las distancias, cuando se usan tres alturas diferentes, en las cuales fueron situados los muestreadores que están midiendo las concentraciones del bióxido de azufre. Además, probar la hipótesis nula H”0: de que no hay diferencia en las concentraciones promedio en las cuatro distancias a las que se situaron los sensores. Finalmente, probar la hipótesis nula H’’’0: de que no hay interacción entre las diferentes alturas y las distintas distancias de los sensores. c) Ver cuáles efectos principales son significativos. d) Calcular los valores de p. Solución: Usando un programa de computadora se obtienen los siguientes resultados. a) La tabla de ANOVA con los valores sustituidos se da abajo. Tabla 7.20. ANOVA para el problema de los efectos de la altura y la distancia en las concentraciones del contaminante SO3 atmosférico. Fuente de variación

Suma de los cuadrados (SS)

g.l.

Cuadrado medio (MS)

Fcalc.

Ftab.

Valor de p

Debido a la altura (A)

7.00

2

3.50

6.03

3.89

0.023

Debido a la distancia (B)

20.00

3

6.67

11.50

3.49

p ,, 0.001

Debido a la interacción de AB

11.00

6

1.83

3.16

3.00

0.046

7.00

12

0.58

45.00

23

Debido al error Total

b) Las tres pruebas de hipótesis nulas se establecen de la siguiente manera:

H’0: α1 5 α2 5 α3 5 0 (no hay diferencias en las concentraciones promedio de SO3 cuando se sitúan los sensores a las diferentes alturas).

H’’0: β1 5 β2 5 β3 5 β4 5 0 (no hay diferencias en las concentraciones de SO3, cuando se sitúan los sensores en las cuatro distancias de la fuente emisora).

H’’’0: (αβ)11 5 (αβ)12 5 . . . 5 (αβ)24 5 0 (no hay interacción entre las diferentes alturas y las diferentes distancias).

Las pruebas de hipótesis alternativas son:

H 91: cuando menos una de las concentraciones αi (por la altura) difiere de cero.

H 01: cuando menos una de las concentraciones βj (por la distancia) difiere de cero.

H -1: cuando menos una de las (αβ)ij (interacción altura-distancia) difiere de cero.

342

| Estadística para ingeniería y ciencias Conclusión: Se rechaza H 90: y se concluye que las concentraciones de SO3 por el efecto de la altura son diferentes a aquéllas debidas al efecto de la distancia. Esta contención es apoyada por el valor de p 5 0.023. Análogamente, H 00: también se rechaza con un valor muy significativo de p ,, 0.001. La interacción entre la altura y la distancia, es decir, Fcalc. 5 3.16 . Ftab. 5 3.00 está en el umbral de la interacción, con un valor de p 5 0.05. Esto indica que la interacción debe de considerarse. Lo que quiere decir que tienen que considerarse variables como el tipo de terreno, cambios imprevistos en las condiciones meteorológicas, sensores mal situados, mal funcionamiento del equipo, emisiones fugitivas, cuerpos de agua y así sucesivamente. c) y d) explicados por el inciso a). De acuerdo con la tabla todos los efectos son significativos, especialmente, debido a la distancia.

Ejemplo 7.9. Éste es un ejemplo de ingeniería agrícola, el cual hace un estudio de ANOVA de dos clasificaciones relacionado con el rendimiento de algodón. En este experimento se involucran dos tipos de semillas (1 y 2), cada uno de estos factores usados en tres niveles de agua, es decir, bajos, medianos y altos. Saque todas las conclusiones debidas. La tabla de abajo muestra la información requerida para este problema. Tabla 7.21. Producción de algodón en toneladas por hectárea. Nivel de agua Tipo de semilla

Bajo

Mediano

Alto

1

2.4

3.0

2.9

3.0

3.3

3.4

2.3

3.2

3.5

3.3

3.1

3.4

2.9

2.5

4.2

2.7

2.9

4.6

2.4

2.1

4.3

2.5

2.3

4.2

2

Usando un programa de computadora da los resultados mostrados en la tabla 7.22. Tabla 7.22. Análisis de varianza para el experimento agrícola de dos tipos de semillas con tres niveles diferentes de agua. Fuente de variación

g.l.

SS

MS

Fcalc.

F0.05

Valor de p

Tipo de semilla

1

4.25042

4.25042

91.90

4.41

0.000

Nivel de agua

2

0.81333

0.40667

8.79

3.55

0.002

Interacción de semilla y fertilizante

2

0.69333

0.34667

7.50

3.55

0.004

Error

18

0.83250

0.04625

Total

23

6.58958

Capítulo 7 Análisis de varianza (ANOVA)

| 343

Conclusiones: Debido a que el valor de la estadística Fcalc. 5 91.90 es mucho mayor que Ftab. 5 4.41 se rechaza la hipótesis de que no hay diferencias entre los tipos de semillas, es decir H0: µ1 5 µ2 5 µ3 5 µ4 y se inclina por la hipótesis alternativa de H1: µ1 ≠ µ2 ≠ µ3 ≠ µ4. Esta decisión es apoyada por un valor de p muy significativo. Situación similar ocurre con los niveles de riegos. En cuanto a la interacción se ve que los factores semilla y niveles de agua están interactuando porque 7.50 . 3.55. En este caso la interacción pudo ocurrir por mera casualidad, pero también por algún valor extremo o problema relacionado con el diseño experimental.

7.4 Problemas de ANOVA de dos clasificaciones usando el programa Minitab Ejemplo 7.10. Se prueban 16 autos de diferentes tamaños de motores (1.6, 2.3, 3.0 y 3.7 litros) del mismo cilindraje y de dos tipos distintos de transmisiones (manual y automática) con objeto de comparar el consumo de gasolina (en kilómetros por litro), es decir, después de ser manejados bajo condiciones similares. Con un nivel de significancia de α 5 0.05 hacer lo siguiente: a) Hacer una matriz con la información dada e introducirla a la hoja de Minitab. b) Hacer una tabla de análisis de varianza de dos clasificaciones y sacar todas las conclusiones debidas. c) Hacer gráficas de los efectos principales y de los efectos de interacción entre motores y tipos de transmisiones. d) Usando gráficos subjetivos evaluar la utilidad del modelo de ANOVA bidireccional. Tabla 7.23. Kilometraje para los tipos de motores y tipos de transmisiones. Capacidad de las máquinas (litros) Transmisión automática Transmisión manual

1.6

2.3

3.0

3.7

12.5

11.8

11.0

10.0

13.0

11.0

10.9

10.5

14.0

14.1

11.6

15.0

15. 0

12.8

14.5

16.0

Solución: Usando el programa Minitab proceder así: 1. Vaya a: Stat → ANOVA → Two Way 2. Después en la hoja de Minitab introduzca los datos como se muestra en la figura 7.7.

344

| Estadística para ingeniería y ciencias a) La matriz estructurada e introducida a la hoja de Minitab se da en la figura 7.7.

Figura 7.7. Esquemas de la introducción de los datos en la hoja de Minitab así como también la ventana donde se introducen los datos de la variable de respuesta (kilometraje), los factores tipo de transmisión y tipo de máquina.

b) Los resultados de ANOVA se dan en la tabla 7.24. Tabla 7.24. Fuente de variación

g.l.

SS

MS

Fcalc.

Ftab.

Valor de p

Debido a la transmisión

1

31.08

31.08

37.53

5.32

0.000

Debido a la máquina

3

5.79

1.93

2.33

4.07

0.151

Interacción

3

8.16

2.72

3.28

4.07

0.079

0.83

Error

8

6.63

Total

15

51.65

Conclusión: Para los efectos de la transmisión, debido a que la Fcalc. 5 37.53 es mayor que Ftab. 5 4.84, se rechaza la hipótesis de que no hay diferencias entre los efectos de las transmi-

Capítulo 7 Análisis de varianza (ANOVA)

| 345

siones y se inclina por la hipótesis alternativa. Esta decisión es apoyada por un valor de p 5 0.001, el cual es muy significante. En cuanto a los efectos de interacción debido a que Fcalc. 5 1.44 menor que Ftab. 5 3.59 no hay interacción entre el factor transmisión y el factor máquina. c) Para generar las gráficas de los efectos principales y de interacción usando el programa Minitab proceder de la siguiente manera: 1. Para hacer gráficas de los efectos principales entre motores y tipos de transmisiones, vaya a: Stat → ANOVA → Main effects. En seguida, en la ventana de Main Effects y en la ventanilla de Response introduzca la variable de respuesta (kilometrajes en columna 1). En la ventanilla de Factors ponga las columnas C2 y C3 (tipos de transmisión y máquina) y haga clic en OK. 2. Igualmente, para generar la gráfica de los efectos de interacción vaya a: Stat → ANOVA → Interaction Plot. En seguida, en la ventana de Interaction Plot introducir las variables de respuesta y de factores y haga clic en OK. Además, si se desea seleccionar Display full interaction plot matrix. Todo lo anterior genera las gráficas de los efectos principales y de interacción.

14.0 13.5 13.0 12.5 12.0 11.5 11.0

Promedio de kilometraje

Promedio de kilometraje

Efectos principales Efectos principales (promedios (promedios de datos) de para datos) kilometraje para kilometraje 14.5

Tipo transmisión Tipo transmisión 14.5

Gráfica deGráfica interacción de interacción (datos de (datos promedios) de promedios) para kilometraje para kilometraje 1.6

Tipo de máquina Tipo de máquina

14.0

2.3 1.6 3.0 2.3 3.7 3.0 16

Tipo transmisión Tipo transmisión

13.5 13.0 12.5 12.0

16

16

14

14

12

12

10 om ut na

11.0

Transmisión automática Transmisión Transmisión automáticamanual Transmisión 1.6 manual 2.3 1.6

3.02.3

3.73.0

3.7

isió sm

an

Tr

16 Tipo de transmisión Tipo de transmisión

Transmisión automática Transmisión automática

14 Transmisión manual Transmisión manual

12

12

10

10

Tipo de máquina Tipo de máquina

Tipo de máquina Tipo de máquina 1.6 1.6 2.3 2.3 3.0 3.0 3.7 3.7

10

l icaal ua ánt u an ma om nm utn isió nisaió ió m m s niss an srma Tr anT

ic át

11.5

3.7

14

a

Tr

Figura 7.8. Efectos principales y de interacción.

c) Los gráficos subjetivos para evaluar la utilidad del modelo de ANOVA bidireccional se muestran en las gráficas de abajo. Gráficas de residuales Gráficas de probabilidad normal de residuales

Residuales versus valores ajustados

90

Residual

Porcentaje

99

50 10 1

4

2

0

2

2 1 0 1 2

4

11

12

13

14

15

Valor ajustado Residual versus el orden 2

4.8

Residual

Frecuencia

Residual Histograma de residuales 3.6 2.4

1 0 1

1.2 0.0 2.0 1.5 1.0 20.5

0.0

Residual

0.5

1.0

1.5

2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Orden de observación

Figura 7.9. Gráficos subjetivos de residuales. La interpretación de la primera gráfica superior izquierda es que la prueba de normalidad es buena. En la segunda gráfica superior derecha, hay aproximadamente el mismo número de residuales positivos y negativos; además, no hay ninguna tendencia creciente o decreciente en los datos, lo que indica que el modelo es bueno.

346

| Estadística para ingeniería y ciencias

7.5 Análisis de varianza de tres sentidos: diseño completamente aleatorizado (efectos fijos) Cuando se habla de análisis de varianza con clasificaciones cruzadas o diseños factoriales, hay experimentos que involucran más de dos factores, lo cual nos lleva al análisis de varianza de clasificaciones en tres sentidos. Aquí es necesario decir que, en el caso de modelos de ANOVA factoriales en tres clasificaciones todos pueden ser fijos, aleatorios, uno aleatorizado y dos fijos, o dos aleatorizados y el otro fijo. Aquí se verán, únicamente, experimentos con tres factores fijos A, B y C, en los niveles a, b y c, respectivamente, en diseños experimentales por completo aleatorizados y con efectos fijos. Los números de los niveles de los tres factores están representados por I, J y K, respectivamente, y Lijk es igual al número de observaciones hechas con el factor A al nivel I, factor B al nivel J y factor C al nivel K. Pero, es necesario afirmar que el análisis factorial es muy complicado cuando los valores de Lijk no son todos iguales, por tanto, en este estudio se limitará a Lijk 5 L. En el experimento de la producción de cebada teníamos dos niveles, es decir, el factor semilla y el factor fertilizante, pero si este experimento se hiciera con un análisis de varianza de tres sentidos, se le podría agregar otro factor más, es decir, dos niveles de agua. Bajo estas condiciones habría 12 combinaciones de tratamientos, y se supondría que 48 parcelas fueron asignadas aleatoriamente a las 12 combinaciones de tratamientos. Otro ejemplo relacionado con la ingeniería ambiental atmosférica es usando tres factores para medir las concentraciones de gases y partículas contaminantes, v. g., SO2, NO2, Pb, Cd, etc. Es decir, para ver los efectos que tendrían factores como diferentes elevaciones, distancias, tipos de sensores y tipos de terrenos o condiciones meteorológicas. Las clasificaciones cruzadas con tres factores, se diseñaron tradicionalmente, para experimentos agrícolas, pero también tienen muchas aplicaciones en otras áreas. La tabla 7.25 muestra el formato usado para experimentos factoriales de tres factores fijos. Tabla 7.25. ANOVA de tres vías para modelo de efectos fijos. Fuente de variación

SS

g.l.

Cuadrado medio

Ftab.

Fcalc.

Efectos principales A

SSa

a21

MSa 5 SSa/(a 2 1)

MSa/s21

F1[12α;a21,abc(n21)]

B

SSb

b21

MSb 5 SSb/(b 2 1)

MSb/s 2

F2[12α;b21,abc(n21)]

C

SSc

c21

MSc 5 SSc/(c 2 1)

MSc/s23

F3[12α;c21,abc(n21)]

2

Interacción de dos factores AB

SSab

(a 2 1)(b 2 1)

MSab 5 SSab/(a 2 1)(b 2 1)

MSab/s24

F4[12α;(a21)(b21),abc(n21)]

AC

SSac

(a 2 1)(c 2 1)

MSac 5 SSac/(a 2 1)(c 2 1)

MSac/s25

F5[12α;(a21)(c21),abc(n21)]

BC

SSbc

(b 2 1)(c 2 1)

MSbc 5 SSbc/(b 2 1)(c 2 1)

MSbc/s26

F6[12α;(b21)(c21),abc(n21)]

MSabc/s27

F7[12α;(a21)(b21)(c21),abc(n21)]

Interacción de tres factores ABC

SSabc (a 2 1)(b 2 1)(c 2 1)

Residual

SSe

abc(n 2 1)

Total

SSt

abcn 2 1

MSabc 5 SSabc/[(a 2 1)(b 2 1)(c 2 1)] s2e 5 SSe/[abc(n 2 1)]

¨ j1 a 1 b ... ib i... . . .)22 SS a an¨ bj1 ¨ a 1( b ... i SS an ab1 (¨ b ...( y . . .) S S n y2 2 y j... y. . .)22 ¨ j ¨ ij... ab SS an ab1( ¨ b ... ( y . . .)yi... S S n ¨ ¨ j (jb1 (...yij... . . y.)i... y ia1 ¨ SSS Sab an n¨ y j... y y.. .. .) .)2 (j1 nyij...ij... . .y.)i...i...2 y j...j... y. . .)22 i1a1¨ SSS Sabab an nj¨ 11 bjb1(... ij a¨ SSab n ¨ (y y y j... y. . .) aia bb j 1¨ b1 n ij... a1 jb SSS Sabe nn ¨ ( nyij... yijkyi... y 22 y. . .)22 i... yij... j... iaa1 ¨ j b1 ¨ SS n ( y y y y .y...). .)2 2 a b n n y y SS ¨ ¨ Sab Se nn¨ (ij... y ijk i...y ij... j... y 11 ¨ 11 k¨ iai jbj SS ¨ ¨ n 1 ij...yijk i...yij... 2 j... 11 j¨ 11 k¨ SSeeab ni¨ (y11 ij...yijk yi...yij... y2 j... y. . .)2 ¨ i j SS j 1jb 1knn ab n ¨ 1¨ 1¨ ia ai b¨ y 22 SSe n ¨ aia1i¨ b1 bj ¨ 1n n 1 yijk a j bb1 k¨ SS nn1 (yijk y.ij... . .)2 22 SSet nn ¨ ij... aa1 ¨ b1 k¨ i¨ j¨ Donde: ijk n y y SS a b n ( y SS 1¨ 11¨ 11 ( ijk i¨ j¨ kk¨ e t n¨ yijk y.. ..ij....) SS i j yij... .)222 SS ¨ ¨ ¨ a11j b n ¨ ¨ ¨ ijk e ijk t 1 1 i k y SSt e n¨ i¨ j¨ k¨ 1¨ 1¨ 1( y y . . .) SS a b n ijk ij... 1 1 1 i j k ijk i1 aj 1 k 1 (1 ijk y. . .)22 SSt aii nk ¨ 1¨ 1¨ j jba a1 ¨ b1(k¨ n1 ( y. . .)y2. . .) SS a SS bcn y 2 ¨ ijk j 1 k i... ta ¨ n1( SS aj b1(¨ SS bcn yi... .. .. ..y)).22y...). .)2 ¨ii¨a11¨ 1 (ijky t a SS 1 (ky¨ ia SS bcn y 2 ¨ 2 ¨ ijk t a i... i¨ 1 ji¨ 1 ( y. . .) y. . .) SS bcn 11(ky¨ SS 2 ijk bj1 1 i1a SSaat bcnii¨ ( y11 kki... ai ¨ 1 b1j 1 y. . .)2 2 i... ba ((yy SS yy. . .).)2 SSab bcn acn¨ ba1( y SS ac n ( yi...i...jj..., SS bcn y.yy...).. 2..) ¨ ¨ii¨ ..., 11 ( y ab jb SS ac n .))222 SS bcn ¨ ..., b j a i... j1b1((yy SS ni¨ y . . .) SSba ac bcn y ) . . . ¨ jic1 j..., i... SSb acn¨ y. . .)222 bj c (y i bc11((yyj..., SS ac n y . . .) . . .) SS abn 2 ¨ 2 1 bb acn j ¨ SS y.y....).. .) cb1( y SS abn ( y...,j...,k... ¨ bb SS ac¨ nj¨ .)2222 k... 1( jy k SS abn j..., k... 1c1((y j ¨ SSbbbb abn acn y y . . .) k . . .) SS j..., 11 b k... kajc . . .)22 SSb abnk¨ caj ¨ 1(by k... a c1¨ SS (by(k... ij... . . .)i... SSbab abn cn¨ y y. . .)22 2 k 1 a b SS cn ( 2 y j... c(¨ y . . .) SS abn ¨ ¨ ij... i... ab j... k 1 k... b i j 1 1 SS cn¨ y.. .. .) .)22 . . i... .)2 y j... y SSab abn a¨ b( y(k...ij... ¨ 11¨ jb 1y ki SS y y . . .) ( . . .) SSabbb cn abn ( a ¨ ¨ i... iak 11j c1 k... SSab cn¨ y j... y. . .)22 2 ( ij... aiak1 bj ¨ i... j... 1 cb1 ( ij... SS cn y y. . ..)2. .)2 a c y SS bn ( ¨ ¨ ij... i... i b1 1 j¨ ab j...k... y. .y.) ¨ ac cn 2 SS aa1¨ c1( (ij...ik... i... i... y j... y y. .. .) .. .) SS bn ¨ ¨ ¨ i abac i... SS cn y k... yy 1 ( ik... ia 1j k y .)222 SS bn c ¨ ¨ ij... i... ab j... ik... i... k... y i¨ 1j1k 11(( SSacacab bn cn . . .) i y y . . .) SS ¨ b1¨ c 1 ik... ij... j... i... ia kjc y k... y. . .)222 SSac bn¨ b11k c11( ik... ai cj ¨ i i... ba ¨ cc (( yyk... y.....).) SS SSacbc bn an¨ 2 2 ¨ ¨ ¨ ik... i... jk... j... i k 1 1 k... k... ba ¨ c c( ( y SS an y k... y.y....).. .) SS bn ¨ jk... k... i...j... i¨ acbc jb1¨ 1kk 11 ( ik... y .)2222 SS an SS bn c ¨ ¨ jk... j... ik... i... k... bc k... j k 1 1 i k 1 1 y . .) SS an ( y y . . .) SSbcac bn ( c ¨ ¨ j...i... jb kk ik... a1¨ b 11 cjk... i k... y k... . . .)22 SSbcac an¨ bj ck ¨ ¨ a11k b1 1( cjk... j... k... i b c y . . .) SS an ( a b c SSbcabc ann¨ 2 ik... 2 jk... ¨ jk...( y j... yij...k... j¨ b1 k c1 ¨ ¨ 2 . . .) SS a1¨ b 1( ¨ c ( yijk... SS n y 2 ¨ ¨ ¨ jk... j... j k k... bc ik.... . .) jk... y2 SSabc an ia1 ¨ jb 1 ( 1 ( yijk... j... yij... k¨ SS n¨ cjk... k... ik.... . .)2 jk... bc 1 1 ( SSabc an i1ak1 jb kc 1( y ijk... SS nj¨ y ij...y2 ¨ k 11¨ 1¨ bc jk... ij j 1 n ijk... j... ij... k... ik... kc jk... a¨ b SSabc n y y 2 ( a b c ¨ ¨ ¨ j k 1 1 ij... ik... jk... ia a1 j bb1 kcc1 n ijk... abc SS n y 2 ( a b 1¨ c 1¨ nyijk... ) SS an (y ¨ ¨ ij... ik... jk... i j 1 k abc ¨ ¨ ijk... ijkly 2 ijk... e b¨ c(ny SS n n¨ aia1¨ b SS an (y ¨ ¨ ijk... ij... jk...) j 1kkc 11l¨ abc ijk...ik... SS y y 2 ( ijkl i jk... e j k 1 1 1 ) SS an (y ¨ ¨ ¨ a 1 j¨ b 1 k¨ c 1 ¨ n ¨ ijk... ijkl ij... ijk... ik... ijk...jk... abc e i SS n y y 2 ( j k k l 1 1 1 1 SSe abc an¨ (y ij... ijk... ik... ijk...)jk... i j 1kb ja k1c l1n 1¨ 1¨ 1¨ ck¨ n 1 ijk...ijkl a¨ b¨ ) SSe an¨ (y aj ai1k b1bj1k¨ c1 ck ¨ n ¨ 1n1 a¨ b cc1 l¨ n (y ijkl SS an SSee an an¨ yijk... y.iijk... . .))) ijk... j¨ aa1 k bb1 k¨ c1 l ¨ nn1 (yijkl ¨ ¨ ijk... ijkl SS c 1¨ n 1 (y(y a 1¨ b 1¨ SS an y y ..jk... .. .) ¨ ¨ ijk... j¨ kk kk¨ l l¨ ijklijkl e e ijk... SS an (y j 1 1 1 1 SS an (y y yijk... .) ) c1 l ¨ n1 a1 k b1 k ¨ ¨ ¨ ijk... ijkl ijk... e ijk... ijkl e j ) SSe e an an¨ (y k¨ l¨ j¨ 1¨ k¨ 1¨ 1¨ 1 (y SS y y . . c n a b ijk... jj k l 11 kk 1 1 1 ijkl i.) jk... ijk... 1 k 1 l 1 ijkl SSe an¨ (y y y . . .) ck1 1l¨ n aj bk j l 1 1 1¨ 1¨ ijk... c ¨ n (y ijkl a1 k b1 k¨ SSe an¨ y y . . .) ¨ ijk... k b1 k c1 l n1 ijkl SSSS anan (y(y yijk... ¨jj¨a11¨ k¨ l k¨ 1¨ 1¨ 1 ijkl e yijk... y.y...). .) ¨ ijkl j ¨ 1 k ¨ 1 k ¨ 1 l ¨ 1 SSee an (y y y. . .) ijk... j 1 k 1 k 1 l 1 ijkl

Capítulo 7 Análisis de varianza (ANOVA)

| 347

(7-16) (7-17) (7-18) (7-19) (7-20)

i... i... i... i... i... i... i... i... i...

j... j... j... j... j... j... j... j... j...

k... k... k... k... k... k... k... k... k...

. . .)22 .. .. .) .)2 . . .)22 . . .)2 . . .) . ...). 2.)2 . . .)2

(7-21)

(7-22) (7-23) (7-24)

j 1 k 1 k 1 l 1

La simbología usada en las fórmulas anteriores se define de la siguiente manera: y–i… 5 promedio de las observaciones para el i-ésimo nivel del factor A. y– 5 promedio de todas las abcn observaciones. ....

y–.j.. 5 promedio de las observaciones para el j-ésimo nivel del tratamiento B. y– 5 promedio de las observaciones para el k-ésimo nivel del tratamiento C. ..k.

y–ij.. 5 promedio de los casos para el i-ésimo nivel del factor A y el j-ésimo nivel del factor B. yijkl 5 denota la l-ésima observación de la combinación del ijk-ésimo tratamiento.

7.5.1 Interacción con ANOVA de diseños factoriales de tres clasificaciones En cuanto al impacto de interacciones, cuando se diseñan análisis de varianza en tres sentidos, es importante estar consciente de esta situación, porque la interacción puede impactar la interpretación que se hace con respecto a los efectos principales. Además, la presencia de interacción puede descubrir situaciones importantes que ayuden a modificar el diseño experimental original, para hacerlo más representativo. Las interacciones usualmente ocurren cuando los efectos principales son muy grandes, pero pueden desaparecer cuando el investigador estadístico aminora las diferencias entre los niveles de un tratamiento, haciendo con esto que los efectos principales sean menos pronunciados. Con la ingeniería atmosférica las mediciones de la contaminación del aire se hacen modelos de difusión atmosférica. Usualmente, esto se hace para validar estudios de difusión atmosférica o para estudios de impac-

348

| Estadística para ingeniería y ciencias

to ambiental. Por ejemplo, una aplicación sería medir las concentraciones que ocurren a lo largo de la pluma. Para un diseño factorial con tres tratamientos, se puede agregar otro factor más al ejemplo de la difusión atmosférica con dos tratamientos, el cual explicamos antes. En este caso, además de los factores distancia y altura, podemos agregar un tercer factor relacionado con diferentes marcas de muestreadores. En cuanto el efecto de interacción, en estudios de impacto ambiental usando modelos de difusión atmosférica, la interacción de los factores bajo estudio puede descubrir situaciones que afecten el estudio. Aunque si bien los modelos de difusión atmosférica suponen condiciones climatológicas uniformes, las emisiones fugitivas o las diferencias en los tipos de terrenos como arena, arcilla, piedras, agua, tipo de vegetación, etc., por donde pasa la pluma de la chimenea, pueden ocasionar que los factores bajo estudio interactúen. Situaciones similares pueden ocurrir con diseños factoriales aplicados a la agricultura cuando se aplican dos factores como tipos de semilla y niveles de fertilizantes. Aquí se puede agregar otro factor más, el nivel de agua para hacer un diseño factorial, es decir, con tres factores. Sin embargo, si hay interacción, tal vez los tipos de suelos de las parcelas no tienen las mismas características de humedad, de tipos de suelos, tipos de temperaturas, tipos de nutrientes, etc.; en cuyo caso hay que remitirnos a los diseños de bloques completamente aleatorizados. Ejemplo 7.11. En un estudio hipotético de difusión atmosférica, es decir, usando un modelo de difusión atmosférica, se hicieron análisis de concentraciones de contaminantes del aire las cuales se midieron en cuatro distancias diferentes a lo largo de la pluma (500, 1 000, 1 200 y 1 500 metros), en dos alturas distintas (500 y 800 metros) y con cuatro marcas diferentes de sensores, y con tamaños de muestras de tres observaciones para cada una de las combinaciones de niveles de los tres factores. Para esto se dio una avanzada de los valores en la siguiente forma: suma de los cuadrados del factor A 5 SSa 5 1.50, suma de los cuadrados del factor B 5 SSb 5 19.40, suma de los cuadrados del factor C 5 SSc 5 147.00, suma de los cuadrados de la interacción de factores A y B 5 SSab 5 0.006, suma de los cuadrados de la interacción de factores A y C 5 SSac 5 4.83, suma de los cuadrados de la interacción de B y C 5 SSbc 5 2.64, suma de los cuadrados de la interacción de los factores A, B y C 5 SSabc 5 0.75, suma total de los cuadrados 5 SSt 5 183.72. Al asumir un nivel de significancia de 0.05. Se probarán las hipótesis de los efectos principales sólo si todas las interacciones no son significativas. Hacer lo siguiente: a) Asignar los simbolismos apropiados para cada uno de los componentes de la fuente de variación. b) Hacer una tabla de análisis de varianza que incluya la F crítica y el valor de p. c) Hacer pruebas de significancia sobre los efectos principales. d) Hacer una prueba de significancia sobre todas las interacciones. Solución: a) Las distancias de los muestreadores situados a lo largo de la pluma, es decir, viento abajo, son el factor A con i 5 4. Las diferentes alturas a las que están situados los muestreadores son el factor B con j 5 2. Finalmente, los muestreadores son el factor C con k 5 4. El número de casos es n 5 3. Por tanto, el número de combinaciones es 4 3 2 × 4 5 32 y el número total de observaciones es 32 3 3 5 96. b) El análisis de varianza se da en la tabla 7.26.

Capítulo 7 Análisis de varianza (ANOVA)

| 349

Tabla 7.26. D atos y el llenado de los faltantes en la tabla, de acuerdo con los datos proporcionados por el problema. Cuadrado del promedio

Fuente de variación

SS

g.l.

Debido a A

1.50

3

0 .50

Debido a B

19.40

1

Debido a C

147.00

3

Fcalc.

Ftab.

Valor de p

4.17

2.76

0.0098

19.40

161.17

3.94

p ,,, 0.001

49.00

408.33

2.76

p ,,, 0.001

Efectos principales

Interacción de dos factores Debido a AB

0.006

3

0.002

0.02

2.76

p . 0.100

Debido a AC

4.83

9

0.54

4.50

1.97

p , 0.001

Debido a BC

2.64

3

0.88

7.33

2.76

p , 0.001

Debido a ABC

0.75

9

0.08

1.97

p . 0.100

Error

7.59

64

0.12

Total

183.72

95

Interacción de tres factores 0.67

Conclusión: Los efectos principales son significativos sustentados con valores de p que son muy pequeños, de 0.009 y p ,,, 0.001. Al juzgar por estos valores de p, existen efectos principales muy fuertes de distancia, altura y sensores (las diferentes alturas, distancia) y tipos de sensores sí afecta el promedio verdadero de las concentraciones de contaminantes; los niveles de los contaminantes si dependen de esas tres variables). Por otro lado, debido a que F7 5 MSabc/s27 5 0.67 , F7[0.05;9,64] 5 1.97, las interacciones entre los factores distancia, altura y sensores no son de importancia. Sin embargo, las interacciones AC y BC son variables importantes del experimento. En el análisis de varianza, también hay lo que se llama diseños factoriales con todos los factores a dos niveles. Aquí se incluyen temas como combinaciones ortogonales lineales, diseños de replicaciones fraccionales, diseños anidados o jerárquicos, cuadrados latinos, etc. Estas funciones, sin embargo, no se discutirán aquí. El análisis de varianza también se puede aplicar a problemas de regresión lineal y múltiple para evaluar la significancia total de la ecuación de regresión, es decir, probando la hipótesis nula de que todos los coeficientes poblacionales del modelo de regresión son iguales a cero. Este tema, sin embargo, se discutirá más ampliamente en el capítulo dedicado a regresión múltiple.

7.5.2 U so del programa para resolver análisis de varianza de tres clasificaciones con efectos fijos Ejemplo 7.12. Éste es un ejercicio relacionado con un experimento de análisis de varianza de tres clasificaciones, es decir, tres factores fijos. Este ejemplo está encaminado a ilustrar

350

| Estadística para ingeniería y ciencias cómo se estructura una matriz con los datos que se introducen en el programa Minitab, para construir una tabla de ANOVA de tres clasificaciones y sus gráficas de efectos principales, de efectos de interacción y de diagnósticos gráficos para la validación del modelo. Se debe suponer un nivel de significancia de α 5 0.05. Para esto, haga lo siguiente usando el programa Minitab (versión 14): a) Siguiendo las instrucciones dadas por el programa Minitab explicadas abajo, cree una matriz con los datos del problema. Una vez hecho esto, introduzca manualmente los datos del problema y, de nuevo, estructure la tabla de análisis de varianza de tres clasificaciones. b) Después, siga las instrucciones a fin de generar gráficas de residuales para la evaluación del modelo de ANOVA. c) Luego, siguiendo las instrucciones del paquete Minitab, haga gráficas para analizar los efectos principales y las interacciones que pudieran suscitarse. d) Saque todas las conclusiones debidas y analice los resultados de los criterios estadísticos para la evaluación del modelo. Los datos se dan en la tabla 7.27. Tabla 7.27. Tabla con información para este ejercicio. Factor B1 Factor A1

Factor A2

Factor A3

Factor B2

Factor C1

Factor C2

Factor C1

Factor C2

20.0

11.0

13.0

13.0

20.0

12.0

12.0

12.0

17.0

10.0

12.0

13.0

19.0

12.0

13.0

13.0

20.0

16.0

14.0

11.0

20.0

19.0

17.0

10.0

19.0

17.0

12.0

8.0

20.0

18.0

13.0

8.0

17.0

22.0

20.0

14.0

18.0

22.0

22.0

15.0

18.0

22.0

21.0

14.0

18.0

21.0

21.0

16.0

Solución: Aquí, el factor A tiene tres niveles (i 5 1, . . . , a 5 3); el factor B dos (j 5 1, . . . , b 5 2) y el factor C dos (k 5 1, . . . , c 5 2) o sea 3 × 2 × 2 5 12 posibles combinaciones de tratamientos. Además, hay l 5 1, . . . , n 5 4 observaciones en cada uno de las abc combinaciones de tratamientos (celdas) o sea abcn 5 3 3 2 3 2 3 4 5 48 observaciones. A continuación se muestra el procedimiento para construir una tabla de ANOVA de tres factores o en tres sentidos para los datos de este problema señalados en la tabla 7.27.

Capítulo 7 Análisis de varianza (ANOVA)

| 351

1. Vaya a: Stat → DOE → Factorial → Create Factorial Design. 2. En la ventana Create Factorial Design seleccione General Full Factorial Design señalado en el encabezado de Type of Design. En la ventanilla de Number of Factors escoja el diseño factorial deseado (tres factores, en este caso). 3. Dentro de la ventana de Create Factorial Design y en la ventanilla de Number of Factors seleccione el diseño factorial deseado (tres factores en este caso). Dentro de esta misma ventana vaya a Designs y aparecerá la ventana Create Factorial Design-Designs. Ponga el número de niveles de cada factor A, B, C, en este caso, 3 niveles para el factor A y dos niveles para los factores B y C, respectivamente. Además, en la ventanilla de Number of replicates ponga el número de réplicas (4 en este caso) y dé OK. 4. Todo lo anterior lleva, nuevamente, a la ventana Create Factorial Design. De ahí vaya a la ventanilla de Results y donde aparece la ventana Create Factorial Design-Results, seleccione Summary Table and Design Table y haga clic en OK. Esto crea la matriz de datos (con 7 columnas de las cuales las primeras 4 no se usan). 5. Ahora proceda a ingresar manualmente los valores de Y para los factores A, B y C con sus respectivos niveles (en este caso tres niveles para el factor A y dos para los factores B y C, respectivamente). Esta situación se ve en la figura 7.10. 6. Una vez hecho lo anterior, vaya a Stat → DOE → Factorial → Analyze Factorial Design y luego haga clic en OK. Con esto, aparece la ventana Analyze Factorial Design y ponga C8 (los valores de Y) en la ventanilla de Response y presione OK. Esto genera la tabla de ANOVA de tres sentidos dados en la tabla 7.28.

Figura 7.10. Esquema de los valores de los factores A, B y C (columnas C5, C6 y C7) siguiendo las instrucciones hasta el inciso 4. Además muestra la columna C8 con los valores de respuesta introducidos manualmente siguiendo las instrucciones del inciso 5. Nótese que las primeras cuatro columnas no se usan.

352

| Estadística para ingeniería y ciencias Tabla 7.28. Resultados de ANOVA de 3 sentidos. General Linear Model: Y versus A, B, C Factor

Type

Levels

Values

A

fixed

3

1, 2, 3

B

fixed

2

1, 2

C

fixed

2

1, 2

Analysis of Variance for Y, using Adjusted SS for Tests Source

DF

Seq SS

Adj SS

Adj MS

F

P

A

2

210.875

210.875

105.438

87.76

0.000

B

1

172.521

172.521

172.521

143.60

0.000

C

1

93.521

93.521

93.521

77.84

0.000

A*B

2

62.542

62.542

31.271

26.03

0.000

A*C

2

16.792

16.792

8.396

6.99

0.003

B*C

1

7.521

7.521

7.521

6.26

0.017

A*B*C

2

167.792

167.792

83.896

69.83

0.000

Error

36

43.250

43.250

1.201

Total

47

774.813 S 5 1.09608 R-Sq 5 94.42% R-Sq(adj) 5 92.71%

Unusual Observations for Y Obs

Y

Fit SE

Fit

Residual

St Resid

6

17.0000

14.0000

0.5480

3.0000

3.16 R

30

17.0000

19.0000

0.5480

2.0000

2.11 R

34

12.0000

14.0000

0.5480

2.0000

2.11 R

R denotes an observation with a large standardized residual.

7. Optativamente, si desea generar diagnósticos gráficos de residuales haga lo siguiente: a) Vaya a Stat → DOE → Factorial → Analyze Factorial Design → Graphs → Standardize → Four in one → OK. b) En la ventana de Analyze Factorial Design vaya a la ventanilla de Graphs. c) En la ventana de Analyze Factorial Design-Graphs seleccione (si se desea) Standardize, Four in One y luego haga clic en las teclas de OK.

99 90 50 10

1 23.0

21.5

0.0

1.5

Standardized Residual

3.0

16 2 8 4 0

Residuals versus the Fitted values 2 0

22

Standardized Residual

Figura 7.11. Diagnósticos gráficos para la evaluación del modelo de ANOVA de tres sentidos.

Frequency

Histogram of the Residuals

Standardized Residual

Residuales Plots for Y Normal Probability Plot of the de Residuals

Porcent

Todas estas indicaciones generan las gráficas de los residuales para evaluar la utilidad del modelo de ANOVA como se muestra en la figura 7.11.

10

15

Fitted Value

20

Residuals versus the Order of the Data 2 0

22

22

21

0

1

2

Standardized Residual

3

1 5 10 15 20 25 30 35 40 45

Observation Order

Capítulo 7 Análisis de varianza (ANOVA)

| 353

8. Para hacer las gráficas de los efectos principales haga lo siguiente: a) Vaya a Stat → DOE → Factorial → Factorial Plots. Esto lleva a la ventana de Factorial Plots. Ahí seleccione la ventanilla de Main effects, la ventanilla de SETPUP y oprima OK. Esto lleva a la ventana de Factorial Plots-Main Effects. Ahí en la ventanilla de Responses ponga C8. b) En seguida, en el encabezado de Factors to include plots y en la ventanilla de Selected escoja las dos primeras desigualdades (. y ..) y aparece A:A, B:B y C:C. Luego en la ventanilla de Options ponga el título de la gráfica y seleccione OK. Esto genera la gráfica de los efectos principales como se ve en la figura 7.12. Gráfica de efectos principales de los factores A, B y C A

19.5

B

18.0

Mean of Y

16.5

Figura 7.12. Gráfica de efectos principales.

15.0 1

2

3

1

2

C

19.5 18.0 16.5 15.0 1

2

9. Para generar las gráficas de los efectos de interacción, vaya nuevamente, a la ventana de Factorial Plots-Interaction y seleccione Options, lo que lleva a la ventana de Factorial Plots-Interaction, ahí escoja Draw full interaction matrix y ponga el título de la gráfica, luego seleccione OK. Esto genera la gráfica de los efectos de interacción. Estas gráficas se observan en la figura 7.13. Gráfica mostrando las interacciones 1

2

20

A

16

Figura 7.13. Gráfica de las interacciones de los factores A, B y C.

1 2 3

A

12

20 16

B

B

1 2

12

20

C

16

1 2

C

12 1

2

3

1

2

Conclusiones: Los efectos principales de los factores A, B y C son significativos sustentados con valores de p muy pequeños. Al juzgar estos valores de p existen efectos principales muy fuertes entre los factores A, B y C. Las interacciones entre los factores AB son importantes. Sin embargo, las interacciones entre los factores AC y BC no son de importancia. No obstante las interacciones entre los tres factores ABC son variables importantes del experimento. En cuanto a la evaluación del modelo de ANOVA de tres direcciones es decir, de los gráficos de residuales, esto sugiere un buen ajuste del modelo de ANOVA.

354

| Estadística para ingeniería y ciencias

Problemas propuestos 7.1 Los siguientes datos se obtuvieron de un muestreo atmosférico de óxidos de azufre (SO2) proveniente de cuatro lugares diferentes. Calcular lo siguiente: a) Hacer un análisis de varianza con un nivel de significancia de α 5 0.05 y completar la tabla de 7.30. b) Determinar si hay diferencias entre los cuatro sitios.

Tabla 7.32. Tabla con la información requerida. Método A

Método B

Método C

71

90

72

75

80

77

65

86

76

69

84

79

Tabla 7.29. Datos del SO2. Sitio # 1

Sitio # 2

Sitio # 3

Sitio # 4

20

25

28

31

17

25

31

15

18

26

34

12

10

14

17

24

Tabla 7.33. Análisis de varianza.

Tabla 7.30. Resultados usando un programa de computadora como Excel. Llenar las faltantes de la tabla. Fuente de variación

SS

g.l.

Cuadrado del promedio

Debido al tratamiento

261.69

3

1.93

Residual (error experimental)

543.75

Total

Fcalc.

Ftab.

a) Llenar los espacios en blanco de la tabla 7.33 y probar la hipótesis que no existen diferencias entre los tres promedios poblacionales con α 5 0.05. b) Elaborar una gráfica que muestre la región crítica y la F calculada.

Valor de p

Fuente de variación

g.l.

Debido al tratamiento (variación entre los grupos)

2

Suma de los cuadrados (SS)

Residual (error) (variación dentro de los grupos)

45.31

Total

130.0 11

Cuadrado del promedio

Fcalc.

228.0

15.78

Ftab.

Valor de p

14.4

586.0

15

7.2 Un investigador desea estudiar el efecto de cuatro fertilizantes diferentes para ver sus efectos en la producción de maíz. Para esto, se dividió una zona agrícola en 24 parcelas del mismo tamaño y forma. Usar un nivel de significancia de 0.05. Probar que no hay diferencia entre los cuatro tratamientos. Usar el programa Minitab. Tabla 7.31 Producción de maíz bajo cuatro diferentes tratamientos de fertilizantes. Tratamientos

Rendimientos

Sin aplicación de fertilizante 1)

99 40 61 72 76 84

Con aplicación de fertilizante 2)

96 84 82 104 99 105

Con aplicación de fertilizante 3)

63 57 81 59 64 72

Con aplicación de fertilizante 4)

79 92 91 87 78 71

Las suposiciones son que las cuatro poblaciones del rendimiento de maíz están normalmente distribuidas, con las varianzas de las poblaciones iguales y con las observaciones independientes. 7.3 Para comparar la efectividad de tres muestreadores de gases contaminantes atmosféricos, es decir, usando métodos A, B y C, se seleccionaron muestras de tamaño cuatro y se registraron los siguientes resultados en ppm.

7.4 Supóngase que cuatro laboratorios ambientales están analizando una muestra de un filtro con partículas de plomo atmosférico provenientes de un complejo industrial. Para esto, se quiere saber la efectividad entre los métodos de análisis usados por estos cuatro laboratorios. Hacer los siguientes cálculos: a) Probar la hipótesis nula H0: µ1 5 µ2 5 µ3 5 µ4, es decir, que no hay diferencias en los promedios poblacionales de los resultados de los análisis de los cuatro métodos diferentes usados por los laboratorios. Establecer la hipótesis alternativa de este problema. b) Calcular el valor de la probabilidad p. La tabla 7.34 muestra los valores obtenidos por los cuatro laboratorios por los tres métodos usados por estos cuatro laboratorios. Éste es un ejemplo de análisis de varianza con dos factores. Tabla 7.34. E stimaciones de los cálculos de los 12 resultados por los tres métodos diferentes usados por los cuatro laboratorios distintos. Método de análisis

Suma de los renglones

1

2

3

Ti

1

16

19

24

59

2

21

20

21

62

3

18

21

22

61

4

13

20

25

58

68

80

92

240

Laboratorio

Suma de las columnas (Tj)

Capítulo 7 Análisis de varianza (ANOVA) Obtener las conclusiones debidas de la hipótesis para los tres métodos de análisis y decir si se rechaza o se acepta la hipótesis. 7.5 En un estudio de ingeniería ambiental relacionado con las mediciones en el suelo de ozono (O3) (desde el punto de vista de la química atmosférica, el O3 troposférico se produce por la interacción de los óxidos de nitrógeno, la temperatura y, hasta cierto punto, por los compuestos volátiles orgánicos y otros contaminantes del aire), se recabó la información de un muestreo de este contaminante atmosférico (O3 en unidades de partes por trillón) proveniente de cinco muestreadores localizados en cinco diferentes lugares. Hacer los siguientes cálculos. a) Establecer la hipótesis nula y la hipótesis alternativa de que no hay diferencias entre las cinco poblaciones de O3 muestreadas, con α 5 0.05. b) Hacer una tabla de ANOVA que incluya la F crítica. c) Calcular e interpretar el valor de la probabilidad p. Tabla 7.35. D atos de ozono con los números de los muestreadores.

| 355

torios, ¿qué factores físicos se podrían tomar en consideración para ver si se pudiera obtener alguna mejoría o reducción del error experimental? 7.7 Los datos de la tabla 7.37 representan el número de horas de alivio paliativo dado por cinco tabletas diferentes (A, B, C, D, E), para el dolor de cabeza, que se administraron a 25 sujetos, quienes experimentaban dolores de cabeza (migrañas). Hacer un análisis de varianza para probar la hipótesis al nivel de significancia de 0.05 de que el número promedio de horas de alivio paliativo dado por las tabletas es el mismo para las cinco tabletas usadas. Calcular los siguientes enunciados: a) Hacer una tabla de análisis de varianza. b) Calcular el valor de la probabilidad p e interpretarla acordemente. Tabla 7.37. Horas de alivio con las cinco tabletas. Tipos de tabletas A

B

C

D

E

5

9

3

2

7

1

2

3

4

5

4

7

5

3

6

55.1

59.5

63.9

41.7

56.3

8

8

2

4

9

45.7

58.0

61.5

44.9

63.1

6

6

3

1

4

45.0

50.8

51.1

51.7

52.2

3

9

7

4

7

73.1

58.3

57.3

43.8

61.3

49.9

63.3

64.8

41.5

65.6

63.2

51.7

67.7

55.5

67.9

Tipo (1)

Tipo (2)

Tipo (3)

42

112

70

7.8 En un estudio de ingeniería de usos del agua, específicamente, de contaminación de corrientes, a fin de revisar que no hubiera descargas industriales, previo a un proyecto de dilución, se analizó la demanda bioquímica de oxígeno de cinco días (DBO)5 en mg/L. Para esto, se hizo un muestreo aleatorio a lo largo de la corriente, es decir, en cuatro lugares diferentes. Para tales fines hacer los siguientes cálculos: a) Hacer un análisis de varianza usando un nivel de significancia de 0.05. Observar si hay diferencias entre las concentraciones de DBO de los cuatro lugares muestreados. b) Si no se pudiera rechazar la hipótesis nula de desigualdad de las cuatro poblaciones de concentraciones de la demanda bioquímica de oxígeno (DBO5), ¿qué factores estadísticos se deberían tomar en consideración? c) ¿De acuerdo con estudios de contaminación de corrientes, con qué objeto se tendría que hacer este tipo de estudio analítico?

96

96

17

Tabla 7.38. Resultados del muestreo del DBO en mg/L.

81

88

49

95

135

24

76

119

40

7.6 Supóngase que 15 personas han sido seleccionadas de una población con problemas de obecidad y han sido separados al azar dentro tres grupos. Cada grupo fue alimentado con tres tipos de comidas diferentes para perder peso, es decir, alimentos 1), 2) y 3). Después de algún tiempo, los pesos que perdieron los participantes de los tres grupos se registraron en la tabla 7.36: Tabla 7.36. Pesos perdidos (gramos) de los participantes. Tipos de comidas

Estos datos están en conformidad con un factor de un diseño completamente aleatorio. Un factor es el alimento dado a la muestra. Esto es un diseño completamente aleatorio, porque las unidades experimentales de los 15 sujetos han sido asignadas aleatoriamente a los tres tipos de comidas. Hacer lo siguiente: a) Decir qué tipo de análisis de varianza se está usando. b) Hacer la tabla del análisis de varianza para la muestra y sacar conclusiones al respecto. c) Evaluar el modelo de ANOVA usando criterios o diagnósticos gráficos. d) Si se revirtiera este problema a un diseño de bloques alea-

Sitio # 1

Sitio # 2

Sitio # 3

Sitio # 4

20

25

28

31

17

25

31

15

18

26

34

12

10

14

17

24

7.9 Se diseñó un experimento de ingeniería agrícola en el cual se usaron dos parcelas de tierra arenosa y de tierra arcillosa. Además, se aplicaron cuatro niveles de fertilizantes es decir, sin ninguna aplicación, con niveles bajo, mediano y alto. La cantidad de agua de irrigación fue uniforme, así como las temperaturas y los tipos de semillas plantadas. Aplicar el experimento de ANOVA apropiado y sacar todas las conclusiones debidas acerca de este experimento. La tabla 7.39 da la información requerida.

356

| Estadística para ingeniería y ciencias

Tabla 7.39. Información requerida para este experimento agrícola. Nivel de fertilizante Tipo de tierra

Nada

Bajo

Arcillosa

3.0 3.1

Arenosa

Mediano

Alto

3.5

3.9

4.5

3.4

3.8

4.4

2.5

3.0

3.4

4.0

2.4

2.9

3.3

3.9

a) Hacer una tabla de ANOVA. b) Hacer gráficas que muestren los efectos principales e interpretarlos acordemente. c) Hacer gráficas con los efectos de interacción e interpretarlos acordemente. 7.10 Se hace un estudio de química ambiental entre el nivel de acidez en términos de pH (factor A) y la concentración de cloro (factor B) en el agua. Aquí se supone un análisis de varianza de dos vías con un diseño completamente aleatorizado. Los datos se dan en la tabla 7.40. Hacer una tabla de análisis de varianza y sacar las conclusiones debidas. Tabla 7.40. Datos de este problema del pH y la concentración de cloro. Nivel del pH pH 5 7.0

pH 5 7.2

pH 5 7.4

pH 5 7.6

Nivel de concentración de cloro Baja

22

17

8

6

Mediana

9

11

7

4

Alta

8

8

6

5

7.11 Éste es un experimento de análisis de varianza que se hace para cumplir con los llenados de la tabla de ANOVA. Para esto se da la tabla 7.41 de ANOVA. Suponiendo un nivel de significancia de α 5 0.05, hacer lo siguiente: llenar los faltantes de la tabla de ANOVA y decir qué diseño se usó. Decir si la interacción entre los dos factores A y B es significante. Incluir en la tabla el valor crítico de F. Tabla 7.41. Tabla de ANOVA. (Llenar los faltantes.) Fuente de variación

g.l.

Factor A

1

382.72

Factor B

2

503.72

Interacción

2

1020.06

17

3622.94

Error Total

SS

MS

Fcalc.

Fcrítica

Valor de p

192.67

7.12 Este es un ejercicio relacionado con una investigación para determinar el consumo de gasolina (por litro) de cuatro coches. Para esto, se agrupan los cuatro tipos de autos tratando de homogenizar o de controlar las variables que pudieran afectar el consumo de gasolina (bloqueo para eliminar las variables no deseables). Las variables controladas son caballajes del motor, mismo rodaje de llantas, mismo tipo

de carburador, mismo tipo de aceite, mismo tipo de mantenimiento, mismo peso, mismas temperaturas ambientales, mismo millaje, igual edad y tamaño del motor, etc. Probar la hipótesis de que no hay diferencias en el kilometraje de los coches probados usando α 5 0.01. Suponer un análisis de varianza de bloques completamente aleatorizados y aplicar un programa de computadora para resolver este problema. Tabla 7.42. Kilometrajes por litro de los 4 coches probados. Kilometraje Coche núm. 1

2

3

4

5

1)

13

16

15

12

11

2)

22

24

14

20

18

3)

18

17

16

15

13

4)

39

38

28

31

34

7.13 Este ejercicio es una adaptación del libro de Montgomery et al., Probabilidad y estadística aplicadas a la ingeniería p. 672, (1996) el cual cita un artículo publicado en el American Industrial Hygiene Association Journal (vol. 37, 1976, pp. 418-422). Este estudio describe una prueba de campo para detectar la presencia de arsénico en muestras de orina. La prueba ha sido propuesta para su uso entre trabajadores forestales debido al uso cada vez mayor de arsénico orgánico en dicha industria. El experimento compara los resultados obtenidos con la prueba al ser efectuada por un inexperto y un entrenador experimentado con el análisis efectuado en un laboratorio remoto. Para la prueba se escogen cuatro sujetos, los cuales son considerados como bloques. La variable de respuesta es el contenido de arsénico (en ppm) en la orina del sujeto. Los datos son los siguientes: Tabla 7.43. Datos del problema. Sujeto 1

2

3

4

Inexperto

Prueba

0.05

0.05

0.04

0.15

Experto

0.05

0.05

0.04

0.17

Laboratorio

0.04

0.04

0.03

0.10

Fuente: Adaptación del libro de Montgomery, et al. (1996), Probabilidad y estadística aplicadas a la ingeniería. McGraw-Hill Interamericana Editores S.A. de C.V., (1996).

a) ¿Existe diferencia alguna en el procedimiento de prueba de arsénico? b) Analizar gráficamente, los residuos de este experimento. 7.14 Cuatro niveles de fertilizantes se usaron en un experimento agrícola con dos niveles de agua, es decir, frugal y abundante. Los ocho tratamientos fueron asignados aleatoriamente a ocho parcelas. La respuesta es en toneladas por hectárea. La tabla 7.44 da la información requerida. Tabla 7.44. Datos de este problema. Nivel de fertilizante Nivel de agua

Nada

Bajo

Mediano

Alto

Poca agua

3.0

3.3

3.7

3.1

Mucha agua

2.3

4.0

4.3

5.0

Capítulo 7 Análisis de varianza (ANOVA) a) Generar la matriz de datos e introducirlos a la hoja del programa Minitab. b) Usar el modelo más apropiado de ANOVA y hacer una tabla de análisis de varianza. c) Hacer una gráfica que muestre los efectos principales de los dos factores y de los efectos de interacción y decir si son significativos. e) Evaluar la utilidad del modelo de ANOVA a través de diagnósticos gráficos de residuales. 7.15 En un estudio hipotético de ingeniería del aire, de difusión atmosférica situando los sensores para medir la calidad del aire con respecto a SO2 a tres diferentes distancias y a tres distintas alturas, hacer lo siguiente: suponiendo α 5 0.05. a) Estructurar una matriz con los datos e introducirlos a la hoja del programa Minitab. b) Hacer una tabla de ANOVA. c) Analizar las gráficas de los efectos principales y de los efectos de interacción que pudieran ocurrir entre los factores de distancias y alturas. La tabla 7.45. Muestra la información requerida para este problema.

acción en la decisión de rechazar o aceptar la hipótesis sustentada? 7.17 En un experimento de agronomía se estudió el rendimiento de trigo usando tres niveles diferentes de fertilizantes fosfatados, es decir, bajo, mediano y alto. Como segundo factor se usaron tres variedades distintos de semillas de trigo (1, 2, 3) haciendo, con esto, un total de nueve combinaciones de tratamientos. De esta manera, cada combinación de tratamiento se asignó aleatoriamente a una de las 27 parcelas (de extensiones de dos hectáreas), de tal manera que tres parcelas recibieron cada tratamiento. Los rendimientos de trigo, en toneladas métricas se dan en la tabla 7.47. Tabla 7.47. Rendimiento de la cosecha de trigo en toneladas métricas. Nivel del fertilizante Variedad de la semilla

Bajo 7

10

12

1

10

10

14

9

12

12

8

12

17

10

14

16

8

13

17

9

14

16

10

14

18

12

16

21

Tabla 7.45. C oncentraciones (ppm) de SO2 para este problema.

2

Distancias en metros Alturas

1 000

1 500

2 000

A nivel del mar

350

250

100

300 metros

280

210

90

500 metros

250

190

70

7.16 Las siguientes observaciones se obtuvieron de un diseño de bloques aleatorizados, es decir, de seis poblaciones normales. La finalidad de este ejercicio es analizar las diferencias entre un ANOVA con bloques aleatorizados y un análisis de varianza sin agrupar las características de las observaciones de este diseño experimental. La tabla 7.46 da la información requerida. Tabla 7.46. Datos de este experimento de bloques aleatorizados. Tratamientos

3

Fuente de variación

SS

g.l.

Debido a los tratamientos

2 000

10

Debido a las columnas

1 200 7 400

2

3

4

5

6

1

20

31

29

25

35

31

2

27

28

32

34

30

33

3

19

23

27

30

28

27

Debido a los renglones

4

23

23

25

32

29

28

Residual Total

20

19

18

25

26

6

26

24

23

22

23

25

a) Construir una tabla de ANOVA de bloques completamente aleatorizados. b) Decir si los resultados pueden permitirnos concluir, a un nivel de significancia de α 5 0.05, que los promedios de las seis poblaciones no difieren entre sí. c) Si la información de este problema no se agrupara por características similares (para disminuir la variación entre las observaciones), ¿qué efectos tendría semejante

Alto

Tabla 7.48. Datos del problema.

1

21

Mediano

a) Aplicar la función de ANOVA más apropiada para este experimento y sacar las conclusiones debidas. b) Hacer una gráfica de residuales para el rendimiento de trigo. 7.18 Este estudio tiene el fin de que el lector adquiera destreza en el cumplimiento del llenado de tablas de análisis de varianza. Para tal efecto, se pide completar la tabla de ANOVA 7.48 y decir qué diseño se usó.

Bloques

5

| 357

MS

Fcalc.

Ftab.

Valor de p

5 25

12 000

45

7.19. Completar la siguiente tabla de ANOVA (7.49) y decir qué diseño se usó. Tabla 7.49. Fuente de variación

SS

g.l.

Debido a los tratamientos

120.0

3

Debido a los bloques

900.0

5

MS

Fcalc.

Ftab.

Valor de p

| Estadística para ingeniería y ciencias

358 Residual

60.0

11 5

Total

7.20 Se realiza un diseño de dos factores en uno completamente aleatorizado, en el cual se aplican cuatro niveles del factor A y tres niveles del factor B. Los datos dados son SSa 5 15.00, SSb 5 41.00, SSab 5 23.05, SSt 5 92.8 y n 5 2. Con esta información hacer una tabla de análisis de varianza y sacar las conclusiones debidas. 7.21 Este es un estudio encaminado a comparar diferentes tipos de dietas y de ejercicios de rutina. En este caso setenta y dos personas con sobrepeso se asignan aleatoriamente a diferentes programas consistentes en cuatro dietas y seis ejercicios de rutina. Por ejemplo, la dieta A es una dieta vegetariana que incluye vegetales y frutas, pero ningún tipo de carne. La dieta B es una dieta vegetariana que incluye, además de vegetales y frutas, granos, queso y leche. La dieta C incluye, además de las combinaciones anteriores, el consumo de carne. La última dieta (D) incluye, únicamente, el consumo de carne roja, pollos y pescados. El número de libras perdidas por cada sujeto, al final del experimento, se muestra en la tabla 7.50. Tabla 7.50. Información para la pérdida de pesos (en libras) de los estudiantes obesos. Tipo de dieta Rutina de ejercicio

1

2

3

4

A

B

C

D

12.0

09.9

12.9

13.7

09.9

09.6

11.5

13.2

11.0

09.6

10.5

13.5

10.9

10.9

10.8

15.5

11.6

10.9

12.0

14.9

12.5

10.8

11.9

14.6

12.5

11.9

11.9

13.0

11.9

11.8

11.9

13.7

11.9

12.4

12.6

13.5

11.6

09.6

13.9

14.0

11.9

09.4

13.5

15.4

10.5

10.8

12.7

14.5

6

11.2

11.3

14.5

13.2

11.4

11.9

14.2

14.2

10.0

10.2

13.5

13.7

11.8

10.8

11.5

11.8

11.0

11.5

10.2

12.8

12.0

10.2

11.8

12.3

Hacer lo siguiente: a) Hacer una matriz con los datos e introducirlos en la hoja del programa Minitab. b) Aplicar el diseño de ANOVA más apropiado para este ejercicio y hacer la correspondiente tabla de ANOVA. c) ¿Se puede concluir con base en los resultados que las dietas tienen diferentes efectos? Similarmente, ¿se puede concluir que las rutinas de ejercicios difieren con respecto a sus efectos con la pérdida de peso? d) Hacer una gráfica que muestre los efectos principales. e) Hacer otra gráfica que muestre los efectos de interacción. 7.22 Supóngase que cuatro diferentes máquinas son manejadas por cuatro operadores distintos. Se quiere saber si los operadores difieren con respecto a la productividad de tiempo, cuando son asignados a variados tipos de maquinarias. Aplicar el análisis de varianza más apropiado para este problema usando α 5 0.05. Sacar conclusiones al respecto usando un programa de computadora. Los datos se dan en la tabla 7.51. Tabla 7.51. P roductividad por tiempo de los distintos operadores asignados aleatoriamente a cuatro tipos de máquinas diferentes. Operadores Máquinas

1

2

3

4

A

68.5

79.2

83.8

87.5

B

72.2

80.6

89.3

95.3

C

73.3

80.2

88.0

94.1

D

81.1

88.8

95.2

100.5

Problemas de tarea

Revisa tu CD-ROM para encontrar más problemas:

Capítulo 8 Regresión lineal simple y múltiple La radiación electromagnética (UV-C, UV-B y UV-A) está localizada entre 100 y 380 nanómetros (nm). Por ejemplo, la radiación UV-C (la más dañina) de longitud de onda de 100-280 nm, es totalmente absorbida por el ozono estratosférico, el vapor de agua, O2 y CO2, por lo que no llega a la Tierra. La radiación UV-B está localizada entre 280-315 nm en el espectro electromagnético y es muy dañina para los seres vivos, por(Jupiter Images Corporation) que parte de la radiación que llega a la Tierra está ligada a daños genéticos (DNA), cáncer en la piel y cataratas. Según la NASA la radiación UV-B causa incrementos en las concentraciones de ozono a ras del suelo. Igualmente, la radiación UV-A está localizada entre longitudes de onda de 315-380 nm, y aunque no es tan perjudicial como la UV-B, este tipo de radiación causa envejecimiento prematuro de la piel. La escala del índice de radiación ultravioleta, varía de , 2 hasta . 11 (extremo).

Introducción Este capítulo estudia la regresión lineal simple y múltiple. Discute la aplicación de diagnósticos estadísticos y gráficos para la evaluación del modelo de regresión seleccionado. También estudia intervalos de confianza para los coeficientes del modelo de regresión y así sucesivamente. Para fines de aplicaciones prácticas, a fin de calcular las concentraciones de radiación ultravioleta, se puede estructurar un modelo de regresión lineal múltiple de la forma de Y 5 b0 1 b1X1 1 b2X2 1 . . . 1 bkXk, cuyo modelo poblacional es Yj 5 β0 1 β1X1j 1 β2X2j 1 . . . . . . . 1 βkXkj 1 εj . En este caso, la variable de respuesta sería el índice de radiación ultravioleta. Las variables independientes serían latitud, altitud, hora del día, estación (verano, invierno), presencia de nubes, bruma, concentraciones de contaminantes atmosféricos (partículas orgánicas e inorgánicas, ozono a ras del suelo, etc.), y la concentración de ozono estratosférico arriba del lugar donde se aplique el modelo.

360

| Estadística para ingeniería y ciencias

8.1 Regresión lineal simple El objetivo de estudiar regresión lineal simple es obtener el modelo de regresión más apropiado, es decir, una ecuación de regresión lineal simple o múltiple para fines de predicción y estimación. Los componentes de esta ecuación de regresión lineal, con sólo una variable independiente, también llamado modelo lineal de primer orden, son la variable dependiente Y 9 o función de respuesta y y la variable independiente X. El modelo de esta ecuación, que describe la relación de la variable X con la variable Y, se llama la ecuación de regresión de Y sobre X y la gráfica de esta función se llama la curva de regresión. El modelo de regresión lineal poblacional que describe la relación entre la respuesta o variable dependiente Y y la variable independiente o regresora X es: Donde:

Y 5 β0 1 β1x1 1 ε i 5 1, 2, . . . , n

(8-1)

Y 5 variable dependiente poblacional (también se usa la anotación y) β0 5 intercepto en la ordenada β1 5 pendiente de la línea X1 5 variable independiente ε 5 error aleatorio con promedio de 0 y varianza σ2 constante. Este valor de ε es la diferencia entre el valor teórico de Yi y el valor de Y calculado u observado. Las condiciones de ε son que este parámetro debe estar normalmente distribuido; sus valores deben de ser independientes uno del otro y la varianza de ε es Var(ε) 5 σ2ε n 5 número de (x, y) pares de observaciones La ecuación de la línea de regresión muestral que estima a modelo de regresión poblacional (8-1) de arriba se da como: Y 5 a 1 bx (8-2) Donde: Y 5 valor de la variable dependiente de la muestra a 5 intercepto en la ordenada b 5 pendiente de la línea

8.1.1 Suposiciones del modelo de regresión lineal a) Los valores de Y son independientes uno del otro, es decir, no deben de estar correlacionados b) Las distribuciones condicionales de probabilidad de Y dado X son normales c) La varianza del error es σ2 y es constante d) Los coeficientes β0 y β1 son desconocidos y deben de estimarse Para estimar la ecuación de regresión lineal simple y múltiple se usa lo que se llama el método de los mínimos cuadrados que ajusta los datos de la muestra a la línea de regresión. Ésta es una de las técnicas más usadas en investigaciones científicas para encontrar la relación entre dos o más variables que están causalmente relacionadas.

Capítulo 8 Regresión lineal simple y múltiple

| 361

En esta sección veremos el problema de regresión lineal de una variable dependiente (Y) y otra independiente (X), con fines de predicción y estimación. Sin embargo, una vez que se obtiene la ecuación de regresión lineal, ésta se tiene que evaluar o validar para ver qué tanta fidelidad se le puede poner al modelo para usos de predicción. Esto se logra utilizando enfoques objetivos y subjetivos. Por ejemplo, el enfoque objetivo se logra haciendo pruebas estadísticas de inferencia. Este enfoque se complementa usando enfoques subjetivos, es decir, analizando las gráficas de los residuales estandarizados o no estandarizados (crudos), es decir, a través de inspecciones visuales.

8.1.2 A plicación de análisis objetivos estadísticos para la evaluación del modelo de regresión En cuanto al enfoque objetivista (estadística inferencial), para la validación del modelo de regresión, éste se relaciona con el uso de estadísticas como el coeficiente de determinación múltiple R2 (o r 2), el coeficiente de determinación ajustado R2ajustada, el error estándar estimado s, tablas de análisis de varianza, pruebas de t de Student, intervalos de confianza, el criterio de Mallow de Cp, PRESS, y así sucesivamente. De esta manera, cuando se habla de coeficientes en el modelo de regresión múltiple, existen cuatro tipos: a) El coeficiente de determinación múltiple (R2). b) El coeficiente de correlación múltiple (R). c) El coeficiente de determinación ajustado (R2ajustada). d) El coeficiente parcial de correlación múltiple (Rij.k ). El coeficiente de determinación múltiple R2 es, tal vez, la medida estadística más popular usada para medir el grado de ajuste del modelo de regresión con los datos de la muestra. El coeficiente R2 es el coeficiente entre la variación de Y debida al modelo de regresión lineal entre la variación total de Y. Este término toma valores entre 0 y 1, y multiplicado por 100 determina el porcentaje de variación debido al modelo de regresión. Si el valor de R2 está cercano a cero, esto indica que no hay una relación lineal entre Y y las X, mientras que, un valor cercano a uno, indica un ajuste perfecto. Sin embargo, el valor del coeficiente R2 no debe de interpretarse ligeramente, sin el apoyo del error estándar estimado, del residual (PRESS), del criterio de Mallow (Cp) o de los factores de variación inflados (variance inflation factors, VIF). Además, la validación del modelo debe estar apoyada por los análisis de los gráficos subjetivos. De acuerdo con la lógica del programa de computadora NCSS, los siguientes enunciados dan algunas calificaciones de la interpretación de R2. a) El valor de R2 puede incrementarse agregando más variables independientes, pero esto puede causar un aumento en el error del cuadrado medio, especialmente, cuando la muestra es pequeña. b) La magnitud de R2 está influenciada por el rango de cada variable independiente. R2 aumenta a medida que el rango de las X se incrementa y viceversa. c) El valor de R2 no mide la magnitud de las pendientes. d) La magnitud de R2 no mide la aptitud del modelo lineal; mide la fuerza lineal del componente del modelo. e) Un valor grande de R2 no necesariamente significa una predicción grande. Lo opuesto también es correcto. Todo esto tiene que ser complementado o corroborado por otras funciones estadísticas y por el análisis gráfico subjetivo. f ) El valor de R2 es altamente sensible al número de observaciones. Entre más grande sea el tamaño de la muestra, más alto será el valor de R2.

362

| Estadística para ingeniería y ciencias

Más adelante hay lo que se llama el valor ajustado del coeficiente de determinación múltiple ajustado (R ajustada). Este coeficiente de determinación múltiple ajustado R2ajustada es una versión ajustada de R2, la cual busca remover la distorsión causada por un tamaño de muestra pequeño. Igualmente, también hay lo que se llama PRESS (predicted sum of squares), que se usa para validar el modelo de regresión en términos de predicción. Aquí, entre más pequeño sea el valor de PRESS, mejor será el modelo candidato. En forma análoga, también hay lo que se llama el coeficiente de correlación múltiple R. Este coeficiente R mide la fuerza de la relación lineal entre la variable dependiente Y y las variables independientes X1, X2, X3, . . . , Xk. En contraste con el coeficiente de correlación lineal simple, el rango de este coeficiente de correlación múltiple es de 0 # R # 1. Esto se debe a que R no indica la pendiente de la ecuación de regresión debido a que no es posible indicar los signos de todos los coeficientes de regresión que relacionan la variable dependiente Y a la variable independiente Xi. Así como en el caso de la correlación lineal, la medición de R2 es más fácil de interpretar que el coeficiente de correlación múltiple, R. Otro tipo de correlación relacionado con regresión y correlación múltiple es lo que se llama coeficiente parcial de correlación múltiple. Este coeficiente mide la fuerza de la relación lineal entre la variable dependiente Y y las variables independientes X1, X2, X3, . . . , Xk. Este coeficiente se puede expresar como Rij.k, que es el estimador del coeficiente de correlación múltiple poblacional ρij.k. Rij.k se puede usar para ver la relación causal entre Y y una de las variables independientes, manteniendo las demás constantes. Este coeficiente, también se puede usar para ver la relación entre dos variables independientes. Prosiguiendo dentro de la categoría de análisis objetivos de estadística inferencial relacionados con regresión múltiple, tenemos lo que se llama análisis de varianza (ANOVA) discutido en el capítulo 7; en forma análoga como el uso de R2, este análisis es un método complementario para revisar las suposiciones del modelo de regresión. La fidelidad de los resultados del ANOVA está mancomunada a la suposición de que los residuales están normalmente distribuidos. El uso de ANOVA prueba los promedios poblacionales donde se analiza la variación total. ANOVA evalúa la utilidad del modelo de regresión probando la hipótesis nula de que todos los coeficientes (βi) de la ecuación de regresión (pendientes) son iguales a cero. Los componentes del análisis de varianza o de ANOVA son parecidos a los del análisis de varianza simple dados en capítulos anteriores. Los componentes son la fuente de variación, los grados de libertad, la suma de los cuadrados, el cuadrado del promedio, la prueba de F y el nivel de probabilidad. Por ejemplo, la fuente de variación representa las particiones de la variación en Y. Hay cuatro fuentes de variación: intercepto, modelo, residuo o error y total ajustado. La prueba de inferencia con la estadística F se usa para probar la hipótesis de todas las βi 5 0. Más importante todavía es el cálculo del nivel de probabilidad p. El valor de p es la probabilidad de obtener un estadístico de prueba, al menos tan contradictorio o más extremo para H0:, como el valor observado que se obtuvo, asumiendo que H0: es verdadera. Si el valor de p es menor qué, digamos α 5 0.05, la hipótesis nula se rechaza; de otra manera se retiene. Entre más pequeño sea el valor de p, más certidumbre habrá en la hipótesis alternativa, Ha:. Otras funciones estadísticas usadas en la evaluación de la utilidad del modelo de regresión son los llamados VIF (por sus siglas en inglés de Variance Inflation Factors), la estadística Cp de Mallow y la estadística de Durbin-Watson. Los factores de varianza inflada (VIF) están relacionados con problemas de multicolinealidad, los cuales causan toda clase de problemas con el análisis de regresión. En forma análoga, el diagnóstico Cp da el número óptimo de variables para el modelo de regresión. De manera semejante, la estadística DurbinWatson está relacionada con la autocorrelación. Usualmente, este criterio se usa para probar por correlación en serie de primer orden positiva o negativa. Otros estadísticos objetivistas para validar el modelo de regresión son las pruebas individuales de t de Student para probar la hipótesis de que β1, β2, β3, βk son iguales a cero. Además, se pueden usar los intervalos de confianza. Por ejemplo, en regresión múltiple el valor de t de Student se usa para probar la hipótesis de que uno de los coeficientes es igual a cero, después de remover la influencia de los otros. Los investigadores 2

Capítulo 8 Regresión lineal simple y múltiple

| 363

Paffenberger et al. (1987) dan la función para el intervalo de confianza para βi. Sin embargo, si se concluye que β1 o βk no son igual a cero esto no necesariamente dice que el modelo de regresión es útil para predicción. En verdad, para determinar si el modelo es apropiado, en lugar de probar que β1 5 0 y β2 5 0, separadamente (usando la prueba de t), se usa una prueba conjunta, como el análisis de varianza (ANOVA).

8.1.3 A plicación de análisis gráficos subjetivos para la evaluación del modelo de regresión En cuanto al uso de análisis de gráficos para evaluar la utilidad del modelo de regresión, esto se logra analizando los gráficos de los residuales crudos o estandarizados. Los residuales estandarizados son los residuales ei divididos entre una estimación de su desviación estándar. Estos residuales estandarizados toman en consideración que los residuales pueden tener diferentes varianzas, lo cual hace que sea más fácil detectar valores inusuales extremos. El programa Minitab considera valores extremos aquellos residuales mayores que 2 o menores que 22. Los residuales crudos o regulares son la diferencia entre la respuesta actual (Y ) y el valor estimado del modelo. De acuerdo con la lógica del programa de computadora Minitab los diagnósticos gráficos subjetivos se dan como: a) Histograma de residuales b) Gráfica normal de residuales c) Gráfica de residuales en función de los valores ajustados d) Gráfica de residuales versus órdenes El histograma de residuales son herramientas exploratorias para analizar las características de los datos como valores inusuales, variación y forma. Cuando el error de la variable es aproximadamente normal, el histograma tiene forma de campana. Con respecto a la gráfica normal de residuales, los puntos en ésta, por lo general, deberán formar una línea recta, si los residuales están normalmente distribuidos. Si no es así, la suposición de normalidad puede invalidarse. Así, los valores de la variable aleatoria estadística ei deben estar normalmente distribuidos. Para lograr esto, se grafican los residuales de la variable dependiente en función de los valores de z o normales esperados. Para que se reúna la condición de normalidad de los datos, todos los puntos deben estar dentro de las bandas de confianza muy cercanos a la línea de regresión. Además, si los términos del error ei están normalmente distribuidos, los residuales deberán estar, de manera aproximada, de acuerdo con las reglas del 68%, 95% y 99.7%. Esto quiere decir que el 68% de los residuales deberán estar entre z 5 61; el 95% entre z 5 62 y, finalmente, el 99.7% de los residuales entre z 5 63. Con relación a la gráfica de residuales, en función de valores ajustados, ésta debe mostrar aleatoriedad de los residuales con, aproximadamente, el mismo número de residuales positivos y negativos, sin tendencias definidas que indiquen colinealidad o correlación en serie, es decir, falta de independencia entre las variables. Por último, la gráfica de los residuales versus órdenes está relacionada con todos los residuales en el orden en que los datos se coleccionaron y se usa para encontrar errores no aleatorios, especialmente de efectos relacionados con el tiempo. Otros factores que tienen que revisarse es lo que se llama homoscedasticidad o sea cuando la variable aleatoria ei tiene la misma varianza, lo cual se hace graficando los residuales contra cada valor de las variables independientes (Xi). Aquí, tiene que haber la misma cantidad de valores positivos y negativos expresados en la gráfica, lo cual se denomina homoscedasticidad. Sin embargo, de no ser así, existe el problema de heteroscedasticidad, mismo que se retomará en el capítulo de regresión polinomial.

364

| Estadística para ingeniería y ciencias

Recapitulando lo anterior, las condiciones o suposiciones requeridas para validar el modelo, subjetivamente, se hacen a través de los análisis de los residuales crudos o no estandarizados. Como se dijo antes, los llamados residuales se definen como las diferencias entre el valor actual de Y y el valor pronosticado de Y por el modelo de regresión estimado. Los residuales se denotan por ei, esto es, ei 5 Yi 2 Y9i. Las gráficas de los residuales dan información muy importante acerca de la naturaleza y fuerza de la relación entre las variables. La figura 8.1 muestra los residuales que son las diferencias entre los valores de Y1, Y2, Y3, . . . , Yk y los valores observados de Y91, Y92, Y93, . . . , Y9k de la línea de regresión de la muestra. Por otra parte, los residuales estandarizados se obtienen dividiéndolos entre sus respectivas desviaciones estándares. y 50

y1 y 1

40 y2 y 2 y3 y 3

30 20

y4 y 4 y5 y 5

10 0

5

y6 y 6

10

15

20

x

Figura 8.1. Gráfica de los residuales de un ejemplo.

Las suposiciones de los valores residuales son: a) Los residuales ei están normalmente distribuidos (εi están normalmente distribuidos) b) Los residuales tienen la misma varianza (εi 5 σ2, σ2 es constante) c) Los residuales ei son independientes Otro método menos popular que el análisis de los residuales, para evaluar la ecuación de regresión, es comparando el diagrama de dispersión de los puntos, con respecto a la línea de regresión, con la gráfica de los puntos con respecto al promedio de – y . Esto se debe a que, sin importar el valor de X, el promedio – y siempre permanece constante (línea horizontal trazada en el diagrama esparcido de la gráfica). De esta manera, si la dispersión de los puntos con relación a la línea de regresión es mucho menor que la dispersión de los puntos con respecto a la línea horizontal de – y , entonces, se puede concluir que la ecuación de la línea de regresión da un buen ajuste para los datos de la muestra. Para esto se puede consultar el libro Business Statistics de Daniel, et al. (1989).

8.2 Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente b de la curva o línea de regresión manualmente Las variables a y b se obtienen de las ecuaciones normales de abajo, es decir, resolviéndolas simultáneamente: n

n

n

n

Σ Y n5 an 1 b Σb Σ (8-3) i 5 1 Σ Y 5 an 1 i 51 i 51 Σ Y 5 an 1n bi 5Σ1 n n i 51 in 51 n n (8-4) Σ nXY 5 an ΣX 1 b ΣbXΣ X n i 5 1 Σ XY 5 i 5a 1 ΣX 1 i 51 i 51 i 51 i 51 Σ XY 5 a ΣX 1 b Σ X 2 Al resolverse simultáneamentei 5dan el intercepto, a en la ordenada y la pendiente de la línea b: 1 i 5 1n n i5 1n  n2   n  n  n  n      n n2   n  n  2  22 2  n X X Σ Σ Σ Σ Y X 2 X XY Σ 2 Σ n X X   i5 1n Σ X  n 2 i5n  i 5 1 Σ  n   n i 512i Σ X   2   n2  Y  XY 1 Σ  i 5 1 Σ i 5 1 Σ 1  i 5 1   i 5 1  51   i 51 i 5 i 51                 n X X Σ Σ Y   Σ X 2 X XY Σ 2 Σ Intercepto 5 a 5  i Σ       i 51   i 51    i 5 1    51          i 51  i 5 1   2   n  n  n  n  n     n n2  n  n  2  n –  n–Σ XY 2 2 Σ X 2 n2 Σ X X 2 (8-5)    n i Σ YnY  2 nn Σ XY n1 XΣ X X   iΣ  5n Y 2bX  i 5 1 i 5 1   i 5 1i Σ 5 1 Σ 5n i 5 1 Σ 2  5 1  i 51   i 5 1  i 5 1            n XY X Y n X X Σ 2 Σ Σ Σ 2 Σ    i 51    i 5 1   i5 1   i 5 1   i 51      2  n  n  n   2 n2 2 2 Σ X Sxx 5 2 n X n Sxxi Σ X n n i 5 1 Σ 55 1 Σ X  2 2 i 5 i 51 1 n

n

n

n

i 51

i 51

Σ XY 5 a ΣX 1 b Σ X

i 51

Σ

nnn

nn

n 2  n n n  ΣΣ YY   | 365   8   5 5an an1 12bb ΣΣ nCapítulo Regresión lineal simple 2  ymúltiple  n Σ X  2 Σ X   Y111   Σ X  i2 XY   5 5111 Σ X iii5 5 ii5 5  i Σ  i 5 1   i Σ 51 51 i 51   i 51     i 5 1 n nn nnn  nnn     XY5 5aaΣΣX X1 1bb ΣΣ X X ΣΣ XY 2 5111 5111 5111 iii5 iii5 iii5 5 5 5   n n n n n        nnn Σ X 2 2  Σ X nn  Pendiente 5 b 5  n Σ XY 222 (8-6) 2  ΣnnnX   Σ Y nnn  nn ni 5 1   i 5 1 nnn i 5 1 i 5 1 i 5 1                  222    n  222  n    ΣΣ XY   ΣΣ YY  ΣΣ X n X X Σ n X X Σ X 2 X XY Σ 2 Σ 2 X Σ 2 Σ     Sxyii/i555S111xx iii555111  2 iii555111 iii555111   iii555111  iii555111  (8-7)  n   n  Donde: Sxx 5 ΣnnnX 2 2  Σ nnnX  n 222   n n n   n n n n i5  i 521se dan por  n   1  ecuaciones  n  Σxy y Σx nn ΣyΣ (8-9). XY2 X ΣΣ YY (8-8) X X2222 X  2 ΣΣlas 2 ΣΣ X Σ XY X nnni iΣ 5 1 i 5 1 i 5 1 i 5 1 5 1 i 5 1 i 5 1 i 5 1 n i 51 i 5 1 i 5 1   i 5 1 iii555111        • Las siguientes ecuaciones son S muy 5importantes. Σ XY 2 Σ X ΣY n xy i 51 i 51 222 nnn nnn  2  n2 Σ X2222 X 5 Σ2Σ X SSxxxxxxn5 X nn (8-8) iii55Σ 5111  5111 iii5 5  n S yy 5 Σ Y 2  Σ Y  i 51 i 5 1   nnn nnn 5 ΣΣ XY XY2 2 ΣΣ X XΣΣYY nn SSxyxyxy5 (8-9) n

n

5111 iii5 5

5111 iii5 5

222

nnn  nnn  5 ΣΣ YY2222 2 ΣΣ YY SSyyyyyy5 5111 iii5 5 iii555111 

nn

(8-10)

8.2.1 C álculo del coeficiente de determinación R 2 de la muestra que estima a r2 el coeficiente de determinación poblacional Como se dijo antes, el coeficiente de determinación múltiple R2 es una prueba objetivista de estadística. Ésta es una función estadística muy importante, para validar el modelo de regresión lineal. Este coeficiente R2 mide la proporción de variación en la variable dependiente Y explicada por la variable independiente X. Los valores de R2 varían de 0 a 1. Un valor cercano a 0 indica que no hay una relación lineal entre Y y X, mientras que un valor cercano a uno indica un ajuste lineal perfecto. Aquí, sin embargo, es necesario reiterar que un valor alto de R2 no necesariamente indica un buen ajuste del modelo de regresión, sino hasta que se hacen todas las pruebas objetivistas y subjetivas. La función que calcula R2 es:

R2 5 b Sxy / Syy

(8-11)

5 1 2 Sxy2 / Sxx Syy

(8-12)

Donde Sxy Sxx Syy se dan por las ecuaciones (8-8), (8-9) y (8-10) descritas para la ecuación (8-11). También hay el llamado coeficiente R2 de determinación ajustado. Ésta es una versión ajustada de R2, la cual busca remover la distorsión debida a un tamaño de muestra pequeño. Se define como: R2ajustada 5 1 2 [(1 2 R2) (n 2 1)/(n 2 2)] (8-13) Donde R2 ya se definió y n es el tamaño de la muestra.

8.2.2 C álculo del coeficiente de correlación R de la muestra que estima a r, el coeficiente de correlación poblacional Como se dijo antes, el coeficiente de correlación R, que estima a ρ, también se llama coeficiente de correlación de Pearson. Este coeficiente es un índice de la fuerza de la asociación lineal entre las variables X y Y. El coeficiente de correlación R es:

R

Sxy Sxx Syy

Donde Sxy , Sxx , Syy se dan por las ecuaciones (8-8), (8-9) y (8-10).

(8-14)

366

| Estadística para ingeniería y ciencias

Nota: El coeficiente de correlación R explica el grado de asociación entre las variables X y Y. Este coeficiente R varía de 21 a 0, si la correlación es negativa, con pendiente negativa. Pero, si la correlación es positiva, entonces, R varía de 0 a 1. Así, a medida que R se aproxima a 61, mejor asociación habrá entre las variables X, Y y σ2 será igual a 0. Nótese que, en caso de la regresión lineal múltiple, hay lo que se llaman coeficientes parciales de regresión para medir la relación lineal entre la variable dependiente Y y la variable independiente especificada.

8.2.3 Tipos de correlación lineal a) Correlación simple que consiste en dos variables, una dependiente (Y ) y la otra independiente (X ). Dentro de esta categoría tenemos: • Correlación directa. Esta correlación consiste en el incremento en una variable la cual es acompañada por el incremento de otra variable (correlación positiva). • Correlación inversa. Esta correlación consiste en el incremento de una variable la cual es acompañada por el incremento de otra (correlación negativa). • Correlación no lineal. En esta correlación hay una asociación entre las dos variables pero la función que describe los datos es más complicada que una línea recta y puede ser una parábola, un polinomio, una función senoidal, entre otras. b) Correlación múltiple. Aquí, hay más de dos variables. Una variable es dependiente (Y ), mientras que lasyotras son independientes y y yX1, X2, . . .y , Xk, etcétera. y y y y Los diagramas de la figura 8.2 representan varios tipos de correlaciones. a)

y

y

y

y

b)

x

a)

x

a)

a)

x

d)

a)

b)

a)

y

y

y

y

y

y

y

y

y

x

x

a)

x

y

e)

x

y

x

b)

b)

x

x

b) y

y

y

y

y

y

x

x

c)

y

x

x

c) x

y

x

y

c)

x

b)

x

c)

x

b) x

y

f)

c) x

c)

x

x

c)

y

y

x

x

x

x

a) esparcidos a) b) representan b) b) c)tipos de c) c) Figura 8.2. a)Diagramas que diferentes correlaciones entre y . Por ejemplo, la figura a) representa una correlación positiva entre y . La figura b) x x x x x x x x x representa una correlación positiva entre y . La figura c) representa una perfecta correlación positiva entre y . La figura d) representa una asociación negativa no muy a)acentuada a) entre a) b) b) b) c) c) c) las dos variables. La figura e) representa una correlación positiva muy fuerte entre y . La figura f) representa una perfecta correlación negativa entre las variables y .

x a) simple y múltiple Capítulo 8 Regresión lineal

a)

b) y

y

c)

a)

y

y

y

x

x

| 367

x

x

a)

b)

x c)

b)

Figura 8.3. Diagramas de dispersión donde se muestra una correlación cero. Por ejemplo, la figura a) representa un diagrama esparcido donde no hay ninguna asociación o correlación entre las variables y . La figura b) representa una relación no lineal (posiblemente una parábola) entre las variables y . La figura c) representa también una correlación no y las variables y posiblemente una parábola con curvatura negativa. lineal y entre

8.2.4 Intervalo de confianza para el coeficiente poblacional b componente de la línea de regresión mY|X 5 a 1 bX, estimado por b, la pendiente de la línea x

x

Sxx , β , b 1 t[12α/2;n22] s /

b 2 t[12α/2;n22] c) s / c)

2

Sxx 2

(8-15)

Donde: b 5 Sxy Sxx t[12α/2;n22] 5 valor de la distribución de t de Student

s5

Sxy 2 bSxy n 22

(8-16)

5 SSE/(n 2 2) La ecuación de la varianza es: s2 5 (Syy 2 bSxy) / (n 2 2)

(8-17)

β 5 coeficiente poblacional de la pendiente de la línea, el cual es estimado por b 5 Sxy /Sxx, o sea el coeficiente de la línea de regresión muestral.

8.2.5 Intervalo de confianza para el parámetro poblacional a, el intercepto de la ordenada de la línea de regresión mY|X 5 a 1 bX, cuyo estimador es a n

2

a

s

∑ i 1

nSxx

n

2 i

2

αx

a

s

∑ i 51

nSxx

2 i

(8-18)

b)

368

| Estadística para ingeniería y ciencias

Donde: a ya se definió anteriormente t[12α/2;n22] 5 a un valor usando la distribución de t de Student con ν 5 n 2 2 grados de libertad s ya se definió de la ecuación (8-16) Sxx ya se definió de la ecuación (8-9)

8.2.6 Hipótesis nula H0: b 5 b0 contra las hipótesis alternativas H1: b 1 y H2: b 2 Para esta prueba también se usa la distribución de t de Student con ν 5 n 2 2 grados de libertad, es decir: t 5 (b 2 β0) /s/Sxx

(8-19)

Donde: t 5 la estadística de la distribución de t de Student β0 5 un valor dado b 5 pendiente de la línea

8.2.7 Hipótesis nula H0: a 5 a0 contra las hipótesis alternativas H1: a ≠ a0, H2: a a0 y H3: a a0 Aquí, nuevamente, se usa la distribución de t de Student con grados de libertad, ν 5 n 2 2. Para esto se usa la fórmula 8-20: a 2F 0

t5

n

s

¨x i51

2 i

(8-20)

/ nSxx

Donde: α0 5 un valor dado s, ya definida anteriormente a, ya definida anteriormente

8.2.8 Intervalo de confianza para mY|X de la línea poblacional estimada por Y El intervalo de confianza para el valor de μY|X se hace es usando la fórmula 8-21: Y09 2 t[α/2;ν] s

1 1 (X0 2 – X )2/Sxx , μY|X , Y09 1 t[α/2;ν] s n

1 1 (X0 2 – X )2/Sxx n

(8-21)

Donde:

Y09 5 a 1 b X0 5 valor de la línea de regresión con un valor de X0 dado

(8-22)

Capítulo 8 Regresión lineal simple y múltiple

| 369

t[α/2;n22] 5 valor de la distribución de t con un nivel de significancia de α 5 0.05 o bien 0.01 con ν 5 n 2 2 grados de libertad a, ya definida anteriormente s, ya definida anteriormente X0 5 un valor dado – X 5 promedio de la muestra

8.2.9 H ipótesis nula H0: b 5 0 contra las hipótesis alternativas H1: b 0 y H2: b 0 Para hacer esta prueba usamos la distribución de t de Student con ν 5 n 2 2 grados de libertad. La función estadística usada para tales fines es: t 5 (b 2 b0) / s / Sxs

(8-23)

Donde: s, ya definida anteriormente b 5 intercepto en la ordenada Y β0 5 un valor dado Sxx ya definida de la ecuación (8-8) Σxy ya definida de la ecuación (8-9) β0 5 0 Aquí, también se tienen que calcular las regiones críticas usando la distribución de t, es decir, t[12α/2;ν], donde α es el nivel de significancia deseado y ν es el número de grados de libertad, es decir, n 2 1. Después de esto, se compara el valor de tcalc., con el valor crítico de ttab. y se sigue el mismo procedimiento para cualquier prueba de hipótesis.

8.2.10 H ipótesis nula de H0: a 5 a0 contra las hipótesis alternativas H1: a 0 y H2: a 0 Para hacer esta prueba de hipótesis se usa la estadística de t de Student mostrada abajo:

a 2F 0

t5

n

s

¨x i51

2 i

(8-24)

/ nSxx

Donde: s, ya definida anteriormente b ya definida anteriormente de la ecuación (8-7) Aquí también se tiene que establecer las regiones críticas usando la distribución de t de Student. Estas regiones críticas son: t[12α/2;ν], donde α es el nivel de significancia usado.

370

| Estadística para ingeniería y ciencias

8.2.11 P ruebas de hipótesis H0: r 5 0, contra la hipótesis alternativas H1: r 0, para el coeficiente de correlación poblacional r estimado por R Para estos fines se usa la estadística de t de Student: t 5 vR / 1 2 R 2

(8-25)

R 5 Sxy S / Sxx Syy

(8-26)

Donde: ν 5 n 2 2 grados de libertad Aquí, nuevamente, para calcular las regiones críticas se usa la t de Student, es decir, t[α/2;n22].

Ejemplos de problemas usando regresión y correlación lineal simple Ejemplo 8.1. Este problema está relacionado con un estudio acerca de la cantidad de precipitación pluvial y la remoción de contaminación atmosférica. Tabla 8.1. Datos del ejemplo 8.1. Lluvia (0.066 cm)

18

7

14

31

21

5

11

16

26

29

Remoción de contaminación

55

17

36

85

62

18

33

41

63

87

Hacer los siguientes cálculos: a) Hacer una gráfica que vaya en función de la variable dependiente Y y la variable independiente X, con línea de regresión. b) Calcular los valores de la estadística descriptiva. c) Obtener la ecuación de regresión lineal simple y trazarla en la gráfica. d) Evidenciar la fidelidad del modelo de regresión, es decir, a través de la emisión de un juicio subjetivo analizando los valores de los residuales estandarizados, de la siguiente manera: • Hacer una gráfica que muestre la prueba de normalidad. • Hacer una gráfica con los residuales estandarizados versus valores ajustados de Y. (El valor predicho o ajustado de Yi es el valor de Y que se esperaría cuando se usa la línea de regresión. En otras palabras, los valores ajustados de Y1, Y 2, . . . , Yn se obtienen sustituyendo, sucesivamente, x1, x2, . . . , xn en la ecuación de la línea de regresión estimada: Yi 5 b0 1 b1xi, . . . , 1 bnxn). • Hacer un histograma de residuales. • Hacer una gráfica que muestre los residuales estandarizados versus los renglones. b) Complementar la evaluación del modelo con inferencias estadísticas, como: • Cálculo del coeficiente de determinación R2 y el coeficiente de correlación R.

Capítulo 8 Regresión lineal simple y múltiple

| 371

• Hacer una tabla de análisis de varianza (ANOVA). • Hacer una tabla con los coeficientes, los errores estándares, las pruebas de t, los valores de p y los intervalos de confianza para el intercepto y la pendiente. Solución: Usando un programa de computadora se obtienen los siguientes resultados. a) La variable dependiente es la remoción de contaminantes (Y ) y la variable independiente es la cantidad de lluvia (X ). La figura 8.4 muestra esta solución: 100.0

y

Y9 5 1.0213 1 2.7348 (x)

75.0

Y

50.0

25.0

0.0 0.0

8.8

17.5

x 35.0

26.3

Figura 8.4. Gráfica que muestra Y versus X, con una línea recta horizontal corres– pondiente al valor del promedio de Y 5 49.7000.

b) Los valores de la estadística descriptiva son:

– – X 5 17.8000, Y 5 49.7000. Los valores máximos y mínimos de los valores de Y son

87.000 y 17.000, respectivamente. Los valores máximos y mínimos de los valores de X son 31.000 y 5.0000, respectivamente. Cuadrado medio del error 5 s2y|x 5 26.667; error cuadrático medio es sy|x 5 5.164.

c) Usando un programa de computadora se estiman los valores del intercepto en la ordenada y la pendiente. Éstos son: intercepto 5 a 5 1.0213, pendiente de la línea 5 b 5 2.7348. Sustituyendo estos valores dan la línea de regresión muestral (misma que se ve en la figura 8.4), da. Y 5 a 1 bX Y 5 1.0213 1 2.7348(X ) d) Para este inciso la figura 8.5 muestra la información requerida. Residual Plots Remocion de contaminantes (Y) Normal Probability Plot of the Residuals

Residuales versus the Fitted Values

90

Residual

Porcentaje

99

50 10 1 210

0

25

5

Residual Histograma de residuales

0

10

210

3 2 1

20

40

60

80

Fitted Value Residual versus the Order of the Data

Residual

Frecuencia

5

25

5 0 25

0

210 28

24

0

Residual

4

1

2

3

4

5

6

7

8

9

10

Orden de observación

Figura 8.5. Gráficas de las respuestas para el inciso d).

372

| Estadística para ingeniería y ciencias Como se ve en la figura 8.5 la gráfica superior izquierda muestra la prueba de normalidad con todos los puntos formando una línea recta. Esto indica que la distribución de los datos es normal. Igualmente, la figura superior derecha muestra los residuales en función de los valores ajustados de Y. Aquí, hay aleatoriedad en la distribución de los puntos con la misma cantidad de puntos negativos y positivos, lo que indica que no hay correlación de los datos. La figura inferior izquierda muestra la frecuencia versus los residuales. Finalmente, la figura inferior derecha muestra los residuales en función de los órdenes de las observaciones. Aquí, en esta figura hay aleatoriedad y el mismo número de puntos positivos y negativos, lo que sugiere que no hay colinealidad o correlación en serie de la información suministrada. e) Para complementar el estudio objetivista se efectúan pruebas estadísticas de inferencia. • El cálculo del coeficiente de determinación R2, el cual es la fuerza relativa de la relación lineal entre X y Y (mide la proporción de variación en Y que puede ser explicada por la variación en X ), lo dan la ecuación (8-11) y las ecuaciones (8-6), (8-7) y (8-8), respectivamente: R2 5 0.9620 El cálculo del coeficiente de correlación R es: R5

R 2 5 0.9808

• Para el análisis de varianza (ANOVA), que también sirve para validar el modelo de regresión, es una función estadística objetivista que prueba la hipótesis nula de que la pendiente es igual a 0. Aquí se verá que un valor grande de F indica que el modelo de regresión seleccionado es útil. Sin embargo, es necesario analizar todos los demás criterios antes de emitir un juicio final. La tabla 8.2 de ANOVA da los resultados. Tabla 8.2. Análisis de varianza (ANOVA) para el ejemplo 8.1. Suma de los cuadrados

g.l.

Cuadrado del promedio

Fcalc.

Ftab.

Valor de p

5 396.77

1

5 396.77

202.38

5.32

0.00001

Residual (error)

213.33

8

26.67

Total

5 610.1

9

Fuente de variación Debido al tratamiento

El valor de Ftab. se saca consultando la tabla de la distribución de F, esto es F0.95, 1, 8 el cual da F0.95, 1, 8 5 5.32. Aquí, debido a que el valor de Fcalc. 5 202.38 ... 5.32, se rechaza la hipótesis sustentada de que H0:β1 5 0 y se inclina por H0:β1 ≠ 0. La conclusión es de que la pendiente de la línea no es igual a 0 u horizontal. • La tabla 8.3 muestra los valores del intercepto en la ordenada, el gradiente de la línea de regresión, los errores estándar, la pruebas de hipótesis usando la t de Student, los valores de la probabilidad p y los intervalos de confianza (95%) para β0 (intercepto) y β1 (pendiente).

Capítulo 8 Regresión lineal simple y múltiple

| 373

Tabla 8.3. Valores del intercepto, pendiente, pruebas t de Student, valor del nivel de p y sus intervalos. Coeficiente

Error estándar

Prueba t

Valor de p

Límite inferior

Límite superior

Intercepto

1.02

3.79

0.27

0.79

27.772

9.76

Pendiente

2.73

0.19

14.23

2.29

3.18

5.8 3 10

27

Aquí, nótese que el intervalo de confianza para el intercepto es muy amplio y la hipótesis no se puede rechazar, puesto que el valor de t es muy pequeño y el valor de p 5 0.79 es grande. Esto lo apoya el valor de 0.79 de p y un error estándar de 3.79, relativamente grande; lo contrario ocurre con las pruebas estadísticas de la pendiente, cuyo valor de t es grande y de p es muy pequeño. Ejemplo 8.2. En un estudio de microbiología ambiental, en muestras de agua, se dieron los datos de la tabla 8.4. Estos datos se refieren al crecimiento de una colonia de bacterias en un medio de cultivo. Tabla 8.4. Datos del ejemplo 8.2. Tiempo en días de inoculación (X ) Núm. de bacterias (Y )

3

6

9

12

15

18

115 000

147 000

189 000

230 600

257 900

286 400

Hacer los siguientes cálculos: a) Hacer una gráfica con el número de bacterias en función del tiempo. b) Evaluar la calidad del modelo de regresión usando diagnósticos estadísticos y gráficos. c) Con la ecuación de regresión, estimar el número de bacterias después de 20 días. d) Encontrar los intervalos de confianza para α y β. Solución: a) La gráfica con el número de bacterias en función del tiempo de inoculación es la figura 8.6.

Número de bacterias (Y)

300 000

250 000

200 000

150 000

100 000 5

10

15

20

Tiempo de inoculación (X)

Figura 8.6. Gráfica de número de bacterias versus tiempo de inoculación.

374

| Estadística para ingeniería y ciencias b) La evaluación del modelo con ecuación de regresión y aplicación de diagnósticos estadísticos y gráficos se da en seguida. La ecuación de regresión es: Número de bacterias (Y ) 5 81 147 1 11 721, Tiempo de inoculación (X) Predictor

Coef SE

Coef

T

P

Constante

81 147.0

5 271.0

15.40

0.000

Tiempo de inoculación (X )

11 721.0

451.1

25.98

0.000

s 5 5 661.81 R-Sq 5 99.4% R-Sq(adj) 5 99.3% PRESS 5 302 704 548 R-Sq(pred) 5 98.61% Tabla 8.5. Análisis de varianza. Fuente de variación

g.l.

SS

MS

F

Valor de p

Debido a la regresión

1

21 637 464 143

21 637 464 143

674.99

0.000

Residual (error)

4

128 224 190

32 056 048

Total

5

21 765 688 333

Estadística de Durbin-Watson 5 1.46591

50 10 1 22

21

0

1

Standardized Residual

2

Frecuency

1.00 0.75 0.50 0.25 0.00 21.5 21.0 20.5

0.0

0.5

1.0

Standardized Residual

Residuales versus the Fitted Values 2 1 0

21 1000000

1500000

2000000

2500000

3000000

Fitted Value

Histogram of the Residuals

1.5

Standardized Residual

Porcent

90

Standardized Residual

Residual Plost for Numero de bacterias (Y) Normal Probability Plot of the Residuals 99

Residual versus the Order of the Data 2 1 0

21 1

2

3

4

5

6

Orden de observación

Figura 8.7. Gráficas de los resultados de la prueba de normalidad, es decir, de los residuales versus porcentajes, residuales estandarizados versus valores ajustados, histograma de residuales estandarizados y residuales estandarizados versus los órdenes de las observaciones.

c) (Y ) 5 81 147 1 11 721, tiempo de inoculación (20 días) 5 315 567. d) Intervalo de confianza de 95% para α: 61 259.45 , α , 101 780.6; valor de la probabilidad p 5 0.0004; intervalo de confianza de 95% para β es: 10 040.14 , β , 13 508.43, con un valor de la probabilidad p 5 0.000046. Ejemplo 8.3. En un estudio de agricultura, relacionado con la siembra de algodón, en cierto estado del norte de México, la precipitación anual y el rendimiento de la cosecha de algodón son como sigue.

Capítulo 8 Regresión lineal simple y múltiple

| 375

Tabla 8.6. Datos del ejemplo 8.3. Precipitación en centímetros (X )

7.12

63.54

47.38

45.92

8.68

50.86

44.46

Rendimiento de la cosecha en libras/acre (Y )

1 037

380

416

427

619

388

321

Hacer los siguientes cálculos: a) Calcular los valores del intercepto a y la pendiente b. b) Escribir la ecuación de la línea de regresión. c) Calcular el coeficiente de determinación R2 y el coeficiente de correlación R. d) Predecir el rendimiento de la cosecha de algodón, si la precipitación es de 30 pulgadas. e) Hacer una tabla de análisis de varianza. Solución: a) Usando un programa de computadora como el de Excel da: intercepto en la ordenada 5 a 5 880.40 pendiente de la línea 5 b 5 29.61 b) Por tanto, la ecuación de la línea de regresión es: Y 5 880.40 2 9.61 (X ) c) El coeficiente de determinación 5 R2 5 0.6991 El coeficiente de correlación 5 R 5 0.8361 d) Cuando la precipitación de lluvia es de 30 pulgadas, el rendimiento de la cosecha se calcula usando el modelo de regresión obtenido, es decir, sustituyendo el valor de X 5 30. De esta manera, usando la ecuación de regresión dada arriba y sustituyendo el valor de X 5 30 nos da: Y 5 880.4 2 9.61 (30) 5 592.1 e) La tabla de análisis de varianza dada por el programa Excel se da en la tabla 8.7. Tabla 8.7. Análisis de varianza (ANOVA). Fuente de variación

g.l.

SS

MS

Fcalc.

Ftab.

Valor de p

Debido a la regresión

1

260 628.2

260 628.2

11.62

5.32

0.019

Residuo

5

112 165.5

22 433.11

Total

6

372 793.7

En conclusión, al comparar el valor de la estadística calculada F con el valor crítico de F se rechaza la hipótesis sustentada con un valor de p igual a 0.019.

376

| Estadística para ingeniería y ciencias

Ejemplo 8.4. En un estudio de ingeniería del agua relacionado con las reducciones de los sólidos suspendidos, en función de la demanda química de oxígeno (DQO), se sacó una muestra aleatoria, cuyos datos se dan en la tabla 8.8. Para lo siguiente: a) Identificar la variable dependiente y la independiente y hacer una gráfica de DQO versus reducción de sólidos. b) Calcular la ecuación de la línea de regresión con línea de regresión. c) Hacer una tabla de análisis de varianza que incluya la F crítica y el valor de p. d) Validar el modelo candidato, a través de estadísticas como R2, PRESS, s y de la estadística de Durbin-Watson (para la prueba de autocorrelación de residuales). e) Evaluar la utilidad del modelo a través de gráficos subjetivos: Tabla 8.8. Mediciones de sólidos y la demanda química de oxígeno. Sólidos suspendidos

DQO

30

29

33

37

25

32

29

27

31

36

25

31

30

30

33

30

35

31

29

28

32

29

30

30

29

30

34

30

36

30

28

29

34

29

34

29

34

31

36

29

31

30

33

30

35

28

30

28

28

31

36

28

33

32

26

30

34

28

30

31

27

32

36

27

31

32

27

32

34

26

29

31

Solución: a) La variable dependiente es DQO y la variable independiente es reducción de sólidos suspendidos. La figura 8.8 muestra las concentraciones de DQO versus reducción de sólidos suspendidos con línea de regresión.

DQO (Y)

Gráfica de DOQ en función de sólidos suspendidos 37.5

37.5

35.0

35.0

32.5

32.5

30.0

30.0

27.5

27.5

25.0

25.0 25.0

27.5

30.0

32.5

35.0

37.5

Sólidos suspendidos (X)

Figura 8.8. Gráfica del DQO versus reducción de sólidos con línea de regresión.

b) La ecuación de la línea de regresión es:

DQO (Y ) 5 1.53 1 0.909 X(sólidos suspendidos), donde la pendiente es igual a 0.909 y el intercepto es 1.53.

c) La tabla 8.9 muestra la información de ANOVA.

Capítulo 8 Regresión lineal simple y múltiple

| 377

Tabla 8.9. ANOVA de sólidos suspendidos y DQO. Fuente de variación

SS

g.l.

MS

Fcalc.

Fcrítica

Valor de p

Entre los grupos

32.00

1

32.00

4.35

3.98

0.04

Residual (error)

515.44

70

7.35

Total

546.44

71

d) s 5 0.9039, R2 5 88.8%, R2(ajustada) 5 88.5%, PRESS 5 31.8928 R2(predecida) 5 87.13%, estadística de Durbin-Watson 5 1.67 Aquí, el coeficiente de determinación R2 mide qué tan bien el modelo de regresión ajusta los datos. Análogamente, el estadístico PRESS (suma de cuadrados de error de predicción) mide la calidad del modelo de regresión. En cuanto a la estadística DurbinWatson si está cercana a 2 no hay autocorrelaciones en series positivas o negativas. La variación de los datos da la estadística s. e) La figura 8.9 da la información subjetiva para la evaluación del modelo

50

124

0

22

0

24

2

Standardized Residual Histogram of the residuals

Frecuencia

Residuales versus the Fitted Values 2

22

10

10.0 7.5 5.0

Standardized Residual

Porcent

90

Standardized Residual

Residual Plots for DQO (Y) Normal Probability Plot of the Residuals 99

25.0

27.5

30.0

Fitted Value

32.5

35.0

Residual versus the Order of the Data 2 0

22

2.5

24

0.0 24

23

22

21

0

1

2

1

Standardized Residual

5

10

15

20

25

30

35

Observation Order

Figura 8.9. L a figura superior izquierda muestra la prueba de normalidad. La figura superior derecha muestra los residuales estandarizados versus valores ajustados. La figura inferior izquierda muestra el histograma. Finalmente, la figura inferior derecha muestra los residuales estandarizados versus el orden de las observaciones. Nótese que hay un valor inusual extremo en el renglón 11, cuyo valor ajustado es 33.2681 y cuyo residual estandarizado tiene un valor de 3.8259.

8.3 Regresión y correlación lineal múltiple En el estudio de regresión lineal múltiple, el objetivo es construir un modelo probabilístico que relacione una variable dependiente con dos o más variables independientes. Así, muchas aplicaciones del análisis de regresión involucran situaciones donde se tiene más de una variable independiente. En la mayor parte de los problemas de investigación se necesitan varias variables independientes para ver el efecto en la variable dependiente. La variable dependiente o de respuesta (Y ) puede estar relacionada con muchas variables independientes o regresoras X1, X2, etcétera. En el estudio de regresión lineal múltiple se pueden usar el enfoque matricial. También se pueden hacer pruebas de hipótesis, intervalos de confianza, análisis subjetivos (análisis de los gráficos) y análisis objetivos

378

| Estadística para ingeniería y ciencias

(estadística de inferencia), como los cálculos de los coeficientes de determinación (R2) o de correlación (R), como en el caso de la regresión lineal simple. Sin embargo, en este caso, se puede calcular el coeficiente de correlación general y coeficientes de correlación parciales, es decir, en forma análoga a como se hace con los coeficientes β0, β1, etcétera. Cuando hablamos de regresión lineal múltiple tenemos las siguientes situaciones: a) Modelo de primer orden con dos variables regresoras o independientes. b) Modelo de primer orden con más de dos variables independientes.

8.3.1 Modelo de regresión múltiple generalizado Cuando este modelo general es lineal en los coeficientes se denomina modelo de regresión múltiple. Por ejemplo, para el caso de k variables independientes x1, x2, x3, . . . , xk, el promedio lo da Y|x1, x2, x3, . . . , xk y se da mediante el modelo de regresión múltiple poblacional:

Y 5 μY|x1, x2, x3, . . . , xk 5 β0 1 β1x1 1 β2x2 1 . . .1 βkxk 1 εk

(8-27)

Este modelo, también se puede expresar con otra anotación como:

Yj 5 β0 1 β1X1j 1 β2X2j 1 . . . 1 βkXkj 1 εj

(8-27a)

Los parámetros βj , j 5 0, 1, 2, 3, . . . , k se conocen como coeficientes de regresión poblacionales. Por ejemplo, el parámetro βj representa el cambio esperado en la respuesta Y, por unidad de cambio en xj, cuando todos los demás pronosticadores xi se mantienen constantes. Además, εi y ei son los errores aleatorios o residuales de población y de la estadística asociados con la respuesta Yi. El modelo de regresión lineal múltiple de la muestra que estima al modelo poblacional de arriba es:

Y 5 b0 1 b1X1 1 b2X2 1 . . . 1 bkXk

(8-28)

Donde cada coeficiente de regresión parcial βi es estimado por bi. Esto se debe a que cada coeficiente parcial βi mide el cambio esperado en Y por unidad de cambio en x1, cuando x2 se mantiene constante, y β2 mide el cambio esperado en Y por unidad de cambio en x2 cuando x1 se mantiene constante. El modelo de primer orden con dos variables independientes es:

Yi 5 β0 1 β1Xi1 1 β2Xi2 1 ε

(8-29)

Donde Yi es la variable dependiente que denota la respuesta en las -ésimas tentativas; Xi1 y Xi2 son las dos variables independientes de la -ésima tentativa; β0, β1, β2 son los coeficientes de regresión y ε es el error o residual.

8.3.2 M odelo de regresión múltiple con más de dos variables independientes

Yi 5 β0 1 β1Xi1 1 β2Xi2 1 . . . 1 βp21Xi,p21 1 ε

(8-30)

Cuando hablamos de regresión lineal múltiple, el principal objetivo es la obtención de la ecuación de la línea de regresión muestral, para predicción y estimación, la cual emula a la ecuación poblacional. Sin embargo, antes de poder usar el modelo de regresión calculado, éste se tiene que evaluar, para ver qué tanta certeza se le puede adjudicar. La evaluación o validación del modelo de regresión estimado se hace a través de análisis objetivos y subjetivos, en forma análoga como en la regresión lineal simple. Por ejemplo, los análisis objetivistas se hacen a través de funciones estadísticas de inferencia. Posteriormente, para que la validación del modelo sea completa, el procedimiento se complementa usando enfoques subjetivistas, a través de análisis de las gráficas de los valores residuales. Si la validación no es satisfactoria, se procede con remediación del modelo,

Capítulo 8 Regresión lineal simple y múltiple

| 379

ya sea haciendo transformaciones de los ejes o probando otros modelos más apropiados, como cuadráticos o cúbicos, etcétera.

8.3.3 Cálculos y aplicaciones de regresión lineal simple usando el programa Minitab 1. Vaya a: Stat → Regression → Regression 2. En la ventana de diálogo de Regression y en la ventanilla de Response introduzca la variable dependiente y en la ventanilla de Predictors ponga la variable independiente. 3. En la ventana de Graphs si lo desea señale los residuales estandarizados. 4. Para la evaluación del modelo de regresión con gráficos de residuales, escoja Four in One y luego seleccione la tecla OK. 5. En la ventana de Regression haga clic en la ventanilla de Display para evaluar la utilidad del modelo y luego haga clic en OK. Ejemplo 8.5. Éste es un estudio relacionado con la temperatura y la presión de un gas. La temperatura se expresa en unidades de °C y la presión en unidades de atmósferas (atm). La tabla 8.10 muestra la información para este problema. Tabla 8.10. Presión (atm)

Temperatura oC

0.114

5

0.116

10

0.118

15

0.124

30

0.122

25

0.124

30

0.126

35

0.128

40

0.13

45

0.132

50

Hacer lo siguiente: a) Identificar la variable de respuesta y la variable independiente. b) Hacer una gráfica con los datos. c) Ajustar un modelo de regresión lineal y calcular la presión del gas cuando la temperatura es de 80.6 °F. Validar el modelo de regresión lineal simple usando los diagnósticos s, R2, PRESS. Solución: La entrada de los datos se muestra adelante en la hoja de Minitab de la figura 8.10.

380

| Estadística para ingeniería y ciencias

Figura 8.10.

a) La variable de respuesta es la presión del gas. b) La gráfica se da en la figura 8.11.

Presión (atm)

Gráfica de DOQ en función de sólidos suspendidos 0.1325

0.1325

0.1300

0.1300

0.1275

0.1275

0.1250

0.1250

0.1225

0.1225

0.1200

0.1200

0.1175

0.1175

0.1150

0.1150 0

Figura 8.11.

10

20

30

40

50

Temperatura (grados Celsius)

c) La ecuación de regresión es: Presión atm 5 0.112 1 0.000400 Temp. °C. S 5 0 R-Sq 5 100.0% R-Sq(adj) 5 100.0% PRESS 5 6.651790E-32 R-Sq(pred) 5 100.00% Cuando la temperatura es de 80.6 oF da 0.123 atmósferas.

8.3.3 Cálculos y aplicaciones de regresión múltiple usando el programa Minitab 1. Vaya a: Stat → Regression → Regression. 2. En la ventana de Regression aparecen las entradas de la variable dependendiente (Y ) y de las variables independientes X1, X2, en sus columnas respectivas relacionadas con el problema. 3. En la ventanilla de Response (de la ventana de Regression) entre en la variable dependiente y, en la ventanilla de Predictors, ingrese las variables independientes (que se copiaron en las columnas del programa). 4. Debajo de esta ventana de Regression están las ventanillas de Graphs, Options, Results y Storage. Por ejemplo, si desea usar Graphs puede seleccionar los residuales regulares o los estandarizados. En la ventanilla de Option residual plots, escoja las gráficas de las cuatro opciones para el análisis subjetivista.

Capítulo 8 Regresión lineal simple y múltiple

| 381

5. En la ventana de Regression-Options seleccione las funciones deseadas, v.g., Variance Inflation Factors, Durbin-Watson statistics, PRESS, etcétera. 6. En la ventana de Regression-Results escoja las funciones deseadas de las cuatro enlistadas, v.g., In addition de sequential sum. Ejemplo 8.6. Para encomiar a los consumidores de electricidad de la urgente necesidad de bajar la temperatura del termostato (°C) de las calefacciones y de los calentadores de agua (para ahorrar energía y contaminar menos el ambiente), se hizo un estudio hipotético para examinar, cómo la reducción de los recibos de luz se logra bajando la posición de los termostatos. Para esto se pide hacer lo siguiente. a) Hacer una gráfica que vaya en función del consumo de electricidad y de las temperaturas del termostato de la calefacción y del calentador de agua. b) Decir qué tipo de modelo de regresión es el más adecuado. c) Justificar la aserción a través de diagnósticos objetivistas y de gráficos de residuales. Tabla 8.11. Información para este estudio. Colocación del termostato (°C)

Consumo de electricidad (Kwh/100)

Calefacción

Calentador de agua

Y

X1

X2

22

23.0

51.0

23

22.0

55.0

17

20.0

50.0

25

22.5

56.0

34

25.0

62.0

20

21.0

50.0

25

22.0

55.0

34

25.0

61.0

Solución: La figura 8.12 muestra la entrada de los datos en la hoja de Minitab.

Figura 8.12.

| Estadística para ingeniería y ciencias a) La gráfica de la figura 8.13 da los resultados de los datos del problema.

Consumo de luz vs. temperaturas de la calefacción y del calentador de agua Consumo dlectricidad de KWH/100

382

35

35

30

30

25

25

20

20

15

Variable Calefacción (X1) Calefacción de agua (X2)

15 20

30

40

50

60

X - Datos

Figura 8.13. G ráfica del consumo de electricidad en función de las temperaturas de la calefacción y del calentador de agua, con ajustamiento de línea de regresión en cada uno de sus casos.

b) El tipo de modelo de regresión más adecuado es uno de regresión lineal múltiple sin interacción. c) La demostración de los diagnósticos estadísticos y gráficos de residuales se da en seguida. La ecuación de regresión es: Consumo de electricidad Kwh/100 5 251.7 1 1.53 Calefacción (X1) 1 0.769 Calentador de agua (X2) Predictor

Coef SE

Coef

T

P

Constant

251.749

4.809

10.76

0.000

Calefacción (X1)

1.5273

0.4440

3.44

0.018

4.4

Calentador de agua (X2)

0.7689

0.1678

4.58

0.006

4.4

VIF

s 5 0.986881 R-Sq 5 98.2% R-Sq(adj) 5 97.4% PRESS 5 26.6216 R-Sq(pred) 5 89.92% Analysis of Variance Table Source

DF

SS

MS

F

P

Regression

2

259.13

129.57

133.03

0.000

Residual Error

5

4.87

0.97

Total

7

264.00 Durbin-Watson statistic 5 0.734990

La valorización del modelo a través de diagnósticos gráficos se da en la figura 8.14.

Capítulo 8 Regresión lineal simple y múltiple

| 383

Porcent

90 50 10 1 23.0

21.5

0.0

1.5

3.0

Figura 8.14. Gráfica de la evaluación del modelo a través de gráficos de residuales.

Frecuencia

Standardized Residual Histogram of the residuals 2.0 1.5 1.0

Residuales versus the Fitted Values 1 0 21

22

15

20

25

30

35

Fitted Value

Standardized Residual

99

Standardized Residual

Residual Plots for Consumo electricidad KWH/100 Normal Probability Plot of the Residuals

Residual versus the Order of the Data 1 0

21

0.5

22

0.0 21.5 21.0 20.5

0.0

0.5

1.0

Standardized Residual

1.5

1

2

3

4

5

6

7

8

Observation Order

Ejemplo 8.7. Considerar los datos de la tabla 8.12 y usando el programa de computadora Minitab hacer lo siguiente: a) Obtener un modelo de regresión lineal múltiple (modelo 1). b) Obtener un modelo con transformación logarítmica en el eje vertical (modelo 2). c) Obtener un modelo con transformaciones logarítmicas de los ejes horizontales y del eje vertical (modelo 3). d) Se le pide al lector que decida cuál modelo es el más apropiado al juzgar por los resultados obtenidos. Tabla 8.12. Datos bivariados de regresión.

Solución: La figura 8.15 muestra la entrada de los datos originales y los transformados. Al juzgar por los resultados, se le pide al lector que decida cuál modelo es el más apropiado.

Figura 8.15. Resultados del resumen de los tres modelos.

Y

X1

X2

3 2 7 6 5 6 7 4

4 4 4 6 3 6 3 2

3 4 3 4 2 4 2 2

384

| Estadística para ingeniería y ciencias a) Resultados del modelo 1. Regression Analysis: Y versus X1, X2 The regression equation is Y 5 6.00 1 2.00 X1 1 3.00 X2 Predictor

Coef

SE Coef

T

P

Constant

6.000

1.803

3.33

0.021

X1

2.0000

0.7746

2.58

0.049

4.2

X2

3.000

1.183

2.54

0.052

4.2

VIF

S 5 1.41421 R-Sq 5 58.3% R-Sq(adj) 5 41.7% b) Resultados del modelo 2. Regression Analysis: Log Y versus X1, X2 The regression equation is: Log Y 5 0.810 1 0.225 X1 2 0.348 X2 Predictor Constant

Coef

SE Coef

T

P

VIF

0.8101

0.1622

4.99

0.004

X1

0.22484

0.06969

3.23

0.023

4.2

X2

20.3479

0.1065

3.27

0.022

4.2

S 5 0.127236 R-Sq 5 69.3% R-Sq(adj) 5 57.0% PRESS 5 0.127401 R-Sq(pred) 5 51.62% Analysis of Variance Source

DF

SS

MS

F

P

Regression

2

0.18242

0.09121

5.63

0.052

Residual Error

5

0.08095

0.01619

Total

7

0.26336

Durbin-Watson statistic 5 1.47105 c) Resultados del modelo 3. Regression Analysis: Log Y versus Log X1, Log X2 The regression equation is: Log Y 5 0.595 1 1.83 Log X1 2 2.16 Log X2 Predictor

Coef

SE Coef

T

P

Constant

20.5949

0.2095

2.84

0.036

Log X1

21.8342

0.7288

2.52

0.053

4.3

Log X2

22.1573

0.8332

2.59

0.049

4.3

VIF

S 5 0.148347 R-Sq 5 58.2% R-Sq(adj) 5 41.5% PRESS 5 0.300470 R-Sq(pred) 5 0.00%

| 385

Capítulo 8 Regresión lineal simple y múltiple

Analysis of Variance Source

DF

SS

MS

F

P

0.15333 0.11003

0.07666 0.02201

3.48

0.113

Residual Error

2 5

Total

7

0.26336

Regression

Durbin-Watson statistic 5 1.52837 Modelo 1

Gráfica de residuales para log

Gráfica de residuales para Y

0

21

21 0 1 Residual estandarizado

22

2

Histograma de residuales 4 3 2 1

90 50 10 1

2

3

4

5

0.0

21.5 21.0 20.5

0.5

1.0

1.5

Histograma de residuales

1 0

4 3 2 1 0

1

2

3

4

5

6

7

21.5

0.0

21.0 20.5

Orden de la observación

Residual estandarizado

0.5

1.0

1.5

Residual estandarizado 8

Modelo 2

Gráfica de residuales para log Y

Gráfica de residuales para Y

21.5 21.0 20.5

0.0

0.5

1.0

1.5

2

3

4

5

6

0

1

3 2 1

2

3

4

5

6

7

Orden de la observación 0

7

21.5

21.0 20.5

0.0

0.5

1.0 8

22

Porcentaje

90

50 10

50

1

0 1 Residual estandarizado

22

10

2

21

0.4

1

0.6

0.8

Histograma de 1residuales Valores ajustados 22 21 0 2 4 Residual estandarizado Residuales versus orden de los datos Histograma de residuales 3 1 0 21

Frecuencia

2

0 21

Porcentaje

Porcentaje

6

4

Orden de la observación

dual estandarizado

5

Histograma de residuales

Residual estandarizado 1

4

1

21

0

3

Gráfica 90 de la probabilidad normal de residuales

99

1

Frecuencia

2

10

2.0

1.5

2 1

1.0

0 21.5

0.5 1

1.5

0.0

21.0 20.5

0.5

1.0

Residual estandarizado 8

1.5

Residual estandarizado

2 0.0

3

4

5

6

7

8

Orden la observación 21.5 de21.0 20.5 0.0 0.5 1.0 Residual estandarizado

1.5

1

Residuales versus valores ajustados

0 1 21 0 22

0.4

0.6

0.8

Valores ajustados

21

0.4Residuales 0.5

versus0.6 orden de los 0.7 datos

Residuales versus orden de los datos

0 1 21 0 1

2

3

4

5

6

7

8

Orden de la observación

21 1

2

3

4

5

6

7

Orden de la observación

Gráfica de residuales para log Y Residuales versus valores ajustados

Gráfica de la probabilidad normal de residuales Porcentaje

99 90 50 10 1

22

21

0

1

Residual estandarizado

2

Frecuencia

Histograma de residuales 2.0 1.5 1.0 0.5 0.0 21.5

21.0

20.5

0.0

0.5

1.0

Residual estandarizado

1.5

1 0

Residuales versus valores ajustados

90 50 10 1

22

21 0.4

0.5

2.0

21 0 1 Residual estandarizado

2

0.6 0.7residuales 0.8 Histograma de Valores ajustados

Residuales versus orden de los datos

1

1.5 1.0 0.5

0

0.0 21.5

21

21.0

20.5

0.0

0.5

1.0

1.5

2

3

4

5

6

7

1 0 21 0.4

0.5

0.6

0.7

0.8

Valores ajustados Residuales versus orden de los datos 1 0 21 1

2

3

4

5

6

7

8

Orden de la observación

Residual estandarizado 1

Residual estandarizado

Gráfica de la probabilidad normal de residuales

Gráfica de residuales para 99 log Y

0.8

Valores ajustados

1

Modelo 3

Residual estandarizado

1.5

3

Porcentaje

1.0

4

50

1 Valores ajustados 22 21 0 1 Residuales versus orden de los estandarizado datos Residual

Frecuencia

0.5

2

6

1

21

0.0

5

2

Histograma de residuales Valores ajustados

0

90

Residual estandarizado

4

21 0 1 Residual estandarizado

Residuales versus orden de los datos 1

99

0

Residual estandarizado

3

22

Residual estandarizado

rama de residuales

2

1

21

Residual estandarizado

al estandarizado

10 1

Frecuencia

2

Residual estandarizado

1

50

Residual estandarizado

0

90

Frecuencia

Porcentaje

Residual estandarizado

Residuales versus valores ajustados 1

21

0

Residual estandarizado

99

ilidad normal de residuales

Residual estandarizado Residual estandarizado Residual estandarizado Residual estandarizado

Residuales versus valores ajustados de residuales para log Gr Yáfica de la probabilidad normal de residuales 99 Gráfica de residuales para log Y Gr áfica de la probabilidad normal de residuales Residuales versus valores ajustados

Residuales versus valores ajustadosGráfica

Gráfica de residuales para Y Gráfica de la probabilidad normal de residuales

2

21

Residuales versus orden de los datos

21

0

0 1 Residual estandarizado

22

6

Valores ajustados

Frecuencia

1

Frecuencia

1

8

Orden de la observación

Figura 8.16. Las gráficas muestran la validación de los tres modelos usando gráficos de residuales.

8

Residual estandarizado

10

99

Porcentaje

50

Residual estandarizado

90

Gr áfica de la probabilidad normal de residuales

Residuales versus valores ajustados

Residual estandarizado

Porcentaje

99

Residual estandarizado

Gráfica de la probabilidad normal de residuales

Residu 1 0 21 22

0

Residu 1 0 21 1

2

Or

386

| Estadística para ingeniería y ciencias

Problemas propuestos 8.1 Los datos de la tabla 8.13 muestran las emisiones promedio de óxidos de nitrógeno (NOx) provenientes de calderas de plantas eléctricas. Tabla 8.13. Tabla de datos del problema 8.1. MBtu/ h-pie2 (X) NOx (Y)

100

125

125

150

150

200

250

250

300

300

350

400

200 400

150

140

180

210

190

320

280

400

430

440

390

600

610

570

a) Hacer una gráfica de NOx vs MBtu/h-pie con línea de regresión e intervalos de confianza y de predicción. b) Evaluar el modelo de regresión seleccionado estimando la ecuación de regresión y calculando los diagnósticos estadísticos. c) Complementar la evaluación del modelo analizando las gráficas de la prueba de normalidad y de los residuales en función de los valores ajustados, órdenes, etcétera. d) Usando el modelo seleccionado, ¿cuál es la estimación esperada de la emisión de NOx cuando la tasa de liberación es de 225 MBtu/h-pie2? 8.2 En un estudio de agricultura, para ver los efectos de los cambios climáticos globales relacionados con los patrones pluviales alterados debido al calentamiento global, por las emisiones de CO2, se estudió la precipitación pluvial anual y el rendimiento de la cosecha de gramíneas. La tabla 8.14 da los datos. Nota: El calentamiento global y la consecuente distorsión climática están alterando no solamente los patrones meteorológicos, sino también a la agricultura, la salud, la economía, la política y todos los demás sistemas interactivos que gobiernan al hombre moderno. 2

Tabla 8.14. Datos del problema 8.2. Precipitación pluvial en pulgadas (X )

Rendimiento de la cosecha en libras por acre (Y )

7.12

1 037

63.54

380

47.38

416

45.92

427

8.68

619

50.86

388

44.86

321

Determina cuál modelo de regresión encaja mejor en los datos, al juzgar por las estadísticas y por los análisis gráficos, es decir, usando una aproximación lineal, una logarítmica y una aproximación de función de potencia de la forma de Ln (Y ) 5 Ln(a) 1 b(LnX ). a) Usar una aproximación lineal como Y 5 a 1 bX y, además, calcular los criterios estadísticos, v. g., el coeficiente de determinación R2, s, PRESS, etcétera. b) Usar una aproximación logarítmica como Y 5 a 1 b Ln (X ) y, además, calcular los diagnósticos estadísticos.

c) Usando una aproximación de función de potencia de la forma de Ln (Y ) 5 Ln (a) 1 b (Ln X ) y, además, calcular los criterios estadísticos. d) ¿Cuál modelo es superior? 8.3 En la tabla 8.15 se muestran los resultados de un estudio de química de una sustancia y en la que aparece la relación entre la temperatura y la molaridad (en moles por litro) a) Estimar el modelo de regresión más apropiado basado en análisis estadísticos de R2, R2ajustada, PRESS, s, y Cp y en análisis gráficos subjetivos de los valores residuales. Tabla 8.15. Relación entre la temperatura y la molaridad. Temperatura oC Molaridad

4.3

4.5

4.8

5.5

5.7

5.9

6.4

6.7

7.5

7.9

12.1

12.5

12.9

13.0

13.1

14.0

14.2

14.8

15.0

15.5

Nota: En química, la molaridad es una manera de cuantificar las concentraciones de las soluciones. Se define matemáticamente como M 5 moles de soluto/volumen de solución en litros. 8.4 El aluminio es el tercer elemento más abundante en minerales, rocas y barros; se puede analizar con el método de absorción atómica espectrométrica (método A), este elemento está exento de interferencias como fluoruros y fosfatos. El aluminio también se puede analizar por medio del método de calorimetría de cianuro de eriocromo R (método B), el cual es más simple que el anterior. La tabla 8.16 muestra los resultados de los análisis (en mg/L) de los dos métodos usados. Hacer los siguientes cálculos usando el programa de computadora de Minitab o SAS. a) Calcular e interpretar el coeficiente de determinación R2 y el coeficiente de correlación R. Tabla 8.16. Datos del problema 8.4. Método A Método B

5

6

6

8

10

10

11

11

8

9

9

11

13

13

14

14

8.5. El berilio (Be) y sus compuestos son extremadamente venenosos y capaces de causar la muerte en concentraciones altas. La inhalación del Be causa una seria afección llamada beriliosis. El berilio también puede causar dermatitis, conjuntivitis, neumonía aguda y beriliosis pulmonar crónica. Este elemento químico se usa en reactores atómicos, aviones, cohetes y en combustibles para mísiles. Hay dos métodos para el análisis (en μg/L) del berilio, es decir, el método espectrométrico de absorción atómica (método 1) y el método aluminon (método 2). Los resultados de los análisis de los dos métodos se dan en la tabla 8.17. Hacer los siguientes cálculos. a) Hacer un estudio estadístico objetivista, es decir, estimando los valores de R2, R2ajustada, PRESS, s y tablas de ANOVA. b) Complementar el estudio haciendo análisis gráficos subjetivistas.

Capítulo 8 Regresión lineal simple y múltiple Tabla 8.17. Resultados de los métodos 1 y 2 para la medición del berilio. Método 1 Método 2

0

3

4

5

9

12

15

17

20

20

1

7

11

19

24

31

31

35

41

41

8.6 En investigaciones de toxicología existen estudios que han demostrado que la probabilidad de que un fumador de 40 años de edad, quien lo ha sido por los últimos 10 años, contraiga cáncer pulmonar en los próximos 20 años es alta (suponiendo que continúe fumando al mismo ritmo). Esta relación va en función del número promedio de cigarrillos que fuma al día. Suponer un modelo de regresión lineal. La tabla 8.18 presenta los datos de esta investigación de toxicología. Tabla 8.18. Datos del problema 8.6. Número de cigarrillos fumados por día

Probabilidad de cáncer pulmonar

5

0.100

10

0.113

20

0.225

30

0.300

40

0.450

50

0.540

60

0.700

80

0.860

a) Identificar la variable dependiente y la variable independiente. b) Describir la ecuación de regresión que mejor encaje en los datos. c) Calcular R2, R2ajustada, s, y PRESS. d) Analizar e interpretar los componentes de la tabla de ANOVA como Fcalc., Fcrítica y el valor de p. e) Discutir la relación existente entre los diagnósticos estadísticos R2, s, PRESS, Fcalc., el valor de p, criterio de Mallow Cp y la estadística de Durbin-Watson (para prueba de autocorrelación). f) Evaluar la utilidad del modelo de regresión seleccionado, es decir, subjetivamente, esto es, por medio de analizar los gráficos de los residuales estandarizados. 8.7 Se realizó un estudio de química inorgánica y se registraron las cantidades de cloruro de sodio (NaCl), el cual, cuando se disolvió en 100 gramos de agua destilada, a diferentes temperaturas en grados Celsius (oC), dio los siguientes resultados: Tabla 8.19. Datos del problema 8.7. Temperatura (X )

NaCl disuelto en gramos de agua (Y )

0

8 6 8

15

12 10 14

30

25 21 24

45

31 33 28

60

44 39 42

75

48 51 44

| 387

a) Elaborar una gráfica en función de la cantidad de NaCl en función de la temperatura (K). b) Calcular la ecuación de regresión y estimar la cantidad de NaCl que se disolverá a una temperatura de 300 K. c) Si se sabe que a medida que aumenta la temperatura, la disolución de las sales de sodio se incrementa en forma proporcional a la temperatura, entonces, usando estadísticas objetivistas y subjetivistas verificar que existe un buen ajuste del modelo. d) Hacer una prueba de hipótesis para el coeficiente de correlación muestral R, para verificar que sí existe una asociación lineal significante entre las dos variables. Suponer α 5 0.05. Sugerencia: usar la estadística de t de Student dada abajo: t 5 R / 1 2 R 2 / n 2 2 con ν 5 n 2 2 grados de libertad

e) Teóricamente, la disolución de muchas sales va en función directa a la temperatura y, en teoría, el valor del coeficiente de determinación, R2 debería de ser de 1.0. Así, listar dos factores (no estadísticos sino químicos) que pudieran afectar la disolución de las sales y no dar un valor igual a 1.0. 8.8 En un estudio de meteorología entre la cantidad de lluvia y la remoción de contaminantes atmosféricos, se dio la siguiente información: Tabla 8.20. Datos del problema 8.8. Precipitación (X ) (0.01 cm/día)

Remoción de partículas (Y ) (μg/m3)

4.3

126

4.5

121

5.9

116

5.6

118

6.1

114

5.2

118

3.8

132

2.1

141

7.5

108

a) Calcular la remoción de contaminantes (Y ) cuando el valor de la precipitación pluvial es de X 5 8.0. b) Validar el modelo de regresión objetiva y subjetivamente. 8.9 Éste es un ejercicio relacionado con un estudio para evaluar la capacidad de los sistemas de flujo freático, usados para la degradación de la materia orgánica de las aguas residuales; se usó el parámetro de la demanda bioquímica de oxígeno (DBO) y varios otros componentes químicos. Este estudio dio como resultado los siguientes datos que están relacionados con la carga de masa de DBO (en kg/hectárea/día), la cual se usó como la variable independiente (X ) y la degradación de la concentración de masa carbonosa de DBO5 (en kg/ha/día), la cual se usó como la variable dependiente (Y ). Tabla 8.21. Datos del problema 8.9. (X ) (Y )

5

10

12

14

15

18

29

32

37

39

40

46

105

144

7

10

11

11

13

15

19

29

24

12

34

34

78

93

388

| Estadística para ingeniería y ciencias

Calcular los siguientes enunciados: a) Graficar los datos. b) Establecer el modelo de regresión más apropiado para este problema. Hacer los mismos cálculos que en el problema anterior. c) Validar el modelo de regresión seleccionado, objetivistamente, usando los siguientes criterios o diagnósticos: • Cálculo del coeficiente de determinación R2. • Cálculo del coeficiente de determinación ajustado, R2ajustado. • El coeficiente de correlación R. • La estadística PRESS. • El error estándar estimado, s (se selecciona el modelo que tenga el valor de s más pequeño aunado a otras consideraciones). d) Evaluar el modelo candidato a través de diagnósticos gráficos que incluyan: • Prueba de normalidad. • Residuales en función de los órdenes. • Residuales en función de los valores ajustados. e) Una vez que se haya seleccionado el modelo más apropiado, calcular la remoción de la DBO después de que el agua residual se degradó en el wetland cuando la carga fue de 50 kg/ha/día. Nota: Los sistemas de flujo freático (áreas pantanosas) se usan como sistemas de tratamiento natural, porque tienen la capacidad de degradar las aguas residuales, es decir, las concentraciones de DBO (demanda bioquímica de oxígeno), el cual mide la concentración de la materia orgánica. Estas áreas actúan como especie de lagunas de oxidación o estabilización. En Minatitlán y Coatzacoalcos, Veracruz, se usan estos tipos de tratamientos naturales, para degradar las aguas residuales. 8.10 En estudios de fisicoquímica, la presión de un gas que corresponde a varios volúmenes (de acuerdo con la ley de los gases de Boyle, la cual relaciona la presión y el volumen) se da en la tabla 8.22. Suponer que el volumen del gas es (X ) y la presión es (Y ). Hacer los siguientes cálculos: a) Hacer una gráfica con los datos. b) Estimar la línea de regresión de la muestra. c) Estimar el coeficiente de determinación R2 y el coeficiente de correlación R. Interpretar los resultados. d) Predecir la presión del gas, cuando el volumen es de 0.001 m3. e) Predecir la presión del gas, en libras por pulgada cuadrada (lb/pulg2) y en atmósferas (atm), cuando el volumen del gas es de 0.0528 cuartos (0.05 L). f ) En teoría, debido a que la relación entre el volumen del gas y la presión es inversamente proporcional, el coeficiente de correlación debería ser de R 5 21.0, sin embargo, si R difiriera del valor de −1.0, enlistar 3 factores (en el laboratorio de química) que pudieran intervenir para explicar esta situación. Tabla 8.22. Volúmenes y las presiones del gas. Volumen en cm3

50.0

60.0

70.0

85.0

100.0

Presión en kg/cm2

64.7

51.3

40.5

25.0

7.8

Sugerencias: Se dan los siguientes factores de conversión: 1 atm 5 14.7 lb/pulg2 5 760 torr 5 1.0668 kg/cm2; 1 cm2

5 0.16 pulg2; 1.0567 cuartos 5 1 L; 1 pulgada cuadrada 5 6.25 cm2; 1 m3 5 1 000 L 5 106 cm3. 8.11 Se coleccionó una muestra de 26 casos de una descarga de aguas residuales municipales. Esta muestra se analizó para la demanda bioquímica de oxígeno de 5 días (DBO5), en libras por día, y la demanda química de oxígeno, DQO (en libras por día). La tabla 8.23 muestra la información requerida. Tabla 8.23. Mediciones de DBO5 y DQO. Demanda química de oxígeno (lb/día)

Demanda bioquímica de oxígeno (lb/día)

493 485

214 200

443 555

198 238

527 599

236 278

395 427

162 182

531 439

228 192

307 290

114 132

349 489

148 213

455 544

188 244

439 582

188 290

544 368

246 176

308 385

118 191

536 397

224 163

479 345

198 158

Hacer lo siguiente: a) Identificar la variable dependiente y la variable independiente. b) ¿Existe una correlación significativa entre los valores de la DBO5 y la DQO? c) Ajustar un modelo con intervalos de confianza e intervalos de predicción graficando la demanda bioquímica de oxígeno (DBO) en función de la demanda química de oxígeno (DQO). d) Predecir la DBO cuando la DQO es de 600. Nota: La demanda bioquímica de oxígeno de cinco días (DBO5) mide la concentración, en mg/L (miligramos por litro) o en libras por día de la materia carbonosa del agua residual. De hecho la DBO mide la fracción biodegradable del drenaje o del agua residual industrial o doméstica, en términos del carbono. Usualmente, las unidades son en mg/L. Sin embargo, esto se debe a que, antes, se usaban en forma indiscriminada las unidades de ppm (partes por millón) y mg/L. Después, se descubrió que, con los residuos tóxicos, la gravedad específica era diferente a la de los residuos carbonosos. Por esta razón es mejor usar las unidades de mg/L. Por otra parte, la prueba de la DBO es de cinco días, para evitar la nitrificación. En cambio, la prueba de la demanda química de oxígeno mide los compuestos orgánicos biodegradables y los compuestos orgánicos tóxicos. Esto quiere decir que, la demanda química de oxígeno (DQO) oxida la cantidad de materiales totales oxidables presentes en el agua residual y varía con la composición del agua, la temperatura, el periodo de contacto y otros factores más. 8.12 Los metales pesados, como el mercurio (Hg), cromo (Cr), el plomo (Pb), etc., pueden interferir con el tratamiento biológico en las plantas municipales de aguas residuales domés-

Capítulo 8 Regresión lineal simple y múltiple ticas. En un estudio se hicieron mediciones mensuales en una planta piloto usada para el tratamiento de las concentraciones de Cr, en microgramos por litro (μg/L), tanto en el efluente como en la entrada de la planta. Los resultados de las concentraciones de Cr se dan en la tabla 8.24. Tabla 8.24. Datos del problema 8.12. Entrada (X ) (g/L) Entrada (Y) (g/L)

250

290

270

100

410

110

130

1100

19

10

17

11

60

18

30

180

300

70

Hacer los siguientes cálculos: a) Ajustar un modelo de regresión lineal y evaluarlo objetivamente (estadísticamente) y subjetivamente (con gráficos de residuales). b) Ajustar un modelo con escala logarítmica (base e) en la ordenada y evaluarlo objetiva y subjetivamente. c) Ajustar un modelo de regresión con transformaciones logarítmicas (base e) en la ordenada y la abscisa y evaluarlo objetiva y subjetivamente. d) De acuerdo con los diagnósticos estadísticos y gráficos, ¿Cuál de los tres modelos es superior? e) Estimar Y cuando X 5 300 en el inciso b). 8.13 En un estudio de microbiología ambiental relacionado con el cultivo de una muestra de agua contaminada se dan los datos que aparecen en la tabla 8.25. Tabla 8.25. Datos del problema 8.13. Tiempo en días desde la inoculación (X ) Núm. de bacterias (Y )

12

20

35

13.5

23.1

16.0

58.0

23

22.2

21

16

27.0

Tabla 8.27. Datos del problema 8.15. Caída de presión después de algún tiempo (pulgadas de agua)

2.00

5.0

1.99

6.0

1.88

7.0

1.76

7.8

1.68

8.4

1.57

9.6

1.46

9.9

9

1.40

10.6

12

15

18

1.39

11.7

11 000

14 700

23 900

1.20

14.0

35 600

57 900

86 400

1.15

15.9

1.07

19.0

40.1

82.1

171.0

75.6

107.0

34.2

331.0

79.9

80.9

62.8

48.9

160.0

128.0

51.0

18.2

Tasa de flujo del aire con las partículas (m3/min)

6

Tabla 8.26. Datos del problema 8.14.

30

a) Identificar la variable dependiente (Y ) y la variable independiente (X ). b) Estimar un modelo de regresión para estas cuencas hidrológicas, ajustando un modelo lineal y otro logarítmico. ¿Cuál de los dos modelos es superior? 8.15 La tasa de flujo en m3/min en un muestreador de alto volumen para medir la calidad del aire, es decir, para partículas atmosféricas, depende de la caída de presión, en pulgadas de agua, a través del filtro del muestreador. Así, supóngase que se coleccionó una muestra de 15 valores de caída de presión y la tasa de flujo del aire a través del filtro del sensor. Los datos se muestran en la tabla 8.27.

3

Hacer los siguientes cálculos: a) Hacer un diagrama esparcido con los datos. b) Graficar los datos ajustando un modelo de regresión exponencial y evaluar su utilidad a través de diagnósticos estadísticos y gráficos. c) Ajustar un modelo de regresión lineal y evaluar su utilidad a través de diagnósticos estadísticos y gráficos. d) De acuerdo con los resultados obtenidos en los incisos b) y c), ¿cuál de los dos modelos de regresión es el mejor candidato? 8.14 Los ingenieros hidrólogos frecuentemente usan las características físicas de las cuencas hidrológicas para diseñar obras hidráulicas, por ejemplo, diques o presas para contener las inundaciones o con el fin de captar aguas pluviales para la producción agrícola. La tabla 8.26 muestra los datos de las áreas de las cuencas (en km2) y las longitudes (en kilómetros) de las variadas cuencas hidrológicas en un estado del norte de México.

Área de la cuenca en km2

Longitud de la cuenca en km

| 389

1.01

24.0

1.00

28.0

0.95

35.0

a) Calcular el modelo de regresión muestral que estime a la verdadera línea poblacional. Para esto, identificar, primero, la variable dependiente y la regresora. b) Complementar la validación del modelo de regresión usando métodos estadísticos objetivistas. Para lo cual se debe, estimar el coeficiente de determinación R2, el error estándar de lo estimado (s dado por Minitab) y PRESS. Usar el programa Minitab para estos cálculos. c) Complementar la evaluación del modelo de regresión estimado en a) usando enfoques subjetivistas, es decir, a través de gráficas con residuos estandarizados vs. valores de caída de presión. Asimismo hacer otra gráfica de residuales estandarizados vs. los renglones. Hacer otra gráfica más con los valores residuales versus los valores de z para la prueba de normalidad. 8.16 Se hace un estudio sobre la concentración de cadmio (Cd) atmosférico, en ppm, usando Yi y su relación con Xi 5 la altura de los muestreadores y X2 5 distancia de la fuente emisora. La tabla 8.28 muestra los datos. Hacer los siguientes cálculos.

| Estadística para ingeniería y ciencias

390

a) Suponer un modelo de regresión lineal y evaluarlo usando enfoques de diagnóstico de estadística de inferencia (objetivistas) y de gráficos estadísticos. b) Usar el modelo de regresión y predecir la concentración de cadmio, cuando la altura del muestreador es de X1 5 25 metros y la distancia a la fuente emisora industrial es X2 5 851 metros. Tabla 8.28. Datos del problema 8.16. Y (concentración de Cd)

193

230

172

91

113

125

X1 (altura del muestreador)

1.6

15.5

22.0

43.0

33.0

40.0

X2 (distancia)

851

816

1058

1201

1357

1115

8.17 Se analizaron treinta muestras del efluente de una planta de tratamiento para la medición de la DBO5 y la demanda química de oxígeno (DQO). Los datos se muestran en la tabla 8.29. Hacer lo siguiente. a) Identificar la variable de respuesta y la variable independiente. b) Aplicar el modelo de regresión más adecuado para estos datos y validarlo objetiva y subjetivamente. c) Graficar los datos en papel de probabilidad. d) Determinar la DBO5 y la DQO que excederá 50% de las veces. e) Determinar la DBO5 y la DQO que excederá 90% del tiempo.

Tabla 8.29. Concentraciones de la DQO y de la DBO5. DQO (lb/día)

DBO5 (lb /día)

494

494

528

396

310

538

480

500

396

486

291

490

546

582

368

386

216

200

238

164

230

116

120

226

200

222

176

134

215

246

292

177

8.18 En un estudio de laboratorio para determinar la relación entre los sólidos suspendidos y las concentraciones de la DBO se optuvo una muestra con los datos que se muestran en la tabla 8.30. Tabla 8.30. Datos del problema 8.18. 18

Sólidos suspendidos DBO5

7

14

31

21

5

11

16

26

29

55

17

36

85

62

18

33

41

63

87

a) Identificar la variable dependiente y la variable independiente. b) Hacer una gráfica que vaya en función de la variable dependiente y de la variable independiente. c) Validar el modelo de regresión objetiva y subjetivamente. d) Hacer una tabla de ANOVA que incluya el valor de F y p, es decir, completando la tabla 8.31. e) Usando el modelo de regresión seleccionado, calcular la DBO5 cuando los sólidos suspendidos son de 80 mg/L. Tabla 8.31. Tabla de ANOVA. Llenar los faltantes. Fuente

g.l.

SS

Debido a la regresión

1

5 396.80

Error Total

213.30 9

MS

Fcalc.

Ftab.

Valor de p

27.70

5 610.10

8.19 Con la finalidad de modelar las concentraciones promedio de monóxido de carbono (CO) provenientes de una autopista, se da la geometría de un segmento de la carretera, el cual tiene una longitud de 60.0 metros. El factor de emisión del CO es de 30 gramos por kilómetro. El conteo del tráfico vehicular es de 10 000 vehículos por hora. La intensidad

532

308

350

456

440

544

556

600

428

440

400

347

278

304

150

190

190

248

202

240

280

184

194

193

165

160

125

137

del viento es de 2.0 m/s con una estabilidad atmosférica de clase A. Se requiere calibrar un modelo de difusión atmosférica (Caline) y, para esto, se situaron ocho muestreadores, a diferentes distancias de la autopista, para analizar el CO, es decir, a distancias de 100.0, 125.0, 150.0, 200.0, 250.0, 300.0, 400.0 y 500.0 metros del tramo carretero a modelarse. La tabla 8.32 muestra la información requerida. Tabla 8.32. Distancias (metros) de los muestreadores, las concentraciones de campo (de los sensores) y las concentraciones teóricas (del modelo matemático). Distancias (m)

Valores de campo (μg/m3)

Valores del modelo (μg/m3)

100

1 700.00

1 600.00

125

1 200.00

1 105.00

150

800.00

750.00

200

450.40

400.68

250

200.00

235.00

300

120.00

100.56

400

20.01

30.00

500

4.80

5.26

a) Hacer una gráfica sobrepuesta con los datos de las concentraciones promedio de CO y los valores teóricos provenientes del modelo. b) Hacer una correlación estadística entre los valores de las dos distribuciones. c) En términos de una lógica de modelado de difusión atmosférica, ¿qué factores físicos pudieran haber intervenido para explicar las discrepancias existentes entre los valores de campo y los valores teóricos? d) Hacer una gráfica de valores teóricos en función de las

Capítulo 8 Regresión lineal simple y múltiple distancias y predecir la concentración de CO a una distancia de 350 metros. ↓ u = 2.0 m/s

|←—— 60 m ——→| ————————— —————————

→ Eje Y

o Origen | Receptor 1 (100 m)

940.1

952

879.2

895

858.5

870

831.7

846

918.6

935.3

955

970

830.8

840

700

710

| 391

8.21 Éste es un ejercicio de ingeniería sanitaria el cual está relacionado con la asociación que pueda existir entre la demanda bioquímica de oxígeno (DBO), la demanda química de oxígeno (DQO) y el carbono orgánico total (COT). Hacer lo siguiente: a) Una gráfica sobrepuesta con las tres variables.

| Receptor 2 (125 m) | Receptor 3 (150 m) | Receptor 4 (200 m)

Tabla 8.34.

| Receptor 5 (250 m) | Receptor 6 (300 m) | Receptor 7 (400 m) | Receptor 8

(500 m) 

Eje X Figura 8.17. G eometría del diagrama carretero usado para este problema de difusión atmosférica.

8.20 Ésta es una aplicación de ingeniería civil, la cual está relacionada con levantamientos aéreos y levantamientos terrestres. Los datos de la tabla 8.33 son las alturas medidas (en metros) a nivel del mar de 20 puntos de un levantamiento terrestre (x) y un levantamiento aéreo (y). Los puntos fueron igualmente esparcidos sobre un área de 9 por 10 kilómetros. Hacer lo siguiente. a) Un diagrama esparcido con una línea de regresión. b) Construir el modelo de regresión que mejor ajuste los datos y validarlo acordemente. Tabla 8.33. Datos del problema 8.20. Levantamientos aéreos (Y )

Levantamientos terrestres (X )

900

915

839.5

855

799

810

752

762

739.2

752

850

862

941.3

952.7

863

870

830.6

843.5

760.1

770.3

860

875

1045

1058.6

DBO5

Demanda química de oxígeno (DQO)

Carbono orgánico total (COT)

221

234

225

220

233

224

219

230

222

223

233

225

218

223

220

225

228

226

226

230

228

223

227

224

226

230

228

224

228

226

223

228

226

222

225

223

222

226

223

Nota: La DQO es una medición rápida e importante para obtener la concentración del oxígeno equivalente de esa porción de la materia susceptible de oxidación por oxidantes químicos oxidables. La demanda bioquímica de oxígeno (DBO) constituye una prueba empírica para determinar los requerimientos relativos de oxígeno de las aguas residuales, efluentes de plantas mecánicas de tratamiento o en la evaluación de la eficiencia de remoción de DBO. También se aplica a estudios de contaminación de corrientes. Esta prueba sin embargo, tiene un valor limitado en la medición de DBO en aguas superficiales, y la extrapolación de los resultados de las pruebas de laboratorio, a aquéllos de las corrientes, es imprecisa debido a que las condiciones del laboratorio no reproducen las condiciones reales, particularmente relacionados con la temperatura, población biológica, concentración de oxígeno, etc. Otra limitación es que la prueba de DBO requiere de varios días y, además de que la DBO debe incluir únicamente la parte carbonosa del drenaje, no compuestos inorgánicos como nitratos (por eso la prueba se hace por cinco días). En cuanto a la prueba de carbono orgánico total, como su nombre lo indica, mide la concentración total de la materia orgánica de las aguas residuales y tiene la ventaja sobre la DBO que no está restringido a cinco días.

392

| Estadística para ingeniería y ciencias

8.22 Éste es un ejercicio de física relacionado con la posición de una partícula que cae y que se puede representar mediante x 5 x0 1 v0t 2 0.5gt2, donde v0 es la velocidad (m/s) de caída de la partícula, t el tiempo, g la constante gravitacional (9.8 m/s2) y x la posición de la partícula a un tiempo t. Calcular la ecuación de regresión que mejor ajuste los datos y validarla acordemente.

Tabla 8.37. Datos del problema 8.24. Contenido energético

Tabla 8.35.

% de papel

% Mezclas de diferentes tipos de basuras

% de plástico

950

16

46

19

1 408

24

40

19.8

1 450

24.8

43

19.4

1 558

23

36

23

990

24

41.5

17

1 164

24

36

21.8

1 443

24.8

40

20

Tiempo (segundos)

Vel. (m/s) Y

0.5

0.75

1.5

1.75

2.5

8.75

3.5

21.75

4.5

39.75

1 655

20

44

24

5.5

62.75

1 333

24

35

21.4

6.5

90.75

1 340

27

34

20

7.5

122.75

1 099

23.5

33

17

1 268

27

38

21

1 400

20

41

21

1 220

23

44

21

1 220

23

41.9

19

1 335

22

42

18

1 159

21

41

22

1 455

23

37

25.4

1 280

27

39

21

1 159

28

44.6

18

1 230

28.9

35

19

1 240

27

38

19.1

1 312

25

37

22

1 231

26

36

15

1 210

24

38

18

8.23 Éste es un ejemplo hipotético que muestra la relación entre las concentraciones de ozono artificial, a nivel del suelo (ppb) y las temperaturas (°F). Este ejercicio está encaminado a calcular, manualmente, los residuales y de hacer una gráfica que muestre los residuales crudos. Los datos se dan en la tabla 8.36. Tabla 8.36. Datos del problema 8.23. Concentraciones de O3 (y)

75

80

86

94

99

107

Temperatura (°F) (x)

65

71

79

85

93

100

Hacer los siguientes cálculos: a) Calcular el modelo de regresión y medir su adecuación estimando R2, R2ajustado, s, PRESS y la estadística DurbinWatson. b) Hacer una tabla que muestre el valor de la desviación entre los datos y el ajuste, es decir, de los residuales regulares o crudos ei 5 yi 2 yi . c) Hacer una gráfica de las concentraciones de ozono, O3 (y) y temperaturas en la escala de temperatura Fahrenheit (x). Nota: En ingeniería ambiental atmosférica, existen dos tipos de ozono. Uno de ellos es el ozono estratosférico (ozono “bueno”) que escuda la Tierra de la nociva radiación ultravioleta. El otro tipo de ozono (ozono “malo”) es el ozono artificial o troposférico o a nivel de lo producido por la interacción del NO, NOx y la temperatura y de otros factores. 8.24 En estos tiempos de crisis energética es muy importante reciclar y aprovechar al máximo los desperdicios de la basura. En este estudio se usa un incinerador y se queman diferentes tipos de basura que contienen los porcentajes dados adelante para cada uno de éstos y se mide su contenido energético mismo que se aprovechará para producir fuentes de energía.

a) Identificar la variable de respuesta y las variables independientes. b) Ajustar un modelo lineal múltiple y validarlo acordemente, es decir, usando diagnósticos objetivos estadísticos y después complementar la tarea usando diagnósticos subjetivos gráficos. c) Predecir el contenido energético cuando el porcentaje de plástico es de 25% y el del papel es de 21%.

Problemas de tarea

Revisa tu CD-ROM para encontrar más problemas:

Capítulo

9

Regresión no lineal En este tema es necesario distinguir entre el ozono (O3) que se ubica en el suelo o troposférico y el ozono estratosférico. Así, el O3 que se encuentra en la atmósfera superior es diferente al peligroso que se halla en la atmósfera inferior. El ozono estratosférico (bueno) está a alturas de 16 a 48 kilómetros y es el que protege a la Tierra de los nocivos rayos ultravioletas del Sol (UV-A, UV-B). Pero el ozono que se encuentra en el suelo o artificial es diferente al estratosférico y es un contaminante peligroso. Se presenta cuando la luz del Sol se combina y reacciona con las sustancias químicas que producen las fuentes móviles e industriales y otros factores más. Es paradójico que las actividades del hombre moderno están produciendo ozono artificial a ras del suelo (malo) y que cause enfermedades y (Jupiter Images Corporation) destruya el ozono bueno (natural) en la estratosfera que nos protege de la radiación ultravioleta, además que produce cáncer en la piel, cataratas, alteraciones del DNA, etc. En términos de la química atmosférica el O3 troposférico es un gas contaminante secundario que se forma por la reacción de contaminantes atmosféricos como monóxido de nitrógeno (NO), óxidos de nitrógeno (NOx), compuestos orgánicos volátiles (COV), la temperatura ambiental y otros factores más. Las principales fuentes que producen este contaminante son las de tipo móvil (motores de combustión interna) e industriales. Las reacciones químicas del NO, NOx, COV, aumentos en la temperatura ambiental y otros factores más producen el O3. En términos generales, la generación del O3 a ras del suelo se produce como sigue: NO 1 COV → NO2 NO2 1 luz solar → NO 1 O O 1 O 2 → O3 Existe una relación entre el calentamiento global de la Tierra y la generación de O3, puesto que las altas temperaturas son factores muy importantes. Desde el punto de vista de regresión estadística se pueden establecer modelos de regresión para pronosticar las concentraciones de O3 y así poder alertar a la población del peligro de altas concentraciones de O3, sobre todo en verano. Se pueden probar varios modelos de regresión lineal múltiple o polinomial para ver cuál es el óptimo. Por ejemplo, el modelo de regresión múltiple poblacional es Yj 5 β0 1 β1 X1j 1 β2 X2j 1 … 1 βk Xkj 1 ε y el modelo de regresión polinomial es Y 5 β0 1 β1 X 1 β2 X 2 1 … 1 βi Xk 1 βk X 2k 1 ε. El procedimiento para estructurar el modelo de regresión es tomando como variable de respuesta las concentraciones de O3 y como variables independientes, NO, NO2, temperatura, punto de rocío, intensidad y velocidad del viento, humedad relativa, COV, altura de la mezcla (incidencia de inversiones térmicas), etc. Investigaciones hechas han demostrado que el mejor modelo de regresión de ozono que encaja en los datos es un modelo cuadrático. Este capítulo está encaminado a estudiar regresión polinomial. Además, busca hacer evaluaciones de la utilidad de los modelos probados. Fuente: http:www.windows.ucar.edu/tour/link5/Herat/images/ozone_tropo_big_jpg_omage.sp.ht

394

| Estadística para ingeniería y ciencias

9.1 Introducción La regresión no lineal incluye regresión polinomial, regresión logística, regresión con variables transformadas y así sucesivamente. La regresión polinomial es un caso especial de la regresión lineal simple o múltiple. Hay modelos polinomiales de segundo o tercer orden. Con la regresión polinomial existen modelos con una variable independiente, con ecuaciones cuadráticas, cúbicas o con órdenes más altos que k 5 3. También hay modelos polinomiales con dos o más variables independientes, con ecuaciones de segundo orden, tercer orden, etc. Igualmente, puede haber modelos de segundo orden o tercer orden con interacción. Sin embargo, los modelos polinómicos que tienen tres o más variables independientes, con valores de k . 3 son aplicaciones muy dificultosas y raras. Dentro del tema de regresión, también hay modelos de regresión no lineal, como los modelos de regresión exponenciales, en los cuales los parámetros no son lineales.

9.2 Modelo de regresión polinomial paramétrico o poblacional El modelo de regresión polinomial paramétrico o poblacional es: y 5 β0 1 β1x 1 β2 x2 1 … 1 βk xk 1 e

El estimador o modelo de regresión estadístico es: y 5 b0 1 b1x 1 b2 x2 1 … 1 bk xk 1 e

9.3 M odelos polinomiales de segundo orden (k 5 2) con una variable independiente El modelo polinomial de segundo orden (k 5 2) con una variable independiente llamada función de respuesta cuadrática se puede expresar de la siguiente forma: y 5 β0 1 β1x 1 β11x2 1 e

(9-1)

Que también se puede expresar con diferente anotación como: y 5 β0 1 β1x 1 β2 x2 1 e

(9-1a)

Donde: y 5 variable dependiente o función de respuesta β0 5 intercepto en la ordenada. Este coeficiente de regresión representa la respuesta promedio de y, cuando x 5 0 β1 5 coeficiente de efecto lineal β11 o β2 es el coeficiente de efecto cuadrático

Capítulo 9 Regresión no lineal

| 395

x 5 variable independiente e 5 término de error o residuo La función de respuesta para este modelo de regresión (Neter et al. 1996) es: E{Y } 5 β0 1 β1x 1 β11x2

(9-1b)

Esta función es la forma básica de una parábola convexa, es decir, cuando β2 , 0. Sin embargo, cuando β2 . 0, la parábola es cóncava. Estas situaciones se ven en la figura 9.1a) y b). El coeficiente β0 representa el intercepto en la ordenada. Los coeficientes β β 1 y β2 controlan la parábola, relativo a la ordenada. Por ejemplo, si β1 5 0, la parábola es simétrica y centrada alrededor de y 5 0. No obstante, si β1 y β2 tienen el mismo signo, la parábola se desvía hacia la izquierda, pero si β1 y β2 tienen signos opuestos, la parábola se desvía hacia la derecha. Además, el coeficiente β2 describe la curvatura. Por otra parte, si β2 5 0, no hay curvatura. Esto se ve en la figura 9.1c). Entre más grande sea el valor de β2, mayor será la tasa de curvatura. Sin embargo, entre más pequeño sea el valor de β2, menor será la curvatura (Keller et al. 1990). Todas estas situaciones se ven en estas gráficas.

9.4 M odelo de polinomios de tercer orden (k 5 3) con una variable independiente El modelo de polinomios de tercer orden (k 5 3) con una variable independiente se expresa como: y 5 β0 1 β1x 1 β11x2 1 βy111x3 1 e

Donde: y 5 variable dependiente

(9-2) a)

β1 5 coeficiente de efecto lineal β11 5 coeficiente de efecto cuadrático β111 5 coeficiente de efecto cúbico

x Modelo de segundo orden con β , 0

Las figuras 9.1d) y e) muestran este tipo de ecuación. Como se ve, cuando β3 , 0, sobre el rango de x, el valor de y disminuye, pero cuando β3 . 0, el valor de y aumenta. Sin embargo, las aplicaciones del modelo cúbico son pocas. y

y

b)

a)

x

x Modelo de segundo orden con β , 0

Modelo de segundo orden con β . 0

Modelo de segundo orden con β . 0

396

| Estadística para ingeniería y ciencias y

y

y d)

c)

e)

β2 grande β2 pequeña β2 5 0 x

x Modelo de tercer orden con β2 , 0

Modelo de segundo orden con varios valores de β2

x Modelo de tercer orden con β2 , 0

Figura 9.1. G ráficas del modelo cuadrático y cúbico. Por ejemplo, la gráfica a) muestra el modelo de segundo orden, con β2 , 0; la gráfica b) muestra el modelo con β2 . 0 y con varios valores de β2. La gráfica c) muestra los modelos de tercer orden con β3 , 0 y d), con β3 . 0. y Los modelos polinomiales de poderes más altos que k 5 3 deben de usarse con precaución. Esto se debe a que la interpretación de los coeficientes es difícil ye)las interpolaciones pueden ser peligrosas. Además, cuando d) hablamos de modelos con valores de k 5 4, o k 5 5, el comportamiento de semejantes modelos es extraño y de aplicaciones raras y, por tanto, no se discutirán aquí. y

x

x 9.5 Interacción en los modelos polinomiales de regresión Modelo de tercer orden con β , 0 2

Modelo de tercer orden con β2 , 0

Antes de discutir estos modelos de regresión hay que definir el término interacción, el cual significa que el efecto de x1 sobre y está influido por el valor de x2, que también significa que el efecto de x2 sobre y está influido por el valor de x1. Para ver el efecto de interacción, supóngase que la ecuación de la línea de regresión muestral es y 5 6 1 4x1 1 5x2 2 3x1x2. Para explicar este efecto supóngase que le demos valores a x2 de 1, 2, y 3. Al sustituir los y valores de x2 5 1, 2, y 3, en la ecuación muestral anterior, se producen las siguientes ecuaciones: y 5 5 1 x1, e) con x2 5 1; y 5 10 2 2x1 con x2 5 2 y, además, y 5 15 2 5x1, con x2 5 3. Analizando estas tres ecuaciones modificadas vemos que el intercepto y los coeficientes de x1 también varían. Aquí se ve que el efecto de x1 sobre y está influido por el valor de x2. Al graficar estas tres ecuaciones vemos que las tres líneas rectas se cruzan entre sí. Esto se ve en la figura 9.1b). En esta gráfica, se ve claramente que hay interacción, es decir, cuando las líneas rectas se cruzan entre sí. x

Modelo de tercer orden con β2 , 0

9.5.1 Modelo de segundo orden (cuadrático) con interacción Si un investigador cree que en sus datos existe una relación cuadrática entre la variable dependiente y) y cada una de las variables independientes x1, x2,…, xn, es decir, cuando las variables independientes interaccionan entre sí (decisión que se logró después de analizar las gráficas con tres curvas interaccionando entre sí), entonces, se debe de inclinar por el modelo de segundo orden con interacción. El modelo polinomial con dos variables independientes con interacción se da como:

y 5 β0 1 β1x1 1 β2 x2 1 β3 x21 1 β4 x22 1 β5 x1x2 1 e

(9-3)

Este modelo, también se puede expresar con diferentes anotaciones, como las señaladas abajo:

y 5 β0 1 β1x1 1 β2 x2 1 β12 x21 1 β22 x22 1 β12 x1x2 1 e

(9-3a)

Capítulo 9 Regresión no lineal

| 397

Donde: β12 5 coeficiente de efecto de interacción, donde x1 y x2 representan la interacción entre los pronosticado-

res o variables independientes x1 y x2.

Nótese que la diferencia entre la ecuaciones (922) y (923) es el último término de la derecha, el cual denota el efecto de la interacción.

9.6 M odelo polinomial (de segundo orden o cuadrático) con tres variables independientes sin interacción El modelo de segundo orden con tres variables independientes, cuando estas variables no interaccionan entre sí, es: y 5 β0 1 β1x1 1 β2 x2 1 β3 x3 1 β11 x21 1 β22 x22 1 β33 x23 1 e

(9-4)

9.6.1 M odelo polinomial (de segundo orden o cuadrático), con tres variables independientes con interacción El modelo de segundo orden con tres variables independientes, con interacción es: y 5 β0 1 β1x1 1 β2x2 1 β3x3 1 β11x21 1 β22x22 1 β33x23 1 β12x1x2 1 β13x1x3 1 β23x2x3 1 e

(9-5)

Donde: y 5 variable dependiente o función de respuesta β0 5 intercepto en la ordenada β12, β13, β23 5 los coeficientes del efecto de interacción entre los pares de variables de predicción x1x2, x1x3 y

x2x3 x1x2, x1x3, x2x3 representan la interacción entre las variables independientes x1, x2, x3, x1, x2, x3 5 variables independientes

En la solución de problemas relacionados con modelos de regresión lineal, múltiple o de regresión polinomial, con una o más variables independientes es siempre conveniente graficar los datos y examinar el diagrama esparcido. Esto se hace con objeto de analizar, visualmente, el diagrama esparcido y ver el tipo de curva mostrado y, por consiguiente, el modelo de regresión o función que pueda encajar mejor en los datos. y

y

con x2 4x 3 1, con x2 3 y 11 4xy1, 11

y

y

2 1, con x2 2 con x24x y 16 4xy1, 16 con x24x 11, con x2 1 y 21 4x1y, 21

x1 a)

a)

y 5 1x1, con x2 1 x2 y 5 x1, con

x1

con x2 2x 2 1, con x2 2 y 10 2xy1, 10 y 15 2 5xy1, 15 con x22 5x 3 1, con x2 3 x1 x1 b)

b)

1

a)

398

a)

b)

1

b)

| Estadística para ingeniería y ciencias y

y (β 0) 2

y

(β2 0) x2 3

x2 3

x2 2

x2 2

x2 1

x2 1 x1

c)

c)

y x2 3

x 3 x2 22

x2 2

x2 1

x2 1

x1

x1 d)

x1

d)

Figura 9.2. G ráficas de modelos polinomiales de primero y segundo orden, con dos variables independientes. La gráfica a) es la ecuación y 5 6 1 4x1 1 5x2. Cuando x2 5 1, 2 y 3, las ecuaciones modificadas se ven en la gráfica en cada uno de sus casos. En estas figuras se ve que no hay interacción (las líneas no se cruzan, porque es un modelo aditivo). La gráfica b) muestra la ecuación y 5 6 1 4x1 1 5x2 2 3x1x2. Cuando x2 5 1, 2 y 3, la gráfica muestra las ecuaciones modificadas. Aquí se ve que la ecuación polinomial de primer orden tiene interacción. Finalmente, la gráfica c) muestra un modelo de regresión polinomial de segundo orden sin interacción. Igualmente, la gráfica d) muestra un modelo de regresión con interacción.

9.7 Evaluación de la utilidad de los modelos de regresión La regresión polinomial es un caso especial de los modelos de regresión lineal simple y múltiple. La validación de estos modelos es análoga a la de los modelos de regresión lineal. Sin embargo, antes de estar totalmente seguros acerca de la fidelidad del modelo de regresión seleccionado, para fines de predicción y estimación, hay que ver que el modelo represente adecuadamente la relación entre las variables. Esto se puede hacer a través de estadística de inferencia y de análisis de gráficos. Para la evaluación de los modelos se puede proceder, jerárquicamente, ajustando modelos de segundo y tercer orden, con interacción y sin interacción y, luego se explora la posibilidad de ajustar un modelo de orden más bajo como modelos de regresión lineal múltiple, pero con interacción y sin interacción. De cualquier manera, como se dijo antes, para evaluar los modelos de regresión se procede explorando los criterios estadísticos, como el coeficiente de determinación múltiple (R2), el error estándar estimado (se), el coeficiente de determinación múltiple (R2), el criterio Cp de Mallow, PRESS (la sigla de suma de cuadrados de error de predicción) o, los valores de t, etc. Además, se revisan los valores de VIF (factores de varianza inflada; en donde valores grandes de VIF indican grandes diferencias entre los coeficientes de regresión estimados y los estandarizados), para ver posibles problemas de colinealidad. También, se puede usar la estadística de DurbinWatson para revisar problemas de autocorrelación de los residuos en series de tiempo. Aquí, para regresión múltiple, de acuerdo con la lógica del programa NCSS, ésta dice que, si esta función está cercana a 2, no hay autocorrelación, pero si es muy diferente de 2, entonces sí la hay. Análogamente, se pueden usar otros métodos como “Regresión por pasos” o “Todas las regresiones posibles”, que seleccionan los modelos óptimos basándose en los criterios arriba citados, es decir, agregando o eliminando las variables independientes o de respuesta. Finalmente, todo esto se puede complementar analizando, subjetivamente, los gráficos de los residuos estandarizados o no estandarizados, esto es, examinando la prueba de normalidad, residuos versus valores ajustados, residuos versus los órdenes, etcétera.

Capítulo 9 Regresión no lineal

| 399

9.7.1 A nálisis de estadísticos como R 2, s, criterio Cp y PRESS, para evaluar la utilidad del modelo polinomial a) Cálculo del coeficiente de determinación, R2). 2 Este criterio indica qué proporción de la variación ( Σxy 2 total en la respuesta Y se explica con el modelo En términos simples, esto dice que R2 indica Σx 2 Σyajustado. 2 la proporción de variación explicada independientes x1, x2, x3, …, xk. Este coeficiente ΣXvariables ΣY ( Σxy) por las 2 2 2 de determinación R2 ya se describió anteriormente, es decir n, Σx Σx Σy

2 ( ΣRX2 5 )2 ( Σxy) ΣXΣY ( Σxy)2 (9-6) 2 2 2 Σx Σy 2 2 2 n y Σ Y n , Σ x x y Σ Σ Donde: ΣY ΣY R 2 5 ( Σxy ) 2 ΣΣxX2 Σ y 22 ( ΣX2)2 ( ΣY )2 ΣX 2 2 ,( Σlas cuales definen por las ecuaciones (8-8), (8-9) y xy 5 (2nΣ2 X ) 2Y n2 2 yΣ YY2 )2 n, Σxy 5 ΣΣXY 2ΣΣXY X Σ2 Y ΣnX, ΣΣxY 5n,ΣΣXx 22 5 2 Σ( ΣXX2 )2 yΣ , Y )se 2(nΣ 2 n , Σ n y ΣR Y2 5 ( Σxyn) 2 Σx 2 Σyx2 n, Σx 2 (8-10) dadas en( ΣelXcapítulo 8. ( ΣY )2 MSE p ( ΣX ) )2 2 MSEk n y ΣY b) Cálculo del n y Σestándar Y 2Σ (Y 2estimado, Yp ) 2 n s: SSEerror 5 sε 5 ( ΣY )2 n 2 1 2(kΣY )2 (n 2 2) MSE p Σ (Y 2 Yp ) 2 SSE (9-6a) 5 5 s n MS E ε n k (n 2 2) n 212 k MSE p MSE p Donde: MSEk MSsuma Ek de 2los cuadrados error o residuo SSE 5 Σe 2i es la 2 2del Σ)y2 2 Σx 2 Σy 2 (ΣΣxxy R 5 ( ΣR xy2 )5 2 SSE 5 yp 5 línea de regresión, n es el tamaño deΣe muestra y k es el número de coeficientes βi probados. i ( Σxy)2 Un valor de sε cercano a cero indica un buen ajuste del modelo, pero sin ser una medida absoluta de (n 2 p 2 1) 2  (nΣ2 Cp 5 MSE p MSE 2Σ(yanalizar 1) 2 Yp p2 1 x 2SSE k Σ (Y Σ ()Y2 2los )2 Ypdemás la utilidad del modelo, es decir, SSE sin antes todos diagnósticos. Un valor grande de sε 5 5 sε 5 sε 5 ΣY MSE MSE 5que n2 indica un modelo deficiente que mejorarse. 1Cp 2ΣnkX 2 12 2) k(n(2 2) p 2 1) 2  (n 2 2( p 1 1)  n 2tiene k(pn 2 n, Σx 2

(

)

(

)

c) Criterio Cp. Este diagnóstico está relacionado con el error cuadrático medio de un valor ajustado. En 2 X Cp. )2 El modelo óptimo tiene un valor de Cp cercano a (p 1 1), general, pequeños( Σde yi 2 yi , 2valores PREES 5seΣprefieren i 2 independientes. y Σ2Y 2 2 donde, p es el número de variables Un Cp mayor que (p 1 1) indica que el modelo de re5 Σe 5nΣe SSE SSE i PREES i 5Σ y 2 y 2 i i , 2i Y ) puedan dar problemas de colinealidad, pero si el Cp es menor ( Σque gresión contiene variables innecesarias 2 Σx 2 Σy 2 ( Σxy ) 2 importantes. que (p 1 1), esto indica que se han omitido variables La fórmula para esta estadística es: nR 5

(

)

(

)

MSE p MSE (MSE (n12 ) 2p2 ) 22(p(n121)2( p 1 1)  Cp 5 MSE Cp 5 n 2 pk 2 (n12 p MSEkkp

(

(

)

)

(9-6b)

Donde MSE es el cuadrado del error medio, p esSSE el númeroΣde variables (Y 2 Yp ) 2 independientes y k es el nú5 5 s mero máximo de variables independientes disponibles. ε

(

()

(n 2 2)

n 2 1 22 k

)

2

d) Criterio PRESS. ComoPRE se Edijo antes, este y 2 yi , 2oi diagnóstico estadístico mide qué tan bien el uso de 2 S5 Σ EySi 5 Σyi ,criterio PRE 2i i los valores ajustados para un modelo puede predecir las respuestas observadas de Yi. Modelos con valores bajos de PRESS son deseables, porque cuando2 los errores de predicción son bajos, también lo serán SSE 5 Σe i los errores del cuadrado de predicción y la suma de estos errores. Esta estadística se usa para evaluar el modelo de regresión en términos de predicción. Para calcular PRESS cada observación es individualmente omitida y las observaciones restantes (n 2 1) se usan para calcular la regresión y estimar el valor  (nvez MSE p MSE de las observaciones omitidas haciendo Cp esta n veces, (n 2espdecir, 5operación 2 1) 2una ( p 1 cada 1)  caso. La di2 2para k ferencia entre el valor de actual de Y, yi y el valor pronosticado de Y de la i-ésima observación eliminada, se llama error de predicción. La fórmula matemática para la estadística PRESS se define como:

(

Donde: yi, 2i, se llama el error de predicción.

)

(

)

2

PREES 5 Σ yi 2 yi , 2i

(9-6c)

400

| Estadística para ingeniería y ciencias

9.7.2 Análisis gráfico (subjetivo) Para hacer la evaluación, subjetivamente, de la bondad de ajuste de los modelos usados se analizan los siguientes gráficos:

9.7.2.1 Prueba de normalidad Para que exista normalidad, los residuos deben formar una línea recta o estar dentro de las bandas de confianza.

9.7.2.2 Histogramas de residuos Esta gráfica deberá asemejarse a una distribución normal.

9.7.2.3 Gráfica de residuos versus valores ajustados de Y para la prueba de independencia Aquí, debe haber aleatoriedad de los residuos; no debe haber tendencias crecientes o decrecientes. Además, debe haber el mismo número de residuos positivos y negativos. De no ser así, se violan las suposiciones del modelo.

9.7.3 Autocorrelación (valores de e fijos) Para diagnosticar la autocorrelación en series de tiempo, graficar residuos versus tiempo. Usar prueba de Durbin-Watson para ver si existe autocorrelación. Esto se puede mitigar haciendo transformaciones.

9.7.4 A nálisis de gráficos para diagnosticar colinealidad (correlación o dependencia casi lineal entre las variables de regresión) Para mitigar esto hacer transformaciones como Y 9 5 Log Y , Y 9 5 Y 2 , Y 9 5 Y , Y 9 5 1/Y, etc. Las transformaciones de los ejes se discutirán ampliamente en la sección 9.15. t 5 β 2 sβ2

9.7.5 Prueba de heteroscedasticidad y homoscedasticidad El término heteroscedasticidad (hetero 5 desigual; scedasticidad 5 esparcido) o de residuales no uniformes (implica error de varianza de s2e no constante en todos los casos). En contraste, el término homoscedasticidad implica error de varianza s2e constante. Para diagnosticar el problema de heteroscedasticidad se grafican los residuales versus los valores predecidos Y. Análogamente, para diagnosticar este problema de heteroscedasticidad se puede hacer aplicando las pruebas de White y de Breusch-Pagan. Para mitigar el problema de la falta de homoscedasticidad, esto se puede hacer por medio de transformaciones. También se puede hacer probando otros modelos que ajusten mejor los datos.

Capítulo 9 Regresión no lineal

| 401

9.8 Resumen de los modelos de regresión usados a) Modelo de regresión lineal (de primer orden), con una variable independiente y 5 β0 1 β1x1 1 e

b) Modelo de regresión lineal múltiple, con dos variables independientes, sin interacción

y 5 β0 1 β1x1 1 β2 x2 1 e

(9-7)

c) Modelo de regresión lineal múltiple, con dos variables independientes, con interacción y 5 β0 1 β1x1 1 β2 x2 1 β12 x1x2 1 e

(9-7a)

d) Modelo cuadrático, con una variable independiente y 5 β0 1 β1x1 1 β2 x21 1 e

(9-7b)

e) Modelo cúbico, con una variable independiente y 5 β0 1 β1x1 1 β2x21 1 β3x31 1 e

(9-7c)

f) Modelo cuadrático, con dos variables independientes, sin interacción y 5 β0 1 β1x1 1 β2 x2 1 β11 x21 1 β22 x22 1 e

(9-7d)

g) Modelo cuadrático con dos variables independientes con interacción y 5 β0 1 β1x1 1 β2 x2 1 β11 x21 1 β22 x22 1 β12 x1x2 1 e

(9-7e)

h) Modelo de segundo orden con tres variables independientes, sin interacción y 5 β0 1 β1x1 1 β2 x2 1 β3 x3 1 β11 x21 1 β22 x22 1 β33 x23 1 e

(9-7f)

i) Modelo cuadrático con tres variables independientes con interacción y 5 β0 1 β1x1 1 β2x2 1 β3x3 1 β11x21 1 β22x22 1 β33x23 1 β12x1x2 1 β13x1x3 1 β23x2x3 1 e

(9-7g)

Ejemplo 9.1 Este ejemplo proviene del artículo del J. Agricultural Eng. Research, 1975 (p. 353-361), donde se reportan los datos con el número de días después de la floración (x), el rendimiento de la cosecha, en kg/ha (y). La tabla 9.1 muestra los datos. Tabla 9.1. Datos del ejemplo 9.1. x

16

18

20

22

24

26

28

30

32

34

36

38

40

42

44

46

y

2 508

2518

3 304

3 423

3 507

3 190

3 500

3 883

3 823

3 646

3 708

3 333

3 517

3 241

3 103

2 776

Fuente: Probabilidad y estadística para ingeniería y ciencias. J.L. Devore. Quinta edición. Thomson. México (2001).

| Estadística para ingenieros Hacer los siguientes cálculos: a) Hacer una gráfica que vaya en función de y y de los días de floración, x, con línea de regresión para identificar la función polinomial que se pueda esperar. b) Ajustar el modelo de regresión más apropiado y estimar los valores del coeficiente múltiple R2, s y PRESS. Validarlo acordemente y sacar las conclusiones debidas. c) Hacer una prueba de hipótesis H0:β2 5 0 versus H1:β2 2 0. Hacer otra prueba más con H0:β1 5 0 versus H1:β1 2 0. Solución: a) La figura 9.3 indica que un modelo cuadrático sería el más apropiado.

Gráfica Gráfica de la probabilidad normal de residuales

Gráfica de rendimiento de cosecha y días de floración

99

4 000

4 000

3 750

3 750

3 500

3 500

3 250

3 250

3 000

3 000

2 750

2 750

2 500

2 500

90 50 10 1

-2

-1 0 1 Residuales estandarizado

2

Histograma de residuales 4. 8 3. 6 2. 4

15

20

25

30 35 No. días de floración (x)

40

45

1. 2

50

0. 0

-2

-1 0 Residual estandarizado

1

Gráfica de residuales de Y

Figura 9.3. D iagrama de puntos con línea Residuales de regresión de los datos del rendimiento versus valores ajustados Gráfica de la probabilidad normal de residuales de la cosecha, y, y el número de días de floración, x. 99

3. 0

90

1. 5

Gráfica de resi

Gráfica de probabilidad normal de residuales

Re Residual estandarizado

99

Fuente: Adaptado de Probabilidad y estadística para ingeniería y ciencias. J.L. Devore. Thomson. México (2001). 0. 0

- 1. 5

10 1

90

Porcentaje

50

- 3. 0

- 3. 0

- 1. 5

0. 0 Residual estandarizado

1. 5

50 10

3. 0

400

450

500 550 Valor ajustado

600

Residuales versus el orden de los datos

Histograma de residuales

8

3. 0

6

1. 5

-2

-1 0 1 Residual estandarizado

0

- 3. 0 -3

-2

-1 0 1 Residual estandarizado

2

3

Coef

Predictor Constant

2

4

6

8 10 12 14 Orden de la observación

SE Coef 561.3

21125.7

16

18

Re

P

22.01

0.066

de Y Floracion (X) 302.16 Gráfica de residuales 38.35 7.88 Gráfica de probabilidad normal de residuales Residuales versus valores ajustados

0.000

SQRX

0.000

99

Residual estandarizado

Porcentaje

0.6133

24.7131

90 50

2

27.69

4. 5 3. 0 1. 5 0. 0

20

T

-2

-1 0 1 Residual estandarizado

VIF

1. 5

58.2

0

3. 0

450

500 550 Valor ajustado

600

650

Residuales versus el orden de los datos

Histograma de residuales

Analysis of Variance Table Source

4. 5

Regression

3. 0 1. 5 0. 0

-2

Residual Error Total

-1

Residual estandarizado

6. 0

2

DF

SS

2

2164649

0 1 Residual estandarizado

MS

0

1082324

-2

2

3

13

446850

15

2611499

2

4

6

8 10 12 14 Orden de la observación

34373

16

25

F

P20

31.49

0.0000

18

20

0

Gráfica de la fuerza de compresión versus % are 58.2 40

Fuerza de compresión

- 1. 5 0. 0 Residual estandarizado

1

-1

2

35

-2

1 - 3. 0

2

-2

s 5 185.400 R2Sq 5 82.9% R2Sq(adj) 5 80.3% PRESS 5 633593 30 R2Sq(pred) 5 75.74% 10

0

2

Residual estandarizado

0. 0

- 1. 5

Frecuencia

The regression equation is: Rendimiento (Y) 5 2 1126 1 302 Floracion (X) 2 4.71 SQRX 2

1

-1

Histograma de residuales 6. 0

4

2

-2

1

b) En seguida se muestran los resultados del análisis estadístico.

Frecuencia

402

10

20

% arena

30

Capítulo 9 Regresión no lineal

| 403

Los resultados muestran problemas de colinealidad, por valores altos de VIP. De acuerdo a Neter et al. (1996), valores en exceso de 10 indican problemas de multicolinealidad, mismos que pudieran indebidamente influenciar los valores de los mínimos cuadrados. Por otro lado, los valores de R2 5 82.9%, s 5 185.4 y PRESS 5 633 593 sugieren un buen ajuste de un modelo cuadrático. Además, el valor de F 5 31.5 de la tabla de ANOVA rechaza la hipótesis nula de H0:β2 5 0 y se inclina por H1:β2 2 0, con un valor de p muy significante. Aquí, el ajuste de un modelo cúbico no mejoraría los valores de R2, de s o PRESS y agravaría el problema de la colinealidad, puesto que los valores de los VIP serían muy grandes. c) Para la prueba de hipótesis nula H0:β2 5 0 y la hipótesis alternativa H1:β2 2 0, se usan los datos anteriores. Por ejemplo, β2 es igual a 24.71 y sβ es igual a 0.6133. La 2 prueba de H0:β2 5 0 es lo mismo que decir que el modelo polinomial cuadrático no se aplica a los datos y, H1:β2 2 0 dice que sí se aplica. La función de t usada es:

/

t 5 β2 sβ

(9-8)

2

Sustituyendo los valores correspondientes da: t 5 24.5358/0.6133 5 27.4 La prueba está basada en n 2 (k 1 1) grados de libertad ( n), es decir, con n 5 16 y k 5 2. Por tanto, n 5 13. Las regiones críticas son: 22.160 # t.025;13 # 2.160. En conclusión, debido a que la tcalc. 5 27.4 , tcrítica 5 22.160, se rechaza la hipótesis nula de H0:β2 5 0 y se inclina por la prueba de hipótesis alternativa de H1:β2 2 0. Para hacer la prueba de hipótesis nula de H0:β1 5 0 versus H1:β1 2 0, se procede en forma similar. d) Para la evaluación subjetiva del modelo de regresión se dan las gráficas de la figura 9.4. Gráfica de residuales Residuales versus valores ajustados

Gráfica de la probabilidad normal de residuales

Gráfica de rendimiento de cosecha y días de floración

99

2

90

1

4 000

3 750

0

50

-1 10

3 500

-2 1

-2

-1 0 1 Residuales estandarizado

3 250

2

2 500

2

4. 8

1

3. 6

2 750

3 500

Residuales versus orden de los datos

Histograma de residuales 3 000

3 000 Valor ajustado

0 2. 4 -1

2 500 20

25

30 35 No. días de floración (x)

40

45

-2

50

Gráfica de residuales de Y

0. 0

-2

-1 0 Residual estandarizado

1

1

3. 0

50 10

400

450

500 550 Valor ajustado

Residuales versus el orden de los datos 3. 0

600

-2

-1 0 1 Residual estandarizado

9

10 11 12 13 14 15 16

valores ajustados

2

4

6

8 10 12 14 Orden de la observación

4. 5 3. 0

16

18

0. 0

20

Gráfica de residuales de Y Residuales versus valores ajustados

1 0

400

500 550 Valors ajustados

600

2 1 0

-1 -2

-2

-1 0 1 Residual estandarizado

2

2

Gráfica de la fuerza de compresión versus % arena 40

450

Residuales versus valores ajustados

1. 5

- 3. 0

ad normal de residuales

8

-1

2

Residual estandarizado

- 1. 5

3

7

2

Histograma de residuales

Frecuencia

0. 0

2

6

-2

1

6. 0

1. 5

0 1 dual estandarizado

5

Como lo indica la figura superior derecha de la figura 9.4, la gráfica de prueba de normalidad indica que la distribución de los datos es aproximadamente normal, puesto que los puntos están muy cercanos a la línea de regresión y dentro de las bandas de confianza. Similarmente, la gráfica de los valores residuales versus valores ajustados indican que hay, aproximadamente, ocho valores positivos y ocho negativos, sin tendencias definidas, es decir, con aleatoriedad. Porcentaje

- 3. 0

ma de residuales

Residuales

Residual estandarizado

90

- 1. 5

3. 0

4

99

0. 0

1. 5

3

Orden de la observación

Gráfica de probabilidad normal de residuales

1. 5

0. 0 dual estandarizado

2

Figura 9.4. G ráfica de prueba de normalidad de residuos versus valores Gráfica de residuales ajustados. versus

Residuales versus valores ajustados

abilidad normal de residuales

1. 2

4

6

8 10 12 14 Orden de la observación

16

18

20

404

| Estadística para ingeniería y ciencias

9.9 P rueba estadística para comparar la suma de los cuadrados del error (SSE) de cada modelo probado, para saber cuál modelo es superior Los autores Keller et al. (1990) del libro Statistics for Management and Economics dan una prueba estadística que mide las diferencias de la suma de los cuadrados del error (SSE), para probar la superioridad de cada modelo probado. Esto se debe a que SSE mide qué tan bien encajan los datos en el modelo. Esta prueba se hace comparando la suma de los cuadrados del error (SSE1) del modelo simple o abreviado y la suma de los cuadrados del error (SSE2) del modelo completo o complejo. Esto se hace porque siempre es conveniente usar modelos simples (el uso de modelos complejos no necesariamente los hace superiores). La prueba estadística para medir la relación entre SSE1 y SSE2 es:

F5

( SSE 2 SSE ) ( k 2 k ) SSE ( n 2 k 21) 1

2

2

2

1

(9-9)

2

Donde: F 5 distribución de Fisher, con νF1 5 k ny2νk 2225 n 2 k2 2 1 grados de libertad. . Fk[2a;2 k 2 2 k11,n 1] n 2 k2 2 1 5 número de grados de libertad asociados con el modelo completo. k2 5 número de coeficientes (βi) probados del modelo completo k1 5 número de coeficientes (βi) probados del modelo simple n 5 tamaño de la muestra SSE1 5 suma de los cuadrados del error del modelo simple probado SSE2 5 suma de los cuadrados del modelo completo probado Nota: Si el ajuste del modelo completo no es significativamente mejor que el modelo simple o abreviado, el valor de SS1 será pequeño. Por ende, la relación SS1 2 SS2 será pequeña y, por tanto, el valor de F también será así y no se podrá rechazar la hipótesis nula. Sin embargo, si el ajuste del modelo completo es bueno, el valor de SS2 será pequeño y la relación SS1 2 SS2 será grande y, por consiguiente, el valor de F será grande y se rechazará la hipótesis nula. La región de rechazo para la ecuación de arriba (9-9) la da la siguiente función estadística: F . F[α;k 2k ,n2k 21]

2

1

2

Donde: F 5 el valor de la estadística F calculada α 5 nivel significante de 0.05 o 0.01 de la distribución de F k2 5 número de coeficientes βi del modelo superior k1 5 número de coeficientes βi del modelo abreviado n 5 tamaño de la muestra

(9-9a)

Capítulo 9 Regresión no lineal

| 405

Ejemplo 9.2 Éste es un ejemplo encaminado a ajustar modelos de regresión lineales múltiples y cuadráticos, con y sin interacción. Los datos se dan en la tabla 9.2. Hacer los siguientes cálculos: a) Probar un modelo de regresión cuadrático, con interacción. Este caso, lo llamaremos modelo superior o modelo completo. b) Después, probar un modelo de regresión cuadrático, sin interacción. En este caso, lo llamaremos modelo abreviado. c) Finalmente, probar un modelo de regresión lineal múltiple, sin interacción. Este modelo lo llamaremos modelo lineal simple. d) Describir las ecuaciones de los modelos de regresión poblacionales de los incisos a), b) y c). e) Para decidir cuál modelo es mejor, hacer una tabla con los resultados de los tres modelos, basándose en los diagnósticos objetivistas como las estadísticas R2, R2ajustada, s, PRESS, ANOVA, etcétera. f) Se le pide al lector usar la ecuación (9-9), para seleccionar el modelo más apropiado de los dos finalistas. Tabla 9.2. Datos del ejemplo 9.2. Y

Interacción X1 X2

X1

X2

XSQR1

XSQR2

564

11.75

5.3

138.063

28.09

62.275

502

8.8

3.6

77.44

12.96

31.68

606

13.2

6

174.24

36

79.2

446.5

8.3

3

68.89

9

24.9

536.5

8

4

64

589.5

13.1

4

171.61

16

32

16

52.4

594.5

13

5

169

25

65

509.5

10.5

4

110.25

16

42

614

13.9

6.9

193.21

47.61

95.91

406

7.8

1.7

60.84

2.89

13.26

596.5 446.5

14 8

5.3 3

196 64

28.09 9

74.2 24

550

12

4.7

144

22.09

56.4

578

12.9

5.8

166.41

33.64

74.82

6

118.81

36

65.4

516

10.9

428

8

2.9

64

489

9

4

81

16

36

508.5

9.1

4

82.81

16

36.4

8.41

23.2

545.5

12

3.9

144

15.21

46.8

524

11

3.9

121

15.21

42.9

| Estadística para ingenieros Solución: a) Primero, se prueba el modelo de regresión polinomial cuadrático con interacción; es decir, el modelo completo. En seguida se muestran los resultados obtenidos de los modelos de regresión probados.

Modelo de regresión cuadrático con interacción The regression equation is: Y 5 492 2 64.0 X1 1 113 X2 1 4.82 XSQR1 2 3.87 XSQR2 2 5.49 Interaccion (X1)(X2) Coef SE Coef

Predictor

491.8

Constant

T

160.7

P

3.06

VIF

0.008

X1

264.01 37.44 21.71

0.109 344.7

X2

112.86 32.75

3.45

0.004

XSQR1

4.825

1.96

0.070 688.9

2.458

87.2

XSQR2

23.867 6.087 20.64

0.536 241.2

Interaccion (X1)(X2)

25.488 6.341 20.87

0.401 993.3

S 5 19.4420 R2Sq 5 92.7% R2Sq(adj) 5 90.1% PRESS 5 25801.0 R2Sq(pred) 5 64.30%

Grá

Gráfica de la probabilidad normal de residu

Gráfica de rendimiento de cosecha y días de floración

99

4 000

4 000

3 750

3 750

Analysis of Variance

90

Source

DF

Regression

5 66987 13397 35.44 0.000

SS

MS

F

P

3 250 Residual Error 14 5292

10 1

378

-2

-1 0 1 Residuales estandarizado

3 250

2

Histograma de residuales

3 000 19 72279

Total

50

3 500

3 500

3 000

2 750

2 750

2 500

2 500

Durbin-Watson statistic 5 1.40280

4. 8 3. 6 2. 4 1. 2

15 20 F, con 25 35 40 50 Nota: Aquí, la región crítica de α305 0.05 y con 5 y45 19 grados de libertad, es No. días de floración (x) 2.74. 0. 0

-2

-1 0 Residual estandarizado

1

Gráfica de residuales de Y Residuales versus valores ajustados

Gráfica de la probabilidad normal de residuales

Gráfica de r

99

3. 0

90

1. 5

99

0. 0

90

- 3. 0 - 3. 0

- 1. 5

0. 0 Residual estandarizado

1. 5

3. 0

50 10

400

450

500 550 Valor ajustado

600 1

Residuales versus el orden de los datos

Histograma de residuales 8

3. 0

6

1. 5

4

0. 0

2

- 1. 5

Residual estandarizado

- 1. 5

10 1

Porcentaje

Gráfica de probabilidad normal de residuales

50

-2

-1 0 1 Residual estandarizado

2

Histograma de residuales

0

-2

-1 0 1 Residual estandarizado

2

3

4. 5 3. 0 1. 5

- 3. 0 -3

Residual estandarizado

Frecuencia

6. 0

2

4

6

8 10 12 14 Orden de la observación

16

18

0. 0

20

-2

-1 0 1 Residual estandarizado

2

Figura 9.5. G ráficos de residuales para modelo cuadrático de regresión con Gráfica de residuales de Y Gráfica de la fuerza de compresión versus % Gráfica de probabilidad normal de residuales Residuales versus valores ajustados interacción. 40 90 50 10 1 - 3. 0

2

35 0

-2 - 1. 5 0. 0 Residual estandarizado

1. 5

3. 0

450

500 550 Valor ajustado

600

650

de compresión

Residual estandarizado

99

Porcentaje

406

30

Capítulo 9 Regresión no lineal

b) Enseguida, se prueba el modelo de regresión cuadrático, sin interacción, es decir, el modelo abreviado. El programa Minitab arroja los siguientes resultados: Regression Analysis: Y versus X1, X2, XSQR1, XSQR2 The regression equation is: Y 5 472 2 52.6 X1 1 94.6 X2 1 3.21 XSQR1 2 8.61 XSQR2 Predictor

Coef

SE Coef

T

Constant

471.6

157.6

2.99

P

VIF

0.009

X1

252.60

34.75

21.51

0.151

302.0

X2

94.58

24.82

3.81

0.002

51.0

3.209

1.586

2.02 0.061 Gráfica de residuales

291.6

XSQR1 XSQR2 Gráfica de rendimiento de cosecha y días de floración

probabilidad normal de residuales 28.605 Gráfica de la2.638 23.26

0.005

46.1

Residuales versus valores ajustados

99

2

90

1

4 000

S 5 19.2786 R2Sq 5 92.3% R2Sq(adj) 5 90.2% PRESS 5 15849.9 3 750 R2Sq(pred) 5 78.07% 0

50

-1

10

3 500

-2 1

Analysis of Variance 3 250

-2

-1 0 1 Residuales estandarizado

Histograma de residuales

SS

30 35 No. días de floración (x)

Regression 2 750

4 66704 16676 44.87 0.000 1 0

372

-1

1. 2

19 72279 0. 0

-2

-2 -1 0 Residual estandarizado

1

1

Residuales versus valores ajustados

90

- 1. 5 - 3. 0

50 10

450

500 550 Valor ajustado

600 -2

-1 0 1 Residual estandarizado

- 3. 0 6

8 10 12 14 Orden de la observación

0

16

18

20

450

500 550 Valors ajustados

600

2 1 0 -1 -2

-2

-1 0 1 Residual estandarizado

2

2

4

6

8 10 12 14 Orden de la observación

16

18

20

Figura 9.6. Gráfica de modelo abreviado sin interacción. Gráfica de la fuerza de compresión versus % arena

Residuales versus valores ajustados

40

35

0

-2 1. 5

3. 0

450

500 550 Valor ajustado

600

Residuales versus el orden de los datos Residual estandarizado

-2 2

3

30 The regression equation is: Y 5 263 1 18.3 X1 1 15.6 X2 650

25 Coef

SE Coef

Constant

20 263.01

27.29

9.64 0.000

X1

0 18.256

20 4.040 % arena

30 40 4.52 0.000

2.7

X2

15.640

7.025

2.23 0.040

2.7

Predictor

2

0

2

4

6

8 10 12 14 Orden de la observación

16

Fuerza de compresión

Residual estandarizado

c) Finalmente, se prueba el modelo de regresión lineal simple. El programa Minitab arroja los siguientes resultados:

2

rama de residuales

0 1 Residual estandarizado

3. 0

0. 0

Gráfica de residuales de Y

babilidad normal de residuales

0. 0 sidual estandarizado

4. 5

1. 5

4

10 11 12 13 14 15 16

1

400

Residual estandarizado

Frecuencia

- 1. 5

2

9

Residuales versus valores ajustados

6. 0

0. 0

3

8

-1

2

1. 5

2

7

2

Histograma de residuales

3. 0

-1 0 1 Residual estandarizado

6

-2

1

Residuales versus el orden de los datos

stograma de residuales

5

Residuales versus valores ajustados Residual estandarizado

0. 0 Porcentaje

99

400

4

Orden de la observación

Gráfica de probabilidad normal de residuales 1. 5

3. 0

3

Gráfica de residuales

3. 0

1. 5

2

Durbin-Watson statistic 5 1.40870

Gráfica de residuales de Y

0. 0 Residual estandarizado

3 500

2

3. 6

Total 45 50

40

3 000 Valor ajustado

PResiduales versus orden de los datos

F

4. 8

2. 4

25

2 500

DF

2 500

20

MS

2

Source 3 000

Residual Error 15 5575

la probabilidad normal de residuales

1. 5

| 407

18

20

10

T

P

VIF

2 750

2 750

2 500

2 500

3. 6 2. 4

| Estadística para ingenieros

20

25

30 35 No. días de floración (x)

40

45

1. 2

50

0. 0

-2

-1 0 Residual estandarizado

Gráfica de residuales de Y Residuales versus valores ajustados

Gráfica de la probabilidad normal de residuales

Gráfica

99

3. 0

90

1. 5

99

0. 0

90

50

- 1. 5

10

Analysis of Variance 1

- 3. 0

- 3. 0

- 1. 5

DF

Regression

400

F

450

500 550 Valor ajustado

P

600 1

Residuales versus el orden de los datos

8

3. 0

6

1. 5

2

19 72279 0

-3

-2

- 1. 5

2

3

2

4. 5 3. 0 1. 5

- 3. 0

-1 0 1 Residual estandarizado

-1 0 1 Residual estandarizado

6. 0

0. 0

563

-2

Histograma de residuales

2 62715 31358 55.74 0.000

Residual Error 17 9564

50 10

3. 0

SS MS Histograma de residuales

4

Total

1. 5

Frecuencia

Source

0. 0 Residual estandarizado

Gráfica de probabilidad normal de residuales

Porcentaje

S 5 23.7185 R2Sq 5 86.8% R2Sq(adj) 5 85.2% PRESS 5 15427.3 R2Sq(pred) 5 78.66%

2

4

6

8 10 12 14 Orden de la observación

16

18

0. 0

20

-2

-1 0 1 Residual estandarizado

2

Durbin-Watson statistic 5 1.31981 Gráfica de residuales de Y

Gráfica de la fuerza de compresión versu

Residuales versus valores ajustados

Gráfica de probabilidad normal de residuales

40

Porcentaje

90 50 10 1 - 3. 0

2

35 0

Fuerza de compresión

Residual estandarizado

99

-2 - 1. 5 0. 0 Residual estandarizado

1. 5

3. 0

450

500 550 Valor ajustado

600

650

Residuales versus el orden de los datos

Histograma de residuales Residual estandarizado

6. 0 4. 5 Frecuencia

408

15

3. 0 1. 5 0. 0

2

30

25

20 0

-2 -2

-1

0 1 Residual estandarizado

2

3

0 2

4

6

8 10 12 14 Orden de la observación

16

18

20

Nota: P ara probar que los coeficientes son iguales, en cuanto al análisis de varianza, la función de ANOVA prueba la longitud total de la utilidad del modelo. d) La descripción de los tres modelos poblacionales son: 1. El modelo cuadrático con interacción o completo es: y 5 β0 1 β1x1 1 β2 x2 1 β3 x21 1 β4 x22 1 β5 x1x2 1 e

2. El modelo cuadrático sin interacción o abreviado es: y 5 β0 1 β1x1 1 β2 x2 1 β3 x21 1 β4 x22 1 e

3. El modelo de regresión lineal múltiple es: y 5 β0 1 β1x1 1 β2 x2 1 e

e) El resumen de los resultados de los tres modelos se da en la tabla 9.3. Tabla 9.3. Resultados de las estadísticas de los tres modelos de regresión probados. Tipo de modelo

R2

20

% arena

Figura 9.7. Gráfica de modelo de regresión lineal simple.

10

s

PRESS

R 2(ajustada)

Modelo completo

92.7%

19.4

25 801.0

90.1%

Modelo abreviado

92.3%

19.28

15 849.9

90.2%

Modelo lineal simple

86.8%

23.72

15 427.3

85.2%

Al juzgar por los resultados, tal parece que los mejores modelos son el cuadrático sin interacción (modelo abreviado) y el modelo lineal simple. (Para tomar una decisión final usar la función [9-9]). Sin embargo, se podría pensar que el modelo cuadrático, con interacción, es el modelo óptimo. Pero esto no puede ser, porque el

3

Capítulo 9 Regresión no lineal

| 409

valor de PRESS es más grande que los otros dos modelos. Cuando a los modelos de regresión se les agregan variables innecesarias, que pudieran dar un mejoramiento pequeño, no es recomendable su uso. Bajo estas condiciones, la adición de variables innecesarias conlleva a problemas de colinealidad como lo muestran los grandes VIF del modelo completo (correlación entre las variables regresoras). Por esta razón, es conveniente dejar el modelo de regresión, lo más simple posible, a menos de que existan buenas razones estadísticas para agregarle variables adicionales. f) Cuando la selección final de los dos modelos de regresión finalistas se vuelve perentoria, se puede usar la ecuación (9-9). Esta estadística está relacionada con la suma de los cuadrados SS, la cual mide qué tan bien encajan los datos en el modelo. Como se dijo antes, este procedimiento consiste en comparar la suma de los cuadrados SS1 del modelo simple y SS2 del modelo abreviado (como en este caso). Los valores de k2 y k1 corresponden al modelo abreviado y simple, respectivamente. Aquí se le pide al lector tomar la iniciativa para decidir cual de los dos modelos finalistas es el óptimo.

9.10 C álculos y aplicaciones de regresión cuadrática con el programa Minitab Ejemplo 9.3 E n un estudio de ingeniería civil se da la información de la fuerza de compresión del cemento (mortero) en función del porcentaje de arena. Para esto hacer lo siguiente: a) Identificar la variable de respuesta. b) Graficar los datos para anticipar el tipo de función de regresión esperada. c) Establecer el modelo de regresión que mejor ajuste a los datos y evaluar su utilidad usando diagnósticos estadísticos y gráficos. Tabla 9.4. Datos del ejemplo 9.3. Fuerza de compresión

% arena

38.9

0

37.8

0

26.4

10

25.8

10

20

20

20

20

18.2

35

17.1

30

20

40

21.5

42

20.4

38

Gráfica de residuales

3. 0

90

1. 5

99

50

0. 0

90

- 3. 0

- 1. 5

| Estadística para ingenieros

410

- 3. 0

0. 0 Residual estandarizado

1. 5

3. 0

400

450

500 550 Valor ajustado

50 10

600

3. 0

6

1. 5

4

0. 0

2

- 1. 5

0

- 3. 0 -2

-1 0 1 Residual estandarizado

2

3

-2

-1 0 1 Residual estandarizado

2

400

10

4

6

8 10 12 14 Orden de la observación

16

18

20

500 550 Valors ajustados

600

2 1 0

-1 -2

-2

-1 0 1 Residual estandarizado

2

2

4

6

8 10 12 14 Orden de la observación

16

18

20

Gráfica de la fuerza de compresión versus % arena

Residuales versus valores ajustados

40

2

35 0

-2 1. 5

3. 0

450

500 550 Valor ajustado

600

650

Residuales versus el orden de los datos

Histograma de residuales 6. 0 4. 5 3. 0 1. 5

2

2

3

30

25

20 0

-2 0 1 Residual estandarizado

3. 0

0. 0

Fuerza de compresión

50

-1

Residual estandarizado

Frecuencia

2

Residual estandarizado

90

-2

4. 5

1. 5

Gráfica de residuales de Y

0. 0

450

Residuales versus valores ajustados

b) La figura 9.8 sugiere una función cuadrática como y 5 β0 1 β1x 1 β2x2 1 e.

Gráfica de probabilidad normal de residuales

- 1. 5 0. 0 Residual estandarizado

0 -1

a) La variable de respuesta es fuerza de compresión del mortero y la variable independiente es el porcentaje de arena.

99

1 - 3. 0

1

Histograma de residuales 6. 0

-3

2

-2

1

Residuales versus el orden de los datos

Histograma de residuales 8

Residual estandarizado

Porcentaje

- 1. 5

10 1

Residuales versus valores ajustados

Gráfica de probabilidad normal de residuales

Residual estandarizado

Porcentaje

Frecuencia

Residuales versus valores ajustados

Gráfica de la probabilidad normal de residuales 99

0 2

4

6

8 10 12 14 Orden de la observación

16

18

20

10

20

30

40

% arena

Figura 9.8. Diagrama esparcido que sugiere una función cuadrática.

c) Para establecer el modelo de regresión con Minitab proceder así: 1. En primer lugar, debido a que es una función polinomial cuadrática, cuadre la variable independiente usando la función de Calc → Calculador. 2. Después se va a Stat → Regression → Regression. Esto se muestra en la figura 9.9.

Figura 9.9. Ventanas con la introducción de los datos usando Minitab.

Capítulo 9 Regresión no lineal

| 411

3. En la ventana de Regression y en la de Response ponga la variable dependiente. En seguida en la ventanilla de Predictors introduzca las variables independientes. Luego, seleccione la ventanilla de Graphs y en la de Regression-Graphs escoger Standardize (si lo desea) y Four in One y haga clic en OK 4. Además, si se desea calcular los diagnósticos estadísticos vaya a Options y seleccione las ventanillas de Display como se muestra en la figura 9.10.

Figura 9.10. Ventana con la introducción de los diagnósticos estadísticos.

Todas las indicaciones anteriores generan los siguientes resultados. The regression equation is: Fuerza compresion 5 38.2 2 1.42 %arena 1 0.0244 XSQR % arena Predictor

Coef

Constant

38.2263

%arena

SE Coef

T

P

VIF

0.3904 97.92 0.000

21.41888

XSQR % arena 0.024359

0.04612 230.77 0.000 15.3 0.001060 22.98

.000

15.3

S 5 0.586488 R2Sq 5 99.5% R2Sq(adj) 5 99.4% PRESS 5 5.49196 R2Sq(pred) 5 99.04% Analysis of Variance Source

DF

SS

Regression

2

566.76

Residual Error 8

2.75

10

569.51

Total

MS

F

P

283.38 823.85 0.000 0.34

Durbin-Watson statistic 5 1.62590

La evaluación del modelo de residuales se ve en la figura 9.11.

| Estadística para ingenieros

Gráfica de diagrama esparcido

50 10 1

-2

-1 0 1 Standardized Residual

2

45 1

-1

2

20

Histograma de residuales

45

50

55

Residual estandarizado

Porcentaje

20

2

1

0

60

- 1. 5 - 1. 0 - 0. 5 0. 0 0. 5 1. 0 Residual estandarizado

25 30 Valor ajustado

35

40

Residuales versus el orden de los datos

3

25

40

0

1. 5

2

Millas por galón

Frecuencia

90

30

Millas por galón (Y) = - 181.4 + 8.927 Cambios d - 0.09043 Cambios de velocidad (X)**

Residuales versus valores ajustados

99

35

40

Ajustando un modelo cuadrático

Gráficas de residuales para la fuerza compresión vs. % arena Gráfica de probabilidad normal de residuales

40

Residual estandarizado

412

35 30 25

1 0

20

-1

2. 0

1

2

3

4 5 6 7 8 Orden de la observación

9

10

11

35

40

45 50 Cambios de velocidad (X)

(X)

55

Figura 9.11. Gráficos de residuales.

En conclusión, al juzgar por los resultados obtenidos el valor del error estándar estimado s 5 0.586488, R2 5 99.5%, R2(ajustada) 5 99.4%, PRESS 5 5.49196 y R2(pred.) Gráfica de residuales para el modelo cuadrático Gráficas de residuales para el modelo cúbico 5 99.04% sugieren que el modelo de regresión encaja bien en los datos. Además, los gráficos de residuales como la gráfica de normalidad y demás gráficas subjetivas sugieren un buen ajuste del modelo de regresión cuadrático a los datos. S R-Sq R-Sq(adj)

1.35772 96.7% 95.7%

Normal Probability Plot of the Residuals

Porcentaje

R egr ession 95% C I 95% P I

Residuals versus the Fitted Values

Residuales versus valores ajustados

2

99

2

90

1

90

1

0

50

-1

10 1

-1 0 1 Standardized Residual

2

0

50

-1

10

-2 -2

20

25

30 Fitted Value

35

-2

1

40

-2

-1 0 1 S ta nda r dize d R e s idua l

2

20

25

Ejemplo 9.4 É ste es un ejemplo de química inorgánica adaptado de Chemistry the Central Science de Brown et al. (2000), el cual da una muestra de la reacción química de ciclopentadine (C5H6), que reacciona por sí mismo, para formar C10H12. Una solución de 0.0400 M de C5H6 se analizó en función del tiempo, a medida que la reacción se fue de C5H6 → 0.5C10H12. Los datos son los siguientes: Histogram of the Residuals

Residuals versus the Order of the Data

55

0

2. 4

-1

0. 0

-2

-1 0 Standardized Residual

1

1

2

3

4

5 6 7 8 9 10 11 12 13 14 Observation Order

0

-1 -2

0

-2

-1 0 1 S ta nda r dize d R e s idua l

2

1

2

3

4

Tabla 9.5. Tabla de [C5H6] (M) versus tiempo en segundos. Tiempo en segundos Concentración C5H6 (M)

0.0 0.0400

50.0 0.0300

100.0 0.0240

40

1

2

-2

60

35

2

3

1

1. 2

30 F itte d V a lue

Residuales versus el orden de los datos

4

1

3. 6

Frecuencia

Frecuencia

45 50 Cambios de velocidad (X)

Histograma de residuales

2

4. 8

40

Grafica de probabilidad normal de residuales

99

Porcentaje

Gráfica ajustando un modelo cúbico

Millas por galón (Y) = - 81.12 + 2.336 Cambios de velocidad (X) 13 Cambios de velocidad (X)**2 - 0.000997 Cambios de velocidad (X)**3

150.0 0.0200

200.0 0.0174

Fuente: Chemistry the Central Sciene. Brown et al. Prentice-Hall, New Jersey (2000).

a) Estimar modelos de regresión para: 1. [C5H6] versus tiempo 2. Ln [C5H6] versus tiempo 3. 1/[C5H6] versus tiempo, y decidir cuál de los tres modelos ajusta mejor los datos. b) Una vez seleccionado el mejor modelo estimar la constante de la reacción. Solución: Con Minitab se dan los siguientes resultados: 1. Conc. Ciclopentadine 5 0.0373 2 0.000110 Tiempo(s) s 5 0.00263717 R2Sq 5 93.6% R2Sq(adj) 5 91.5% PRESS 5 0.0000899635 R2Sq(pred) 5 72.37% 2. Ln[Pentadine] 5 23.27 2 0.00414 Tiempo(s) s 5 0.0522804 R2Sq 5 98.1% R2Sq(adj) 5 97.5% PRESS 5 0.0356509 R2Sq(pred) 5 91.84%

5 6 7 8 9 10 11 12 13 14 O bs e r v a tion O r de r

| 413

Capítulo 9 Regresión no lineal

3. �� 1/[Pentadine] 5 25.2 1 0.163 Tiempo(s) s 5 0.314783 R2Sq 5 100.0% R2Sq(adj) 5 99.9% PRESS 5 1.21807 R2Sq(pred) 5 99.82%

Se le pide al lector usar el programa Minitab y complementar los resultados estadísticos de arriba con diagnósticos gráficos y de análisis de problemas potenciales tanto de autocorrelación como colinealidad y decir cuál modelo es superior. Para el inciso b) la constante de reacción es el valor de la pendiente de la ecuación. Ejemplo 9.5 Este problema está relacionado con un experimento del consumo de gasolina usando la velocidad baja de una camioneta. Hacer los siguientes cálculos: a) Identificar la variable dependiente y la independiente. Graficar los datos con línea de regresión y pronosticar qué tipo de función se pudiera esperar. b) Usando Minitab ajustar un modelo cuadrático y uno cúbico con intervalos de confianza e intervalos de predicción. c) Hacer un análisis de diagnósticos estadísticos para el modelo cuadrático y cúbico. d) Complementar el diagnóstico del inciso c) con los análisis de los gráficos subjetivos para la suposición del modelo cuadrático. Hacer lo mismo con el modelo cúbico del inciso. e) De acuerdo con los análisis de los criterios objetivistas y subjetivistas, se le pide al lector decidir cual de los dos modelos es superior. Solución: a) La variable dependiente es el millaje y la variable independiente son las velocidades. La gráfica con línea de regresión se da en la figura 9.12. Gráfica de diagrama esparcido

Gráficas de residuales para la 40

35

35

Gráfica de probabilidad normal de residuales 99

Frecuencia

40

90 50 10

(Y)

1

30

-2

30

-1 0 1 Standardized Residual

2

Histograma de residuales

25

20

20 35

40

45

50

55

Porcentaje

3

25

2

1

0

60

- 1. 5 - 1. 0 - 0. 5 0. 0 0. 5 1. 0 Residual estandarizado

1. 5

2. 0

(X)

Figura 9.12. Gráfica con línea de regresión.

b) Para ajustar el modelo cuadrático y el cúbico con intervalos de confianza e intervaajustando un modelo cúbico Gráfica de residuales para el modelo cuad los de predicción proceder de Gráfica la siguiente manera: Millas por galón (Y) = - 81.12 + 2.336 Cambios de velocidad (X) + 0.0513 Cambios de velocidad (X)**2 - 0.000997 Cambios de velocidad (X)**3

R egr ession 95% C I 95% P I

40

Normal Probability Plot of the Residuals

Porcentaje

1. Vaya a: Stat → Regression → Fitted Line Plot 45

2

90

1 0

50

R-Sq R-Sq(adj)

35

1.35772

-1

10

96.7% 95.7%

1

-2

-2

-1 0 1 Standardized Residual

30

2

20

Histogram of the Residuals

20

35

40

45 50 Cambios de velocidad (X)

55

60

25

Residuals ve 2

4. 8

25 Frecuencia

Millas por galón

2. En la ventana de Fitted Line Plot introduzca las variables y dé clic en Quadratic. Esto se muestra en la figura 9.13. S

Residuals ve

99

1

3. 6

0

2. 4

-1 1. 2 -2 0. 0

-2

-1

0

1

1

2

3

4

414

| Estadística para ingenieros

Figura 9.13.

3. En seguida seleccione Graphs para hacer las gráficas de residuales. Luego vaya a Options para poner los intervalos de confianza y de predicción. Luego haga clic en OK. Haga lo mismo para el modelo cúbico. Esto se muestra en la figura 9.14. Gráfica de diagrama esparcido 40

35

35

30

30

Gráfica

Gráfica de prob 99

Frecuencia

40

90 50 10

(Y)

1

-2

Hist

Figura 9.14.

25

25

20

20 35

40

45

50

55

Porcentaje

3

2

1

0

- 1. 5 - 1. 0

60

(X)

Todas estas instrucciones generan las gráficas de la figura 9.15, las cuales muestran el ajuste de un modelo de regresión cuadrático y cúbico con sus respectivos intervalos de confianza e intervalos de predicción. Gráfica ajustando un modelo cúbico

Ajustando un modelo cuadrático

95% P I

40

el orden de los datos

6 7 8 la observación

9

10

S R-Sq R-Sq(adj)

35

1.37104 96.3% 95.6%

30

20

45 50 Cambios de velocidad (X)

55

40

45 50 Cambios de velocidad (X)

55

60

Figura 9.15. L a figura de la izquierda muestra el ajuste del modelo cuadrático, mientras que la de la derecha muestra el modelo cúbico.

c) El diagnóstico estadístico para el modelo cuadrático se da enseguida. Gráficas de residuales para el modelo cúbico

Porcentaje

Grafica de probabilidad normal de residuales 2

90

1 0

50

-1

10 1

1. Diagnóstico estadístico para el modelo cuadrático.

Residuales versus valores ajustados

99

-2 -2

-1 0 1 S ta nda r dize d R e s idua l

2

20

25

30 F itte d V a lue

35

40

10

95.7%

1

-2

-1 0 1 Standardized Residual

4. 8

35

60

50

Histogram of the Residuals

20

40

R-Sq(adj)

1.35772 96.7%

90

30 25

35

S R-Sq

35

25

11

R egr ession 95% C I 95% P I

40

Millas por galón

35

Millas por galón

40

30 ajustado

45

R egr ession 95% C I

Normal Probability Plot of the Res 99 Porcentaje

45

Gráfica de residu

Millas por galón (Y) = - 81.12 + 2.336 Cambios de velocidad (X) + 0.0513 Cambios de velocidad (X)**2 - 0.000997 Cambios de velocidad (X)**3

Millas por galón (Y) = - 181.4 + 8.927 Cambios de velocidad (X) - 0.09043 Cambios de velocidad (X)**2

Frecuencia

. % arena

alores ajustados

3. 6 2. 4 1. 2 0. 0

-2

-1 0 Standardized Residual

| 415

Capítulo 9 Regresión no lineal

The quadratic regression equation is: (Y) 5 2 181 1 8.93 (X) 2 0.0904 XSQR Predictor Coef SE Coef T P VIF Constant 2181.40 13.46 213.48 0.000 (X) 8.9271 0.5812 15.36 0.000 178.5 XSQR 20.090427 0.006112 214.80 0.000 178.5 S 5 1.37104 R2Sq 5 96.3% R2Sq(adj) 5 95.6% PRESS 5 37.1735 R2Sq(pred) 5 93.30% Analysis of Variance DF SS MS Source Regression 2 534.18 267.09 Residual Error 11 20.68 Total 13 554.86 Durbin-Watson statistic 5 2.22931

F 142.09 1.88

P 0.000

2. Diagnóstico estadístico para el modelo cúbico.

50

10

10

1

1 -2

3

3

2 -0 1 0 1 -- 1 1 2 Standardized Standardized Residual Residual

2 1 0

-1

2

50

55

55

60

60

1

0 - 1.-5 - 1.0. 0 0- 0.0. 5 50. 0 - 1. 5 - 1. 0 0. 5 1. 00. 5 1. 51. 0 2. 01. 5 Residual estandarizado Residual estandarizado

2. 0

2

Residual estandarizado

Porcentaje

Porcentaje

0

20 25 30 25 30 35 Valor ajustado Valor ajustado

35 40

40

1 0

-1

1

2 1 0

S 1.371041.37104 S R-Sq 96.3% 96.3% R-Sq R-Sq(adj)R-Sq(adj) 95.6% 95.6%

30

30

25F 97.00 20 20

P 0.000

25

-1

2

13

24 35 46 57 68 79 8 10 de la observación Orden de Orden la observación

9 10 11

11

35

35

40 45 45 50 50 55 Cambios de velocidad (X) Cambios de velocidad (X)

40

55 60

d) Diagnósticos gráficos de residuales para los dos modelos se muestran en la figura 9.16.

un modelo delo cúbicocúbico

de residuales el modelo cuadrático GráficaGráfica de residuales para elpara modelo cuadrático

90

50

50

10

10

1

1 -2

-1 --12 0 10 21 Standardized Standardized Residual Residual

2

1

1

0

0

-1

-1

-2

-2

2

55 60

60

4. 8

3. 6

3. 6

2. 4 1. 2 0. 0

Frecuencia

Frecuencia

Histogram of the Residuals Histogram of the Residuals 4. 8

2. 4 1. 2 0. 0 -2

- -21 -1 01 0 Standardized Standardized Residual Residual

1

2025

20

Grafica de probabilidad normal de residuales Residuales Residuales versus ajustados valores ajustados Grafica de probabilidad normal de residuales versus valores

2530 3035 Fitted Value Fitted Value

3540

40

99

99

90

90

50

Porcentaje

90

Gráficas de residuales el modelo Gráficas de residuales para elpara modelo cúbicocúbico

Residuals versus theValues Fitted Values Residuals versus the Fitted 2

50

2

1

1

0

0

-1

-1

-2

-2 1

2

3 1 4 2 5 3 6 4 7 5 8 6 9 71081191210 1311 1412 13 14 Observation Order Observation Order

2

1

1

0

0

-1

-1

10

1

1 -2

4

4

2

2

3

3

1

1

2

0

0

1

-1

-1

Residuals versus theofOrder of the Data Residuals versus the Order the Data 2

2

10

2 1 0

0 -2

-2

-2 -1 - -12 0 10 21 S ta nda d lR e s idua l S ta nda r dize d R re dize s idua

2

2025

20

Histograma de residuales Histograma de residuales

Frecuencia

99

99 Porcentaje

S 1.357721.35772 S R-Sq 96.7% 96.7% R-Sq R-Sq(adj) R-Sq(adj) 95.7% 95.7%

Porcentaje

R egr ession R egr ession 95% C I 95% C I 95% P I 95% P I

Probability PlotResiduals of the Residuals Normal Normal Probability Plot of the

Porcentaje

Cambios de velocidad (X) 6 2.336 Cambios de velocidad (X) - 0.000997 Cambios de velocidad 0997 Cambios de velocidad (X)**3(X)**3

0 55 d (X)

1

2

-1

Frecuencia

50 (X)

20

2

0

Residuales de los datos Residuales versus elversus ordeneldeorden los datos Analysis of Variance Source DF SS MS Regression 3 536.42 178.81 Residual Error 10 18.43 1.84 Total 13 554.86 Durbin-Watson statistic 5 2.16437 Residual estandarizado

20

25

R egr ession R egr ession 95% C I 95% C I 95% P I 95% P I

1

20

Histograma de residuales Histograma de residuales

25

2

Millas por galón

30

50

90

Residual estandarizado

35

90

Millas por galón

30

99

99

Frecuencia

35

40 Frecuencia

40

Residual estandarizado

ama esparcido esparcido

The cubic regression equation is: (Y) 5 2 81.1 1 2.34 (X) 1 0.051 XSQR 2 0.000997 XSCUBE Predictor Coef SE Coef �� T P VIF Constant 281.12 91.88 20.88 0.398 Ajustando un modelo cuadrático Gráficas de residuales la fuerza compresión % arena Ajustando un modelo cuadrático Gráficas de residuales para lapara fuerza compresión vs. % vs. arena (X) 2.336 6.002 0.39 0.705 19407.6 Millas por(Y) galón = - 181.4 + 8.927 Cambios de velocidad (X) Millas por galón = - (Y) 181.4 + 8.927 Cambios de velocidad (X) Gráfica de probabilidad normal de residuales Residuales versus ajustados valores ajustados Gráfica de probabilidad normal de residuales Residuales versus valores - 0.09043 Cambios de velocidad - 0.09043 Cambios de velocidad (X)**2(X)**2 XSQR 0.0513 0.1286 0.40 0.699 80550.0 45 45 XSCUBE 20.0009968 0.0009036 21.10 0.296 21197.2 40 40 S 5 1.35772 R2Sq 5 96.7% R2Sq(adj) 5 95.7% PRESS 5 35 35 42.8730 R2Sq(pred) 5 92.27%

-1 01 12 0 S ta nda d lR e s idua l S ta nda r dize d R re dize s idua

3540

40

Residuales de los datos Residuales versus elversus ordeneldeorden los datos

-2

-2 -2 -1

2530 3035 itte d V a lue F itte d V aFlue

2

1

2

3 14 25 36 47 58 69 71081191210 1311 1412 13 14 bs eOr rv de a tion O bs e r v a O tion r O r de r

Figura 9.16. L a figura de la izquierda muestra los gráficos subjetivos para el modelo cuadrático y la derecha para el modelo cúbico.

e) De acuerdo con todos los resultados el lector decidirá cual de los dos modelos es superior.

60

416

| Estadística para ingenieros

9.11 P rocedimientos para la identificación de valores atípicos extremos, también conocidos como “outliers” Los procedimientos para refinar el modelo de regresión son la identificación y eliminación de valores inusuales extremos. En algunas ocasiones, estos valores extremos se encuentran en la generación de datos muestrales. Estos valores extremos se refieren a datos univariados que son inconsistentes con el resto de la información. Los valores extremos ocurren a menudo debido a errores de medición, ya sea por mal funcionamiento del equipo o por negligencia del personal, falta de mantenimiento de los instrumentos, etc. En regresión múltiple, los valores extremos pueden ocurrir con las variables independientes y con la variable dependiente. Estos valores, una vez analizados se pueden eliminar o retener, si se sabe que son, en realidad, valores extremos. Si es así es necesario eliminarlos porque pueden distorsionar el modelo de regresión ajustado o causar serios errores en los cálculos de regresión.

9.11.1 Procedimientos para identificar valores extremos a) Usando gráficas de tallo y hoja. b) Usando gráficas de caja. c) Usando gráficos de probabilidad normal. d) Usando la estadística DFITS. Esta estadística identifica valores extremos potenciales, cuando DFITS DFITS . . 2 p n , donde p es el número de variables independientes DFITS . 2 p ny, n es el tamaño de la muestra. e) Usando gráficos de residuos semiestudentizados. Éstos identifican los valores extremos, cuando los valores absolutos de los residuales semiestudentizados son $ 4. 2Usando $6 n f) DFBETAS, cuando estos valores son $ 6 2

n.

g) Usando los gráficos de Rstudent versus Hat Diagonal. h) Usando regresión robusta (robust regression). Estas funciones son recomendadas por la lógica del pro grama NCSS. 5

 5 

 i) Usando el valor crítico de Bonferroni. Éstos identifican los valores absolutos de los residuales estudentizados. Esta prueba citada por Neter et al. (1996) se da como t(1 2 α/2n;n 2 p 2 1).

 n 2  n 2 5 j) Usando la estadística Cook9s Distance (lógica del 5 programa NCSS). Cuando la estadística es D $ 1, esa ( n 1 1 2 2 coeficientes de regresión.  observación tiene una gran influencia en la totalidad (n 1 de1 los

k) Los valores extremos también se pueden identificar con los gráficos de los residuos que van en función de X o de Y.

9.12 Diagnóstico de multicolinealidad En regresión múltiple hay lo que se llama colinealidad, multicolinealidad o intercorrelación. Esta situación existe cuando las variables independientes están correlacionadas entre sí. Lo ideal en regresión múltiple es que las variables independientes x1, x2, . . . , xkn no estén correlacionadas, de tal manera que cada una explique un porcentaje separado de la variación en la variable dependiente. El mal efecto de multicolinealidad es que las desviaciones estándar de los coeficientes del modelo de regresión están sobreestimadas. Como resultado de esto, cuando se hacen las pruebas de hipótesis, la estadística

Capítulo 9 Regresión no lineal

| 417

t es más pequeña de lo que debería ser. Además, algunas variables independientes o exógenas aparecen como si no estuvieran relacionadas linealmente con la variable Y, cuando en realidad sí lo están. Existen dos métodos para descubrir la multicolinealidad: los métodos informales y los métodos formales. Los informales para detectar colinealidad severa son los siguientes: a) Estudios de los signos algebraicos de los coeficientes del modelo de regresión. Si hay colinealidad, los signos algebraicos de los coeficientes son opuestos a lo que se debería esperar de consideraciones teóricas o de experiencia a posteriori. b) Otra situación que pudiera indicar multicolinealidad es el hecho de que ocurren grandes cambios en los coeficientes estimados de regresión, cuando una variable explicativa o independiente se agrega o se elimina. c) Cuando se hacen pruebas de hipótesis de H0:β9s 5 0, las pruebas de t no son significativas. Esta condición también pudiera indicar colinealidad. d) Cuando hay grandes correlaciones entre pares de variables independientes (esta situación también indica multicolinealidad). e) Con la lógica del modelo de computadora NCSS, cuando hay números de los Eigenvalues mayores que 1 000, esta condición indica colinealidad severa. Sin embargo, con valores de Eigenvalues entre 100 y 1 000, esta condición implica colinealidad moderada a fuerte. f) Nuevamente, con la lógica del programa NCSS, en la sección de correlación de matrices, grandes correlaciones entre las variables explicativas conllevan diagnósticos de colinealidad. g) Los valores extremos también pueden causar problemas de colinealidad. Por otra parte, los métodos formales para detectar multicolinealidad son los factores de inflación de varianza (Variance Inflation Factors, VIF). En este contexto, el problema de multicolinealidad se considera severo, cuando el máximo valor de VIP es mayor que 10 o bien, cuando el promedio de los VIF es considerablemente . 1 (Pfaffenberger, 1987). En cuanto a situaciones relacionadas con la multicolinealidad se enlistan los siguientes postulados: a) Si el modelo se va a usar, únicamente, para estimar respuestas promedio o para hacer predicciones de los valores de la variable dependiente Y, y las predicciones se hacen, solamente, sobre las región de los valores de las variables independientes y, los coeficientes de regresión estimados no se usan para propósitos de interpretación, concerniendo las relaciones de las variables explicativas (X) y de la variable de respuesta (Y), entonces, la multicolinealidad, aun cuando sea severa, no será un problema (Pfaffenberger, 1987). Aquí, sin embargo, la determinación de la región muestreada es difícil. Por ejemplo, si hay una variable independiente, entonces, la región es un intervalo sobre la línea real entre el valor mínimo de x y el valor máximo de x en la muestra. Además, con cuatro variables independientes, la región muestreada es en el espacio de cuatro dimensiones de las x y sus linderos no son obvios. Por tanto, bajo estas condiciones, hay que tener precaución, de tal manera que la predicción no represente una extrapolación más allá de la región muestreada de las x, cuando existe multicolinealidad severa. No obstante, si se desea hacer interpretaciones de los coeficientes de correlación (bi), entonces la multicolinealidad no se puede tolerar. b) El hecho de que algunos o todas las variables independientes estén correlacionadas entre sí, en general, no obstruye la habilidad para obtener un buen ajuste de los datos. Esta situación tampoco interfiere en las inferencias acerca de las respuestas promedio de predicciones de nuevas observaciones, siempre y cuando estas inferencias sean hechas dentro de la región de las observaciones. c) Cuando las variables independientes están altamente correlacionadas, los coeficientes de regresión estimados tienden a tener una gran variación de muestreo. Por tanto, bajo estas condiciones, los coeficientes de regresión tienden a variar ampliamente de una muestra a otra. Como resultado de esto, se obtiene información imprecisa acerca de los coeficientes individuales.

418

| Estadística para ingeniería y ciencias

d) Cuando hay multicolinealidad, la interpretación de un coeficiente de regresión, como medida de un cambio en el valor esperado en Y; cuando una variable independiente, digamos X1 se incrementa por una unidad, manteniendo constantes las demás variables, no es totalmente aplicable. e) Otros efectos causados por la multicolinealidad están relacionados con la suma de los cuadrados, los efectos en los coeficientes de determinación parcial, efectos en el error estándar de lo estimado para s, efectos sobre los valores ajustados, efectos en las pruebas simultáneas de los coeficientes β, etcétera (Neter et al. 1996).

9.12.1 Medidas para corregir multicolinealidad severa a) El método más obvio para remediar la multicolinealidad es el de no incluir en el modelo las variables independientes que están altamente correlacionadas. Esto se hace para reducir los errores estándar de los coeficientes de regresión estimados de las variables independientes que queden en el modelo. Sin embargo, este remedio tiene dos limitaciones porque, de esta manera, ya no habrá información directa de la variable independiente excluida; en segundo lugar, las magnitudes de los coeficientes de regresión, para los coeficientes restantes las afectan las variables independientes correlacionadas que no se incluyan en el modelo. b) Otro método para corregir la multicolinealidad se refiere como regresión de cima (ridge regression). Así, cuando hay multicolinealidad, los estimados de los mínimos cuadrados son imparciales, pero sus varianzas son grandes, de tal manera que puedan estar alejados del valor verdadero. Agregando un grado de parcialidad a los estimados de la regresión, la regresión de cima (ridge regression) reduce los errores estándares, de tal manera que el efecto neto dará coeficientes estimadores más confiables (Neter et al. 1996). c) Otro método para reducir la multicolinealidad severa es la regresión por pasos, la cual incluye, solamente, las variables independientes que están significativamente relacionadas en forma lineal, con la variable dependiente. Esto tiende a reducir la colinealidad porque, si hay dos variables independientes, altamente correlacionadas entre sí, al incluir una, por lo general se elimina la segunda. En el mecanismo de la regresión por pasos, una variable independiente, a un tiempo, se incluye en la ecuación. En el paso uno, la variable independiente, más fuertemente relacionada con la variable dependiente, se incluye en el modelo. En el paso dos, la siguiente variable independiente (entre las variables independientes restantes), más fuertemente relacionada con la variable dependiente, se incluye en el modelo. Esta situación continúa hasta que, solamente, las variables independientes, que no están relacionadas con la variable dependiente (dado que las otras variables ya están en el modelo) permanecen fuera de la ecuación. De cualquier manera, para evitar problemas, la regresión por pasos debe usarse en conjunción con un profundo razonamiento estadístico. La pregunta de cuántas variables independientes (incluidas las variables transformadas) deben de incluirse en el modelo de regresión es el tema a tratar, cuando se habla de los procedimientos usados en el programa Minitab, como “Todas las regresiones posibles” (All Possible Regressions), “Regresión por pasos” (Stepwise Regression) y “Regresión de los mejores conjuntos” (Best Subset Regression). Encontrar el número ideal de variables independientes involucra dos objetivos opuestos. Primero se desea que el modelo de regresión sea lo más completo y realista posible. Esto significa que se debe incluir cada variable independiente, aunque parezca remotamente relacionada con la variable dependiente. En segundo término, se debe incluir lo menos posible de variables independientes. Esto se debe a que, cada variable independiente, que no sea relevante al modelo, disminuye la precisión de los coeficientes calculados y de los

Capítulo 9 Regresión no lineal

| 419

valores pronosticados. De esta manera, la finalidad de la selección de las variables es parsimoniosa, esto quiere decir que debe haber un balance entre lo simple (lo menos posible de variables) y el ajuste (la inclusión de todas las variables que sean pertinentes). Hay diferentes estrategias para la selección de las variables más apropiadas para el modelo de regresión. Por ejemplo, la lógica del modelo NCSS recomienda que, si no hay más de 15 candidatos de variables independientes (sin incluir el intercepto), entonces, se debe usar el procedimiento de “Todas las regresiones posibles” (All Possible Regressions). Esto se debe a que este procedimiento dará modelos tan buenos o mejores que el procedimiento de “Regresión por pasos”. Sin embargo, si hay más de 15 candidatos de variables, entonces, se recomienda el procedimiento de “Regresión por pasos” (Stepwise Regression). Otra función dada por el programa Minitab está relacionada con la “Regresión de mejores conjuntos” (Best Subsets Regression). Después de que se haya formado un conjunto de candidatos de variables independientes (una vez que se eliminaron las observaciones extremas y se mitigó la multicolinealidad), la siguiente tarea es la de establecer una base para comparar dos modelos finalistas. ¿Cómo se puede decir si el modelo A es mejor que el B? Para tomar esta decisión crítica el consenso de investigadores de estadística está basado en las funciones estadísticas citadas anteriormente, como R2, s, PRESS, etc. Como ya se explicó anteriormente, estas funciones son, el coeficiente de determinación R2, el error estándar estimado s, el criterio Cp de Mallow y la estadística PRESS. Otros criterios son los valores de t, tablas de ANOVA, análisis de gráficos, etc., pero los penúltimos cuatro diagnósticos son los más populares. Ejemplo 9.6 Este ejemplo está encaminado a identificar los valores extrínsecos. Así, se obtiene una muestra aleatoria de 25 mediciones de partículas atmosféricas (menores que 10 micras). Se desea saber si hay valores inusuales extremos o moderados. Usar un diagrama de caja. DFITS . 2 Tabla p n , 9.6. Datos del ejemplo 9.6 7

9

14

74

74

85

91

92

92

93

94

95

95

95

96

96

97

97

97

99

99

102

104

107

120

Solución:DFITS . 2 p n , $ 62

n

$ 62

n

En primer lugar, se ponen los datos en forma ascendente (ya están) y luego se calculan los cuartos inferiores y superiores de la siguiente manera. Cuarto  Mediana de los mínimos n/2 casos, cuando n es par. 5 inferior  Mediana de los mínimos (n 1 1)/2 casos, cuando n es impar. Cuarto  Mediana de los máximos n/2 casos, cuando n es par. 5 n 2 de los máximos (n 1 1)/2 casos, cuando n es impar. superior 5  Mediana (n 1 1 2

En seguida se enlistan los valores atípicos usando un diagrama de caja. Estos datos  n 2 son: el valor 5 mínimo y el máximo, el cuarto inferior y el superior, la mediana, la cuarta (n 1 1 2es la diferencia entre el cuarto superior y el cuarto inferior). Adedispersión fs(la cual más, para identificar la presencia de valores inusuales moderados y extremos se dice que toda observación mayor que 1.5fs, del cuarto más cercano, es un valor inusual. Análogamente, si una observación es mayor que 3fs del cuarto más cercano, esto indica un valor extrínseco. Los cálculos para el ejemplo 9.6 son: n 5 25, valor mínimo 5 7.0, valor máximo 5 – 120.0, X 5 85.0, s 5 29.71, error estándar del promedio 5 5.94, Q1 5 88.0, Q3 5 98.0

420

| Estadística para ingenieros Cuarto inferior para observaciones impares 5 mediana de los mínimos (25 1 1)/2 5 13, y el cuarto inferior (con n impar 5 25) 90. Igualmente, el cuarto superior es igual a 97. La cuarta dispersión fs 5 cuarto superior 2 cuarto inferior 5 97 2 90 5 7. Además, 1.5fs 5 (1.5)(7) 5 10.5 y 3fs 5 (3)(7) 5 21. Para estimar los valores atípicos inusuales, el criterio es: cualquier observación menor que el cuarto inferior, menos 1.5fs o mayor que el cuarto superior más 1.5fs es un valor atípico inusual. Esto es: 90 2 10.5 5 79.5 y 97 1 10.5 5 107.5. Analizando los gráficos de la figura 9.17, se observa que hay un valor atípico (120) mayor en el extremo superior de la muestra. Además, hay tres valores de este tipo (7, 9 y 14), en el extremo inferior. Para identificar los valores extremos se calcula la diferencia entre el cuarto inferior y 3fs, es decir, 90 2 21 5 69. Refiriéndose a la tabla 9.6 y la figura 9.17, vemos que las tres observaciones 7, 9 y 14 son valores extremos (que se eliminarán) y el valor de 120 es un valor atípico moderado. Gráfica de de diagrama de de caja Gráfica diagrama caja

Gráfica de diagrama de caja

0

20

40

60

80

100

0

120

20 20

0

40 40

60 60

8080

Gráfica

100 100

120 120

0

Mediciones de de partículas Mediciones partículas

Mediciones de partículas

20

40

Me

Figura 9.17. L a figura del lado izquierdo muestra un diagrama de caja con los 3 valores atípicos extremos (7, 9, 14) y el valor atípico moderado Diagrama de dispersión de la variable aleatoria Diagrama dispersión variable aleatoria (120). LaX figura del ladoDiagrama derecho muestra elaleatoria diagrama con todosDiagrama de dispersión de la var dededispersión dedelalavariable XX los valores. 120

120

100

100

Var aleatoria X

Var aleatoria X

Ejemplo 9.7 Este ejemplo está encaminado a analizar el efecto que pueda ocurrir en el modelo probabilístico de regresión estimado, cuando se eliminan valores extremos. Para los datos de la tabla 9.7, suponer un modelo cúbico. En la primera instancia, estimar el modelo cúbico incluyendo todas las variables. En seguida, ajustar un modelo de regresión, como el anterior, pero esta vez excluyendo los valores extremos. Analizar en cada aleatoria X Var. aleatoria caso, las Var. estadísticas como R2, R2ajustada, el error estándar deX lo estimado s, PRESS (la sigla de suma de cuadrados de predicción), ANOVA, etc. Ver si hay diferencias significantes en cada uno de los dos casos. Hacer una tabla con el resumen de los dos modelos probados, es decir, con y sin valores extremos. 80

60

40

20

0

20

40

60

80

100

120

80

60

40

20

0

20

40

60

80

100

120

0

0

Tabla 9.7. D atos de mediciones (micras) de partículas atmosféricas de la variable dependiente, en función de sus respectivos casos (X). 6

8

14

85

88

90

92

92

93

94

94

95

95

96

96

96

97

97

98

99

101

104

106

114

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

Solución: Primeramente, se identificarán los valores extrínsecos analizando la gráfica de dispersión de los datos y el diagrama de caja como se ve en la figura 9.18.

0

0

20

20

40

40

60

60

80

80

Mediciones de partículas Mediciones de partículas

100 100

0

120 120

0

20 20

40 40

60 60

80 80

Mediciones de partículas Mediciones de partículas

Capítulo 9 Regresión no lineal

Diagrama de dispersión de lade variable aleatoria X X Diagrama de dispersión la variable aleatoria

100100

| 421

Diagrama de dispersión de la aleatoria X X Diagrama de dispersión devariable la variable aleatoria 120 120

0

0

20

20

40

40

60

60

80

80

100 100

Var. aleatoria X Var. aleatoria X

Var aleatoria X

Var aleatoria X

100 100

80

80

60

60

40

40

20

20

0

0

120 120

Figura 9.18. Diagrama de dispersión y diagrama de caja, respectivamente.

Como se ve en el diagrama de caja de la figura 9.18, hay un valor atípico moderado en el extremo derecho (114) y tres valores extrínsecos en el extremo izquierdo (6, 8 y 14). Por otro lado, el valor de Q1 es igual a 90.5, Q2 es igual a 97.75, n es igual a 214 y mediana es igual a 95.0. El cuarto inferior es 24/2 5 12 y el cuarto superior es 12 o sea la mediana del cuarto inferior 5 (90 1 92)/2 5 91 y la mediana del cuarto superior es (97 1 98)/2 5 97.5. La cuarta dispersión es fs 5 97.5 2 91.0 5 6.5. Además, 1.5 fs 5 (1.5)(6.5) 5 9.75 y 3fs 5 (3)(6.5) 5 19.5. Así, para identificar los valores atípicos, cualquier observación menor que el cuarto inferior menos 1.5 fs o mayor que el cuarto superior más 1.5 fs son valores atípicos. Esto es, 91 2 1.5(6.5) 5 81.25 y 97.5 1 1.5(6.5) 5 107.25. De la tabla 9.7 se observa que hay tres valores menores que 81.25, esto es, 6, 8 y 14 y un valor mayor que es 107.25, esto es, 114. El esquema que muestra los resultados de Minitab, en el ajuste de un modelo de regresión polinomial cúbico, el cual incluye todos los datos y, otro ajuste más, de un modelo de regresión polinomial cúbico, el cual excluye los valores extremos se da en seguida. Como se ve, primeramente, se ajusta un modelo de regresión polinomial cúbico: (Y) versus (X), (XSQR), (XCUBE). Este modelo incluye los valores extremos. Después se incluye otro modelo cúbico de regresión polinomial el cual no incluye los valores inusuales extremos. Los resultados obtenidos usando el programa Minitab son los siguientes. Ajuste de un modelo probabilístico de regresión cúbica que incluye los valores atípicos The regression equation is: Var dependiente 5 2 27.2 1 28.7 Var. X 2 2.07 XSQR 1 0.0468 XSCUBE Predictor Coef Constant 227.21 Var. X 28.747 XSQR 22.0681 XSCUBE 0.046808

SE Coef T 10.65 22.56 3.613 7.96 0.3322 26.22 0.008747 5.35

P VIF 0.019 0.000 122.8 0.000 688.3 0.000 261.0

s 5 11.0586 R2Sq 5 88.2% R2Sq(adj) 5 86.4% PRESS 5 3564.96 R2Sq(pred) 5 82.76% Analysis of Variance Source

DF

Regression

3

SS

MS

F

P

18234.0 6078.0 49.70 0.000

120120

422

| Estadística para ingenieros Residual Error 20 2445.9 122.3 Total 23 20679.8 Durbin-Watson statistic 5 1.60621

Ajustando un modelo probabilístico de regresión cúbica que excluye los valores atípicos The regression equation is: VAR Y 5 69.6 1 5.29 X 2 0.380 XSQR 1 0.00949 XCUBE Coef SE Coef T P VIF Predictor Constant 69.595 1.230 56.58 0.000 Var 5.2947 0.3357 15.77 0.000 386.2 XSQR 20.37953 0.02706 214.02 0.000 1895.8 XSQCUBE 0.0094864 0.0006631 14.31 0.000 620.4 s 5 0.440516 R2Sq 5 99.3% R2Sq(adj) 5 99.2% PRESS 5 4.82644 R2Sq(pred) 5 98.97% Analysis of Variance Source DF SS Regression 3 465.70 Residual Error 16 3.10 Total 19 468.80

MS 155.23 0.19

F 799.94

P 0.000

Durbin-Watson statistic 5 1.83090 Tabla 9.8. R esumen de los resultados de los dos modelos probados, es decir, con y sin los valores extremos. Tipo de modelo

R2

R 2ajustada

s

PRESS

Modelo con valores extremos

88.2%

86.4%

11.06

3 564.96

Modelo sin valores extremos

99.3%

99.2%

0.4405

4.83

Al analizar la tabla 9.8 se nota claramente que sí hubo un mejoramiento significativo en la obtención de los modelos de regresión, cuando se eliminaron los valores inusuales extremos. Por ejemplo, el error estándar de estimación s, disminuyó considerablemente al excluir los valores extremos. Situación similar ocurrió con la predicción de la suma de los cuadrados PRESS, la cual disminuyó en forma considerable, de 3 564.96 a 4.83. En cuanto el coeficiente de determinación R2, este valor aumentó de 88.2% a 99.3%, es decir, al excluir los valores extremos. Igualmente, el valor de F de la tabla de ANOVA, que mide la longitud total aumentó considerablemente al excluir los valores extremos. Todos estos diagnósticos estadísticos, aunados a los gráficos de los residuales estandarizados (que no se muestran aquí, pero el estudiante debe analizarlos), indican que la exclusión de los valores inusuales extremos, en el modelo de regresión, sí lo mejoraron muy significativamente.

9.13 Autocorrelación en datos de series de tiempo En los modelos básicos de regresión se supone que los términos de los errores aleatorios ei son variables aleatorias sin correlacionar o variables aleatorias normales independientes (sin autocorrelación). Sin embargo, para series de tiempo, la suposición de errores sin correlacionar (valores de e independientes), no es aplicable, porque

Capítulo 9 Regresión no lineal

| 423

los términos de los errores ei están positivamente correlacionados sobre el tiempo. Bajo semejantes condiciones, los errores aleatorios ei se dice que están autocorrelacionados o serialmente correlacionados (autocorrelación). La causa primordial de obtener errores aleatorios positivamente autocorrelacionados se debe a la omisión de variables claves del modelo (Neter et al. 1996). Por lo común, cuando los datos están agrupados secuencialmente sobre un periodo de tiempo es decir, en series de tiempo, los valores residuales están correlacionados. Por ejemplo, las figuras 9.19 y 9.20 muestran gráficas de los residuales, en función del tiempo, los cuales exhiben autocorrelación, mientras que la gráfica de la figura 9.21 indica independencia de los residuales. Las maneras de detectar problemas de autocorrelación de primer orden, una condición que implica una correlación entre los residuos et y et 2 1, donde t es el periodo de tiempo, son usando la estadística DurbinWatson. Matemáticamente, esta ecuación se define como:

∑ (e n

D5

t 52

t

2 et 21 n

∑e

t 51

)

2

(9-10)

2 t

Donde: D es la estadística de Durbin-Watson

20

(

et y et21 relación entre los residuos sobre el periodo ∑ et 2 et 21 D5

T 52

)

2

5

0. 09794

5 0. 735 0. 13330 2 e t En general, a menos que las observaciones sean ∑ de series de tiempo, la estadística de Durbin-Watson

n es el número de casos

20

t 51

debería ser ignorada, porque esta estadística da una prueba de autocorrelación positiva o negativa, solamente, para series de tiempo. Cuando se están aplicando series de tiempo y existen problemas de autocorrelación pueden existir varias importantes consecuencias. Por ejemplo, coeficientes de regresión pueden ser ineficientes, el MSE seriamente subestimará los errores de la varianza, el s{bk} calculado por la función de los mínimos cuadrados seriamente subestimará la desviación estándar y los coeficientes de regresión, etc. (Neter et al. 1996). Las medidas para mitigar problemas de autocorrelación son los de agregar una o más variables predictoras al modelo de regresión o de usar variables transformadas. e

Tiempo

0

Figura 9.19. G ráfica de valores residuales versus tiempo que muestra patrones de autocorrelación (falta de independencia). e

e

0

Tiempo

Figura 9.20. G ráfica de valores residuales versus tiempo que indica autocorrelación (falta de independencia).

0

Tiempo

424

| Estadística para ingeniería y ciencias e

e

Tiempo

0

Figura 9.21. G ráfica de valores residuales versus tiempo que indica independencia de los datos.

Debido a que estas estimaciones tienden a mostrar correlación de serie parcial, en aplicaciones en la economía y negocios se pueden usar pruebas de hipótesis como:

H0:ρ 5 0 (no hay autocorrelación o independencia)

Ha:ρ . 0 (autocorrelación)

(9-11) (9-12)

La prueba consiste en determinar si el parámetro de autocorrelación ρ es igual a cero o es mayor que cero. Por ejemplo, si ρ 5 0 los términos del error et son independientes debido a que los términos ut son independientes. No obstante, los valores críticos son difíciles de obtener, pero la prueba de Durbin-Watson ha obtenido los linderos superiores e inferiores dU y dL de tal manera que un valor de D fuera de estos linderos lleva a una decisión definitiva. Neter et al. (1996) dan la regla de decisión para probar entre estas alternativas, esto es:

si D . dU, se concluye H0:

(9-13)

si D , dL se concluye Ha:

(9-14)

si dL # D # dU, la prueba es inconclusa

(9-15)

Valores pequeños de D conllevan a la conclusión de que la prueba de hipótesis de Ha:ρ . 0, porque los errores aleatorios adyacentes et y et21 tienden a ser de la misma magnitud, cuando están positivamente autocorrelacionados. Por tanto, la diferencia en los resultados et 2 et21 tiende a ser menor cuando ρ . 0, lo cual lleva a un numerador pequeño en la función de D y a una prueba estadística de D pequeña. El apéndice de este texto muestra las tablas con las pruebas de los linderos de Durbin-Watson, para niveles de significancia de α 5 0.05 y α 5 0.01, respectivamente. Como se muestra en estas tablas, la columna de la izquierda señala los valores de n y las siguientes columnas señalan los valores para cada k con sus correspondientes linderos. Ejemplo 9.8 E ste problema está adaptado del libro Applied Linear Regresión Models de los investigadores John Neter, Michael H. Kutner, Christopher J. Nachtsheim y William Wasserman (1996). La información se da de la siguiente manera: (et 2 et21)2 5 0.09794, e2t 5 0.1333018 con una tamaño de muestra de n 5 20. Probar las hipótesis (de autocorrelación positiva) señaladas abajo usando niveles de significancia de 0.05 y 0.01:

H0:ρ 5 0

Ha:ρ . 0

∑ (e n

D5

t 52

2 et 21

t

n

∑e t 51

Solución:

)

2

Capítulo 9 Regresión no lineal

| 425

2 t

Usando la ecuación (9-10) y sustituyendo los datos da:

∑ (e 20

D5

T 52

t

2 et 21

∑e t 51

2

5

20

)

2 t

0. 09794 0. 13330

5 0. 735

Usando las tablas del apéndice A, con α 5 0.05, n 5 20 y con p – 1 5 1 (porque X 5 1, es decir, con una sola variable independiente), da: dL 5 1.20 y dU 5 1.41. Debido a que D 5 0.735 es pequeño y cae debajo de 1.41, se dice que D , dL y se concluye que ρ . 0 o sea Ha: es decir, hay autocorrelación o falta de independencia, o que los términos de error et están positivamente autocorrelacionados. Algo similar ocurre si se usa un nivel de α 5 0.01. Nota: S i se hace una prueba de autocorrelación negativa, la estadística usada es 4 – D, donde D se da en las ecuaciones de arriba. Si es así, entonces, la prueba se conduce de la misma manera que para la autocorrelación positiva. Esto quiere decir que si la cantidad 4 – D cae debajo de dL, se concluye ρ , 0. Además, si se usa una prueba bilateral para H0:ρ 5 0 versus Ha:ρ ? 0 se hace usando separadamente las pruebas unilaterales. (Neter et al. 1996.)

9.14 Heteroscedasticidad y homoscedasticidad e

0

e

Nuevamente, en esta sección se dará una definición de lo que se denominan heteroscedasticidad y homoscedasticidad. Por ejemplo, cuando la varianza del error, e(σ2e), no es constante, esta condición se llama heteroscedasticidad. En contraste, cuando la varianza del error, e(σ2e), es constante, esta condición se llama homoscedasticidad. Tiempo Tiempo 0 El método más común para diagnosticar el problema de heteroscedasticidad es graficando los residuales contra los valores pronosticados de y. Así, se analiza el esparcimiento de los puntos graficados. Por ejemplo la figura 9.22 describe los residuales mostrando heteroscedasticidad, es decir, cuando el error 2σ ε no es constante. Como resultado de esto, sí existen cambios sistemáticos de los residuales con las funciones de las variables independientes. Esta condición se prueba analizando esta figura, porque el error σ2e aparece pequeño cuando el valor pronosticado de y es pequeño y grande cuando el valor de y lo es. En contraste, la figura 9.23 muestra una condición de homoscedasticidad, es decir, de σ2e constante. Como resultado de esto, no hay cambios aparentes en la variación de los residuales. e

Figura 9.22. G ráfica de residuales que muestran la condición de heteroscedasticidad, es decir, de la varianza del error, σ2ε no constante.

yˆ

426

| Estadística para ingeniería y ciencias e

Tiempo

yˆ

Figura 9.23. G ráfica de residuales que muestra la condición de homoscedasticidad, cuando la varianza del error, σ2ε es constante o los residuales son independientes.

9.14.1 Prueba de White para el problema de heteroscedasticidad Hay funciones estadísticas para probar el problema de heteroscedasticidad. Una de éstas es la prueba de Whixi 5por (1, xheteroscedasticidad, , … , xik ) te. De esta manera, Hal White propuso una forma simple para probar es decir, de i2 variaciones sistemáticas de los residuales con las variables regresoras (White, Halbert, 1980. A HeterscedasticityConsistent Covariance Matriz and a Direct Test for Heteroscedasticity. Econometrica 48:817-838). xi 5(de 1, xWhite , … , xpara ) heteroscedasticidad, supóngase Para explicar la prueba que se tienen k variables regresoras 2 i2 ik xi 5(1, xi 2 , … , xik ) e i a9zi vi incluyendo una constante xi 5(1, xi 2 , … , xik ) . De acuerdo con White, después de estimar el modelo de regrexi 5(1, xi 2 , … , xik ) xik ) 5(1, xi 2 , … sión, se pueden estimar los residuales y laxecuación de ,regresión auxiliar: i

e 2 i a9zi vi

xi 5(1xx, ix5 ,… ) ,, xxik)) 5 1,,2xx, ix2,,ik… … i 2 ((1 i 2 a9z ikv e i i i i e i 2a9zi vi e i a9zi vi 2 e i a9zi vi 2

zi (1, xi 2 , … , xik , x 2 i 2 , … , x 2 ik , xi 2 xi 3(9-16) , … xi , k 1 xik )

Donde α es un vector de parámetros, ni es un error y zi contiene todos los productos cruzados de los ele2 , xvi 2i xi 3 , … xi , k 21 xik ) 2 2 x 2aie2e9,2z2… ,avx92z mentos en xi, es decir: zi (1, xi 2 , … , xeik ,i 2 2 i a9iziki v … ;X X X 1 xik ) i i (1,i x , … , x , x H zi ,… 0 , x1 , x 2x , … xi , k n zi (1, xi 2 , … , xik , x 2 i 2 , … , x 2 , xi 2 x , …ik xi , ki 21 xik ) ik i 2 i 3 zi (1, xi 2 , … , xik , x 2 i 2 , …ik, x 2 iki 2, x2i 3i 2 xi 3 , … , 1 xik ) x k zi (1, xi 2 , … , xik , x i 2 , … , x 2 iki, xi 2 xi 3 , … xi , k 1 xik )

(9-17)

2 X 2 2 se z… H 0;X 21nulas ,… , manera. ) 11xxik2)) xix222x2 iki 3,,,xx… (1Xzz, 2ix ,… , xla2 ix2siguiente Las pruebas de hipótesis pueden hacer xxi 3i ,, k x1i,x,k… kik 1,, xx, ix2de , x22, x,,… … … … 2x n i i 2 ((1 ik ,, x 2 ,, x ,,ik… ik,2 x i 2… … Hikn0;Xii2221x Xik n i i; 2X X ik i2 i3 X i X H 2 2 2 2 0 1 2 … Por ejemplo, la pruebaHde homoscedasticidad, es decir, de que la varianza del error, σ2ε es ;Xhipótesis X 2 2de …X2 n X 2 2 0 H 1;X 2 X 2 n 0 1 2 … H 0;X 1 X 2 X n constante es:

2 2 2 …; …22 X… … 2 X H 0;X 21 X 2 2 H X 2H X22221 XX XX… ;X H 0 1 0n; 2 2 2n n [ k2 n(k 1) 2 ]1 0 1 ;X 2 X n X H 2 2 2 0 1 2 X H 0;X 1 2X 2 2 … H 0;X 1 X 2 …2 n X 22n … 2 ;X 1 X 2 Xes: La prueba de hipótesis alternativa deH heteroscedasticidad n 0

(9-18)

2 …22 … [ k(k 1) 2 ]1H 0;X 2H ;XX2212 H X X… XX22 n nR 2 H (k[(k 1) 2 ]1) 1 0; (9-19) 1 n [1k(kX221 ) 2 ]n 0 [ k(k 1) 2 ]1 [ k(k 1) 2 ]1 [ k(k 1) 2si ]el1 producto de la estadística R2 y el tamaño de la muesCuando se usa la distribución de la ji-cuadrada,

2 ]1)] nR 2 k[(k[ tra tiene una aproximación a H (con k(1k) 11 de libertad,2entonces la función se da como: 11))12 22grados [[kk1(()kk2 ]] ]1) nR H (k[(k 1) 2nR nR 2 H (k[( k 1) 2 ] 1) 2 nR H (k[(k21) 2 ]1) nR H (k[(k 1) 2 ]1)

H22(k[(Hk nR 2 nR 1)1)2 ]1) (k1[()k2]

(9-24)

2( kla Hde 1) 2 ]1) H2 se rechaza la hipótesis nula a favor nR [(kji-cuadrada Si el valor de nR2 es mayor que el valornR crítico 2 nR de la prueba alternativa de heteroscedasticidad. nR 2 2

nR 2

nR

H

H H 2

2

2

nR 2 nR nR22 2

H 2

Capítulo 9 Regresión no lineal

| 427

9.15 T ransformaciones a las variables de los modelos probabilísticos de regresión, para corregir las violaciones a las suposiciones del análisis de regresión Como ya se mencionó, un factor muy importante en los análisis de regresión, para que los modelos y las pruebas estadísticas sean válidas, es la transformación de las variables, es decir, generando datos nuevos. Una manera racional de modelar ecuaciones no lineales es la transformación de los ejes x y y. Las transformaciones pueden hacerse con la variable dependiente, con la variable independiente, o con ambas. Sin embargo, una vez que las variables han sido transformadas (si se requirió) una transformación reversada se usa para regresar a un valor transformado predecido y, de ahí, al valor métrico original. Como se mencionó en otra parte, las condiciones requeridas para que el modelo sea válido son: 1) la variable del error ε debe estar normalmente distribuido; 2) el valor promedio de la variable del error es cero, esto es, E(e) 5 0; 3) la varianza del error σ2e debe ser fijo (homoscedasticidad) y 4) los valores de e deben ser independientes uno del otro (no autocorrelación). El cambio exacto de las escalas para mejorar el modelo es difícil de determinar y el éxito en encontrar una buena transformación depende, en parte, en la experiencia en el campo particular de la aplicación. La transformación del eje también depende de la naturaleza específica de la violación cometida. Las transformaciones más comunes en un eje o en el otro, o en ambos son: a) Transformaciones logarítmicas (base e o base 10) b) Transformaciones al cuadrado c) Transformaciones con raíz cuadrada d) Transformaciones recíprocas e) Transformaciones angulares f ) Transformaciones del arco-seno para proporciones, etcétera El uso de transformaciones es muy útil para normalizar la distribución de los datos. Por ejemplo, en ciertas ocasiones una función no lineal puede expresarse como una línea recta usando una transformación adecuada. Estos modelos no lineales se llaman intrínsecamente lineales. Los siguientes dan algunos tipos de transformaciones: a) Un ejemplo de un modelo no lineal, el cual es intrínsecamente lineal, es la función exponencial y 5 β0 exp(β1 x) e. Esta función intrínsecamente lineal puede transformarse en una función lineal mediante una transformación logarítmica, es decir, ln y9 5 ln β0 1 β1x 1 ln e. b) Análogamente otro ejemplo de una función intrínsicamente lineal es la función recíproca y 5 β0 1 β1(1/x) 1 e, la cual, al usar la transformación recíproca z 5 1/x se vuelve lineal como y9 5 β0 1 β1z 1 e. Esta transformación recíproca se recomienda cuando σ2e significativamente aumenta, cuando y aumenta más allá de un valor crítico. c) Otro ejemplo más de funciones extrínsecas es la función de potencia expresada como y 5 αxβ. Este tipo de transformación se usa cuando hay problemas de heteroscedasticidad y cuando la distribución es oblicua hacia la derecha. La transformación lineal de esta función intrínseca es y9 5 ln(y) y su forma lineal es y9 5 ln(α) 1 βx. d) En forma análoga, las transformaciones sacando la raíz cuadrada se logran si los promedios de la muestra son aproximadamente proporcionales a las varianzas de sus muestras respectivas (o el cuadrado de

α

y9 5 ln ( y ) 428

x

x a) función exponencial

| Estadística para ingeniería y ciencias

y9 5cada 1 βx lny ( a )medición los reemplazando por su raízy cuadrada, por lo general y rangos). Bajo estas condiciones y da por resultado varianzas homogéneas y así sucesivamente.β.1 α α

De acuerdo a Johnson (Probabilidad y estadística para ingenieros de Miller y Freund, 1997) transformaciones útiles β.0 para la reducción de valores grandes son2 1 x , ln xβ.0 para incremen, x 1 4 y 0,β,1 x . Análogamente, β,0 β,0 2 3 β.0 to de valores grandes las transformaciones más útiles son x y x . Porαejemplo, la figura 9.24 muestra gráficas de funciones α lineales intrínsecas, como funciones exponenciaα x x les, funciones de potencia, funciones recíprocas y funciones hiperbólicas. Por síxmismas, las funciones xlineales a) función exponencial a) exponencial b) función función de potencia llevan a modelos probabilísticas que, a pesar de no ser lineales, en x como función, tienen parámetros cuyos valores se estiman usando técnicas de regresión. y

yy

y β.1

y y β.1

α

0 β.0

0,β,1

α

0,β,1

β,0 β.0 x

α

α

x

b) función función exponencial de potencia a)

y y

β.0

β.0 xx

y

y

y 1 β

β.1 0

0

0,β,1 β.0

α

x x

x x

α

c) función función de recíproca b) potencia

y y

β.0

β,0

β,0

β,0

β.0 α

x x

α

c) función recíproca b) función de potencia

x

x

x

c)d)función funciónrecíproca hiperbólica

Figura 9.24. G ráficas de funciones lineales intrínsecas. La figura a) representa la función exponencial; la figura b) representa la función de y y y y potencia; la figura c) una 1función recíproca, y la d) una función hiperbólica. 1 β

a)

0

β

y

b)

β.0

x

1

d)

y

β,0

9.16 alores inusuales extremos, V α x x x x su identificación y sus consecuencias funciónrecíproca hiperbólica c)d)función

a)

c)

y

x1

d) función hiperbólica

Por otra parte, en cuanto a la presencia de valores atípicos, como se mencionó en el ejemplo 9.6, se puede decir f) d) y y que toda observación que difiera de 1.5fs del cuarto más cercano es inusual. e) Además, un valor inusual es extríny 1 ese valor está a más de 3f del cuarto más cercano. Sin embargo, un valor inusual será seco o extremo cuando c) s β b) b) extremos se y y a) manera,ylos valores inusuales moderado en cualquier otro caso. Dey cualquier y definen como observaciones que aparecen como datos inconsistentes con el resto de la información. Estos valores pueden aparecer x1 en cualquier extremo de los datos. La identificación potencial de losx1valores inusuales puede hacerse analizando los diagramas esparcidos, los diagramas de caja, los diagramas de tallo y hoja, las gráficas de probabilidad x1 x1 x x1 x x normal o las gráficas de los residuales semiestudentizados. También el1 comportamiento del sesgo y la1 kurtosis d) función hiperbólica pueden señalar valores extrínsecos. Sin embargo, de acuerdo con la lógica del programa NCSS, hay que estar

y

e)

y

d)

f) y

y

e)

y

f)

y c) y

y

Capítulo 9 Regresión no lineal

| 429

conscientes que los diagramas de caja y los gráficos de pruebas de normalidad evalúan la potencialidad de un valor extremo suponiendo que la población muestreada es normal, porque de otra manera, estas pruebas mostrarán muchos valores extrínsecos. De acuerdo con esta lógica, se recomienda que, si se sospecha de valores extremos, deberá hacerse una comparación del promedio, la mediana y la moda. Si los valores atípicos extremos están solamente a un lado del promedio, la mediana es una mejor medida de localización, pero si los valores extremos están igualmente divergentes en cada lado del centro, el promedio y la mediana estarán cercanos, pero la desviación estándar estará inflada. Además, de acuerdo con esta lógica computacional, el rango intercuartil es la única medida de variación que no es grandemente afectada por los valores extrínsecos. Los valores atípicos extremos causan muchas dificultades y pueden afectar las predicciones de los modelos de regresión. Sin embargo, un valor inusual extremo debe eliminarse, cuando haya evidencia de que ese caso representa un mal funcionamiento del equipo, errores de medición, errores del personal técnico, etc. Debe de pensarse que los valores extremos pueden ocurrir casualmente o causalmente (por ejemplo debido a cambios bruscos en los patrones meteorológicos por donde pasa la pluma de algún complejo industrial, etc.). De cualquier manera, si se comprueba que un valor es extrínseco, debe de eliminarse. Esto ocasionará que los modelos de regresión den resultados más precisos debido a la consecuente normalidad de las distribuciones, ocasionada por la eliminación de los susodichos valores extrínsecos.

Problemas propuestos 9.1 Se hace un experimento con un nuevo modelo de automóvil, para determinar la distancia, después de frenar a varias velocidades. La información es la que aparece en la tabla 9.4. Tabla 9.4. Datos del problema 9.1. Velocidad, v (km/h)

37

52

67

82

97

113

Distancia después de frenar el auto, d (m)

17

27

43

63

89

120

a) Hacer una gráfica con la variable independiente y la variable dependiente. b) Ajustar el modelo o la ecuación de regresión lineal poblacional de la forma μd|n 5 β0 1 β1n1 1 β2n2, la cual es estimada por la ecuación de la muestra Y 5 b0 1 b1x1 1 e. c) Estimar la distancia después de frenar, con velocidad de 70 kilómetros por hora. d) Estimar la distancia después de frenar, cuando la velocidad es de 120 km/h. 9.2 Éste es un ejercicio relacionado con el ajustamiento del mejor modelo de regresión. La tabla 9.10 da los datos. Tabla 9.10. Datos del problema 9.2. X

0

1

2

3

4

5

6

7

8

9

Y

9.1

7.3

3.2

4.6

4.8

2.9

5.7

7.1

8.8

10.2

a) b) c) d) e)

Hacer una gráfica de diagrama esparcido. Obtener un modelo de regresión lineal. Obtener un modelo de regresión cuadrático. Obtener un modelo de regresión cúbico. Evaluar la utilidad de cada modelo usando criterios estadísticos objetivistas como R2, R2ajustada, error estándar de estimación y PRESS y complementar la evaluación usando gráficos subjetivos. f) ¿Cuál modelo es superior? Justificar la respuesta.

9.3 La viscosidad de un tipo de lubricante se midió con seis velocidades diferentes en kilómetros por hora. Se supuso un modelo cuadrático de regresión como el más apropiado y la función de regresión polinomial estimada resultante de una muestra de n 5 6 fue: y 5 2113.0937 1 3.3684x 2 0.01780x2 a) Identificar la variable dependiente. b) Identificar la variable independiente. c) Calcular la viscosidad del lubricante cuando la velocidad es de 75 kilómetros por hora. 9.4 Con la microbiología es bien sabido que el crecimiento bacterial o de virus sigue a una función matemática exponencial. Un modelo de regresión poblacional que involucre el crecimiento bacterial en función de las horas que ha pasado puede expresarse como y 5 β0 1 β1x 1 β2x2 1 β3x3 1 e, donde y es el conteo de las bacterias y x es el número de horas que han pasado. Si en cierto estudio de microbiología la ecuación de regresión se diera como, y 5 27.99 1 12.5x 2 0.91 x2 1 2.2 x3, entonces calcular el número de bacterias que aparecerían después de un día. 9.5 Se dan los siguientes datos en la tabla 9.11. Tabla 9.11. Información del problema 9.5. X

0

1

2

3

4

5

6

Y

1

4

5

3

2

3

4

a) Hacer una gráfica de diagrama esparcido y otra ajustando un modelo de regresión cúbico con la ecuación de regresión y diagnósticos estadísticos. b) ¿Realmente encaja bien un modelo cúbico mejor que un modelo de regresión cuadrático o lineal? Justificar el argumento. c) Si el modelo cúbico es superior (justificando el argumento), entonces, pronosticar Y cuando X 5 2.

430

| Estadística para ingeniería y ciencias

9.6 Se dan los siguientes datos en la tabla 9.12. Tabla 9.12. Datos del problema 9.6. Y

24.60

24.71

23.90

39.50

39.60

57.12

67.11

67.24

67.15

77.87

80.11

84.67

X

4.0

4.0

4.0

5.0

5.0

6.0

6.5

6.5

6.8

7.0

7.1

7.3

a) Hacer un diagrama esparcido con los datos de la tabla 9.12. b) Ajustar los datos a un modelo con línea de regresión y con intervalos de confianza e intervalos de predicción. c) Ajustar los datos a un modelo polinomial de segundo orden. d) Basándose en los resultados obtenidos, el lector deberá hacer una decisión sobre cuál modelo es superior. 9.7 Los datos de la tabla 9.13 corresponden a un estudio para la obtención de cierto producto etílico relacionado con el tiempo.

Tabla 9.14. P romedios anuales del número de accidentes en función del número de vehículos y la velocidad en que viajan . Número de accidentes (Y)

Número de vehículos (X1)

Velocidad del vehículo (X2)

5

40

53

9

55

73

15

64

90

3

25

55

4

27

60

6

30

70

Tabla 9.13. Datos del problema 9.7.

x

1

1

2

4

4

4

6

y

25.0

27.5

28.0

31.9

33.0

34.6

22.0

a) Hacer una gráfica de diagrama esparcido. b) Ajustar un modelo cuadrático con curva de regresión. c) Evaluar la utilidad del modelo polinomial de segundo orden a través de diagnósticos estadísticos y gráficos. De acuerdo con estos criterios, ¿encajan bien los datos en el modelo de regresión seleccionado? d) Usar la estadística de Durbin-Watson para revisar por problemas de autocorrelación. 9.8 En un estudio de seguridad para los automovilistas en las carreteras estatales, se sabe que el número de accidentes automovilísticos en cierta parte de una carretera está relacionado con el número de vehículos y la velocidad de éstos. Para esto, al encargado de este estudio se le piden los promedios de las estadísticas de los últimos 10 años, con objeto de establecer un modelo de regresión para predecir el número de accidentes. Así, se decide poner como variable dependiente el número de accidentes (y). Además, como variables independientes se ponen el número de vehículos que pasan por el trecho (x1) y, la velocidad promedio a que viajan (kilómetros por hora), como (x2). Se decide probar cuatro modelos de regresión, es decir, uno lineal múltiple, con y sin interacción. Para el otro modelo probado se decide por uno cuadrático, con y sin interacción. Todo esto se hace para ver cuál de los modelos encaja mejor en los datos. La tabla 9.14 da la información requerida. Hacer los siguientes cálculos: a) Evaluar la utilidad del modelo de regresión lineal múltiple, con y sin interacción a través de diagnósticos estadísticos, como R2, R2ajustada, s, PRESS y tabla de ANOVA y diagnósticos gráficos. b) Evaluar el modelo de regresión cuadrático con y sin interacción a través de diagnósticos estadísticos, como R2, R2ajustada, s, PRESS y tabla de ANOVA y diagnósticos gráficos. c) Hacer un resumen de los resultados de los cuatro modelos de regresión probados y decidir cual sistema es superior. Para esto completar la tabla 9.14. d) Con el modelo superior seleccionado estimar el número de accidentes con X1 5 a 70 vehículos y X2 5 95 kilómetros por hora.

1

5

50

10

56

85

6

35

80

8

60

67

e) Completar la tabla 9.15 con los resultados de los cuatro modelos probados y�� decir cuál es el modelo superior. Tabla 9.15. Datos del problema 9.8. R2

Tipo de modelo

s

PRESS

F

DurbinWatson

p

Modelo lineal sin interacción Modelo lineal con interacción Modelo cuadrático sin interacción Modelo cuadrático con interacción

9.9 Analizar las gráficas de la figura 9.25 de y versus x1 para una variedad de valores de x2 y determinar si hay o no interacción. a)

y

b)

y

x1

x1 c)

y

d)

y

x1 e)

y

x1 f)

x1

y

x1

Figura 9.25. G ráficas a), b), c), d), e) y f) de y en función de varios valores de x.

Capítulo 9 Regresión no lineal 9.10 En un estudio de ingeniería automotriz se discute la eficiencia de un tipo de mecanismo de transmisión que funciona a más de la capacidad normal, el cual se prueba para reducir el consumo de gasolina y, por ende, la reducción de la contaminación ambiental (por las emisiones de gases de invernadero). Este estudio se hizo utilizando un tamaño de muestra de 11 pruebas, con una camioneta equipada con este tipo de transmisión. La tabla 9.16 muestra la velocidad constante, en millas por hora, en función de las millas por galón obtenidas. Suponer un modelo de regresión de segundo orden. Los datos se dan en la tabla 9.16. Tabla 9.16. Datos del problema del rendimiento de gasolina. Velocidad

36

36

41

41

46

46

51

51

56

57

61

Rendimiento

19

19

27

30

36

37

40

38

33

36

26

Hacer lo siguiente: a) Identificar la variable de respuesta y la variable independiente. b) Graficar los datos de millas por galón versus velocidad. c) Ajustar un modelo de regresión polinomial de segundo orden. d) Validar la función probabilística cuadrática usando diagnósticos estadísticos objetivistas. e) Validar el modelo cuadrático estimado usando gráficos subjetivos. f ) Usando la ecuación del modelo de regresión obtenida, estimar el rendimiento de gasolina con velocidades de 55 millas por hora y 80 millas por hora y comparar ambos resultados. g) ¿Cree usted que la reducción de las velocidades vehiculares en los caminos pueda contribuir a contaminar menos el medio ambiente? 9.11 En una investigación científica agrícola, se estudió, en 10 pruebas, los efectos de la humedad de la tierra (x1 en pulgadas) y la temperatura (x2 en oC) en función del rendimiento (en fanegas), de cierta variedad de plantas de maíz (Y). Los datos se dan en la tabla 9.17. Tabla 9.17. Datos del problema 9.11. Humedad (x1)

6

6

6

6

14

14

14

15

16

16

Temperatura (x2)

20

21

22

22

22

23

23

23

24

24

Rendimiento (Y)

49

48

48

48

48

42

44

44

40

40

El ingeniero agrónomo estadístico está presuponiendo un modelo de regresión cuadrático con interacción, aunque se sospecha de un modelo cuadrático sin interacción. a) Describir el modelo cuadrático poblacional con interacción y sin interacción. b) Evaluar ambos modelos a través de diagnósticos estadísticos y gráficos y tomar la decisión final usando la ecuación (9-9). Nota: E n futuras investigaciones agrícolas es de observarse que, además de las variables tradicionales como temperatura, humedad, tipo de suelos, etc., que se incluyen en los modelos de regresión, hay otras variables que deberán incluirse, porque están afectando la producción agrícola, como por ejemplo, los índices

| 431

de radiación ultravioleta (que varían de 0 a 14 y que están siendo causado por los compuestos hidrobromo-fluorocarbonados y los compuestos clorofluorocarbonados que están destruyendo la protectora capa estratosférica de ozono). Además de éstos, hay otros factores más que tendrán que incluirse en el modelo de regresión agrícola, como las concentraciones de ozono troposférico artificial (O3), los óxidos de nitrógeno (NOx), los óxidos de azufre (SOx) y otros más que están afectando el rendimiento agrícola. De cualquier manera, bajo estas condiciones, el estadístico Cp va a ser de gran utilidad para revisar las variables faltantes o superfluas. 9.12 La suma de los cuadrados del error de un modelo de regresión polinomial cuadrático completo, con interacción y con dos variables independientes es de SSe 5 200.0. La suma de los cuadrados del modelo simple, sin interacción, con una variable independiente es de SSa 5 500. Suponer k1 5 4, k2 5 5, n 5 50 y α 5 0.05. Determinar cuál de los dos modelos es superior. Sugerencia: usar la ecuación (9-9). 9.13 Contestar las siguientes preguntas usando la función (9-9), con la información dada. a) Se dan los siguientes datos: k1 5 2, k2 5 5, n 5 100, α 5 0.05, SSE1 5 7 000.0 del modelo abreviado y SSE2 5 6 000.0 del modelo completo. De acuerdo con esto, ¿cuál de los dos modelos es superior? b) Se dan los siguientes datos: k1 5 3, k2 5 7, n 5 45, α 5 0.05, SS1 5 1 600 del modelo abreviado, SS2 5 900.0 del modelo completo. ¿Cuál de los dos modelos de regresión es el mejor? c) Se dan los siguientes datos: k1 5 2, k2 5 4, n 5 30, α 5 0.05, suma del error de las cuadrados del modelo simple es SS1 igual a 130.0. La suma de los cuadrados del modelo complejo es de SS2 igual a 100.0. ¿Cuál de los dos modelos de regresión es el mejor? 9.14 La tabla 9.18 muestra datos de un experimento, el cual consiste en cuatro variables independientes y una variable dependiente. Se usa un paquete de computadora, el cual selecciona tres de los modelos candidatos más apropiados. Tabla 9.18. Datos del problema 9.14. (Y)

X1

X2

X3

X4

79.3

5.5

31

10

8

200.1

2.5

55

8

6

163.2

8.0

67

12

9

200.1

3.0

50

7

16

146.0

3.0

38

8

15

177.7

2.9

71

12

17

30.9

8.0

30

12

8

291.9

9.0

56

5

10

160.0

4.0

42

8

4

339.4

6.5

73

5

16

159.6

5.5

60

11

7 12

86.3

5.0

44

12

237.5

6.0

50

6

6

107.2

5.0

39

10

4

155.0

3.5

55

10

4

432

| Estadística para ingeniería y ciencias

a) Se le pide al lector usar un programa de computadora y ratificar los datos calculados en la tabla 9.19. Basándose en los resultados de esta tabla (o los calculados por el lector), la cual muestra los tres modelos de regresión, con sus respectivos diagnósticos estadísticos, tomar una decisión final sobre el modelo óptimo, sustentándola con los diagnósticos gráficos.

b) Una vez tomada una decisión sobre los dos modelos finalistas, confirmarla usando la ecuación (9-9) (recordar que se tendrán que calcular las tablas de ANOVA que dan las sumas de los cuadrados (SS). La tabla 9.19 muestra los tres mejores candidatos de modelos, para que el lector tome una decisión sobre cuál de los tres modelos es el óptimo.

Tabla 9.19. Resultados. Modelo de regresión

Fcalc.

R

2

s

PRESS

Cp

Estadística de Durbin-Watson

Promedios de factores de varianza inflada

X2, X3

998

0.9940

6.6749

782.1896

11.4013

1.91

1.0

X1, X2, X3

1200

0.9970

4.9795

643.3578

3.4075

2.02

1.0

X1, X2, X3, X4

852

0.9971

5.1193

741.7557

5.0000

2.02

1.2

Hay que notar que la tabla 9.19 incluye las estadísticas Cp, la estadística de Durbin-Watson y los factores de varianza inflada (VIF). Como se asentó en otra parte, la estadística Cp evalúa el número óptimo de variables que se incluirán en el modelo. Por ejemplo, el modelo superior debe de tener un Cp cercano a (p 1 1), donde p es el número de variables independientes. Similarmente, la estadística de Durbin-Watson, que está relacionada con la autocorrelación entre los residuales, menciona que si el valor de esta estadística está cercano a dos, entonces, los residuales no están correlacionados, pero si difiere mucho de dos, entonces hay problemas de autocorrelación. Igualmente, con relación a los factores de varianza inflada (VIF), esta estadística es una indicadora de multicolinealidad, es decir, de relación lineal entre las variables independientes. De esta manera, grandes valores de VIF conllevan muchos problemas. Por ejemplo, la multicolinealidad hace que los coeficientes de regresión sean inexactos, infla los errores estándar de los coeficientes de regresión, desinfla la pruebas parciales de t y da valores falsos de no significancia de la probabilidad p. 9.15 En una investigación relacionada con la contaminación del aire por el ozono, a ras del suelo, se sacó una muestra de cinco años (1999-2003) procedente de una estación muestreadora localizada en el Parque Chamizal en El Paso, Texas. El mantenimiento y calibración de los aparatos de esta estación muestreadora los realizó la EPA de Estados Unidos. El estudio consistió en el procesamiento estadístico de variables, como el ozono (O3), el monóxido de nitrógeno (NO), el bióxido de nitrógeno (NO2) y la temperatura en grados Fahrenheit (oF). Esto se hizo con objeto de obtener un modelo de regresión estadístico para fines de predicción. El procedimiento consistió en obtener los promedios (de los valores espacio-temporales de una hora), de cada una de las cuatro variables independientes de cada una de las 24 horas del día de cada mes de cada uno de los cinco años. Aproximadamente, se procesaron 178 560 datos (24 horas × 31 días × 12 meses × 5 años × 4 variables). Los promedios de los promedios, en partes por billón (ppb) se dan abajo. Hacer los siguientes cálculos: a) Graficar los datos para ver el tipo de la función gráfica que se pueda esperar. Sugerencia: usar el programa de computadora Excel. b) Para obtener el mejor candidato del modelo de regresión usar un Best Subset Regression (mejor subconjunto de regresión) y un Stepwise Regression (regresión por pasos).

c) Evaluar la utilidad del modelo usando los criterios estadísticos R2, R2ajustada, s, Cp y PRESS. d) Complementar la utilidad del modelo de regresión seleccionado aplicando criterios subjetivos (gráficas de residuales y prueba de normalidad). La tabla 9.20 muestra la información requerida. Tabla 9.20. Datos del problema 9.15. Mes

Ozono (ppb)

NO (ppb)

NO2 (ppb)

Temperatura (oF)

Enero

16.7

28.2

21.0

49.68

Febrero

19.4

23.0

18.9

53.06

Marzo

30.0

12.5

16.3

58.82

Abril

34.4

10.2

14.4

68.00

Mayo

35.8

6.2

12.8

77.36

Junio

37.5

4.0

10.9

82.94

Julio

38.7

3.3

12.7

83.66

Agosto

36.4

3.9

14.4

83.12

Septiembre

30.7

8.8

16.6

78.44

Octubre

21.2

9.8

20.9

67.10

Noviembre

16.6

33.0

22.7

56.30

Diciembre

14.9

34.9

23.8

46.18

9.16 Este problema está relacionado con una información de datos de un experimento relacionado entre el pH (X ) y la conductividad eléctrica (Y ). Los datos se dan en la tabla 9.21. Basando el razonamiento en los resultados dados por el paquete Minitab, decidir si el modelo de regresión más apropiado es un modelo cuadrático o un modelo de regresión cúbico. Justificar la respuesta en la decisión seleccionada de acuerdo con la información proporcionada. Tabla 9.21. Datos del problema 9.16. C1

C2

C3

C4

C5

C6

(Y)

(X)

XSQ

XCUBE

COEF1

COEF2

1

1.20

4.01

16.0801

64.481

46.9072

247.908

2

0.78

4.07

16.5649

67.419

219.9094

2157.905

3

0.83

4.08

16.6464

67.917

2.1161

33.643

Capítulo 9 Regresión no lineal 4

0.98

4.10

16.8100

68.921

5

0.65

4.18

17.4724

73.035

6

0.76

4.20

17.6400

74.088

7

0.40

4.23

17.8929

75.687

8

0.45

4.27

18.2329

77.854 79.507

9

0.39

4.30

18.4900

10

0.30

4.41

19.4481

85.766

11

0.20

4.45

19.8025

88.121

12

0.24

4.50

20.2500

91.125

13

0.10

4.58

20.9764

96.072

14

0.13

4.68

21.9024

102.503

15

0.07

4.70

22.0900

103.823

16

0.04

4.77

22.7529

108.531

Analysis of Variance Table Source DF SS Regression 2 1.78578

22.397

Residual Error

13

0.11322

MS 0.89289

| 433

F 102.53

P 0.000

0.00871

Total 15 1.89900 Resultados ajustando un modelo cúbico. Cubic Regression Analysis: (Y) versus (X), XSQR, XSCUBE The regression equation is: (Y) 5 248 – 158(X) 1 33.6 XSQR – 2.40 XCUBE Predictor Coef SE Coef T P Constant 247.9 206.4 1.20 0.253 (X) −157.9 141.6 −1.11 0.287 XSQ 33.64 32.35 1.04 0.319 XCUBE −2.397 2.459 −0.97 0.349 s 5 0.09350 R2Sq 5 94.5% R2Sq(adj) 5 93.1% PRESS 5 0.172799 R2Sq(pred) 5 90.90%

Resultados ajustando un modelo cuadrático. Quadratic Regression Analysis: (Y) versus (X), XSQR

Analysis of Variance Table DF SS MS F P Regression 3 1.79409 0.59803 68.41 0.000 Residual Error 12 0.10491 0.00874 Total 15 1.89900 9.17 En un estudio de ingeniería automotriz, se dan los siguientes datos relacionados con la manufactura de chumaceras para vehículos. Sin embargo, se sospecha que ciertas mediciones no están dentro del rango permitido, posiblemente debido a fallas de los operadores o tal vez de la maquinaria.

The regression equation is: (Y) 5 46.9 – 19.9 (X) 1 2.12 XSQ Predictor Coef SE Coef T P Constant 46.907 9.432 4.97 0.000 (X) 219.909 4.310 24.62 0.000 XSQ 2.1161 0.4911 4.31 0.001 s 5 0.09332 R2Sq 5 94.0% R2Sq(adj) 5 93.1% PRESS 5 0.173201 R2Sq(pred) 5 90.88%

Tabla 9.22. Datos del problema 9.17. Mediciones

2.75

3.00

3.50

3.85

1.00

4.30

3.93

4.21

4.30

4.33

4.00

4.20

2.75

3.65

2.70

3.00

2.00

No. muestra

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

Hacer los siguientes cálculos: a) Hacer una gráfica de mediciones en función del número de muestra con línea de regresión suponiendo un modelo cuadrático. b) Determinar el valor del cuarto inferior y del cuarto superior. c) Hacer una gráfica de caja y determinar visualmente algún valor atípico extremo. d) Calcular un modelo de regresión que incluya todos los datos con los valores extremos. e) Calcular otro modelo de regresión que excluya los valores atípicos extremos identificados en la gráfica. f) De acuerdo con los diagnósticos estadísticos y diagnósticos gráficos de residuales, determinar cuál de los dos modelos es superior. 9.18 En la tabla 9.23 se presentan datos relacionados con las concentraciones de monóxido de carbono (CO) emitidas por motores de combustión interna. Sin embargo, se argumenta

que el aparato analizador que muestreaba el CO pudo haber tenido fallas durante el muestreo de CO debido a que se notaron valores fuera de lo normal. Para verificar si en verdad hubo valores atípicos en las concentraciones de CO, se requiere saber cuáles fueron los valores extremos. Para tales fines usar diagramas de caja que identifiquen valores inusuales extremos. Para esto se da la tabla 9.23. Hacer los siguientes cálculos: a) Hacer un diagrama de dispersión. b) Hacer una gráfica con un diagrama de caja e identificar los valores atípicos extremos de CO. c) Correr una estadística descriptiva y analizar todos los resultados incluyendo la prueba de normalidad de Anderson-Darling. d) Eliminar los valores atípicos extremos y hacer un diagrama de dispersión con los valores inusuales extremos que se eliminaron.

Tabla 9.23. Valores de las concentraciones de monóxido de carbono (ppm).

Concentración de CO Número de muestra

20 57 60 65 75 80 90 90 95 95 97 99 99 100 103 105 120 125 160 1

2

3

4

5

6

7

8

9

10 11 12 13

14

15

16

17

18

19

434

| Estadística para ingeniería y ciencias

e) Correr una estadística descriptiva y comparar los resultados obtenidos en el inciso que incluyó los valores atípicos. f) De acuerdo con los resultados obtenidos con la inclusión de los datos originales y la exclusión de los valores extremos, ¿hubo alguna mejoría significativaen la uniformidad de los datos? 9.19 Éste es un problema relacionado con la solubilidad del oxígeno, en milimoles por litro (mM/L), en función de la temperatura (oC). La disminución de la solubilidad de oxígeno en el agua, a medida que la temperatura del agua aumenta, es uno de los efectos de la llamada contaminación termal (producida por enfriamiento de calderas en procesos industriales o plantas eléctricas, y cuya agua caliente es arrojada a los lagos o ríos). Este efecto de contaminación termal es una situación seria en vasos profundos de agua, porque el agua caliente es menos densa que el agua fría. Por tanto el agua caliente tiende a permanecer arriba de la fría, es decir, en la superficie. Esta situación impide la disolución del oxígeno a aguas más profundas, lo que ocasiona el sofocamiento de la respiración de la vida acuática que necesita del oxígeno disuelto. Todo esto sin mencionar el efecto en el metabolismo (que el agua caliente lo acelera) de la fauna marina. Especulativamente, el calentamiento global pudiera estar causando efectos similares en aguas marinas, ríos, lagos, etc. De cualquier manera, este problema está relacionado con la solubilidad del oxígeno (moles/l, con una presión constante de 760 mm Hg), en función de la temperatura. Tabla 9.24. Información del problema 9.19. Solubilidad del O2 (mM) Temperatura (oC)

0.95

45.0

1.00

40.0

1.07

35.0

1.15

30.0

1.25

25.0

1.37

20.0

1.50

15.0

1.65

10.0

Hacer los siguientes cálculos a) Identificar tanto la variable dependiente como la independiente y hacer un diagrama esparcido. b) Hacer una transformación logarítmica (base e) en la ordenada. c) Hacer una gráfica con los valores transformados y estimar la ecuación de regresión que mejor ajuste los datos, esto es, con intervalos de confianza e intervalos de predicción. d) Predecir la solubilidad del oxígeno en mM/L cuando la temperatura es de 122 oF. 9.20 El texto de química Chemistry: The Central Science de Brown et al. (2000), discute la fase gaseosa de la descomposición promedio de NO2, la cual está dada por: NO2(gas) → NO(gas) 1 1/2 O2(gas) a) Decir si la reacción es de primero o segundo orden con respecto a la concentración de NO2. b) Después, ratificar la decisión hecha usando técnicas de regresión evaluadas por estadísticos objetivistas y complementadas por medio de gráficos subjetivistas. c) Además, calcular el valor de la constante de la reacción k (pendiente). Los valores se dan en la tabla 9.25.

Tabla 9.25. Datos promedio del problema 9.20 Tiempo (s)

[NO2] (M)

0.0

0.1000

5.0

0.0170

10.0

0.0090

15.0

0.0062

20.0

0.0047

Fuente: Chemistry: The Central Science. Brown et al. (2000). PrenticeHall, Upper Saddle River, New Jersey. Eight edition.

9.21 En un estudio de microbiología ambiental se proporcionan los siguientes datos provenientes de un experimento para evaluar la desinfección de un almacenamiento de agua, con una dosis de cloro dada para aniquilar las bacterias coliformes. Usando el programa Minitab o cualquier otro programa de computadora, correr un análisis de regresión estadístico y hacer lo siguiente: a) Identificar la variable dependiente y la variable independiente. b) Decir el orden de la reacción de estos datos. c) ¿Qué tan bien encajan los datos en el modelo de regresión? Para esto, usar un criterio objetivista y uno subjetivista para justificar la aserción. d) Calcular la tasa de la reacción. e) Calcular la vida media de las bacterias. f) Predecir el tiempo que se llevaría aniquilar el 50% de las bacterias coliformes. Tabla 9.26. Datos promedio del problema 9.21. Tiempo (min)

Porcentaje de coliformes que van quedando

� 0

100.0

�� 10

70.0

�� 20

21.0

�� 30

6.3

�� 60

0.6

�� 70

0.2

9.22 Éste es un ejercicio adaptado del texto de Mongomery, Peck y Vining, intitulado Introducción al análisis de regresión lineal (2001), el cual da un estudio relacionado con la ingeniería química y mecánica en la cual se necesita conocer la presión de vapor de agua a diversas temperaturas; para esto se pueden usar las “infames” tablas de vapor. Los datos de la presión de vapor y del agua a diversas temperaturas se dan en la tabla 9.27. Tabla 9.27. Datos del problema 9.22. y 5 presión de vapor de agua (mm Hg)

x 5 Temperatura (°C)

9.2

10

17.5

20

31.8

30

55.3

40

92.5

50

149.4

60

Fuente: I ntroducción al análisis de regresión lineal. Montgomery et al. (2002). Grupo Patria Cultural, S.A. de C.V. México, D.F.

Capítulo 9 Regresión no lineal a) Hacer un diagrama esparcido con los datos de la tabla 9.27. b) Correr un modelo de regresión sin ninguna transformación de los ejes, es decir, con los datos originales. Analizar los diagnósticos estadísticos y gráficos de los residuales. c) Correr un modelo de regresión transformando logarítmicamente la ordenada. Analizar los diagnósticos estadísticos y gráficos de los residuales. d) Correr un modelo de regresión transformando los ejes usando el recíproco de la variable dependiente e independiente. Analizar los diagnósticos estadísticos y gráficos. e) Decir cuál de los modelos es superior y justificar la aserción. f) Usando el modelo seleccionado, predecir la presión del vapor de agua, cuando la temperatura es de 39 oF. 9.23 Éste es un ejemplo relacionado con la ingeniería de difusión atmosférica de una planta siderúrgica, la cual emite óxidos de azufre a la atmósfera. Las características de la chimenea son las siguientes: la altura física es de 120.0 metros, la velocidad del flujo de salida es de 15.0 m/s, el diámetro promedio de la chimenea es de 1.0 metro, la presión atmosférica es de 2 000 pascales y la temperatura del flujo del gas es de 60 oC. Las características meteorológicas al hacer las estimaciones son: intensidad del viento de 3.0 m/s con una temperatura ambiental de 25 oC. Suponer una pluma flotante de Briggs y una estabilidad atmosférica de clase F (muy estable). A ciertas distancias viento debajo de la fuente emisora, como las señaladas en la tabla de datos, se coleccionaron varias muestras y se estimaron los promedios de los valores de campo y los teóricos. La tabla 9.28 da los datos teóricos y los promedios aritméticos de los datos de campo, esto es, de las concentraciones de azufre. Hacer lo siguiente. a) Una gráfica sobrepuesta con los promedios de los valores de campo de las concentraciones de azufre y los valores teóricos o esperados en función de las distancias de la planta siderúrgica. b) Una correlación estadística entre los valores de campo y los valores teóricos. c) Calcular la concentración de SO2 a una distancia de 10 metros del centro de la pluma. d) Desde el punto de vista de la ingeniería del aire, si se quisieran reducir las emisiones de SO2 hacia la atmósfera, es decir, para diluir las concentraciones de los contaminantes, mencionar cuatro factores físicos relevantes a la chimenea, que se tuvieran que modificar. Nota: P ara la descripción de los parámetros de una chimenea como los enlistados en este ejemplo, consultar el texto de Bruce Turner intitulado Workbook of Atmospheric Dispersion Estimates (1970).

Valores observados (g/m3)

Valores teóricos (g/m3)

625

1420.000

1410.0000

650

1400.000

1356.6

675

800.000

750.5

6100

54.000

52.9

6150

0.255

0.237

6200

0.0003

0.00012

9.24 Para una tasa de crecimiento bacteriano con promedio de μ 5 1.0 hora−1 (base de logaritmos naturales), ¿qué masa de microorganismos (en mg) estarían presentes después de dos horas, si una concentración de 150 mg de microorganismos estuviera presente originalmente? Sugerencia: suponer una reacción de primer orden, dx/dt 5 μx, donde x es el número total de microorganismos presentes. 9.25 En un estudio hipotético de contaminación atmosférica, se usó un modelo de dispersión atmosférica y se obtuvieron los valores teóricos correspondientes de las concentraciones de SO2 y sus correspondientes valores promedio de campo. Sin embargo, para calibrar la precisión del modelo y del diseño del experimento, se tomaron muestras físicas en cada uno de las distancias dadas por el modelo experimental. La tabla 9.29 da los resultados. Realizar lo siguiente: a) Hacer una tabla con los logaritmos de las concentraciones esperadas, los logaritmos de las concentraciones observadas y los logaritmos de las distancias. b) Ajustar un modelo de regresión lineal y evaluar su utilidad en términos de diagnósticos estadísticos objetivistas y diagnósticos gráficos. c) Ajustar un modelo con transformaciones logarítmicas y evaluar su utilidad en términos de diagnósticos estadísticos y diagnósticos gráficos. d) ¿Cuál de los dos modelos encaja mejor en los datos? e) Si hubiere discrepancias entre los dos juegos de valores dar una explicación al respecto usando una lógica a posteriori de ingeniería de contaminación atmosférica. Tabla 9.29. Valores teóricos y observados. Concentración de SO2 en g/m3 (valores esperados del modelo)

Tabla 9.28. D atos promedio de campo versus las distancias para el ejercicio 9.23. Distancias (metros)

| 435

Concentración de SO2 en g/m3 (valores observados del modelo)

0.013

0.0900

2.700

3.5000

31.800

33.000

95.600

92.0000

199.000

195.000

269.000

280.000

23.700

30.000

9.440

8.000

4.170

7.400

2.350

2.500

1.660

1.050

Problemas de tarea

Revisa tu CD-ROM para encontrar más problemas:

Bibliografía B Anderson, D. R., Sweeney, Dennis J. (Williams) Thomas A. Estadística para Administración y Economía. SouthWestern Publishing, vol. 1, séptima edición, México, 1999. Bennett, C. A., Norman L. Franklin. Statistical Analysis in Chemistry and the Chemical Industry. John Wiley & Sons, Inc., Nueva York, 1961. Bland, M. An Introduction to Medical Statistics., Oxford University Press Inc., second edicion, Nueva York, 1995. Brace, C. H., Corrinne Pellillo Brase. Understanding Statistics. Concepts and Methods, D. C. Heath and Company, Nueva York, 1995. Brown L. Theodore, H. Eugene Le May, Jr., Bruce E. Bursten. Chemistry. The Central Science. Prentice Hall, Upper Saddle River, eight edition, Nueva Jersey, 2000. Daniel, W. W., James C. Terrell. Business Statistics. Houghton Mifflin Company, Nueva York, 1989. D. Bruce Turner. Workbook of Atmospheric Dispersion Estimates. Air Resources Field Research Office, Environmental Science Services Administration. Environmental Protection Agency. Office of Air Programs. Research Triangle Park, North Carolina, 1970. Devore, J. L. Probabilidad y estadística para ingeniería y ciencias. Thomson Learning, quinta edición, México, 2001. Devore, J. L. Probability and Statistics for Engineering and the Sciences. Duxbury, Brooks/Cole, fifth edition, Nueva York, 2000. Dunn, O. J., Virginia A. Clark. Applied Statistics: Analysis of Variance and Regression. John Wiley and Sons, Nueva York, 1974. Dunn, O. J. Basic Statistics: A Primer for the Biomedical Sciences. John Wiley & Sons, Nueva York, 1977. Fisher, P. M., Stephen Gasiorawicz, Stephen T. Thornton. Física para ciencias e ingeniería, Prentice-Hall Hispanoamericana, vol. 1, México, 1993. Freund, J.E. Statistics. A First Course. Prentice Hall, Inc., Englewood Cliffs, second edition, Nueva Jersey, 1976. Gilbert, R. O. Statistical Methods for Environmental Pollution. Van Nostrandf Reinhold Company Inc., USA, 1987. Goldber, S. Probability. An Introduction. Prentince Hall Inc., Englewood Cliffs, Nueva Jersey, 1960. Godrey C. Onwubolu. Mechatronics. Principles and applications. Elsevier Butterworth-Heinemann, USA, 2005. Harbold, Harry, S. Sanitary Engineering. Problems and Calculations for the Professional Engineer. Engineering Press, Inc., San José, California, 1989. Hamburg, M. Statistical Analysis for Decision Making. Harcourt Brace Jovanovich, Publishers, Academic Press, fifth edition, Nueva York, 1989. Herber A., Colton Raymond R. Statistical Methods. Barnes and Noble, Inc., fourth edition, Nueva York, 1966. Hann, C. T. Statistical Methods in Hydrology. The Iowa State University Press/Ames, Nueva York, 1977. Hines, W. W., Douglas C. Montgomery, Goldsman David M., Borror Connie M. Probabilidad y estadística para ingeniería. Grupo Patria Cultural, México, 2005.

Bibliografía

| B-437

Jerome, C. R. Li. Statistical Inference. Edwards Brothers, Inc., Michigan, 1964. Johnson. A. R. Probabilidad y estadística para ingenieros de Miller and Freund. Prentice-Hall Hispanoamericana, quinta edición, México, 1997. Jones, E., Richard Childers. Física contemporánea. McGraw-Hill Interamericana Editores, tercera edición, México, 2001. Keller, G., Brian Warrock, Henry Bartel. Statistics for Management and Economics: a Systematic Approach Wardsworth Publishing Company, second edition, Belmont, California, 1990. Kutner, M. H., Chistopher J. Nachtsheim, John Neter, Willliam Li. Applied Linear Statistical Models. McGrawHill International, fifth edition, Nueva York, 2005. Lapin, L. L. Statistics for Modern Business Decisions. Harcourt Brace Javanovich, Inc., Nueva York, 1981. Manly, B. F. J. Statistics for Environmental Science and Management. Chapman & Hall/CRC, Boca Raton, 2001. McClave, J. T., George Benson. Statistics for Business and Economics. Dellen Publishing Company, second edition, San Francisco y Santa Clara, California, 1982. Metcalfe, A. V. Statistics in Civil Engineering. Arnold. Copublished in North, Central and South America by John Wiley & Sons Inc., Nueva York, 1997. Montgomery, D. C., George C. Runger. Probabilidad y estadística aplicadas a la ingeniería, McGraw-Hill Interamericana Editores, México, 1996. Montgomery, D. C., Elizabeth A. Peck, G. Geoffrey Vining. Introducción al análisis lineal. Grupo Patria Cultural, México, 2002. Moore, D. S, George P. Mccabe. Introduction to the Practice of Statistics. W. H. Freeman and Company, Nueva York, 1993. Myers, W., Raymond H. Myers. Probabilidad y estadística. McGraw-Hill Interamericana Editores, cuarta edición, México, 1992. Neter, J., Michael H. Kutner, Christopher J. Nachtsheim, William Wasserman. Applied Linear Regression Models. Irwin, third edition, Illinois, 1996. Pfaffenberger, R. C., James H. Patterson. Statistical Methods for Business and Economics. Irwin, Illinois, 1987. Sawyer, N.C., Perry L. Mccarty. Chemistry for Sanitary Engineers. McGraw-Hill, second edition, Nueva York, 1967. Smith, G. Statistical Reasoning. Allyn And Bacon, Inc., Boston, 1985. Spiegel, M. R. Schaum’s Outline of Theory and Problems of Statistics. Schaum Publishing Company, Nueva York, 1961. Standard Methods for the Examination of Water and Wastewater. Prepared And Published Jointly by: American Public Health Association, American Water Works Association and Water Pollution Control Federation. American Public Health Association, 1015 Eighteenth Street, N.W., Washington, D.C. 20036, 1971. Triola, M. F. Elementary Statistics. Addison-Wesley Publishing Company, Inc., sixth edition, Nueva York, 1995. Turner, D. Bruce. Workbook of Atmosferic Dispersion Estimates. Environmental Protection Agency. Office of Air Programs, Research Triangle Park, North Carolina, 1970. Walpole, E. R., Raymond H. Myers. Probability and Statistics for Engineers and Scientists. Prentice Hall, Inc., fifth edition, Nueva York, 1993. Walpole, E. R., Ronald H. Myers, Sharon L. Myers. Probabilidad y estadística para ingenieros. Prentice Hall Hispanoamericana, sexta edición, México, 1998. Yamane, T. Statistics, an Introductory Analysis. Harper & Row, Publishers, Inc., Nueva York, 1964.

Índice analítico A Análisis de estadísticos como R2, s, criterio Cp y PRESS, 399 de gráficos para diagnosticar colinealidad, 400 de regresión, violaciones a las suposiciones del, 427 gráfico (subjetivo), 400 Análisis de varianza (ANOVA), 321 análisis subjetivos (gráficos) de los residuales para revisar por la adecuación del modelo de, 324 clasificaciones cruzadas, 338 de diseño de bloques completamente aleatorizados, 333 de diseños factoriales de tres clasificaciones, interacción con, 347 de dos clasificaciones usando el programa Minitab, problemas de, 343 de tres clasificaciones con efectos fijos, uso del programa para resolver, 349 de tres sentidos: diseño completamente aleatorizado (efectos fijos), 346 de una clasificación, uso del programa Minitab para resolver problemas de, 331 diseños completamente aleatorizados, 322 en dos sentidos, 338 interacción con dos factores, 338 propiedades y suposiciones en el, 322 simple, 322 suposiciones del modelo de bloques aleatorios completos, 335 Autocorrelación (valores de ε fijos), 400 Autocorrelación en datos de serie de tiempo, 422 C Cálculo de distribuciones continuas usando el programa Minitab, 200 de probabilidades normales, 173 Cálculo de los valores de la función de densidad y de distribución normal, 200 de distribución acumulada, exponencial, 202 gamma, 204 lognormal, 205 Weibull, 207 Campana de Gauss, 170 Clase(s) de punto intermedio, 14 límites de, 13 marcas de, 14 Coeficiente de correlación poblacional, 365 ρ estimado por R, 370 R, cálculo manual del, 365 Coeficiente de determinación poblacional, 365 R2, cálculo del, 399 R2, cálculo manual del, 365

Combinaciones, 56 Complemento de un evento, 42 Conjunto vacío, 40 Consistencia, 219 Correlación lineal simple, ejemplos de problemas usando regresión y, 370 tipos de, 366 Covarianza, 89, 154 de variables aleatorias, 154 Cramér-Rao, teorema de, 216 Criterio Cp, 399 PRESS, 399 Cuadrados latinos, 336 Cuartiles, 8 Curva característica operativa (curva OC), 260 D Datos cualitativos, 3 cuantitativos, 3 de intervalo, 3 de razón, 3 nominales, 3 ordinales, 3 Densidad condicional y variables aleatorias independientes, 150 Densidad, función de, 77, 144, 145 binomial negativa y binomial, relación de la, 116 condicional, 82 conjunta y marginal, 80, 148 de una variable aleatoria, propiedades de la, 145 marginal, 81 propiedades de la, de una variable aleatoria, 77 Dependencia, 338 casi lineal entre las variables de regresión, 400 Desviación estándar, 12 Diagrama(s) de árbol, 51 de cajas, 21 con Minitab, 32 de dispersión, 367 de tallo-hoja, 18 con Minitab, 33 de Venn, 41 esparcidos, 364, 397 Diferencia de dos medias en poblaciones que no están normalmente distribuidas, 245 Distribución de Bernoulli usando Minitab, 249 de frecuencia, 12 derivada de la normal, 192 exponencial, 161 F, 196 gaussiana, 170 ji-cuadrada, 192 lognormal, 189

I

t de Student, 194 uniforme continua, 159 Weibull, 168 Distribución acumulada, función de, 77 Bernoulli, 94 binomial, 96 binomial negativa, 113 conjunta, 148 de una variable aleatoria, propiedades de la, 144 gamma, cálculo de los valores de la, 204 geométrica, 119 lognormal, cálculo de los valores de la, 205 Poisson, ejemplos de la, 134 propiedades de la, de una variable aleatoria, 78 uniforme discreta, 93 Weibull, cálculo de los valores de la, 207 Distribución binomial cálculo de la, negativa usando Excel, 117 usando Excel, 100 usando Minitab, 102 mediante la distribución Poisson, aproximación de la, 131 Distribución, función de de los estimadores de µ y σ2, 231 de variables aleatorias continuas, 143 Distribución gamma, 163, 165 estándar, 166 Distribución hipergeométrica, 120 cálculo de la, usando Excel, 123 cálculo de la, usando Minitab, 124 y binomial, relación entre, 122 Distribución normal, 170 como aproximación de la distribución binomial, 186 inversa, cálculos con la, 177 Distribución Poisson, 127 cálculo de la, usando Excel, 131 usando Minitab, instrucciones para la, 132 E Ecuaciones normales para calcular el intercepto, 364 Eficiencia, 216 Error tipo I, 261 tipo II, 261 Espacios muestrales, 39 equiprobables, 48 Esperanza matemática, 85 de una variable aleatoria continua, 151 Estadística clasificación de la, 2 de Durbin-Watson, 362, 398 de prueba, 259, 261 descriptiva, 1 definición de, 2 instrucciones para el uso de Excel en, 25 instrucciones para el uso de Minitab en, 31

Índice analítico inferencial, definición de, 2 Estimación, 213 de la media, de la normal con σ conocida, 227 y la varianza de la normal, ambas desconocidas, 228 de la varianza de la normal con µ conocida, 227 de parámetros, 3 por intervalos, 230 puntual, 214 Estimador, 214 Estimadores de la media y la varianza de la normal, propiedades de los, 228 de máxima verosimilitud, de los parámetros de la distribución normal, 227 propiedades de los, 226 propiedades de los, 215 Evento, 40 elemental o simple, 40 imposible, 40 independiente, 65 seguro, 40 Excel cálculo de la distribución binomial negativa usando, 117 cálculo de la distribución binomial usando, 100 cálculo de la distribución hipergeométrica usando, 123 cálculo de la distribución Poisson usando, 131 cálculo de las funciones de distribución acumuladas continuas usando, 197 en estadística descriptiva, instrucciones para el uso de, 25 gráficas con, 29 medidas de tendencia central y de dispersión con, 27 para pruebas de hipótesis de la media de la normal, 307 para resolver problemas de diseños aleatorizados de bloques completos, 336 tabla de frecuencias con, 28 Experimento, definición de, 39 F Factor de corrección por discrecionalidad, 186 Factorización de Neyman-Fisher, 221 Frecuencia absoluta, 13 acumulada, 16 distribuciones de, 12 polígonos de, 20 relativa, 15 Función gamma, 163 de densidad, 164 Función generatriz de momentos, 92, 158 G Grados de libertad, 192, 193 Gráfica(s) de frecuencia relativa acumulada (ojivas) usando el Minitab, 34 de residuos versus valores ajustados de Y, 400 Minitab para el diseño de, 29 Gráficos de probabilidad normal, 304

H Heteroscedasticidad, 363, 427 prueba de, 400 prueba de White para el problema de, 426 Hipótesis estadística, 257 pruebas de, 3 Hipótesis alternativas, 257 H1: α Z α0, H2: α > α0 y H3: α > α0, 368 H1: α > 0 y H2: α < 0, 369 H1: β < 1 y H2: β > 2, 368 H1: β > 0 y H2:β < 0, 369 Hipótesis nula, 257 H0: α = α0, 368, 369 H0: β = 0, 369 H0: β = β0, 368 Histograma, 19, 29 de residuos, 400 Homoscedasticidad, 363, 425 prueba de, 400 I Insesgamiento, 215 Intercepto de la ordenada de la línea de regresión, 367 Intersección de dos eventos, 41 Intervalo(s), 144 datos de, 3 de clase, 13 reglas para seleccionar los, 14 tamaño de, 14 estimación por, 230 Intervalo(s) de confianza de los parámetros de la normal usando Minitab, 249 para el coeficiente poblacional β componente de la línea de regresión, 367 para el parámetro de la distribución Bernoulli, 247 para el parámetro poblacional α, 367 para la diferencia de dos medias, 237 para la diferencia de proporciones p1 – p2, 248 para la diferencia entre dos proporciones (ρ1 – ρ2), 252 para la media de datos pareados µ0 = µ1 – µ2, 243 para la proporción poblacional ρ (muestras grandes), 251 para los parámetros de la normal, 231 para µ, 232 para µ con σ conocida, 249 para µ con σ desconocida, 250 para µ1 – µ2 con varianzas iguales y desconocidas, 250 para µηx de la línea poblacional estimada por Y, 368 para p, 247 para σ2, la varianza, 245 para una media, 245 J Jerome, C. R. Li., 244, 264 Ji-cuadrada (χ2) distribución, 192 prueba, 297 L Lema de Newman Pearson, 270, 281 Ley(es)

| I-439

asociativa, 44 complementarias, 44 con la misma potencia, 44 conmutativa, 44 de Morgan, 44 distributiva, 44 idénticas, 44 Límites de clases, 13 Línea de regresión cálculos manualmente, 364 µηx = α + βX, cuyo estimador es a, 367 µηx = α + βX, estimado por b, 367 M Media aritmética, 4 armónica (MA), 8 de variables no normales, prueba para la, 290 geométrica, 7 prueba de diferencia de, 286 prueba para la, 281 y varianza con datos agrupados, 24 y varianza, relación de la, 99 Mediana, 5 Medidas de tendencia central o de localización, 4 de variabilidad o dispersión, 9 Método(s) de Bayes, 223 de comparaciones múltiples, 329 de los mínimos cuadrados, 360 de máxima verosimilitud, 223 gráficos, 18 Minitab cálculo de distribuciones continuas usando el programa, 200 cálculo de la distribución binomial usando, 102 cálculos de la distribución hipergeométrica usando, 124 con σ desconocida, instrucciones usando, 310 diagrama de tallo-hoja con, 33 diagramas de caja con, 32 distribución de Bernoulli usando, 249 en estadística descriptiva, instrucciones para el uso de, 31 gráficas de frecuencia relativa acumulada (ojivas) usando el, 34 instrucciones para la distribución Poisson usando, 132 intervalos de confianza de los parámetros de la normal, 249 para el diseño de gráficas, 29 para pruebas de hipótesis de la media de la normal, 307 Moda, 6 Modelo(s) de regresión aplicación de análisis gráficos subjetivos para la evaluación del, 363 aplicación de análisis objetivos estadísticos para la evaluación del, 361 evaluación de la utilidad de los, 398 lineal, suposiciones del, 360 múltiple con más de dos variables independientes, 378 múltiple generalizado, 378 polinomial paramétrico o poblacional, 394 probabilísticos, transformaciones a las

I-440

| Estadística para ingeniería y ciencias

variable de los, 427 usados, resumen de los, 401 Modelo(s) de segundo orden (cuadrático) con interacción, 396 Modelo(s) polinomial con tres variables independientes con interacción, 397 con tres variables independientes sin interacción, 397 de regresión, interacción en, 396 de segundo orden (k = 2) con una variable independiente, 394 de segundo orden o cuadrático, 398 de tercer orden (k = 3) con una variable independiente, 395 evaluación de la utilidad del, 399 Momentos, función generatriz de, 92, 158 Muestra aleatoria, 214, 261 definición de, 3 grande, 245 Multicolinealidad diagnóstico de, 416 severa, medidas para corregir, 418 N Nivel de significancia, 259 Notación factorial, 54 O Orden, momento de, 158 Ordenada a y pendiente b de la curva, 364 Outliers, 416 P Parámetros, estimación de, 3 Pares ordenados, regla del producto para, 50 Pendiente de la línea, 367 Permutaciones, 53 Población(es) cuáles son iguales y cuáles desiguales, 329 definición de, 2 finita, 3 infinita, 3 Polígonos de frecuencia, 20 Probabilidad condicional, 60 introducción a la, 38 introducción axiomática de la, 46 Prueba(s) de bondad de ajuste, 257, 296 de diferencia de medias, 286 de diferencia de medias para observaciones pareadas, 288 de estadística para comparar la suma de los cuadrados del error (SSE) de cada modelo probado, 404 de heteroscedasticidad, 400 de homoscedasticidad, 400 de independencia, 400 de normalidad, 400 de Kolmogorov-Smirnov, 309

de White para el problema de heteroscedasticidad, 426 ji-cuadrada (χ2), 297 para la varianza, 291 potencia de la, 259 tipos de, 279 uniformemente más potentes, 270 Prueba(s) de hipótesis, 3, 256 H0:ρ = 0 contra hipótesis alternativas H1: ρ * 0, 370 la idea de hacer, 264 muestras grandes, 294 muestras pequeñas, 293 no tradicionales, 265 para µ con Minitab, 307 con σ conocida, 307 para diferencia de medias con Excel, 312 para la diferencia de dos proporciones p1 – p2, 295 para los parámetros de la normal, 281 para µ1 – µ2 con Minitab, 311 sobre el parámetro de Bernoulli, 293 sobre la igualdad de dos varianzas, 292 sobre parámetros, 257 sobre una proporción, 293 Prueba(s) de Kolmogorov-Smirnov (K-S), 303 propiedades de la, 304 Prueba(s) para la media, 281 de variables no normales, 290 R Rango (R), 9 intercuartílico (RI), 10 Razón, datos de, 3 Región crítica, 259, 261 Regla de multiplicación más general, 50 del producto para pares ordenados, 50 Regresión cuadrática con el programa Minitab, cálculos y aplicaciones de, 409 múltiple usando el programa Minitab, cálculos y aplicaciones de, 380 no lineal, 393 y correlación lineal múltiple, 377 Regresión lineal simple, 360 usando el programa Minitab, cálculos y aplicaciones de, 379 y múltiple, 359 Robustez, 222 S Simetría, 23 Suficiencia, 220 Suma de los cuadrados del error (SSE), prueba estadística para comparar la, 404 T Tablas y gráficas de funciones de probabilidad, ejemplos de uso de, 198 Técnicas de conteo, 50 Teorema

de Bayes, 62 del límite central, 182 U Valor(es) atípicos extremos, procedimientos para la identificación de, 416 esperado de una variable aleatoria, 151 extremos, procedimientos para identificar, 418 inusuales extremos, identificación y consecuencias, 428 n y p, 99 Valor(es) de la probabilidad p interpretación matemática de los, 266 mecanismos para calcular los, 265 metodología para calcular los, por medio de fórmulas empíricas, 266 Valor(es) de p en la toma de decisiones, 265 fórmula empírica para hacer interpolaciones y calcular el, 267 Variabilidad o dispersión, medidas de, 9 Variable(s) clasificación de, 3 continuas, 4 de regresión, correlación o dependencia casi lineal entre las, 400 discretas, 4 hipergeométrica, 120 tipo de datos, 3 Variable(s) aleatoria Bernoulli, 95 binomial, 96 cálculo de probabilidades de una, 79 continua, 144 esperanza matemática de una, 151 probabilidad de una, 144 definición de, 76 discreta, 76 esperanza matemática de una, 84 funciones de distribución de, 75 geométrica, 119 independiente, 82 densidad condicional y, 150 mediana de una, 84 Poisson, algunos procesos que se describen con, 129 probabilidad de una, 77 rango o recorrido de una, 77 uniforme continua, 159 valor esperado de una, 85 varianza de una, 87, 152 Varianza(s), 11 con datos agrupados, media y, 24 de una variable aleatoria, 152 desconocidas y desiguales, 242 prueba de hipótesis sobre la igualdad de dos, 292 prueba para la, 291

La estadística estudia los métodos cientíﬁcos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. Murray R. Spiegel, (1991)

La estadística constituye una herramienta de gran utilidad para los ingenieros en la toma de decisiones; con base en esta idea, los autores desarrollaron un texto que proporciona a los alumnos los fundamentos de la estadística y las matemáticas necesarias, con el ﬁn de que puedan aplicarlos a diferentes situaciones de la vida cotidiana de la industria y la empresa. El libro cuenta con una gran variedad de ejemplos y problemas con variadas aplicaciones estadísticas a la ingeniería ambiental, civil, mecánica, mecatrónica, así como a las ciencias de la salud y a la economía, entre otras. Las principales características del texto son: Se incluye una breve introducción al inicio de cada capítulo, en donde el lector podrá descubrir diferentes aplicaciones reales de la estadística. De forma detallada, se presentan las deﬁniciones de los principales conceptos y teoremas. Se utilizan los programas Excel y Minitab como herramientas para la solución de problemas. Se presentan más de 900 problemas con su solución respectiva. El libro está acompañado de un CD-ROM, el cual contiene más problemas y prácticas que el alumno puede seleccionar para preparar sus exámenes, así como otros apoyos que le serán de gran utilidad.

ISBN 978-970-817-232-5