907 89 4MB
Spanish; Castilian Pages 388 [408]
Quinta edición
ESTADÍSTICA
BÁSICA APLICADA
Ciro Martínez Bencardino
E S TA D Í S T I C A BÁSICA APLICADA CIRO MARTÍNEZ BENCARDINO
Q U I N TA E D I C I Ó N
Catalogación en la publicación - Biblioteca Nacional de Colombia Martínez Bencardino, Ciro Estadística básica aplicada / Ciro Martínez Bencardino. -- 5a. ed. -- Bogotá : Ecoe Ediciones, 2019. 388 p. -- (Ciencias básicas. Estadística) “Formas del uso de la calculadora dependiendo su modelo. Aplicaciones en Excel para agilizar los procesos de cálculo y presentación de los datos. Ejemplos de fácil aplicación y ejercicios para resolver y facilitar el aprendizaje de la estadística. Solucionario a los ejercicios propuestos y un apéndice que contiene las tablas estadísticas más usuales.” -- Incluye datos biográficos del autor. -- Contiene bibliografía. ISBN 978-958-771-747-1 -- 978-958-771-748-8 (e-book) 1. Estadística matemática 2. Estadística - Problemas, ejercicios, etc. 3. Muestreo (Estadística) I. Título II. Serie CDD: 519.53 ed. 23 CO-BoBN– a1038183 Colección: Ciencias básicas Área: Estadística
▶ Ciro Martínez Bencardino © Ecoe Ediciones Limitada. e-mail: [email protected] www.ecoeediciones.com Carrera 19 # 63C 32, Tel.: 248 14 49 Bogotá, Colombia
Primera edición: Bogotá, enero de 2000 Segunda edición: Bogotá, marzo de 2001 Tercera edición: Bogotá, mayo de 2007 Cuarta edición: Bogotá, 2012 Quinta edición: Bogotá, marzo de 2019 ISBN: 978-958-771-747-1 e-ISBN: 978-958-771-748-8 Dirección editorial: Angélica García Reyes Diagramación: Wilson Marulanda Muñoz Carátula: Wilson Marulanda Muñoz Impresión: Xpress Estudio Gráfico y digital Carrera 69 H # 77 - 40
Prohibida la reproducción total o parcial por cualquier medio sin la autorización escrita del titular de los derechos patrimoniales. Impreso y hecho en Colombia - Todos los derechos reservados
Con cariño lo dedico a mis padres, esposa hijos y nietos.
TABLA DE CONTENIDO Prólogo .................................................................................................................... XV Capítulo 1. Generalidades ..................................................................................... 1 Objetivos..................................................................................................................... 1 Contenido.................................................................................................................... 1 Introducción................................................................................................................ 1 Algunos conceptos necesarios.................................................................................... 2 Finalidad de la estadística........................................................................................... 5 Colectivos investigados por la estadística................................................................... 7 Resumen de capítulo .................................................................................................. 8 Términos para recordar............................................................................................... 9 Ejercicios propuestos.................................................................................................. 9 Cuestionario de evaluación......................................................................................... 10 Capítulo 2. Investigación estadística ..................................................................... 13 Objetivos..................................................................................................................... 13 Contenido.................................................................................................................... 13 Clases de investigación............................................................................................... 13 Etapas de una investigación........................................................................................ 14 Planeamiento............................................................................................................... 14 Objetivos de la investigación...................................................................................... 15 Unidad de investigación.............................................................................................. 15 Clase de estudio.......................................................................................................... 15 Examen de la documentación y metodología............................................................. 16 Método de observación............................................................................................... 16 Muestreo..................................................................................................................... 16 Muestreo probabilístico.............................................................................................. 16 Muestreo no probabilístico......................................................................................... 18 Proceso de recolección................................................................................................ 18 Preparación del presupuesto....................................................................................... 19 Calendario de trabajo.................................................................................................. 20 Preparación del cuestionario....................................................................................... 21
VIII
Estadística básica aplicada Selección y preparación del personal.......................................................................... 23 Preparación y actualización de listas de informantes................................................. 24 Otros aspectos ............................................................................................................ 25 Recolección................................................................................................................. 25 Procesamiento de análisis........................................................................................... 26 Codificación.......................................................................................................... 26 Tabulación............................................................................................................. 26 Análisis e interpretación........................................................................................ 27 Informe.................................................................................................................. 27 Publicación............................................................................................................ 29 Resumen del capítulo.................................................................................................. 29 Términos para recordar............................................................................................... 30 Ejercicios propuestos.................................................................................................. 31 Capítulo 3. Sumatorias y productorias ................................................................. 33 Sumatoria simple........................................................................................................ 33 Propiedades de la sumatoria........................................................................................ 35 Fórmulas especiales sobre sumatorias........................................................................ 36 Productoria.................................................................................................................. 36 Propiedades de la productoria..................................................................................... 37 Resumen del capitulo.................................................................................................. 37 Ejercicios propuestos.................................................................................................. 38 Capítulo 4. Elaboración de tablas o cuadros ........................................................ 39 Objetivos..................................................................................................................... 39 Contenido.................................................................................................................... 39 Caracteres.................................................................................................................... 39 Técnica empleada en la elaboración de un cuadro...................................................... 42 Distribuciones de frecuencias..................................................................................... 45 Atributos..................................................................................................................... 45 Variables...................................................................................................................... 46 Variable continua........................................................................................................ 51 Ejercicios..................................................................................................................... 56 Propiedades de las frecuencias.................................................................................... 58 Resumen del capítulo.................................................................................................. 59 Términos para recordar............................................................................................... 59 Ejercicios propuestos.................................................................................................. 59 Cuestionario de evaluación......................................................................................... 62 Capítulo 5. Elaboración de gráficas ...................................................................... 65 Objetivos..................................................................................................................... 65 Contenido.................................................................................................................... 65 Introducción................................................................................................................ 65 Reglas para la elaboración de gráficas........................................................................ 66 Tipos de gráficas......................................................................................................... 66 Diagrama de frecuencias............................................................................................. 67
Tabla de contenido Histograma de frecuencias.......................................................................................... 68 Polígono de frecuencias.............................................................................................. 71 Ojiva............................................................................................................................ 71 Pictograma.................................................................................................................. 72 Cartograma.................................................................................................................. 74 Diagramas de barras.................................................................................................... 75 Diagrama circular........................................................................................................ 77 Diagramas lineales...................................................................................................... 79 Cuadrados y triángulos............................................................................................... 81 Gráfica de Gantt.......................................................................................................... 83 Pirámides..................................................................................................................... 84 Otras gráficas.............................................................................................................. 84 Resumen del capítulo.................................................................................................. 85 Términos para recordar............................................................................................... 85 Ejercicios propuestos.................................................................................................. 85 Cuestionario de evaluación......................................................................................... 86 Capítulo 6. Medidas de tendencia central ............................................................. 89 Objetivos..................................................................................................................... 89 Contenido.................................................................................................................... 89 Introducción................................................................................................................ 89 Medidas de posición................................................................................................... 90 Media aritmética......................................................................................................... 90 Media aritmética (simple)........................................................................................... 91 Media aritmética ponderada........................................................................................ 93 Métodos indirectos...................................................................................................... 100 Propiedades de la media.............................................................................................. 101 Mediana (Me).............................................................................................................. 107 Datos no agrupados..................................................................................................... 108 Datos agrupados.......................................................................................................... 109 Variable discreta.......................................................................................................... 109 Variable continua........................................................................................................ 110 La moda (Md).............................................................................................................. 111 Aplicación de estadística en la herramienta Excel...................................................... 113 Operaciones en la hoja de cálculo............................................................................... 113 Presentación del cuadro o tabla decodificada............................................................. 115 Elaboración de tablas de frecuencia............................................................................ 117 Elaboración de una tabla de frecuencias relativas...................................................... 123 Representación gráfica................................................................................................ 125 Procedimiento para obtener resultados en la aplicación de medidas.......................... 128 Resumen del capítulo.................................................................................................. 129 Términos para recordar............................................................................................... 130 Ejercicios propuestos.................................................................................................. 132 Cuestionario de evaluación......................................................................................... 135
IX
X
Estadística básica aplicada Capítulo 7. Medidas de tendencia central (continuación) ................................... 137 Media cuadrática (M2)................................................................................................ 137 Media geométrica (Mg)............................................................................................... 139 Media armónica (M−1)................................................................................................. 142 Cuartiles, deciles y percentiles.................................................................................... 147 Cuartiles...................................................................................................................... 147 Datos sin agrupar........................................................................................................ 147 Datos agrupados.......................................................................................................... 147 Deciles......................................................................................................................... 148 Datos sin agrupar........................................................................................................ 148 Datos agrupados.......................................................................................................... 149 Centil o percentil......................................................................................................... 149 Datos sin agrupar........................................................................................................ 149 Datos agrupados.......................................................................................................... 150 Tercer cuartil (Q3)....................................................................................................... 150 Cuarto decil (D4)......................................................................................................... 151 Percentil sesenta (P60).................................................................................................. 151 Centro recorrido.......................................................................................................... 151 Aplicación de la estadística utilizando la calculadora................................................ 152 Aplicación de estadística en la herramienta Excel...................................................... 155 Primer procedimiento ................................................................................................. 155 Segundo procedimiento.............................................................................................. 160 Media aritmética......................................................................................................... 160 Mediana (Me).............................................................................................................. 162 Modo = Moda = Valor modal (Md)............................................................................. 163 Media geométrica (Mg = Mo)...................................................................................... 164 Media aritmética ponderada........................................................................................ 164 Resumen del capítulo.................................................................................................. 165 Términos para recordar............................................................................................... 166 Ejercicios propuestos.................................................................................................. 168 Capítulo 8. Medidas de dispersión, asimetría y apuntamiento ........................... 171 Objetivos..................................................................................................................... 171 Contenido.................................................................................................................... 171 Medidas de dispersión................................................................................................. 171 La Oscilación.............................................................................................................. 172 Varianza (S2)............................................................................................................... 173 Otro método de cálculo............................................................................................... 174 Métodos abreviados.................................................................................................... 175 Propiedades de la varianza.......................................................................................... 178 Desviación típica o estándar (S)................................................................................. 180 Uso de la calculadora.................................................................................................. 184 Aplicación de estadística en la herramienta Excel...................................................... 184 Desviación típica estándar s = σ................................................................................. 185 Coeficiente de variación (CV).................................................................................... 186 Puntaje típico estandarizado (Z)................................................................................. 187
Tabla de contenido Desviación media (Da)............................................................................................... 189 Desviación mediana (De)............................................................................................ 191 Recorrido intercuartílico, desviación cuartil y recorrido interdecil............................ 193 Coeficiente de desviación media (CDa)...................................................................... 195 Momentos unidimensionales...................................................................................... 196 Momentos respecto a la variable................................................................................. 196 Momento respecto a la media aritmética.................................................................... 196 Momento respecto a un origen de trabajo................................................................... 196 Asimetría..................................................................................................................... 198 Apuntamiento o curtosis............................................................................................. 200 Resumen del capítulo.................................................................................................. 201 Términos para recordar............................................................................................... 201 Ejercicios propuestos.................................................................................................. 203 Ejercicios de evaluación............................................................................................. 206 Capítulo 9. Regresión y correlación ..................................................................... 209 Objetivos..................................................................................................................... 209 Contenido.................................................................................................................... 209 Introducción................................................................................................................ 209 Regresión.................................................................................................................... 213 Regresión rectilínea simple......................................................................................... 213 Procedimiento abreviado del cálculo.......................................................................... 216 Cálculo del error estándar de estimación.................................................................... 217 Coeficiente de correlación........................................................................................... 219 Cálculo de la regresión de X en función de Y (utilizando la calculadora).................. 220 Cálculo mediante el uso de la calculadora.................................................................. 223 Regresión rectilínea ponderada................................................................................... 234 Coeficiente de correlación por pagos.......................................................................... 238 Resumen del capítulo.................................................................................................. 239 Términos para recordar............................................................................................... 240 Ejercicios propuestos.................................................................................................. 242 Cuestionario de evaluación......................................................................................... 244 Capítulo 10. Series cronológicas ............................................................................ 247 Objetivos..................................................................................................................... 247 Contenidos.................................................................................................................. 247 Introducción................................................................................................................ 247 Tendencia.................................................................................................................... 249 Ajuste rectilíneo.......................................................................................................... 249 Método de los mínimos cuadrados............................................................................. 254 Varianza residual y error estándar............................................................................... 259 Coeficiente de correlación........................................................................................... 260 Aplicación de estadística en la herramienta Excel...................................................... 264 Ajuste parabólico........................................................................................................ 267 Ajuste exponencial...................................................................................................... 272 Otro procedimiento..................................................................................................... 276
XI
XII
Estadística básica aplicada Resumen del capítulo.................................................................................................. 277 Términos para recordar............................................................................................... 278 Ejercicios propuestos.................................................................................................. 280 Cuestionario de evaluación......................................................................................... 282 Capítulo 11. Números índices ................................................................................. 285 Objetivos..................................................................................................................... 285 Contenido.................................................................................................................... 285 Introducción................................................................................................................ 285 Índices simples............................................................................................................ 286 Índices eslabonados.................................................................................................... 289 Índices agregativos simples........................................................................................ 290 Índices compuestos..................................................................................................... 292 Exámenes de fórmulas................................................................................................ 295 Índice de valor............................................................................................................. 296 Empalme de una serie................................................................................................. 297 Uso de los números índices......................................................................................... 298 Cálculo del salario y del ingreso real.......................................................................... 298 Poder de compra......................................................................................................... 300 Porcentaje de Desvalorización.................................................................................... 300 Porcentaje de Devaluación.......................................................................................... 301 Índice de producción y de productividad.................................................................... 302 Índice relación de precios de intercambio (IRPI)....................................................... 303 Proporciones, porcentajes, razones y tasas................................................................. 305 Resumen del capítulo.................................................................................................. 309 Términos para recordar............................................................................................... 309 Ejercicios propuestos.................................................................................................. 310 Cuestionario de evaluación......................................................................................... 313 Capítulo 12. Inferencia estadística ........................................................................ 317 Objetivos..................................................................................................................... 317 Contenido.................................................................................................................... 317 Elementos del cálculo de probabilidades.................................................................... 317 Probabilidad elemental................................................................................................ 317 Algunos conceptos básicos......................................................................................... 318 Probabilidad................................................................................................................ 319 Permutaciones, variaciones y combinaciones............................................................. 320 Leyes o reglas de probabilidad................................................................................... 321 Distribuciones de probabilidad................................................................................... 328 Distribución binomial................................................................................................. 329 Distribución normal.................................................................................................... 332 Límites de confianza................................................................................................... 334 Pruebas de hipótesis.................................................................................................... 337 Distribución de Ji cuadrado x2.................................................................................... 340
Tabla de contenido Capítulo 13. Aplicación de algunas técnicas de muestreo ................................... 343 Generalidades.............................................................................................................. 343 Determinación del tamaño de la muestra (MAS)....................................................... 346 Método de muestreo aleatorio..................................................................................... 348 Muestreo aleatorio estratificado (M.A.E.).................................................................. 350 Diseño de muestreo..................................................................................................... 352 Aplicación en el muestreo aleatorio simple................................................................ 354 Aplicación del muestreo aleatorio estratificado.......................................................... 356 Estimador puntual y por intervalos............................................................................. 360 Aplicación en el Muestreo Aleatorio Simple (M.A.S.)............................................... 360 Aplicación en el muestreo aleatorio estratificado....................................................... 363 Respuestas a los ejercicios propuestos y algunos cuestionarios de evaluación .. 367 Apéndice Tabla I Tabla II Tabla III Tabla IV Tabla V
Números al azar........................................................................................ 379 De una distribución normal ordinaria....................................................... 382 Distribución “t” de Student .................................................................... 383 Exponencial y logaritmos......................................................................... 384 Distribución de Ji cuadrado ( χ 2 ).............................................................. 385
Índice temático ........................................................................................................ 387 Bibliografía .............................................................................................................. 389
XIII
Prólogo La estadística es una disciplina aplicada en todos los campos de la actividad humana, proporciona metodologías para evaluar las diferencias entre la realidad y la teoría. Es un método científico que intenta sacar conclusiones a partir de las observaciones que hacemos, ocupándose de la presentación, recolección, agrupación, análisis e interpretación de datos; de ahí que se tenga como asignatura indispensable en casi todos los programas, desde niveles medio vocacional hasta posgrado. Hoy en día, el empleo de esta disciplina en el mundo de los negocios es considerado de gran importancia, ya que suministra los mejores instrumentos de investigación, no solo en cuanto a observación y recopilación de diferentes materiales informativos dentro de la organización o fuera de ella, sino también en el control de ciertas actividades de producción, ventas, proyecciones o estimaciones a corto, mediano y largo plazo; a su vez, es herramienta primordial en la formulación de hipótesis y en el análisis de procesos encaminados a facilitar la toma de decisiones por parte de los encargados de la buena marcha de la empresa. Esta quinta edición, actualizada y revisada, desarrolla en los primeros once capítulos temas de Estadística Descriptiva: preparación de una investigación; elaboración de cuadros y gráficas; promedios (media aritmética, mediana, moda, media cuadrática, geométrica y armónica); medidas de dispersión (varianza, desviación típica, coeficiente de variación, puntaje típico); regresión y correlación; series cronológicas; números índices e indicadores económicos. En un lenguaje claro y sencillo, los capítulos doce y trece presentan una síntesis de inferencia estadística, con temas de gran importancia (probabilidad, distribución normal, distribución de medias muestrales y límites de confianza, prueba de hipótesis, distribución «t» de Student y, por último, la distribución Ji-cuadrado) y la aplicación de algunas técnicas de muestreo, todo ello, con ejemplos de fácil comprensión y ejercicios para resolver.
Estadística básica aplicada
XVI
Como novedad se incluye un gran número de ejercicios con el fin de ayudar a los lectores en el aprendizaje, se presentan algunas formas del uso de la calculadora, dependiendo de su modelo y finalmente, se muestran algunas aplicaciones de Excel para obtener mayor agilización en los procesos de cálculo y presentación de datos. El libro es fundamental para todas aquellas personas que tengan algún interés por la estadística aplicada en el campo comercial, contabilidad, finanzas y actividades similares. Al final del texto aparece el solucionario a los ejercicios propuestos y un apéndice que contiene aquellas tablas estadísticas más usuales, que el lector deberá aprender a manejar para desarrollar los ejercicios propuestos y aquellos que se presenten en la vida práctica.
El autor
Capítulo 1 GENERALIDADES
OBJETIVOS
••
Identificar y explicar cada uno de los términos estadísticos, básicos en el desarrollo del curso. Entender e identificar la finalidad y campos de aplicación de la estadística. Reconocer algunos aspectos que deben tener los datos para que sean tratados por la estadística.
•• ••
CONTENIDO
•• •• •• ••
Introducción. Algunos conceptos necesarios. Finalidad de la estadística. Colectivos investigados por la estadística.
INTRODUCCIÓN
Se puede decir, en términos generales, que la estadística se aplica dentro de la organización de una empresa, en las siguientes áreas: • Producción. En la producción de un artículo en grandes cantidades se hace necesario detectar y eliminar alteraciones sistemáticas de la calidad, para ello se aplican métodos de control. En los estudios de tiempo y movimiento, encaminados a obtener una mayor productividad, y en la aplicación de nuevos métodos de producción o en el lanzamiento de nuevos productos. • Finanzas. En la estimación de la magnitud que tomará cierto aspecto en algún punto futuro de tiempo (corto, mediano o largo plazo), en los controles presupuestarios y en el planteamiento de ciertas actividades de carácter financiero. • Contabilidad. De gran importancia en la auditoría, ya que mediante la aplicación de ciertos métodos se seleccionan algunas facturas, cuentas o documentos de cobro, sin recurrir a la totalidad y con base en el examen de ellas, se pueden obtener conclusiones sobre la situación actual de cartera.
2
Estadística básica aplicada •• Personal. El control sobre el número de horas laboradas, tiempo dejado de laborar, accidentes de trabajo, clasificación del personal (por antigüedad, sueldo, estudios, etc), son informaciones de carácter estadístico necesarias en una empresa, para efectos de una buena y sana política laboral. •• Mercados. Las encuestas estadísticas son indispensables para determinar la reacción de los consumidores frente a los actuales productos de la empresa y para el lanzamiento de los nuevos. ALGUNOS CONCEPTOS NECESARIOS
Estadística (en singular). Se refiere a un conjunto de métodos, normas, reglas, y principios para observar, agrupar, describir, cuantificar y analizar el comportamiento de un grupo. En un principio se consideraba que la función de la estadística era la descripción de las características de grupo, actividad que la hacía confundir con el papel que cumple la historia de observar y describir el hecho. En su origen, las estadísticas eran históricas; hoy la estadística, además de ser descriptiva, es analítica, considerándose esta última como la función más importante, ya que permite obtener conclusiones para un grupo mayor, denominado población, partiendo de una investigación realizada en un grupo menor, denominado muestra, cuyos elementos se seleccionan aleatoriamente o al azar. La estadística descriptiva o deductiva tiene como finalidad colocar en evidencia aspectos característicos (promedios, variabilidad de los datos, etc.), que sirven para efectuar comparaciones sin pretender sacar conclusiones de tipo más general. Esta descripción se realiza a través de la elaboración de cuadros, gráficos, cálculo de promedios, varianzas, proporciones y mediante el análisis de regresión. La estadística analítica o inductiva busca dar explicaciones al comportamiento de un conjunto de observaciones, probar la significación o validez de los resultados; intenta descubrir las causas que las originan, con gran aplicación en el campo del muestreo, lográndose de esta manera conclusiones que se extienden más allá de las muestras estadísticas mismas. Uno de los principales objetivos de la Estadística es hacer inferencias acerca de los valores estadísticos de la población, denominados parámetros a través de la información obtenida en una muestra. La estadística, de acuerdo con todo lo anterior, se podría definir como aquel método que permite no sólo describir el hecho o fenómeno, sino deducir y evaluar conclusiones acerca de una población, utilizando resultados proporcionados por una muestra. Población. Es un conjunto de medidas o el recuento de todos los elementos que presentan una característica común. El término población se usa para denotar el conjunto de elementos del cual se extrae la muestra.
Capítulo 1. Generalidades Lo ideal sería que el número de elementos o unidades de observación que constituyen la muestra, denominada también población por muestrear o población muestreada, fuera igual al contenido en la población o población objetivo. Pero como no ocurre así, las conclusiones obtenidas en la muestra pueden ser extendidas a la población, considerándolas válidas, garantizadas estadísticamente mediante la indicación de la validez del proceso. Los elementos que integran la población o la muestra pueden corresponder a personas, objetos o cosas. Además, el elemento puede ser una entidad simple (una persona) o una entidad compleja (una familia), y se denomina unidad investigada. Es importante resaltar el hecho de que a pesar de encontrarse una población constituida por un grupo de elementos, a la estadística no le interesa el elemento en sí, sino sus características. Los siguientes son ejemplos de lo que podría denominarse elementos de una población y características de la misma:
ELEMENTOS
Personas Personas Personas Departamentos Hogar
CARACTERÍSTICAS
Salarios Horas trabajadas Cargos Ventas Consumo
Marco: Se denomina marco, marco muestral o marco de referencia a la lista, mapa o cualquier otro material aceptable, que contenga todas las unidades perfectamente identificadas y actualizadas, del cual se selecciona la muestra. Según sea el tamaño, la población puede considerarse como finita o infinita. Es población finita cuando el número de elementos que la componen es limitado; infinita cuando consta de infinitos elementos. Sin embargo, algunas veces, en una población finita con un número grande de elementos, el comportamiento en el cálculo del tamaño de la muestra resulta igual al de una población infinita, ya que existe un tamaño muestral óptimo tal que, a partir de ese momento, no se altera, por más que aumente el tamaño poblacional. Características (o caracteres). Corresponden a ciertos rasgos, cualidades o propiedades de los elementos que constituyen la población o la muestra. Algunos caracteres son mensurables y se describen numéricamente, por tal motivo se denominan caracteres cuantitativos o variables, (estatura, peso, ingreso, valor, producción, ventas, etc.). Otros se expresan mediante palabras por no ser mensurables pero sí cuantificadas, (profesión, cargo, marcas, calidad, etc.), y se denominan caracteres cualitativos o atributos. Muestra. Se define como un conjunto de medidas o el recuento de una parte de los elementos pertenecientes a la población. Los elementos se seleccionan aleatoriamente, es
3
4
Estadística básica aplicada decir, todos los elementos que componen la población tienen la misma posibilidad de ser seleccionados. Para que una muestra sea representativa de la población se requiere que las unidades sean seleccionadas al azar, ya sea utilizando el sorteo, tablas de números aleatorios, selección sistemática o cualquier otro método al azar. Una muestra no probabilística corresponde a la selección de las unidades o elementos, según criterio o conveniencia del investigador. En estos casos, algunas unidades tienen mayor posibilidad que otras de ser seleccionadas, no se puede determinar, entonces, la validez, ni la confianza de dichos resultados. En general, las unidades se seleccionan en forma caprichosa, voluntaria, por cuotas, tal como sucede en las encuestas de opinión que, en la mayoría de los casos, no tienen credibilidad alguna, de ahí que se le conozca como muestra circunstancial o errática. Estadístico. Es la persona que trabaja en la elaboración y análisis de estadísticas. En nuestro medio se ha hecho común el uso del término estadígrafo para significar la persona que trabaja con estadísticas, cuando en realidad dicho término significa medida. Estadísticas (en plural). Se refiere a un ordenamiento sistemático de datos presentados en forma de cuadros y gráficas. En otras palabras, las estadísticas son datos agrupados metódicamente y consignados en publicaciones elaboradas por entidades, buscando que sean conocidas por los interesados. Estadísticas primarias. Son aquellos datos obtenidos ya sea por encuestas directas, mediante la utilización de cuestionarios, o como resultado de la observación directa; esta última es una técnica muy utilizada en estudios de carácter científico o en investigaciones de mercados. Se puede decir también, que son datos publicados por quien recoge directamente la fuente de información primaria. Estadísticas secundarias. En éstas, los datos se obtienen de publicaciones, las cuales pueden ser reproducciones totales o parciales. Son fuentes valiosas, utilizadas en cualquier tipo de investigación. Estadísticas temporales. Denominadas series de tiempo o series cronológicas. Son las obtenidas y ordenadas en forma cronológica, resultado de investigaciones u observaciones periódicas: días, meses, años. Cuando las investigaciones son aisladas, es decir, no presentan periodicidad continuada, las estadísticas se llaman atemporales. Clases de estadísticas. Se clasifican de acuerdo con el tema o materia de estudio; así, por ejemplo, los organismos estatales de estadística elaboran diversas clases de estadísticas: industriales, agropecuarias, de construcciones, de transporte, de comunicaciones, comercio exterior, moneda y finanzas, precios y salarios, comercio exterior, sector público, empleo y laborales, demográficas, salubridad, justicia y educación.
Capítulo 1. Generalidades En una empresa, los datos se originan en los registros internos, producción, ventas, salarios y otros. Las estadísticas externas son registros originados fuera de la empresa, por ejemplo: precios de la competencia, opinión de los consumidores respecto al producto, etc. Parámetros. Son todas aquellas medidas que describen numéricamente la característica de una población. También se les denomina valor verdadero, ya que una característica poblacional tendrá un solo parámetro (media, varianza, etc.). Sin embargo, una población puede tener varias características y, por tanto, varios parámetros. Estimadores. La descripción numérica de una característica correspondiente a la muestra, se denomina estimador o estadígrafo. De una población se puede obtener M número de muestras posibles y en cada una de ellas se puede cuantificar la característica, obteniéndose, por lo general, valores diferentes para cada muestra, a pesar de ser utilizado el mismo estimador o medida. También se conoce como estimador puntual si se trata de un promedio, varianza, proporción, etc. Como por lo general, existe una diferencia entre el estimador y el parámetro, denominado error, es aconsejable utilizar el estimador por intervalos, dentro del cual deberá estar el parámetro con cierto margen de seguridad. FINALIDAD DE LA ESTADÍSTICA
En términos generales, se considera que la finalidad de la estadística es suministrar información, y su utilidad dependerá, en gran parte, del fin que se proponga y de la forma como se obtengan los datos. La creciente especialización ha obligado a la utilización continua de métodos estadísticos; es así como, en la producción masiva, el control de calidad, mediante la inspección minuciosa de artículo por artículo, es casi imposible de realizar. Cuando el producto deba ser sometido a cierto control sobre dureza, resistencia, duración, que implique su destrucción, es indispensable la aplicación de técnicas de muestreo, para, por una parte, reducir el número de elementos destruidos y, por otra, obtener conclusiones que se puedan hacer extensivas al total de los elementos producidos. Otros aspectos que requieran de la aplicación de dicha técnica son, entre otros, las investigaciones realizadas por una empresa que desea conocer los cambios, ya sea en los gastos o en el gusto de los consumidores; las situaciones que se puedan presentar en la demanda; el exceso de existencias; la capacidad de compra de un grupo familiar, etc. Pero, precisando sobre algunos aspectos para los cuales la estadística tiene alguna importancia, se podrán mencionar los siguientes: • Conocer la realidad de una observación o fenómeno. Al cuantificar un fenómeno estamos conociendo su situación actual; es así como al tener información diaria, semanal o mensual, sobre la producción de un artículo, se sabrá si se está cumpliendo con lo programado o, por el contrario, estamos por debajo o por encima de nuestra programación, lo cual afectará los inventarios, las ventas, las existencias de materia
5
6
Estadística básica aplicada prima, etc. Se podrá determinar el total de la producción nacional de un artículo en un momento determinado; además, sabremos si el volumen de producción satisface la demanda interna o si, por el contrario, hay necesidad de recurrir a las importaciones para cubrir el déficit. También se puede determinar el excedente de producción que se requiere para mantener los precios internos de mercado. • Determinar lo típico o normal de esa observación. Cuando se cuantifica la característica de un fenómeno, se obtiene un valor denominado promedio, siendo ésta la forma de referirnos al grupo, cuantificando así su comportamiento. Si decimos que el promedio de unidades vendidas de un artículo A, en 20 almacenes, en el mes de marzo fue de 1.200 unidades, es una forma de determinar el comportamiento del grupo; pero con este valor típico o normal del conjunto no se quiere decir que los 20 almacenes vendieron la misma cantidad; posiblemente algunos más, otros menos, pero el promedio fue de 1.200. • Determinar los cambios que representa el fenómeno. Cualquier fenómeno de carácter estadístico presenta variaciones a través del tiempo, pero requiere una observación continua para poder determinar la magnitud del cambio. La demanda, producción, ventas, precios, son fenómenos que constantemente registran cambios que deben ser tenidos en cuenta por la administración de una empresa. • Relacionar dos o más fenómenos. Desde el punto de vista de correlación, se puede determinar si existe una relación válida entre dos o más características de una misma observación, o entre dos o más fenómenos. Tal es el caso de la relación de ingresos y gastos para un grupo de familias o la relación entre las unidades producidas, vendidas y el precio. • Determinar las causas que originan el fenómeno. Los cambios que se observan en un fenómeno pueden tener una o varias causas de origen. El aumento de las exportaciones de un artículo puede ser causado por un mejoramiento del precio en el mercado externo, por un volumen de producción superior a la demanda interna o por otras causas que producen variaciones en el comportamiento del fenómeno. • Hacer estimativos sobre el comportamiento futuro del fenómeno. En numerosas ocasiones se requiere proyectar, para estimar el comportamiento futuro de un fenómeno. La proyección a dos o tres años de la población de una región sirve para determinar el mercado potencial del producto, es decir, el conocimiento, aunque sean estimativos, de la demanda en los años próximos. • Obtener conclusiones de un grupo menor (muestra), para hacerlas extensivas a un grupo mayor (población). Al realizar mediciones en una muestra, cuyo tamaño debe ser el óptimo deseado, los resultados obtenidos pueden ser considerados como el comportamiento que se obtendría si se hubiera trabajado con todos los elementos que constituyen la población, de la cual se extrajo la muestra.
Capítulo 1. Generalidades • Además, de lo anterior, la estadística facilita una serie de instrumentos o técnicas que, al ser utilizadas correctamente, permiten determinar el grado de validez y confiabilidad, ya sea de las predicciones o de las conclusiones obtenidas a partir de muestras. COLECTIVOS INVESTIGADOS POR LA ESTADÍSTICA
La conformación de un grupo o colectivo alrededor de cierta característica, o características, que permite ser investigada en cuanto a su comportamiento, se denomina fenómeno. Los fenómenos pueden ser de carácter económico, social, político, u otros, considerando como tales al conjunto de observaciones que poseen ciertas características ya sea, de las exportaciones, importaciones, ventas, producción, defunciones, nacimientos, accidentes laborales, etc. Los fenómenos de carácter estadístico deben reunir ciertos requisitos, como manifestarse al exterior para poder ser observados, lo cual se logra mediante registros. Ejemplos: las nóminas de pago, donde quedan consignados el número de empleados, las categorías, sueldos, y otras tantas características que podrían ser observadas; los manifiestos de aduana, en donde se registran, tanto las importaciones como las exportaciones; las licencias de construcción concedidas; los registros de nacimientos, defunciones, escrituras de venta, hipotecas, etc. Además las características de esos fenómenos deben ser cuantificables de tal forma que permitan determinar la intensidad con que se producen. Un ejemplo clarifica mejor lo anterior: si consideramos las exportaciones de café realizadas por las diferentes firmas exportadoras en un período determinado, encontramos que se trata de un fenómeno que se manifiesta al exterior y se puede observar en registros de exportación, y por otra parte, se cuantifica el número y valor de las remesas realizadas; además se podrá obtener la intensidad o sea la cantidad de sacos o kilos correspondiente a cada remesa o al total exportado en dicho período. De acuerdo con las anteriores condiciones que requiere un fenómeno estadístico, podemos resumirlas, como requisitos indispensables para ser considerados dentro del campo de estudio de la estadística: • Colectivos. La estadística estudia el comportamiento de los fenómenos de grupo, prescindiendo de aquellos fenómenos individuales que pueden ser considerados como resultado de casos aislados. Si bien es cierto que para estudiar el colectivo se requiere información individualizada, las conclusiones que se obtienen de la investigación no se refieren a cada elemento individualmente, sino al conjunto de los elementos considerados como grupo. • Frecuente repetición. Aquellos fenómenos que se presentan una vez y no vuelven a repetirse en las mismas condiciones, no son estudiados por la estadística. Por el contrario, se requiere que el fenómeno sea de frecuente repetición. Tal es el caso de las transacciones comerciales, inventarios, accidentes de trabajo, etc.
7
8
Estadística básica aplicada • Distinta frecuencia. Si observamos las ventas realizadas por un almacén, encontramos que se trata de un fenómeno de frecuente repetición, ya que de lunes a domingo se repite dicha operación, pero el valor de esas ventas varía de un día a otro, de semana a semana o de mes a mes, dependiendo del período examinado. Si el fenómeno tiene la misma frecuencia, no requerirá de la estadística, basta su registro una sola vez y se tendrá igual información en cada período. • Manifestarse al exterior. El contrabando, el cultivo y comercio de la marihuana, las transacciones de dólares en el mercado negro, son fenómenos que diariamente suceden pero no son registrados. Por lo tanto, se dice que no se manifiestan al exterior para ser observados estadísticamente. • Distantes en el tiempo. Las ventas en cierta cantidad de artículos estacionales, tales como pólvora, juguetes, artículos de celebración del día de la secretaria, de primera comunión o la recolección de un determinado producto agrícola, son fenómenos que no se suceden todos los días. Por el contrario, se producen en una determinada época o fecha y debe esperarse cierto tiempo para que se presente nuevamente ese fenómeno. • Distantes en el espacio. El pago de cheques por el Banco del Estado, es un fenómeno que podemos observar en diferentes sitios, en las sucursales que tiene en una ciudad, en todo el departamento o en todo el país. Las exportaciones e importaciones que se realizan por los diferentes puertos del país. Son ejemplos que muestran al fenómeno originado en diferentes sitios, sin ser indispensable que se presente en un solo lugar. • Cualitativos que pueden cuantificarse. Algunas características cualitativas investigadas, requieren ser cuantificadas para que sean consideradas dentro del campo estadístico. Sin embargo no todas son cuantificables, tales como: el grado de religiosidad, la moral y tantas otras que por tal razón quedan fuera de la acción estadística. Aquellos fenómenos accidentales, tanto en el tiempo como en el espacio, no son propios de la investigación estadística.
RESUMEN DEL CAPÍTULO
Existe una diferencia entre los términos estadística y estadísticas; la primera se refiere a la técnica de recolección, procesamiento y análisis del dato; la segunda, corresponde al ordenamiento sistemático de la información en forma de cuadros y gráficas. La estadística cumple dos funciones: a) la de análisis descriptivo en forma cuantitativa de las características observadas en el fenómeno, y b) la inferencia estadística o inducción, lográndose generalizaciones para un grupo mayor denominado población, partiendo de un grupo menor o muestra. Se da una serie de términos estadísticos que deben conocerse para un buen desarrollo del curso de estadística, entre otros: población, muestra, variables y atributos.
Capítulo 1. Generalidades
9
Se considera que la finalidad de la estadística básica es suministrar información que permita: a) tener una visión general de la empresa en su conjunto, para que la administración pueda formular directrices con pleno conocimiento de causa; b) descubrir las relaciones de causa a efecto en las diversas manifestaciones económicas de la empresa; c) reconocer y separar, en vista del control, lo normal y anormal, observando las fluctuaciones internas ligadas estrechamente con las condiciones externas, para obtener una mayor orientación a la actividad de la empresa. Por último, se establecen las condiciones que deben presentar los fenómenos para que sean considerados o estudiados dentro del campo de la estadística. Términos para recordar Atributos Características Características cualitativas Característica cuantitativas Elemento o unidad Error Estimador Estimador puntual Estimador por intervalos Estadísticas temporales Estadísticas internas Estadística
Estadísticas externas Estadísticas Estadígrafo Estadístico Estadística descriptiva Estadística analítica Estadísticas primarias Estadísticas secundarias Fenómeno o hecho Inferencia Marco Muestra
Muestra probabilística Muestra aleatoria Parámetro Población infinita Población finita Población o universo Sorteo Selección sistemática Variable
Ejercicios propuestos 1. ¿Cuáles son los nuevos términos aprendidos en este capítulo?
5. ¿Por qué es útil la estadística en la actividad para la cual se está preparando?
2. ¿Qué significado tiene cada uno de los términos recordados?
6. Dar como mínimo tres ejemplos de fenómenos económicos, considerados dentro del campo de la investigación estadística.
3. Ilustrar con ejemplos lo que se entiende por población, población finita, muestra, característica, variable. 4. Mediante ejemplos explicar la diferencia entre la estadística descriptiva y la estadística inductiva.
7. Dar tres ejemplos de fenómenos que no son considerados dentro del campo de la estadística. 8. “La estadística estudia el comportamiento de fenómenos colectivos y nunca de una
Estadística básica aplicada
10
observación individual”. Comentar este principio. 9. Señalar el literal que más concuerde con cada una de las siguientes aseveraciones: 9.1 Una buena muestra industrial debe ser: a) Pequeña. b) Grande. c) Representativa de la población objetivo. d) Incluir sólo los establecimientos grandes. e) Incluir sólo los establecimientos pequeños. 9.2 La clasificación de los establecimientos dedicados al comercio al detal o al por menor se hace teniendo en cuenta:
a) Su función b) El valor de las ventas c) El valor de la producción d) El valor del trabajo realizado.
9.3 Una población infinita es aquella en donde: a) El número de elementos está completamente delimitado. b) El número de elementos pasa de 1.000 c) El número de elementos está escondido d) El número de elementos no está delimitado. 10. Contestar verdadero o falso, según el caso: a) La palabra población significa en la metodología estadística lo mismo que en cualquier otra disciplina. b) La teoría estadística es de naturaleza general y puede aplicarse en cualquier campo.
c) A las medidas que se obtienen en una muestra se les da el nombre de parámetros, mientras que a las obtenidas en una población se les denomina estimadores. d) Se conoce como fuente primaria aquella información que se obtuvo inicialmente, es decir, directamente de la persona, empresa o entidad investigada. e) Una muestra aleatoria es aquella en la cual ciertos elementos tienen mayor posibilidad que otros de ser seleccionados.
Cuestionario de evaluación 1. Un ejemplo de característica cualitativa puede tener datos sobre: a. salarios b. pulsaciones por minuto c. gasto mensual en alimentación d. ocupación e. temperatura 2. Una muestra es aleatoria cuando las unidades se seleccionan: a. en forma caprichosa b. por conveniencia c. a través de un censo d. en forma repetitiva e. de tal manera que todas tengan la misma posibilidad 3. Por población o universo se entiende: a. Un recuento de unidades b. un conjunto de seres humanos c. un conjunto de datos d. un conjunto de medidas o el recuento de todas las unidades que tienen una característica común. e. ninguna de las anteriores
Capítulo 1. Generalidades 4. Cualquier medida aplicada a la característica de las unidades en la población se denomina: a. parámetro d. variable b. estimador e. población c. estadístico 5. Dentro de los hechos o fenómenos que no caen dentro del campo de la estadística están: a. los de frecuente repetición b. los de distinta frecuencia c. los colectivos d. los individuales e. los cualitativos que pueden cuantificarse
6. La estadística descriptiva tiene como objetivo: a. Probar la significación de los resultados b. Ser herramienta indispensable en el muestreo c. Descubrir las causas que originan el hecho d. lograr conclusiones más allá de las muestras e. efectuar comparaciones sin sacar conclusiones de tipo más general.
11
Capítulo 2 INVESTIGACIÓN ESTADÍSTICA OBJETIVOS
•• •• ••
Desarrollar capacidad para realizar pequeñas investigaciones. Identificar las etapas que sugiere una investigación. Manejar y utilizar las diferentes técnicas de investigación.
CONTENIDO
•• ••
Clases de investigación. Etapas en una investigación: Planeación, Recolección, Procesamiento y Análisis. CLASES DE INVESTIGACIÓN
La investigación estadística, por sencilla que sea, es una operación compleja, que requiere atender múltiples aspectos, y que genera muy variadas funciones. El resultado depende en gran parte de la finalidad que se persiga, de la naturaleza de los fenómenos que se desean estudiar y de la facilidad que se tenga para observar los elementos. Investigación interna. Dentro de la misma empresa se originan una serie de fenómenos, tales como datos registrados por el departamento de contabilidad, que deben ser organizados en tal forma que faciliten el análisis y su comparación con períodos anteriores. En el caso de las ventas, las cifras obtenidas y ordenadas permitirán establecer comparaciones entre las sucursales que tenga la empresa; también entre los vendedores de la compañía, entre los departamentos que tenga dicha organización. El hecho de contar con información, algunas veces obtenida sin ninguna metodología, no será suficiente en una investigación, ya que no se trata únicamente de un proceso de recolección, sino que requiere organizar la información en tal forma que permita la aplicación de métodos estadísticos a fin de llegar a conclusiones válidas.
Estadística básica aplicada
14
Investigación externa. Las ventas en una empresa no sólo se analizan con datos internos bien organizados, sino comparándolas con los de la competencia, si el objeto de la investigación es establecer la posición relativa de la empresa en el mercado, y en especial conocer la tendencia de los consumidores, el comportamiento actual o futuro en relación con la calidad, precio, propaganda, modelos, etc. En estos casos es indispensable la investigación externa y sobre el terreno, a fin de obtener la información necesaria que no se da en la investigación interna. Investigación exhaustiva. Se denomina así a aquella investigación donde se observan todos los elementos que constituyen la población objetivo. Si fuéramos a investigar todos los hogares existentes en una ciudad, prácticamente se estaría desarrollando una labor censal. Sin embargo, la población puede referirse a la totalidad de hogares en una zona de la misma ciudad, o a los hogares de un barrio. Como se ve, la población la constituyen todas aquellas unidades objeto de estudio. Por lo general, toda investigación que no sea exhaustiva es parcial y esta limitación estará siempre encaminada a facilitar su ejecución y reducir su costo. Investigación parcial. Se realiza cuando no se desea o no es posible una investigación exhaustiva y sólo se observa una parte de los elementos o unidades que constituyen la población objetivo, denominándose muestra. Con la muestra, el objetivo no consiste en examinarla, sino en estudiar la población a través de ella. La selección de un grupo de establecimientos comerciales al por menor, el de un grupo de hogares en un barrio, en una zona, en una ciudad, todos ellos provenientes de un grupo mayor denominado población, son ejemplos de muestras.
ETAPAS EN UNA INVESTIGACIÓN
Se requiere una investigación de carácter estadístico cuando no se tiene un buen flujo de información que permita que las observaciones se organicen y condensen ya que por lo general, se encuentran dispersas, y en forma desordenada. Se pueden considerar tres clases de operaciones o etapas en una investigación: planeamiento, recolección, procesamiento y análisis.
Planeamiento Al trazar un plan de investigación, se debe definir y organizar cada una de las actividades necesarias para llevar a cabo el trabajo y poder alcanzar los objetivos propuestos. Dentro de la etapa de planeamiento se podrán considerar ciertos aspectos que a continuación se presentan donde el orden y la necesidad de cada uno de ellos dependerá de la misma naturaleza de la investigación.
Capítulo 2. Investigación estadística • Objeto de la investigación Antes de iniciar cualquier proceso de investigación, se hace indispensable identificar con claridad y precisión el fin que se propone, formulando el problema en tal forma que nos permita identificar los objetivos generales y los específicos y, de ser posible, una jerarquización de los mismos. En esta fase se deben contestar los siguientes interrogantes: a) ¿Qué se va a investigar? b) ¿Cómo se va a realizar la investigación? Se refiere a las condiciones y métodos con los cuales se debe realizar. c) ¿Cuándo se realiza? El momento en que debe hacerse la observación. d) ¿Dónde se realiza? El lugar, zona o región donde se hará la investigación. Con esas respuestas se sabrá cuál es la población objetivo que se va a investigar, qué tipo de dato se requerirá, el tipo de informante necesario, la dificultad para hacer la observación, número de cuestionarios, tiempo y costo de la investigación, etc. • Unidad de investigación La unidad es la fuente de información, es decir, a quién va dirigida la investigación, la cual puede ser una persona, una familia, una vivienda, un establecimiento comercial, industrial o de servicio público, una explotación agrícola o ganadera, y su determinación depende del objeto de la investigación. La unidad debe ser clara, en tal forma que sea entendida por todos; además, adecuada al tipo de investigación; mensurable, que permita ser medida, y comparable con los resultados obtenidos en investigaciones similares. Al lado del elemento principal que posee la información, se presenta con mucha frecuencia, la necesidad de establecer otras unidades denominadas secundarias, cuando se aplica el muestreo aleatorio por etapas. • Clase de estudio En primer lugar hay que determinar que tipo de investigación se va a realizar: a) Investigación descriptiva b) Investigación experimental o investigación controlada c) Investigación explicada o analítica. La distinción entre la investigación descriptiva y la analítica, en algunos casos no es muy clara. Se dice que la primera consiste en obtener información con respecto a grupos, en cambio en la analítica permite establecer ciertas comparaciones y sobre todo la verificación de hipótesis. En la investigación experimental es una situación provocada por el investigador, en condiciones controladas, cuya finalidad es conocer por qué causa se produce un caso particular.
15
Estadística básica aplicada
16
• Examen de la documentación y metodología Es importante determinar si la investigación ha sido realizada con anterioridad, con el fin de prescindir del estudio; averiguar si se cumplió el objetivo propuesto y si la información está actualizada. En caso contrario, habrá necesidad de realizarla, tratando de solucionar las dificultades que se presentaron en la anterior, en razón a un mayor conocimiento sobre la población objetivo y, además, procurando un mejoramiento en la metodología utilizada. • Método de observación Una vez planteado el objetivo de la investigación, definida la unidad o unidades, y determinado que el estudio no fue realizado con anterioridad, o que los datos que se tienen requieren de su actualización, se debe decidir, el método que se empleará, es decir, si se va a estudiar la población en su totalidad o sólo una parte de ella. En el primer caso lo hemos denominado investigación exhaustiva, enumeración completa o censo, y, en el segundo, muestra. La elección de uno de los métodos, censo o muestra, depende entre otros factores, de:
- Tiempo disponible - Recursos humanos - Recursos financieros - Finalidad de la investigación - Número de unidades que componen la población. - Características a investigar - Si el elemento seleccionado se puede destruir en el proceso de medición o control de la característica - El grado de variabilidad
• Muestreo Hoy en día, lo más utilizado es el muestreo, por su menor costo, mayor rapidez y menor número de personas que intervienen en la investigación. Generalmente hay más de un método de muestreo, para su selección se podrán determinar algunos aspectos:
- Grado de precisión requerida para los estimadores - Tamaño de muestra - Costo y tiempo
• Muestreo probabilístico Dentro del método de muestreo probabilístico, muestreo aleatorio o al azar, se usan entre otros, los siguientes tres procedimientos:
Capítulo 2. Investigación estadística • Muestreo aleatorio simple. Este método permite que la selección de todos los elementos que constituyen la población tengan la misma posibilidad de ser incluidos en la muestra. Cada elemento que constituye la muestra puede haber sido seleccionado una sola vez, lo que generalmente ocurre, denominándose extracciones sin reposición; en otras ocasiones, cada elemento puede ser elegido más de una vez en la misma muestra, situación que puede ocurrir cuando la población es pequeña o cuando el elemento no se destruye; en estos casos se dice que las extracciones son realizadas con reposición. El método de muestreo aleatorio simple es de gran importancia cuando la población no es grande o, siendo grande, se concentra en un área pequeña. También cuando la característica que se investiga presenta poca variabilidad o cuando la población facilita su enumeración para su selección, además, se puede hacer un listado de todos los elementos. La selección de las unidades se puede hacer de diferentes maneras: por sorteo o utilizando las tablas de números aleatorios, esta última la más aconsejable, ya que han sido elaboradas con el fin de facilitar la selección, ahorrando tiempo y dinero. Para la aplicación de estas tablas (ver tablas anexas) se procede de la siguiente forma: a) se enumeran las unidades que conforman la población objetivo, partiendo desde 01 hasta 99, desde 001 hasta 999, y así sucesivamente dependiendo del tamaño poblacional; b) se elige al azar una de las páginas correspondientes a las tablas; c) se determina un punto dentro de la tabla desde el cual se comenzará a seleccionar las cifras de dos, tres o más dígitos, dejando establecido si esta lectura se hace en forma vertical u horizontal; d) los números seleccionados deberán corresponder con los de la población por muestrear, descartando los números superiores al tamaño de la población. La calculadora, la aplicación del excel permiten la selección. • Muestreo aleatorio estratificado. Denominado también muestreo aleatorio restringido, es aquél donde la población se estratifica, es decir, se forman grupos o estratos, de tal forma que el elemento tendrá una característica que sólo le permitirá pertenecer al mismo. Este proceso se realiza cuando la población es heterogénea, presentando una gran variabilidad, y, por tanto, será un diseño más eficiente que el muestreo aleatorio simple, con la ventaja de que se pueden utilizar muestras mucho más pequeñas. Mediante la selección aleatoria en cada estrato se conformará la muestra. Dependiendo de la distribución de los elementos que deben ser muestreados en los diferentes estratos, se obtendrán los siguientes casos: a) Igual tamaño. Cuando los elementos que constituyen la muestra se reparten por igual en los diferentes estratos muestrales. b) Proporcional. Los elementos se distribuyen en los estratos muestrales proporcionalmente al tamaño de los mismos en la población. c) Óptima. Cuando el tamaño de la muestra depende del grado de variabilidad en cada estrato poblacional y del costo que representa el elemento o la unidad. • Muestreo sistemático. Este método de selección es utilizado por algunos contadores para revisar sumas, cuentas, etc., y consiste en determinar, en primer lugar, un intervalo
17
Estadística básica aplicada
18
igual al valor obtenido al dividir el tamaño de la población por el de la muestra. Luego se toma aleatoriamente una observación. Supongamos que entre el 01 y 10 se seleccionó la observación 6 y como el intervalo es 10, la segunda observación será 16, luego 26, y así sucesivamente. • Muestreo no probabilístico En el muestreo no probabilístico se toma la muestra de cualquier tamaño y los elementos son seleccionados de acuerdo con la opinión o juicio que tenga el investigador sobre la población. En el caso de una población homogénea, la representatividad de tal muestra puede considerarse satisfactoria. Por lo general, las unidades son seleccionadas caprichosamente, por conveniencia, en forma voluntaria o por cuotas, tal como sucede en las encuestas de opinión, por tal razón al no ser seleccionadas aleatoriamente los resultados no ofrecen confiabilidad alguna. Por otra parte, en problemas comerciales diarios y en la toma de decisiones que a falta de tiempo no permiten diseñar métodos de muestreo probabilístico, hay que recurrir al muestreo no aleatorio, siendo el método dirigido el más aplicado. • Proceso de recolección Las encuestas se pueden realizar por correo, entrega personal del cuestionario, entrevista, panel, observación directa, motivación, teléfono, otros. Las encuestas por correo tienen algunas ventajas, tales como las de ser poco costosas, ya que el valor de recolección corresponde al valor del envío y retorno del cuestionario. Por otra parte, permiten diligenciarlo cuando el informante disponga de tiempo, además, las instrucciones son precisas. Ahora bien, si el servicio es bueno, la recolección se hace rápidamente. Las ventajas en el uso del correo, son las mismas que las establecidas en la entrega personal del cuestionario, agregándose la reducción de la posibilidad de extravío. Ambos procesos de recolección presentan casi las mismas desventajas: extravío del cuestionario, la no devolución, falta de contestación a determinadas preguntas, demora en la devolución, uso de abreviaturas, mala letra, preguntas mal respondidas, etc. La entrevista es un buen proceso de recolección, ya que permite recoger el mayor número de cuestionarios, se obtienen respuestas a todas las preguntas, se aclaran las dudas del informante, se pueden hacer comprobaciones; pero su desventaja radica en el mayor costo, ya que requiere de más tiempo y de más recursos humanos. Además, las respuestas pueden estar influenciadas por el entrevistador. En la encuesta por panel o cuadros constituidos por las familias o los individuos de los que se requiere información dentro de determinada periodicidad, se debe tener presente:
Capítulo 2. Investigación estadística la composición del cuadro que se debe revisar con cierta frecuencia; si se observa falla en uno de los elementos, éste debe ser cambiado; a los componentes del panel hay que interesarlos a fin de que colaboren. La encuesta por observación no requiere de cuestionario, ya que no hay respuesta de los entrevistados. Por ejemplo, si examinamos el número de personas que entran en un almacén con el fin de comprar un artículo determinado, observaremos la reacción del comprador, si lo adquirió o no, o si consiguió algo distinto. La observación puede ser directa como su nombre lo indica, la recolección de los datos se hace observando directamente el hecho. Es indirecta cuando la tarea de recolección consiste en corroborar los datos que otros han observado. En la encuesta por motivación, el entrevistador pregunta libremente sin estar sometido a la rigidez de un formulario, procurando extraer todos los datos que aclaren el motivo de la encuesta. Aquí, el entrevistador tendrá que demostrar ser un experto sicólogo. Este proceso es costoso, requiere demasiado tiempo y no se pueden hacer cómputos, por la naturaleza misma de la investigación. La encuesta por teléfono se emplea de preferencia para estudios de radio y televisión, cuando se requiere determinar la sintonía en el momento de comunicar, y las preguntas van encaminadas hacia lo que se ve o se escucha. En este tipo de encuesta se utiliza el directorio telefónico para seleccionar los informantes, lo que es desventajoso, pues se excluye a aquellos que no tienen dicho servicio. El proceso consiste en exponer brevemente el objetivo de la encuesta, solicitándo la colaboración y luego se formulan las preguntas del cuestionario, que deben ser pocas, cortas, claras y precisas. • Preparación del presupuesto Una vez establecidos algunos de los aspectos técnicos, se determina si se cuenta con los suficientes recursos financieros que permitan la realización completa de la investigación. En la elaboración del presupuesto deben tenerse en cuenta las diferentes etapas de la investigación. Los siguientes son los puntos básicos que se deben tener en cuenta al elaborar el presupuesto:
Organización:
- Estudios preliminares - Asesorías - Trabajos experimentales - Trabajos geográficos - Propaganda
- Impresión de los formularios - Capacitación de personal - Contratación de servicios auxiliares - Uso de equipo, computadores, papelería, etc. - Locales.
19
Estadística básica aplicada
20
- Viáticos - Recolección - Transporte Trabajos de campo: Tabulación o procesamiento Publicación • Calendario de trabajo Se trata de un ordenamiento de las diferentes etapas involucradas en la investigación, con las correspondientes fechas de iniciación y terminación, con el fin de controlar cada fase, procurando que se cumpla dentro del tiempo establecido. También es una forma de determinar el tiempo total de la investigación. La forma de presentar el calendario de trabajo es diversa. En la Tabla 2.1 y la Gráfica 2.1 se muestran dos ejemplos de calendario. La Gráfica 2.1 presenta las diferentes etapas y meses requeridos en la investigación. Se denomina gráfica Gantt y tiene la particularidad de que el rectángulo puede subdividirse en días o semanas, en algunas ocasiones sombreándose a medida que transcurre el tiempo de ejecución. Puede verse que los estudios preliminares se han ejecutado en su totalidad, además, se ha avanzado un poco en la preparación del cuestionario.
Tabla 2.1
ETAPAS
1. Estudios preliminares 2. Preparación del cuestionario 3. Encuesta experimental 4. Recolección 5. Tabulación 6. Publicación
FECHAS Inicial Final 10 - VI 2 - VII 26 - VI 10 - VII 15 - VII 25 - VII 30 - VII 18 - VIII 15 - VIII 10 - IX 15 - IX 30 - IX
Capítulo 2. Investigación estadística
Gráfica 2.1
ETAPAS
1. Estudios preliminares
2. Preparación del cuestionario
3. Encuesta preliminar
4. Recolección
5. Tabulación
6. Publicación
MESES junio julio agto. sept.
• Preparación del cuestionario En la elaboración del cuestionario o formulario se deben considerar dos aspectos: 1. Aspectos materiales - Tamaño del formulario, procurando que no sea demasiado grande que dificulte su manejo y archivo. - La calidad del papel dependerá de las veces que se irá a utilizar, en el proceso de recolección, del tipo de impresión y otros aspectos. - El color de la tinta y del papel no debe molestar la vista de la persona que lo va a diligenciar, criticar o codificar. - Tipo de impresión a emplear 2. Aspectos técnicos - Incluir únicamente las preguntas indispensables. - Las preguntas deben ser claras, concisas y comprensibles para quien las hace y para quien las responda. - Las preguntas deben ordenarse, comenzando con las fáciles y terminando con las más difíciles. - No se deben emplear abreviaturas. - Se deben suprimir las preguntas que, de antemano, se considera no van a ser contestadas. - La pregunta debe ser de tal claridad que, siendo formulada en lenguaje corriente, atienda a la técnica de investigación. - Las preguntas deben ser cortas, para que faciliten su retención.
21
Estadística básica aplicada
22
En cuanto a las partes que constituyen un formulario, por lo general, se considera dividido en tres: a) Encabezamiento. En él se incluye: nombre o título de la investigación, en tal forma que resuelva los interrogantes: qué, cómo, cuándo y dónde; el nombre de la entidad responsable de la investigación; el código del formulario y en algunos casos el del informante. b) Cuerpo. Contiene las preguntas; en algunos formularios, cuando se quiere identificar al informante, se comienza con preguntas generales, tales como nombre, dirección, estado civil, edad, profesión, nombre del establecimiento (industrial, comercial, público), razón social, actividad a la cual se dedica, dirección, ubicación regional, etc. Luego se sigue con las preguntas necesarias para alcanzar el objetivo propuesto. Las preguntas pueden ser de diversas clases, a saber: - Preguntas cerradas. En éstas el informante tendrá sólo dos posibilidades al responder, por ejemplo: ¿Conoce usted tal producto? Sí o No. Esta forma de preguntar tiene la ventaja de disminuir el tiempo en la recolección y los costos, además de facilitar la tabulación y eliminar en gran parte los errores. Este tipo de pregunta cerrada, con tan sólo dos posibilidades de respuesta, se denomina dicotónica o de alternativa. Cuando la pregunta cerrada tiene más de dos posibilidades de ser respondida, se denomina de selección múltiple. Un ejemplo de selección múltiple sería: ¿Ha comprado usted, alguna vez, estas marcas de cigarrillos?
Belmont Free Kent Parliament Lucky Montecarlo Marlboro Pielroja Mustang Royal Kool Moore
- Preguntas abiertas. Son aquellas denominadas de opinión o de respuesta libre. Por la variedad de respuestas obtenidas, éstas no podrán ser codificadas y su tabulación tendrá que ser manual. Por ejemplo: ¿Qué opinión le merece la calidad del cigarrillo Belmont? - Preguntas de control. Se hacen con el fin de controlar la veracidad de la información. Por ejemplo, en el caso de la pregunta de selección múltiple sobre las marcas de cigarrillos, se podrá incluir una o dos marcas que no existan, en tal forma que si son señaladas se deberá tener precaución con el resto de las respuestas dadas por el informante. - Preguntas filtro. Tienen como finalidad indicar en que momento se debe suspender la entrevista o si por el contrario se requiere pasar a otro grupo de preguntas, que correspondan a ese tipo de informante.
Capítulo 2. Investigación estadística Hay otros tipos de preguntas que también se pueden utilizar, tales como: - Preguntas introductivas: que tratan de introducir al informante en el tema de investigación, familiarizándolo con el objeto mismo, disminuyendo de esta manera la prevención que pudo haberse formado con respecto a la entrevista. - Preguntas en batería: serie de preguntas encadenadas y complementadas entre sí, con el fin primordial de profundizar en el tema de interés. c) Instrucciones. Pueden considerarse como parte del cuestionario. Para algunas personas, estas deben colocarse después del encabezamiento, es decir, antes de las preguntas, argumentándose que para poder responder el cuestionario se requiere haberlas leído; otras son partidiarias de colocar las instrucciones al finalizar las preguntas, al respaldo del formulario o en una cartilla anexa. Sostienen que esta forma de colocar las instrucciones, cuida la presentación del formulario. Una vez elaborado el cuestionario, éste deberá someterse a prueba con el fin de determinar, entre otras cosas, si las preguntas y las instrucciones fueron correctamente elaboradas, conocer la reacción de los informantes frente a determinadas preguntas, el tiempo promedio necesario en una entrevista y, por último, familiarizar al encuestador con el formulario.
- Selección y preparación del personal En las diferentes etapas de la investigación se requerirá personal calificado y perfectamente adiestrado en la tarea que se le encomiende y su contratación dependerá de los recursos financieros disponibles. Sin embargo, algunas veces se recurre a personal sin experiencia, pero debe capacitarse. Los entrevistadores, a la larga cumplen una etapa importantísima en la investigación, como es la recolección de los datos, la que en definitiva determina el resultado de la encuesta. La planeación que se haya hecho resultará un tanto inútil, por técnica que ella sea, si se presentan deficiencias en la entrevista; de ahí, que debe tenerse especial cuidado en la selección y adiestramiento de este personal. Algunos criterios que se deben tener en cuenta en la selección y preparación de personal: - El número de personas necesarias lo determinará el número de formularios o unidades a entrevistar. - El mejor conocimiento que se tenga del formulario y del objeto de la investigación hará posible una mejor información. - Fijar la extensión geográfica de la investigación, permitirá determinar el número de formularios que le corresponderá a cada uno de los entrevistadores. - Lograr que el entrevistador tenga conocimiento, lo más perfecto posible, sobre la técnica del interrogatorio. - Que el entrevistador reúna ciertas cualidades morales, de tal manera que tengamos la seguridad de que no va a falsear las respuestas, evitando el diligenciamiento sin la presencia del informante.
23
Estadística básica aplicada
24
- Tratar de seleccionar a personas que tengan ciertas cualidades de sociabilidad, cortesía, presentación personal correcta y sencilla, que utilicen las palabras, gestos y tono que más convengan, para el buen éxito de la entrevista. Los procedimientos de selección, en términos generales, son: a) Pruebas de selección, y b) Entrevistas. a) Las pruebas pueden cubrir áreas generales, como inteligencia, habilidad verbal, personalidad, así como habilidades especiales deseables para la clase de investigación por realizar. Por ejemplo, para una encuesta en una muestra de áreas se trataría de medir la habilidad para leer mapas. b) La entrevista personal, además de proporcionar información sobre el candidato, ofrece la oportunidad de evaluar ciertas características personales, como: facilidad de expresión, manera de presentarse, actitud hacia el trabajo, etc. Sin embargo, este método no es siempre aplicable si se requiere un número grande de candidatos para la selección final. • Preparación y actualización de listas de informantes Se debe preparar un listado de todas las unidades que componen la población objetivo y de la cual se selecciona la muestra. En caso de disponer de dicho listado, éste deberá ser revisado y actualizado. Una lista de los establecimientos industriales, con su ubicación y actividad; la nómina de pago de los empleados de una empresa; el directorio telefónico, son ejemplos de un listado de informantes. Al listado se le denomina marco muestral también puede ser un mapa o un croquis.
• Propaganda En algunas investigaciones, es conveniente dar a conocer a los posibles informantes, directa o indirectamente, la importancia que ella tiene, solicitándoles valiosa colaboración para lograr un completo éxito en el trabajo propuesto. • El pretest Consiste en una encuesta preliminar para tener un mayor conocimiento sobre la población objetivo y facilitar la prueba del cuestionario. Puede utilizarse el pretest también para estimar el costo y tiempo necesario, así como para tener alguna idea de variabilidad de las características bajo estudio. Entre más información se tenga sobre el comportamiento de la población, más fácil será elaborar un plan de investigación, especialmente el diseño del plan de muestreo; por otra parte, las dificultades encontradas, en cualquiera de las etapas de la investigación, suelen ser útiles para el diseño de futuras encuestas.
Capítulo 2. Investigación estadística • Otros aspectos Hay otros aspectos no menos importantes que los anteriores y que el investigador, en muchos casos, no debe ignorar: - Delimitación del tema. Se debe establecer si el tipo de investigación es exploratoria, descriptiva, explicativa o experimental. - Marco teórico. Guarda relación con el anterior. (Puede haber un marco jurídico, geográfico o histórico). - Formulación del problema. - Formulación de hipótesis.
Recolección
Terminada la etapa de planeamiento, se procede a distribuir y a recoger los formularios, controlando el número de formularios entregados y recogidos y, al mismo tiempo, verificando la calidad de las informaciones obtenidas. La organización del trabajo de campo o de recolección contempla, entre otros, los siguientes puntos: - Supervisión - Control de encuestas - Revisión de los cuestionarios inconclusos - Calidad y consistencia de las respuestas - Cumplimiento de los plazos prefijados - Distribución de los entrevistadores Algunos de los errores que se pueden presentar en la recolección de datos se clasifican en: - Errores en la medición o cuantificación de la características. - Errores del entrevistador o influencia negativa del mismo. - Mal diseño del cuestionario. - Falta de instrucciones o imprecisas. Pueden presentarse algunos casos que afectan la recolección de los datos y que deben ser corregidos: - El informante no quiere suministrar los datos, alegando estar ocupado, motivos políticos, desconfianza de la investigación, considerar que no vale la pena, etc. - El informante no puede responder por problemas, como, enfermedad, incapacidad física, idioma, etc. - La dirección del informante es errónea, o la unidad existente en el lugar no es elegible. - No hubo contacto con el informante, la familia estaba paseando, demolición del edificio, actualmente desocupado, etc.
25
Estadística básica aplicada
26
Procesamiento y análisis
La información obtenida debe ser depurada, clasificada, resumida y analizada, aplicando para ello adecuadas técnicas. Los puntos más importantes en esta etapa son: codificación, tabulación, análisis e interpretación, informe y publicación. - Codificación Cumplido el proceso de revisión de cada una de las respuestas obtenidas, se procede a la codificación de las mismas, especialmente cuando se va a sistematizar. Aquellos formularios en donde la mayor parte de las preguntas son cerradas, pueden ser precodificados, es decir, cada respuesta posible tiene el código impreso en el formulario. Código es un número que sustituye la pregunta, cuando se va hacer el recuento. Por ejemplo, si una pregunta tiene dos respuestas se utilizan los dígitos 1 y 2. Usted es un trabajador Independiente...................1 Asalariado........................2 Ahora, si nos interesa clasificar geográficamente los establecimientos industriales, investigados por estados o departamentos, se tendrá: 01 Antioquia, 02 Atlántico, ..., 32 Valle. El proceso de revisión del cuestionario se denomina crítica, cuya finalidad es corregir las deficiencias en la recolección de la información, porque puede haber errores u omisiones, incluso cuando los formularios han sido diligenciados por encuestadores considerados como los más aptos o meticulosos y que el crítico puede subsanar directamente o pidiendo al entrevistador que vuelva a la fuente de información o recurriendo a la memoria del mismo.
- Tabulación
Puede ser manual, sistematizada o computarizada y su elección dependerá: • De la cantidad de formularios que se van a utilizar. • Del número de preguntas que tenga el formulario • Del tiempo y de los recursos, ya sea financieros o de equipos, disponibles.
Cuando la tabulación se acuerda desde el principio, como parte integrante de la planeación general de la investigación, es de suponer que todo el proceso sea totalmente satisfactorio, lo cual ha sido demostrado por la experiencia. El procesamiento de la información se inicia una vez terminada la crítica, o después de la codificación. Cuando se hace en forma sistematizada se obtienen listados, que deben revisarse a fin de detectar las inconsistencias que se presenten o derivados de procesos anteriores. Una vez hechas las correcciones, se procede a elaborar los cuadros, con el fin de facilitar el análisis de la información, elaboración de gráficas, conclusiones y recomendaciones, si las hay.
Capítulo 2. Investigación estadística • Análisis e interpretación Esta etapa se puede considerar como la más importante del informe, ya que el análisis de los datos tendrá que ver con la formulación del objetivo mismo de la investigación y de las hipótesis establecidas; sin embargo, este proceso de análisis será menos difícil, si el investigador tiene pleno conocimiento de los problemas inherentes al planeamiento de una investigación. En este proceso se debe considerar la elaboración de distribuciones o tablas de frecuencias, obtenidas a través de una sistematización de la información para poder ser presentada en forma de cuadros. Con los anteriores resultados se procede luego a hacer un resumen y a la aplicación de las diferentes medidas, que hemos denominado estadígrafos o estimadores puntuales, cuando son aplicados a las características de las unidades en la muestra o como parámetros en las características de la población, entre los cuales figuran las medidas de dispersión y los promedios, incluyendo en éstos los porcentajes y proporciones. Con las cifras resultantes, se pueden hacer comparaciones con otros estudios, para poder llegar a mejores conclusiones. De esta última fase de la metodología se puede decir que encierra dos aspectos: - Análisis y evaluación estadística de los resultados. - Análisis y evaluación técnica de acuerdo con la naturaleza de la investigación. Estos dos aspectos permitirán determinar el grado de consistencia y confiabilidad de los resultados obtenidos de la investigación.
• Informe Finalmente, se llega a la etapa de elaboración del informe, ya sea para uso interno de la empresa o para terceros. La redacción y entrega del informe final, corresponde a la última etapa de la investigación y a la culminación de los trabajos que la misma causó. A pesar de que el informe constituye un todo indivisible, podemos considerar tres partes perfectamente identificables: introducción, conclusiones, y apéndices. - Introducción. En esta parte del informe se debe utilizar un lenguaje sencillo y ameno, dejando los tecnicismos, de manera que sea entendible; además, debe mantenerse una secuencia que guarde armonía con el proceso utilizado en la investigación. Se hará claridad sobre el planteamiento del problema que nos condujo a la realización del estudio, la fijación de objetivos, elección del método de investigación aplicado, incluido el método de selección utilizado; el tamaño de la muestra calculada, así como el diseño del cuestionario, las preguntas que dieron lugar, la indicación de la fecha en que se inició y terminó la recolección de la información. En las páginas siguientes, en forma breve y descriptiva, se hará la exposición de los puntos más importantes, apoyados con cuadros, gráficas y otros resultados, consecuencia de la aplicación de métodos estadísticos.
27
28
Estadística básica aplicada - Conclusiones. Constituye la parte fundamental del informe, ya que en ella aparecen relacionados los resultados obtenidos, la confrontación con lo esperado, la exposición de cómo deben ser interpretados y qué es lo que de ellos se deduce. El informe, además, debe remitir al lector, cuando sea necesario, a consultar los cuadros y gráficas que hagan más comprensible la explicación y, sobre todo, se deben presentar las recomendaciones. - Apéndice. Integra toda la documentación que se ha citado en la introducción y en las conclusiones, para que el lector pueda consultar rápidamente y con facilidad cualquier información contenida en el informe. El profesor John W. Best en su libro Cómo investigar en educación nos da una posible guía del análisis, sugiriendo los siguientes puntos: 1. Título: • ¿Es claro y conciso? • ¿No promete más de lo que el estudio puede proporcionar? 2. El problema: • ¿Se halla establecido con claridad? • ¿Está bien delimitado? • ¿Se reconoce su significado? • ¿Las preguntas son específicas y se encuentran establecidas las hipótesis con claridad? • ¿Se establecen supuestos y limitaciones? • ¿Se definen los términos importantes? 3. Revisión de la bibliografía relacionada: • ¿Es de amplitud adecuada? • ¿Se destacan los hallazgos importantes? • ¿Está bien organizada? 4. Procedimientos utilizados: • ¿Se describe detalladamente el diseño experimental? • ¿Es adecuado este diseño? • ¿Se describen las muestras? • ¿Se reconocen las variables relevantes? • ¿Se procuran controles adecuados? • ¿Son idóneos los instrumentos de recogida de datos? • ¿Se establecen la validez y la finalidad? • ¿Es adecuado el tratamiento estadístico? 5. Análisis de los datos: • ¿Es adecuado el uso de tablas y figuras? • ¿Es concisa y clara la exposición del texto? • ¿Es lógico y perceptible el análisis de las relaciones de datos? • ¿Se interpreta con precisión el análisis estadístico?
Capítulo 2. Investigación estadística 6. Resumen y conclusiones: • ¿Se replantea el problema? • ¿Se describen con detalle los procedimientos? • ¿Se presentan concisamente los hallazgos? • ¿Es objetivo el análisis? • ¿Los datos presentados y analizados justifican los hallazgos y conclusiones? • Publicación Corresponde a la fase final de la investigación, y con ella se propone hacer llegar a las personas interesadas el resultado del estudio, teniendo en cuenta todos los aspectos considerados en el proceso, de tal forma que los datos sean comprensibles, con la correspondiente validez de las conclusiones. En términos generales se puede decir que un informe deberá contener: • Planteamiento del problema. • Objetivo de la investigación. • Hipótesis que se quiere probar. • Breve exposición de la metodología adoptada, diseño y tamaño de la muestra. Proceso de selección de las unidades de información y de recolección. • Se podrá incluir en el informe copia del formulario utilizado en la recolección, relacionando y justificando, en forma muy sucinta, las preguntas que se consideran de más importancia dentro de la investigación. • En algunos casos el informe tiene una parte final, denominada apéndice, donde se incluyen cuadros más generales, que permitan aclarar o comprobar rápidamente información más detallada. También se puede incluir documentación complementaria al informe.
RESUMEN DEL CAPÍTULO
En este capítulo se quiere resaltar, que no todas las investigaciones requieren ser llevadas a cabo, debido al hecho de que en algunos casos se dispone de información, obtenida en investigaciones realizadas con anterioridad, por la misma entidad o por otras. En ocasiones dicha información puede ser considerada como complementaria a la nueva investigación. Una investigación requiere en la primera etapa ante todo de un planeamiento, que comprenda: - Fijar los objetivos de la investigación, determinando si el fenómeno puede ser observado mediante la aplicación de métodos estadísticos. - Establecer la unidad o unidades de observación. - Determinar, si se trata de un censo o de una muestra. - Si la encuesta se va a hacer mediante entrevista, entrega personal del cuestionario, por correo, teléfono, observación o panel.
29
Estadística básica aplicada
30 - - - - -
Elaborar el presupuesto. Diseñar el calendario de trabajo. Diseñar el formulario e instrucciones. Seleccionar y capacitar a las personas que van a trabajar en la investigación. Hacer una pre-encuesta.
A la segunda etapa corresponde: - Distribución y recolección de formularios. - Verificar el número de formularios enviados y recogidos - Se debe efectuar un control sobre la calidad de los datos. La tercera y última etapa comprende: - Elaboración de códigos. - Crítica y codificación - Elaboración de cuadros de tabulación. - Selección del proceso de tabulación, si es manual o mecánico. - Elaboración de cuadros y gráficas. - Análisis y comparación de los datos. - Publicación. Las etapas que requieren una investigación estadística, se sintetizan en la Figura 2.1. Términos para recordar
Cuestionario o formulario Encuesta por panel Entrevista personal Formulación del problema Gráfica Gantt Investigación descriptiva Investigación controlada Investigación explicativa Investigación interna Investigación exhaustiva o total Investigación parcial o muestra Investigación externa Muestreo aleatorio simple Muestreo probabilístico Muestreo estratificado Muestreo no probabilístico
Muestreo sistemático Marco teórico Números aleatorios Objetivo de la investigación Pruebas de selección Preguntas cerradas Preguntas de control Preguntas de selección múltiple Preguntas abiertas Preguntas en batería Preguntas inductivas Preguntas filtro Selección sin reposición Selección con reposición Tamaño de la muestra Unidad de investigación o de selección
Capítulo 2. Investigación estadística
31
Figura 2.1. Etapas en una investigación (resumen)
Objetivos y unidad de investigación Métodos de investigación: censo o muestra Proceso de recolección Planeamiento Presupuesto Formulario - Lista de informantes Calendario de trabajo - Mapas Encuesta preliminar
Distribución del material Recolección Recolección Control y verificación del número de formula- rios y calidad de la información Formulario
Procesamiento y análisis
Formulario
Crítica
Formulario
Formulario
Listados
Codificación Clasificación y recuento
Revisión
Archivo
Análisis Publicación
Ejercicios propuestos 1. Señalar el literal más adecuado para las siguientes observaciones: 1.1 La investigación preliminar permite: a) Establecer la hipótesis b) Determinar la muestra c) Coordinar el personal de campo d) Ninguno de los anteriores
1.2 Antes que nada, la investigación estadística requiere: a) Que exista un objetivo b) Que se hayan trazado planes c) Que se tenga un problema d) Ninguno de los anteriores
32
Estadística básica aplicada 1.3 El costo de una encuesta por correo es generalmente: a) Igual al de una encuesta por medio de entrevistas personales. b) Mayor al de una encuesta por medio de entrevistas personales. c) Menor al de una encuesta por medio de entrevistas personales. d) Imposible de medir en relación con el costo de una encuesta por medio de entrevistas personales. 1.4 En el diseño del cuestionario las preguntas más difíciles deben colocarse: a) Al principio, para salir inmediatamente de la parte más difícil. b) En el centro para que sean precedidas y seguidas por preguntas fáciles c) Al final, luego que se haya establecido un clima de confianza. d) Ninguna de las anteriores. 2. Contestar verdadero o falso, según el caso: a. Código es la representación cualitativa de un hecho cuantitativo. b. L a s i n s t r u c c i o n e s p e r m i t e n diligenciar mejor el formulario. c. Un formulario se precodifica para agilizar la codificación. d. Un formulario debe llevar una sola clase de preguntas. e. La recolección de datos se puede hacer únicamente mediante la observación directa.
f. Después de elaborar el formulario se define el objetivo de la investigación. g. Al recolectar información por medio de entrevistadores, se tiene la ventaja de que éstos pueden observar el sitio donde se está llevando la encuesta. h. Se conoce como fuente primaria aquella donde se obtuvo inicialmente la información, directamente a la persona o entidad. i. Al diseñar un cuestionario no es de gran importancia la forma como se hace la pregunta, siempre que ésta sea clara. j. No hay posibilidad alguna de que en una encuesta por correo se interpreten mal las preguntas de un cuestionario, siempre y cuando la persona que la conteste sepa leer. k. El examen de la documentación y metodología se efectúa después de tabulada la información. 3. Se ha dicho que en una investigación se consideran tres etapas las que, a su vez, se subdividen en otras fases. ¿Cuáles son? ¿Podría usted reagrupar los títulares de este capítulo en un índice de temas de acuerdo con estas etapas? 4. Mencionar algunos aspectos técnicos y materiales que deben tenerse en cuenta en el diseño de un formulario.
Capítulo 3 SUMATORIAS Y PRODUCTORIAS
SUMATORIA SIMPLE
Nos encontramos frecuentemente en estadística con la suma de un gran número de términos. Con el fin de simplificar, es indispensable indicar mediante un símbolo dicha suma. Suponiendo que se tienen seis números y se desea sumarlos: Lo anterior lo podemos generalizar y anotar, empleando para ello un simbolismo algebráico.
S = 7 + 10 + 12 + 18 + 13 + 5 = 65
S = a+b+c+d +e+ f
Donde a, b, c,...,f, toman los respectivos valores de: 7, 10, 12,..., hasta completar los sumandos, que en este caso corresponden a seis. Cuando el número de sumandos se hace bastante grande, nos encontramos en dificultad al usar las letras del alfabeto, de ahí que se prefiera la notación Xi, para reunir en una sola cantidad la totalidad de los sumandos. Así, esta suma:
la podríamos escribir: 6
∑ Xi
i =1
Por convención se ha adoptado la letra S del alfabeto griego, es decir sigma (S), que se lee sumatoria, para indicar la suma de n términos. Entonces: 6
∑ X i = X1 + X 2 + X 3 + X 4 + X 5 + X 6 i =1
En algunos casos se podrá utilizar i en vez de Xi si generalizamos, tenemos la siguiente n
expresión: ∑ i donde: i =1
Estadística básica aplicada
34
n = límite superior de la sumatoria S = sumatoria i = elemento genérico de la sumatoria i = 1 = límite inferior de la sumatoria Lo anterior, en conjunto, se lee “sumatoria de i = 1 hasta n de i ” En el caso de utilizar a Xi observamos que i es la que toma valores, desde el límite inferior hasta el límite superior. Como en este caso el límite superior es 6, resultará: X1 + X2 + X3 + X4 + X5 + X6 y la sumatoria sería:
6
∑ X i = X1 + X 2 + X 3 + X 4 + X 5 + X 6 i =1
Esta es la solución que le daríamos a esa sumatoria de Xi Sin embargo, cada Xi toma un valor, de acuerdo con las observaciones hechas, (en nuestro caso, los numerales 7, 10, 12, 18, 13, 5, respectivamente). 6 Entonces, remplazando cada X i por el ∑ X i = 7 + 10 + 12 + 18 + 13 + 5 = 65 valor correspondiente, la solución a dicha i =1 sumatoria sería: Cuando la sumatoria tiene el término i como elemento genérico, se está indicando que i toma todos los valores, en forma continuada, desde el límite inferior hasta el superior.
...
Así, por ejemplo, siendo el límite superior 6 y el inferior 1 se tendrá: 6
∑ i = 1 + 2 + 3 + 4 + 5 + 6 = 21 i=1
Sin embargo, se puede operar con un límite inferior diferente a uno: 11
9
∑ i =5 + 6 + 7 + 8 + 9 = 35
i =5
∑ i =7 + 8 + 9 + 10 + 11 = 45
i =7
También se pueden cambiar los símbolos empleados como elementos genéricos de la suma: 6
∑ Ai = A3 + A4 + A5 + A6
i =3
5
∑ Ai = A2 + A3 + A4 + A5
i= 2
En vez de i se podrá emplear otro símbolo, por ejemplo j: 5
6
∑ K =K + K + K + K = 4 K
i =3
∑ A j = A2 + A3 + A4 + A5 j =2
Veamos otras operaciones sobre sumatorias simples: 4
∑ i i = 11 + 22 + 33 + 44 = 1 + 4 + 27 + 256 = 288 i =1 4
∑ 2i = 21 + 22 + 23 + 24 = 2 + 4 + 8 + 16 = 30 i =1
6
∑ Ai = A3 + A4 + A5 + A6
i =3
Capítulo 3. Sumatorias y productorias
35
4
∑ X i2 = X12 + X 2 2 + X 32 + X 4 2 i =1
2
4 2 ∑ Xi = [ X 1 + X 2 + X 3 + X 4 ] i=1 Propiedades de la sumatoria Además de ser el signo de la sumatoria el más utilizado en las operaciones de estadística, las propiedades de la sumatoria tienen su importancia al ser casi las mismas que presenta la media aritmética y como tal se verá en las medidas de posición. - La sumatoria de una constante K, desde uno hasta n, es igual a n veces la constante: n
6
Ejemplo: ∑ 2 = 2 + 2 + 2 + 2 = 4 ( 2 ) = 8
∑ K = K + K + K + K ... + K = nK i =1
i =3
n
se debe tener cuidado al generalizar que ∑ K = nK ya que sólo se cumple cuando el i =1
límite inferior es uno. Si es diferente a uno se procederá de la siguiente forma: Si: A3 = K
6
∑ Ai = A3 + A4 + A5 + A6
i =3
A4 = K
A5 = K
A6 = K
6
entonces, al reemplazar Ai por K, será igual a: ∑ K =K + K + K + K = 4 K i =3
6
Ahora siendo K = 2, se tendrá: ∑ 2 = 2 + 2 + 2 + 2 = 4 ( 2 ) = 8 i =3
- La sumatoria del producto de una constante por una variable es igual al producto de la constante por la sumatoria de la variable: n
∑ Ki = K (1) + K ( 2 ) + K ( 3) + ... + K ( n ) = K (1 + 2 + 3 + ... + n ) i =1
5
Ejemplo: ∑ 2i = 2 (1) + 2 ( 2 ) + 2 ( 3) + 2 ( 4 ) + 2 ( 5 ) = 2 + 4 + 6 + 8 + 10 = 30 i =1
5
Siendo igual a la expresión de: 2∑ i = 2 (1 + 2 + 3 + 4 + 5 ) = 2 (15 ) = 30 i =1
- La sumatoria de dos o más variables, (entre paréntesis) es igual a la suma de las sumatorias de cada una de las variables (ley distributiva): n
∑ ( X i + Yi + Z1 ) = ( X 1 + Y1 + Z1 ) + ( X 2 + Y2 + Z 2 ) + ... i =1
Siendo
n
n
n
n
i =1
i =1
i =1
i =1
∑ ( X i + Yi + Z1 ) = ∑ X i + ∑ Yi + ∑ Zi
Estadística básica aplicada
36
Fórmulas especiales sobre sumatorias Existen algunas fórmulas especiales que proporcionan el valor de la suma de n números, comprendidos entre 1 y n, inclusive. n
a) ∑ i = i =1
n ( n + 1) 2
Ejemplo: 10
∑ i = 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 = 56 ;
i =1
b)
10
10 (10 + 1)
i =1
2
∑i =
n
n ( n + 1)( 2n + 1)
i =1
6
∑ i2 =
=
10 (11) 2
=
110 = 55 2
10
∑ i 2 = 12 + 22 + 32 + 42 + 52 + 62 + 7 2 + 82 + 92 + 102 = 385
Ejemplo:
i =1 10
∑ i2 =
c)
i =1
n ( n + 1) ∑ i3 = i =1 2 n
10 (10 + 1)( 20 + 1) 110 ( 21) = = 385 6 6 2
2
30 5(5 + 1) = = 152 = 225 ∑ i3 = i =1 2 2 5
2
PRODUCTORIA
Se utiliza la letra griega pi mayúscula (p), que se lee producto de, además, para designar al elemento genérico del producto, que puede ser i, escribiéndose debajo y encima de pi los valores extremos (límites inferior y superior) que toma dicho elemento i. Así: 5
i =1
j =1 3
3
∏ i 2 = 12 ⋅ 22 ⋅ 32 = 1 ⋅ 4 ⋅ 9 = 36
∏ j = 1 ⋅ 2 ⋅ 3 ⋅ 4 ⋅ 5 = 120
∏ j 2 = 12 ⋅ 22 ⋅ 32 = 36 j =1
4
∏ X i = X1 ⋅ X 2 ⋅ X 3 ⋅ X 4 i =1
La productoria será utilizada en la teoría estadística para calcular la media geométrica.
Capítulo 3. Sumatorias y productorias
37
Propiedades de la productoria Como en el caso de la sumatoria, también se deben tener en cuenta algunas propiedades de la productoria. - La productoria de una constante es igual a una potencia, donde la base es la constante y el exponente es el límite superior del producto. ;
; Ejemplo:
3
2 222 2
8
- El producto de una constante por una variable es igual a la constante elevada al límite superior por la productoria de la variable: n
∏ KX i = ( KX1 )( KX 2 ) ( KX 3 ) ... ( KX n )
i =1
n
= ( K ⋅ K ⋅ K ⋅ ... ⋅) ( X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X n ) = K n ∏ X i i =1
3
3
∏ 2i = 23 ∏ i = 8 [1 ⋅ 2 ⋅ 3] = 8 ( 6 ) = 48
i =1
i =1
RESUMEN DEL CAPÍTULO
La sumatoria se simboliza por una letra griega denominada sigma (S), la cual indica la suma de las cantidades u observaciones que siguen al símbolo. La productoria se simboliza por otra letra griega denominada pi (p), indicándonos el producto de las cantidades u observaciones que siguen al símbolo. n = Límite superior n Sumatoria
Σ i
i =1
i=1
= Límite inferior que toma i
i = Elemento genérico de la suma o del producto
∑
= Suma de los términos P = Producto de los términos n Productoria ∏ i i = Límite inferior que toma i i =1 n = Limite superior que toma i Términos para recordar Sumatoria Sigma (Σ)
Productoria pi (π)
Estadística básica aplicada
38
Ejercicios propuestos 1. Desarrollar las siguientes sumatorias: 6
b) ∑ 2i
a)
c)
i =3
e)
f)
7
i) ∑ 2i+i2+4
j)
4
5
i =1
i =1
g) ∑ (2i+i+5) h) ∑ (i+1)(i–1) 5
2
2
∑ 8i +7
8
2 k) ∑ (4+i )
i =3
i =2
i =1
d)
2. Expresar simbólicamente las sumas: a) 1 + 2 + 3 + 4 + 5 + 6 + 7 = b) 2 + 4 + 6 + 8 +10 = c) X3 + X4 + X5 + X6 =
2
d) ( X 3 − 2 ) + ( X 4 − 2 ) + ( X 5 − 2 ) + ( X 6 − 2 ) =
e) (X4+X5+ X6+ X7 + X8)2 f)
3. Calcular el valor final de las siguientes expresiones: a)
b)
c)
d)
Siendo X1 = 4; X2 = 2; X3 = 5; X4 = 1; X5 = 3; X6 = 10 4. Resolver y determinar el valor de las siguientes sumatorias: 2
4 a) ∑ X i i =1
b)
d)
e)
f)
h)
i)
g)
Siendo:
c)
X1 = 3 X2 = 6 X3 = 2 X4 = 5 X5 = 6 X6 = 7 Y1 = 4 Y2 = 2 Y3 = 6 Y4 = 2 Y5 = 10 Y6 = 3
5. Desarrollar los siguientes productos: a) 5
d) ∏ ( 2i − 1) i =1
b) e)
c)
3 1 f) ∏2 − i i =1
Capítulo 4 ELABORACIÓN DE TABLAS O CUADROS OBJETIVOS
•• Identificar los componentes o reglas a tener en cuenta para la elaboración de un cuadro •• Adquirir habilidad en la elaboración de cuadros de frecuencias, utilizando las diferentes técnicas existentes. •• Identificar y aplicar los conceptos de variables, atributos y frecuencias.
CONTENIDO
•• •• •• •• ••
Características. Técnicas para elaboración de cuadros. Distribución de frecuencias. Variable discreta. Variable continua.
CARACTERES
Se vio en los capítulos anteriores, que la estadística es un conjunto de técnicas o métodos que permiten la observación, recopilación, ordenación, descripción, y análisis de un fenómeno. La elaboración de tablas o cuadros, facilita el análisis y la presentación de la información. Para elaborar los cuadros, se debe, antes que todo, identificar los caracteres o características que se investigaron, lo cual permite una mejor clasificación de lo observado. Las características de un fenómeno pueden ser: cualitativas y cuantitativas. Las características cualitativas, denominadas también atributos, son todas aquellas que se puedan describir mediante palabras. Por ejemplo: las ventas, (en valor o cantidad), clasificadas por sucursales (Tabla 4.1), por días, meses, etc.; los empleados de una empresa clasificados por cargos (Tabla 4.1a); las marcas de aceite de uso doméstico; las exportaciones por puertos; el número de compradores, en un día, por departamentos, en el almacén X. En los ejemplos anteriores las características cualitativas son: los nombres de las sucursales, los días, meses, cargos, marcas, puertos, departamentos, etc.
Estadística básica aplicada
40
Tabla 4.1 Ventas mensuales por sucursal
SUCURSALES
VENTAS (Mill $)
Centro
220
Chapinero
80
Chicó
Tabla 4.1a Clasificación de empleados por cargo CARGOS CANTIDAD
Administrador 1 Celador
8
160
Contador
2
Lago
312
Secretaria
3
Quiroga
54
Supervisor
5
Restrepo
42
Vendedor
36
Total 868
Total 55
Las características cuantitativas, denominadas también variables, son aquellas susceptibles de ser expresadas numéricamente. La clasificación de empleados por sueldos o tiempo de servicios; los diámetros de los tornillos producidos por una fábrica; el número de viajes, en el mes, realizado por buses de servicio público (Tablas 4.2) el número de sucursales por volumen de ventas (Tablas 4.2a); la duración en horas, de ciertas bombillas fabricadas por una empresa; estos son ejemplos de variables, las que a su vez, teóricamente, se clasifican en discretas y continuas. Será discreta si la variable admite únicamente valores numéricos enteros; por ejemplo, la clasificación de las fábricas según el número de máquinas, telares o empleados; en ellos no se presentarán fracciones de máquinas, telas o empleados. Se trata de variable continua si admite valores fraccionarios. Son consideradas como tales las expresadas en forma de medidas de superficie, peso, longitud, volumen, tiempo, temperatura, valor. Además, las expresadas en medidas de relación, tales como porcentajes, tasas, puntuaciones. Se dice que esta clasificación es más teórica que práctica, ya que la continua puede adoptar una clasificación igual a la discreta, pero su presentación tendría el inconveniente de hacerse demasiado larga, dificultando la aplicación de alguna de las medidas estadísticas. Por tal razón, en la variable continua, se elaboran intervalos con lo cual se simplifica su ordenamiento y presentación.
Capítulo 4. Elaboración de tablas o cuadros
Tabla 4.2
Tabla 4.2a
Clasificación de buses públicos de acuerdo con el número de viajes
No. VIAJES MENSUALES
41
No. VEHÍCULOS
Clasificación de almacenes según valor de las ventas en un mes VENTAS
No.
(Millones $) ALMACENES
130 15 120 - 160 412 133 32 161 - 300 279 138 36 301 - 500 96 150 42 501 - 800 54 156 38 801 - 1.000 38 160 35 1.001 - 5.000 24 Total 198 Total 903 Las Tablas 4.2 y 4.2a son ejemplos de variables. Observamos que la clasificación se hace teniendo en cuenta aspectos cuantitativos, como son el número de viajes mensuales hechos por 198 vehículos de servicio público, así como las ventas (millones de $) realizadas por 903 almacenes en un mes cualquiera. La Tabla 4.2 corresponde a una variable discreta ya que no se puede fraccionar el número de viajes. En la Tabla 4.2a se presenta la variable continua, que sí admite fracciones, como centavos. Cuando se analiza o se estudia una sola característica de los elementos seleccionados en la investigación, se dice que la variable o el atributo corresponden a una distribución unidimensional. Ejemplos de distribuciones unidimensionales en las Tablas 4.3 y 4.3a
Tabla 4.3 Cantidad de cartones de de cigarrillos vendidos por marca
Tabla 4.3a Clasificación de cajas en una bodega según el número de artículos defectuosos
No. DE ARTÍCULOS MARCA CANTIDAD DEFECTUOSOS
Kent 320 Lucky 160 Marlboro 960 Royal 820 Pielroja 1.080 otras 70
Total 3.410
No. DE CAJAS
0 6 1 12 2 7 4 5 5 3 6 2 Total 35
Cuando se trabaja simultáneamente con dos variables, dos atributos, o una variable y un atributo, se trata de distribuciones bidimensionales. Veamos en las Tablas 4.4 y 4.5 dos ejemplos de distribuciones bidimensionales, utilizando en su elaboración atributos y variables.
Estadística básica aplicada
42
En el caso de estudiar tres o más características simultáneamente, se habla de una distribución pluridimensional o multidimensional; tal sería el caso de clasificar las ventas de una empresa por sucursales, valor y semestres. Tabla 4.4 Clasificación del número de unidades vendidas por marca y por trimestres
Marca
Ventas (en cientos de unidades) Trimestres
Total
1º 2º 3º 4º A 210 285 302 310 1.107 B 160 140 250 300 850 C 912 856 1.013 1.819 4.600 D 600 504 486 420 2.010 E 415 425 508 476 1.824 F 520 715 806 474 2.515 Totales 2.817 2.925 3.365 3.799 12.906 Tabla 4.5 Clasificación del número de unidades vendidas por marca y por trimestres
Años de servicio Salarios $ Total
620.000,1 - 680.000 680.000,1 - 720.000 720.000,1 - 860.000 860.000,1 - 900.000 900.000,1 - 940.000 940.000,1 - 1.160.000 Totales
1a5
6 a 10
11 a 15
16 a 20
10 3 2 - 15 18 12 16 4 50 3 20 8 7 38 8 7 1 4 20 2 5 6 1 14 1 4 7 3 15 42 51 40 19 152
TÉCNICA EMPLEADA EN LA ELABORACIÓN DE UN CUADRO
Cuando se va a hacer la agrupación de las observaciones, correspondiente a las características que interesa analizar, es necesario, establecer, primero que todo, algún criterio de ordenación. Por ejemplo, la clasificación de una característica cualitativa se puede hacer de acuerdo con un orden alfabético; tal es el caso de ordenar las ventas realizadas por las sucursales que tiene una empresa: Centro, Chapinero, Chicó, El Lago, etc. Otro caso podría ser la clasificación de las ventas de un almacén por departamento o por región geográfica. Además de la clasificación de una característica por orden alfabético se puede hacer en forma cronológica o histórica; en forma convencional o en forma de importancia.
Capítulo 4. Elaboración de tablas o cuadros Las series cronológicas son distribuciones bidimensionales, donde la primera variable corresponde al tiempo: años, trimestres, meses, semanas, o días. Puede verse en la Tabla 4.6 un ejemplo de series cronológicas; en ella nos referimos al valor de las ventas de una empresa para el período 2014 a 2019. Tabla 4.6. Valor de las ventas por la empresa X - 2014/2019
AÑOS
VALOR
(miles de millones $)
2014 50.708
2015 62.305
2016 93.788
2017 101.312
2018 121.605
2019 176.321
En la clasificación de las características cuantitativas se utilizan escalas numéricas. Estas pueden ser de dos clases: escalas proporcionales, en la variable discreta, y escalas de intervalos, en la variable continua. No hay que olvidar que los cuadros o tablas, corresponden a arreglos sistemáticos de datos. La forma del cuadro depende en gran parte del propósito para el cual se ha preparado. A pesar de que no se tienen reglas fijas para la elaboración de cuadros, sí se pueden observar y aplicar si algunas de las recomendaciones, que en forma muy general, se han hecho y como tales han sido aceptadas: - El cuadro debe ser lo más sencillo posible, siendo, preferible la elaboración de dos o más cuadros, en vez de uno solo que contenga demasiados detalles respecto a las características examinadas. - Si en una publicación o en el informe se tienen dos o más cuadros, estos deben ser numerados, Cuadro Nº1; Cuadro Nº2, etc. - Todo cuadro debe tener un título, claro y conciso, que responda a los interrogantes: Qué, cómo, dónde y cuándo se hizo, como por ejemplo: Encuesta sobre precios de artículos de primera necesidad en el barrio 20 de julio -Bogotá- mayo, 2019. Con dicho título respondemos a los interrogantes que se habían planteado anteriormente: ¿Qué es? Se trata de una investigación sobre precios de los artículos de primera necesidad. ¿Cómo se hizo? Se realizó mediante una encuesta. ¿Dónde se hizo? En el barrio 20 de julio de la ciudad de Bogotá. ¿Cuándo se hizo? Durante el mes de mayo del 2019. El título, podría clarificarse un poco más, si se establece a quién se investigó: amas de casa, comerciantes, minoristas, etc. - El título debe separarse un poco del cuadro, dejando por lo menos dos espacios de intermedio. Algunos consideran que el título debe ser colocado en la parte superior
43
Estadística básica aplicada
44
del cuadro en tal forma que el lector se entere de inmediato sobre su contenido; otros son partidarios de colocarlo debajo. - El encabezamiento de un cuadro contiene los títulos y subtítulos de las columnas. Los títulos y subtítulos deben diferenciarse en su tipología. En el encabezamiento del cuadro se puede colocar una columna para totales, que puede estar ubicada, al principio o al final, partiendo de izquierda a derecha. También los totales pueden ubicarse en la parte inferior del cuadro, pero dentro del mismo. En el encabezamiento puede haber columnas para subtotales si es necesario. - El cuerpo del cuadro corresponde a la parte numérica, información o contenido. Si la primera columna del cuadro se utiliza para describir una característica cualitativa, los nombres que toma se ubicarán en las diferentes líneas, pudiéndose usar letras mayúsculas o minúsculas, seguida de puntos suspensivos, hasta el comienzo de la segunda columna, en caso de que no se tengan los renglones trazados. Cuadro Nº ______ TÍTULO (¿Qué?, ¿cómo?, ¿dónde?, ¿cuándo?)
Encabezamiento
TÍTULO
EN MAYÚSCULA
TÍTULO MAYÚSCULA
Subtítulos en minúscula
TOTAL
Cuerpo
Totales... Fuente Pie Llamadas Convenciones, etc. Se debe tener cuidado con el contenido (cuerpo) del cuadro, ya que si no se conoce la información o cantidad, el espacio correspondiente no debe dejarse en blanco o colocar ceros y en ese lugar se colocarán guiones o cifras. Ahora, si no se tiene información, se debe hacer una indicación o llamada, colocada en dicho espacio. Se presentan a continuación algunas convenciones utilizadas en algunas publicaciones oficiales.
* = (...) = ® =
Cantidad inferior a la unidad aceptada No hay cifras disponibles Cifras revisadas
Capítulo 4. Elaboración de tablas o cuadros
∆ = Estimaciones = Información suspendida ( - ) = Sin movimiento = Datos provisionales.
• El cuadro se cerrará por encima y por debajo con líneas más fuertes (o doble línea) que las utilizadas en el interior del cuadro. Por presentación no se cierra a los lados. • Deberán especificarse la unidades de medida utilizadas para la descripción de las características. En el caso de que se quiera presentar cifras relativas o porcentuales, no se excluirán del mismo las respectivas frecuencias absolutas. • Pie. Será utilizado el espacio debajo del cuadro, para dar referencia al origen de los datos, es decir, de dónde fueron tomados. Además, para dar explicaciones sobre las abreviaturas, símbolos o códigos utilizados; también servirá dicho espacio para indicar si el cuadro fue tomado de otra publicación, haciendo claridad sobre la fuente, autor, página, etc. DISTRIBUCIÓN DE FRECUENCIAS
La tabla de frecuencias tiene como finalidad presentar en forma ordenada los valores que toman las diferentes características, en tal forma que permitan al lector tener una visión de conjunto, aclarando el texto del informe o complementándolo. Bajo este principio los datos se clasifican y ordenan de acuerdo a ciertas características cualitativas y/o cuantitativas, indicándose el número de veces que se repiten.
Atributos No nos detendremos en la elaboración de tablas ni en el proceso de análisis que se sigue en el caso de atributos o de aspectos cualitativos, ya que la finalidad de este curso se concentra en el estudio de fenómenos cuantitativos o variables. Solamente se presentará como vía de ejemplo la Tabla 4.8 para mostrar cómo se clasifica o se tabula la información, indicándose el número de veces que el atributo se repite, que se le denomina frecuencia de ocurrencia. La proporción, se obtiene dividiendo al número de observaciones en cada caso por su total, y se le conoce con el nombre de frecuencia relativa de ocurrencia. Es importante destacar, en el caso de atributos, que la característica puede ser analizada, en parte, mediante el cálculo de razones y porcentajes, y, al igual que las variables o características cuantitativas, se pueden representar gráficamente.
45
Estadística básica aplicada
46
Tabla 4.8 Movimientos de embarcaciones en los puertos según banderas - Enero 2019
BANDERAS TABULACIÓN No. %
Hondureña
3
2,48
Inglesa
//// //// //// //// /
21
17,36
//// //// /
11 9,09
Italiana
///
Japonesa
//// ///
Liberiana
//// //// ///
8
6,61
13
10,74
Noruega
//// //// //// ///
18
14.88
Panameña
//// //// //// //// ///
23
19,01
Venezolana
//// /
Otras naciones
//// //// //// ///
Total
6
4,96
18
14,87
121
100,00
Variables Veamos ahora cómo se elabora una tabla de frecuencias, tanto para la variable discreta como para la variable continua. Pero antes se presentará la simbología que se utiliza en la elaboración de estas tablas, necesarias para el cálculo de las diferentes medidas que se aplican en el análisis de los datos. N
= Tamaño poblacional
n
= Tamaño de muestra
Xi
= Característica cuantitativa, observada en cada unidad investigada
ni
= Frecuencia absoluta. Número de veces que se repite cada valor de la variable.
Ni
= Frecuencia absoluta acumulada
hi = Frecuencia relativa. Se obtiene dividiendo cada frecuencia absoluta por el tamaño de la muestra o el tamaño poblacional. Hi
= Frecuencia relativa acumulada
m = Número de valores que toma la variable, número de marcas de clase, o número de intervalos.
= = C =
Variable discreta o marca de clase Los intervalos en que se divide la variable continua. Siendo límite inferior y el límite superior del intervalo. Amplitud del intervalo entre
el
Variable discreta
La elaboración de una tabla de frecuencias, la explicaremos mediante un ejemplo: supongamos que se tienen 300 cajas de madera en la bodega de un almacén y cada una de ellas contiene figuras en porcelana.
Capítulo 4. Elaboración de tablas o cuadros Se desea examinar las cajas con el fin de saber el número de figuras que han sufrido desperfectos en el transporte, desde la fábrica hasta la bodega. Por motivos de tiempo, espacio físico y personal disponible, se toma la decisión de revisar un 10% de las cajas; 30 cajas de un total de 300. N = 300 n = 30
(tamaño de la población objetivo) (tamaño de muestra)
Cada caja seleccionada, en forma aleatoria, se simboliza por xi (minúscula en la muestra y mayúscula en la población), donde el subíndice i toma valores desde uno hasta n, siendo x1 la primera caja seleccionada, x2 la segunda, y así sucesivamente. Cada xi tendrá como valor el correspondiente a la característica examinada; en este ejercicio le corresponderá el número de figuras en porcelana desperfectas. Tabla 4.9 Datos originales o no agrupados
x1 = 2 x6 = 3 x11 = 0 x16 x2 = 1 x7 = 2 x12 = 2 x17 x3 = 1 x8 = 1 x13 = 3 x18 x4 = 0 x9 = 2 x14 = 1 x19 x5 = 3 x10 = 4 x15 = 2 x20
= 2 x21 = 2 x26 = 2 = 3 x22 = 2 x27 = 3 = 0 x23 = 1 x28 = 2 = 3 x24 = 4 x29 = 1 = 2 x25 = 3 x30 = 2
La anterior información la denominaremos, de ahora en adelante, datos sin agrupar o datos originales. Tabulación. En este proceso se requiere, en primer lugar, determinar los valores que toma la variable. Con los datos de la Tabla 4.9, correspondiente al número de figuras desperfectas por caja examinada, encontramos que los valores de la variable son 0,1, 2, 3, 4 tal como puede verse en la Tabla 4.10. En las columnas de tabulación se muestra dos formas de realizar el conteo manual, sobre el número de veces que se presenta cada valor que toma la variable; cada raya corresponde a una observación, evitando hacer acumulados de rayas, de esta manera ///////, que luego al ser contados pueden dar lugar a equivocaciones, de ahí que sea preferible formar grupos de cinco rayas (//// ó ), con lo cual disminuye la posibilidad de error. Para la presentación de un informe habíamos anotado que todo cuadro requiere enumeración si hay varios, además del título completo que indique su contenido, prescindiendo de las columnas utilizadas para la tabulación en la Tabla 4.10, las que son reemplazadas por la frecuencia absoluta, con la posibilidad de agregar otra columna, correspondiente a la frecuencia relativa, la que nos indicará la distribución porcentual. En el mismo cuadro, por ejemplo, se podrá leer que el 10% de las cajas no tienen figuras desperfectas, porcentaje
47
Estadística básica aplicada
48
que se obtiene al dividir la frecuencia absoluta (tres) por el tamaño de la muestra (treinta), y luego se multiplica por 100. 3 × 100 = 10% 30 De ahora en adelante, en el cálculo de promedios o de cualquier otra medida estadística, prescindiremos de los títulos que llevan las columnas y lo reemplazaremos por símbolos, facilitándonos de esta manera la explicación de las diferentes medidas. La variable discreta la simbolizaremos por yi (minúscula para la muestra y mayúscula para la población), donde el subíndice i, toma valores desde 1 hasta m (número de valores que toma la variable). Siendo m = 5, se tendrá: y1 y2 y3 y4 y5. Tabla 4.10 Tabla de frecuencias - Variable discreta
NÚMERO DE FIGURAS DESPERFECTAS
TABULACIÓN
1ª. Forma
NÚMERO DE
2ª. Forma
0 /// 1 //// / 2 //// //// // 3 //// // 4 // Total
CAJAS
%
3 6 12 7 2
0,10 0,20 0,40 0,23 0,07
30 1,00
Tabla 4.11
Tabla 4.12
Tabla de frecuencias
Distribución de frecuencias
yi ni hi Ni Hi
yi ni hi Ni Hi
y1 n1 h1 N1 H1
0
3 0,10 3 0,10
y2 n2 h2 N2 H2
1
6 0,20 9 0,30
y3 n3 h3 N3 H3
2 12 0,40 21 0,70
y4 n4 h4 N4 H4
3
7 0,23 28 0,93
y5 n5 h5 N5 H5
4
2 0,07 30 1,00
Σ n 1,00 - -
Σ 30 1,00 - -
Además, la frecuencia absoluta se simbolizará por ni, al igual que en yi, donde i toma valores desde 1 hasta m. Otras columnas que podrá tener la tabla de frecuencias, dependiendo de la necesidad que se tenga en cada caso particular, son hi (frecuencia relativa),
Capítulo 4. Elaboración de tablas o cuadros
49
Ni (frecuencia absoluta acumulada), Hi (frecuencia relativa acumulada). Los anteriores símbolos se presentan en la Tabla 4.11. Utilizando la información de la Tabla 4.10, calcularemos las frecuencias absolutas, relativas y acumuladas, tal como puede verse en la Tabla 4.12. n El cálculo de la frecuencia relativa se efectúa en la siguiente forma: hi= i n Se tendría que: h5 =
(se aproximó)
n5 2 = = 0, 07 ó 7% (se aproximó, de tal manera que si sumamos las anteriores n 30
frecuencias relativas el resultado será 1). Se podrá observar en la Tabla 4.12, que la frecuencia absoluta nos indica, que de las 30 cajas examinadas, tres de ellas no presentaron figuras imperfectas; seis cajas presentaron una figura imperfectas, y así sucesivamente. La frecuencia relativa indica lo mismo, pero en términos porcentuales, así: un 10% de las cajas examinadas no presentaron figuras imperfectas, el 20% de las cajas tienen una figura desperfecta, etc. La obtención de las frecuencias absolutas acumuladas se hace por medio de sumas sucesivas, las que se simbolizan por Ni. La columna de Ni no se suma, y la última frecuencia absoluta será igual a n.
N1=n1=3 N3=n1+n2+n3=N2+n3 N3=3+6+12=9+12=21 N5=n1+n2+n3+n4+n5=N4+n5
N2=n1+n2+=N1+n2
N2=3+6=3+6=9 N4=n1+n2+n3+n4=N3+n4
N4=3+6+12+7=21+7=28
N5=3+6+12+7+2=21+2=30
Al igual que en las frecuencias absolutas acumuladas, se procede para la obtención de las frecuencias relativas acumuladas:
H1=h1=0,10
H2= h1 + h2 = H1 + h2 = 0,30
H3=h1+h2+h3=H2+h3=0,70 N4=h1+h2+h3+h4=H3+h4=0,93 H 5 = h1 + h2 + h3 + h4 + h5 = H 4 + h5 = 1, 00
Ejercicio. La fábrica de gaseosas La Sed proyecta lanzar al mercado un nuevo sabor. Se realiza un test de aceptación de dicho sabor en una muestra de 30 niños, utilizando una
Estadística básica aplicada
50
escala de 10 puntos, para medir el grado de aceptación. Los puntos obtenidos en los 30 niños fueron los siguientes: 2 6 8 7 4 5 10 6 6 7 6 7 3 8 7 6 8 6 5 4 7 8 5 7 6 7 2 7 2 7 La muestra estuvo compuesta por igual número de niños de ambos sexos, de 6 a 12 años, pertenecientes a una concentración escolar del barrio El Edén de la ciudad de Cuenca.
a) ¿Cuál es la población? b) ¿Cuál es la muestra? c) ¿La característica es cualitativa o cuantitativa? d) ¿Cuál es la variable? e) ¿De qué tipo es la variable? f) Construir una distribución de frecuencias. g) ¿Cuál es el valor de m? h) Determinar los valores para: y2 y5 n1 n4 h2 h5 N7 N8 H4 H8
Solución
a) Niños de 6 a 12 años de edad de ambos sexos, matriculados en la concentración escolar, del barrio el Eden. b) La muestra la conformaron 30 niños, 15 varones y 15 niñas c) La característica es cuantitativa (variable). d) La variable está dada por puntos de aceptación del nuevo sabor e) La variable es discreta, pues se utilizaron números enteros de 1 a 10, sin considerar fracciones. f) La tabla de frecuencias será:
yi
ni
hi
Ni
Hi
2 3 0,10 3 0,10 3 1 0,03 4 0,13 4 2 0,07 6 0,20 5 3 0,10 9 0,30 6 7 0,23 16 0,53 7 9 0,30 25 0,83 8 4 0,14 29 0,97 10 1 0,03 30 1,00 Σ 30 1,00 - -
g) El número de valores que toma la variable es 8. (m = 8) h) y2 = 3 y5 = 6 n1 = 3 n4 = 3 h2 = 0,03 h5 = 0,23 N8 = 30
Capítulo 4. Elaboración de tablas o cuadros
Variable continua
Consideremos nuevamente la población de 300 cajas (N = 300) y seleccionemos aleatoriamente una muestra de 30 cajas (n = 30), o sea el 10%, a fin de investigar el peso en kg de cada caja. La información sobre el peso de cada caja, se da en números enteros con el fin de simplificar el trabajo, sin olvidar que la medida (peso) utilizada admite valores fraccionarios (libras y onzas), por tal motivo se le clasifica como variable continua. Tabla 4.13 Datos sin agrupar
x1 = 48
x7 = 70
x13 = 92
x19 = 85
x25 = 52
x3 = 60
x9 = 72
x15 = 69
x21 = 82
x27 = 76
x2 = 56 x4 = 67 x5 = 47 x6 = 70
x8 = 63 x10 = 76 x11 = 74
x12 = 67
x14 = 70 x16 = 61 x17 = 71 x18 = 79
x20 = 68 x22 = 55 x23 = 65 x24 = 88
x26 = 58 x28 = 57 x29 = 72 x30 = 67
En la elaboración de la tabla o cuadro de frecuencias, se deben observar los siguientes pasos: a) Se determina el valor máximo y mínimo que toma xi: xmin=47 xmax=92 b) La diferencia que hay entre el valor máximo y el mínimo se denomina rango o recorrido:
xmax − xmin
= rango o recorrido Rango = 92 - 47 = 45
c) Se hace necesario determinar el número de intervalos (m) que se utilizará para agrupar los datos: m = número de intervalos o marcas de clase. Una de las formas de obtener m es aplicando la regla de Sturges, con la cual se obtiene una aproximación aceptable sobre el número de intervalos necesarios para agruparlos. m = 1 + 3,3 log n Aplicando dicha fórmula al ejercicio de las 30 cajas, cuya información aparece en la Tabla 4.13 se tendrá: m = 1 + 3,3 log 30 m = 1 + 3,3 (1,4771) = 1 + 4,8744 = 5,87 El número de intervalos, de acuerdo a la regla de Sturges, estará entre 5 o 6. Utilizaremos en nuestro ejercicio seis intervalos (m = 6).
51
Estadística básica aplicada
52
En la práctica m se determina atendiendo varios factores, tales como: finalidad del estudio, grado de variabilidad de los datos, necesidad de efectuar comparaciones. En todo caso, se recomienda que el valor de m hasta donde sea posible, no sea menor de 5, ni mayor de 16. d) Una vez determinado el número de intervalos, se debe decidir sobre el valor de la amplitud para cada intervalo: Al determinar el valor de C, no es necesario que ésta sea igual para todos los intervalos, tal como acontece en numerosos casos prácticos. Sin embargo, con fines de simplificación y de funcionalidad, se puede considerar el valor de C constante para todos los intervalos. Dicho valor constante se obtiene aplicando la fórmula siguiente:
xmáx-xmín rango = m m en nuestro ejercicio se tendrá: xmáx-xmín 92-47 45 = =7,5 = C= 6 m 6 C=
Para facilitar los cálculos se aproximaría C a 8, siempre al número inmediatamente superior por pequeña que sea la fracción; por lo tanto se altera el valor del rango. Si recordamos que m fue fijado y no se debe cambiar, se tendrá:
(anteriormente)
(ahora) 8=
rango 48 ⇒8= 6 6
El rango se incrementa en tres unidades, de 45 pasó a 48. El incremento debe ser distribuido ojalá proporcionalmente, sumando unas unidades al límite superior y restándole otras al límite inferior. Las situaciones que se pueden presentar al hacer la repartición del incremento se exponen a continuación. Cualquiera de las situaciones siguientes en la determinación de los límites del nuevo rango son válidas, siendo preferible distribuir dicho incremento en forma proporcional.
Xmáx - Xmín =
92 95 94 93 92
-
47 47 46 45 44
= = = = =
Recorrido 45 (originalmente) 48 48 (nuevo rango) 48 48
Capítulo 4. Elaboración de tablas o cuadros
Esta es la razón por la cual se tomará como:
53
y
e) La columna correspondiente a la variable continua se simbolizará por minúsculas para la muestra y mayúsculas en la población). = límite inferior del intervalo
(ambas
= límite superior del intervalo
f) La Tabla 4.15 sobre frecuencias se basa en la información de la Tabla 4.13 y corresponde al peso de cada una de las 30 cajas examinadas. Para la elaboración de los intervalos, se inicia con la determinación del valor de Xmin en el nuevo rango, siendo en nuestro caso 46, el cual se toma como límite inferior ( yi, ) del primer intervalo, luego se procede a agregarle el valor de la amplitud para así obtener el límite superior ( yi, ), que será a su vez el límite inferior del segundo intervalo, al cual se le agrega nuevamente el valor de C para obtener el límite superior del segundo intervalo, y así sucesivamente hasta conformar la columna de la variable continua. Tabla 4.14 Se presenta un cuadro de frecuencias, incluyendo una columna para las marcas de clase
,
y0-y
, 1
y ,1 - y , 2 ,
,
,
,
,
,
n1 h1 N1 H1 y
n2 h2 N2 H2 y2
y2-y3 y3-y4
y4-y5
y ,5 - y , 6
,
1
n3 h3 N3 H3 y3
n4 h4 N4 H4
n5 h5 N5 H5
Σ
,
yi
ni hi Ni Hi
n6 h6
N6 H6
n 1,00 - -
y4
y5
y6
-
Xi-1-Xi fi fi/n Fi Hi Xi
Marcas de clase
Estadística básica aplicada
54
Tabla 4.15 Tabla de frecuencias. Variable continua
Tabulación
46,1 - 54 54,1 - 62 62,1 - 70 70,1 - 78 78,1 - 86 86,1 - 94 Σ
/// //// / //// //// //// / /// // -
ni
hi
Ni
Hi
yi
3 0,10 3 0,10 6 0,20 9 0,30 10 0,33 19 0,63 6 0,20 25 0,83 3 0,10 28 0,93 2 0,07 30 1,00 30 1,00 - -
50 58 66 74 82 90 -
Se observará también que a cada uno de los límites inferiores de los intervalos se les agregó 0,1, con el fin de facilitar la clasificación de cada observación, así por ejemplo x6 = 70 estaría considerada en el intervalo 62,1 - 70 y no en el intervalo de 70,1 - 78, procedimiento que evita la dificultad de no saber dónde clasificar dicho valor al tener intervalos, tales como (62 - 70) y (70 - 78). Debe quedar bien claro que la amplitud del intervalo sigue siendo 8 y que el 0,1 es usado únicamente como ayuda para la clasificación.
Otra forma de clasificar la información de la Tabla 4.13 puede ser la siguiente: , yi-1 - y ,i 46 - 53,9 54 - 61,9 62 - 69,9 70 - 77,9 78 - 85,9 86 - 93,9 Es este caso el valor de x = 70 quedará incluido en el intervalo 70 - 77,9.
En las tablas de frecuencias (Tablas 4.14 y 4.15) la columna simbolizada por yi se denomina marca de clase, la cual sirve para facilitar el cálculo de algunas medidas de posición y de dispersión. El cálculo de estas marcas de clase se puede obtener de tres formas diferentes: 1. Como promedio de los límites de cada intervalo:
y1 =
y0, + y1, 46 + 54 = = 50 2 2
Capítulo 4. Elaboración de tablas o cuadros
y1, + y2, 54 + 62 y2 = = = 58 2 2
y3 =
y2, + y3, 62 + 70 = = 66 2 2
. . . . . . . . . . . .
y5, + y6, 86 + 94 y6 = = = 90 2 2
2. Si la amplitud (C) del intervalo es constante, basta con determinar la primera marca de clase, de acuerdo con el método anterior, luego se le va sumando el valor de la amplitud, tal como se presenta a continuación:
y1 =
y0, + y1, 46 + 54 = = 50 2 2
y2 = y1 + C = 50 + 8 = 58
y3 = y2 + C = 58 + 8 = 66
y4 = y3 + C = 66 + 8 = 74
y así sucesivamente.
3. Otro método para hallar las marcas de clase, consiste en dividir la amplitud de cada intervalo por dos, luego, este resultado se le suma al límite inferior del respectivo intervalo, o se le resta al límite superior.
C 8 = 46 + = 46 + 4 = 50 2 2 8 C y2 = y1, + = 54 + = 54 + 4 = 58 2 2 y1 = y0, +
y3 = y2, +
C 8 = 62 + = 62 + 4 = 66 2 2
y así sucesivamente.
Nota. En una variable, ya sea discreta o continua, cuando las frecuencias absolutas y las relativas equidistantes a un valor central son iguales, se dice que la distribución es simétrica como se puede observar en las Tablas 4.16 y 4.17.
55
Estadística básica aplicada
56
Tabla 4.16 Variable discreta
Tabla 4.17 Variable continua
yi
ni
hi
yi,-1 - yi,
ni
hi
3 6 9 12 15 S
2 5 6 5 2 20
0,10 0,25 0,30 0,25 0,10 1,00
igual o menor de 30 30,1 - 46 46,1 - 54 54,1 - 70 70,1 - 78 78,1 y mas
8 12 20 20 12 8
0,10 0,15 0,25 0,25 0,15 0,10
Xi
fi
fi n
80 1,00
S
X
, i -1
-X
, i
fi
fi /n
Ejercicios 1. Los siguientes datos, corresponden a una distribución de frecuencias, de los gastos en publicidad (en miles de millones de $) de 50 empresas comerciales, durante el primer trimestre del año 2019. Dichos gastos se agruparon en cuatro clases de amplitud constante, de la cual se sabe: y1 = 3,5
y4, = 8,75 n = 4 N = 20 n = 25 1 2 3
Se pide elaborar una tabla de frecuencias. Solución: 1 y0, + C = y1 2 , y0 + 4C = y4,
Reemplazando
y0, + 0,5C = 3,5
Reemplazando
y0, + 4C = 8, 75
Si al límite inferior del primer intervalo le sumamos la mitad de C se obtendrá la primera marca de clase. Ahora, si al mismo límite le sumamos cuatro veces el valor de C, se obtendrá el límite superior del cuarto intervalo. Se tienen dos ecuaciones con dos incógnitas. Ahora obtendremos el valor de C, multiplicando a la primera ecuación por -1 y luego se la restamos a la segunda ecuación:
yo, + 4C = 8, 75
− yo, − 0,5C = 5, 25 3,5C = 5, 25
C=
5, 25 =1,5 3,50
Capítulo 4. Elaboración de tablas o cuadros
, , yi −1 − yi
2,75 4,25 5,75 7,25
-
4,25 5,75 7,25 8,75
S
yi
ni
Ni
hi
3,5 5,0 6,5 8,0
4 16 25 5
4 20 45 50
0,08 0,32 0,50 0,10
0,08 0,40 0,90 1,00
-
50
-
1,00
-
57
Hi
2. Con los datos siguientes, se pide elaborar una tabla de frecuencias sabiendo que la distribución es simétrica. m = 7; n1 = 8; n2 + n5 = 62; H6 = 0,96; C = 10; h3 = 0,21; y3n3 = 1.260 Solución a) H7 = H6 + h7 1,00 = 0,96 + h7 h7 = 1 - 0,96 = 0,04 h7 = h1 = 0,04
n n hi = i b) c) h3 = 3 n n
h1 =
n1 n
h3 ( n ) = n3
( 0, 21)( 200 ) = n3
8 0, 04 = n n=
n3 = 42
n3 = n5 = 42
8 = 200 0, 04
n2 + n5 = 62 d) e) y3n3 = 1.260 y 3 (42) = 1.260 n2 + 42 = 62 1.260 = 30 y3 = n2 = 62 − 42 = 20 42 n2 = n6 = 20
, - y, yi-1 i
yi ni Ni hi
Hi
5,1 - 15 15,1 - 25 25,1 - 35 35,1 - 45 45,1 - 55 55,1 - 65 65,1 - 75
10 20 30 40 50 60 70
0,04 80 0,14 400 0,35 1.260 0,65 2.400 0,86 2.100 0,96 1.200 1,00 560
y3 = y2, +
,
S
,
-
8 20 42 60 42 20 8 200
8 28 70 130 172 192 200
0,04 0,10 0,21 0,30 0,21 0,10 0,04
-
1,00
-
yi ni
8.000
Xi-18-Xi Xi fi Fi fi /n Hi Xi fi C = 62 + = 62 + 4 = 66 2 2
Estadística básica aplicada
58
f) Cálculo de las marcas de clase
g) Cálculo del límite inferior C = 10 − 5 = 5 2
y2 - C = y1 = 20 - 10 = 10
y0, = y1 −
y3 - C = y2 = 30 - 10 = 20
(límite inferior del primer intervalo)
y3 + C = y4 = 30 + 10 = 40
y1, = y2 −
y4 + C = y5 = 40 + 10 = 50
C = 20 − 5 = 15 2
(límite inferior del segundo intervalo)
así sucesivamente. h) Cálculo del límite superior
y0, + C = y1, = 5 + 10 = 15
(límite superior del primer intervalo) y1, + C = y2, = 15 + 10 = 25
(límite superior del segundo intervalo)
PROPIEDADES DE LAS FRECUENCIAS
- Las frecuencias absolutas son números enteros. - La suma de las frecuencias absolutas es igual al tamaño de la muestra (n) o al de la población (N): m
∑ ni = n1 + n2 + n3 + ... + nm = n i =1
m
∑ ni = n
i =1
Observando la Tabla 4.12 se tendrá que: 5
∑ ni = n1 + n2 + n3 + n4 + n5 = n i =1
5
∑ ni = 3 + 6 + 12 + 7 + 2 = 30 i =1
- Las frecuencias relativas son números fraccionarios:
0 < hi < 1
- La suma de las frecuencias relativas es igual a 1: m
∑ hi = h1 + h2 + h3 + ... + hm i =1
Con los datos de la Tabla 4.12 se comprobará que la suma de hi es igual a 1: 5
∑ hi = h1 + h2 + h3 + h4 + h5 = 1 = 0,10 + 0, 20 + 0, 40 + 0, 23 + 0, 07 = 1 i =1
Capítulo 4. Elaboración de tablas o cuadros
59
- El último término de las frecuencias absolutas acumuladas es igual a n:
Nm = n
N5 = 30
- El último término de las frecuencias relativas acumuladas es igual a 1: Hm = 1
H5 = 1
RESUMEN DEL CAPÍTULO
La observación de los hechos no tendría importancia si los datos recogidos no se ordenaran y clasificaran en cuadros simples y concisos. Para el ordenamiento de la observación se requiere determinar la característica, si es cualitativa o cuantitativa; la primera se denomina atributo y la segunda variable. La variable puede ser discreta o continua. La variable discreta admite únicamente valores enteros y la continua considera valores fraccionarios. Las columnas de las tablas o cuadros utilizados en los cálculos estadísticos, se identifican mediante símbolos. De acuerdo con el número de atributos o variables que tenga un cuadro, se dice que corresponde a una distribución unidimensional, bidimensional o pluridimensional. Términos para recordar Atributos Amplitud Características Características cualitativas Características cuantitativas Distribución de frecuencias Distribución unidimensional
Distribución bidimensional Distribución multidimensional Frecuencias relativas Frecuencias acumuladas Intervalo Límite superior del intervalo Límite inferior del intervalo
Marcas de clase Rango o recorrido Regla de Sturges Tablas de frecuencias Variables Variables discretas Variables continuas
Ejercicios propuestos 1. Contestar verdadero o falso, según el caso: a) Es regla fija que el número de intervalos que debe tener una distribución de frecuencias no debe ser menor de 12. b) Para calcular la marca de clase, se suma el límite inferior del intervalo al límite superior y se divide por dos. c) No hay diferencia alguna entre variable continua y variable discreta.
Estadística básica aplicada
60
d) Dos propósitos básicos en la preparación de una distribución de frecuencias son: el modo de facilitar el entendimiento de la naturaleza de la distribución y el presentar los datos en una forma conveniente para su uso posterior. e) El número de accidentes de trabajo según las causas es un caso de variable discreta. f) La suma de las frecuencias absolutas es igual a uno. g) H5 = 1,10 H4 = 0,80 h5 = 0,30 h) Si H6 = 0,7 y H4 = 0,30, un 40% de los valores de la variable es menor que y6 y mayor que y4. i) H5 = 0,36 N4 = 30 n5 = 6 n = 50 j) m = 6 h1 = 0,2 h4 = 0,2 H3 + H4 = 1,9 H2 = 0,6 k) H4 = 0,20 H5 = 0,12 h5 = -0,08 l) h2 = 0,40 n = 50 n1 = 30. m) El valor de m se puede obtener aplicando la fórmula m = 3,3 log n. 2. Señalar la respuesta correcta, en cada caso. 2.1 Al preparar una distribución de frecuencias para variable continua: a) Se pierde siempre algún dato debido a la condensación de la información. b) Se conserva la identidad de cada dato. c) Se conservan siempre los datos detallados en la distribución. d) Se pierde la información, de cada valor observado. 2.2 El punto medio del intervalo de una distribución de frecuencias debe escogerse en forma tal que: a) Termine siempre en 0 o en 5. b) Represente el valor alrededor del cual tienden a concentrarse los distintos valores que se incluyen en el intervalo. c) No arroje duda sobre el resto de la distribución. d) Ninguna de las anteriores respuestas. 3. El jefe de personal de una empresa encontró que el número de días que los 50 empleados habían tomado por incapacidad médica, era: 1 20 9 7 15 9 6 10 22 2 22 10 3 2 3 10 10 3 6 25 9 10 6 5 3 22 9 1 5 10 10 9 9 25 9 25 5 3 6 9 7 16 4 15 25 5 9 10 3 6
Tomando como variable días de incapacidad (enteros) elaborar una tabla de frecuencias y determinar el valor de: x21 y4 n3 N4 h5 H6 m
Capítulo 4. Elaboración de tablas o cuadros 4. Supongamos que el jefe de ventas investiga los precios (en miles $) de cierto artículo en 40 almacenes diferentes y encuentra los siguientes datos: 76 85 80 88 74 65 91 89 76 83 71 70 86 67 68 73 77 71 75 75 68 74 72 75 84 75 75 73 87 68 79 70 72 63 77 89 60 72 83 88
Se pide elaborar una tabla de frecuencias para esta variable continua.
5. Se realiza un estudio en el barrio El Futuro de la ciudad de Caracas a 150 hogares de clase media, para conocer la clase de aceite o manteca usada en la cocina, los resultados son los siguientes: maíz, 14 hogares; soya, 65 hogares; ajonjolí, 21 hogares; compran aceite al detal sin especificaciones de clase, 17 hogares; manteca de cerdo, 21 hogares; grasas de origen vegetal, 6 hogares; oliva, 13 hogares.
a) ¿Cuál es la población? b) ¿ Cuál es el tamaño de la muestra? c) ¿Cuál es la unidad en la investigación? d) ¿Cuál es la característica? e) ¿Cuántas clases tiene la distribución? f) Construir una distribución de frecuencias en el mismo orden indicado. g) ¿Cómo se explica que la suma de las frecuencias sea superior al número de hogares?
6. Reconstruir la siguiente distribución simétrica.
yi
ni
Hi
10
6
0,12
20
-
0,32
30
-
-
40
-
-
50
-
-
i X
fi
Fi n
7. Dar dos ejemplos de distribuciones unidimensionales, dos bidimensionales y dos multidimensionales, relacionadas con la economía del país. 8. Señalar cuatro ejemplos de variable discreta, tres de continua y dos de atributos.
61
62
Estadística básica aplicada 9. Según la regla Sturges, ¿cuántas clases o intervalos se obtendrían para una muestra que contiene: (a) 50 observaciones, (b) 80 observaciones, (c) 1.200 observaciones, (d) 5.000 observaciones. 10. En las preguntas enumeradas del 1 a 5 señale con un círculo la respuesta correcta. 11. Al construir una distribución de frecuencias de un conjunto de datos, el número de clases o intervalos depende: a. El número de datos b El alcance de los datos recolectados c. El tamaño de la población d. Lo incisos a y b pero no c e. Ninguna de las anteriores
c. Determinar el número de intervalos d. Las frecuencias relativas e. Ninguna de las anteriores 15. En la construcción de una distribución de frecuencias, lo que resulta de dividir el rango o recorrido entre el número de intervalos corresponde a: a. Las marcas de clase b. Las frecuencias relativas c. La amplitud de los intervalos d. El rango o recorrido e. Ninguna de las anteriores
Cuestionario de evaluación
12. Como regla general, ¿qué cantidad de intervalos (o clases) tienden a utilizar los especialistas en estadística cuando organizan datos? a. Menos cinco b. Entre uno y cinco c. Más de 30 d. Entre 20 y 25 e. Ninguna de las anteriores
1. Una distribución es simétrica cuando: a) La amplitud es constante. b) Los extremos de la variable no están definidos c) Las frecuencias absolutas y relativas equidistantes a un valor central son iguales. d) Los datos no están agrupados. e) Ninguna de las anteriores.
13. Una distribución de frecuencias relativas representa las frecuencias en términos de: a. Fracciones b. Números enteros c. Porcentajes d. Todos los incisos anteriores e. Los incisos a y c
2. El número de personas en una empresa, clasificadas según el cargo, es un ejemplo de: a) Características cuantitativas b) Variable discreta c) Variable continua d) Regresión e) Atributo
14. En la elaboración de una distribución de frecuencias, la fórmula de Sturges se usa para: a. Determinar el rango o recorrido b. Determinar la amplitud de los intervalos
3. El número de manzanas podridas por caja, al examinar un lote de 50 cajas, es un ejemplo de: a) Rango
Capítulo 4. Elaboración de tablas o cuadros b) Atributo c) Variable continua d) Variable discreta e) Ninguna de las anteriores 4. El intervalo de clase o amplitud se define como: a) El valor central de cada intervalo b) La semisuma de los límites superior e inferior de cada clase. c) La diferencia entre el límite superior e inferior del intervalo d) La suma entre el límite superior e inferior del intervalo. e) Ninguna de las anteriores
d) Se representan mediante números enteros. e) Ninguna de las anteriores. 7. Si n = 50 el valor de m (marcas de clase) aplicando la fórmula de Sturges es:
a) 4 b) 5 c) 7 d) 8 e) 9
8. El último término de frecuencia absoluta acumulada es igual a: a) Uno b) n c) Amplitud d) Rango e) Ninguna de las anteriores
5. La clasificación del número de accidentes de tránsito, según las causas que lo originan, es un ejemplo de: a) Característica cuantitativa b) Característica cualitativa c) Variable d) Rango e) Marcas de clase.
9. La suma de las frecuencias absolutas es igual a: a) Uno b) Tamaño de la muestra c) Rango d) A la amplitud e) Marcas de clase.
6. Las características cualitativas son aquellas que: a) Asumen diversas formas de descripción. b) Unicamente se pueden cuantificar mediante el conteo. c) Se pueden medir.
10. Una variable tomada en horas es un ejemplo de: a) Atributos b) Variable discreta c) Rango d) Variable continua e) Población infinita.
63
Capítulo 5 ELABORACIÓN DE GRÁFICAS
OBJETIVOS
•• Determinar la importancia de las gráficas en la visualización de la información. •• Identificar las clases de gráficas y los componentes de las mismas. •• Desarrollar destrezas para elaborar e interpretar gráficas.
CONTENIDO
•• Diagramas. •• Histogramas. •• Polígonos. •• Ojivas. •• Pictogramas. •• Cartogramas. •• Lineales.
• • • • • •
Diagramas de barras. Diagrama circular. Cuadrados y triángulos. Gráficas de Gantt. Pirámides. Otras gráficas.
INTRODUCCIÓN
La presentación de las informaciones obtenidas en encuestas, se puede realizar de varias formas:
• Textual (en forma de texto)
• Cuadros
• Gráficas
Cuando el informe se hace en forma textual, se trata de una presentación simple y limitada, tal como sucede en los reportajes o artículos periodísticos, donde los datos aparecen intercalados con los comentarios y con las conclusiones derivadas de las interpretaciones de los mismos, en una forma ligera y descriptiva. En un informe textual complementado con cuadros, estos sirven de ayuda al lector para entender o ampliar el texto. Sin embargo, la utilización del texto y cuadros no es suficiente para la presentación de un buen informe, ya que la lectura del texto implicará un tiempo precioso para entender todo el contenido; ahora, si el lector se remite a los cuadros, encontrará unas cifras, que en algunos casos no le aclaran lo suficiente y en otros, no le dicen mucho sobre el problema estudiado, de ahí que sea necesario que el informe vaya acompañado de gráficas, no como sustituto de las formas anteriores de presentación, sino como la mejor manera de visualizar la información.
Estadística básica aplicada
66
REGLAS PARA LA ELABORACIÓN DE GRÁFICAS
La forma de la gráfica depende en gran parte del gusto de la persona que la elabora; sin embargo, hay ciertos principios generales que se deben tener en cuenta en el logro de una buena gráfica. Indicaremos a continuación, algunos de los principios más aceptados. - La mejor gráfica es la más simple. Las líneas y símbolos usados, deben ser los estrictamente indispensables para una mejor visualización de la información. - Si hay más de dos gráficas (figuras), deben ser numeradas, indicándose: Gráfica Nº1; Gráfica Nº2, y así sucesivamente. - Toda gráfica debe llevar un título que aclare su contenido. Se dice que debe responder a los interrogantes: qué, cómo, cuándo y dónde. - La posición del título en la gráfica se considera de gusto personal, de ahí que algunos aconsejan que debe ser colocado en la parte superior, y, otros, que debe estar en la parte inferior. - Las líneas que llevan escalas, deben dibujarse más gruesas que las demás coordenadas; a su vez, las líneas que representan los datos o la variable deben ser más gruesas que las de las escalas. - La línea vertical, denominada ordenada, se utliliza para representar las frecuencias, las cuales deben comenzar en cero. - Las características cualitativas y cuantitativas, por lo general, van en la línea horizontal o abscisa. - La lectura de la escala del eje horizontal se hace de izquierda a derecha. La lectura del eje vertical, debe hacerse de abajo hacia arriba. - La representación del fenómeno debe variar sólo en una dimensión. - En toda gráfica se debe explicar la fuente en donde fueron obtenidos los datos; además, aclarar las escalas, leyendas, notas y convenciones que ayuden a identificar las características presentadas. - Las gráficas deben ser lo bastante sencillas para procurar una idea clara y ser comprensibles sin la ayuda de las descripciones del texto. - Los datos numéricos sobre los que se basa la gráfica deben presentarse en cuadro (tabla) adjunto, si no son incluidos en la misma gráfica. - Las gráficas deben seguir, y nunca preceder a la exposición del texto. - Cuando la gráfica presenta más de una variable, deberá hacerse una muy clara diferenciación por medio de leyendas, notas o signos convencionales.
Tipos de gráficas Hay numerosos tipos de gráficas y, por lo general, se clasifican en cuatro grandes grupos, como puede verse en la Figura 5.1.
Capítulo 5. Elaboración de gráficas
67
Veamos detenidamente algunas gráficas, especialmente aquellas que son consideradas como las más usuales, sin tener en cuenta la clasificación que se da en la figura 5.1
• Diagramas de frecuencias. • Histogramas. • Polígonos. • Ojivas. • Pictogramas • Cartogramas
• Diagramas de barras • Diagrama circular • Diagrama de líneas • Cuadrados y triángulos • Gráficas de Gantt • Pirámides
Figura 5.1 Tipos de gráficas
De puntos Rectilíneas Lineales Diagramas Curvilíneas Rectangulares (barras) Superficiales Triangulares Cuadrados Circulares (pastel) Gráficas Cúbicas Prismáticas Estereometrías Pirámides Pictogramas Cartogramas Mapas estadísticos Cartodiagramas
Diagrama de frecuencias Los diagramas se utilizan para representar a la variable discreta. Consideremos la información de la tabla 4.12 para elaborar un diagrama de frecuencias. En el eje horizontal colocamos los valores que toma la variable (yi), y en el eje vertical, las frecuencias absolutas (ni) o las relativas (hi). Para cada valor de la variable le corresponderá una frecuencia, indicándose en el plano cartesiano mediante un punto; luego, partiendo de ese punto, tomado como referencia, trazamos una perpendicular al eje horizontal y, de esta manera, se obtendrán las barras con las cuales representamos a la variable. Ver gráficas de las figuras 5.2 y 5.3. Tabla 4.12 Variable discreta
yi
ni
hi
0 1 2 3 4 Σ
3 6 12 7 2 30
0,10 0,20 0,40 0,24 0,06 1,00
X i
fi
fi n
Figura 5.2 Frecuencias absolutas
Figura 5.3 Frecuencias relativas
hi
ni
0,40
12 11 10 9 8 7 6 5 4 3 2 1
0,35 0,30 0,25 0,20 0,15 0,10 0,05 0
1
2
3
4
yi
0
1
2
3
4
yi
Estadística básica aplicada
68 Tabla 4.12
Figura 5.4
Variable discreta
Figura 5.5
Frecuencias absolutas acumuladas
yi Ni Hi
Frecuencias relativas acumuladas
Ni
0 3 0,10 1 9 0,30 2 21 0,70 3 28 0,94 4 30 1,00 Σ - X Fi Fi / n i
Hi
30
1,00
25
0,80
20
0,60
15
0,40
10
0,20
5
0,10
0
1
2
3
yi
4
0
1
2
3
4
yi
También se puede representar la variable, utilizando las frecuencias absolutas acumuladas; por tal razón, se denominan diagramas de frecuencias absolutas acumuladas. Se observará que las líneas que representan la variable van en sentido horizontal, a diferencia de la gráfica anterior cuyas líneas eran verticales. Ver Figuras 5.4 y 5.5. Las gráficas elaboradas con las frecuencias absolutas son exactamente iguales a aquellas en las que se utilizan frecuencias relativas, diferenciándose únicamente en la escala correspondiente a las frecuencias.
Histograma de frecuencias Está formado por un conjunto de rectángulos, cada uno de ellos levantado para cada intervalo, de tal manera que la base será igual a la amplitud C y la altura está dada, ya sea por la frecuencia absoluta o por la relativa. La información presentada en la Tabla 4.15 se utilizará en la elaboración del histograma, como puede verse en las Figuras 5.6 y 5.7, sin embargo, en la confección de este tipo de gráfica, se puede presentar el problema de tener una amplitud no constante, dándonos una gráfica con una imagen engañosa de la distribución que se quiere presentar. Veamos tres situaciones, siendo incorrecta la Figura 5.8 y correctas las Figuras 5.9 y 5.10. Figura 5.6 Histograma de frecuencias absolutas
Figura 5.7 Histograma de frecuencias relativas
hi
ni
0,30
10 9
0,25
8 7
0,20
6 5
0,15
4
0,10
3 2 1
0,05 0
46
54
62
70
78
86
94
, yi-1_ yi,
0
46
54
62
70
78
86
94
,
yi-1_ yi,
Capítulo 5. Elaboración de gráficas
69
Tabla 4.15
Variable contínua
yi,−1 − yi,
ni
hi
46,1 - 54 54,1 - 62 62,1 - 70 70,1 - 78 78,1 - 86 86,1 - 94
3 6 10 6 3 2
0,10 0,20 0,33 0,20 0,10 0,07
Σ
30
1,00
fi
fi n
,
,
Xi-1 − Xi
La mayor altura del primer rectángulo en la Figura 5.8 se debe a una mayor amplitud del intervalo. Así que corregimos la deformación presentada en esa gráfica, reemplazando la frecuencia absoluta ni por el cociente ni/Ci, denominando coeficiente de densidad, con el cual se obtendrá el histograma de la Figura 5.9, diferente al de la Figura 5.8. Otra forma correcta de representar la información de la Tabla 5.1 consiste en trasformar la distribución de tal forma que la amplitud sea constante y que el intervalo respectivo contenga proporcionalmente la frecuencia tal como lo muestran la Tabla 5.2 y la Figura 5.10.
Tabla 5.1 Variable contínua
EDAD NÚMERO DE (años) OBREROS ni
ni 60 50
18,1 - 27 55 27,1 - 30 47 30,1 - 33 32 33,1 - 42 26 Σ 160
Figura 5.8 Histograma (incorrecto).
40 30 20 10
0
18
Tabla 5.1 Variable contínua EDAD (años)
18,1 - 27 27,1 - 30 30,1 - 33 33,1 - 42 Σ
ni Ci
24
27
30
33
36
39
42
Edad (años)
Figura 5.9 Histograma (correcto)
ALTURA
21
ni Ci
55 9 6,11 47 3 15,66 32 3 10,66 26 9 2,88 160 - -
ni/ci 15
10
5
0
18
21
24
27
30
33
36
39
42
Edad (años)
Estadística básica aplicada
70
EDAD (años)
18,1 - 21 21,1 - 24 24,1 - 27 27,1 - 30 30,1 - 33 33,1 - 36 36,1 - 39 39,1 - 42
ni
Figura 5.10 Histograma (correcto)
ni /ci
50 45 35 30 25 20 15 10 5
18 18 55 18 (-1) * 47 32 8 8 26 8 (-2) *
≈
Tabla 5.2 Variable continua
0 18 21 24 27 30 33 36 39 42
Edad (años)
*Pérdida de datos o de información
≈
Se puede observar en los histogramas anteriores que el origen o punto de partida de la variable es cero y luego aparece un corte o puente, de tal manera que permite acortar la distancia entre el origen y el primer valor de la variable. Este mismo corte o puente se puede hacer en el eje vertical u ordenada. Si elaboramos un histograma teniendo en cuenta las frecuencias relativas, se convertirá en una gráfica de gran utilidad para comparar dos o más distribuciones. Consideremos las distribuciones que aparecen en las Tablas 5.3 y 5.3a que serán representadas mediante un histograma (Figura 5.10a), siendo su presentación diferentes si hubiéramos utilizado las frecuencias absolutas.
Figura 5.10a
hi 0,30 0,25 0,20 0,15 0,10 -
≈
0,05 0
20
40
Tabla 5.3 Variable continua
yi,−1 − yi, ni hi 20,1 - 40 40,1 - 60 60,1 - 80 80,1 - 100 100,1 - 120 Σ
2 3 6 5 4 20
0,10 0,15 0,30 0,25 0,20 1,00
60
80
100
120 Variable
Tabla 5.3a Variable continua
hi yi,−1 − yi, ni 20,1 - 40 6 0,10 40,1 - 60 9 0,15 60,1 - 80 18 0,30 80,1 - 100 15 0,25 100,1 - 120 12 0,20 Σ 60 1,00 , , fi fi n Xi-1 − Xi
Capítulo 5. Elaboración de gráficas
71
Polígono de frecuencias
Con la misma información utilizada para la elaboración del histograma (Figura 5.6) se puede dibujar el polígono de frecuencias. En primer lugar, se establecen los puntos medios en la parte superior de cada rectángulo, luego se unen dichos puntos mediante una línea, prolongándose en el primero y último rectángulo tal como se puede observar en la Figura 5.11. También se puede dibujar el polígono, estableciendo los puntos medios del intervalo, denominados marca de clase, que se colocan en el eje horizontal o abscisa. Para cada valor de la variable corresponderá un valor de la frecuencia, señalándose en el plano cartesiano por un punto; luego de establecidos todos los puntos, se unen mediante líneas rectas, las que en conjunto forman el polígono, tal como aparece en la Figura 5.12.
ni
Figura 5.11 Polígono de frecuencias
Figura 5.12 Polígono de frecuencias
ni
10 -
10 9 -
8 -
8 -
7 -
7 -
6 -
6 -
5 -
5 -
4 -
4 -
3 -
3 -
2 -
2 -
1
1
-
≈
-
0
46
54
62
70
78
86
94
yi,−1 − yi,
≈
9 -
0
50
58
66
74
82
90
yi
Ojiva
Para el trazado de esta gráfica, en primer lugar, se ubican los puntos en el plano cartesiano. Dichos puntos se determinan teniendo en cuenta el límite superior de cada intervalo y las respectivas frecuencias absolutas o relativas acumuladas; luego se unen esos puntos, partiendo desde el límite inferior del pimer intervalo, ubicado en el eje horizontal, tal como se presenta en la Figura 5.13 y 5.13a, y para lo cual se utilizó la información de la Tabla 4.15. Tabla 4.15 Variable contínua
Figura 5.13 Ojiva - frecuencias absolutas acumuladas
yi-1, - yi,
Ni
Hi
46,1 - 54 54,1 - 62 62,1 - 70 70,1 - 78 78,1 - 86 86,1 - 94
3 9 19 25 27 30
0,10 0,30 0,63 0,83 0,90 1,00
Ni
Figura 5.13a Ojiva - frecuencias relativas acumuladas
Hi
30 -
1,0 0,9 -
25 -
0,8 -
20 -
0,7 0,6 -
15 -
0,5 -
10 5 3 -
0,4 0,3 -
yi,−1
−
y1,
0,1 -
≈
≈
0,2 -
0 46 54 62 70 78 86 94
0 46 54 62 70 78 86 94
yi,−1 − y1,
Estadística básica aplicada
72 Pictograma
Es una forma de representar las cantidades estadísticas por medio de dibujos, utilizando para ello objetos y figuras. De aqui en adelante, las gráficas que se presentan son utilizadas en informes. Las figuras empleadas deben explicarse por sí mismas. Se acostumbra que el tamaño sea uniforme, como se muestra en la Figura 5.14, indicándose, aparte de las figuras, el valor de una de ellas; en algunos casos, se acostumbra colocar o señalar el valor total del conjunto, buscando de esta manera la eliminación del cuadro. Figura 5.14
Pictogramas Años
2016
Mil toneladas 5.386
2017
7.965
2018 2019
9.350 10.506
Algunos autores señalan que el tamaño puede variar y su altura estará dada por la frecuencia absoluta o la relativa, pero una inmensa mayoría considera que este tipo de representación conduce a errores en su interpretación, especialmente cuando los tamaños de las figuras no son proporcionales a las cantidades que se representan. Si los tamaños de las figuras no son uniformes pero sí proporcionales, como en la Figura 5.15, se tendrá una representación exacta, pero poco expresiva. (Los datos son ficticios) Los pictogramas son usados frecuentemente en propagandas comerciales, conferencias, etc., reemplazando los diagramas por figuras, las que se consideran más expresivas. Así, por ejemplo: si se trata de describir la variación sobre el número de obreros por industria o por años, se representará cierta cantidad de obreros por la figura de un hombre; de la misma manera las exportaciones se representan, ya sea por sacos, barcos, etc. Veamos en la Figura 5.16 algunas figuras uniformes que se pueden utilizar en la elaboración de pictogramas.
Capítulo 5. Elaboración de gráficas
73
Figura 5.15 Producción de cemento 2016 - 2019
Tm 22.500 20.000 17.500 15.000 12.500 2016
2017
2018
2019
años
(Información ficticia) Figura 5.16
= 6.500
= 1.000
= 2.750
= 500
= 1.350
= 300
= 9.000
= 2.000
= 16.500
= 3.000
= 1.100
= 200
= 9.900
= 1.800
= 7.000
= 2.000
Estadística básica aplicada
74
Tabla 5.4 Carga movilizada por puertos y muelles privados - comercio exterior 2019
EXPORTACIÓN SECTOR Toneladas % Muelles oficiales 1.331.269 41 Muelles privados 1.923.764 59 Total: 3.255.033 100
SECTOR IMPORTACIÓN
Muelles oficiales Muelles privados Total Gran total
1.589.670 543.397 2.133.067 5.388.100
75 25 100 -
%
24 36 60
30 10 40 100
Observemos la Figura 5.16a elaborada de tal forma, que logra obtener efectos positivos y muy atractivos, que llaman la atención. Pero debe desconfiarse de este tipo de gráficos, demasiado recargados, que impiden una mejor visualización de la información. Figura 5.16a. Carga movilizada por muelles oficiales y privados. - comercio exterior 2019
Muelles privados
36% 1.923.764 Tons
Muelles oficiales Exportación
24% 1.331.269 Tons
Figura 5.17
Distribución porcentual de los predios de 5 hectáreas respecto al total del país año 2019. Cartograma
Es la representación de una información estadística por medio de mapas, dentro de los cuales se ubican símbolos o figuras; en algunos casos se le incluyen gráficas, para indicar la localización geográfica, así como la importancia del valor de la variable observada en relación con el conjunto, tal como muestra la Figura 5.17.
Muelle
10%
privado
543.397
Muelles oficiales Importación
30%
1.589.670
100
1. 2. 3. 4. 5. 6. 7. 8.
Boyacá 27,2 Cundinamarca 17,6 Nariño 12,3 Antioquia 10,9 Cauca 6,1 Valle 5,5 Tolima 4,3 Caldas 3,9
Capítulo 5. Elaboración de gráficas
75
Diagramas de barras
Es una de las gráficas más utilizadas por su sencillez, para representar las características cuantitativas y cualitativas, aún en aquellos casos en que la información no está dada en tablas de frecuencias. Las barras para representar las características, por lo general, son construidas en forma vertical, sobre una base horizontal, en la cual se colocan las características o el tiempo (años, meses, etc.) y la altura esta dada por los valores o cantidades que toma la variable o el atributo. (Figura 5.18 y 5.18a).
%
Figura 5.18 Participación porcentual de capital neto autorizado (aumento - disminución) de las sociedades reformadas, por actividad económica, según organización jurídica. (Total nacional año 2019)
35
Otras
30 25
Limitadas
20
Anónimas
15 10 5 Explotación de minas; electricidad, gas y agua, serv. comunales; no especificados
Establecimientos financieros
Transporte
Comercio, restaurants y hoteles
Construcción
Industria manufacturera
Agricultura y caza
0
Figura 5.18a Jornales agrícolas. Promedios nacionales ponderados, por clima y modalidad.
Primeros trimestres 2014 - 2019
Clima cálido 16.000
16.000
14.000
14.000
Pesos $
Pesos $
12.000 10.000 8.000 0
Clima frío
12.000 10.000 8.000
07
08
09
10 11 2012
Primeros trimestres
0
07
08
09
10 11 2012
Primeros trimestres
Con alimentación Sin alimentación
Estadística básica aplicada
76
La representación se puede hacer utilizando barras horizontales, como se muestra en la gráfica de la Figura 5.19, y se obtiene la misma visualización como cuando las barras son verticales. En ambos casos, la longitud de las barras son proporcionales al número de observaciones o frecuencias, mientras que el ancho de la barra dependerá del gusto de quien la elabora. También se utiliza el diagrama proporcional de barras, especialmente cuando se trabaja con grupos relativamente pequeños y se desea establecer comparaciones entre dos o más distribuciones proporcionales, ya sea para representar características cualitativas o cuantitativas. Figura 5.19 Movimiento de sociedades. Capital autorizado y suscrito de las sociedades constituidas en Cámara de Comercio. 2015 - 2019
Convenciones Capital autorizado Capital suscrito
2015
Años
2016 2017 2018 2019 0
2
4
6
8
10
12
miles de millones $
En la Figura 5.20 (con información ficticia) se puede observar que cada barra horizontal corresponde al 100%, dividiéndose en secciones de acuerdo con el número de características observadas, diferenciándolas mediante la utilización de colores o rayado.
Capítulo 5. Elaboración de gráficas
77
Figura 5.20 Exportaciones nuevas Participación porcentual I semestre 2017 - 18 - 2019
Confección textiles.
Animales vivos y productos del reino animal
Productos químicos y farm.
Productos agrícolas
Manuf. metálicas y mecán.
Materiales de construcción
2017
2018
2019
Productos diversos
0
10
20
30
40
50
60
70
80
90
100%
Diagrama circular Se utiliza con mucha frecuencia para representar características cualitativas, y sirve para resaltar las diferencias en las proporciones o porcentajes en que está dada la distribución. Figura 5.21. Este tipo de comparación es relativamente efectivo, siempre y cuando los segmentos sean suficientemente grandes para permitir comparaciones. Figura 5.21 Composición de la cartera del INTEDUC - 2019 Época de estudio
Época de amortización
15,19%
20,10% 70,88 %
9,02%
68,95%
15,86%
Convenciones Crédito educativo para estudios en planteles privados
Crédito educativo para estudios en planteles oficiales
Fondos en administración
Cartera total
18,26% 70,16%
11,58%
Estadística básica aplicada
78
El proceso que se sigue en la confección de la gráfica circular o pastel, consiste en subdividir los 360º de la circunferencia, proporcionalmente al porcentaje de cada una de las clases que ha tomado la característica. Consideremos como ejemplo la distribución porcentual del activo, discriminado en activos fijos, realizable a largo, corto plazo y disponible como lo muestra la Figura 5.22, donde la porción correspondiente al activo fijo ha sido separada, por no formar parte del capital circulante. Figura 5.22
%
ACTIVO
GRADOS
26,3 38,7 20,2 14,8
94,7 139,3 72,7 53,3
Total gastos
100,0
360,0
C.F.
R.C.P.
R.I.P.
D.
R.I.P. 20,2%
C.F. 26,3% D. 14,8%
p
R.C.P. 38,7%
l ita
Capital fijo Realizable a largo plazo Realizable a corto plazo Disponible
Ca
ulante 73,7% circ
También se puede hacer la representación gráfica en semicírculos, aunque no visualiza tanto, como la gráfica circular. Supongamos la representación de los gastos de un almacén con lo que se quiere hacer resaltar la importancia de cada una de las características del gasto. Para ello utilizaremos las dos gráficas: la circular según la Figura 5.23 y la semicircular según la 5.24. Obsérvese la diferencia existente en su representación.
CLASE DE GASTOS
Figura 5.23 Circular
VALOR DISTRIBUCIÓN ($ miles de millones) %
Salarios, 80.000 prestaciones Seguros 10.000 Publicidad 15.000 Alquileres 30.000 Gastos varios 5.000
0,57
Total gastos 140.000
Figura 5.24
Seguros 7%
Semicircular
Salarios 57%
0,07 0,11 0,22 0,03
Seguros 7%
1,00
Publicidad 11%
12,6º
Publicidad 11%
Gastos varios 3% Alquileres 22%
19,8º
Alquileres 22% 39,6º 102,6º
Salario 57%
Gastos 3%
5,4º
* Encerrado en círculos, colocamos como referencia el equivalente en grados que no van en la gráfica
Capítulo 5. Elaboración de gráficas
79
Otra forma de representación gráfica es la del semicírculo en barras, tal como puede verse en la Gráfica 5.25 correspondiente a préstamos y descuentos para los años 2010 y 2019 (datos acomodados) Figura. 5.25. Préstamos y descuentos. 2010 - 2019
19 18 17 16 15 14 13 12 11 10
Años
10 11 12 13 14 15 16 17 18 19
8.000.000
7.000.000 1.000.000
2.000.000
6.000.000
3.000.000
5.000.000 4.000.000 Millones $
Diagramas lineales
Es otra de las gráficas más utilizadas, pero, al mismo tiempo, la que presenta mayores dificultades en la visualización de los datos, dando lugar, algunas veces, a imágenes o conclusiones erróneas, debido a la mala confección de las escalas de los ejes. Observemos las gráficas de la Figura 5.26 con las cuales se presenta la misma información en tres formas diferentes, siendo correcta la primera figura e incorrectas las dos siguientes.
Estadística básica aplicada
80 Figura 5.26
40 33 -
30 -
20 18 -
10 -
2014
2016
40 -
33 -
30 -
20 -
18 -
10 -
b) Incorrecta
a) Correcta
y
2018
2019
y
x
Años 2016
2017
2018 Años
2019
x
c) Incorrecta y 40
30 -
20 -
10 -
2016
2017
Años
2018
2019
x
A los diagramas lineales también se les denomina curvas de sucesión, porque generalmente se refieren a variables observadas durante un período. Dichas variables se denominan series de tiempo o series cronológicas. En una gráfica de este tipo, lo corriente es que la variable tiempo se coloque en el eje horizontal y los valores que toma la variable, vayan en el eje vertical tal como lo muestra la Figura 5.26a; 5.26b; 5.26c.
Capítulo 5. Elaboración de gráficas
81
Figura 5.26 a
Figura 5.26 b
Cabezas de ganado porcino sacrificadas en 26 ciudades
Pasajeros transportados en vuelos nacionales
(Total nacional - 2019).
2013 - 2019 800
Total
700
2017 2018
600 600
2019
500
Miles pasajeros
Miles de cabezas
700
Machos
400
Hembras
300 200
13
14 15
16 17 18 Años
400 300 200
19
Figura 5.27
500
E F M A M J J A S O N D Meses
% 100
Crédito externo
90 80
Crédito interno
70
No tributarios y recursos de balance (2)
60 50
Impuestos indirectos (1)
40 30 20
FACTORES
% 1) Factor financiero 50 2) Factor humano 35 3) Factor económico 15 Total 100
10
Impuestos Directos (1)
0 2014
2015
2016
años
2017
2018
2019
(1) Ingresos corrientes (2) Recursos de capital
La Gráfica 5.27 es una forma de representación, utilizando el diagrama lineal, para mostrar los cambios de varias variables a través del tiempo, lo mismo que su composición porcentual; para este caso hemos considerado las rentas y recursos del Gobierno Nacional, con datos acondicionados para el período 2014 - 2019.
Cuadrados y triángulos
Para la representación gráfica de datos estadísticos, se recurre en algunos casos a figuras geométricas, tales como cuadrados y rectángulos. Estas gráficas deben ser simples, es decir, no se deben recargar demasiado, aconsejándose superponer las figuras en lugar de yuxtaponerlas.
Estadística básica aplicada
82
Hay otras formas de hacer la representación gráfica mediante la utilización de cuadrados. Con la Figura 5.28 queremos representar la distribución porcentual de los factores que se deben tener en cuenta en el análisis de una empresa. El cuadrado es de 6 x 6 cm igual 36 cm2, por lo tanto, en la gráfica se tendrá:
Figura 5.28 Distribución porcentual de los factores de análisis
50% 1) 0,50 × 36 = 18 luego se obtiene 18 = 4, 24 cm por lado 2) 0,35 × 36 = 12, 6
35%
15%
Total
F.F.
F.U.
luego se obtiene 12, 6 = 4, 24 cm por lado 1) 0,15 × 36 = 5, 4 luego se obtiene 5, 4 = 2,32 cm por lado
F.E.
En la elaboración de gráficas mediante la utilización de triángulos se debe buscar una base común y luego localizar la altura (Figura 5.29).
Figura 5.29 Trabajadores afiliados a una IPS - 2017 - 2019 350 Miles de trabajadores 300 250 200 150 100 50 0
2017
2018
2019
Capítulo 5. Elaboración de gráficas
83
Figura 5.30
Convenciones: Salarios
GASTOS $(MILES)
Salarios 5.210.000 Alquileres 2.120.000 Impuestos 990.000 Publicidad 440.000 Total 8.760.000
Alquileres Impuestos Publicidad
También se pueden sobreponer los triángulos, donde cada uno de ellos tendrá una base diferente, tal como lo muestran las Figuras 5.30 y 5.30a. Figura 5.30a Recursos utilizados en los programas de crédito y becas del INTEDUC (Millones de $) año 2019 19.000
Convenciones: 42.869
Pregrado
76.572 98.577
Postgrado País
450.000
Postgrado exterior Becas
4.338 36.952 42.259 50.000
2.583 25.301
8.472
40.795 42.907
687.018
133.549
111.586
21.166
29.638
Gráfica de Gantt
En la dirección de empresas, se hace necesario la utilización de estas gráficas, en las que se establecen las diferentes etapas de trabajo por ejecutar y ejecutado durante un determinado período. El campo de aplicación de esta gráfica es muy vasto, siendo imposible en este libro la descripción de todas las formas y usos que tiene. Veamos un ejemplo de uno de los tantos usos que tiene la gráfica de Gantt. Para ello consideraremos el control del trabajo del personal en una empresa, indicando el porcentaje ejecutado, la razón por la cual no se alcanzó el 100% programado, además de las horas perdidas y las causas en las que el obrero no fue responsable (Figura 5.31)
Estadística básica aplicada
84
Figura 5.31 Porcentaje de trabajo ejecutado
Semana
10
20
30 40 50
Causa de las horas perdidas
Horas
60 70 80
perdidas
90 100
17 marzo al 22
30
24 marzo al 29
24
A B C D E F
12
5
8
-
3
9 6 9 - -
2 -
Pirámides
Las gráficas denominadas pirámides son utilizadas con mucha frecuencia para representar las edades de la población de una región. Si observamos detenidamente esta gráfica no es más que un histograma, utilizado para representar dos características de una misma figura. Figura 5.32 2010 2011 2012 2013
Importaciones
Exportaciones
2014 2015 2016 2017 2018 2019
12
10
8
6
4
2
0
0
2
4
6
8
10
12
14
Miles de millones de $
16
Otras gráficas
Otras gráficas frecuentemente utilizadas y que no se presentan aquí, pero que debemos conocer, aunque sea únicamente por su nombre, son: Gráficas angulares Gráficas de polígonos acumulativos Gráficas de varios componentes Gráficas logarítmicas Gráficas semilogarítmicas
Gráficas en espiral Estereogramas Perfiles Curvas de concentración de Gini Curvas de concentración de Lorenz
Capítulo 5. Elaboración de gráficas
RESUMEN DEL CAPÍTULO
Las gráficas suelen elaborarse como complemento al texto y al cuadro que contiene el informe. La finalidad de las gráficas es visualizar mejor, en forma rápida, el contenido del informe. La gráfica nunca sustituye al cuadro y mucho menos al texto. Una buena gráfica es aquella que se presenta en la forma más sencilla. Para cada caso en particular se tendrá un modelo gráfico diferente, el cual debe acomodarse a la realidad del fenómeno. Las gráficas más comunes se elaboran teniendo como base los ejes de coordenadas cartesianas rectangulares. En el eje horizontal o abscisa se coloca la variable, el atributo o el tiempo (en las series cronológicas), y en le eje vertical u ordenada, se anotan las frecuencias, es decir, el número de veces que la variable o el atributo se repite o se presenta. La gráfica, es considerada como el medio de expresión de la estadística, más llamativa y sugestiva, a la vez que presenta la ventaja de dejar en la memoria una expresión más duradera que los cuadros o el texto, en un menor tiempo de lectura. Términos para recordar Abscisa Cartogramas Diagramas de frecuencias Diagramas lineales Diagramas de barras Diagramas de puntos o nube de puntos Diagrama circular Estereogramas
Gráficas Histogramas Ordenada Ojiva Plano cartesiano Pictogramas Polígono de frecuencia Pirámides
Ejercicios propuestos 1. Elaborar una gráfica adecuada para presentar la siguiente información.
Durante unos 5 meses se construyen 134 kilómetros de carretera en la siguiente forma:
En el primer mes, 3,60% del total; en el segundo mes, 7,60% del total; en el
tercer mes, 15,3% del total; en el cuarto mes, 24,5% del total y en el último mes, el 49% restante. 2. Con los siguientes datos sobre una población potencial de consumidores, se pide construir la pirámide de dicha población, teniendo en cuenta la edad y sexo.
85
Estadística básica aplicada
86 EDAD (años)
15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59
DISTRIBUCIÓN PORCENTUAL %
Hombres%
Mujeres%
10,9 9,1 7,6 5,8 4,9 4,2 3,9 2,5 2,2
9,7 8,9 7,4 6,3 5,3 4,5 3,0 2,8 1,0
3. ¿Cuáles de las siguientes afirmaciones son verdaderas y cuáles falsas? a. Al hacer una gráfica, las frecuencias deben representarse en el eje de la ordenada. b. El histograma, es una presentación muy efectiva y viva de las distribuciones de frecuencias. c. El polígono, es especialmente apto para comparar diferentes distribuciones. d. Una variable discreta puede ser referenciada mediante el histograma. e. El diagrama de barras se utiliza para representar datos continuos. f. La relación de las escalas en una gráfica deber ser de 1:1. g. Las gráficas se representan preferiblemente en el primer cuadrante.
Cuestionario de evaluación 1. El polígono de frecuencias es un tipo de representación en: a) Gráficas de barra en un conjunto compuesto de datos. b) Gráficas de líneas correspondiente a los puntos medios en un histograma. c) Gráficas circulares
d) Pictogramas. e) Diagramas de puntos 2. La representación gráfica debe ser: a) Un sustituto del cuadro. b) Una manera de explicar las imprecisiones. c) Autoexplicativas d) Es un complemento del cuadro para visualizar mejor la información. e) Es la única manera de realizar una buena presentación de las informaciones. 3. El eje vertical en un par de ejes coor denados se denomina: a) Escala nominal b) Escala ordinal c) Abscisa d) Ordenada e) Ojiva 4. Los pictogramas son una representación gráfica mediante: a) Figuras b) Mapas c) Rectángulos d) Círculos e) Ninguna de las anteriores. 5. El número de clientes atendidos por el departamento de ventas, en un gran almacén, queda mejor representado mediante: a) Histograma b) Polígono c) Cartograma d) Tríangulos e) Diagrama circular. 6. La línea que representa a la característica en una gráfica debe ser: a) Más delgada que las coordenadas b) Igual de gruesas a las coordenadas.
Capítulo 5. Elaboración de gráficas c) Más gruesa que las coordenadas d) Balanceada a lo alto y ancho e) Ninguna de las anteriores 7. El polígono de frecuencias es una figura que se elabora con: a. Las marcas de clase y las frecuencias b. Los límites de intervalos y las frecuencias c. Los grados y los porcentajes de datos d. Los límites de intervalos y las frecuencias e. Ninguna de las anteriores 8. ¿Cuál de las siguientes afirmaciones acerca de los rectángulos de un histograma es correcta? a. Por lo general existen cinco rectángulos en cada histograma b. Los rectángulos tienen una altura proporcional a las frecuencias del intervalo c. Siempre todas las barras son igualmente anchas d. b y c pero no a e. Ninguna de las anteriores 9. El histograma y el polígono de frecuencias se utilizan para representar: a. Las distribuciones de frecuencias discretas b. Las distribuciones de frecuencias continuas c. Las distribuciones cualitativas d. Ambas a y b pero no c e. Ninguna de las anteriores 10. Una serie de rectángulos cuya altura es proporcional al número de elementos que caen dentro de cada intervalo (o clase), se le conoce como: a. Histograma
87
b. Polígono de frecuencias c. Ojiva d. Todas las anteriores c. Ninguna de las anteriores 11. En un estudio con el fin de relacionar el consumo de licor y la hipertensión, se tomaron los siguientes datos correspondientes a una muestra de 280 personas Características
Con Sin hipertensión hipertensión
No consumidores
16
82
Consumidores moderados
40
38
Consumidores en exceso
94
10
a. Haga una representación gráfica adecuada a la información anterior b. ¿Observa alguna relación entre las dos variables? Explique 12. Se preguntó a 700 estudiantes de un plantel, por el tipo de programa de televisión que ven en los ratos libres, después de haber estudiado. Las respuestas se pueden observar en el siguiente gráfico: 15% Comics
10% Culturales
40% Deportes
20% Películas 10% Novelas
5% Noticias
a. El % que ven comics y deportes es igual a _______ b. El número de estudiantes que ven programas culturales y noticias es igual a ______ c. El número que ven películas y novelas es igual a _______ 13. En una facultad se quiere conocer el número de cursos que matriculan en
Estadística básica aplicada
88
un semestre académico, los estudiantes que además trabajan. Para ello se consultó a 15 estudiantes y éstas fueron las respuestas. Estudiante 1 → 1 curso Estudiante 2 → 4 cursos Estudiante 3 → 6 cursos Estudiante 4 → 4 cursos Estudiante 5 → 5 cursos Estudiante 6 → 6 cursos Estudiante 7 → 2 cursos Estudiante 8 → 3 cursos Estudiante 9 → 4 cursos Estudiante 10 → 3 cursos Estudiante 11 → 2 cursos Estudiante 12 → 5 cursos Estudiante 13 → 4 cursos Estudiante 14 → 5 cursos Estudiante 15 → 5 cursos Para facilitar la lectura de la información presentada, los datos se organizan en tabla de frecuencias, y con ésta se obtiene la gráfica de barras. La gráfica de barras que representa la anterior situación, es:
Frecuencia
8
Frecuencia
4 2 0
1
2 3 4 5 Número de cursos
6
Frecuencia
Opción C 5 4 3 2 1 0
1
2 3 4 5 Número de cursos
6
Frecuencia
Opción D 5 4 3 2 1 0
1
2 3 4 5 Número de cursos
6
Opción E
14. A un curso de bachillerato de último año, se le preguntó por la carrera por la cual sentían una mayor inclinación, al continuar estudios universitarios. Estos fueron sus respuestas: A-Administración; C-Contadurías; D-Derecho; E-Economía; I-Ingenierías; M-Medicina; O-Odontología.
6
E A M I O M C M O O C O
4
A A A I E O C O D O C I
A C M M I O E M D A A I
D
E C M A O A O D M A M M
2 0
1
2 3 4 5 Número de cursos
6
Opción A Frecuencia
6
5 4 3 2 1 0
1
2 3 4 5 Número de cursos
Opción B
6
C I C M D A O M C A O
a. Construya una distribución de frecuencias b. Construya un gráfico circular y otro de barras c. Comente estos resultados
Capítulo 6 MEDIDAS DE TENDENCIA CENTRAL
OBJETIVOS
•• Desarrollar destrezas en la aplicación de las distintas medidas de tendencia central. •• Interpretar y comprender los resultados obtenidos mediante la aplicación de promedios. •• Adquirir destrezas para determinar cuál es el promedio que debe ser utilizado según las circunstancias.
CONTENIDO
•• •• •• •• ••
Media aritmética. Mediana. Moda. Media cuadrática. Media cúbica.
• Media geométrica. • Media armónica. • Cuartiles, deciles y percentiles. • Centro recorrido.
INTRODUCCIÓN
En el desarrollo de los cinco capítulos anteriores, nos habíamos dedicado a estudiar los métodos que deben ser aplicados en el proceso de agrupar, organizar y presentar los datos originados dentro de la misma empresa, tales como resultados de balances, inventarios, ventas, costos, volumen de producción, gastos generales y de personal, cuentas de resultados, punto muerto, y otros aspectos que atañen a la actividad interna, y de aquellos que provienen de fuera de la empresa y que en un momento dado pueden influenciar, en forma positiva o negativa, en la marcha de la actividad industrial o comercial. Ahora trataremos de presentar otros métodos para estudiar o medir el comportamiento de los elementos que constituyen una población. Si bien es cierto que los cuadros y gráficas describen el fenómeno, no lo hacen en forma satisfactoria, y por tanto hay necesidad de acudir a ciertas medidas denominadas parámetros o valores estadísticos de la población, cuando se hacen sobre el total de ésta, y estadígrafos o estimadores cuando corresponden a una parte de la población o muestra.
Estadística básica aplicada
90
Teniendo en cuenta la anterior clasificación, los símbolos que se refieren a la población estarán representados por letras griegas o por letras en mayúsculas de nuestro alfabeto, y los que se refieren a la muestra, por letras en minúsculas. Para el análisis de una variable o de una distribución unidimensional se consideran cuatro clases de medidas: • • • •
Medidas de posición o de tendencia central. Medidas de dispersión o de variabilidad. Medidas de asimetría o de deformación. Medidas de apuntamiento o curtosis.
MEDIDAS DE POSICIÓN
Son utilizadas para describir y sintetizar mediante un número único, denominado promedio, la posición de un valor en la variable, en tal forma que represente al conjunto de valores observados. En otras palabras, un promedio es un valor que intenta representar o resumir las características relevantes de un conjunto de valores. El promedio es un término genérico, y es admisible su uso mientras no se refiera a una de las medidas de posición en forma específica. Los promedios reciben el nombre genérico de medidas de tendencia central porque algunos constituyen valores ubicados en el centro de la variable a la cual representan. Se consideran varias clases de promedios o medidas de posición:
• Media aritmética • Mediana • Moda • Media cuadrática • Media cúbica
• Media geométrica • Media armónica • Cuartiles, deciles y percentiles • Centro recorrido • Otros más
Al elegir algunos de los promedios anteriores, se debe procurar la obtención de un valor concreto que sea representativo del conjunto, de tal manera que éste pueda ser comparado útilmente con otros valores obtenidos de conjuntos similares. Es importante recalcar que únicamente hay un solo valor numérico para cada tipo de promedio de un conjunto de datos, con la posibilidad de poder escoger uno, entre los diferentes tipos de promedios, que sea el más representativo para la distribución analizada.
Media aritmética Es la medida más conocida, la más fácil de calcular y con la que siempre estamos más familiarizados, ya que siempre hemos calculado el promedio de calificaciones obtenidas
Capítulo 6. Medidas de tendencia central en cada período escolar. A veces, se le denomina simplemente media o promedio, y es utilizado con tanta frecuencia, que en algunas ocasiones nos conduce a resultados que no revelan lo que se pretende presentar, ya que la distribución puede requerir de la aplicación de un promedio diferente a la media. La media presenta algunas ventajas: es el único promedio que se presta a tratamientos algebraicos, presenta una gran estabilidad en el muestreo, y es altamente sensible a cualquier cambio en los valores de la distribución. Su mayor desventaja radica en la imposibilidad de ser aplicada en aquellas distribuciones que no tienen definidos sus valores extremos y debido a su gran sensibilidad para valores muy grandes de la variable, puede darnos un valor promedio que no sea típico o representativo. Además, no es recomendable su uso cuando la variable está dada en forma de tasas o porcentajes o cuando presenta un crecimiento geométrico. Se puede afirmar que la media aritmética es representativa del conjunto, si se quiere promediar cantidades semejantes, que presenten variaciones dentro de un margen razonable.
Media aritmética (simple)
La media aritmética se define como el cociente que se obtiene al dividir la suma de los valores de la variable por el número total de observaciones: X 1 + X 2 + X 3 + ... + X N N ∑ xi x= media muestral, n X =
X
x Σ Xi xi N n
( Media poblacional )
;
X=
∑ Xi N
media de la población, también se utiliza m (letra griega miu) media de la muestra. (letra griega mayúscula, sigma) significa suma de. valores que toma la variable en la población. valores que toma la variable en la muestra. número de observaciones en la población. número de observaciones en la muestra.
De ahora en adelante trabajaremos con muestras, de ahí que la mayoría de los símbolos que se utilizarán, irán en minúscula. La media aritmética, que hemos simbolizado por x , se podrá representar indistintamente por: M M [Y ] M1 x y a ax a y [X ] Ejercicio 1. Supongamos que un almacén tiene empleados a 12 vendedores, y sus ingresos mensuales son:
91
Estadística básica aplicada
92
Tabla 6.1 Datos originales
$785.000 691.000 720.000 763.800
721.300 823.000 1.091.000 623.000
856.000 856.000 750.000 746.200
Se quiere determinar la media aritmética de los ingresos (sueldos y comisiones) de los 12 vendedores.
Solución x=
Σx1 785.000 + 721.300 + 856.000 + ... + 746.200 9.426.300 = = = 785.525 12 12 n
El sueldo básico para cada vendedor es de $620.000. El promedio de ingreso mensual, incluyendo las comisiones, será aproximadamente de $ 785.525. Se podrá observar que la mayoría de los vendedores reciben una asignación inferior al promedio, debido a la inclusión de los ingresos del jefe de vendedores, quien recibió $1.091.000. Como la media es sensible a valores extremos, se vio afectada por dicho valor. Si se requiere que el promedio sea representativo, se dan dos soluciones: a) utilizar otro promedio diferente a la media, siendo el más recomendable la mediana; b) prescindir de dicho valor extremo. Observemos el resultado utilizado este último procedimiento. x=
∑ xi 8.335.000 = = 757.754, 55 n 11
Este valor de $757.754,55 como promedio, es mucho más representativo que el de $785.525. En el ejercicio 2, veremos otra situación que nos hará comprender por qué la media no debe ser aceptada siempre como la más significativa, mientras no se haga una inspección sobre el comportamiento de la variable. Ejercicio 2. Consideremos las utilidades y pérdidas de un almacén por departamentos (ver Tabla 6.2). Si examinamos solamente los promedios, llegamos a la conclusión de que el promedio de beneficio obtenido por departamento se mantiene, de un año a otro, pero nos oculta los cambios que se han producido en los departamentos donde ha habido un desplazamiento de los beneficios, y la población real en 2019 es muy diferente en comparación con la que se observó en algunos departamentos en 2017.
Capítulo 6. Medidas de tendencia central
93
Tabla 6.2
Distribución de utilidades y pérdidas (2017 - 2019)
UTILIDADES (+) Y PERDIDAS (-)
DEPARTAMENTOS
(EN MILLONES DE $)
2017 2019
Calzado -10 +20 Electrodomésticos + 153 +58 Juguetería -40 -20 Misceláneas -13 +10 Ropa +130 +152 Media ( x ) (Promedio) +44 +44 La fórmula dada para calcular la media aritmética simple la vamos a utilizar como ejercicio de aplicación con los datos de las Tablas 4.9 y 4.13, (Ver en pp. 47 y 51) correspondientes a observaciones no agrupadas de variables discreta y continua, respectivamente. En la variable discreta, la media aritmética será: ∑ xi 2 + 1 + 1 + 0 + ... + 2 59 x= = → x= = 1,966 n 30 30
x = 1,97
y en la variable continua, el resultado obtenido al aplicar la misma fórmula, será: x=
48 + 56 + 60 + ... + 67 2.039 = = 67,966 30 30
La fórmula utilizada hasta el momento para calcular la media aritmética, tan sólo es aplicable cuando se trata de términos simples o datos no agrupados. Generalmente esta forma de presentación y de cálculo se da cuando el número de observaciones es pequeño.
Media aritmética ponderada
Cuando el número de observaciones es grande, las operaciones para calcular la media aritmética se simplifican si agrupamos los datos en una tabla de frecuencias. Ejercicio 3. Supongamos que se tienen 10 observaciones. Tabla 6.3
Datos originales
2 6 4 2 6 8 4 6 4 6 La media aritmética de esos 10 valores será: x=
∑ xi 2 + 6 + 4 + ... + 6 48 = = = 4,8 n 10 10
Estadística básica aplicada
94
Si los 10 valores anteriores los ordenamos de menor a mayor y luego los sumamos, se obtendrá el mismo resultado. x=
2 + 2 + 4 + 4 + 4 + 6 + 6 + 6 + 6 + 8 48 = = 4,8 10 10
La suma anterior se podrá abreviar en la siguiente forma: x=
2 ( 2 ) + 4 ( 3) + 6 ( 4 ) + 8 (1) 4 + 12 + 24 + 8 48 = = = 4,8 10 10 10
Se observará que 2, 4, 6, 8 son valores que toma la variable, y 2, 3, 4, y 1 son sus respectivas frecuencias absolutas. Calculemos la media aritmética de los datos anteriores, pero ordenados en una tabla de frecuencias yi
ni
2 2 4 3 6 4 8 1 Σ 10
yi ni 4 12 24 8 48
X i X i fi fi
y=
∑ yi ni n
X =
∑ X i fi n
y n + y n + y3n3 + y4n4 y= 11 2 2 n y=
4 + 12 + 24 + 8 48 = = 4,8 10 10
y=
∑ yi ni 48 = = 4,8 n 10
Ejercicio 4. Apliquemos la fórmula para calcular la media ponderada (en una variable discreta, con los datos de la Tabla 4.12) con la cual ya habíamos calculado la media aritmética simple.
Tabla 4.12 Variable discreta.
yi
ni
yi ni
0 3 0 1 6 6 2 12 24 3 7 21 4 2 8 Σ 30 59 X i X i fi fi
y=
∑ yi ni n
X =
∑ X i fi n
59 y= = 1,966 30
Los resultados obtenidos al aplicar la fórmula, tanto para datos no agrupados como para los agrupados, en una variable discreta deben ser exactamente iguales.
Capítulo 6. Medidas de tendencia central
95
En la variable continua, al aplicar la fórmula en el cálculo de la media aritmética con datos agrupados, se deberá trabajar con las marcas de clase. El resultado obtenido, por lo general, no es igual al obtenido para datos sin agrupar. Ello se debe a la pérdida de información que se presenta al agrupar los datos en intervalos, así por ejemplo, los tres valores (Tabla 4.13) x1 = 48; x5 = 47 y x25 = 52 quedan incluidos en el primer intervalo 46,1 - 54 de la Tabla 4.15; luego al calcular la media se hará con las marcas de clase, siendo 50 el valor que representará a las tres observaciones de xi que se encuentran en el primer intervalo. Comparemos el resultado de la Tabla 4.13 donde la media fue 67,966, con el de la Tabla 4.15. Ejercicio 5
Tabla 4.15 Variable continua
yi,−1 − yi,
yi
ni
yi ni
46,1 - 54 50 3 150 54,1 - 62 58 6 348 62,1 - 70 66 10 660 70,1 - 78 74 6 444 78,1 - 86 82 3 246 86,1 - 94 90 2 180 Σ - 30 2.028
y=
∑ yi ni n
y=
2.028 = 67, 6 30
Se observará que los resultados son diferentes. En el primero dio 67,97 y ahora 67,6. En una variable continua, cuando los valores extremos no están definidos y las frecuencias correspondientes a dichos intervalos tienen cierta importancia dentro de la distribución, es mejor aplicar un promedio diferente a la media. Ahora, si dichas frecuencias carecen de peso o importancia dentro de la distribución, se podrá calcular la media, prescindiendo para ello de los intervalos extremos y de las respectivas frecuencias. Ejercicio 6
Tabla 6.3 Variable continua
yi,−1 − yi, menor o igual a
8
8,1 - 12 12,1 - 20 20,1 - 30 más de 30 Σ
,
,
ni yi 3
-
10 10 18 16 14 25 5 - 50 -
ni yi ni -
-
10 100 18 288 14 350 - 42 738
Xi-1-Xi fi xi fi Xi fi
y=
∑ yi ni n
y = 738 = 17,57 42
X=
∑ X i fi n
Estadística básica aplicada
96
• Cálculo de la media utilizando frecuencias relativas Recordando que hi =
ni se podrá obtener otra fórmula para calcular la media aritmén
tica, utilizando para ello las frecuencias relativas. Se tiene que:
y=
∑ yi ni y1n1 + y2n2 + ... + ym nm siendo: = n n
y=
y n y1n1 y2n2 y3n3 + + + ... + m m n n n n
y = y1h1 + y2h2 + y3h3 + ... + ym hm donde: y = ∑ yi hi
X = SXi (fi /n)
Ejercicio 7. Aplicamos la fórmula anterior a los datos de las Tablas 4.12 y 4.15, observando que los resultados son exactamente iguales a los obtenidos al calcular la media ponderada. Las pequeñas diferencias que se pueden presentar en los resultados, se deben a las aproximaciones que hacemos al calcular las frecuencias relativas, y trabajar con dos decimales.
Tabla 4.12 Variable discreta
yi hi yi hi 0 0,10 0 1 0,20 0,20 2 0,40 0,80 3 0,23 0,69 4 0,07 0,28 Σ 1,00 1,97 Xi fi /n Xi ( fi /n)
y = ∑ yi hi y = 1,97
Tabla 4.15 Variable continua
yi,−1 − yi,
46,1 - 54 54,1 - 62 62,1 - 70 70,1 - 78 78,1 - 86 86,1 - 94 Σ
hi yi yi hi 0,10 50 0,20 58 0,33 66 0,20 74 0,10 82 0,07 90 1,00 -
5,00
11,60 21,78 14,80 8,20 6,30 67,68
y = ∑ yi hi y = 67,68
• Desviaciones Antes de explicar los métodos abreviados utilizados para calcular la media, veamos qué son las desviaciones y cómo se usan.
Capítulo 6. Medidas de tendencia central
97
Las desviaciones son las diferencias que se presentan entre los valores que toma la variable, ya sea xi o yi y un valor constante, el que puede ser la media aritmética o un origen de trabajo, denominada también como media teórica. Este último se simboliza por Ot y corresponde a un valor cualquiera, seleccionado arbitrariamente y que puede estar localizado dentro o fuera del rango o recorrido. Se consideran tres clases de desviaciones: a) Desviaciones respecto a la media. Se simboliza por Zi y se define como las diferencias que hay entre cada valor que toma la variable y su media aritmética. Z i = xi − x
Z i = yi − y
(para datos no agrupados)
(para datos agrupados)
Ejercicio 8. Utilicemos los datos de las Tablas 4.12 y 4.15 para calcular las diferentes clases de desviaciones. En primer lugar obtengamos los valores para las desviaciones respecto a la media Z i = yi − y
Tabla 4.12 Variable discreta
yi ni yi ni
y1 - y
y=
∑ yi ni n
y=
59 = 1,97 30
0 3 0 -1,97 Z i = yi − y 1 6 6 -0,97 2 12 24 0,03 Z1 = y1 − y = 0 − 1,97 = −1,97 3 7 21 1,03 Z 2 = y2 − y = 1 − 1,97 = − 0,97 4 2 8 2,03 Z 3 = y3 − y = 2 − 1, 97 = 0, 03 Σ 30 59 fi X i X i fi X i - X Z 4 = y4 − y = 3 − 1,97 = 1, 03 Z 5 = y5 − y = 4 − 1,97 = 2, 03
Tabla 4.15 Variable continua
yi ni
yi,−1 − yi,
46,1 - 54 54,1 - 62 62,1 - 70 70,1 - 78 78,1 - 86 86,1 - 94
,
,
yi ni yi - y
50 3 150 58 6 348 66 10 660 74 6 444 82 3 246 90 2 180
-17,6 -9,6 -1,6 6,4 14,4 22,4
Xi-1-Xi Xi fi Xi fi Xi-X
y=
∑ yi ni 2.028 = = 67, 6 n 30
Z i = yi − y Z1 = 50 − 67, 6 = − 17, 6
Z 2 = 58 − 67, 6 = −9, 6 Z 3 = 66 − 67, 6 = − 1, 6 Z 4 = 74 − 67, 6 =
6, 4
Z 5 = 82 − 67, 6 = 14, 4 Z 6 = 90 − 67, 6 = 22, 4
Estadística básica aplicada
98
En la variable continua, el cálculo de Zi, se debe hacer con las marcas de clase. Veamos ahora el cálculo de las desviaciones respecto a la media en datos no agrupados. Ejercicio 9 Supongamos que n= 10, cuyos valores son: 2 6
4 2
6 8
4 4 6 6
x=
∑ xi 48 = = 4,8 n 10
Z1 = x1 − x = 2 − 4, 8 = −2, 8 Z 2 = x2 − x = 6 − 4, 8 = 1, 2 Z 3 = x3 − x = 4 − 4, 8 = −0, 8 Z 4 = x4 − x = 2 − 4, 8 = −2, 8 Z 6 = x6 − x = 8 − 4, 8 = 3, 2 Z 5 = x5 − x = 6 − 4, 8 = 1, 2 Z8 = x8 − x = 6 − 4, 8 = 1, 2 Z 7 = x7 − x = 4 − 4, 8 = −0, 8 Z 9 = x9 − x = 4 − 4, 8 = −0, 8
Z10 = x10 − x = 6 − 4, 8 = 1, 2
En datos no agrupados la ∑ Z i = ∑ ( xi − x ) = 0 , en cambio para datos agrupados, por lo general, es diferente a cero. En datos agrupados la suma de las desviaciones con respecto a la media será igual a cero, cuando la distribución es simétrica o cuando cada Zi está multiplicada por su respectiva frecuencia ni. ∑ Z i ni = ∑ ( yi − y ) ni = 0
b) Desviaciones respecto a un origen de trabajo. Se simboliza por Zi´ y se lee como Zeta prima sub i. Es de gran aplicación en el cálculo de la media aritmética con datos presentados en tablas de frecuencias. Ejercicio 10. Consideremos, arbitrariamente, algunos valores para Ot y calculemos las respectivas desviaciones Z i, para las variables discreta y continua, dadas en las Tablas 4.12 y 4.15.
Tabla 4.12 Variable discreta
Ot = 2
Ot = 4
Ot = 0
Ot = 20
Zi
Zi
Zi
Zi
yi
,
,
,
,
0 -2 -4 0 -20 1 -1 -3 1 -19 2 0 -2 2 -18 3 1 -1 3 -17 4 2 0 4 -16
Xi
Xi-2
Xi-4
Xi-0
Xi-20
Z i' = yi − Ot ,
Zi = Xi - A
Capítulo 6. Medidas de tendencia central
99
Considerando Ot = 2 se tendrá que: ,
,
,
,
Z1 = y1 − Ot = 0 − 2 = −2 Z 4 = y4 − Ot = 3 − 2 = 1 Z 2 = y2 − Ot = 1 − 2 = −1 Z 5 = y5 − Ot = 4 − 2 = 2 Z 3, = y3 − Ot = 2 − 2 = 0
Tabla 4.15 Variable continua
yi,−1 − yi,
yi
46,1 - 54 54,1 - 62 62,1 - 70 70,1 - 78 78,1 - 86 86,1 - 94
50 58 66 74 82 90
Ot = 74
Ot = 50
,
,
Zi
-24 -16 -8 0 8 16
Ot = 90 Ot = 68 Ot = 30
,
,
,
Zi
Zi
Zi
Zi
0 8 16 24 32 40
-40 -32 -24 -16 -8 0
-18 -10 -2 6 14 22
20 28 36 44 52 60
Z i, = yi − Ot
,
En la variable continua, el procedimiento de calcular las Zi es el mismo que el utilizado en la variable discreta, pero se trabaja con las marcas de clase. c) Desviaciones respecto a un origen de trabajo tomadas en unidades de intervalos. Se simboliza por Z i,, y es igual a:
,
,,
Zi =
yi − Ot Z i = C C
Se aplica únicamente en la variable continua y en especial cuando la amplitud en los ,, intervalos es constante. Veamos cómo se calcula Z i (teniendo para ello los datos de la Tabla 4.15). Tabla 4.15 Variable continua
yi,−1 − yi,
yi 46,1 - 54 50 54,1 - 62 58 62,1 - 70 66 70,1 - 78 74 78,1 - 86 82 86,1 - 94 90
Σ
Ot = 74
Z i,,
-24 -16 -8 0 8 16
Z i,,
-3 -2 -1 0 1 2
Ot = 50
Ot = 90
Z i,,
Z i,,
0 8 16 24 32 40
0 1 2 3 4 5
Z i,,
Z i,,
-40 -32 -24 -16 -8 0
-5 -4 -3 -2 -1 0
Ot = 68
Ot = 30
Z i,,
Z i,,
-2,25 -1,25 -0,25 0,75 1,75 2,75
- - - - - - -
2,5 3,5 4,5 5,5 6,5 7,5
- -
Estadística básica aplicada
100
Se dijo anteriormente que el origen de trabajo es un valor arbitrario, que puede estar localizado dentro o fuera del recorrido, sin embargo es aconsejable tomar un valor que aparezca en la columna de las marcas de clase (yi), siendo preferible seleccionar como tal al valor central de la variable, con el fin de simplificar las operaciones en el cálculo de la media, como se verá más adelante En la tabla 4.15 de acuerdo a lo anterior es preferible tomar como origen de trabajo a 66 o a 74. ,,
Por otra parte, se podrá observar que Z i toma el valor 0, al frente del origen de trabajo, y a partir de él se tendrá -1, -2, -3,... hacia arriba y 1, 2, 3... hacia abajo de la tabla. Siempre ,,
que la amplitud sea constante, se tendrá en Z i una diferencia de 1 entre cada desviación.
Métodos indirectos
Son aplicados en distribuciones de frecuencias (datos agrupados), cuando las variables toman valores grandes que hacen engorroso el cálculo de la media, facilitando el cálculo con operaciones más sencillas. a) Primer método abreviado. Implica la utilización de Zi´ (desviaciones respecto a un origen de trabajo), de donde deducimos la fórmula para este método de cálculo: ,
∑ Z i ni Siendo y = Ot + fórmula correspondiente al primer método abreviado. n También se puede presentar la anterior fórmula en la siguiente forma: y = Ot + M z , i
b) Segundo método abreviado. Se aplica exclusivamente cuando la variable es continua, ,, y la amplitud es constante. Este método requiere la utilización de Z i la que se puede ,,
obtener directamente partiendo de cero (al frente de Ot) o dividiendo a Z i por el valor de la amplitud (C). ,,
Zi =
yi − Ot Z, o Z i,, = i C C ,
,,
y = Ot + C
∑ Z i,, ni n
siendo Z i = C Z i , reemplazamos en la fórmula utilizada, para calcular la media por el primer método abreviado:
∑ zi,, ni también, y = Ot + CM z y = ot + C n
,, i
Ejercicio 11. El cómputo de la media, aplicando los dos métodos abreviados anteriores, se hará utilizando los datos de la tabla 4.15.
Capítulo 6. Medidas de tendencia central
yi
a ) Ot →
b) Ot →
a) y = Ot +
Tabla 4.15
ni
Z i,
Z i, ni
50 3 -8 -24 -24 +312 58 6 0 66 10 8 80 74 6 16 96 82 3 24 72 90 2 32 64 Σ 30 - 288
∑ Z i, ni n
∑ Z i,,ni b) y = Ot + C n
y = 58 +
Z i,,
Z i,, ni
-3 -9 -2 -12 -1 -10 0 -31 +7 1 3 2 4 - -24
288 = 58 + 9, 60 = 67, 60 30
−24 192 = 74 − = 74 − 6, 4 = 67, 60 y = 74 + 8 30 30
A pesar de la recomendación de considerar como origen de trabajo al valor central de la variable, se ha tomado un valor que no está ubicado en ese lugar, para demostrar que se obtiene el mismo resultado trabajando con cualquier valor como origen de trabajo. Además, como el producto de la frecuencia por su desviación, en el origen de trabajo, su resultado será igual a cero, dicho espacio lo utilizamos para anotar las semi-sumas de los valores negativos y positivos.
Propiedades de la media
Dada al importancia que tiene el cálculo de la media aritmética y su frecuente uso, conviene detenernos a considerar algunas de sus propiedades. Primera propiedad: la suma de las desviaciones respecto a la media aritmética es igual a cero. a) En datos no agrupados u originales se tiene que ∑ Z i = ∑ ( xi − x ) = ∑ xi − ∑ x = ∑ xi − nx
Σ Zi = 0
∑ xi + n x = ∑ xi reemplazando, se tendrá nx − nx = 0 siendo igual a n considerar: ∑ xi − ∑ xi = 0
Siendo: x =
b) En tablas de frecuencias, las desviaciones con respecto a la media deberán ponderarse, es decir, multiplicadas por sus respectivas frecuencias absolutas. En distribuciones simétricas no hay necesidad de ponderar las desviaciones para que la suma sea cero. ∑ Z i ni = ∑ ( yi − y ) ni = ∑ yi ni − y ∑ ni = ∑ yi ni − yn
101
Estadística básica aplicada
102
∑ yi ni se tendrá que yn = ∑ yi ni reemplazando, se obtiene que n ∑ yi ni − ∑ yi ni = 0 ∑ ( yi − y ) ni = 0
Siendo
y=
Ejercicio 12. Los sueldos de 5 personas en un almacén son: $682.000, 665.000, 658.000, 675.000 y 680.000. Calcular las desviaciones respecto a la media. Solución: xi xi − x 682.000 10.000 ∑ xi x= n 665.000 -7.000 658.000 -14.000 3.360.000 x= 675.000 3.000 5 680.000 8.000 x = 672.000 3.360.000 Σ Zi = 0 Ejercicio 13. Los sueldos de 20 personas que trabajan en un almacén, se presentan a continuación en una tabla de frecuencias. Calcular las desviaciones respecto a la media. Solución: yi
ni
yi ni
(yi-y)
(yi-y)ni
652.000 2 1.304.000 -18.800 -37.600 660.000 3 1.980.000 -10.800 -32.400 668.000 5 3.340.000 -2.800 -14.000 676.000 6 4.056.000 5.200 31.200 684.000 4 2.736.000 13.200 52.800 Σ 20 13.416.000 - 0
∑ yi ni 13.416.000 = 20 n x = 670.800 y=
∑( y − y )n i
i
=0
Segunda propiedad: La media aritmética de una constante, es igual a la constante. ∑ xi = x ; siendo xi la variable. Se tiene que M [ x] = n Ahora, considerando a K como constante, reemplazamos: K nK M [k ] = ∑ = = K (en datos no agrupados) n n M [k ] =
M[K] = K
∑ Kni ∑n n = K i = K = K (en datos agrupados) n n n
Esta propiedad se puede comprender fácilmente. Sin embargo, veamos un ejemplo. Ejercicio 14. En la construcción de un edificio se contrataron 20 obreros con un sueldo de $862.000 mensuales cada uno; la media aritmética simple se obtendría sumando veinte
Capítulo 6. Medidas de tendencia central
103
veces los $862.000 y el total resultante, se dividirá por veinte, siendo el promedio igual a $862.000. Tercera propiedad: La media del producto de una constante por una variable, es igual a multiplicar a la constante por la media de la variable. M [k yi ] = M [k yi ] =
∑ Kxi ∑ x =K i=Kx (en datos no agrupados) n n
M[kx] = kx
∑ K yi ni ∑ yi ni = K y (en datos agrupados) =K n n
Ejercicio 15. En un inventario realizado en la bodega de un almacén, se encontraron 200 artículos que fueron importados a diferentes precios (datos en Euros). (Ver Tabla 6.5).
Tabla 6.5
yi ni yi ni 20,5 20 410 32,0 30 960 48,6 50 2.430 50,0 60 3.000 60,4 40 2.416 Σ 200 9.216
y=
∑ yi ni n
= y
9.216 = 46, 08 200
El precio promedio del artículo es de € 46,08.
Resulta ahora, que se quiere hacer el registro contable de esos 200 artículos en pesos colombianos. Si el tipo de cambio actual fuera de € 2.396 se tendría que el precio promedio de esos artículos sería: M [k yi ] = K ( y ) = ( 2.396 )( 46, 08 ) = $110.407, 68
Un método innecesario, que se aplica por desconocimiento de la anterior fórmula, es el de convertir en pesos, los precios en euros para cada grupo de artículos. Veamos a continuación como se hubieran efectuado esas operaciones.
Tabla 6.6
yi
ni
yi ni
49.118,00 20 982.360 76.672,00 30 2.300.160 116.445,60 50 5.822.280 119.800,00 60 7.188.000 144.718,40 40 5.788.736 Σ 200 22.081.536 Xi fi Xi fi
y=
∑ yi ni n
y=
22.081.536 = 110.407, 68 200
y = $110.407, 68
Estadística básica aplicada
104
Cuarta propiedad: La media aritmética de una variable más (o menos) una constante, será igual a la media de la variable, más (o menos) la constante. M [ x − K ] = M [ x] − M [ K ] = x − K
M [ x − K ] = M [ x] − M [ K ] = x − K
Ejercicio 16. Una firma dedicada a la construcción contrató a 80 obreros, ofreciéndoles un salario diario (ver Tabla 6.7) de acuerdo con la clase de trabajo que ejecutan. Tabla 6.7
yi
CLASE DE TRABAJO
Plomeros Ayudantes Albañiles Carpinteros Electricistas Pintores S
ni
21.320 21.380 21.500 21.600 21.700 21.750 −
yi ni
10 213.200 ∑ yi ni y= 20 427.600 n 25 537.500 920.950 y =1.720.950 = 11.511,87 5 108.000 = y = 21.511, 88 80 7 151.900 80 13 282.750 80 1.720.950
El promedio de salario diario para este grupo de obreros es de $ 21.511,88. Resulta que el gerente de la firma resuelve reconocerles un aumento de $1.000 diarios, por lo tanto el nuevo promedio será M[ y +K ] = y + K
y = 21.511, 88 + 1.000 = 22.511, 88
Sin el conocimiento de esta propiedad, la media se hubiese calculado en la forma siguiente:
Tabla 6.8
yi ni yi ni 22.320 10 223.200 22.380 20 447.600 22.500 25 562.500 22.600 5 113.000 22.700 7 158.900 22.750 13 295.750 Σ 80 1.800.950 Xi X i fi fi
y=
∑ yi ni n
1.800.950 = 22.511, 87 80 y = 22.511, 87
= y
Ejercicio 17. El salario medio mensual por obrero de la empresa fue de $678.000 durante 2016. Para 2017 la empresa da a cada uno de sus obreros la suma de $42.000, admitiendo que las categorías y salarios no se han modificado desde entonces ¿Cuál es el promedio de salario quincenal en 2017?
Capítulo 6. Medidas de tendencia central Solución
M [ K + x] = K + x
x = $678.000 K = 42.000
M [ K + x] = 42.000 + 678.000 = 720.000
x = $720.000 mensual
Quinta propiedad. La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada de las submuestras, tomando como ponderación los tamaños de las mismas. x=
xi n1 + x2n2 + ... + xm nm n1 + n2 + ... + nm
Generalizando se tendrá que y = Ahora, si se considera que hi =
o
∑ yi ni n
y=
y1n1 + y2n2 + ... + ym nm n1 + n2 + ... + nm
X =
X 1W1 + X 2W2 + ..... ∑ Wi
ni se tendrá: n
x = x1h1 + x2h2 + ... + xm hm ; x = ∑ xi hi o y = ∑ yi hi
Ejercicio 18. Un inversionista tiene 1.200 acciones de un precio inferior a $ 3.490, siendo su valor promedio de $ 2.905; además, 800 acciones cuyo valor unitario es superior a $ 3.490 y su valor promedio de $ 4.275. Se quiere averiguar el valor promedio de las 2.000 acciones.
Solución Una operación muy común, pero errónea, consiste en sumar los dos promedios y dividirlos entre dos. x +x 2.905 + 4.275 7.180 = = 3.590 x= 1 2 = n 2 2 La solución acertada es aplicando la quinta propiedad. 2.905 (1.200 ) + 4.275 ( 800 ) xn +x n X W + X 2W2 + ..... x= i 1 2 2 = X = 1 1 W1 + W2 n1 + n2 1.200 + 800 x=
3.486.000 + 3420.000 6.906.000 = = 3.453 2.000 2.000
Ejercicio 19. El precio de un centenar de artículos es $ 1.857, los artículos se dividen en dos grupos, con medias $1.758 y $1.978. ¿Cuántos artículos hay en cada grupo?
105
Estadística básica aplicada
106 Solución: x = 1.857 x1 = 1.758
x2 = 1.978
n1 + n2 = 100
n1 = 100 − n2
n = 100
n1 = ?
x=
x1n1 + x2n2 n1 + n2
1.857 =
n2 = ?
1.857 (100 ) = 1.758 (100 − n2 ) + 1.978n2 185.700 − 175.800 = 1.978n2 − 1.758n2 185.700 − 175.800 = 1.978n2 − 1.758n2
n2 =
1.758n1 + 1.978n2 100
9.900 = 45 220
n1 = 100 − 45 = 55
9.900 = 220n2
Ejercicio 20. La media de los salarios pagados en una semana a los empleados de una empresa ascendió a $380.000. La media de los salarios pagados a los hombres y a las mujeres fueron, respectivamente, de $390.000 y $373.000. Determinar los porcentajes de hombres y mujeres empleados en dicha empresa. Solución x = 380.000 x1 = 390.000 x=
x1n1 + x2n2 ; n
x1 = 390.000
x = x1h1 + x2h2
h1 = ?
siendo 1 = h1 + h2
reemplazando se tiene 380.000 = 390.000 (1 − h2 ) + 373.000h2 380.000 = 390.000 − 390.000h2 + 373.000h2
h2 = ?
h2 =
1 = h1 + h2
10.000 = 0,5882 17.000
390.000h2 − 373.000h2 = 390.000 − 380.000
h1 = 1 − 0,5882 = 0, 4118
17.000h2 = 10.000
58,82% mujeres 41,18% hombres Sexta propiedad: La media aritmética de la suma de dos variables que tienen la misma ponderación será igual a la suma de las medias de dichas variables. Si existen n pares de valores de la variable x y de la variable y, se pueden formar sumas x1 + y1
Capítulo 6. Medidas de tendencia central
M ( x+ y) =
∑ ( xi + yi ) ni ∑ xi ni ∑ yi ni = + n n n
107
M ( x+ y) = x + y
La propiedad anterior puede ser aplicada para la suma o resta de un número cualquiera dado de variables. Séptima propiedad: La suma de los cuadrados de las desviaciones respecto a la media es menor, si se compara con desviaciones respecto a un origen de trabajo. (1) z ,j = yi − Ot De la ecuación (1) restamos la (2) ( 2 ) z j = yi − y Z i, − Z i = ( yi − Ot ) − ( yi − y )
zi, − zi = y − Ot siendo y − Ot = K zi,2ni = ( zi + K ) ni 2
∑ zi,2 ni = ∑ ( zi + K ) ni 2
2 ,2 2 ∑ zi ni = ∑ zi ni − nK
Se tendrá
zi, − zi = yi − yi + y − Ot
se tendrá que: zi, = zi + K zi,2 = ( zi + K )2
zi,2 ni = ( zi + k
)
2
ni
,2 2 2 ∑ zi ni = ∑ zi ni + 2 K ∑ zi ni + K ∑ ni
Por lo tanto
siendo ∑ zi ni = 0
2 ,2 2 ∑ zi ni = ∑ zi ni − nK
2 ,2 ∑ zi ni < ∑ zi ni
Mediana (Me) Es una medida de posición, menos importante que la media. Se define como: aquel valor de la variable que supera la mitad de las observaciones y a su vez es superado por la otra mitad de las observaciones. Por tal razón, se le considera como el valor central, ya que el promedio estará situado en el centro de la distribución. La mediana se simboliza por Me. Su aplicación es menos frecuente que la media aritmética; presenta gran inestabilidad en el muestreo; sus fórmulas son rígidas y no admiten tratamiento algebráico como la media. En aquellas distribuciones irregulares, que presentan valores extremos que por lo general afectan al promedio, deberá utilizarse la mediana, ya que no se afecta por los cambios que sufra la variable, mientras no sea en la observación central. Para calcular la mediana se requiere un ordenamiento de los datos, de menor a mayor o viceversa. La mediana es utilizada con mayor frecuencia, cuando la distribución presenta el primero y el último intervalo abierto o no definido en datos agrupados. El valor de este promedio depende del número de observaciones y no del valor de las mismas; la mediana es poco conocida y presenta dificultades en su aplicación.
Estadística básica aplicada
108
Datos no agrupados
Cuando calculamos la mediana en datos no agrupados, ordenamos las observaciones de menor a mayor o viceversa. En su cálculo se presentan dos casos: a) Cuando el número de datos es impar. En este caso la mediana coincide con el dato central. Ejercicio 21. Consideremos los salarios para los primeros once vendedores, del ejercicio 1 de esta unidad, para calcular la mediana.
785.000 691.000 720.000 721.300 823.000 1.091.000
763.800 856.000 856.000 623.000 750.000
Lo primero que hacemos en el cálculo de la mediana, es ordenar los datos de menor a mayor. M e
623.000 691.000 720.000
721.300 750.000 763.000 785.000
823.000 856.000 856.000 1.091.000
Cuando el número de observaciones es grande, se podrá localizar la observación central mediante la aplicación de la fórmula n + 1 11 + 1 = = 6ª observación 2 2 En este caso la mediana se ubicará en la sexta observación, cuyo valor es $763.000. Se podrá observar que, de acuerdo con la definición, 763.000 corresponde a la observación central, la que supera a cinco observaciones y a su vez es superada por igual número de observaciones. Si cualquiera de las 10 observaciones, (exceptuando la sexta) cambia de valor, la mediana no se altera. Si comparamos el valor de la mediana con la media aritmética para la misma distribución, notamos que son diferentes: x =
∑ xi 8.679.000 = = 789.027, 27 11 n
M e = 763.000
El valor obtenido para la mediana puede ser superior o inferior al de la media., dependiendo del grado de asimetría, como se verá más adelante. En el ejercicio que nos ocupa, la mediana es menor que la media, ya que no está afectada por el valor de $1.091.000, en cambio la media si se encuentra afectada. Ahora, si el último valor en vez de $1.091.000 fuera $2.000.000, se tendrá que la media varía, aumentándo su valor, mientras que la mediana sigue siendo la misma. b) Cuando el número de datos es par. En este caso la mediana será el término medio de los dos valores centrales. Supongamos que en vez de 11 se tienen 12 vendedores, cuyos salarios se presentan ordenados de menor a mayor.
Capítulo 6. Medidas de tendencia central
109
623.000 691.000 720.000 721.300 746.200 750.000 763.000 785.000 823.000 856.000 856.000 1.091.000 Me =
750.000 + 763.000 = 756.500 2
Para obtener las observaciones centrales, aplicamos la fórmula: n + 1 = 12 + 1 = 6,5 2 2 es decir, la mediana debe estar localizada entre la sexta y la séptima observación, por lo tanto se promediarán los valores de esas observaciones.
Datos agrupados
Para el cálculo de la mediana, se deberá tener en cuenta, en primer lugar si la variable es discreta o continua y la ubicación de la observación central. Veamos el procedimiento que se sigue en cada caso especial.
Variable discreta a) Cuando Nj-1 = n/2 la mediana se obtendrá aplicando esta fórmula: M e =
y j −1 + y j 2
Para la aplicación de la anterior fórmula, consideremos los datos de la Tabla 6.9 y tengamos en cuenta los siguientes cuatro pasos:
Tabla 6.9
nj
Tabla 6.10
yj
0 3 3
0 3 3
y j −1 →
1 4 7 ← N j −1 2 8 15
1 6 9
y j →
3 12 27 ← Nj 4 3 30
3 7 28
Σ 30
Σ 30 -
Xi
fi
Nj
-
yj
nj
Nj ← N j −1
← Nj 2 12 21
4 2 30
Ni Xi
fi
Ni
(i) Se acumulan las frecuencias absolutas (Nj). (ii) Se divide al valor de n por dos. En este ejercicio se tendrá: 30 = 15 2 (iii) Se busca en la columna de las frecuencias absolutas el valor de n/2. Si aparece, como en la Tabla 6.9, se simbolizará por Nj-1 y el valor inmediatamente posterior por Nj.
Se tendrá que Nj-1 = 15 y Nj = 27.
Estadística básica aplicada
110
(iv) Siempre que Nj-1 = n/2, en una variable discreta, la fórmula que se aplica para calcular la mediana, será: y j −1 + y j 2 + 3 Me = = = 2, 5 2 2 b) Cuando Nj-1 < n/2; la mediana se obtendrá aplicando la siguiente fórmula: Me = yj Observemos el cálculo de la mediana trabajando con los datos de la Tabla 6.10. (i) Se obtienen las frecuencias absolutas acumuladas (Nj). (ii) Se divide a n por 2. En este caso es
30 = 15 2
(iii) Se localiza el valor de n/2 en la columna de las frecuencias absolutas acumuladas. (iv) Como no aparece el 15 en dicha columna, se tomará el valor inmediatamente superior a 15 como Nj (en este caso es 21) y el valor inmediatamente anterior (en la Tabla 6.10) como Nj-1 (en nuestro caso, 9). (v) Siempre que Nj-1 < n/2, en una variable discreta, la mediana se calculará aplicando la siguiente fórmula: Me = yj Me = 2
Variable continua a) Cuando Nj-1 = n/2, la fórmula para hallar la mediana será: M e = y ,j −1 Utilizaremos la Tabla 6.11 para calcular la mediana. No se describirán los pasos a seguir en la variable continua, debido a que son los mismos dados para la variable discreta, sólo , que y j-1 se localiza al frente de Nj y que el valor de C corresponderá al del intervalo que está al frente de Nj.
Tabla 6.11 ,
,,
y j −1 − y j
46,1 - 54 54,1 - 62 62,1 - 70 70,1 - 78 78,1 - 86 86,1 - 94 Σ
nj Nj 5 7 13 10 9 6 50
5 12 25 ← N j −1 35 ← N j 44 50 -
n 50 = = 25 siendo N j -1 = 25 2 2
Siempre que: N j −1 = n / 2 La mediana será: ,
M e = y j −1 = 70
Capítulo 6. Medidas de tendencia central
111
b) Cuando Nj-1 < n/2, para hallar la mediana se aplicará la siguiente fórmula: Me =
y ,j −1
n−N j −1 +C2 nj
Consideremos una distribución, donde los valores extremos de la variable no están definidos y, además, la amplitud no es constante, como en la Tabla 6.12.
y ,j -1 - yi
Tabla 6.12
nj
menor o igual a 54
Nj
6 6
54,1 - 60
12
← N j −1 18
60,1 - 72
38
72,1 - 86
20 nj
12
50
86,1 - 94
6
56
94,1 y más
4
60
Σ
n 60 = = 30 2 2
N j −1 < n / 2
←Nj
60 -
N j −1 = 18
N j = 38
Me =
y ,j −1
n−N j −1 +C2 nj
30 − 18 144 12 = 60 + 7, 2 = 67, 2 M e = 60 + 12 = 60 + 12 = 60 + 20 20 20
La moda (Md ) La moda es otra medida de posición, menos importante que los dos promedios anteriores, y su uso es bastante limitado. Al igual que la mediana, sus fórmulas no admiten tratamiento algebráico; tampoco es sensible a valores extremos o a los cambios que se hagan a los valores de la variable diferentes al de la moda. Su uso se hace indispensable cuando la distribución presenta el primero y último intervalo abierto o no definido. Se utiliza de preferencia en distribuciones con amplitud constante y en especial cuan-do la variable o el atributo presenta una frecuencia demasiado grande con relación a las demás. La moda se define como aquel valor de la variable o del atributo que presenta la mayor densidad, es decir, la mayor frecuencia.
Estadística básica aplicada
112
Si se tiene un atributo o una variable con máxima frecuencia, la distribución es unimodal. Si hay dos valores en la variable con la misma frecuencia máxima, la distribución es bimodal. Si hay más de dos, la distribución es multimodal. En datos, originales o no agrupados, puede suceder que no haya moda, cuando ninguno de los valores que toma la variable se repite. Algunos consideran la moda como un “promedio industrial” ya que la fabricación o la venta de un artículo puede estar determinado por la moda. Ejercicio 22 Examinemos tres casos de observaciones para localizar en ellos en el valor de la moda: a)
2 4 7 7 7
9 10 10 12 15 moda = 7
b)
2 4 7 9 10 11 14 16 18 20 sin moda
c)
2 4 4 4 7
9 10 10 10 18 bimodal (modas 4 y 10).
En series agrupadas la aplicación de la moda es muy relativa y poco usada. Consideremos los mismos datos de la Tabla 4.15, para calcular la moda, en donde se tendrán que utilizar las marcas de clase.
Tabla 4.15
yj nj 50 3 58 6 66 10 74 6 82 3 90 2 Σ 30
← nj
M= y= 66 d j M d = 66 puesto que este valor presenta la máxima frecuencia (10)
Cuando la moda se aplica en una variable continua, se requiere que la amplitud de los intervalos sean constantes. Se presenta a continuación dos fórmulas más para el cálculo de la moda, y quienes las establecieron buscaban con su aplicación, la obtención de un valor más representativo de la distribución, pretensión discutible si se tiene en cuenta que la estadística no proporciona exactitud, sino aproximaciones acerca de las características de una población.
Capítulo 6. Medidas de tendencia central Tabla 6.13
y ,j -1 - yi,
46,1 - 54
3
54,1 - 62
12
62,1 - 70
30
70,1 - 78
8
78,1 - 86
5
86,1 - 94
2
Σ 60
n j −1 < n j > n j +1
nj
n j +1 a) M d = y ,j −1 + C n j +1 + n j −1
n j-1
nj n j +1
n j − n j +1 b) M d = y ,j −1 + C ( n j − n j +1 ) + ( n j − n j −1 )
8 64 a) M d = 62 + 8 = 62 + = 62 + 3, 2 = 65, 2 20 8 + 12 30 − 12 144 18 b) M d = 62 + 8 = 62 + 8 22 + 18 = 62 + 40 = 65, 6 − + − 30 8 30 12 ( ) ( )
Los resultados no necesariamente deben ser iguales
Aplicación de estadística en la herramienta Excel El proceso a seguir Hacemos clic en INICIO Luego clic en PROGRAMAS Otro procedimiento a seguir; Doble clic en el icono MICROSOFT EXCEL
Operaciones en la hoja de cálculo Creamos una tabla de 30 datos, tecleando la información en la Hoja 1, con las siguientes características, tal como aparece en el siguiente cuadro:
113
Estadística básica aplicada
114
Como se puede observar las características cualitativas (sexo, profesión, estado civil, etc.) se digitaron utilizando códigos, que anteriormente se habían establecido, lo mismo se hizo para la característica cuantitativa (variable) Ingresos quincenales. CÓDIGOS UTILIZADOS
SEXO
1: Masculino 2: Femenino lectura Se refiere al número de libros leídos durante el año. Es una variable discreta.
ESTADO CIVIL
PROFESIÓN
1: Soltero 1: Abogado 2: Casado 2: Agrónomo 3: Unión libre 3: Arquitecto 4: Separado 4: Contador 5: Viudo 5: Economista 6: Otros 6: Ingeniero Civil 7: Mercadotecnista 8: Publicista
SALARIOS 1: $ 800.000 - $1.200.000 2: $1.200.001 - $1.600.000 3: $1.600.001 - $2.000.000 4: $2.000.001 - $2.400.000 5: $2.400.001 - $2.600.000 6: $2.600.001 - $3.000.000 7: $3.000.001 - $3.400.000
Con fines de trabajo posteriores, se recomienda copiar la tabla, donde se digitó toda la información recolectada, en la Hoja 2; además si es necesario convertir los códigos en palabras o números que muestren su equivalencia, lo cual se podrá hacer con los datos de la tabla copiada (hoja 2), cuyo proceso se realiza de la siguiente forma: Seleccionamos la información que se requiere, para posteriores cálculos, en este caso toda la tabla anterior (Hoja 1). En la barra de herramientas hacemos clic en EDICIÓN, aparece inmediatamente una ventana o comandos, y hacemos clic en COPIAR. Hacemos clic en Hoja 2, clic en EDICIÓN, aparece de nuevo la ventana y clic en PEGAR. Se tiene toda la información en la Hoja 2.
Capítulo 6. Medidas de tendencia central
PRESENTACIÓN DEL CUADRO O TABLA DECODIFICADA
Ahora queremos tener una tabla; donde no aparezcan los códigos, si no tal palabras como se expresa el atributo, es decir, en vez del código 1, en sexo debe aparecer Masculino; algo similar ocurre con la variable salario, que en vez del código uno debe aparecer el intervalo $ 800.000 - $ 1.200.000. Nos ubicamos en la Hoja 2 y hacemos clic en la columna A, a fin de seleccionar todos los datos de ésta columna, desde A2 hasta A31
Nos ubicamos nuevamente en el menú EDICIÓN hacemos clic en REEMPLAZAR y nos aparece un cuadro de diálogo llamado BUSCAR y REEMPLAZAR.
115
Estadística básica aplicada
116
En la caja BUSCAR tecleamos el código, en este caso 1 y en la caja REEMPLAZAR CON: la palabra MASCULINO. Hacemos clic en OPCIONES>> y luego activamos la casilla COINCIDIR CON EL CONTENIDO DE LA TABLA; Si no aparece el menú OPCIONES>> seleccione BUSCAR SOLO CELDAS COMPLETAS
Hacemos clic en la casilla REEMPLAZAR TODO, inmediatamente cambia todas las celdas donde aparece el número 1, por la palabra correspondiente Masculino. Todos los pasos, se deben repetir para el código número 2 en la columna A, cambiada para la palabra Femenino. Se hará lo mismo, en las columnas B, C y E, de acuerdo con los códigos asignados.
Capítulo 6. Medidas de tendencia central
Copiamos el cuadro o tabla anterior en la hoja 3 EDICIÓN / COPIAR / HOJA 3 / PEGAR.
ELABORACIÓN DE TABLAS DE FRECUENCIA
Consideremos la información de la columna H, correspondiente a la variable Estatura, de la tabla que aparece en la hoja 3. Hacemos clic en cualquier celda del rango A1:H:31 Se hace clic en el menú DATOS, apareciendo un plegable.
Hacemos clic en INFORME DE TABLAS Y GRÁFICOS DINÁMICOS.
117
118
Estadística básica aplicada Observamos que aparece un cuadro de diálogo ASISTENTE PARA TABLAS Y GRÁFICOS DINÁMICOS – Paso 1 de 3. Como los datos se encuentran en una hoja de cálculo de EXCEL, seleccionamos LISTA O BASE DE DATOS DE MICROSOFT OFFICE EXCEL.
Seleccionamos y hacemos clic en SIGUIENTE. Tenemos un nuevo cuadro de diálogo ASISTENTE PARA TABLAS Y GRÁFICOS DINÁMICOS, paso 2 de 3, encontramos que automáticamente el proceso nos fija el rango, dado que con anterioridad habíamos seleccionado una celda cualquiera en la lista de datos, si no lo hubiéramos hecho tendríamos que digitar los valores correspondientes al rango.
Capítulo 6. Medidas de tendencia central Nuevamente, hacemos clic en SIGUIENTE obteniendo el tercer cuadro de diálogo correspondiente a ASISTENTE PARA TABLAS Y GRÁFICOS DINÁMICOS, paso 3 de 3, ofreciendo seis (6) opciones, localizando en la parte inferior de este cuadro.
Al hacer clic en DISEÑO, nos presenta un nuevo cuadro de diálogo, dándonos opciones de acuerdo con las variables que inicialmente presentaba la lista de datos, como lo podemos observar a continuación:
119
120
Estadística básica aplicada Procedemos a seleccionar una de las variables, por ejemplo ESTATURA, en la que hacemos clic con el botón izquierdo del mouse, manteniendo oprimido y arrastrando hasta el rectángulo FILA. Repetimos el proceso en el cuadro de DATOS.
Ahora procedemos a hacer clic en ACEPTAR, con el cual regresamos al cuadro de diálogo ASISTENTE PARA TABLAS Y GRÁFICOS DINÁMICOS, paso 3 de 3. Hacemos clic en HOJA DE CÁLCULO NUEVA. Y clic en FINALIZAR.
El cuadro nos muestra los datos de la variables sin agrupar y, en forma predeterminada, EXCEL suma los datos de toda la variable estatura (característica cuantitativa). (Puede
Capítulo 6. Medidas de tendencia central que aparezca la barra de herramientas de TABLA DINÁMICA, ésta no afecta, se puede cerrar haciendo clic en la X superior derecha). Ahora, nos ubicamos en una de las celdas correspondientes a la columna total, hacemos clic con el botón derecho, en el comando CONFIGURACIÓN DE CAMPO, y nos aparece el cuadro de diálogo CAMPO DE LA TABLA DINÁMICA.
Con el cuadro anterior, en la lista desplegable RESUMIR POR elegimos CUENTA y hacemos clic en ACEPTAR, con lo cual aparece la frecuencia de cada intervalo en la columna total. Vale la pena observar en la lista desplegable RESUMIR, porque se tiene una lista de diez (10) funciones de resumen: SUMA, CUENTA O CONTAR, PROMEDIO MAX, MIN, PRODUCTO, CONTAR NUMEROS, DESVEST, DESVESTP, VAR Y VARP. Las anteriores funciones podrán ser utilizadas a medida que avancemos en el desarrollo del programa de Estadística Descriptiva y en el cálculo de Medidas de Posición (Media Aritmética) y de dispersión (Desviación Típica o Estándar de Varianza ). Procedemos a ubicarnos en cualquier celda de la columna ESTATURA haciendo clic con el botón derecho y, elegimos el submenú AGRUPAR Y MOSTRAR DETALLE o también llamado AGRUPAR Y ESQUEMA, luego el comando AGRUPAR... de inmediato aparece el cuadro de diálogo AGRUPAR.
121
122
Estadística básica aplicada
De acuerdo con la forma que deseamos presentar la tabla de frecuencias, establecemos el valor mínimo, correspondiente al primer valor del intervalo de clase y lo digitamos en la caja de entrada COMENZAR EN: En nuestro ejemplo 145, luego en TERMINAR EN: 185; Nos queda por digitar el tamaño del intervalo en la caja POR: Supongamos que se van a hacer intervalos de 8., es decir que la amplitud va a ser de 8. Finalmente hacemos clic en ACEPTAR.
Podemos observar cómo, en el cuadro anterior, nos queda la tabla de frecuencias para una variable continua.
Capítulo 6. Medidas de tendencia central
ELABORACIÓN DE UNA TABLA DE FRECUENCIAS RELATIVAS
Regresemos a la Tabla Dinámica; Seleccione toda la Tabla Dinámica
Haga clic en EDICIÓN y luego COPIAR.
Clic en la celda D3, luego clic derecho e, inmediatamente de clic en PEGAR.
123
124
Estadística básica aplicada
Inmediatamente nos aparece una segunda tabla dinámica exactamente igual a la anterior, en la cual vamos a realizar los procedimientos necesarios para que se convierta en una Tabla de Frecuencias Relativas.
En una de las celdas de la columna Total de la segunda tabla (Hoja 4) hacemos clic derecho, seleccionamos el comando CONFIGURACIÓN DE CAMPO, obtenemos el cuadro de diálogo CAMPO DE LA TABLA DINÁMICA, hacemos clic en OPCIONES>>.
Capítulo 6. Medidas de tendencia central Hacemos clic en la lista desplegable MOSTRAR DATOS COMO y elegimos % DEL TOTAL.
Se podrá observar la Tabla de Frecuencias Relativas.
REPRESENTACIÓN GRÁFICA
Consideremos los datos, presentados anteriormente en una Tabla de Frecuencias, con el fin de crear un gráfico correspondiente a una Variable Continua.
125
126
Estadística básica aplicada Lo primero que debemos hacer es seleccionar el rango en este caso A28:B32, tenga cuidado al hacer la selección, pues no debe incluir la celda que dice Total.
Nos ubicamos en el menú INSERTAR y elegimos GRÁFICO, también hubiéramos podido proceder haciendo clic en el icono de acceso rápido de la barra de herramientas estándar. Observamos que aparece el ASISTENTE PARA GRÁFICOS, paso 1 de 4: Tipo de Gráfico, tenemos opción de seleccionar uno (1) de los once (11) tipos de gráfico que se nos ofrece, procurando que sea el más adecuado al tipo de información disponible.
Capítulo 6. Medidas de tendencia central Ahora, procedemos a elegir el Tipo de Gráfico, por ejemplo COLUMNAS y Subtipo de Gráfico podrá ser la primera que aparece, es decir COLUMNA AGRUPADA. Hacemos clic en SIGUIENTE> en el cual obtenemos un cuadro de diálogo ASISTENTE PARA GRÁFICOS, paso 2 de 4: Datos de origen.
Digitamos el Título del Gráfico en la primera caja que nos ofrece el cuadro; Luego en el Eje de Categorías (X), el nombre de la variable EDAD y en el Eje de Valores (Y), el nombre de las frecuencias, que en este caso podría ser porcentaje. Continuamos el proceso, haciendo clic en SIGUIENTE> y obtenemos un cuadro de diálogo ASISTENTE PARA GRÁFICOS, paso 4 de 4; Ubicamos el Gráfico. Una vez que se haya identificado en el gráfico los elementos tales como: ejes, títulos, leyenda, líneas de división, área se trayecto, etc. Elegimos el Punto de Selección COMO OBJETO EN el sistema elige la hoja activa. Así nos presenta el gráfico:
127
Estadística básica aplicada
128
En algunos equipos el procedimiento anterior se debe realizar, copiando y pegando nuevamente la Tabla de Frecuencias Absolutas y realizar todos los pasos descritos anteriormente.
PROCEDIMIENTO PARA OBTENER RESULTADOS EN LA APLICACIÓN DE MEDIDAS
• Se debe teclear en la columna B los nombres de aquellas medidas que deseamos describan a un grupo de datos. • Procedemos a colocar al frente de las necesidades que aparecen en la columna B las fórmulas estadísticas que son utilizadas por EXCEL. • Usted puede proceder de dos (2) maneras. 1. Mediante el uso de la función, de la siguiente manera: • Seleccionamos el menú INSERTAR • Elegimos FUNCIÓN • Procedemos eligiendo ESTADÍSTICA • Finalmente determinamos la función deseada 2. Procedemos a hacer clic en el ícono de acceso rápido del asistente para funciones. • Hacemos clic en el ícono. • Elegimos ESTADÍSTICA • Finalmente la función adecuada.
Capítulo 6. Medidas de tendencia central A Media Aritmética Geométrica Armónica Mediana Moda Desviación estandar Muestra Poblacional Varianza Muestral Poblacional Curtosis Asimetría Rango Valor mínimo Valor máximo Suma Número de datos Cuartiles Cuartil uno Cuartil dos Cuartil tres Rango Intercuantílico Decil tres Decil ocho Rango Interdecílico
ESTADÍSTICA DESCRIPTIVA PROMEDIO (A:A) MEDIA GEOM (A:A) MEDIA ARMO(A:A) MEDIANA (A:A) MODA (A:A65010) DEVEST (A:A) DEVESTP (A:A) VAR (A:A) VARP (A:A) CURTOSIS (A:A) COEFICIENTE.ASIMETRIA (A:A) MAX (A:A).MIN (A:A) MIN (A:A) MAX (A:A) SUMA (A:A)
CUARTIL (A:A,1) CUARTIL (A:A,2) CUARTIL (A:A,3) CUARTIL(A:A,3).CUARTIL(A:A,1) PERCENTIL (A:A, 0,3) PERCENTIL (A:A, 0,8) PERCENTIL (A:A, 0,9). PERCENTIL(A:A, 0,1)
RESUMEN DEL CAPÍTULO
La media aritmética, la mediana y la moda son medidas de posición, que suelen ser aplicadas juntas en numerosos estudios. Otras veces se calculan independientemente, teniendo en cuenta la naturaleza y característica de la distribución. Se podrá decir que la media aritmética es un promedio afectado por todos los valores de la distribución; la mediana será el valor central; la moda corresponderá a aquel valor de la variable que presenta el mayor número de observaciones, es decir la mayor frecuencia. Cuando las anteriores medidas son aplicadas a las características de las unidades en una población se denominan parámetros y se llaman estadígrafos o estimadores puntuales cuando son utilizadas en las muestras.
129
Estadística básica aplicada
130
La media, a diferencia de la mediana y de la moda, presenta una ligera estabilidad en el muestreo, por tal razón su uso es muy frecuente. En cualquier distribución el valor de la mediana se localizará entre la media y la moda. a) En una distribución simétrica: M1 = Me = Md b) En una distribución asimétrica se tienen dos casos:
(1) M1 < Me < Md
(2) M1 > Me > Md
La distancia entre la media y la moda, es tres veces la distancia entre la media y la mediana. La anterior relación se denomina de Pearson, y es utilizada para calcular cualquiera de ellos, conociendo los otros dos. M1 - Md = 3 (M1 - Me) Md = 3 Me - 2M1 La media aritmética es la medida más conocida y mejor comprendida, de ahí sus frecuentes aplicaciones. Sin embargo, la elección entre las tres medidas dependerá del propósito por el cual se recolectó la información y del comportamiento de los datos. Términos para recordar: Bimodal Moda Desviaciones Promedio Estadígrafos Parámetros Mediana Plurimodal Media aritmética simple Origen de trabajo Media aritmética ponderada Unimodal Fórmulas: x=
∑ xi n
y = ∑ yi hi
y = Ot + C
Media aritmética simple; para datos de agrupados
y=
Media aritmética ponderada; usando frecuencias relativas
y = Ot +
,, ∑ Z i ni
n
y j −1 + y j Me = 2
Segundo método abreviado para calcular media La mediana en variable discreta cuando N j −1 = n / 2
∑ yi ni n
Media aritmética ponderada; para datos agrupados
,
∑ Z i ni n
Primer método abreviado para calcular la media Propiedades de la media
x n + x n +.... cuando se trabaja con x= 11 2 2 n1 + n2 +.... medias de submuestras
Me = yj
La mediana en variable discreta cuando N j −1 < n / 2
Capítulo 6. Medidas de tendencia central
M e = y ,j −1
Me =
y ,j −1
131
La mediana en la variable continua cuando N j −1 = n / 2
n−N j −1 +C2 nj
La mediana en variable continua cuando N j −1 < n / 2
La moda, siendo yj el valor más frecuente
Md = yj
n j −1 M d = y ,j −1 + C n j +1 + n j −1
La moda en datos agrupados de variable continua, siendo la amplitud constante
n j − n j −1 M d = y ,j −1 + C n j − n j +1 + n j − n j −1
(
) (
Método empírico para estimar la moda, denominado de Pearson
M d = 3M e − 2M 1
Z i'' =
yi − Ot Z i' = C C
M1 = M e = M d
)
Desviación respecto a un origen de trabajo, medida en unidad de amplitud En distribuciones simétricas
En distribuciones asi-
M 1 < M e < M d métricas negativas
La moda, cuando la amplitud es constante.
Z i = yi − y
Desviaciones respecto a la media
Z j = yi − Ot
Desviaciones respecto a un origen de trabajo
Z i = xi − x
,
M1 > M e > M d
En distribuciones asimétricas positivas
132
Estadística básica aplicada tiene 7 empleados. ¿Cuál es el promedio de empleados por sucursal?
Ejercicios propuestos 1. ¿Cuál es el significado del término promedio? 2. ¿Cuáles serían las razones para usar los promedios? 3. Dar algunos ejemplos en los cuales se utilizaría le media, la mediana y la moda. 4. Diez egresados del bachillerato comercial se iniciaron en el trabajo con los siguientes sueldos: $843.250; $873.500; $908.000; $876.000; 695.000; $760.000; $605.000; $903.250; $780.000; $692.000. a) Calcular la media, mediana y la moda b) ¿Cuál de los promedios anteriores es el más representativo y por qué? 5. De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe que el salario promedio de los cien obreros es de $807.200 y que los del turno de día reciben en promedio $58.000 menos que los trabajadores nocturnos. ¿Cuál es el salario promedio en cada grupo? 6. En un supermercado trabajan 35 mujeres, con un salario promedio de $978.000 y 15 hombres que, en promedio, ganan un 22% más que las mujeres, ¿cuál es el salario promedio de los empleados en dicho supermercado? 7. Se sabe que ninguna de las sucursales de una empresa comercial tiene más de 9 empleados o menos de 7. La mayoría tiene 8 empleados, pero el 25% tiene 9 empleados, y una de cada 10 sucursales
8. Los siguientes datos corresponden a los salarios diarios, en pesos, pagados por una fábrica a su personal de obreros en un día de trabajo.
SALARIO Nº DIARIO OBREROS
$25.000 28.000 30.000 33.000 35.000
10 16 35 26 13
En la fábrica se presenta un conflicto laboral. El gerente propone un aumento del 10% diario para cada uno de los obreros y la Junta directiva propone un aumento de $10.000. Se solicita su asistencia para que discuta qué es más ventajoso para la fábrica y qué para cada grupo de obreros, según su clasificación por niveles de salarios. ¿Cómo actuaría usted?
9. ¿Cuáles de las siguientes afirmaciones son verdaderas y cuáles falsas? a) La suma de las desviaciones respecto a la media aritmética (en datos no agrupados) es diferente a cero. b) En una serie sencilla cuando n es par, la mediana es igual a uno de los valores centrales. c) Una distribución asimétrica podría dar los siguientes resultados. M = 12 Me = 8,5 Md = 7,2 d) Un grupo de valores puede tener más de un promedio. 1
Capítulo 6. Medidas de tendencia central 10. E n la siguiente serie de números, indicar: $4.000 $4.500 $5.000 $5.000 $8.250 $9.300 $9.700 $12.000 $12.500 $35.000 a) La media b) La mediana c) La moda. d) ¿Cuál de las medidas sería la más representativa de la serie? ¿Por qué? e) ¿Qué factor afecta a la media aritmética de esta serie? 11. Señalar el literal que complemente, en cada caso, los numerales 11.1, 11.2 y 11.3. 11.1 La media aritmética es una medida: (Señale con una x un solo aspecto). a. Que se conoce muy poco. b. Más conocida que la mediana y la moda. c. Diferente para la misma distribución, según la persona que le calcule. d. Siempre menor que la mediana y la moda. 11.2 En un grupo de datos que presenta el valor extremo superior demasiado grande, se requiere aplicar: a. La media aritmética, porque toma en consideración todos los valores. b. La media aritmética, porque no se afecta por dicho valor extremo. c. La mediana o la moda, porque son menos afectados por valores extremos. 11.3 Al calcular la media se toma en consideración: a. Unicamente los valores extremos de la variable. b. Los puntos medios únicamente. c. Los valores más bajos de la distribución.
133
d. Cada componente individual del grupo de valores. 12. Indicar en los siguientes puntos si la distribución es simétrica o asimétrica. a. x = 760 Me = 820 Md = 880 b. x = 880 Me = 820 Md = 760 c. x = 820 Me = 820 Md = 820 d. x = 820 Me = 820 Md = 500 13. Los trabajadores de una empresa solicitan en una convención colectiva que cada salario de sus afiliados sea aumentado según la ecuación: y = 1,25 xi + 2.200. La empresa tiene 1.000 trabajadores y antes del reajuste su promedio es $665.000. ¿Cuál sería el nuevo promedio de salario mensual de los trabajadores si la empresa acepta la petición? 14. En una tabla de frecuencias se clasifican 50 datos, utilizando cuatro intervalos de igual magnitud. Se pide calcular la mediana y la moda por los métodos conocidos, sabiendo que: y2 = 50 n1 = 40 N 2 = 20 n3 = 25 y = 62, 4
15. Se analizaron en el primer semestre de 2016 los gastos en construcción de 30 empresas del ramo y se obtuvo un promedio de $37.400 millones. Se determinó luego que los contabilistas de cada una de las empresas habían prescindido de 120 millones de pesos en los gastos, por un error en la contabilización de un gasto. Corrigiendo el error, ¿cuál sería el promedio? 16. Calcular la mediana y la moda, en una distribución de 6 intervalos de amplitud constante, de la cual se sabe que:
Estadística básica aplicada
134
n = 150 n3 = n4 = 30 y5 = 60
n2 + n5 = n1 + 5 n1= n6 y = 53,25
17. Suponiendo que los salarios mensuales pagados por una compañía son los siguientes: Cargo Cantidad Obreros 120 Técnicos 20 Ingenieros 7 Interventores 8 Asistentes 5 Directores 2
Salarios $
De 842.000 hasta 892.000 más de 892.000 hasta 942.000 más de 942.000 hasta 992.000 más de 992.000 hasta 1.042.000 más de 1.042.000 hasta 1.092.000 más de 1.092.000 hasta 1.142.000
Se pide calcular la media, la mediana y la moda.
18. Dada la siguiente información sobre los salarios diarios (miles de $)
96 80 98 75 69 81 88 78 67 70 88 85 88 75 58 97 83 61 52 76 81 83 70 98 109 65 90 64 95 63 82 108 78 100 96 92 100 73 94 105
Realizar los siguientes ejercicios: a. Con los datos originales calcular la media, la mediana y la moda. b. Presentar los datos, elaborando para ello una tabla de frecuencias. c. Con dicha tabla de frecuencias, determinar la media, mediana y moda. d. Calcular las tres medidas anteriores, trabajando con las marcas de clase.
19. Se tienen 15 vendedores en una compañía, los cuales cada uno vendió las siguientes cantidades de cierto producto en un mes determinado 150; 230; 40; 190; 150; 100; 100; 80; 570; 120; 100; 780 a. calcular la X Me Md b. Diga que promedio representa mejor la información y por qué 20. Justifique las respuestas a las siguientes afirmaciones: a. En una distribución simétrica puede darse que X = 50 ; Me= 50 y Md= 60 b. En una serie de datos cuando n es par, la Me es igual al valor central c. La X se utiliza para promediar factores cualitativos. d. En una distribución de intervalos abiertos es recomendable utilizar la X e. Si deseo promediar el grado de preferencia por un determinado deporte en un grupo de estudiantes puedo utilizar la X . 21. Complete las siguientes frases: a. La ____________ se determina ordenando los datos y seleccionando el valor central. b. La _____________ no se puede calcular si la distribución es de intervalos. c. La ______________ no es representativa si un valor es demasiado grande con relación a los demás. d. El valor que ocurre con mayor frecuencia en un conjunto de datos se denomina _____________ e. Como se define una distribución de frecuencias si los tres promedios son iguales.
Capítulo 6. Medidas de tendencia central 22. C on los datos de la siguiente tabla calcular la X Me Md
Xi yi : 32 64 90 120 153 fi ni : 8 20 7 3 2
23. Un negocio de videos, en el mes pasado, utilizó un pedido así 20 películas de terror; 32 de acción; 38 de ciencia ficción; 15 policíacas; 120 para niños; 30 para juegos. Supongamos que los precios para cada uno; en el mismo orden anterior juegos: $25.000; $18.300; $26.300; $20.600 y $31.500 a. Cuál es el costo promedio por película y juego? b. Suponga que al cabo de un año, vende cualquier película o juego por $21.200 o ¿sería un buen negocio? Explique.
Cuestionario de evaluación 1. En una distribución asimétrica se tiene que la Media = 20; Mediana = 24. El valor de la Moda deberá ser: a) Mayor que la mediana y menor que la media. b) Mayor que la media y menor que la mediana c) Mayor que la mediana. d) Menor que la mediana. e) Menor que la media. 2. La Mediana generalmente se define como aquel valor de la variable: a. Que supera a la máxima frecuencia. b. Que no supera a la mitad de las observaciones. c. Que presenta la máxima frecuencia. d. Que supera la mitad y al mismo tiempo es superado por la mitad de las observaciones. e. Que presenta el menor grado de frecuencia.
3. La moda generalmente se define como aquel valor de la variable que: a. Se ve afectada por valores extremos. b. Más se repite. d. Supera a la mitad de las observaciones. e. Tiene el menor grado de variabilidad. 4. Dada la muestra cuyos valores de la variable son: 8; 3; 10; 5; 6; 5; 8; 5. La media aritmética es igual a: a. 4,25 b. 5,25 c. 6,25 d. 7,25 e. 8,25 5. Con los datos del punto 4, el valor de la Mediana es igual a: a. 3,5 b. 4,0; c. 4,5 d. 5,0 e. 5,5 6. Con los datos del punto 4, el valor de la moda es igual a: a. 3,0 b. 5,0 c. 6,0 d. 8,0 e. 10,0 7. El promedio o medida de tendencia central más conocida y empleada es: a. Mediana; b. Moda c. Recorrido d. Media e. Proporción 8. Con los siguientes datos de una variable continua: yi' −1 − yi' : 20 − 28 28,1 − 36 36,1 − 44 44,1 − 52 52,1 − 60 ni : 3 6 5 4 2
Se dice que la media aritmética es: a. 24,4 b. 28,4 c. 32,4 d. 36,4 e. 38,4
135
Estadística básica aplicada
136
9. Con la distribución dada en el punto anterior (8), correspondiente a una variable continua, la mediana será igual a:
a. 33,6 c. 37,6 e. 41,6
b. 35,6 d. 39,6
10. El peso promedio de 80 artículos es de 130 kgs, si 60 de ellos pesan en promedio 120 kgs, el peso promedio de los restantes artículos será:
a. 130 c. 150 e. 170
b. 140 d. 160
11. En una distribución simétrica, la media, la mediana y la moda, debe suceder que:
a. Mx = Me > Md b. Mx = Me = Md c. Me > Md > Mx d. Md < Me < Mx e. Md > Me > Mx
12. Si la media aritmética de una distribución es 50 y a cada uno de los valores de la variable se le suman 10. La nueva media aritmética será igual a:
a. 50 c. 70 e. 90
b. 60 d. 80
13. El promedio de calificación obtenido por dos secciones es de 3,5. La primera sección tiene 35 alumnos cuyo promedio es de 2,8, la otra sección tiene 25 alumnos cuyo promedio es:
a. 2,51 c. 4,28 e. 4,60
b. 3,62 d. 4,48
14. La remuneración media quincenal de los empleados de una empresa es $385.000. Se sabe que la remuneración media quincenal de los hombres es $395.000 y de las mujeres $370.000. El porcentaje de hombres empleados es: a. 20% b. 40% c. 60% d. 80% e. 90% 15. Con los siguientes datos correspondientes a una tabla de frecuencia, de una variable discreta yi : 3 6 9 12 15 ni : 8 20 7 3 2
La media aritmética es: a. 6,825 b. 7,253 c. 7,54 d. 8,12 e. 10,16
16. Con los datos del punto 15, se dice que la mediana es: a. 3 b. 5 c. 6 d. 9 e. 12 17. Con los datos del punto 15, se dice que la moda es: a. 3 b. 5 c. 6 d. 9 e. 12 18. E l promedio de calificación en un curso, utilizando una escala de 0 a 10 fue de 5,8. Un grupo de 25 estudiantes del curso obtuvo un promedio de 3,8 y el resto (otro grupo del curso) 6,4. Luego el total de alumnos que tiene el curso es:
a. 60 b. 72 c. 83 d. 108 e. 120 * Redondear el valor de n.
Capítulo 7 MEDIDAS DE TENDENCIA CENTRAL (continuación) En esta unidad nos haremos algunas consideraciones sobre otros promedios, menos conocidos que la media, mediana y la moda, pero que merecen su estudio, ya que en algunos casos específicos, se requiere de su aplicación.
Media cuadrática (M2) Esta medida se simboliza por M2. Se define como la raíz cuadrada de la media aritmética de los cuadrados de la variable. Para datos no agrupados: M2 =
x12 + x22 + x32 + ... + xn2 n
M2 =
2
∑ xi n
Para datos agrupados: M2 =
y12n1 + y22n2 + y32n3 + ... + ym2 nm n
M2 =
2
∑ yi ni n
Este promedio raramente se usa como medida de posición. Se aplica en algunos casos tales como en problemas de probabilidad o cuando se hace indispensable trabajar con los cuadrados de los valores. Su mayor importancia la tiene, cuando se requiere promediar una variable que toma valores positivos y negativos, como ocurre, por ejemplo, al trabajar con desviaciones respecto a la media, siendo su suma igual a cero (propiedad de la media), y que al ser elevada al cuadrado cada desviación, el resultado será positivo. Como se observa, este promedio está definido rígidamente por una fórmula matemática. Al igual que la media, se deja influenciar demasiado por los valores extremos. Ejercicio 1. Consideremos arbitrariamente 5 valores, con los cuales calcularemos la media cuadrática: 5 6 10 12 7 Como se trata de datos no agrupados, aplicamos la fórmula respectiva: M2 =
2
∑ xi n
M2 =
52 + 62 + 102 + 122 + 7 2 = 5
25 + 36 + 100 + 144 + 49 = 8, 41 5
Estadística básica aplicada
138
Este valor promedio es superior al de la media aritmética:
x=
∑ xi 40 = =8 n 5
8 < 8, 41
x = Me > M1 (ver Figura 8.6). Las fórmulas para calcular el grado de asimetría, entre otras, son: a) El coeficiente de Pearson:
As =
M1 – Md s
b) Aplicando la medida de Bowley de asimetría, se tendrá: A = s c) Aplicando los momentos unidimensionales: A = s
y S es la desviación típica =
m3 s
3
siendo:
Q 3 + Q1 – 2 M e Q3 – Q1 ∑ ( yi − y ) ni n 3
m3 =
s2
Figura 8.6
Simétrica Asimétrica
positiva
Asimétrica negativa
Md Me M1
M1 Me Md
M 1 Me Md
Capítulo 8. Medidas de dispersión, asimetría y apuntamiento
199
Tabla 8.10 yi ni 2 4
4 6
yini Ni 8 24
y2ini yi – y (yi – y)3 (yi – y)3ni
_
4 10
16 96
-3,3 -1,3
-35,94 -2,20
-143,76 -13,20
M1 =
106 = 5,3 20
yj–1 + yj 2 6 5 30 15 180 0,7 0,34 1,70 4+6 8 3 24 18 192 2,7 19,68 59,04 Me = =5 2 10 2 20 20 200 4,7 103,82 207,64 y Md = j = 4 Σ 20 106 _ 684 - - 111,42 Σ y2i ni 684 s = 2,47 s2 = 6,11 s = – y2 s= – 5,32 n 20 Me =
Los resultados al aplicar las fórmulas anteriores se interpretaron así: As = 0 la distribución es simétrica. (As = 0) As > 0 la distribución es asimétrica positiva. (As > 0) As < 0 la distribución es asimétrica negativa. (As < 0) Ejercicio 23. Apliquemos las fórmulas anteriores, en los datos que fueron utilizados para calcular los momentos obteniendo el grado de asimetría (Tabla 8.10). Con la anterior información se pueden calcular las diferentes medidas de asimetría.
a) As = b) As = c) m3 = As =
3 (M1 – Me) 3 (5,3 – 5) 3(0,3) = = = 0,36 s 2,47 2,47 M1 – Md 5,3 – 4 1,3 = = = 0,57 s 2,47 2,47 Σ (yi – y)3 ni n
=
111,42 = 5,57 20
s3 = (2,47)3 = 15,07
m3 5,57 = = 0,37 3 s 15,07
d) La distribución será asimétrica positiva, dado que: M d < Me < M1
4 < 5 < 5,3
Estadística básica aplicada
200
Figura 8.7
+
4 5 5,53 Md Me M1
Se puede observar que el grado de asimetría en el punto (b) es ligeramente superior al obtenido en los puntos (a) y (b), ello se debe a que el Md se obtuvo directamente de la distribución, cuando en realidad para esta fórmula se obtiene por el método empírico. Md = 3Me – 2M1 APUNTAMIENTO O CURTOSIS
Una característica importante de la variación, en algunas distribuciones, es el grado de agudeza en la cima de la curva que las representa. Esta agudeza, que por lo general se observa en la moda, puede ser más alta o más baja que la alcanzada en una distribución normal. Si la curva es más plana que la normal, se dice que la distribución es achatada, es decir, la curva es platicúrtica; si es más aguda que la normal, recibe le nombre de apuntada o leptocúrtica. Ahora, en el caso de que sea normal, se denomina mesocúrtica. Las curtosis es una medida de la altura de la curva y por tanto, estará dada por el cuarto momento respecto a la media, dividida por la varianza, elevada al cuadrado. Ap =
m4 2 2
(s )
=
m4 s4
Si Ap = 3 la distribución es normal o mesocúrtica. Ap > 3 la distribución es apuntada o leptocúrtica. Ap < 3 la distribución es achatada o platicúrtica. Figura 8.8 apuntada o leptocúrtica normal o mesocúrtica achatada o platicúrtica
Capítulo 8. Medidas de dispersión, asimetría y apuntamiento Tabla 8.11 yi ni yi – y (yi – y)2 2 4 -3,3 10,89 4 6 -1,3 1,69 6 5 0,7 0,49 8 2 2,7 7,29 10 3 4,7 22,09 Σ
20
-
-
(yi – y)3
(yi – y)4 (yi – y)4 ni
-35,94 -2,20 -0,34 19,68 103,82
118,59 2,86 0,24 53,14 487,96
474,36 17,14 1,20 159,43 975,93
-
-
1.628,06
Ejercicio 24. Calculemos el grado de apuntamiento en la distribución dada por la Tabla 8.11. Σ(yi–y)4ni 1.628,06 m = = = 81,40; 2 La varianza para esta distribución es s = 6,11 y 4 n 20 por otra parte (s2)2 = (6,11)2 = 37,33; ahora, reemplazamos en la fórmula m 81,40 Ap = 4 4 = = 2,18 ; como 2,18 < 3 la curva será achatada o platicúrtica. s 37,33
RESUMEN DEL CAPÍTULO
En la descripción y cuantificación de una característica, se necesita algo más que la elaboración de una tabla de frecuencias, de una gráfica o del cálculo de cierto promedio. Es necesario determinar el grado de variabilidad de los datos con respecto a ese promedio. Esa ha sido la razón por la cual se han presentado las medidas de dispersión, tales como: el rango, la varianza, la desviación típica o estándar, el coeficiente de variación, el puntaje típico o estandarizado, la desviación media, la desviación mediana y el recorrido intercuartílico. La más importante de las medidas de dispersión es la desviación típica, definida como la raíz cuadrada de las desviaciones respecto a la media aritmética. Términos para recordar Asimetría Desviación cuartil Rango Achatada o platicúrtica Desviación media Rango intercuartílico Apuntamiento o leptocúrtica Desviación típica o estándar Rango interdecil Asimetría Momentos Recorrido Coeficiente de Normal Simetría desviación cuartil Puntaje típico Varianza Coeficiente de variación Continúa...
201
Estadística básica aplicada
202 ...Continuación
Fórmulas Σ Z2i Σ (xi – x )2 Varianza (datos = no agrupados) n n
S2 = S2 =
S2 =
Σ Z2i n Σ (yi – y )2 ni Varianza (datos = agrupados) n n
[
]
Σ z’2 ni Σ z’i ni – n n
s = + s2
De =
Σ yi – Me ni n
QD2 =
Q3 – Q1 2
D R = D9 – D 1
m’r =
(datos agrupados)
Desviación mediana (datos agrupados)
Recorrido interdecil
Σ y ir ni n
Momentos respecto a la variable
Σ Z’ ni n
Momentos respecto a un origen de trabajo
AB =
r i
Q 3 + Q1 – 2 M e Q3 – Q1
Md = 3M1 – Me A p=
Desviación media
Desviación cuartil
ar =
método abrev.)
Puntaje típico o estandarizado
Σ yi – y ni Σ Zi ni = n n
Da =
Varianza (primer
Desviación típica o estándar
x–x s
Z =
2
m4 s4
Asimetría de Bowley
Método empírico para calcular Md
Medida de apuntamiento
S2 =
2
Σ xi – nx2 Σ xi2 2 Varianza (datos n = n – x no agrupados)
S2 =
2
Σ yi ni 2 –y n
s2 = C2
Varianza (datos agrupados)
[
]
Σ zi” 2 ni Σ zi” ni – n n
cv = s = s x y
2
Varianza (segundo método abrev.)
Coeficiente de variación
Da =
Σ xi – x Σ Zi Desviación media = (datos no agrup.) n n
De =
Σ xi – Me n
DQ =
Q3 – Q 1 Q 3 + Q1
Coeficiente de desviación cuartil
Cd =
Da Da = x y
Coeficiente de desviación media
mr =
Σ Z i ni n
Momentos respecto a la media
m”r =
Σ Z”i r ni n
Momentos respecto a un origen de trabajo tomados en unidades intervalo
r
Desviación mediana (datos no agrupados)
As =
3(M1 – Me) Coeficiente de s asimetría de Pearson
As =
m3 s3
Medida de asimetría
As = 0
Distribución simétrica
Ap > 3
Apuntada
As > 0
Asimetría positiva
Ap < 3
Achatada
As < 0
Asimetría negativa
Ap = 3
Normal
M 1 = Me = Md
Distribución simétrica
Capítulo 8. Medidas de dispersión, asimetría y apuntamiento ...Continuación
M1 > Me > Md asimetría positiva De ≤ Da < s
en cualquier distribución
Rango = xmáx – xmín rango corregido ∑ ( yi − y ) ni 3
m3 =
Momento 3
M1 < Me < Md asimetría negativa en una distribución D = 0,7979 (s) a simétrica QD2 = 0,6745 (s) desviación cuartil 4 ∑ ( yi − y ) ni m = 4
n
n
Momento 4
Ejercicios propuestos 1. Determinar si son ciertas o falsas las siguientes relaciones.
a)
Σy2i ni = 3.000
n = 50
y = 62
Σ(yi–y)2ni = 4.300 n s = 38 De = 40
b) s = 26; y = 60;
c)
Da = 46
d) K = 0,2
s2 = 10
V[ky] = 4
2. Cuál es la relación existente entre la media aritmética, la mediana y la moda: a) En una distribución normal. b) En una distribución positivamente asimétrica. c) En una distribución negativamente asimétrica. 3. Para la media y la varianza de un conjunto de datos se han hallado, respectivamente, los valores 4 y 25. ¿Qué opinión le merece la media aritmética? (Utilice el coeficiente de variación.) 4. La medida comúnmente usada para calcular la variación en un grupo de datos es (señalar el literal correcto):
a) b) c) d)
La oscilación o rango La desviación media La varianza La desviación típica.
5. Indicar cuáles afirmaciones son falsas y cuáles verdaderas: a) En una distribución simétrica la desviación media es igual a 0,7979 (s) b) Si se multiplica la variable por una constante, el coeficiente de variación se altera. c) La desviación mediana es menor o igual a la desviación media, a su vez, ésta es menor que la desviación típica. d) Como la desviación típica es la raíz cuadrada de la varianza, pueden obtenerse resultados con signos positivos y negativos. e) La varianza de una constante por una variable, es igual a la varianza de la variable. 6. Se analizaron en el segundo semestre del año pasado los gastos semanales de 30 empresas y se obtuvo en promedio de $174 millones y una desviación típica de $9 millones. Se determinó luego que los contabilistas de cada una de las empresas habían prescindido de $3 millones en los gastos por un error de apreciación. Corrigiendo las medidas enunciadas, obtener el coeficiente de variación de los gastos de estas empresas. 7. En cierta región, la distribución de predios por extensión tiene una media
203
Estadística básica aplicada
204
de 35,4 hectáreas y una desviación típica de 19,33 hectáreas, mientras que la distribución por canon de arrendamiento semanal tiene una media de $275.750 y una desviación de $23.900. ¿Cuál de las dos distribuciones tiene mayor variabilidad?
8. Una empresa fabrica bombillas eléctricas de dos clases, A y B. Con base en muestras de la producción se sabe que las distribuciones de la duración en horas de esas bombillas son tales, que tienen las siguientes medias y varianzas.
TIPO
MEDIA
VARIANZA
A B
800 horas 650 horas
7.800 5.400
Se pide: a) Comparar ambas distribuciones en cuanto a su variabilidad absoluta y relativa. b) Si se extrajo una bombilla de cada tipo y su duración fue de 700 y 630 horas, respectivamente, ¿cuál tipo de bombilla tiene menor posición relativa? c) Determinar el coeficiente de variación para el total de las bombillas examinadas.
9 Señalar y justificar la respuesta correcta a las siguientes afirmaciones: a) La varianza, la desviación media y la desviación mediana se expresan en las mismas unidades de la variable. b) Si cierta distribución tiene una varianza igual a 144, y otra, una desviación estándar de 11, puede afirmarse que la primera tiene mayor dispersión. c) La media de un centenar de artículos es 50 y la suma de los cuadrados de las desviaciones respecto a la media es 3.600, por lo tanto el coeficiente de variación es 0,8.
10. Sumando 4 a cada uno de los números de la serie: 2, 6, 5, 9, 1, se obtiene la serie 6, 10, 9, 13 y 5. Comprobar que ambas series tienen la misma varianza, distintas medias y diferentes coeficientes de variación. 11. Multiplicando por 4 cada uno de los valores de la variable x: 3, 2, 0, 5, se obtiene la serie y: 12, 8, 0, 20, comprobar que ambas series tienen el mismo coeficiente de variación 12. Reconstruir la distribución simétrica de la Tabla 8.12 y calcular: Tabla 8.12 yi ni Hi
10 20 30 40 50
6 0,12 - 0,32 - - -
a) La desviación típica b) El coeficiente de variación c) El grado de apuntamiento 13. El cuadro de pagos en dos fábricas para el mes pasado fue así MEDIDAS
FÁBRICA A FÁBRICA B
Salario medio $963.00 mensual Desviación $76.000 típica
$972.000 $88.000
a) ¿En cual de las fábricas los salarios presentan una mayor variabilidad absoluta? b) ¿En cuál de las fábricas los salarios presentan mayor variabilidad relativa? c) Si a un empleado le ofrecen un salario de $968.000, ¿en cuál de las
Capítulo 8. Medidas de dispersión, asimetría y apuntamiento fábricas tendrá una mejor posición relativa? d) Consideremos que en la fábrica A hay 30 empleados, y 50 en la fábrica B. Se pide calcular el coeficiente de variación para el total de los 80 empleados. 14. Los 100 empleados de una compañía se clasifican de acuerdo con los impuestos pagados (retención en la fuente). Con la información que aparece en el cuadro 8.13, se pide: a) Calcular la varianza por los métodos vistos. b) Calcular el coeficiente de variación c) Si se reajusta el impuesto en un 5%, ¿cuál es la desviación típica y el coeficiente de variación? Tabla 8.13 RETENCIÓN (miles de $)
0 20 40 60 80 100
Nº DE EMPLEADOS nI
- 20 - 40 - 60 - 80 - 100 - 120
30 25 15 13 12 5
15. C u a n d o l a c u r v a p r e s e n t e u n alargamiento hacia el lado derecho, se dice que es: a)simétrica b) achatada c)asimétrica d) asimétrica negativa e) asimétrica positiva 16. La media aritmética de los cuadrados de las diferencias entre los valores que toman la variable y su media aritmética, estaríamos calculando: a) Coeficiente de variación
b) Desviación típica c) Puntaje típico d) Varianza e) Rango 17. Al dividir la desviación típica por su media aritmética y su resultado lo multiplicamos por 100, estarímaos calculando: a) Desviación típica b) Puntaje típico c) Coeficiente de variación d) Varianza e) Rango 18. Conteste si es cierto o es falso en cada uno de los siguientes puntos: a) El resultado obtenido al calcular la varianza, se dá en las mismas unidades en que está dada la variable. b) La varianza es igual al cuadrado de la desviación típica. c) El coeficiente de variación se puede expresar en términos porcentuales. d) El puntaje típico, es la raíz cuadrada de la varianza. e) Para calcular la desviación típica debo, primero que todo, ordenar los datos. 19. En una distribución asimétrica negativa la Media aritmética debe ser: a) Menor a la Mediana y esta mayor que el Modo. b) Mayor que el Modo y menor que la Mediana. c) Igual que el Modo y la Mediana. d) Menor que la Mediana y ésta menor que el Modo. e) Ninguna de las anteriores.
205
Estadística básica aplicada
206
20. En una distribución achatada se dice cuando: a. L a m e d i d a d e a p u n t a m i e n t o calculada es mayor que 3 b. Es platicúrtica c. L a m e d i d a d e a p u n t a m i e n t o calculada es menor que 3 d. Es simétrica e. Ni a. ni b.
el punto más alto de la curva de la distribución corresponde a: a. Media b. Mediana c. Media geométrica d. la Moda e. Ninguna de las anteriores
21. Cuando una distribución es simétrica,
Ejercicios de evaluación 1. Con los siguientes datos obtenidos a través de una muestra 3; 7; 5; 2; 8; 5. El valor de la desviación típica es: a. 0,68 b. 1,17 c. 2,08 d. 2,38 e. 3,21 2. La medida generalmente más utilizada para determinar el grado de dispersión o de variabilidad en un conjunto de datos es: a. Desviación media b. Varianza c. Coeficiente de variación d. Desviación típica e. Rango 3. Con los siguientes datos de una variable continua: y’i–1 – y’i : 20,1–28 28,1–36Continúa.... ni 3 6 36,1– 44 44,1–52 52,1–60 Continúa.... 5 4 2 El coeficiente de variación es: a. 0,10 b. 0,15 c.0,25 d. 0,30 e. 0,35 4. Si en una distribución de edades, se calcula la varianza siendo de 2,5 años, se podrá decir que la varianza de esa distribución en meses es: a. 2,5 d. 130
b. 25 e. 360
c. 30
5. Si la media aritmética de una distribución es 22,3 y su varianza es 64, el coeficiente de variación es del: a. 21,13% d. 41,54%
b. 32,41% e. 42,36%
c. 35,87%
6. Si para una serie de diez datos sin agrupar se tiene que: Σx2i = 1296 Σxi = 106 la varianza será igual a: a. 11,41 b. 17,24 d. 21,15 e. 24,30
c. 18.36
7. En los siguientes datos: x: 2, 8, 2, 6, 4, 2, 2, 4, 5, 5. el coeficiente de variación es: a. 28,73% d. 58,73%
b. 38,73% c. 48,73% e. 68,73%
8. Si se tiene dos distribuciones X y Y, de las cuales se han obtenido los siguientes resultados: n1 = 100 x = 28 s2x = 36 n2 = 50 y = 15 s2y = 25 Cuál de las dos variables tiene mayor variabilidad absoluta (dispersión): a. b. c. d. e.
La variable X La variable Y Las datos son incorrectos No se puede obtener Ninguna de las anteriores
Capítulo 8. Medidas de dispersión, asimetría y apuntamiento 9. Con el punto anterior (8) cuál de las distribuciones tiene mayor variabilidad relativa: a. La variable X b. La variable Y c. Los datos son incorrectos d. No se puede calcular e. Ninguna de las anteriores 10. Con el ejercicio del punto 8, si además de la información dada, se dice, que para las variables se conocen x = 16 y y =12 ¿en cuál de ellas se tiene una mejor posición relativa? 11. En un problema cualquiera se obtiene como resultado una varianza de 2,4 cuya variable son horas, se podrá decir que en minutos la varianza es: a. 160 d. 1.640
b. 164 e. 8.640
c. 180
12. En una empresa el salario quincenal promedio para obrero es $345.000, con una desviación estándar de $12.000. Si
207
el gerente establece un aumento mensual de $20.000 a cada uno de los obreros, se dice que la nueva desviación típica es: a. 10.000 d. 28.000
b. 12.000 e. 32.000
c. 20.000; f. ninguna
13. Con la información del punto anterior se dice que el nuevo coeficiente de variación es: a. 3,48% d. 9,28%
b. 4,48% c. 5,83% e.10,15%
14. Con los siguientes datos de una variable discreta yi : 1 3 5 7 10 ni : 5 4 6 3 2 Se dice que la varianza es igual a. 7,54 b. 7,63; c. 8,12 d. 9,16 e. 10,12 15. Con los datos de la distribución anterior el coeficiente de variación es: a. 20.38% d. 62,27%
b. 38.42% c. 56,32% e. 70,28%
Capítulo 9 REGRESIÓN Y CORRELACIÓN OBJETIVOS
•• •• •• ••
Identificar hechos que admitan intuitivamente un comportamiento lineal simple. Interpretar y manejar los conceptos de regresión y correlación. Evaluar la importancia que tiene la regresión y la correlación en el análisis de dos variables. Construir e interpretar gráficos de relación entre dos variables. CONTENIDO
•• •• ••
Regresión. Coeficiente de regresión. Varianza residual y explicada.
• Coeficiente de correlación. • Regresión ponderada. • Correlación por rangos.
INTRODUCCIÓN
En las unidades anteriores nos dedicamos al análisis de una sola variable, es decir, al estudio de las distribuciones unidimensionales o univariante. El proceso consistía en ordenar y concentrar la información en tablas, elaborando gráficas y aplicando una serie de medidas, buscando con ello la mejor forma de describir ciertas características, para así poder tener una idea aproximada de la situación real de un fenómeno, cumpliéndose, en parte, una de las finalidades de la estadística. En este capítulo se harán consideraciones respecto a distribuciones bidimensionales o bivariantes, es decir, el estudio del comportamiento de dos variables, a fin de determinar si existe alguna relación funcional entre sí, causa y efecto, además, de cuantificar dicho grado de relación. Estas dos variables deben ser analizadas simultáneamente, no en forma separada como se hacía en las distribuciones unidimensionales. Son ejemplos de distribuciones bidimensionales, variables tales como: producción y consumo; ventas y utilidades; gastos en publicidad y valor de las ventas; salarios altos y horas de trabajo; salarios y productividad; ingresos y gastos; etc. Ambas variables pueden ser discretas o continuas, o también una de ellas puede ser discreta y la otra continua.
Estadística básica aplicada
210
Para el desarrollo de este análisis, simbolizamos la primera variable, cualquiera que sea, por xi (donde i toma valores desde 1 hasta n, siendo n el número de pares de observaciones) y con yi simbolizamos la segunda variable. Se tendrán tantos valores de xi y de yi como pares de observaciones tengamos, en tal forma que el valor de x1 guarde relación con el de y1 , el de x2 con el de y2 y así sucesivamente. Para cada variable se podrá calcular, en forma independiente, la media aritmética, la varianza y la desviación típica. Veamos dos ejemplos:
xi x1 x2 x3 • • • xn
yi y1 y2 y3 • • • yn
Ejercicio 1. Supongamos que el gerente de una compañía que se dedica a la venta y compra de maquinaria industrial, considera que existe una relación positiva entre las ventas y las compras. Para ello se toma información de las seis sucursales o agencias que tiene la compañía; con esos datos vamos a calcular las medias aritméticas y las desviaciones típicas. Los valores de xi y yi estarán dados en millones de pesos.
solución:
Tabla 9.1
VENTAS ($)
COMPRAS ($)
6 10 14 20 30 80
xi yi
3 4 8 12 23 50
Media aritmética: Σxi 80 x= = 5 = 16 n
y=
xi2
yi2
6 3 36 9 10 4 100 16 14 8 196 64 20 12 400 144 30 23 900 529 80 50 1.632 762 x1 x2 x12 x22
Σyi 50 = = 10 n 5
Varianza: Σx2i 1.632 s2x = n – x2 = – (16)2 = 326,4 – 256 = 70,4
sx2 = 70,4
Σy2 i 762 s2y = – y2 = – (10)2 = 152,4 – 100 = 52,4
sy2 = 52,4
5
n
5
Desviación típica: sx = + sx2 = 70,4 = 8,39
sy = +
s2y = 52,4 = 7,24
Ejercicio 2. Consideremos que son 20 las empresas que se dedican a la venta y compra de maquinaria industrial. Calcular las medias, varianzas y desviaciones típicas.
Capítulo 9. Regresión y correlación
211
Tabla 9.2
VENTAS COMPRAS NÚMERO (millones $ (Millones $ EMPRESAS diarios) diarios)
Solución:
6 3 2 10 4 3 14 8 6 20 12 5 30 23 4 -
Σ
20
xi yi ni xi ni yi ni
6 10 14 20 30 Σ
3 4 8 12 23 -
2 3 6 5 4 20
Media aritmética Σx n 346 x = i i = = 17,3 n 20
12 30 84 100 120 346
y=
6 12 48 60 92 218
xi2 ni 72 300 1.176 2.000 3.600 7.148
yi2 ni
18 48 384 720 2.116 3.286
Σyini 218 = = 10,9 n 20
Varianza: s2x =
Σx2i ni 7.148 2 2 n – x = 20 – (17,3) = 357,4 – 299,29 = 58,11
s2y =
Σy2i ni 3.286 – y2 = – (10,9)2 = 164,3 – 118,81 = 45,49 n 20
Desviación típica o estándar: sx = +
sx2
= 58,11 = 7,62
sy = + s2y = 45,49 = 6,74
Una distribución bidimensional puede representarse gráficamente en un plano cartesiano, colocando en el eje horizontal o abscisa los valores de la variable xi y en el eje vertical u ordenada, los valores de yi. Para cada valor de xi corresponderá un valor de yi el que se representará por un punto y habrá tantos puntos como pares de observaciones tengamos. A este conjunto de puntos lo denominaremos diagrama de dispersión o nube de puntos; su nombre se debe a que los puntos están dispersos.
Estadística básica aplicada
212 Figura 9.1 Diagrama de dispersión y
Al observar cualquier diagrama de dispersión encontraremos que, en la mayoría de los casos, la gráfica nos puede dar idea del tipo de línea hacia la cual tiende a concentrarse los puntos o pares de observaciones, generalmente mostrando una tendencia hacia arriba, hacia abajo y siempre hacia la derecha, al mismo tiempo que sugiere la existencia o no de una relación entre los valores de las dos variables. x
Parte del análisis, en este tipo de distribución, consiste en buscar la mejor línea que represente a ese conjunto de puntos. El problema surgiría si nos preguntáramos: ¿qué línea se necesita? ¿recta? ¿curvilínea? ¿exponencial?, etc.
El tipo de línea dependerá, entre otras, de la forma que asuma el conjunto de puntos, buscándole siempre una línea que mejor refleje la tendencia que ellas insinúan y al mismo tiempo que sea la más sencilla posible. La elaboración de la gráfica, el conocimiento de la distribución y la experiencia que se tenga, son buenas consejeras para confiar en un buen ajuste. En algunos casos, los puntos estarán bastante concentrados alrededor de la línea, en otros se presentarán muy dispersos; esta última situación puede producir grandes errores en la estimación, en especial cuando se ha hecho el ajuste utilizando una línea que no sea la más indicada. Se dice, en general, que la mejor línea es aquella que hace mínima la suma de los cuadrados de las diferencias entre los puntos dados y los obtenidos mediante la línea ajustada o estimada. Por otra parte, es importante tener en cuenta para la determinación de la línea más indicada, la clase de relación que puede existir entre las dos variables. • Dependencia causal unilateral. Esta relación se da cuando una de las variables influye en la otra, pero no al contrario. • Interdependencia. Se presenta cuando la influencia entre las dos variables es recíproca. También se podría decir que es un caso de dependencia bilateral. • Dependencia indirecta. Dos variables pueden mostrar cierta relación a través de una tercera variable que influye en ellas. • Concordancia. Se presenta por lo general en dos variables independientes a las que se les determina o cuantifica la correlación que podría existir. • Covariación casual. Cuando la correlación entre las dos variables es casual o accidental.
Capítulo 9. Regresión y correlación
213
Un buen ajuste dependerá más del criterio y experiencia, que de los conocimientos matemáticos que se tengan. REGRESIÓN
La palabra regresión se emplea para denotar el proceso de estimar el valor de una de las variables en función de la otra, cuyo valor se considera dado. El término fue usado por primera vez por Galton en un estudio para relacionar las estaturas de padres e hijos, indicando un regreso hacia los atributos del padre; desde entonces se acepta la palabra regresión, con el significado actual. Regresión rectilínea simple
Cuando consideramos que la línea recta es la que mejor representa al conjunto de puntos, se deberá establecer la ecuación correspondiente, calculando los parámetros, por medio de un sistema de ecuaciones normales. Analíticamente la recta de regresión de “2 en 1” se representa por la ecuación: Y = bx + c
ó
Y = Bx + A
ó
Y = β1x + β0
se tendrá que: Y
se denominan predictando o variable estimada y se lee como Y estimado o Y con acento circunflejo, siendo la variable dependiente.
x
corresponderá al predictor, es decir la variable que suponemos conocida para estimar a Y, denominada también como variable independiente.
b = B = β1 es el coeficiente angular, en la ecuación de la recta de regresión; es el crecimiento o decrecimiento en Y, por cada valor que toma x. c = A = β0 es el coeficiente de posición u origen en la ordenada. Por comodidad, en la mayoría de los casos, trabajaremos con letras de nuestro alfabeto, sin olvidar que las letras mayúsculas se utilizan para simbolizar a la población y las minúsculas para las muestras. El coeficiente angular (b) nos determina los crecimientos en el predictando ( Y o x ) por cada unidad que aumenta el predictor (x o y).
También se le denomina pendiente, la que a su vez puede ser: a) Mayor que cero, es decir positiva, indicando que la recta es ascendente. b) Menor que cero, o sea pendiente negativa y la recta será descendente. c) Igual a cero, caso en el cual la recta será una línea paralela a uno de los ejes.
Estadística básica aplicada
214
Figura 9.2 Gráficamente se tendrá la Figura 9.2 para el coeficiente angular, cuando: y
a)
b)
Y
y
Y
c)
y
Y
X
o
x
b>0
o
x
b 0, será un punto por encima del origen; para c = 0, la línea pasará por el origen; para c < 0, corresponderá a un punto por debajo del origen (ver Figura 9.3). Figura 9.3 y
y
o
x
c>0
y
o
c=0
x
o
c30) utilizamos la Z. Para el valor de “t”, en primer lugar, se determina los grados de libertad υ = n – 2 = 5 – 2 = 3, que aparece en la primera columna de la Tabla III y seleccionamos la columna correspondiente a 0,05 y observamos al frente de 3 que aparece el valor de 3,1825. El error al nivel del 95% que podemos cometer en esta estimación es de 0,88 miles de millones de pesos, además, diremos que el valor verdadero, deberá estar entre 11,10 y 11,86 miles de millones de pesos. La Figura 9.5 nos indica el porcentaje de puntos que quedan incluidos entre las líneas paralelas formadas por el número de veces que tomamos el error estándar a uno y otro lado de la variable estimada, dada por la recta de regresión. Figura 9.5 Y
Y ± 1 syx ; se tendrá entre Ysup. y Yinf. al 68,3% de los puntos.
3%
68,
o
5%
95,
Y ± 2 syx ; se tendrá entre Ysup. y Yinf. al 95,5% de los puntos.
7%
99,
Y ± 3 syx ; se tendrá entre Ysup. y Yinf. al 99,7% de los puntos. x
Capítulo 9. Regresión y correlación
219
Coeficiente de Correlación:
Hemos utilizado en el cálculo, una de las fórmulas r2 = R2, conocido como coeficiente de correlación al cuadrado o coeficiente de determinación y si solamente calculamos r = R = R2 el cual se denomina coeficiente de correlación o coeficiente de correlación de Pearson, que son calculados mediante la aplicación de algunas de las siguientes fórmulas:
Cov2 75,22 R2 = 2 2 = = 0,99 Sx S y (147,2)(38,8)
R2 = 1 –
S2yx Sy2
=1–
0,38 38,8
0 ≤ R2 ≤ 1
= 0,99
Cov 75,2 r=R= = = 0,995 SxSy 12,13(6,23)
R = R2 = 0,99 = 0,995
–1 ≤ r ≤ 1
Entre más cercano esté r a 1, hay una mayor correlación; cuando r ≤ 30 se dice que no hay correlación, por lo tanto la función utilizada no nos va a dar una buena estimación, pues no hay relación entre esas dos variables. El grado de correlación se podrá interpretar, evitando un tanto la rigidez, mediante la presentación de los siguientes límites:
• • • • • •
Correlación perfecta, cuando: Correlación excelente, cuando: Correlación aceptable, cuando: Correlación regular, cuando: Correlación mínima, cuando: Correlación no hay, cuando:
r = 1 0,90 < r M[y] de ahí que x = 4
y = 3
La varianza de x será: s2x = M[x2] - x2
s2x = 81 - 42 = 81 -16 = 65
La varianza de y será: s2y = M[y2] - y2
s2y = 49 - 32 = 49 - 9 = 40
m2 502 2.500 2 syx = s2y – 2 xy = 40 – = 40 – = 1,54 ; syx = s2yx = 1,54 = 1,24 sx 65 65 Regresión rectilínea ponderada El proceso que se sigue en la regresión rectilínea ponderada es exactamente igual al utilizado en la regresión rectilínea simple. Las ecuaciones son: (1) Y = byx x + cyx
(2)
X = bxy y + cxy
Los parámetros b y c se pueden obtener teniendo en cuenta los tres métodos expuestos anteriormente en la regresión rectilínea simple, que son: igualación, sustitución y eliminación. a) Trabajando con un sistema de ecuaciones: (1) Σ yini = byx Σ xini + ncyx
(2) Σ yixini = byx Σ x2ini + cyx Σ xini
b) Calculando directamente los parámetros. Los coeficientes angulares son:
byx =
mxy sx2
bxy =
mxy Σ(xi – x)(yi – y) Σxiyini –xy y la covarianza será: mxy = = sy2 n n
Σx n Σy n Las medias aritméticas se obtendrán así: x = i i y= i i n n
Capítulo 9. Regresión y correlación las varianzas así: sx2 =
Σ x2i ni – x2 n
sy2 =
235
Σ yi2ni 2 n –y
y los coeficientes de posición, así: cyx = y – x byx
cxy = x – y bxy
m c) La recta de regresión puede representarse por: Y = byx (x – x) + y ;siendo: byx = 2xy sx d) La varianza residual, se calculará:
2 syx = sy2 –
mxy2 m2xy 2 2 s = s – s2x xy x sy2
e) El error estándar de estimación, se obtendrá: syx= + s2yx
2 sxy= + sxy
f) El coeficiente de correlación podrá calcularse por cualquiera de las siguientes fórmulas: s2 m s2 (1) r = xy (2) r = byx bxy (3) r = a2y o r = 2ax sx sy sy sx s2 s2 (4) r = 1 – 2yx = 1 – 2xy sy sx Ejercicio 10 Utilicemos las anteriores fórmulas en el ejercicio 2 de este capítulo, donde teníamos que: Solución:
xi 6 10 14 20 30 Σ
yi ni 3 2 4 3 8 6 12 5 23 4 - 20
xi
yi ni
6 10 14 20 30 80
3 4 8 12 23 50
xi ni 12 30 84 100 120 346
yi ni 6 12 48 60 92 218
2 3 6 5 4 20 xiyini 36 120 672 1.200 2.760 4.788
x2i ni 72 300 1.176 2.000 3.600 7.148
y2i ni 18 48 384 720 2.116 3.286
Estadística básica aplicada
236
Para determinar los parámetros byx;
Cyx se tendrán las siguientes ecuaciones:
(1) Σyini = byx Σxini + ncyx (2) Σxiyini = byx Σxi2ni + cyx Σxini Reemplazamos: (1) 218 = 346byx + 20cyx
(2) 4.788 = 7.148byx + 346cyx
Ahora multiplicamos la ecuación (1) por -17,3 y la restamos de la ecuación (2): (1) 4.788 = 7.148byx + 346cyx (2) -3.771,4 = –5.985,8byx– 346cyx – 1.016,6 = 1.162,2b
byx =
1.016,6 = 0,874 1.162,2
yx
El valor obtenido para byx lo reemplazamos en la primera ecuación: 218 = 346 (0,874) + 20 cyx 218 = 302,40 + 20cyx cyx =
218 – 302,40 –84,40 = = – 4,22 20 20
La ecuación de la recta de regresión de Y en función de x será: Y = 0,874x – 4,22 Para obtener los parámetros de la ecuación X = bxy y + cxy se procederá en la misma forma que se hizo en la recta de regresión de “2 en 1”: (1) Σxini = bxy Σyini + ncxy Reemplazando, se tendrá:
(2) Σxiyini = bxy Σy2i ni + cxy Σyini
(1) 346 = 218bxy + 20cxy
(2) 4.788 = 3.286bxy + 218cxy
Multiplicamos a la ecuación (1) por –10,9 y el resultado lo restamos de la (2): (2) 4.788 = 3.286bxy + 218cxy (1) –3.771,4 = – 2.376,2bxy – 218cxy 1.016,6 =
909,8bxy
–
Reemplazamos en la ecuación (1): 346 = 218 (1,12) + 20 cxy cxy =
bxy =
1.016,6 = 1,12 909,8
346 = 244,16 + 20 cxy
346 - 244,16 101,84 = = 5,09 20 20
La ecuación correspondiente a la recta de regresión de “1 en 2”, será: X = 1,12 y + 5,09 Las dos ecuaciones de regresión también se pueden plantear en la siguiente forma: Y = byx (x – x) + y
Y = 0,874 (x – 17,3) + 10,9
Capítulo 9. Regresión y correlación X = bxy (y – y) + x
X = 1,12 (y – 10,9) + 17,3
Utilizando las dos formas de estimar a Y y a X, consideremos el mismo ejercicio donde las ventas (x) fueron de 20, y se quería estimar el valor de las compras (y): Y = byx x + cyx Y = byx (xi – x) + y ;
Y = 0,874 (20) – 4,22 = 17,48 – 4,22 = 13,26 Y = 0,874 (20–17,3) + 10,9 = 0,874 (2,7) + 10,9 = 13,26
Si se fuera a estimar a (X), sugiriendo que las compras fueron de 30 millones de pesos, se tendría: X = bxy y + cxy
X = 1,12 (30) + 5,09 = 33,60 + 5,09 = 38,69
X = bxy (y – y) + x
X = 1,12 (30 - 10,9) + 17,3 = 1,12 (19,1) + 17,3 = 38,69
La covarianza y los coeficientes angulares, se hubieran podido determinar directamente, así: Σx y n 4.788 mxy = i i i – x y = – (17,3) (10,9) = 239,4 – 188,57 = 50,83 n 20 byx=
mxy 50,83 = = 0,874 sx2 58,11
bxy =
mxy 50,83 = = 1,12 sy2 45,49
cyx = y – xbyx
cyx = 10,9 – 17,3 (0,874) = 10,9 – 15,12 = –4,22
cxy = x – ybxy
cxy = 17,3 – 10,9 (1,12) = 17,3 – 12,21 = 5,09
La varianza residual se obtendrá mediante la aplicación de la fórmula más sencilla que vimos en la regresión lineal simple: s2yx = s2y –
m2xy 50,832 = 45,49 – = 45,49 – 44,46 = 1,03 s2x 58,11
m2 50,832 2 sxy = sx2 – 2xy = 58,11 – = 58,11 – 56,80 = 1,31 sy 45,49 El error estándar se obtendrá así: 2 syx = + syx = 1,03 = 1,01
2 sxy = + sxy = 1,31 = 1,14
237
Estadística básica aplicada
238
El coeficiente de correlación se podrá obtener indistintamente mediante: mxy 50,83 50,83 a) r = = = = 0,99 ; b) r = byx bxy = (1,12) (0,9874) = 0,99 sysx (6,74) (7,62) 51,36 s2 c) r = 1 – 2yx sy
=
1–
1,03 45,49
=
1 – 0,0226 = 0,99
2 sxy 2 s x
=
1–
1,31 = 58,11
1 – 0,0226 = 0,99
r= 1–
Coeficiente de correlación por rangos Este coeficiente de correlación de Spearman, es muy utilizado en investigaciones de mercado, especialmente cuando no se deben aplicar medidas cuantitativas para ciertas características cualitativas, tales como: preferencias, actitudes, capacidad de dirección de personal, belleza femenina y otras características de conducta. En aquellos casos, en donde se pueden aplicar ambos coeficientes de correlación, encontraremos que sus resultados son bastante aproximados, si no del todo coincidentes. El coeficiente de correlación por rangos de Spearman se define mediante la fórmula: rs = 1 –
6 Σ d2i n (n2 – 1)
di = representa la diferencia entre cada par de variables xi y yi n = es el número de rangos o diferencias, es decir, el número de pares de observaciones. El proceso que se sigue es el siguiente: • • • • •
Se toman las variables x y y colocándose los valores en orden ascendente o descendente. El menor valor de x será 1, el siguiente 2, etc. En el caso de haber dos valores iguales, se sumarán los números correspondientes al ordenamiento y se dividirá por dos, correspondiéndole a cada uno ese mismo valor. Luego se establecen las diferencias entre los valores dados al ordenarse las variables. Se eleva al cuadrado cada una de las diferencias. La sumatoria de di2 se multiplica por 6 y se divide por el producto de n (n2 – 1) El resultado anterior se resta a 1, dando el valor del coeficiente de Spearman, el cual será un valor comprendido entre –1 y 1.
Capítulo 9. Regresión y correlación
239
Ejercicio 11. Se efectúa una encuesta, utilizando un cuestionario de elección múltiple, en dos grupos de mujeres pertenecientes al estrato social alto y medio de la ciudad. La encuesta consiste en solicitar en cada entrevista que, de las 8 características que se men cionan a continuación, como deseables en una tienda de ropa femenina, se indiquen las cuatro que le parezcan más importantes, según su criterio personal. Los resultados de la encuesta fueron los siguientes: CARACTERÍSTICAS MÁS IMPORTANTES
Nº. de mujeres E. alto
E. medio
Que la tienda esté cerca del sitio donde vivo
8
3
Que la tienda tenga estacionamiento propio
17
11
Que tenga variado surtido de mercancía
22
18
Que ofrezca facilidades de crédito
5
23
Que el personal sea atento y servicial
16
10
Que tenga ofertas atractivas
8
11
Que sea elegante en decoración y exhibición
10
7
Que los precios no sean tan altos
7
10
93 93
Σ
Calcular el coeficiente de correlación de Spearman. Solución: xi yi
8 17 22 5 16 8 10 7 93
3 11 18 23 10 11 7 10 93
xi
RANGOS yi di
3,5 7 8 1 6 3,5 5 2 -
d 2i
1 2,5 6,25 5,5 1,5 2,25 7 1,0 1,00 8 -7,0 49,00 4 2,0 4,00 5,5 -2,0 4,00 2 3,0 9,00 3 -1,0 1,00 - 0 76,50
6 (76,50) rs = 1 – = 8 (64 - 1)
rs = 1 –
6 Σd2i n (n2 - 1)
rs = 1 –
459 459 =1– = 512 – 8 504
rs = 1 – 0,91 = 0,09
La correlación entre las variables es muy baja, es decir, permite concluir que no existe casi ninguna correlación. RESUMEN DEL CAPÍTULO A un conjunto de puntos pertenecientes a una distribución bidimensional, es posible ajustar dos líneas rectas, una para estimar los valores de X, partiendo de valores conocidos de y, y se le denomina regresión de “1 en 2” y otra, para estimar valores de Y, a partir de valores conocidos de x, y se denomina regresión de “2 en 1”. continúa...
Estadística básica aplicada
240
La palabra regresión, la utilizamos para significar la estimación de un valor de una variable en función de otro valor supuestamente conocido, correspondiente a la otra variable. Decimos que la mejor línea que se ajusta a un conjunto de puntos es aquella en donde la suma de los cuadrados de las diferencias entre los valores reales y los estimados es mínima. Para determinar el grado de correlación entre las variables, no basta con calcular la varianza explicada, pues existe el coeficiente de determinación o coeficiente de correlación al cuadrado, siendo un valor 0 ≤ R2 ≤ 1. Si el coeficiente de correlación r es negativo, nos indica que tanto la covarianza, como los coeficientes angulares, son negativos y por tanto la recta será descendente, por tener pendiente negativa. Además, si es igual a -1, nos indica que existe una perfecta correlación; en otras palabras, cada valor de la variable deberá ser exacta mente igual al valor estimado, y por tanto la varianza residual será igual a 0, y la varianza explicada igual a la varianza total. Cuando se tiene alguna dificultad para cuantificar las características, especialmente cuando se trata de medir atributos, y se desea comparar esas dos características dadas en las mismas formas de clasificación, habrá necesidad de utilizar el coeficiente de correlación de Spearman, para poder determinar el grado de correlación. Términos para recordar Coeficiente angular Coeficiente de correlación al cuadrado Coeficiente de correlación por rangos Coeficiente de determinación Coeficiente de posición Covarianza Diagrama de dispersión Nube de puntos Pendiente Predictando
Predictor Regresión Regresión de “1 en 2” Regresión de “2 en 1” Regresión ponderada Regresión simple Varianza explicada Varianza no explicada Varianza residual Varianza total
Fórmulas Y = byx x + cyx Recta de regresión Y = byx (x – x) + y en “2 en 1”
Recta de r egresión en “2 en 1” continúa...
Capítulo 9. Regresión y correlación X = bxy (y – y) + x Recta de regresión X = bxyy + cxy en “1 en 2” m m byx = 2xy Coeficiente angular bxy = 2xy sx sy de “2 en 1” cyx = y – x byx
241 Recta de regresión en “1 en 2” Coeficiente angular de “1 en 2”
Coeficiente de cxy = x – y bxy posición de “2 en 1”
Coeficiente de posi- ción de “1 en 2”
mxy =
Σxiyi – x y n
Covarianza simple
mxy =
Σ (xi – x)(yi – y) Covarianza n simple
mxy =
Σxiyini –xy n
Covarianza (ponderada)
mxy =
Σ (xi – x)(yi – y) ni Covarianza n (ponderada)
Varianza total de X (simple)
s2x=
Σx2ini – x2 Varianza total de n X (ponderada)
media aritmética de X (simple)
x=
Σ yini n
Σx2 s2x = n i – x2 x=
Σxi n
2 s 2 = ∑ yi − y 2 y n
2 syx =
Σ(yi – Y)2 ni Varianza residual de y n “2 en 1” (ponderada)
s2yx = s2y –
say2 =
Varianza de Y (simple)
2 mxy s2x
Varianza residual de “2 en 1”
Σ(Yi – y)2 n
Varianza explicada de “2 en 1” (simple) 2 2 2 s y = s yx + say
R2 = 1 –
; s x2 = sxy2 + sax2
Σy2 n sy2 = ni i – y2 i 2 sxy =
Σ(xi – X)2 n
2 sxy = s2x –
s2ax =
m2xy s2y
2 sxy =
Varianza de Y (ponderada) Varianza residual de x de “1 en 2” (simple) Varianza residual de “1 en 2”
Σ(Xi – x)2 ni Varianza explicada n de “1 en 2” (ponderada)
Σ(xi – X)2 ni n
VR s2 s2 m2 = 1 – yx = 1 – xy R2 = 2 xy2 sx s y VT sy2 s2x
Media aritmética de yi (ponderada)
Varianza residual de “1 en 2” (ponderada)
Coeficiente de determinación (o coeficiente de correlación al cuadrado) continúa...
242
Estadística básica aplicada
m r = s sxy Coeficiente de x y correlación lineal
0 ≤ R2 ≤ 1 Valores que puede tomar R2
6Σd2i -1 ≤ r ≤ 1 Valores que puede tomar el rs = 1 – n(n2–1) Coeficiente de coeficiente de correlación correlación por de Pearson rangos o de Spearman
Ejercicios propuestos 1. Nombrar tres ejemplos de fenómenos económicos y comerciales que pueden se analizados mediante la regresión. 2. ¿Cuál es la razón para que los coeficientes angulares (b) y el coeficiente de correlación (r) tengan signos iguales? 3. ¿Qué nos indica que el coeficiente angular sea negativo? 4. ¿Son ciertos o falsos los siguientes puntos? a) Un coeficiente de correlación igual a -1, indica que la línea de regresión no es la que mejor refleja las relaciones entre las dos variables. b) La recta de regresión rectilínea pasa por el punto donde se cortan las medias. c) El producto de las desviaciones típicas es menor que la covarianza. d) Si r es mayor que 1, la recta ajustada explica de manera más que suficiente las relaciones entre las dos variables. e) El coeficiente de correlación es un valor menor que -1 y mayor que 1. 5. ¿Son ciertas o falsas las siguientes relaciones?
a) mxy = 10
sx = 10
sy = 8
sa2 = 4 y
b) byx = 0,95
bxy = 1,24
c) bxy = -0,7
byx = 0,9
d) mxy = -10
r = 0,8
e) V[x-y]= -14; s2x = 8; s2y = 12; mxy= 17 6. Si syx = 3; sy = 5, hallar el valor de r. 7. Para dos variables se tienen los siguientes datos:
sy = 8; sx = 10; y = 3; x = 16; r = 0,6
Calcular: a) La varianza residual de y con base x b) Estimar a Y cuando x = 50 8. Determinar si las siguientes relaciones son posibles o no. 2 a) syx = 19 R2 = 0,81 sy = 10 b) Y = 4 + 7x r = 0,8
x = 10
y = 64
c) byx = 0,3
bxy = –3
R2 = 0,9
d) mxy = 60
s2x = s2y = 50
byx = 1,2
9. Las variables X y Y están correlacio nadas. De las observaciones numéricas correspondientes se ha obtenido: sx = 3 s2y = 25 m2xy = 400
Capítulo 9. Regresión y correlación
Hallar el coeficiente de correlación entre dichas variables y discutir el resultado.
10. Siendo: byx = 0,40 r = 0,94 s2x = 18 Se pide: a) Determinar el porcentaje de la va rianza que queda sin explicar en la recta de regresión de Y en x. b) Hallar la varianza de la suma de las variables x y y. 11. De dos variables X y Y relacionadas entre sí, se sabe que: x = 8; y = 21 s2y = 4 mxy = 36 a) se pide estimar el valor de Y cuando x = 20 b) Determinar el coeficiente de correlación. 12. Trabajando con dos variables, siendo n = 23, se obtuvieron los siguientes d atos: Σxi = 480,9 Σyi = 67,3 Σxiyi = 1.445,21 Σx2i = 11.187,59 Σyi2 = 202,71 a) Hallar el valor de X cuando y = 20. Aplicar los métodos anteriormente vistos para determinar la recta de regresión de Y en función de x. b) Calcular el coeficiente de correlación. 13. Con los siguientes datos, se pide determinar las ecuaciones de regresión lineal, estimado a X cuando y = 20 y a Y cuando x = 30; además, calcular el coeficiente de correlación. xi: 2 2 yi: 1 1 ni: 2 8
4 3 5
6 1 4
6 2 3
6 7 7 3 4 2 2 4 2
14. De un análisis de regresión se obtuvo que: byx = 0,2 r = 0,9 sx2 = 20. Hallar la varianza de la suma de v ariables.
15. Con los siguientes datos, correspondientes a la producción X (miles de unidades) y Y el costo de la producción de esas unidades (millones de pesos): x: 2 5 8 10 12 15 17 20 y: 4 8 10 11 12 14 15 16 Se pide: a) Representar en un plano cartesiano, la información anterior. b) Encontrar la recta de regresión de X en función de y. Con los puntos estimados trazar una recta, en la gráfica de a). c) Dibujar la recta de Y en función de x en la misma gráfica anterior. d) Estimar el valor de Y en función de x, cuando x = 40; fijando los límites del 95,5%. e) Determinar el coeficiente de correlación. 16. Para medir la reacción de un grupo de consumidores respecto a la presentación de un producto, se toman 12 personas y se les interroga en cuanto al concepto que le merece la presentación tradicional de este artículo, luego se les presenta el mismo artículo en su nuevo empaque. Las mediciones se efectuaron utilizando una escala de 25 puntos y se obtuvieron los siguientes resultados (para cada uno de las 12 personas): Antes:
6 10 14 17 6 6 11 14 10 17 11 13
Después: 10 13 18 12 9 8 12 18 17 20 18 15
Calcular el coeficiente de correlación de Spearman.
243
244
Estadística básica aplicada Cuestionario de evaluación 1. En una distribución bimensional se sabe que mxy = 24; sx = 3; sy = 16 por lo tanto el coeficiente de correlación lineal será igual a: a. 0,5 b. 0,6 c. 0,7 d. 0,8 e. 0,9 2. Si mxy = 24; sx = 6; sy = 16; x = 20; y = 18, se dice que el valor estimado de Y cuando x = 20 es igual: a. 10 b. 14 c. 16 d. 18 e. 20 3. Si la varianza residual de Y en función de x es igual a 13,8 mientras que la varianza de y es 60,4, se podrá decir que el coeficiente de correlación al cuadrado es: a. 0,63 b. 0,77 c. 0,80 d. 46,6 e. 50,1 4. Si en una tabla de correlación se ha obtenido los siguientes datos byx = 0,6; bxy = 1,5; mxy= 30. El coeficiente de correlación lineal es: a. 0,90 b.0,85 c. 0,80 d. 0,75 e. 0,70 5. Si se sabe que s2yx = 36; s2y = 120, se podrá decir que el porcentaje de la varianza total que queda explicada por la recta de regresión es: a. 50%; b.60%; c. 70%; d. 80%; e. 90%. 6. Siendo byx = 1,32; s2x = 30 se dice que la covarianza es: a. 32,5 b. 33,4 c. 35,8 d. 39,6 e. 40,4. 7. La varianza residual, en un análisis de regresión se le define como: a. La variabilidad conjunta de X y Y b. El grado de relación entre dos variables.
c. La media de los cuadrados de las diferencias entre los valores reales y sus estimados. d. La media de los cuadrados de las dife r encias entre la media y los valores reales. e. El grado de asimetría entre dos variables. 8. El término de regresión, se emplea para indicar: a. Una dependencia causal unilateral. b. Una dependencia indirecta. c. El grado de relación entre dos variables. d. La descripción de una relación entre dos variables. e. Ninguna de las anteriores. 9. Si byx = 1,5 y bxy = 0,6 el coeficiente de determinación es: a. 0,5 b. 0,6 c. 0,7 d. 0,8 e. 0,9 10. Si byx = 1,5 y s2x = 20 la covarianza es igual a: a. 10 b.20 c. 30 d. 40 e. 50 11. Si sx2 = 20 y s2ax = 15 la varianza residual es: a. 5 b. 8 c. 10 d. 12 e. 15 12. Si s2x = 20 y s2ax = 15 el porcentaje de la varianza total queda explicada por la recta de regresión es del: a. 60% b. 65% c. 70% d. 75% e. 80% 13. El coeficiente de posición, en una recta de regresión se le conoce también como: a. Predictor. b. Variable independiente. c. Pendiente de la curva en el origen. d. Coeficiente de determinación. e. Origen en la ordenada.
Capítulo 9. Regresión y correlación 14. Cuando el coeficiente de correlación es menor que 0,20 se dice: a. b. c. d. e.
Que hay una relación positiva. Que hay una relación negativa. Que existe una correlación perfecta. Que no existe correlación. Ninguna de las anteriores.
15. Si en una distribución bidimensional se tienen las ecuaciones: Y = 1,8x + 50 y X = 0,5y + 30 el coeficiente de correlación al cuadrado es: a. 0,3 b. 0,5 c. 0,6 d. 0,8 e. 0,9. 16. Con la recta de regresión Y = 1,8 x + 50, si x = 20, el valor de Y es: a. 50,8 b. 60,0 c. 86,0 d. 92,5 e. 110,4
17. Si la varianza total de y = 30 y la varianza residual de y en función de x es 2. Se dice que la varianza explicada es: a. 3 b. 8 c. 10 d. 12 e. 16 18. El coeficiente de determinación es un número: a. R2 ≥ 0 b. R2 ≤ 0 c. -1 ≤ R2 ≤ 0 d. 0 ≤ R2 ≤ 1 e. 0 ≤ R2 ≥ 1 19. S e tiene la ecuación Y = 15x + 2 obtenida de los valores x: 0 1 2 3 4 5 y: 15 17 19 21 ? 25 El valor faltante será igual a: a. 18 b. 20 c. 22 d. 23 e. 24. 20. Para una serie de datos se obtuvo s2x = 2,8; s2yx= 1,35; Y = 75 -0,65x; cxy = 32,8 la pediente de la recta de regresión para bxy es: a. -0,72 b. 1,35 c. 2,80 d. 32,8 e. s75,0
245
Capítulo 10 SERIES CRONOLÓGICAS OBJETIVOS
•• •• ••
Identificar, describir y analizar series de tiempo. Desarrollar destrezas en la realización de proyecciones mediante la tendencia. Determinar la importancia de la tendencia y demás componentes de una serie de tiempo. CONTENIDO
•• •• •• ••
Componentes de una serie. • Ajuste rectilíneo. Método de mano alzada. • Método de los puntos seleccionados. •
Método de los semipromedios. Ajuste parabólico. Ajuste exponencial.
INTRODUCCIÓN
Las series cronológicas son casos de distribuciones bidimensionales, donde X corresponde a la variable tiempo (años, meses, días) y Y a la variable que se estudia (producción, ventas, precios, exportaciones, etc.). Las series cronológicas, denominadas también series de tiempo, se pueden definir como una colección de datos que pertenecen a diferentes períodos. Estas series son de gran importancia en cualquier empresa u organismo, no sólo para conocer la situación actual o el comportamiento de una variable en el período observado, sino para establecer la tendencia futura. Predicciones de producción, ventas, empleo, ingreso, población, precios y muchas otras variables socio-económicas necesarias de estudiar, o para planear actividades futuras de una empresa. Los movimientos que presenta una serie de tiempo, son producidos por una variedad de factores de carácter económico, natural o institucional. Parte del análisis de estas series, consiste en descubrir y cuantificar dichas influencias. Los principales factores que afectan una serie de tiempo son: tendencia, variaciones estacionales, variaciones cíclicas y variaciones aleatorias.
Estadística básica aplicada
248
a) Tendencia: son variaciones suaves y constantes que se suceden en un período relativamente largo. El período debe ser largo, generalmente más de cinco perío dos (podrán ser años, meses,etc), para poder establecer una línea de tendencia (recta, parabólica o exponencial) que sea representativa o s ignificativa. b) Variaciones estacionales: éstas, generalmente, están ligadas a las estaciones del año (verano, otoño, invierno y primavera); también corresponden a cambios periódicos que se repiten en intervalos de tiempo más cortos, por ejemplo, el consumo de energía en las 24 horas del día; el movimiento de pasajeros en buses de servicio urbano, en un día, etc. c) Variaciones cíclicas: son fluctuaciones a largo plazo, más o menos periódicas, que se repiten cada cierto número de años, y que, a diferencia de las variaciones estacionales, es difícil determinar el período o ciclo, ya que no se puede saber con exactitud cuándo comienza y cuándo termina, tal es el caso de las fluctuaciones cíclicas originadas en la actividad económica (crisis - recuperación - auge - depresión). d) Variaciones aleatorias: son aquellos cambios que se presentan en forma accidental, siendo difícil su predicción. Por ejemplo, terremotos, inundaciones, huelgas, etc. En resumen, la variable Y para algunos autores, es la suma de los anteriores factores, de tal manera que Y = T + V E + V C + V A; para otros, es el resultado del producto de esos factores. Y = T. VE. VC. VA. Sin embargo, no faltan aquellos que consideren que Y es el resultado de la combinación de suma y producto de esos factores: Y = T (VE + VC + VA) La diferencia entre los modelos aditivo y multiplicativo, ocurre en los componentes, en el primero se consideran como residuos y se expresan en unidades originales; en el segundo, la tendencia se expresa en cantidad o valor y los otros componentes en términos porcentuales o relativos. En la representación gráfica, tomando períodos mensuales o semanales, se puede observar mejor las variaciones estacionales, así como las aleatorias, esa es la razón por la que no se representan en la Figura 10.1 Figura 10.1
Yi
(millones)
yi
210 190 170
Yi
150 130 110 90 70 50
Años
2013 2014
2015
2016
2017
2018
2019
Capítulo 10. Series cronólogicas TENDENCIA La tendencia puede tomar diferentes formas: rectilínea, parabólica, exponencial o cualquier otra línea. La selección debe ser aquella que mejor represente a ese conjunto de puntos. La gráfica ayuda mucho a determinar la forma de la línea y la dirección que toma. Sin embargo, puede afirmarse, que no es posible visualizar con absoluta certeza la bondad de su adaptación, pues solamente el juicio personal y la experiencia del estadístico, son los elementos que se pueden poner en juego en la elección del mejor ajuste. La representación gráfica se debe hacer en un plano cartesiano. En el eje horizontal o abscisa se coloca el tiempo (años, meses, semanas, días, etc.), en el eje vertical u ordenada se anotan los valores correspondientes a la variable Y (producción, precios, ventas etc.). Para cada unidad de tiempo corresponderá un valor, Y, el cual se representa en el plano mediante un punto, y habrá tantos puntos como períodos observados tengamos, los que al ser unidos, darán una línea, que insinúa la tendencia que presenta esa serie, y que al ser establecida, se refleja en una línea más sencilla que la poligonal dada por los datos originales, al mismo tiempo, nos permite establecer cuál será el comportamiento futuro de esa variable. Algunos critican este proceso de vaticinio, por el hecho de estar fundamentado en cifras históricas, que reflejan una vivencia del pasado. Sin embargo, es un hecho, que cualquier proceso futurista necesita fundamentarse en el presente y en el pasado. Se debe tener en cuenta que el comportamiento futuro de la variable, dependerá de las condiciones bajo las cuáles se dieron las informaciones; por esa razón se recomienda que una predicción no sea mayor de cinco años, ya que las condiciones pueden variar por diferentes razones. Por otra parte, una buena selección de la línea nos dará una mejor aproximación entre el valor estimado y el valor real. Su importancia, en cualquier empresa, no es discutible. En la vida comercial es interesante conocer las fluctuaciones de las ventas a través del tiempo, las causas que originan esas variaciones, y el comportamiento futuro; todo esto hará pensar sobre una posible ampliación o reducción de los inventarios de mercancía, del volumen de la producción, precios, espacio físico, etc. Una línea que sea seleccionada para representar la tendencia de una serie cronológica continuará en la misma dirección, si las condiciones que la originan permanecen constantes. Por esto, al trazar una línea, ya sea recta, parabólica o exponencial, debemos analizar en primer lugar las causas, y evaluar la probabilidad de que así ocurra, antes de iniciar cualquier proceso de estimación.
Ajuste rectilíneo Existen varios métodos para el ajuste de una recta en una serie cronológica. Entre ellos podemos mencionar: • Método de mano alzada. • Método de los puntos seleccionados. • Método de los semipromedios
249
Estadística básica aplicada
250
• Método de los mínimos cuadrados • Método de mano alzada Este método se le conoce también con el nombre de método gráfico. Es muy utilizado por personas con mucha experiencia; con su aplicación se obtienen resultados muy satisfactorios, especialmente cuando la serie presenta muy pocas variaciones o éstas se producen en forma suave. El inconveniente que presenta este método, es la no existencia de un instrumento que juzgue adecuadamente la bondad de la línea, por otra parte, por más experta que sea la persona, una serie puede dar origen a diferentes líneas, de ahí que se le considere como un método muy subjetivo. Con una buena experiencia sobre el comportamiento de la variable, se puede lograr una buena estimación, muchas veces mejor que la obtenida mediante el método matemático. El proceso que se sigue en la aplicación del método de mano alzada, consiste en dibujar la línea poligonal correspondiente a los datos originales, luego se estudia su comportamiento, para después trazar una línea recta a mano alzada a través de esos puntos. Si se prolonga la línea hasta el año que se desea estimar, leeremos en el eje vertical el valor, precio o cantidad de Y para ese año. Algunos consideran que una vez trazada la línea (cuando es recta), se pueden determinar dos puntos, especialmente el primero y último y luego, obtener una ecuación matemática para que refleje la línea de la tendencia.
Yi
millones de $
Figura 10.2
230
Y
210 190
Y
170 150 130 110 90 70 50
Años
2013 2014
2015
2016
2017
2018
2019
2020
En el primer caso, la producción estimada para el 2020 podría ser aproximadamente de 189 millones de $, si consideramos que puede bajar de acuerdo a la experiencia. En el segundo caso, los puntos se localizan en los años 2013 y 2019. Siendo los valores de 50 y 200, con los cuales determinamos el crecimiento anual en la siguiente forma: b=
2o Punto – 1er. Punto 200 – 50 150 = = = 25 2019 – 2013 6 6
Capítulo 10. Series cronólogicas Siendo la ecuación general Y = bx + c, se tendrá que: Y = 25x + 50. El valor de x será el tiempo transcurrido entre 2013 y 2020, igual a 7. Reemplazando tenemos Y = 25(7) + 50 = 225 el cual será el valor estimado en el 2020. • Método de los puntos seleccionados Este método consiste en localizar dos puntos en la serie, ojalá uno al inicio de la serie y el otro al final de la misma, luego se determina la diferencia que existe entre ellos y se divide, por el número de períodos transcurridos entre esos períodos, teniendo en cuenta al iniciar el conteo, considerando cero para el primer punto o período. Si señalamos por P1 el valor del primer punto de la serie, P2 el del segundo valor y t el número de unidades de tiempo transcurridos entre P1 y P2, se tendrá el incremento, por unidad de tiempo, simbolizado por b, siendo igual a: b=
P2 - P 1 t
Considerando que la ecuación general de la recta está dada por la ecuación Y = bx + c se tendrá que el valor de c será igual al primer valor de Y simbolizado por P1. Ejercicio 1. Supongamos que una empresa tiene una serie de datos, sobre el valor de la producción (en miles de millones de $).
Tabla 10.1
AÑOS PRODUCCIÓN (miles de millones de $)
2013 *2014 2015 2016 2017 *2018 2019
32 24 38 54 42 66 84
a) Representar gráficamente dicha serie. b) Ajustar una recta al conjunto de puntos. c) Estimar el valor de la producción para el 2022.
Solución: Los años 2014 y 2018 se señalan con asterisco para indicar los puntos seleccionados en la serie: P1 = c = $24 miles de millones siendo
b=
P2 = $ 66 miles de millones
P 2 – P1 66 – 24 42 = = = 10,5 t 2018 – 2014 4
251
Estadística básica aplicada
252
Tabla 10.2
AÑOS
2013 * 2014 2015 2016 2017 * 2018 2019
yi 32 24 38 54 42 66 84
xi -1 0 1 2 3 4 5
Yi CALCULO DE 13,5 = 10,5 (-1) + 24 24,0 = 10,5 (0) + 24 34,5 = 10,5 (1) + 24 45,0 = 10,5 (2) + 24 55,5 = 10,5 (3) + 24 66,0 = 10,5 (4) + 24 76,5 = 10,5 (5) + 24 Figura 10.3
Yi
miles de millones $
90
Y
Producción
80 70 60 50 40 30 20 10
Años
2013 2014
2015
2016
2017
2018
2019
Xi
El incremento anual es de $ 10,5 miles de millones; además sabiendo que c = 24 miles de millones, podemos escribir la ecuación para la tendencia en la serie, como: Y=bX+c
siendo b = 10,5
c = 24
Con la ecuación Y = 10,5 x + 24, se hace necesario establecer el valor de x para hacer la estimación de Y en el período 2024; se tendrá que: x = 2024 – 2014 = 10 años, por lo tanto: Y24 = 10,5(10) + 24 = 129. Aproximadamente para el 2024, la producción tendrá un valor de 129 miles de millones de $. Si examinamos detenidamente el anterior método, observaremos: • Es un proceso muy parecido al método gráfico, pero un poco más refinado. • No toma en cuenta sino dos valores de la variable, así que el crecimiento por cada unidad de tiempo (b) no queda influenciado por los demás valores. • Quizás el aspecto más negativo que presenta este método, es el dejar en libertad al investigador la selección de los dos puntos de referencia.
Capítulo 10. Series cronólogicas
253
Si tomamos a P1 = 24 y P2 = 42, el coeficiente angular o el crecimiento por cada unidad de tiempo cambia, siendo en este caso más bajo que el obtenido anteriormente.
b=
42 – 24 2010 – 2007
=
18 = 6 < 10,5 3
De todas maneras, es una forma de obtener una estimación más rápida que por cualquier otro procedimiento utilizado. • Método de los semipromedios El empleo de este método conlleva a una simplificación de cálculo, pero, al igual que los anteriores, presenta el inconveniente de no utilizar la totalidad de los datos, por otra parte, al incorporar uno o más datos en la serie se debe rehacer todas las operaciones. (i) El procedimiento que se sigue en el cálculo es: • Se divide la serie en dos partes, en tal forma que cada parte contenga un número impar de períodos. En algunos casos habrá necesidad de ignorar algunos períodos, especialmente los primeros de la serie. • Se obtiene la suma de yi para cada una de las partes. El valor de la suma se coloca al frente de la observación central, en la columna denominada semisuma. • Cada semisuma se divide por el número de períodos que contiene cada parte de la serie, obteniendo así los valores para los semipromedios. • De ahí en adelante, se consideran dos métodos para hallar los parámetros b y c, obteniéndose con su aplicación los mismos resultados. Consideremos los datos de la Tabla 10.1. • Si se tiene que la ecuación general de la recta es Y = b x + c se tendrán dos ecuaciones normales: (1) 31,33 = 1b + c (2) 64 = 5b + c El valor de x dependerá del tiempo transcurrido desde el período que se toma como origen. En este ejercicio, se estableció como origen el primer período. Siendo una serie continua, se tendrán para xi valores de 0, 1, 2, etc., (ver la Tabla) a partir de ese origen. Si multiplicamos la ecuación (1) por -1 y el resultado obtenido se lo restamos a (2), se obtendrá el valor del coeficiente angular b: Tabla 10.1 AÑOS
2013 2014 2015 2016 2017 2018 2019
yi SEMISUMA SEMIPROMEDIO 32 24 94 31,33 38 54 42 66 192 64 84
x 0 1 2 3 4 5 6
(2) 64 = 5b + c -31,33 = -b - c 32,67 = 4b Siendo b =
32,67 = 8,17 4
Estadística básica aplicada
254
Conociendo el valor de b, lo reemplazamos en la ecuación (1): 31,33 = 8,17 + c siendo: c = 31,33 - 8,17 = 23,16 La ecuación quedará así:
Y = 8,17x + 23,16
Si se quiere estimar el valor de Y para el 2024 se tendrá que x = 2024 - 2013 = 11 por lo tanto Y24 = 8,17(11) + 23,16 = 113,03 (ii) También se puede utilizar otro procedimiento para calcular los parámetros b y c. Σ1 = primera semisuma
Σ2 = segunda semisuma
T1 = número de períodos en la primera parte de la serie. T2 = número de períodos en la segunda parte de la serie. b=
Σ2 – Σ1 192 – 94 98 = = = 8,17; T1(n – T2) 3 (7–3) 12
c=
Σ2 + Σ1 192 + 94 286 = = = 47,67 T1 + T2 3+3 6
Y = 8,17 x + 47,67 El origen está localizado en el centro de la serie, en este caso en 2016, donde x = 0. Si estimamos el valor de Y para el 2024, se tendrá en primer lugar que x es igual a la diferencia entre 2024 y 2016. x = 2024 – 2016 = 8 Reemplazando en la ecuación general: Y24 = 8,17 (8) + 47,67 = 65,36 + 47,67 = 113,03 Con un resultado exactamente igual al obtenido por el método anterior. (iii) Otra forma más elemental de hacer los cálculos es: b=
x2 – x1 64 – 31,33 32,67 = = = 8,17 t 2018 – 2014 4
Si consideramos como c = 31,33 en este punto x = 0, la ecuación será: Y = 8,17x + 31,33 Si deseamos estimar Y para el 2024, se tendrá que: x = 2024 – 2014 = 10 ; Y24 = 8,17 (10) + 31,33 = 81,70 + 31,33 = 113,03 Método de los mínimos cuadrados Los métodos anteriores permiten establecer una ligera aproximación a la tendencia que presenta la serie. El método más utilizado, para realizar un buen ajuste, es el conocido como el de los mínimos cuadrados.
Capítulo 10. Series cronólogicas
255
Este método no sólo sirve para ajustar una línea recta, sino también para ajustar tendencias no lineales, tales como la parabólica, la exponencial, etc. Siendo la ecuación general de la recta Y = bx + c, es necesario indicar que los conceptos de b y c son exactamente iguales que los establecidos para la regresión. El primero se denomina coeficiente angular y el valor resultante corresponde al crecimiento o decrecimiento en la variable Y por cada unidad de tiempo; c es el coeficiente de posición y será igual a Y cuando x = 0. En cuanto a x sigue siendo el predictor y corresponde a unidades de tiempo. Usando el método de los mínimos cuadrados, se quiere que resolvamos las dos ecuaciones normales dadas, en forma simultánea: Tabla 10.1
AÑOS
2013 32 2014 24 2015 38 2016 54 2017 42 2018 66 2019 84 Σ 340
yi
xi
x 2i
0 1 2 3 4 5 6 21
0 1 4 9 16 25 36 91
xi yi
Yi
0 22,44 24 31,15 76 39,87 162 48,57 168 57,28 330 65,99 504 74,70 1.264 340,00
(1) Σ yi = b Σ xi + nc
(2) Σ xiyi = b Σ x2i + c Σ xi
(1) 340 = 21b + 7c
(2) 1.264 = 91b + 21c
Multiplicamos la ecuación (1) por -3 y se la restamos a la ecuación (2) para eliminar a c: (1) 1.264 = 91b + 21c 244 (2) –1.020 = –63b – 21c Siendo b = = 8,71 28 244 = 28b Reemplazamos en la ecuación (1), para hallar el valor de c: 340 = 21 (8,71) + 7 c 340 = 182,91 + 7 c 340 – 182,91 = 7 c 157,09 = c = 22,44 7
Y=bx+c
Y = 8,71x + 22,44
Si a la anterior ecuación, le damos los diferentes valores que toma xi, se tendrán los estimados de la serie, como podemos observar en la tabla anterior, donde aparecen tanto los datos originales, como los estimados: Y13 = 8,71 (0) + 22,44 = 22,44
Y14 = 8,71 (1) + 22,44 = 31,15
Y15 = 8,71 (2) + 22,44 = 39,87
Y16 = 8,71 (3) + 22,44 = 48,57, etc.
Estadística básica aplicada
256
También se pueden obtener los valores estimados en la serie, estableciendo la primera estimación, mediante la aplicación de la ecuación general, luego se le va sumando el valor de b = 8,71 correspondiente al incremento anual, en tal forma que la suma de Σ yi = Σ Yi El valor estimado para Y25, considerando a x = 2014 - 2013 = 11 será: Y24 = 8,71 (11) + 22,44 = 95,81 + 22,44 = 118,25 Cuando la sumatoria de xi es igual a cero (Σxi =0), se podrán calcular los parámetros b y c directamente. Consideramos las ecuaciones normales, que teníamos anteriormente: (1) Σ yi = b Σ xi + nc siendo Σ xi = 0 se tendrá: Σ yi = b (0) + nc Σ yi = nc
c=
Σyi n
(2) Σ xiyi = b Σ x2i + cΣxi Σ xi yi = b Σ x2i + c (0) Σ xi yi = b Σ x2i siendo b =
Σ xi yi Σx2i
Tabla 10.1 AÑOS
2013 2014 2015 2016 2017 2018 2019 Σ
yi 32 24 38 54 42 66 84 340
xi -3 -2 -1 0 1 2 3 0
x i2 9 4 1 0 1 4 9 28
xi yi -96 -48 -38
b=
Σ xiyi 244 = = 8,71 Σx2i 28
c=
Σ yi 340 = = 48,57 n 7
-182 426
42 132 252 244
Apliquemos las fórmulas anteriores a los datos de la Tabla 10.1; siendo la serie continua, con un número impar de años, se puede trabajar tomando como origen el centro de la serie, con el fin de que la suma de xi sea cero. La ecuación de la recta, teniendo en cuenta los valores anteriores, será igual a: Y = 8,71X + 48,57. Si se estima el valor de Y para 2024 se determinará el valor de x = 2024 – 2014 = 8
Y24 = 8,71(8) + 48,57 = 118,25
El problema se presenta cuando la serie no es continua o, cuando la serie siendo continua, el número de años es par; en ambos casos la suma de Σxi ≠ 0. En primer lugar, la única solución sería trabajar utilizando un sistema de ecuaciones normales, tal como lo hicimos cuando se tomó el primer período de la serie como punto inicial u origen, siendo Σxi ≠ 0, tal como puede verse en el ejercicio siguiente.
Capítulo 10. Series cronólogicas
257
Ejercicio 2. Consideremos los datos (arbitrarios) que aparecen en la Tabla 10.2 correspondiente al período 1991 - 2019, en una serie no continua. Estimar el valor de Y para el 2024.
Tabla 10.2 yi
AÑOS
AÑOS
1991 12 1999 18 2006 20 2013 36 2019 54
yi
Solución xi xi2
1991 12 1999 18 2006 20 2013 36 2019 54 Σ 140
0 8 15 22 28 73
0 64 225 484 784 1.557
xi yi 0 144 300 792 1.512 2.748
La ecuación general para la recta es Y = b x + c. Las ecuaciones normales para calcular b y c son: (1) Σ yi = b Σ xi + nc (1) 140 = 73b + 5c
(2) Σ yixi = bΣx2i + cΣxi (2) 2.748 = 1.557b + 73c
Se obtendrá el valor de b, multiplicando la ecuación (1) por -14,6 y luego restando de (2): (2) 2 .748 = 1.557b + 73c (1) –2.044 = –1.065,8b – 73c 704 = 491,2b –
siendo: b =
704 = 1,43 491,2
Reemplazando en la ecuación (1) se tendrá: (1) 140 = 73 (1,43) + 5c c=
140 = 104,39 + 5c 140 – 104,39 = 5c
140 – 104,39 35,61 = = 7,12 5 5
b = 1,43
y
c = 7,12
Teniendo los valores para b y c, los reemplazamos en la ecuación general de la recta. Siendo: x = 2026 – 1991 = 35, valor del predictor en la estimación de Y para el 2026. Y = 1,43x + 7,12
Y26 = 1,43(35) + 7,12
Y26 = 50,05 + 7,12 = 57,17
El segundo caso se da cuando la serie es continua y el número de períodos es par. Para que la sumatoria de xi sea cero, se debe trabajar con semestres. El proceso que se sigue es el siguiente:
Estadística básica aplicada
258
a) Se supone que los valores anuales están dados al 1º de julio de cada año. Observamos que este supuesto es válido en muchos casos; por ejemplo, la población de un país, dada para el mes de enero, es diferente a la de diciembre, en ningún caso utilizaríamos una de estas informaciones mensuales como la cantidad de población de un país en un año; pero si la población se da al 1º de julio, es un dato aceptable, por corresponder a la mitad del año y será tomado como un valor promedio. b) Como la serie es par, se tendrán dos años en el centro de la serie. c) Considerando esos dos años, se tendrá que del 1º de julio al 1º de julio del segundo año central, hay exactamente un año. Siendo la mitad para ese período el primero de enero, y en ese punto, x será igual a cero. d) Del 1º de enero al 1º de julio, de ese mismo año, hay un semestre y se representa por x = 1; al 1º de julio del año siguiente, hay dos semestres más, por tanto x = 3 y así sucesivamente se irá contando de dos en dos, al considerar que cada año tiene dos semestres. Veamos cómo se trabaja en el ejercicio siguiente. Ejercicio 3. Con los siguientes datos (Tabla 10.3) en una serie continua, que presenta un número par de períodos, establecer un ajuste rectilíneo y estimar el valor de Y para el 2022.
Tabla 10.3 AÑOS yi 2014 24 2015 38 2016 54 2017 42 2018 66 2019 84
AÑOS
2014 2015 2016 2017 2018 2019
yi 24 38 54 42 66 84
Σ
308
Solución xi x 2i -5 25 -3 9 -1 1 1 1 3 9 5 25 0
70
xi yi -120 -114 -54 42 198 420 372
Teniendo que Y = b x + c, los valores de b y c se obtendrán cuando Σxi = 0 mediante la aplicación de las siguientes fórmulas. b=
Σ xiyi 372 = = 5,31 Σx 2i 70
c =
Σ yi 308 = = 51,33 6 n
Reemplazando en la ecuación general, se considera que: Y = 5,31x + 51,33 El valor de x, para estimar a Y, se calculará de la siguiente forma: x = 2024 – 2019 = 5 años. Si multiplicamos a 5 por 2 nos dará un total de 10 semestres y como hasta 2017 se tenían 5 semestres, el valor de x será igual a 15, por lo tanto:
Capítulo 10. Series cronólogicas
259
Y24 = 5,31(15) + 51,33 = 79,65 + 51,33 = 130,98 a) Varianza residual y error estándar Como en el caso de la regresión, se requiere el cálculo del error estándar, siendo las fórmulas exactamente iguales, con la sola diferencia de que únicamente se calcula el error de Y en función de x: 2 syx =
Σ(yi – Yi )2 (varianza residual) n
syx = + s2yx (error estándar)
También se puede utilizar una fórmula mucho más sencilla para determinar la varianza residual o varianza no explicada. Σyi2 – c Σ yi – b Σ xiyi s2yx = n Hagamos un ejercicio de aplicación con estas fórmulas, para ello, utilicemos los datos de la Tabla 10.1. Ejercicio 4. Con los datos de la Tabla 10.1 calcular el error estándar de estimación. Siendo s2yx =
Σ(yi – Yi )2 495,4664 = = 70,78 n 7
syx = + 70,78 = 8,41
Tabla 10.1
AÑOS
2013 2014 2015 2016 2017 2018 2019 Σ
yi Yi 32 22,44 24 31,15 38 39,87 54 48,57 42 57,28 66 65,99 84 74,70 340 340,00
yi - Yi (yi - Yi)2 y2i xi xi yi 9,56 91,3936 1.024 0 0 -7,15 51,1225 576 1 24 -1,87 3,4969 1.444 2 76 5,43 29,4849 2.916 3 162 -15,28 233,4784 1.764 4 168 0,01 0,0001 4.356 5 330 9,30 86,4900 7.056 6 504 0 495,4664 19.136 21 1.264
Aplicando la otra fórmula de: syx2 = y sabiendo que: Σ y2i = 19,136
b = 8,71
n=7
Σy2i – cΣyi – bΣxiyi n
Σyi = 340
c = 22,44
Σxiyi = 1.264
Estadística básica aplicada
260 Se tendrá que: s2yx = s2yx =
19.136 – 22,44 (340) – 8,71 (1.264) 7 19.136 – 18.639,04 7
=
19.136 – 7.629,6 – 11.009,44
=
7
496,96
= 70,99 7
=
syx = + 70,99 = 8,42
Los resultados son casi iguales y la diferencia existente se debe a las aproximaciones hechas. b) Coeficiente de correlación Para el cálculo de este coeficiente se tendrán en cuenta las fórmulas vistas en la regresión; sin embargo, se pueden aplicar otras fórmulas mucho más fáciles de operar. r=
nΣ xiyi – (Σxi)(Σyi) [nΣ x2i – (Σxi)2] [nΣy2i – (Σyi)2]
Reemplazando: r=
r=
7 (1.264) – 21 (340) [7(91) – (21) ] [7(19.136) – (340) ] 2
1.708 (196)(18.352)
2
=
1.708 3.596.992
=
=
8.848 – 7.140 (637 – 441)(133.952 – 115.600)
1.708 1.896,57
= 0,90
Otra forma de calcular el coeficiente de correlación será: 2 s yx
2 1 − 0,1889 = 0, 8111 = 0, 90; Siendo s yx = 70, 78
1−
s y2 =
2 ∑ y2 i − y 2 ; s 2 = 19.136 − 340 = 2.733, 71 − 2.359,1 18 = 374, 53 y n 7 7
s y2
; r=
70, 78 = 374, 53
r=
1−
Ejercicio 5. Con los siguientes datos: a) Estimar mediante un ajuste rectilíneo el año 2028. b) Calcular los valores de y1 y y2
=
Capítulo 10. Series cronólogicas
261
Solución
AÑOS
yi
Yi
AÑOS
2015 y1 2016 y2 2017 55 55,0 2018 60 63,5 2019 75
yi
2015 y1 2016 y2 2017 55 2018 60 2019 75 Σ 275
xi
Yi
-2 -1 0 55 1 63,5 2 0 275
x2i
xi yi
4 1 0 1 4 10
0 60 150 85
a) Si consideramos a x = 0 para 2017 se tendrá que: Y = b (0) + c Sabiendo que
55 = 0 + c c=
Σ yi , n
c = 55 cuando Σ xi = 0;
Se tendrá que: 55 =
Σ yi 5
Σyi = 55(5) = 275 Se ha dicho que b es el crecimiento por unidad de tiempo, por tanto: b = 63,5 - 55 = 8,5 Y = 8,5 (x) + 55;
siendo x = 2028 – 2017 = 11
Y28 = 8,5 (11) + 55 = 93,5 + 55 = 148,5 Σ xiyi b) Se dice que Σ yi = 275 y b = Se podrá obtener la sumatoria del producto 2 de las dos variables: Σ x i b (Σx2i ) = Σ xiyi
8,5 (10) = 85 = Σ xiyi
Σ yi = y1 + y2 + 55 + 60 + 75 = y1 + y2 + 190 = 275; y1 + y2 = 275 – 190 = 85 y1 + y2 = 85
y1 = 85 – y2
por otra parte: y1 (–2) + y2 (–1) = –125
–2 y1 – y2 = –125
debido que: Σ xiyi = x1y1 + x2y2 + 0 + 60 + 150 = 85
85 – 210 = –125 = x1y1 + x2y2
Reemplazando, siendo y1 = 85 – y2 se tendrá que: –2 (85 – y2) – y2 = –125 y2 = 170 – 125
–170 + 2y2 – y2 = –125;
y2 = 45 y y1 = 40
en tal forma que y1 + y2 = 40 + 45 = 85
Estadística básica aplicada
262
Ejercicio 6. Se conocen los siguientes datos:
AÑOS
yi 2015 20 2016 - 2017 - 2018 32 2019 38 Σ
xi yi 0 326
Se sabe adicionalmente, que la media de las observaciones es 28. Se pide reconstruir el cuadro anterior y estimar el valor de Y para el año 2026.
Solución: Σ yi y= = 28 n Σ y = n y = 5 (28) = 140 i 140 – [20 + 32 + 38] = 140 – 90 = 50 y + y = 50 2 3 Siendo y2 + y3 = 50
AÑOS
yi
xi
xi yi
x2i
2015 2016 2017 2018 2019 Σ
20 22 28 32 38 140
0 1 2 3 4 10
0 22 56 96 152 326
0 1 4 9 16 30
despejando a y2 = 50 – y3
326 – 96 – 152 = 78
Ahora se tiene que
y2 (1) + y3 (2) = 78;
y2 + 2 y3 = 78
si reemplazamos, siendo y2 = 50 – y3, se tendrá: (50 – y3) + 2 y3 = 78 50 – y3 + 2 y3 = 78 y3 = 78 – 50 = 28 50 – y3 = y2
50 – 28 = y2 = 22
Siendo Σxi ≠ 0, se trabajará con las ecuaciones normales para hallar los parámetros b y c. (1) Σ yi = bΣxi + nc
(2) Σ xiyi = b Σ x2i + c Σ xi
(1) 140 = 10b + 5c
(2)
326 = 30b + 10c
Multipliquemos la ecuación (1) por -2 y restamos de (2) (2) 326 = 30b + 10c (1) –280 = –20b – 10c
46 = 10b
siendo: b =
46 = 4,6 10
–
reemplazamos en la ecuación (1): (1) 140 = 10 (4,6) + 5c
140 = 46 + 5c
c=
140 – 46 94 = = 18,8 5 5
Capítulo 10. Series cronólogicas Y=bx+c ;
263
Y26 = 4,6(11) + 18,8 = 69,4 ; x = 2026 - 2015 = 11
Ejercicio 7. El número de ventas que anualmente hacen unos grandes almacenes desde 2008 hasta 2019, presentan una tendencia creciente según la ecuación Y = 0,11x + 1,52; además se sabe que R2 = 0,87. Siendo Y el valor de las ventas (en miles de millones de $) y X la variable tiempo, con origen en el punto medio entre 2013 y 2014 (unidad temporal medio año). Se pide estimar el valor de las ventas esperadas para el 2026. Solución: Continuación
Xi AÑOS 2008 -11 2009 -9 2010 -7 2011 -5 2012 -3 2013 -1
AÑOS
Xi
2014 2015 2016 2017 2018 2019 2024
1 x = 2026 – 2019 = 7 3 7 x 2 = 14 semestres 5 x = 14 + 11 = 25 semestres 7 9 11 25
Y26 = 0,11(25) + 1,52 = 4,27 (miles de millones $) Ejercicio 8. ¿Puede aceptarse la recta de tendencia secular Y = –2X + 35; R = 0,99; x = 0 para el primero de enero de 2014; (unidad temporal, medio año) para predecir la producción de una bien para el año del 2024? Solución:
AÑOS
xi
2013 2014 2015 2016
-1 1 3 5
•
•
•
•
•
•
x = 2024 – 2016 = 8 años x 2 = 16 semestres. x = 16 + 5 = 21 semestres Y24 = –2x + 35 = –2(21) + 35 = – 42 + 35 = –7 Siendo R = 0,99 la recta explica perfectamente el comportamiento de la variable en el período. Pero el estimado para el 2024 es absurdo, ya que no puede haber una producción de –7.
264
Estadística básica aplicada
Aplicación de estadística en la herramienta Excel Como puede observar en el siguiente cuadro hemos digitado en una hoja de cálculo una serie de 10 años. Ejemplo 3. Supongamos que hemos digitado en una hoja de cálculo información acerca de la variable (y), durante un período de 10 años (x).
Las ventas corresponden a la variable Y, y que se quiere proyectar, es decir, estimar su comportamiento futuro. Esta variable está dada en miles de millones de pesos y su rango será B2 al B11. La variable X corresponde a la variable tiempo. Se desea realizar la estimación de las ventas para el año 2020, así: Seleccionamos una CELDA como RANGO DE SALIDA, supongamos que el resul deberá aparecer en la CELDA B13. tado de Y 04 22 Seleccionamos el MENÚ desplegable INSERTAR, el cual nos permite hacer CLIC en la opción FUNCIÓN, de esta manera podemos observar en la pantalla el cuadro de diálogo FUNCIÓN.
Capítulo 10. Series cronólogicas
Haremos dos selecciones en este cuadro de diálogo CATEGORÍA DE LA FUNCION, primero elegimos ESTADÍSTICA y en el NOMBRE DE LA FUNCIÓN, seleccionamos PRONÓSTICO, haciendo luego CLIC en ACEPTAR.
265
266
Estadística básica aplicada Observemos en el nuevo cuadro de diálogo PRONÓSTICO, aparecen tres casillas, en las que se debe teclear: El año establecido para el pronóstico, como se dijo anteriormente que fuera 2020, se tendrá que x = 17 (En el caso que pidiéramos el 2025 tendríamos que x = 22). Tecleamos 12 en el rectángulo correspondiente a x. RANGO se deberá teclear B2:B11 correspondiente a la variable Y, y en la tercera CELDA el RANGO DE X será C2:C11. Finalmente hacemos CLIC en ACEPTAR.
Observemos que el resultado es de 104,381818 para el año 2020.
Capítulo 10. Series cronólogicas
267
Ajuste parabólico En algunos casos, la línea recta no es un buen procedimiento para determinar la tendencia en una serie cronológica, encontrándose que el comportamiento de los datos obedece más a otro tipo de línea, por ejemplo una parábola. La ecuación general de la tendencia parabólica de segundo grado es: Y = a x2 + bx + c donde a = es el coeficiente de posición b = es la pendiente de la curva en el punto que se tome como origen. c = nos determina la dirección, si la curva es cóncava o convexa. Cuando la sumatoria de Σxi ≠ 0, se trabaja con un sistema de ecuaciones normales, debido a que hay tres constantes o parámetros a, b, y c. Las ecuaciones son: (1) Σyi
= aΣx2i + bΣxi + nc
(2) Σxiyi = aΣx3i + bΣx2i + cΣxi (3) Σx2i yi = aΣx4i + bΣx3i + cΣx2i cuando la sumatoria de Σ xi = 0, se tendrá que Σx3i = 0; por tanto, las tres ecuaciones anteriores se convierten en: (1) Σyi
= aΣx2i + nc
(2) Σxiyi = bΣx2i (3) Σx2 yi = aΣx4i + cΣx2i Con pequeñas operaciones algebráicas se tendrá que: a=
nΣxi2 yi – (Σx2i ) (Σyi)
Σxi yi ; b= 4 2 2 nΣxi – (Σx i ) Σx2i
(al igual que en la recta);
c=
Σyi – aΣx2i n
a) Varianza residual El cálculo de la Varianza residual, se puede obtener mediante dos métodos: a)
2 syx =
Σ(yi – Yi)2 b) n
2 syx =
Σyi2 – cΣyi – bΣyixi – aΣx2i yi n
b) Error estándar de estimación. Es la raíz cuadrada de la varianza residual: c) Coeficiente de correlación, se calculará aplicando la misma fórmula utilizada para la recta: s2yx r= 1– 2 sy
Estadística básica aplicada
268
Ejercicio 9. Consideremos los valores de la Tabla 10.1 para estimar el valor de Y para el 2024 y calcular la varianza residual, el error estándar, fijar los límites de confianza con el 95,5% (Z = 2) y obtener el coeficiente de correlación parabólico. a) La estimación del valor de Y para 2024, considerando que la Σxi ≠ 0. Solución Tabla 10.1
AÑOS
yi
xi
2013 32 0 2014 24 1 2015 38 2 2016 54 3 2017 42 4 2018 66 5 2019 84 6 Σ 340 21
xi2
x3i
0 1 4 9 16 25 36 91
0 1 8 27 64 125 216 441
(1) Σyi = aΣx2i + bΣxi + nc (2) Σxiyi = aΣx3i + bΣx2i + cΣxi (3) Σx2i yi = aΣx4i + bΣx3i + cΣx2i
x4i
xi yi
0 0 1 24 16 76 81 162 256 168 625 330 1296 504 2.275 1.264
x2i yi
y2i
0 1.024 24 576 152 1.444 486 2.916 672 1.764 1.650 4.356 3.024 7.056 6.008 19.136
(1) 340 = 91a + 21b + 7c (2) 1.264 = 441a + 91b + 21c (3) 6.008 = 2.275a + 441b + 91c
Trabajamos con las dos primeras ecuaciones. La (1) la multiplicamos por -3 y se la restamos a la (2): (2) 1.264 = 441a + 91b + 21c (1) –1.020 = –273a – 63b – 21c (4) 244 = 168a + 28b Se procede luego con la (1) y la (3). Multiplicamos la ecuación (1) por –13 y restamos de la ecuación (3): (3) 6.008 = 2.275a + 441b + 91c (1) – 4.420 = –1.183a – 273b – 91c (5) 1.588 = 1.092a + 168b Se tienen dos ecuaciones (4 y 5) cada una con dos incógnitas. Ahora, eliminamos a b multiplicando la ecuación (4) por -6 y la restamos de la ecuación (5)
Capítulo 10. Series cronólogicas (5) 1.588 = 1.092a + 168b (4) –1.464 = –1.008a + 168b 124 = 84a
siendo: a =
269
124 = 1,476 84
Este resultado de 1,476 lo aproximamos a 1,48 y lo reemplazamos en la ecuación (4) para así determinar el valor del parámetro b: 244 = 168(1,48) + 28b 244 – 248,64 – 4,64 244 = 248,64 + 28b b = = = – 0,1657 28 28 La aproximamos a -0,16. Conociendo los valores de a y b, averiguamos el valor de c, reemplazándolos en (1): (1) 340 = 91(1,48) + 21(–0,16) + 7c 340 – 134,68 + 3,36 208,68 340 = 134,68 – 3,36 + 7c ; c = = = 29,81 7 7 Conociendo los parámetros de a, b y c, la ecuación de la parábola, será: Y = a x2 + b x + c ; Y = 1,48 x2 – 0,16x + 29,81 ;
x = 2024 – 2013 = 11
Siendo x igual a 11 para el 2024, la ecuación nos queda igual a: Y24 = 1,48(11)2 – 0,16(11) + 29,81 = 1,48(121) – 1,76 + 29,81 = Y24 = 179,08 – 1,76 + 29,81 = 207,13 b. Veamos ahora el cálculo de estos valores, utilizando el cambio de origen, en tal forma que Σ xi = 0. Tabla 10.1
AÑOS
yi
xi
x2i
x3i
x4i
xi yi
2013 32 2014 24 2015 38 2016 54 2017 42 2018 66 2019 84 Σ 340
-3 -2 -1 0 1 2 3 0
9 4 1 0 1 4 9 28
-27 -8 -1 0 1 8 27 0
81 16 1 0 1 16 81 196
-96 -48 -38
xi2 yi
yi2
288 1.024 96 576 38 1.444 -182 +426 0 2.916 42 42 1.764 132 264 4.356 252 756 7.056 244 1.484 19.136
Estadística básica aplicada
270
Las ecuaciones cuando Σ xi = 0 son: (1) Σyi = aΣx2i + nc (2) Σxiyi = bΣx2i (3) Σx2i yi = aΣx4i + cΣx2i
(1) 340 = 28a + 7c (2) 244 = 28b (3) 1.484 = 196a + 28c
Consideremos en primer lugar la ecuación (2) para obtener el valor de b. (2) 244 = 28b
b=
244 = 8,71 28
Ahora, multiplicamos la ecuación (1) por – 4 y la restamos de la ecuación (3): (3) 1.484 = 196a + 28c (1) –1.360 = –112a – 28c 124 = 84a
siendo:
a=
124 = 1,476 84
aproximamos a 1,48 y reemplazamos en la ecuación (1): (1) 340 = 28(1,48) + 7c 340 = 41,44 + 7c
c=
340 – 41,44 298,56 = = 42,65 7 7
Con la ecuación general para la parábola se tendrá: Y24 = 1,48x2i + 8,71xi + 42,65 = 1,48(64) + 8,71(8) + 42,65 = Y24 = 94,72 + 69,68 + 42,65 = 207,05
x = 2024 – 2016 = 8
Se puede observar que este valor obtenido para Y, es bastante aproximado al resultado anterior.
c. a=
Si hubiéramos utilizado las fórmulas simplificadas cuando Σxi = 0 se tendría: nΣx2i yi – (Σx2i ) (Σyi) nΣxi4 – (Σx2i )2
a=
7 (1.484) – (28) (340) 7(196) – (28)2
Σxiyi 244 10.388 – 9.520 868 a= = = 1,476 = 1,48 b= = = 8,71 2 1.372 – 784 588 Σx i 28 c=
Σyi – aΣx2i 340 – 1,48(28) 340 – 41,44 298,56 = = = = 42,65 n 7 7 7
Y = 1,48x2 + 8,71x + 42,65
Capítulo 10. Series cronólogicas 2. Calculemos la varianza residual.
271
a) Si aplicamos la fórmula de:
2 syx =
Σ(yi – Yi)2 n
Debemos obtener los valores estimados deY. Para ello tomaremos la ecuación obtenida a través del segundo método, cuando consideramos que Σ xi = 0: Y = a x2 + b x + c Y13 = 1,48(9) + 8,71(–3) + 42,65 = 29,85 Y16 = 1,48(0) + 8,71(0) + 42,65 = 42,65 Y14 = 1,48(4) + 8,71(–2) + 42,65 = 31,15 Y17 = 1,48(1) + 8,71(1) + 42,65 = 52,84 Y15 = 1,48(1) + 8,71(–1) + 42,65 = 35,42 Y18 = 1,48(4) + 8,71(2) + 42,65 = 65,99 Y19 = 1,48(9) + 8,71(3) + 42,65 = 82,10 Σyi = ΣYi = 340,00 Tabla 10.1
AÑOS
312,3396 s2yx = = 44,62 7 (varianza residual)
yi
Yi
yi - Yi
2013 32 29,85 2,15 2014 24 31,15 -7,15 2015 38 35,42 2,58 2016 54 42,65 11,35 2017 42 52,84 -10,84 2018 66 65,99 0,01 2019 84 82,10 1,90 Σ 340 340,00 0
(yi - Yi)2 4,6225 51,1225 6,6564 128,8225 117,5056 0,0001 3,6100 312,3396
b) Aplicando otra fórmula, hallaremos la varianza residual: s2yx = s2yx = s2yx =
Σyi2 – cΣyi – bΣyixi – aΣx2i yi n 19.136 – 42,65(340) – 8,71(244) – 1,48 (1.484) 7 19.136 – 14.501 – 2.125,24 – 2.196,32 7
=
=
313,44 7
= 44,77
Hay una pequeña diferencia con respecto a s2yx = 44,62, debido a las aproximaciones. 3. El error estándar de estimación será igual a:
Estadística básica aplicada
272
syx = + s2yx = 44,77 = 6,69 4. Los límites de confianza del 95,5% (Z = 2) para Y24 serán: Y±Z
syx Y = 207,05 + 2(2,53) = 212,11 = s n Yi = 207.05 – 2(2,53) = 202,44
Lo anterior quiere decir: que en el año 2024 el valor de Y estará comprendido entre 202,44 y 212,11, con una seguridad de que sea así, del 95,5 %. 5. El coeficiente de correlación, será: r= 1–
2 syx s2y
44,62 r= 1– = 1 – 0,12 = 0,94 373,82
( (
Σy2 19.136 340 2 s2y = – yi2 = – = 2.733 – 2.359,18 = 373,82 n 7 7 Ajuste exponencial Una serie de observaciones ordenadas a través del tiempo, que muestre un crecimiento geométrico, como el caso de la población (consumidora, en edad escolar, económicamente activa, otras), inversiones, etc., dando origen a un incremento porcentual, como por ejemplo el crecimiento de un capital colocado a una tasa de ínterés compuesto, en estos casos, se requiere del ajuste exponencial: Y = c bx donde c = coeficiente de posición. b = siendo b=1+r r = tasa de incremento geométrico. x = El predictor, considerado como variable tiempo. El ajuste de una tendencia exponencial, utilizando el método de los mínimos cuadrados, se facilita llevándola a la forma logarítmica: log yi = log c + xi log b y sus ecuaciones normales, cuando Σxi ≠ o serán: (1) Σ log yi = n log c + (Σxi) log b (2) Σ xi log yi = log c(Σxi) + (Σx2i ) log b En el caso de la Σxi = 0, se simplifica el cálculo de b y c. Partiendo de las ecuaciones siguientes se obtendrán los parámetros: (1) Σ log yi = n log c
log c =
Σ log yi n
Capítulo 10. Series cronólogicas Σx log y log b = i 2 i Σx i
(2) Σ xi log yi = (Σx2i ) log b
Ejercicio 10. Apliquemos las fórmulas anteriores en los datos de la Tabla 10.1
AÑOS
2013 2014 2015 2016 2017 2018 2019 Σ
yi 32 24 38 54 42 66 84 340
xi 0 1 2 3 4 5 6 21
x2i log yi xi log yi 0 1,50515 0 1 1,38021 1,38021 4 1,57978 3,15956 9 1,73239 5,19717 16 1,62324 6,49296 25 1,81954 9,09770 36 1,92423 11,54538 91 11,56454 36,87298
(1) Σ log yi = n log c + (Σxi) log b (2) Σ xi log yi = log c (Σxi) + (Σx2i ) log b
Reemplazando se tiene : 11,56454 = 7 log c + 21 log b 36,87298 = 21log c + 91 log b
eliminamos a c, multiplicando (1) por -3 y restando de (2): (2) 36,87298 = 21 log c + 91 log b (1) –34,69362 = –21 log c – 63 log b 2,17936 = 28 log b b = 1,1962;
2,17936 log b = = 0,07783 28 antilog de 0,07783 = b
siendo: b = 1 + r = 1 + 0,1962 r = 0,1962
Se podrá decir que la tasa de crecimiento es del 19,62% o del 196,2 % Conociendo el valor del log b, reemplazamos en la ecuación (1) para así hallar el valor del log c: 11,56454 = 7 log c + 21 (0,07783) log c =
11,56454 - 1,63443
Siendo:
7
=
9,93011 7
11,56454 = 7 log c + 1,63443 = 1,41859
log Y = log c + x log b
log Y = 1,41859 + x (0,07783)
Si se va a estimar el valor de Y para 2024, se tendrá que x = 2024 – 2013 = 11, luego log Y24 = 1,41859 + 11 ( 0,07783) = 1,41859 + 0,85613 = 2,27472 Si obtenemos el antilogaritmo de Y24 se tendrá que:
Y24 = 188,24
273
Estadística básica aplicada
274
b) Cuando la Σxi = 0, se aplicarán las siguientes fórmulas: c = Σ log yi log n Σ xi lg yi b= log Σ xi2
AÑOS
2013 2014 2015 2016 2017 2018 2019 Σ
yi 32 24 38 54 42 66 84 340
xi -3 -2 -1 0 1 2 3 0
x2i 9 4 1 0 1 4 9 28
log yi 1,50515 1,38021 1,57978 1,73239 1,62324 1,81954 1,92423 11,56454
xi log yi -4,51545 -2,76042 -1,57978 -8,85565
+11.03501
1,62324 3,63908 5,77269 2,17936
Σ log yi 11,56454 Σ xi log yi 2,17936 = 1,65208 log b = = = 0,07783 n = 7 Σ x2i 28
log c =
log Yi = log c + x log b log Yi = 1,65208 + x (0,07783) log Y24 = 1,65208 + 8 (0,07783) = 2,27472
x = 2024 - 2016 = 8
Ahora obtenemos el antilogarítmo de Y24 siendo Y24 = 188,24 ; valor igual al obtenido al aplicar el otro método cuando Σ xi ≠ 0. a) Varianza residual La varianza residual se obtendrá de la fórmula siguiente: s2x log y =
Σ(log yi - log Yi)2 n
AÑOS
log yi
2013 2014 2015 2016 2017 2018 2019
1,50515 1,38021 1,57978 1,73239 1,62324 1,81954 1,92423
Σ
log Yi log yi – log Yi (log yi – log Yi)2 Yi 1,41858 1,49642 1,57425 1,65208 1,72991 1,80774 1,88556
11,56454 11,56454
0,08657 -0,11621 0,00553 0,08031 -0,10667 0,01180 0,03867
0,00749 0,01350 0,00000 0,00645 0,01138 0,00014 0,00150
26,2 31,4 37,5 44,9 53,7 64,2 76,8
0
0,04046
334,7
Capítulo 10. Series cronólogicas log Y13 log Y14 log Y15 log Y16 log Y17 log Y18 log Y19
= 1,65208 = 1,65208 = 1,65208 = 1,65208 + = 1,65208 + = 1,65208 + = 1,65208 +
3(0,07783) 2(0,07783) 1(0,07783) 0(0,07783) 1(0,07783) 2(0,07783) 3(0,07783)
Σ log yi
sx2 log y =
sx2 log y =
= = = = = = =
1,41858 1,49642 1,57425 1,65208 1,72991 1,80774 1,88556
= 11,56454
Y13 Y14 Y15 Y16 Y17 Y18 Y19
275 = = = = = = =
26,2 31,4 37,5 44,9 53,7 64,2 76,8
ΣYi = 334,7
Σ (log yi – log Yi)2 0,04046 = = 0,00578 n 7 Σ (log yi )2 – logc (Σ log yi ) – logb (Σxi log yi) n
El error estándar será: sx log y = s2x log y = 0,00578 = 0,07603
Σ(yi – Yi)2 Al calcular la varianza residual para s2yx mediante la fórmula el resultado n difiere del anterior debido a que la Σ yi = Σ Yi . Unicamente son iguales la Σ log yi = Σ log Yi. S El error estándar se aplica en la siguiente forma: logY ± Z x log y n
Si consideramos que log Y24 = 2,27472 y los límites que se van a fijar son de una confianza del 95,5% (Z = 2) se tendrá que: log Ysup.= 2,2747 + 2 (0,028783) = 2,332166; log Yinf. = 2,2747 – 2 (0,028783) = 2,217226 Obteniéndose los antilogaritmos, se tendrán los siguientes límites Ys = 214,86
Yi = 164,90
b) El coeficiente de correlación será igual a:
r= 1–
S2x log y S2log y
Estadística básica aplicada
276
Calculemos la varianza del logaritmo de Y: log y =
11,56454 7
= 1,65207
AÑOS
Σ (log yi – logy)2 0,21011 2 Slogy = = = 0,0300 n 7 S2x log y 0,00578 r= 1– = 1– 2 Slogy 0,0300 r = 1 – 0,1927 = 0,90
2013 2014 2015 2016 2017 2018 2019 Σ
2
log yi logyi – (logy) 1,50515 0,02159 1,38021 0,07391 1,57978 0,00522 1,73239 0,00645 1,62324 0,00083 1,81954 0,02804 1,92423 0,07407 11,56454 0,21011
El valor de r es casi igual a 1, resultado que nos indica que los logaritmos de los valores observados se encuentran prácticamente en línea recta, por lo tanto la exponencial se ajusta bastante bien. Otro procedimiento
La fórmula de Y = cbx se puede transformar en: P1 = P0 (1 + r)n P1 = población o capital final, dependiendo de la variable analizada. También representa al valor estimado que simbolizábamos por Y. P0 = población o capital inicial. Antes simbolizada por c. r = tasa de crecimiento geométrico o tasa de interés compuesto. b = 1 + r lo denominamos como coeficiente angular. n = variable tiempo. Antes se simbolizaba por x. Ejercicio 11. Supongamos que se tiene únicamente información para: 2013 = 321 y 2019 = 84 Se desea estimar el valor de la variable para el 2024 mediante la aplicación de la fórmula: P1 = P0 (1 + r)n Solución: Determinamos en primer lugar la tasa de crecimiento. P1 = P0 (1 + r)n
84 = 32 (1 + r)6
n = 2019 – 2013 = 6
Trabajando con logaritmos simplificamos las operaciones log 84 = log 32 + 6 log (1 + r) log (1 + r) =
1,92423 – 1,50515 6
1,92423 = 1,50515 + 6 log (1 + r) = 0,069846; 1 + r = antilog de 0,069846 = 1,1744
Capítulo 10. Series cronólogicas 1 + r = 1,1744
r = 0,1744
r = 17,44%
277 r = 174,4 %
Conociendo la tasa de crecimiento, podemos estimar el valor de P19: P24 = P19 (1 + r)5
log P24 = log P19 + 5 (0,069846)
log P24 = 1,92423 + 0,34923 = 2,27346
P24 = 187,69
x = 2024 – 2019 = 5
Ejercicio 12. Si las importaciones (M) de una mercancía se duplican en un período de 4 años, ¿cuál es la tasa media acumulativa de incremento anual? Solución - fórmulas M (1 + r)4 = 2M log M + 4 log (1 + r ) = log 2 M 0,301030 4 log (1+ r) = 0,301030 log (1 + r) = = 0,075258 4 1 + r = 1,189 r = 0,189 r = 18,9 % r = 189º/ºº Ejercicio 13 ¿En cuántos años y a una tasa del 7% se duplicará un capital de 20 millones de pesos? c (1 + r)n = 2c n log 1,07 = 0,301030
log c + n log (1 + r) = log 2 c n (0,029384) = 0,301030
n = 0,301030 = 10,24 años
RESUMEN DEL CAPÍTULO
Los datos correspondientes a informaciones de carácter estadístico pueden ser: atemporales, siendo el resultado de investigaciones no periódicas y temporales denominadas series de tiempo o series cronológicas, cuando el registro es p eriódico. Una serie cronológica es un conjunto de observaciones ordenadas en forma períodica, respecto a una característica cuantitativa correspondiente a un determinado fenómeno que se registra a medida que se va produciendo. La representación gráfica esta dada por un conjunto de puntos que unidos conforman una línea poligonal que muestra las variaciones que ha tenido la variable (Y) en un período (t). Parte del análisis, consiste en encontrar una línea que represente esa poligonal y que muestre la tendencia que siguen esos puntos para poder determinar su comportamiento en el futuro, suponiendo que las condiciones actuales se mantendrán.
Estadística básica aplicada
278
El ajuste de una línea recta a un conjunto de puntos ordenados cronológicamente puede hacerse aplicando varios métodos, tales como: a) mano alzada, b) puntos seleccionados, c) semipromedios y d) mínimos cuadrados. El ajuste puede ser rectilíneo, parabólico, exponencial u otras formas, dependiendo del comportamiento de la variable. Términos para recordar
Ajuste exponencial Ajuste parabólico Ajuste rectilíneo Coeficiente angular Coeficiente de correlación Coeficiente de posición Error estándar Fórmulas
Y = bx + c b=
Σxi yi Σx2i
r = 1–
2 Sxy
S2y
P -P b= 2 1 t c=
1+2 T1 + T2
Σy c= ni
Ecuación general de la recta Cálculo del coeficiente angular cuando ΣXi = 0
Coeficiente de posición, en el método de los semipromedios
(1) Σy = bΣx + nc Ecuaciones normales (2) Σxy = bΣx2 + cΣx Para hallar el valor de b y c cuando Σxi = 0
Cálculo del coeficiente de posición cuando Σxi = 0
Σ (yi – Yi)2 S = n 2 yx
Coeficiente de correlación, fórmula que se aplica tanto para la recta como para la parábola Coeficiente angular, en el método de los puntos seleccionados
Mínimos cuadrados Series cronológicas Tendencia Variaciones aleatorias Variaciones cíclicas Varianza residual
b=
2-1 T1 (n - T2)
2 Syx = + Syx
2 Syx =
Varianza residual, aplicada en la recta y en la parábola Coeficiente angular, en el método de los semipromedios Error estándar de estimación
Σyi2 –cΣyi –bΣxiyi n
Y = ax2i + bxi + c
Varianza residual, para la recta
Ecuación general de la parábola
r=
n Σ xiyi – (Σxi) (Σxyi) [n Σ x2i – (Σxi)2] [n Σ yi2 – (Σyi)2] Coeficiente de correlación rectilíneo
Capítulo 10. Series cronólogicas
(1) Σyi = aΣxi2 + bΣxi + nc (2) Σxiyi = aΣx3i +bΣx2i + cΣxi (3) Σxi2yi = aΣx4i + bΣx3i + cΣx2i a=
n Σx2i yi – (Σx2i ) (Σyi) nΣx – (Σx ) 4 i
Σx y b = i2 i Σx i 2 Syx =
2 2 i
Sistema de ecuaciones normales para hallar los parámetros a, b, y c cuando Σxi = 0
Dirección de la curva; determinándose si es cóncava o convexa
Coeficiente angular de la parábola
Σyi2 – cΣyi – bΣyixi – aΣx2i yi n
Y = cbx
Ecuación general de la exponencial
(1) Σ logyi = n log c + (Σxi)logb (2) Σxi logyi = log c (Σxi) + (Σx2i)logb log c =
c=
Σyi – aΣx2i n
Σ(logyi –logYi)2 n
Sxlogy = +
S xlogy = 2
r = 1–
S2xlogy S2logy
Coeficiente de posición en la parábola
Sistema de ecuaciones normales para hallar b y c cuando Σxi = 0 (logarítmica)
log b =
residual
Σxi = 0
ó log Y = log c + X log b
Σlogyi Coeficiente de posición n cuando Σxi = 0
Varianza
Cuando
Varianza residual, para la parábola
Σxilogyi
(exponencial)
S2xlogy =
279
Σx2i
S2xlogy
Coeficiente angular cuando Σxi = 0 (logarítmica)
Error estándar (logarítmica)
Σ (logyi)2 - log c (Σ logyi) - log b Σ xi log yi
Coeficiente de correlación en la logarítmica
n
P1 = P0 (1 + r)n
Ajuste exponencial
Estadística básica aplicada
280
Ejercicios propuestos
1. Indicar si son ciertas o falsas las siguientes preguntas: a. El coeficiente angular no proporciona el mismo valor numérico cuando se cambia el origen en la recta. b. La exponencial 17.420 (1,032)x (con base 2018) es una buena representación del crecimiento de población. c. Cuando la serie es continua y se tiene un número par de años, las x corresponden a semestres, si se toma el centro de la serie como origen. d. Los componentes de una serie cro nológica son: la tendencia, las variaciones estacionales, las aleatorias y las cíclicas. e. La recta obtenida por el método de los semipromedios, tiene su principal ventaja en la sencillez. 2. De acuerdo con los siguientes datos, se pide: a. Estimar el valor de Y para 2025, mediante un ajuste rectilíneo. b. Calcular los valores de y2 y y4
AÑOS
2015 2016 2017 2018 2019
yi Yi 5 y2 10 9,8 y4 14 14,2
c. Calcular el coeficiente de correlación. d. Fijar los límites del 95,5% (Z = 2) para Y25 3. Con la siguiente información, se pide: AÑOS INDICE DEL PRODUCTO REAL AGRÍCOLA 2013 100,0 2014 102,0 2015 105,1 2016 109,3 2017 113,1 2018 116,5 2019 120,3 a. Estimar el índice para 2024 mediante el ajuste exponencial. b. Determinar la tasa de crecimiento acumulativo anual.
4. Se sabe que el desarrollo de la variable Y en el tiempo, tiene una tendencia líneal, pero de ella tan sólo se conocen los siguientes valores.
AÑOS
Yi:
2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 8
-
-
16
14
-
-
20
Estimar los valores para los años 2010, 2011, 2014, 2015 y 2016.
-
22
26
Capítulo 10. Series cronólogicas 5. La población de un país en 2009 era de 12 millones de habitantes; en 2025 fue de 21 millones. Se desea determinar: a. La tasa de crecimiento b. La población estimada para 2023 6. Con los siguientes datos referentes al número de unidades vendidas (dadas en miles) se pide: AÑOS
yi
2013 2014 2015 2016 2017 2018 2019
234 171 147 124 140 144 206
a. Ajustar una parábola tomando como origen a 2013 y estimar el valor de Y22 b. Con la anterior ecuación, obtener los valores de Yi y elaborar la gráfica correspondiente a los valores reales y los estimados. c. Ajustar la parábola trabajando con cambio de origen (Σ xi = 0) y estimar Y22 7. Con los índices de precios anuales, se pide
AÑOS PROMEDIO
2013 2014 2015 2016 2017 2018 2019
128 135 148 145 152 161 162
a. Ajustar una recta, utilizando el método de mano alzada.
281
b. Ajustar una recta y estimar Y22 . Utilizar el método de los semipromedios y el de los puntos seleccionados. c. Hacer las gráficas correspondientes (utilizar los datos reales y los estimados). 8. ¿Cómo define las variaciones estacio nales, cíclicas y aleatorias? 9. Con la siguiente información se pide: MESES
Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre Enero/20
VENTAS (millones de $) Año 2019
120 180 356 372 425 450 383 346 308 266 424 562 286
a. Elaborar una gráfica con los datos reales y los estimados mediante un ajuste rectilíneo. b. Estimar el mes de febrero de 2020 aplicando el ajuste rectilíneo y luego el parabólico. 10. Suponga que usted tiene una serie de tiempo, desde 2017 hasta el 2019, en el cual los datos se han registrado trimestralmente. Si en el tercer semestre del 2019 se desea hacer una estimación de la variable Y, el valor de X en este período es:
Estadística básica aplicada
282 a. X = 8 b. X = 9 c. X = 10 d. X = 12 e. X = 14
11. Cuando la variable analizada, en una serie de tiempo, muestra un crecimiento geométrico, se debe hacer la estimación mediante el método. a. Lineal b. Exponencial c. Parabólico d. Promedio de móviles
Cuestionario de Evaluación 1. El coeficiente de determinación o coeficiente de correlación al cuadrado es: a. Un número mayor que uno y menor que cero. b. El coeficiente angular. c. La pendiente. d. El coeficiente de variación. 2. Con la ecuación Y = 3.820 + 130 x de una serie de nueve años (2011 - 2019) con origen en 2015, se podrá decir que el valor estimado para 2024 es: a. 3.120 b. 4.120 c. 5.120 d. 6.120 e. 7.120 3. Con la siguiente información correspondiente a una serie cronológica, cuyos valores se estimaron mediante un ajuste rectilíneo.
AÑOS
yi 2014 42 2019 80
Yi 38 82
Se podrá decir que el valor estimado para el 2017 es: a. 125,6 b. 130,8 c. 132,5
d. 143,6 e. 151,2 4. Dada la siguiente serie cronológica
Años: 2014 2015 2016 2017 2018 2019
Yi
: 70
56
74
80
96
114
El valor estimado para 2024 mediante un ajuste rectilíneo, será: a. 135,4 b. 138,6 c. 144,2 d. 151,6 e. 155,8
5. Con los datos anteriores se tiene que el coeficiente de correlación lineal es: a. 0,80 b. 0,85 c. 0,88 d. 0,90 e. 0,96 6. Si se tienen los siguientes datos correspondientes a una serie ajustada mediante una recta.
AÑOS
yi Yi
2014 18 15 2019 72 75
Capítulo 10. Series cronólogicas
Se podrá decir que el coeficiente angular (crecimiento anual) es de: a. 12,0 b. 16,8 c. 20,4 d. 22,5 e. 25,6
7. Con los datos del punto anterior el valor estimado para el 2026, es: a. 149 b. 159 c. 169 d. 179 e. 189 8. Los datos de una serie permiten obtener la siguiente ecuación Y = 88,2 + 8,32 x cuyo origen es 2014, por lo tanto el valor estimado de Y para el 2024, es : a. 156,28 b. 162,5 c. 170,83 d. 179,73 e. 180,51 9. En una serie de tiempo, los parámetros obtenidos mediante un ajuste rectilíneo son c = 486; b = 80. Si se toma como origen 2013, el valor estimado para 2021 es: a. 980 b. 1.126 c. 1.351 d. 1.382 e. 1.420 10. Con la ecuación Y = 5.890 + 360 x de una serie de once años (2009 - 2019), con origen en 2014, el valor estimado de Y para el 2025 es: a. 8.315 b. 8.820 c. 9.260 d. 9.540 e. 9.850
283
11. Para la serie cronológica
Años: 2013 2014 2015 2016 2017 2018 2019
Yi
: 20
38
24
36
72
65
95
El coeficiente de correlación lineal es: a. 0,80 b. 0,86 c. 0,91 d. 0,94 e. 0,98
12. En el punto anterior el valor estimado mediante un ajuste rectilíneo para el 2031 es de: a. 200 b. 215,8 c. 225,2 d. 236,8 e. 242,6 13. Con los datos del punto 11 el coeficiente de correlación, en un ajuste exponencial es: a. 0,83 b. 0,89 c. 0,91 d. 0,95 e. 0,98 14. El valor estimado para el 2026 mediante un ajuste exponencial con la información del punto once (11) es igual a. 406,12 b. 501,11 c. 550,63 d. 612,32 e. 615,44 15. La tasa de crecimiento anual, en el ajuste exponencial, con los datos del punto once (11) es: a. 13,85 b. 18,32 c. 24,52 d. 27,70 e. 32,81
Capítulo 11 NÚMEROS ÍNDICES OBJETIVOS
• Identificar, manejar e interpretar correctamente números índices. • Desarrollar destrezas necesarias para elaborar índices simples y ponderados. • Desarrollar destrezas en la aplicación de los números índices en la gestión administrativa. CONTENIDO
• • • •
Conceptos sobre números. Índices simples. Índices agregativos simples. Índices compuestos o ponderados.
• • •
Empalme de dos o más series índices. Encadenamiento Usos de los números índices.
INTRODUCCIÓN
Los números índices son cifras relativas, expresadas en términos porcentuales, que sirven para indicar las variaciones que presenta una serie de observaciones, cuando se comparan respecto a una de ellas, tomada como punto de referencia, denominada período base. Por lo general, los números índices se constituyen en series cronológicas, cuando se utilizan para indicar las variaciones porcentuales de una variable a través del tiempo. En una serie corta, el período base corresponderá al primer valor de la misma; en una serie larga, debe seleccionarse aquel período que haya sido más estable, es decir, que no presente cambios bruscos debido a factores, ya sean internos o externos. En algunas ocasiones, la selección del período base dependerá de lo que se quiera presentar, por ejemplo si se examina una serie referente a los precios de un artículo, se tendrá que el índice de variación será mucho más alto, cuanto más lejano se encuentre el período base; y será más bajo cuanto más cercano esté ese período. Los números índices son muy usados en el análisis de las ventas, producción, precios, costos, beneficios, aumentos de capital, comercio exterior, etc., y en especial cuando se quiere comparar dos series, como por ejemplo, los cambios en los precios de dos o más
Estadística básica aplicada
286
artículos durante un determinado período de tiempo. Por lo tanto habrá necesidad de tener cuidado con su uso, pues a diferencia de lo que la mayoría cree, el índice no mide, sólo es un indicador que pretende reflejar el comportamiento de ciertas observaciones en forma aproximada. Según su composición, el índice puede ser: simple o compuesto. A su vez los índices compuestos se clasifican en agregativos y de promedios. Los promedios, a su vez, se clasifican en aritméticos, geométricos, medianos, etc, siendo los más utilizados los aritméticos. ÍNDICES SIMPLES
Un índice simple se obtiene dividiendo cada precio, cantidad o valor de una serie dada ya sea en períodos anuales, mensuales, etc. por el precio, cantidad o valor de uno de esos períodos, el cual ha sido tomado como base o punto de referencia, el resultado de ese cociente se multiplica por cien. X I = índice La fórmula general es: Iot = t 100 Xo t = período que se analiza 0 = período base Xt = precio, cantidad o valor del período que se investiga X0 = precio, cantidad o valor del período considerado como base. A veces, se cambia el símbolo X por el de P, si se refiere a precios o producción, y por q cuando se trata de cantidades. Así por ejemplo: Iot =
Pt 100 Po
Iot =
qt 100 qo
Ejercicio 1. Supongamos los precios de un artículo en el período 2014 - 2019, según la Tabla 11.1. Con estos datos, calcular los índices simples de precios con base 2014 y luego los índices simples con base 2017. Solución:
Tabla 11.1
AÑOS PRECIOS
$
2014 2015 2016 2017 2018 2019
2.000 2.800 2.400 4.000 4.800 6.000
ÍNDICE 2014 = 100 2017 = 100
A
B
100 140 120 200 240 300
50 70 60 100 120 150
% DE VARIACIÓN
(A)
(B)
- +40 +20 +100 +140 +200
-50 -30 -40 0 +20 +50
Capítulo 11. Números índices Los índices simples con base fija se calculan de la siguiente manera:
Iot =
Xt 100 Xo
siendo la base X0 = 2014, se tendrá: I1414 =
X14 2.000 X 2.800 100 = 100 = 100 I 1415 = 15 100 = 100 = 140 X14 2.000 X14 2.000
I1416 =
X16 2.400 100 = 120 y así sucesivamente. X14 2.000
Si consideramos, como período base al precio de 2017 se tendrán un valor de X17 = 4000 I1714 =
X14 2.000 100 = 100 = 50 X17 4.000
I 1617 =
X16 2.400 100 = 100 = 60 X17 4.000
I 15 = 17
X15 2.800 100 = 100 = 70 X17 4.000
y así sucesivamente.
Observemos que el índice de precios para 2019 con base 2014 es de 300. Dicho resultado nos indica que los precios han aumentado en un 200%. Para la lectura del índice se requiere que le restemos 100, pues corresponde el punto de partida o período base. En cambio, el índice para ese mismo año de 2019 con base 2017, nos muestra un aumento menor, es decir, apenas del 50%. Desde el punto de vista matemático, los dos resultados son equivalentes, pero la forma como impresiona al lector, en el aspecto sicológico, son diferentes. El índice simple también se puede calcular sin base fija, diferente al calculado anteriormente, en este caso cada índice se obtiene cambiando de base. Se dice, que en una serie, los índices son de base variable, cuando a cada observación se le divide por el valor de la observación inmediatamente anterior, multiplicándolo por 100. Ejercicio 2. Con los datos de la Tabla 11.1 calcular los índices con base variable y el respectivo porcentaje de variación. Solución: Los índices de base variable se calculan de la siguiente forma: X14 2.000 100 = 100 = 100 debido a que supuestamente no se tiene X14 2.000 información del período anterior. X15 2.800 = 100 = 100 = 140 X14 2.000
I 14 = 14 I1415
287
Estadística básica aplicada
288
Tabla 11.1
ÍNDICE BASE VARIABLE AÑOS PRECIOS
2014 2015 2016 2017 2018 2019
$
2.000 2.800 2.400 4.000 4.800 6.000
Índice % Variación
100,00 140,00 85,71 166,66 120,00 125,00
+40,00 -14,29 +66,66 +20,00 +25,00
I 1516 =
X16 2.400 X 4.000 17 100 = 100 = 85,71; I 16 = 17 100 = 100 = 166,66 X15 2.800 X16 2.400
I 1718 =
X18 4.800 100 = 100 = 120,00; X17 4.000
I1819 =
X19 6.000 100 = 100 = 125,0 X18 4.800
Los incrementos o las diminuciones que se presentan para cada período, se dan respecto al año inmediatamente anterior. Así por ejemplo, el precio aumentó en un 25% para 2019, con respecto al precio de 2018. Ejercicio 3. En enero de 2018 una fábrica pagó un total de $99.200.000.oo a 120 empleados en nómina. En julio del mismo año, la fábrica tuvo 30 empleados más en nómina y pagó $30.000.000 más que en enero. Tomando al mes de enero como base, hallar: a) El índice de empleo. b) El índice del costo de mano de obra. c) Mediante la igualdad. Precio relativo x cantidad relativa. ¿Qué interpretación podría darse al precio relativo en este caso? Solución:
Nº de empleados en julio a) Número índice de empleo = NIE NIE = x 100 Nº de empleados en enero 150 Número índice de empleo = NIE NIE = x 100 = 125 120 en cantidad relativa sería 1,25. Crecimiento del 25%. Salarios pagados en julio b) Número índice del costo de mano de obra = ICMO = Salarios pagados en enero 129.200.000 Índice de costo mano de obra = ICMO ICMO = x 100 = 130,24 99.200.000
Capítulo 11. Números índices Valor relativo = 1,3024. Crecimiento del 30,24%. Valor relativo c) Precio relativo = P P = = 1,04193 Cantidad relativa Si lo multiplicamos por 100 se tendrá que el índice de precio es de 104,19%. Es decir, que el índice de costo medio por empleado aumentó en un 4,19% para el mes de julio en relación con el del mes de enero. ÍNDICES ESLABONADOS
El índice simple, lo mismo que el ponderado, con base variable presenta la ventaja en primer lugar, de indicar las variaciones para cada período respecto al anterior, además se puede transformar en índices con base fija, el cual se obtiene, mediante sucesivas multiplicaciones de los relativos para cada eslabón: t I o o o 1 2 1-1 = Io x R1 x R2 x R3 x ...Rt
Supongamos que se desea indicar la variación en el precio de 2018 respecto al precio de ese artículo en 2015. Supongamos que en la Tabla 11.1 se tienen únicamente los precios de esos dos períodos, el cálculo del índice será:
I1518 =
X18 4.800 100 = 100 = 171,43 X15 2.800
El mismo resultado se obtiene si tuviéramos únicamente los índices de base fija, tal como lo presenta la misma tabla. Con dicha información se podrá calcular el índice, en la siguiente forma:
I
18 15
18 I 14
I 15 14
240 = 100 = 100 = 171,43 140
Ahora, si solo se tiene una serie de índices con base variable, se podrán encadenar dichos índices, para obtener el índice con base fija: 18 I15 15 15 16 17 = I 15 x R16 x R17 x R18
X R = es el relativo o sea t sin ser multiplicado por 100. Reemplazando se tendrá: Xo I1518 = 100 x 0,8571 x 1,6666 x 1,20 = 171,43 Siendo lo mismo que: 2.800 2.400 4.000 4.800 4.800 I1518 = 100 · · · = 100 = 171,43 2.800 2.800 2.400 4.000 2.800
289
Estadística básica aplicada
290
El encadenamiento anterior lo hemos realizado con índices simples de base variable, pero también se puede hacer utilizando índices ponderados con base variable. Ejercicio 4. Un índice para 2018 revela un aumento del 20% respecto del año anterior. En 2019 alcanzó a 174, es decir, presenta un incremento anual del 18%. Calcular los índices de 2017 y 2018. Solución: I1718 = 120 ya que el aumento con respecto I1819 = 118; del año anterior fue del 20%
debido a que el incremento en ese año fue del 18%
Se requiere determinar los I170 y I180. La base en este ejercicio no se conoce, por lo tanto puede ser considerado cualquier año.
I019 = 174 I019 = I018 ( ) R19 18
174 Si reemplazamos se obtendrá que 174 = I018 ( ) 1,18 donde = I018 = 147,45 1,18 Para obtener I018 se hace lo mismo que para: I018 = I 017 ( ) R18 17 reemplazando se tiene que 147,45 = I18 1,20 ; siendo: ( ) 0
147,45 = I 018 = 122,87 1,20
Ejercicio 5. Existen tres índices, cuyas cifras son: para 2017 = 107, para 2018 = 108, para 2019 = 104, es decir, que entre 2016 y 2019, el índice eslabonado aumentó en un 19%. Decir si la anterior afirmación es cierta o falsa. Solución: ÍNDICE AÑOS (Base variable) 2016 100 2017 107 2018 108
2019
104
16 18 I1619 = I16 16 17 18 R17 R R19 ( ) ( ) ( )
I1619 = 100 x 1,07 x 1,08 x 1,04 = 120,18 I1619 = 120,18 = 119 Por lo tanto la afirmación es falsa.
ÍNDICES AGREGATIVOS SIMPLES
Son los de mayor aplicación, especialmente cuando se cuenta con una serie de precios de un grupo de artículos, dados en unidades con medida diferentes. Estos índices se calculan teniendo en cuenta la suma de los precios, cantidades o valores de un grupo de artículos para un período, dividida por la suma de los precios, cantidades o valores para ese grupo de artículos en otro período, considerado como base.
Capítulo 11. Números índices
I ot =
ΣXt 100 ΣXo
I ot =
ΣPt 100 Σpo
291 I ot =
Σqt 100 Σqo
Ejercicio 6. Con los datos de la tabla siguiente, calcular el índice agregativo de las cantidades que resultaron en mal estado de conservación, en un grupo de artículos, comprados en el mes de junio de 2019, respecto a las cantidades compradas, en mal estado de conservación, en el mes de mayo del mismo año:
UNIDAD DE ARTÍCULOS MEDIDA
A B C D E Σ
Kg Lt Doc. Lbs. Un -
CANTIDADES DEFECTUOSAS
Mayo 2019
12 8 20 14 50 104
Junio 2019
18 15 8 20 70 131
Solución: Un primer método, consiste en dividir la suma de las cantidades en mal estado, de los diferentes artículos en el mes de junio, por la suma de las cantidades en dicho estado de esos mismos artículos para el mes de mayo: junio/19
I mayo/19 =
Σq junio 19 100 = (131 ÷ 104)100 = 125,96 Σq mayo 19
Este procedimiento es poco usual, ya que se realiza sumando las cantidades de un período, dividiéndola por la suma de las cantidades de otro período, por tal razón el índice no queda afectado por las variaciones grandes que pueden presentarse en uno o varios artículos, de un período a otro; de ahí que se requiera utilizar otro método que mejor refleje esa variación y, consiste en obtener los índices simples para cada artículo, luego sumarlos y dividirlos por el número de artículos considerados. UNIDAD DE MESES ARTÍCULOS MEDIDA Mayo Junio (a) (b) A Kg 12 18 B Lt 8 15 C Doc. 20 8 D Lb. 14 20 E Un 50 70 Σ - 104 131
b x 100 a ÍNDICES SIMPLES
150,0 187,5 40,0 142,8 140,0 660,3
Estadística básica aplicada
292
Σ XX 100 t
660,3 = = 132,06 I = n 5 t o
o
El resultado es un poco mayor al obtenido por el método anterior. Este aumento se debe, a la variación que se presenta en el artículo B, durante ese período. ÍNDICES COMPUESTOS
Para explicar los índices compuestos, consideraremos como punto de partida los índices agregativos simples, utilizados en el análisis de un grupo de artículos, sin tener en cuenta la importancia que algunos de ellos pueden presentar en relación al conjunto. Esa importancia se denomina ponderación. Supongamos dos artículos de consumo diario: la leche y la sal. Si cada unidad de consumo aumenta en $200 (el precio por botella y por kilo), los gastos familiares se verán más afectados por el aumento del precio en la leche que por el de la sal. Si se supone el consumo de dos botellas diarias, implica un incremento en el gasto en $400 diarios, o sea $12.000 al mes, mientras que el consumo de sal, será menos de un kilo al mes, implica un incremento de $200. Esa importancia que tiene el artículo leche, en relación a la sal, se denomina ponderación. Existe gran cantidad de fórmulas para calcular índices ponderados, cuyo empleo dependerá de la naturaleza misma del problema. Recomendándose utilizar aquella fórmula que mejor refleje en una forma aproximada, las variaciones que pueden presentar los precios o cantidades de un grupo de artículos. Generalmente en los índices que brevemente se expondrán, las ponderaciones son las cantidades o los precios. Cuando se van a calcular los índices de precios, en un grupo de artículos, las ponderaciones son las cantidades, y en el cálculo de los índices de cantidad, las ponderaciones son los precios. Los índices más conocidos y utilizados son los de Laspeyres, Paasche, Fisher, Keynes, Marshall, Edgeworth, Walsh, Drobisch y Sidgwick. Veremos algunas de estas fórmulas y el procedimiento de cálculo para obtener los índices tanto de precios como de cantidad. Índices de precios a) Índice de Laspeyres de precios. Puede interpretarse, como la relación existente, al comparar los precios actuales de un grupo de artículos, con los precios de esos mismos artículos considerados en el período base, manteniéndose constante como ponderación las cantidades del período base: Pt = precio de los artículos en el período que se investiga P0 = precio de los artículos en el período base q0 = cantidad de artículos en el período base L = índice de Laspeyres I = índice de precios.
t
L Io =
ΣPtqo 100 ΣPoqo
Capítulo 11. Números índices
293
b) Índice de Paasche. Se interpreta como la relación existente entre los precios actuales de un grupo de artículos, con los precios de esos mismos artículos en el período base, manteniéndose constante las ponderaciones correspondiente a las cantidades de dichos artículos, dadas para el período que se investiga:
t
P Io =
ΣPtq t 100 ΣPoq t
Observemos que la diferencia entre las dos fórmulas anteriores, radica únicamente en la base tomada para las ponderaciones, en la primera son las q0 que se refieren a las cantidades del período base y en la segunda, las qt que corresponden a las cantidades del período que se investiga. c) Índice de Fisher. Es un promedio geométrico, que se define como la raíz cuadrada del producto del índice de Laspeyres por el de Paasche: t
F I o = L I ot P I ot
t
F Io =
ΣPtqo ΣPtqt · 100 ΣPoqo ΣPoqo
Índices de cantidad Las fórmulas que se dan para el cálculo de los índices de cantidades de Laspeyres, Paasche y Fisher son muy parecidas a las de los precios, con la diferencia de que las ponderaciones son los precios. t
L Jo =
ΣPoq t 100 ΣPoq o
t ΣP q P J o = t t 100 ΣPtq o t
F Jo =
t
F J o = L Jot P Jot
ΣPoqt ΣPtqt · 100 ΣPoqo ΣPtqo
Se obtendrá con el cálculo de los índices de Laspeyres y Passche una indicación de las variaciones en las cantidades para un grupo de artículos, manteniéndose constantes los precios tomados como ponderaciones. En el índice de Laspeyres las ponderaciones son los precios del período base, en cambio, en el de Paasche, son los precios del período que se investiga. El índice de Fisher es la raíz cuadrada del producto de los índices ponderados de cantidad de Laspeyres por el de Paasche. Ejercicio 7. Con los siguientes datos, referentes a los precios (cientos de $) y cantidades (en ambos casos se han tomado valores arbitrarios) para un grupo de artículos dados para dos períodos.
Estadística básica aplicada
294
ARTÍCULOS
A B C D E
UNIDAD DE MEDIDA
2018 2019
Kg Lts Lbs. Doc. Unidad
Precio
Cantidad
26,0 6,0 1,0 6,0 3,6
10 5 2 1 2
Precio
38,0 10,0 4,0 15,0 2,0
Cantidad
8 7 5 2 1
Calcular los índices de precios y de cantidades, aplicando las fórmulas de Laspeyres, Paasche y Fisher. Solución:
Artículos P18
A B C D E Σ
q18 P19 26 10 38 6 5 10 1 2 4 6 1 15 3,6 2 2 - - -
q19 P18q18 P19q19 P19q18 P18q19 8 260 304 380 208 7 30 70 50 42 5 2 20 8 5 2 6 30 15 12 1 7,2 2 4 3,6 - 305,2 426 457 270,6
a) Cálculo de los índices de precios: 19
LI18 =
∑ P19 q18 457 100 = 100 = 149, 34 ∑ P18q18 305, 2
19
19
19
I18 = LI18 . P I18 = F
19
P I18 =
∑ P19 q19 426 100 = 157, 43 100 = ∑ P18q19 270, 6
También se puede calcular así: (149, 74)(157, 43) = 153, 54
19 ∑ P19 q18 ∑ P19 q19 457 426 100 = . 100 ; F I18 = × ∑ P18q18 ∑ P18q19 305, 2 270, 6
19
F I18 =
(1, 4974)(1, 5743)100 = 153, 54
b) Cálculo de los índices de cantidad: 19
L 18 =
P18q19 270, 6 100 = 88, 66; P 100 = ∑ P18q18 305, 2 19
c) F J18
19
19
= LJ18 × P J18 =
19 18
=
P19 q19 426 100 = 93, 22 100 = ∑ P19 q18 457
(88, 66)(93, 22) = 90, 91
También se puede calcular así: 19
F J18 =
∑ P19 q18 ∑ P19 q19 × 100 = ∑ P18q18 ∑ P18q19
270, 6 426 × 100 = 90, 91 305, 2 457
Capítulo 11. Números índices
295
Ejercicio 8. El índice de cantidad de un grupo de artículos es igual a 200, si se usa la fórmula de Fisher, y a 160 si se emplea la de Laspeyres. ¿Cuál es el índice de cantidad utilizando la fórmula de Paasche? Solución t
t
t
t
t
F Jo = LJo × P Jo → 2002 = (160) P Jo → 40.000 = 160 P Jo → t
P Jo =
40.000 = 250 160
Ejercicio 9. Una empresa espera aumentar sus ventas en el año próximo en un 50%. ¿En qué porcentaje deberá incrementar los precios para que el ingreso total se convierta en un 250%? Solución: Se sabe que el índice de ingreso total es igual al índice de cantidad vendida por el índice de precios: 250 250 = (150) x Ind. precios Ind. precios = = 166,6 100 quiere decir, que se deben aumentar los precios en un 66,67%. Ejercicio 10. El índice de precios de Laspeyres es 2/3 del de Paasche y éste asciende a 130. ¿Cuál es el índice de Fisher? Solución: t
t
t
t
t
t
LI o = 2/3PI o ; LI o = 2 (130) = 86,66 ; FI o = LI o x PI o = 86,66 (130) = 106,14
Exámenes de las fórmulas Fisher fijó algunos criterios con el fin de examinar un sinnúmero de fórmulas. Aplicó en cada una de ellas los diversos criterios por él establecidos, eliminando de esta manera aquellas fórmulas que no los cumplieran, hasta llegar a la conclusión de que la única que cumple con todos ellos es la de él, queriendo demostrar así la bondad de su fórmula. Sin embargo, el hecho de que la mayoría no cumple con todos los criterios, no es razón válida para rechazarlas, por el contrario, en la práctica son más utilizadas la fórmula de Laspeyres y la de Paasche, que la del mismo Fisher. Los dos criterios de Fisher más conocidos son los de reversibilidad temporal y de factores. Ellos se basan en un principio sencillo y aparentemente lógico: si cierta relación se cumple para un artículo, también debe cumplirse para el conjunto. a) Criterio de reversibilidad temporal. Este criterio consiste en obtener, el relativo del precio de un artículo, calcular nuevamente el relativo para ese mismo precio, pero invirtiendo la base y el producto de dichos relativos deberá ser igual a 1.
Estadística básica aplicada
296
Ejercicio 11. Supongamos que un artículo en 2018 costaba $4.000, y en 2019 el valor de ese mismo artículo era de $12.000. Apliquemos el criterio de reversibilidad temporal a los índices de Laspeyres, Paasche y Fisher. Solución: 19 El criterio nos dice que debemos calcular el precio relativo: R18 = 1.200/400 = 3
Luego se calcula el relativo para esos precios, pero invirtiendo la base: 18 R19 = 4.000/12.000 = 1/3
Finalmente si multiplicamos esos relativos entre, sí el producto debe ser igual a 1: 19 R18 x R18 = 3(1/3) = 3/3 = 1 19
Observaremos que en los índices de Laspeyres y de Paasche este criterio no se cumple, pero sí en la fórmula de Fischer. Supongamos los índices de precios calculados mediante dichos índices para los años 2018 y 2019: ΣP19q18 ΣP18q19 ΣP19q19 ΣP18q18 19 18 19 18 LI 18 x LI 19 = x = 1 ; PI 18 x PI 19 = x =1 ΣP18q18 ΣP19q19 ΣP18q19 ΣP18q19 ΣP19q18 ΣP19q19 ΣP18q18 ΣP18q18 ΣP18q19 19 18 FI 18 x FI 19 = x x x = =1 ΣP18q18 ΣP18q19 ΣP19q19 ΣP18q19 ΣP18q19 b) El criterio de reversibilidad de factores. Consiste en que el producto de un precio por su cantidad debe ser igual al valor. Al relacionar los valores de un período con otro, debe darnos una relación de valores. V ΣP q Precio x Cantidad = Valor Relación de valores = t = t t = V Vo ΣPoqo ΣPtqo ΣP q ΣP q ΣP q ΣP q ΣPtqt t t t t LI o LJ o = x o t = t t = V ; PI o PJ o = t t x t t = = V ΣPoqo ΣPoqo ΣPoqo ΣPoqt ΣPtqo ΣPoqo t
t
FI o x F J o =
ΣPtqo ΣP q ΣPoqt ΣPtqt x t t x x ; ΣPoqo ΣPoqt ΣPoqo ΣPtqo
ÍNDICE DE VALOR
t
t
FI o x F J o =
( (
2
ΣPtqt = V ΣPoqo
ΣPtqt Mediante el proceso anterior se obtiene la relación de valores EPtqt multiplicada por ΣPoqo 100 nos da el índice de valor. En la práctica para hallar el índice de valor no es costumbre obtenerlo de la anterior manera, sino multiplicando el índice de precios de Laspeyres por el índice de cantidad de Paasche, o también multiplicando el índice de cantidad de Laspeyres por el de precios de Paasche, tal como lo muestran las fórmulas siguientes:
Capítulo 11. Números índices t
t
LIo P Jo = t
t
LJo P Io =
297
∑ Pq ∑ Pq ∑ Pq t o t t t t × × 100 = × 100 = IV ∑ Po qo ∑ Pq ∑ P t o o qo ∑ Po qt ∑ Pq ∑ Pq t t t t × × 100 = × 100 = IV ∑ Po qo ∑ Po qt ∑ Po qo
EMPALME DE UNA SERIE
Corresponde a aquel método que se emplea, cuando la serie ha sido suspendida, debido al inicio de una nueva serie, como consecuencia del cambio de base. El empalme hacia abajo, consiste en estimar los índices para aquellos períodos para los cuales no se obtuvo información, por haberse suspendido la recolección, siendo reemplazada dicha serie por la del índice con la nueva base. Veamos un ejercicio, para comprender no sólo cómo se efectúa el empalme de una serie hacia abajo, sino también el empalme hacia arriba. Consideremos datos arbitrarios de una serie de índices de precios al consumidor y con dicha información realicemos los empalmes respectivos.
AÑOS MESES
2010 2015 2016 2017 2019
ÍNDICE DE PRECIOS AL CONSUMIDOR PARA EMPLEADOS
Base julio/07 junio/08
2016 = 100 Enero
Empalme Hacia abajo
Hacia arriba
Marzo 133,70 24,57 Agosto 140,41 25,81 Febrero 203,54 37,41 Octubre 236,52 43,47 Abril 797,80 146,63 Julio 829,61 152,48 Diciembre 903,08 165,99 Enero 1.360,03 249,97 Junio 1.644,01 302,16 Enero 1.718,12 315,79 Abril 1.829,40 336,30 Mayo 342,80 1.864,75 Junio 345,11 1.877,32 Julio 347,20 1.888,70 Agosto 350,63 1.907,35
Mayo 19 336,30 1.829,40 342,80 X
X =
1.829,4(342,8) = 1.864,75 336,30
Estadística básica aplicada
298
o sea K = 1.829,4/336,3 = 5,43978 K y se multiplica por 342,8; luego por 345,11; por 347,2 y 350,63 haciéndose de esta manera el empalme hacia abajo. Si se tiene que K = 336,3/1.829,4 = 0,1838 y lo multiplicamos por 1.360,03; 903,08; 829,61; 797,8; etc., de esta manera se hará el empalme hacia arriba. USOS DE LOS NÚMEROS ÍNDICES Hemos observado con los ejercicios anteriores, algunas de las aplicaciones de los números índices; tal fue el caso al determinar las variaciones que sufren los precios, cantidades o valores de un conjunto de artículos, o aplicados en una serie de tiempo, constituida por una sola variable. Sin embargo, el uso de los números índices es mucho más amplio, especialmente en la actividad económica. Veamos algunas de las aplicaciones más importantes que tienen los números índices: Cálculo del Salario y del Ingreso Real Mediante el uso de las siguientes fórmulas, se obtienen; a) Salario real: SR =
b) Ingreso real:
Salario nominal ($) Ingreso nominal ($) x 100 IR = x 100 I. de precios al consumidor I. de precios al consumidor
Este proceso de convertir el salario y el ingreso nominal en real, se conoce como deflactación o sea la transformación de valores expresados a precios corrientes en valores a precios constantes, con respecto a un período. Hoy en día se utiliza con frecuencia el termino indexación. Ejercicio 12. Supongamos que un empleado en noviembre de 2018 ganaba un salario de $860.000 y en el mes de junio de 2019, su salario fue reajustado con un aumento de $124.000. Se sabe además, que los índices de precios al consumidor para los mismos meses y años son de 1.564,31 y 2.429,43 respectivamente. Se quiere saber si con el reajuste que le hicieron su salario mejoró con relación al que tenía anteriormente. Solución: Lo primero que hacemos es el traslado de la base del índice de precios al consumidor (IPC), a 2018 pues ambos tienen la misma base (supuestamente) en 2003. 1.564,3 2.429,43 I18 = 100 = 100 (noviembre 2018); I19 = 100 = 155,30; (junio 2019) 18 1.564,31 18 1.564,3 Lo anterior quiere decir, que los precios de los artículos de primera necesidad aumentaron para dicho período en un 55,3%, por lo tanto debe haber un porcentaje igual o mayor de incremento en el salario nominal, para que las condiciones económicas sean iguales o mejores, para 2019.
Capítulo 11. Números índices El salario real para junio de 2014 debería ser: Salario nominal 984.000 SR = x 100 SR = x 100 = 633.612,36 IPCjunio19 155,30 El anterior resultado nos indica que el aumento es demasiado bajo, es decir, que a pesar de estar recibiendo más dinero que antes, o sea $984.000, este salario apenas equivale a $633.612,86 de aquel período, cuando estaba ganando $860.000.oo. El aumento esperado es de $475,580, o sea que su nuevo salario debería ser de $1.335.580, en vez de $984.000. SR =
1.335.580 x 100 = 860.000 155,30
Ejercicio 13. La depreciación monetaria, en una país cualquiera, aumenta cada año. Durante el período 2013 - 2019, el aumento es de un 10%, respecto al año anterior. Corregir la siguiente serie de valores, (miles $), de la depreciación monetaria.
AÑOS VALORES
2013 2014 2015 2016 2017 2018 2019
300 900 1.200 2.000 2.500 2.600 3.000
Solución: Como el índice se incrementa en un 10% anual, a partir de 2013 se tendrán los siguientes índices: 2013 = 100% 2015 = 110 x 1,10 = 121 y así 2014 = 100 x 1,10 = 110 ; 2016 = 121 x 1,10 = 133,1 sucesivamente Luego dividimos cada valor por su respectivo índice obteniéndose de esta manera los valores corregidos.
AÑOS VALORES ÍNDICE VALORES (miles) 2013=100 CORREGIDOS
2013 2014 2015 2016 2017 2018 2019
300 900 1.200 2.000 2.500 2.600 3.000
100,0 110,0 121,0 133,1 146,41 161,05 177,15
300,00 818,18 991,73 1.502,63 1.707,53 1.614,41 1.693,48
299
Estadística básica aplicada
300 Poder de compra
Denominado también como poder adquisitivo del dinero o valor del dinero. Se refiere a la relación existente entre la unidad monetaria y la cantidad de bienes que se pueden obtener a cambio de ella. El poder de compra se halla mediante la aplicación de la siguiente fórmula: 1 I PA = 100 y el índice de poder adquisitivo o de compra IPA = o 100 IPC It I0 = índice de precios al consumidor, considerado como período de referencia. It = índice de precios al consumidor, considerado como el período investigado. Ejercicio 14. En el caso del ejercicio 12, se consideró que el índice de precios al consumidor era de 1.564,3 para noviembre de 2018 y de 2.429,4 para junio de 2019. Además, cuando se hizo el cambio de base, para el mes de junio de 2019, este índice era de 155,30. Con esos datos se puede calcular tanto el poder de compra, como el índice de poder de compra para junio respecto a noviembre de 2015. Solución: 1 1 PA = x 100 PA = x 100 = 0,6439; IPCjunio 19 155,30 Lo anterior quiere decir, que un peso de noviembre de 2018, para el mes de junio de 2019 vale 64 centavos. Su valor se ha reducido durante ese período en 36 centavos. En otras palabras $1.000 en el 2018, tiene un poder de compra de $643,90 para 2019. El índice de poder adquisitivo, se podría calcular de dos maneras diferentes, a saber: a) Multiplicando el poder de compra por 100 para expresarlo en términos porcentuales: IPA = 0,6439 x 100 = 64,39% b) Utilizando los índices de precios al consumidor de los dos períodos considerados: I 1,564,3 IPA = o x 100 = x 100 = 64,39% It 2.429,4 Por otra parte, conociéndose el índice de poder adquisitivo, se puede obtener el salario real. Recordemos, que en ese mismo ejercicio para el cual se calculó el IPA, el salario nominal para el mes de junio de 2019 fue de $984.000 y en noviembre, este era de $860.000.oo SR = SN x IPA = 384.000 (0,6439) = 633.597,6 como se pudo comprobar, se obtiene, aproximadamente, el mismo resultado. Dará exacto si trabajamos con todos los decimales.
Porcentaje de Desvalorización Corresponde a la pérdida de poder de compra para un período con respecto a otro considerado como base.
Capítulo 11. Números índices I % de desvalorización = 100 1 – o It De acuerdo con los datos anteriores, el porcentaje de desvalorización ha sido de: 1.564,3 % de desvalorización = 100 1 – = 100 1 – 0,6439 = 100 (0,3561) = 35,61% 2.429,4 De noviembre de 2018 a junio de 2019, la moneda ha perdido un 35% de su poder de compra, es decir, ahora necesitamos más dinero para comprar el mismo artículo o la misma cantidad, debido al aumento en el precio. Ejercicio 15. Cuando el IPC sube en un 25%, el índice de poder adquisitivo baja en un 20%. ¿Es cierta o falsa la información? Solución: I IPA = 100 o It
= 100
100 = 80 – 100 = –20. Es cierto, bajó en un 20% 125
Porcentaje de Devaluación En primer lugar, indiquemos cómo se obtiene el porcentaje de aumento o de disminución en el tipo de cambio. El tipo de cambio es la cantidad de pesos que debemos dar por un dólar. Ejercicio 16. En un país X desde el año de 2009 hasta 2019 el tipo de cambio en el mes de diciembre ha sido: así que la variación del tipo de cambio para sep AÑOS COTIZACIÓN tiembre del 2019 con respecto a diciembre 2009 es:
2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
1.005,33 1.293,58 1.542,11 1.873,77 2.229,18 2.291,18 2.864,99 2.778,21 2.389,75 2.284,22 2.289,61
*Septiembre de 2006
T 2.289,61 % de variación = 100 t – 1 = 100 –1 To 1.005,33 % de V = 100 2,465 – 1 = 127,75% Ahora, el porcentaje de devaluación para el mismo período será igual a: T 1.005,33 % devaluación = 100 1 – o = 100 1 – = Tt 2.289,33 % devaluación = 56,09% La devaluación se entiende como la pérdida de valor de una moneda en relación a las monedas extranjeras y, por lo general, se hace referencia al dólar.
301
Estadística básica aplicada
302
Ejercicio 17. ¿El tipo de cambio de $2.529,80 significa una devaluación del peso colombiano en un 27% respecto a qué cotización? Solución: T To To % devaluación = 100 1 - o 27 = 100 1− 0,27 = 1− Tt 2.529,80 2.529,80 To 1 – 0,27 = To = 2,529,8 (0,73) = 1.846,75 2.529.80 Índice de producción y de productividad El índice de producción se obtiene mediante la aplicación de la fórmula utilizada para calcular el índice simple: P I. de producción = t x 100 Po El índice de productividad se puede calcular de dos formas diferentes: a) Dividiendo cada índice de producción por su respectivo índice de obreros y el valor resultante se multiplica por 100: I. de producción I. de productividad = x 100 I. de obreros b) Dividiendo la producción de cada año por el número de obreros, obteniéndose así la productividad por obrero. Luego cada valor resultante se divide por uno de la serie considerado base, dando como resultado el índice de productividad de cada año en relación al período base. También se puede calcular considerando el total de horas trabajadas en vez del No. de obreros. Producción ; Productividad del período t Productividad = I. de producción = 100 Nº de obreros Productividad del período o Ejercicio 18. Con los siguientes datos, obtener el índice de producción y el de productividad, tomando como base el período 2013. PRODUCCIÓN PROMEDIO AÑOS OBREROS (Miles de Ton.) 2013 1.420 12.380 2014 1.630 13.620 2015 1.580 12.400 2016 1.710 13.500 2017 1.812 12.200 2018 1.750 12.100 2019 1.800 12.000
Capítulo 11. Números índices
303
Solución:
P a) El índice de producción será = t x 100 Po 1.630 1.580 IP = x 100 = 114, 8 IP = x 100 = 111,3, etc. 1.420 1.420 Nº obreros del período t b) El índice de obreros será: I de O = x 100 Nº obreros del período o 13.620 12.420 I. de O. = x 100 = 110,0 I. de O. = x 100 = 100,2 12.380 12.380 c) El índice de productividad = IP IP = AÑOS
2013 2014 2015 2016 2017 2018 2019
Índice de producción x 100 Índice de obreros
ÍNDICE ÍNDICE ÍNDICE DE DE PRODUCCIÓN DE OBREROS PRODUCTIVIDAD 2013 = 100 2013 = 100 2013 = 100
100,0 114,8 111,3 120,4 127,6 123,2 126,8
100,0 110,0 100,2 109,1 98,5 97,7 96,9
100,0 104,36 111,08 110,36 129,54 126,10 130,86
Ejercicio 19. En 2019 el precio de un cierto bien de consumo aumentó en un 60% por encima del de 2018, mientras que su producción disminuyó en un 40%. ¿En qué porcentaje aumentó o disminuyó el índice de valor de dicho bien en 2019 respecto a 2018? Solución: I1819 = de precio 160 ;
I 1819 = de producción = 100 – 40 = 60
Valor = Precio X Producción; I. de valor = I. precio X R. producción I. de valor = 160 (0,60) = 96 Siendo el I de valor igual a 96, de este valor le restamos su base 100 y nos da el aumento o la disminución. 96 – 100 = –4 Disminuyó el índice de valor en un 4% en dicho período. Índice Relación Precios de Intercambio (IRPI) En el comercio exterior se tienen índices de precios y de cantidad. Los primeros se denominan índices de valores unitarios, ya que los precios (Pt, Po) se obtiene dividiendo el valor total de la mercancía (importada o exportada), por su cantidad; los segundos, o
Estadística básica aplicada
304
sean los índices de quantum, se denominan en esa forma por la sencilla razón que siendo la mercancía tan heterogénea, no sólo en cuanto a la unidad de medida, sino en cuanto a sus características (marca, modelo, tamaño, etc.) se debe utilizar una unidad común kilos, la que a su vez es considerada como cantidad. Se tiene por lo tanto índices de valores unitarios y de quantum, tanto para importación como para exportación. La relación de precios de intercambio, como su nombre lo da a entender, es un indicador de las variaciones entre los precios de los artículos de exportación y los precios de importación. La fórmula para determinar la relación de estos precios es la siguiente: IRPI =
I de valor unitario de exportación x 100 I de valor unitario de importación
Un índice de IRPI superior a 100, indica una mejora en los términos de intercambio, y un índice inferior, corresponde a un empeoramiento de los mismos. Teniendo el IRPI se puede determinar la capacidad que tiene un país para importar y se obtiene multiplicando el IRPI por el relativo del quantum de exportación: Capacidad para importar = IRPI x RQX Ejercicio 20. Con los datos (arbitrarios) de la siguiente tabla, determinar la relación de precios de intercambio y la capacidad para importar, tomando como base 2013.
AÑOS
ÍNDICES DE VALORES UNITARIOS
ÍNDICE DE QUANTUM DE EXPORTACIÓN 2010 = 100
EXPORTACIÓN 2010=100
IMPORTACIÓN 2010=100
2013
183,1
103,0
105,2
2014
143,2
108,6
109,3
2015
126,5
110,4
107,3
2016
148,1
106,2
124,8
2017
137,4
99,1
112,0
2018
139,1
108,6
120,4
2019
160,5
112,5
123,1
Solución: a) Primero cambiamos la base 2010 por la de 2013, dividiendo cada uno de los índices por el primero de su serie: I = x
143,2 x 100 = 78,20 (I de valor unitario de exportación) 183,1
Capítulo 11. Números índices IM =
305
108,6 x 100 = 105,43 (I de valor unitario de importación) 103,0
109,3 IQX = x 100 = 103,89 105,2
(I
de quantum de exportación)
y así sucesivamente, se procede en cada una de las (3) tres columnas. b) El índice de relación de precios intercambio (IRPI) se obtiene dividiendo cada índice de valor unitario de exportación (IVUX) por su respectivo índice de valor unitario de importación (IVUM). IVUX 78,20 IRPI = x 100 = x 100 = 74,17 IVUM 105,43 c) El índice que nos determina la capacidad para importar (ICM) se obtiene multiplicando el índice de relación de precios de intercambio (IRPI) por el relativo de quantum de exportación (RQX). ICM = IRPI (RQX) = 74,17 (1,0389) = 77,06 ICM = IRPI (RQX) = 64,45 (1,0199) = 65,73 ÍNDICES DE VALORES UNITARIOS ÍNDICE DE IRPI QUANTÚM DE AÑOS Exportación Importación EXPORTACIÓN 2013 = 100 2013 = 100 2013 = 100 2013 = 100 2013 100,00 100,00 100,00 100,00 2014 78,20 105,43 74,17 103,89 2015 69,08 107,18 64,45 101,99 2016 80,88 103,10 78,44 118,63 2017 75,04 96,21 78,02 106,46 2018 75,97 105,43 72,06 114,44 2019 87,66 109,22 80,26 117,02
ICM 2013 = 100
100,00 77,06 65,73 93,05 83,06 82,47 93,92
Proporciones, Porcentajes, Razones y Tasas Constantemente estamos hablando de índices o de indicadores, que puede dar lugar a cierta confusión acerca de términos, tales como: índices, proporciones, porcentajes y tasas, así que es conveniente hacer algunas observaciones. Los números índices, tal como se ha visto, relacionan una o más variables en un período dado (colocado como numerador) con la misma variable o variables en otro período, denominado base (como denominador) y sirven para indicar las variaciones que presenta una variable en función de uno de sus valores, que se toma como referencia o término de comparación. Como cada relativo lo multiplicamos por 100, los números índices son porcentajes
Estadística básica aplicada
306
de variación que presenta cada valor de la variable con respecto al tomado como referencia. Estos números índices generalmente son aplicados en las series cronológicas. La razón, la proporción y la tasa tienen en común, como los números índices, la relación entre dos valores, el uno como numerador y el otro como denominador, siendo el cociente de dividir una cantidad por otra, pero con las siguientes diferencias: En la razón, el valor considerado como numerador no debe estar contenido en el valor correspondiente al denominador, en consecuencia, la razón puede ser un número superior o inferior a la unidad. En el caso de que la razón se multiplique por 100 se tiene nuevamente un porcentaje. Supongamos que el número de personas que visitan un centro mercantil, en un día cualquiera, es de 7.000, de las cuales, 4.200 son mujeres y 2.800 hombres. Ahora si dividimos a 4.200 por 2.800 se tendrá: La relación =
4.200 mujeres = 1,5 2.800 hombres
La anterior relación es una razón por el hecho de que el numerador (4.200) no está contenido en el denominador (2.800). Este resultado significa que por cada hombre se tiene mujer y media, en otras palabras por cada 100 hombres, 150 mujeres visitan dicho lugar: La relación =
4.200 x 100 = 150 2.800
El anterior resultado nos indica, que las mujeres frecuentan ese centro mercantil en un 50% más que los hombres. Cuando el valor del numerador está incluido en el denominador, se establece una proporción, es decir, el cociente de dividir un sumando cualquiera por su total. Si tal coeficiente se multiplica por 100 se obtendrá un porcentaje. Con el ejemplo de las 7.000 personas que en un día cualquiera van a un centro mercantil, se tendrá que la proporción de hombres que lo visitan es:
2.800 P= = 0,40 7.000
Esta proporción nos indica que por cada 100 personas que van a ese centro, en un día, 40 son hombres y 60 son mujeres. Ahora, si multiplicamos por 100 se tendrá: 2.800 4.200 x 100 = 40% son hombres y x 100 = 60% son mujeres. 7.000 7.000 Se observará que la proporción no puede ser menor que 0 ni mayor que 1. En términos porcentuales se dirá que es un número comprendido entre 0 y 100.
Capítulo 11. Números índices Ambos casos fueron considerados en la elaboración de una tabla de frecuencias y, se les denominó frecuencias relativas. A los porcentajes y a las razones, en numerosas ocasiones, se les denomina tasas; sin embargo al estudiar los cambios que se operan en una población, los porcentajes y las razones no son suficientes para analizar completamente la información disponible, siendo necesario recurrir a la elaboración de tasas. La palabra tasa se emplea para estudiar una variable en función de otra con la que está relacionada. Estos cocientes se multiplican por 100, 1.000, etc., para evitar el uso de decimales. El mismo ejemplo que ha servido para explicar lo que es una razón, una proporción o un porcentaje, lo utilizaremos para calcular una tasa: Nº de visitantes al centro mercantil de un día T = x 10n Población de la ciudad estimada para ese día Con lo cual se quiere indicar que 1,45 por 1.000 de los habitantes de esta ciudad visitan el centro mercantil. La tasa específica, es aquella que se basa en algunos subgrupos homogéneos de una población, sin tomar en cuenta la totalidad de la población. Con base en el conocimiento de los índices, las proporciones, las tasas, las razones, los cocientes, y los porcentajes, se presentarán a continuación una serie de indicadores financieros, algunos de ellos de gran utilidad en el análisis de un balance. • La liquidez absoluta = LA Disponible y realizable a corto plazo LA = Total del balance
• Autofinanciación = A Reservas A= Capitales propios
• La liquidez relativa = LR Disponible y realizable a corto plazo LR = Exigible a corto plazo
• Rentabilidad objetiva = RO Beneficio bruto RO = Total balance
• Inversión = I Capitales circulantes I= Capitales fijos
• Rentabilidad subjetiva = RS Beneficio neto RS = Capital social
• Financiación = F Capitales propios F= Capitales ajenos
• Rentabilidad financiera = RF Beneficio neto RF = Capitales propios
307
Estadística básica aplicada
308
• Productividad = P Producción (en cantidad o valor) P= Horas de trabajo • Beneficio neto =
Beneficios netos Ingresos
Utilidades netas • Rentabilidad global = Total archivo • Eficiencia comercial y financiera = ECF Ventas netas ECF = Total activo • De independencia =
Pasivo fijo Pasivo total
• De capital circulante = DCC DCC =
Activo circulante - pasivo circulante
Activo circulante
• De pasivo y activo =
Pasivo total Activo Total
• Costos de publicidad = CDP Costos de publicidad CDP = Ventas • Costos de distribución = CDD CDD =
Costos de distribución Ventas
• De rotación de personal = DRP DRP =
Nº de personal que se retiraron Total de personal
• De penetración de ventas = DPV DPV =
Ventas Mercado potencial
• De mecanización = DM Valor del equipo DM = Mano de obra directa • De costo por hora trabajada = DCHT Total de gastos DCHT = Horas trabajadas Activo corriente • De solvencia = Activo Pasivo • Coeficiente de los gastos de ventas = CGV CGV =
Gastos de ventas x 100 Cifras de negocios
• Coeficiente de explotación = CE Gastos x 100 CE = Ingresos y otros tantos coeficientes, que serían largos de enumerar y que se podían ver con más claridad en la asignatura respectiva.
En demografía hay un sinnúnero de Tasas y Razones, en las que podríamos mensionar: N° Personas sexo Masculino • Razón de masculinidad = N° Personas sexo Femenino N° Niños ambos sexos menores de 5 años • Razón de niños a mujeres = N° Mujeres entre 17 y 44 años Población 2017 - Población 2011 • Tasa de crecimiento de la población = Población 2011 N° Total de defunciones • Tasa bruta de defunción = 1.000 Población total Total de nacimientos • Tasa bruta de natalidad = 1.000 Población total Otros más.
Capítulo 11. Números índices
309
RESUMEN DEL CAPÍTULO
Los números índices son indicadores muy utilizados en el sector económico, es así como una empresa puede utilizar los índices de producción, de productividad, de obreros, de ventas, de costos, de fabricación, de ventas, sueldos, etc. Uno de los índices más criticado y más utilizado es el índice de precios al consumidor (IPC) mal denominado índice de costo de vida; es un indicador de la variación de precios de productos y servicios de primera necesidad que pueden ser incluidos en la canasta familiar de un grupo social: obreros y empleados. Con los índices de valor unitario (precios) de artículos importados y exportados, se puede calcular la relación de precios de intercambio, el cual multiplicado por el relativo de quantum (cantidad) de exportación nos da la capacidad para importar. Los índices se dividen en simples, agregativos simples y ponderados. Términos para recordar
Capacidad de importación Deflactar Devaluación Desvalorización Empalme de una serie Encadenamiento Eslabones relativos Índices de precios Índice simple Índices de cantidad Índice ponderado Indexar
I ot =
Xt 100 Xo
I ot = t
ΣXt 100 ΣXo
LJ o =
Índice agregativo simple
Vo =
Índice de Laspeyres de cantidad
Vot = LJo P Io
ΣP q P = t t 100 ΣPoqt I ot
t
t
t t t Índice de Fischer F Jo = LJo P J o de cantidad.
Índice simple
t
Fórmulas
ΣPoqt 100 ΣPoqo
FIo = LI PI
Índice de producción Índice agregativo simple Índice quantum Índice valor unitario Indexar Ingreso Período base Poder de compra Productividad Relación precios de intercambio Salario nominal Salario real
Índice de Paasche de precios.
Índice de Fischer de precios.
t
ΣPtqt 100 Relación de valores ΣPoqo t
t
t
t
Vot = LIo P Jo I ot
Vo = F F
J ot
Relación de valores Relación de valores Relación de valores
t
I o = Ioo x R1o x R21 x R23 x ...Rtt-1 Encadenamiento de una serie
Estadística básica aplicada
310
Salario nominal Salario = 100 I de precios al consumidor real
I % de desvalorización = 100 1 – o It
Ingreso nominal Ingreso = 100 I de precios al consumidor real
T % de devaluación = 100 1 – o Tt
1 100 adquisitivo I de precios al consumidor
Índice de = I de producción 100 productividad I de obreros
Poder =
I poder adquisitivo =
Io 100 It
Índice de relación de precios intercambio IRPI =
I de valor unitario de exportación 100 I de valor unitario de importación
Ejercicios propuestos 1. ¿Son ciertas o falsas las siguientes afirmaciones? a) Un índice es una cifra relativa (expresada en términos porcentuales). b) El índice de Fisher es el promedio geométrico de los índices de Laspey res y Paasche. c) La capacidad para importar se obtiene multiplicando el índice de la relación neta de cambio por el relativo del índice quantum de exportación. d) El porcentaje de alza de un índice se obtiene dividiendo el índice del período que se investiga por el del período base, multiplicándolo por 100. e) El índice de productividad se obtiene dividiendo la cantidad producida por el número de obreros. f) La fórmula de Laspeyres se puede escribir: t
LI o =
ΣPtΣqo 100 ΣPoΣqo
g) Si el tipo de cambio sube de $2.305 a $2.723,51 por dólar, la devaluación de la moneda será del 20%. h) Cuando no se altera la relación de precios de intercambio, los valores unitarios de importación y de exportación tampoco varían. i) Deflactar una serie consiste en convertir precios corrientes de mercadeo a precios constantes respecto a un período. 2. Dados los siguientes índices, calculados para una serie de artículos: t
LJ o = 115 t
t
FJ o = 125 t
LI o = 130. Se pide calcular Vo 3. Tomadas las cosechas de ciertos productos agrícolas, determinar el índice agregativo simple para 2017 con base en 2015, utilizando los métodos conocidos.
Capítulo 11. Números índices
311
COSECHA (Cientos de toneladas) PRODUCTOS 2017 2019 A 11.158 13.044 B 1.196 1.357
C D E F G H I Σ
1.111 1.460 859 1.106 41 6.686 204 23.821
1.326 1.840 997 870 59 7.978 202 27.673
4. Las cifras de ventas en miles de millones de $ de unos grandes almacenes desde 2009 hasta 2019 son los siguientes: ... continuación
AÑOS VENTAS
2009 2010 2011 2012 2013 2014
12 14 18 18 19 15
AÑOS VENTAS
2015 2016 2017 2018 2019
12 16 20 24 35
continua
Se pide: a) Hallar los índices de ventas, tomando como base primero 2009 y luego 2014. b) Hallar los índices con base variable, para la misma serie. 5. Si se tiene un índice de precios al consumidor de 382,5 para el mes de enero de 2019, ¿se podría determinar el poder adquisitivo del peso para ese mes respecto a 2011 que es el período base? Explicar el resultado. 6. Conocidos los índices de precios y de cantidades de Paasche y el índice de valor, ¿cómo se podrían obtener los índices de precios y de cantidad de Laspeyres?
7. Los índices de producción de un determinado bien de consumo desde 2013 hasta 2019 fueron los siguientes:
AÑOS ÍNDICES
2013 2014 2015 2016 2017 2018 2019
100 112 115 110 105 110 120
Sabiendo que en 2017 se produjeron 3 toneladas de dicho bien, hallar las cantidades producidas para los años de 2013 a 2019.
Estadística básica aplicada
312
8. Un empleado ganaba $772.000 mensuales en 2018. Hoy día (2019) recibe $912.000 mensuales, con lo cual mejora su ingreso real en un 17%. Si el actual índice de precios es 560,00 ¿cuál era el de 2018?
b) Calcular los salarios nominales por obreros. c) Calcular los índices de los salarios reales con base 2013. d) Calcular los índices de los salarios nominales, con base 2013. e) Calcular los salarios reales por obrero, con base 2013. f) Calcular los índices de salarios reales por obrero, con base 2013.
9. El índice de costo de construcción de casas de habitación (base 1992) registró las siguientes cifras.
AÑOS
ÍNDICES
1954 26,7 1964 59,3 1974 42,5 1984 70,6 1994 108,4 2004 132,6 2018 256,4 2019 1.120,3
12. Se conocen los índices sobre comercio exterior de un país: R = índice de relación de precios de intercambio. Qe = índice de quantum de exportación.
Si el costo de construcción de una casa en 1994 era de $12.000.000, ¿a cuánto ascenderá en 2019? 10. En 2019 el precio de un bien disminuyó en un 25% con relación a 2014, pero se incrementó en un 50% con relación a 2006. Hallar el precio relativo para 2014 con base en 2006. 11. Con los siguientes datos ÍNDICE DE PRECIOS AÑOS SALARIOS OBREROS AL CONSUMIDOR (Miles millones $) Nº.
2013 18,0 320 2014 20,6 380 2015 23,0 400 2016 38,0 700 2017 51,0 1.000 2018 58,0 1.050 2019 60,0 1.100
2006 = 100
140 148 152 160 166 168 170
Se pide: a) Calcular los salarios reales con respecto a 2013.
AÑOS
R QE 2017 = 100
(Base variable) 2014 100 2015 110 2016 80 2017 120 2018 115 2019 116
90 120 90 100 110 80
Se pide determinar la capacidad para importar con base en 2014. 13. ¿Qué indica cada uno de los siguientes índices? a) El índice de precios de Laspeyres. b) El índice de precios de Paasche. c) El índice de cantidad de Laspeyres. d) El índice de cantidad de Paasche. 14. ¿Por qué cree que sea necesario cambiar el período base de un índice de vez en cuando? 15. En sus estudios de finanzas, cree en el uso de los números índices. Concretar. 16. Suponiendo que la información disponible es:
Capítulo 11. Números índices
AÑOS
ÍNDICE A
ÍNDICE B
2014 2015 2016 2017 2018 2019
100 98 110 135
100 108 96
Empalmar dichas series. 17. En los siguientes datos de índices eslabonados, se pide encadenarlos, tomando como periodo base el año 1.
313
AÑO ÍNDICE ESLABONADO 1 100 2 108 3 94 4 117 5 104 18. Las ponderaciones o peso en un índice de precios son: a) Precio b) Cantidades c) Promedio de precios d) Promedio de cantidades e) Ninguno de los anteriores
Cuestionario de Evaluación 1. El tipo de cambio de $1.582,64, significa una devaluación del 32% respecto a la cotización de: a. $962,30 b. $1.076,20 c. $1.196,84 d. $1.206,34 e. $1.250,6 f. Ninguno 2. Se tienen dos índices de precios al consumidor, para dos períodos determinados (con la misma base), 362,8 y 436,4 respectivamente. Se puede decir que el porcentaje de desvalorización entre esos dos períodos fue: a. 13,41% d. 19,32%
b. 16,86% c. 17,18% e.20,13% f. Ninguno
3. Se tiene que el tipo de cambio en dos períodos determinados son $1.468,3 y $1.607,94 respectivamente. Se puede decir que el porcentaje de devaluación en dicho período fue:
a. 5,62% d. 9,51
b. 6,32% c. 8,68% e.12,15% f. Ninguno
4. Se tienen los siguientes índices de base variable. 17 I16 13 = 105,6 I 16 = 93,5 19 I18 17 = 128,6 I16 = 109,8
Se podrá decir que el índice (base fija 2015) encadenado para 2019 es: a. 108,6 b. 112,5 c. 118,4 d. 121,6 e.132,0 d. 139,41
5. Si al calcular el índice de poder adquisitivo entre dos períodos es 80,5 se podrá decir, que el salario real para un sueldo mensual de $800.000,oo, el último período será de: a. $422.000 b. $575.000 c. $644.000 d. $650.000 e. $782.000
Estadística básica aplicada
314
6. Si se tiene hipotéticamente que el índice de precios al consumidor para el mes de mayo de un período es de 420,8, siendo para el año siguiente en el mismo mes de 462,5, se podrá decir que el porcentaje de alza en ese período es: a. 5,4% d. 10,2%
b. 6,2% e.10,8%
c. 9,9%
7. De acuerdo con la información del punto anterior, si se sabe además, que un empleado que ganaba $300.000.oo semanales en el primer período, y luego su sueldo fue ajustado a $350.000.oo quincenales para el segundo período, se podrá decir que el empleado: a) Mejoró su salario semanal real en $28.442 con respecto al primer período. b) Mejoró su salario semanal real en $20.270,91 con respecto al primer período c) Desmejoró su salario semanal real en $28.442 d) Desmejoró su salario semanal real en $20.270,91 e) No hubo cambio en su salario semanal real. 8. Si el índice de precio al consumidor para un mes del presente año es de 436,2 con respecto a la base (un mes de 2002), se podrá afirmar que la variación para dicho período es: a. 136,2 % d. 436,2 %
a. 12,94 % d. 42,94 %
10. Con base en la información del punto ocho (8), el porcentaje de desvalorización del peso para el período es: a. 87,06 % b. 77,07 % c. 67,06 % d. 57,06 % e.47,06 % 11. Si se tiene un salario nominal para el último período del punto ocho (8) de $750.000,oo, se puede afirmar, que el salario real con respecto al período base y el índice dado es: a. $171.939,48 b. $181.513,60 c. $190.650,2 d. $210.320,82 e. $310.360,42 13. Deflactar una serie es: a) Dividir la cantidad producida en un año investigado, por el total de obreros en ese año. b) Multiplicar la relación neta de cambio por el índice de exportación c) Convertir precios corrientes de mercado interno a precios constantes respecto a un período dado. d) Cambiar la relación de precios de intercambio. e) Ninguna de las anteriores. 14. Dados los índices de producción cuya base es 2013.
b. 236,2 % c. 336,2 % e. 536,2 %
9. Con el punto ocho (8), se puede decir que el poder adquisitivo del peso para el mes del presente año con respecto al período base es:
b. 22,93 % c. 32,94 % e. 52,94 %
2013 2014 2015 2016 2017 2018 2019 72 69 86 100 123 162 150
El índice para 2018 con base en 2013 es: a. 168,0 b. 192,0 c. 225,0 d. 286,0 e. 320,0
Capítulo 11. Números índices 15. Cuando un índice de “costo de vida” (índice de precios al consumidor) sube en un 25%, el índice de poder adquisitivo baja en un: a. 8 % c. 18 %
b. 10 % d. 20 %
c. 15 %
16. Con los siguientes índices de base variable
2016 100
2017 107
2018 108
2019 104
se podrá afirmar que el índice con base fija entre 2016 - 2019 aumentó en un a. 19 % b. 20,18 % c. 21,0 % d. 23,62 % e. 28,34 %
315
17. Si el índice de producción en un sector de la industria es del 136,8, mientras que el índice de obreros para ese sector es del 109,7. Se dice que el índice de productividad es: a. 24,7% d. 115,4%
b. 72,6% e. 124,7%
c. 93,8%
18. Si el índice de precios al consumidor para un mes determinado del presente año es de 786,5, se podrá afirmar que el poder de compra para ese mes respecto al período base es: a. 0,1271 d. 0,1386
b. 0,1296 e. 0,1453
c. 0,1354
Capítulo 12 INFERENCIA ESTADÍSTICA OBJETIVOS
• Describir en forma muy general algunos aspectos de la inferencia estadística. • Inquietar o despertar en el alumno, la importancia que tiene el método estadístico en la actividad económica o comercial de una empresa. • Inculcar en el estudiante el deseo de profundizar un poco más en esta disciplina. CONTENIDO
• Elementos de probabilidad. • Límites de confianza. • Distribución binomial. • Prueba de hipótesis. • Distribución normal. • Distribución ji-cuadrado. ELEMENTOS DEL CÁLCULO DE PROBABILIDADES
Probabilidad Elemental
El concepto de probabilidad puede ser interpretado como algo indefinible, pero utilizado para expresar, de algún modo, un “grado de creencia” que uno tiene de la ocurrencia de un suceso; nos referimos a algo que puede suceder con base en la experiencia que se tenga. Con frecuencia observamos o escuchamos el “estado del tiempo”, o sea los pronósticos meteorológicos sobre la posibilidad de un buen tiempo o la presencia de lluvias fuertes o ligeras, gran nubosidad, vientos fuertes o en calma, etc.; los hinchas de los diferentes equipos de fútbol discuten frecuentemente sobre la posibilidad de clasificación o de ganar el campeonato; algo similar ocurre con los que juegan lotería o apuestan en las carreras de caballos; el mismo alumno cuando se refiere a la posibilidad que tiene de ganar o de perder una asignatura; todos ellos son pronósticos que hacemos con la esperanza de que sucedan. El origen de las probabilidades en los juegos de azar se remonta al siglo XVII cuando Antoine Gombauld, más conocido como el caballero de Meré, jugador profesional quien pensó haber descubierto una táctica infalible de jugar a los dados, con muy buenos resultados durante un determinado tiempo, después del cual comenzó a perder, y por ende disminuyó su fortuna, situación que lo obligó a consultar a Blas Pascal y Pierre de Fermat, iniciándose así poco a poco una ciencia bien fundamentada.
318
Estadística básica aplicada En la actualidad las probabilidades guardan una estrecha relación con la Teoría de conjuntos, siendo de gran importancia en el campo de la Inferencia estadística debido a la incertidumbre que siempre se tiene en la toma de decisiones, permitiendo el análisis de los riesgos que se corren y la forma de minimizar el azar inherente. En estadística el uso de las predicciones son de gran utilidad, cuando se realizan investigaciones por muestreo, en la mayoría de los casos obligado por el costo y el tiempo que conllevaría la realización de una investigación total, lo cual nos limita a un reducido número de elementos; y con base en esa información disponible, procedemos a la realización de predicciones o estimaciones, asignando límites de confianza a esos resultados. Las probabilidades conjuntamente con la estadística tienen infinidad de aplicaciones a problemas de economía y ciencias sociales, de la misma manera a las ciencias físicas, industria, comercio y gobierno, con la observación de que en cada uno de ellos tendrá sus requisitos particulares. Algunos Conceptos Básicos
Para desarrollar estas breves nociones sobre probabilidades se requiere claridad en algunos conceptos básicos que faciliten no sólo la explicación, sino el procedimiento que debe seguirse en la solución de problemas modelo que nos permitan comprender otros de mayor dificultad. Experimento. Es un conjunto de pruebas o la realización de un proceso que conduzcan a un resultado y observación del cual no se está seguro. Son ejemplos de experimentos: • El lanzamiento de una moneda para observar el lado que aparece. • Examinar las unidades producidas por una máquina, a fin de detectar el número de unidades defectuosas. • Hacer girar la flecha de una ruleta, para observar en cuál número se detiene con una mayor frecuencia. • Extraer una carta de una baraja de 40 o de 52 cartas. • Entrevistar a los alumnos de la universidad acerca de una reciente medida académica. Prueba. Es la realización de un acto. El conjunto de pruebas conforma un experimento. Es importante clarificar al definir lo que es experimento, donde los datos se obtienen ya sea por observación directa de sucesos incontrolados en la naturaleza o por experimentación controlada en el laboratorio. Esta aclaración nos permite definir la probabilidad apriori y la empírica. • Probabilidad apriori. Es aquella que se determina sin necesidad de realizar el experimento, es decir, se conocen de antemano los resultados, como por ejemplo en el lanzamiento de una moneda, se sabe cuál es la probabilidad de que aparezca cara. • Probabilidad empírica. Es aquella que para su determinación requiere de la realización del experimento. Hallar la probabilidad de germinación de una semilla en especial. • Probabilidad Subjetiva. Creencia de una persona de la posibilidad de que algo suceda.
Capítulo 12. Inferencia estadística • Frecuencia relativa. Es un método empírico, que resulta al dividir el número de eventos ocurridos en el pasado» por « el número total de observaciones. • Eventos. Son los resultados posibles que presentan una condición dada al realizar un experimento. Cada resultado posible lo constituye el elemento o suceso. • Espacio muestral. Es un conjunto de sucesos, elementos, puntos o resultados posibles al realizar en experimento. • Conjunto. Corresponde a un grupo de elementos u objetos correctamente definidos. Probabilidad
Definir adecuadamente la palabra probabilidad es casi imposible, sin embargo hay algunas formas de acercarnos al significado real de este término. En primer lugar diremos que la probabilidad es un número comprendido entre 0 y 1. Este concepto es muy parecido al de la frecuencia relativa, cuando decimos que 0 < hi < 1, sólo que en nuestro caso, la probabilidad puede ser igual a 0 cuando existe la imposibilidad absoluta, o igual a 1 cuando se tiene la completa certeza de la presentación del suceso.
O ≤ P ≤ 1
Podemos complementar la anterior definición, diciendo que la probabilidad es el cociente de dividir al número de éxitos o total de casos favorables por el total de casos posibles. Veámoslo mediante un ejemplo: supongamos que lanzamos una moneda 500 veces (es lo mismo que lanzar 500 monedas una vez), y que los resultados obtenidos fueron : 262 caras y 238 sellos. Las frecuencias relativas serán: 262 P = Aparición de cara = = 0,524 = 52,4% 500 238 Q = Aparición de sello = = 0,476 = 47,6% 500 No. de éxitos P = ; Q = 1 – P Total de casos posibles Los casos: el lanzamiento de una moneda, o del dado, el sexo en el nacimiento de una persona, la extracción de una carta de la baraja, y otros muchísimos ejemplos, caen dentro del grupo denominado probabilidad apriori, es decir, se puede determinar de antemano la probabilidad de presentarse un suceso sin necesidad de realizar el experimento; en el caso de la moneda, la aparición de cara es 1/2 = 0,5; en el lanzamiento de un dado, la probabilidad de obtener un 5 es 1/6; en el nacimiento de una persona la probabilidad de que sea varón es 1/2, etc. En otros casos, se requiere realizar un número grande de experimentos para hallar la probabilidad de éxito de un suceso en un solo ensayo y se le denomina probabilidad empírica. Supongamos que se quiere determinar la probabilidad de obtención de piezas o artículos defectuosos en un proceso de producción; para ello hay que realizar varias
319
Estadística básica aplicada
320
veces el experimento, en las mismas condiciones, para poder determinar la probabilidad de obtención de una pieza o artículo defectuoso. Hemos visto que la prueba es la realización de un acto. El conjunto de pruebas realizadas en las mismas condiciones se denomina experimento. El resultado de una prueba se llama punto muestral o suceso. El conjunto de sucesos constituyen un espacio muestral. Ejemplo: el acto de lanzar una moneda es una prueba. Si se lanzan tres monedas, esto es un experimento. Los puntos muestrales del experimento son: CCC, CCS, CSC, SCC, CSS, SCS, SSC,SSS. Estos 8 puntos muestrales conforman el espacio muestral. Otros ejemplos: a) En el lanzamiento de un dado el espacio muestral es: {1, 2, 3, 4, 5, 6}
La probabilidad de obtener un seis es 1/6 = 0,166. La probabilidad de obtener un dos (2) (5) o un cinco es: 1/6 + 1/6 = 1/36 = 0,0277 La probabilidad de obtener un 2 en el primer dado y, un cinco en el segundo (2,5) es igual a: 1/6 x 1/6 = 2/6 = 0,33
b) En el lanzamiento de dos dados el espacio muestral es: 11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 La probabilidad de obtener en uno de ellos el 2 y en el otro el cinco: {(2,5); (5,2)} P = 2/36 = 1/18 = 0,0555 La probabilidad de obtener en uno de ellos el 2 o el 4 y en el otro el 3 o el 5 se tendrá {(2,3) (2,5) (4,3) (4,5) (3,2) (5,2) (3,4) (5,4)} p = 8/36 = 0,222
Permutaciones, Variaciones y Combinaciones • Se denominan permutaciones de n elementos, los diferentes grupos que se puede hacer tomándolos todos de una vez. Las permutaciones implican orden en la colocación de los elementos. Ejemplo: con los números 1, 2, 3 y 4 se van a efectuar permutaciones, tomándolos en su totalidad; se pueden obtener las siguientes cifras de cuatro dígitos:
1234 1243 1342 1324 1432 1423
2134 2143 2341 2314 2413 2431
3142 4132 3124 4123 3214 4231 3241 4213 3412 4312 3421 4321
Capítulo 12. Inferencia estadística La fórmula para calcular las permutaciones es Pn = n! y se lee “permutaciones de n elementos es igual a n factorial” P4 = 4! = 4 x 3 x 2 x 1 = 24 • Las variaciones son permutaciones, con la diferencia de que se toma parte de los elementos. Ejemplo: con los números 1, 2, 3 y 4, formar cifras de dos dígitos.
12 21 31 41 13 23 32 42 14 24 34 43
n! n! La fórmula para el cálculo de las variaciones es: Vnr = ó nPr = (n–r)! (n–r)! “Variación de n elementos tomados de r en r, es 4! 4! 4 . 3 . 2 . 1 igual, a n factorial dividido por (n - r) factorial” V24 = = = = 12 (4–2)! 2! 2! • En las combinaciones no se tiene en cuenta el orden de colocación de los elementos. n! “Combinaciones de n elementos tomados de r en r” nCr = (n–r)! r! Ejemplo: con las letras A, B, C, D: a) ¿Cuántas combinaciones se logran si se toman las 4 letras? Los resultados son: ABCD = BACD = ABDC = DBCA = CBAD, etc. En total se obtiene una sola combinación, ya que da lo mismo ABCD que DBCA, y así sucesivamente pues no se tiene en cuenta el orden de los elementos. b) ¿Cuántas combinaciones se pueden hacer con las cuatro letras anteriores, si sólo se toman dos de ellas?
AB = BA AD = DA AC = CA
BD = DB 4! 4 . 3 . 2 . 1 24 BC = CB 4C2 = = = = 6 (4–2)! 2! 2! 2! 4 CD = DC
Leyes o Reglas de Probabilidad Al comienzo del capítulo se mencionaba la estrecha relación que hay entre la Teoría de Conjuntos y la Teoría de las probabilidades. Como el propósito de este capítulo no es profundizar en los dos temas, sólo se considerarán los elementos básicos, que permitan una mejor explicación de las operaciones que se pueden hacer con las probabilidades, aplicando las reglas requeridas en casos específicos.
321
Estadística básica aplicada
322
Se ha dicho, que espacio muestral es el conjunto de resultados posibles de un experimento o ensayo. Un ensayo es considerado como un experimento, cuyos resultados no necesariamente tienen que ser los mismos cada vez que se repita. Cualquier subconjunto del espacio muestral es considerado como evento; un subconjunto que contiene un solo punto muestral se denomina un evento elemental o punto muestral. De ahí que los resultados individuales que constituyen el espacio muestral reciban la denominación de sucesos o puntos muestrales. Ya se ha visto cómo se elabora un espacio muestral, siendo visualizado de la siguiente manera. Por ejemplo: Un experimento consistente en lanzar un dado. Los eventos posibles son: cara “uno”
•
cara “cuatro” • • • •
cara “dos”
•
•
cara“ cinco” • •• • •
cara “tres” • • • • • cara “seis” • • ••
El espacio muestral será U = {1, 2, 3, 4, 5, 6} Probabilidad. Los seis resultados en el lanzamiento del dado son igualmente probables. Si se pregunta cuál es la probabilidad de que aparezca el tres, observamos que sólo hay un evento favorable y la probabilidad será: número de resultados favorables Probabilidad de un tres = = 1/6 = 0,167 = 1,67% número de resultados posibles El evento favorable es el “tres”, es decir, hay uno solo, de seis eventos elementales posibles en el espacio muestral. Los cinco eventos restantes: “uno”, “dos”, “cuatro”, “cinco”, “seis”, se denominan eventos complementarios. Se dice que el complemento de un evento consta de todos los resultados del espacio muestral que no forman parte de él. Existe otra forma de visualizar los elementos del espacio muestral, utilizando el diagrama de Venn, que indica los espacios muestrales y los eventos, mediante círculos, cuadrados o cualquier otra forma geométrica. Figura 12.1. Algunos ejemplos del diagrama de Venn.
Evento A
Evento A
Evento A
Capítulo 12. Inferencia estadística En el caso del lanzamiento de un dado el diagrama de Venn puede ser representado así: Figura 12.2. Diagrama de Venn para el lanzamiento de un dado • E4
A
• E1
• E6
• E3 • E5
• E2
Recordemos que la probabilidad representada por el espacio muestral es 100% y la probabilidad de cualquier evento A, corresponderá a un valor que puede variar de 0 a 1. O ≤ P(A) ≤ 1 Además, la probabilidad de que un evento no ocurra es igual a uno, menos la probabilidad de que sí ocurra. 1 6 1 5 P(A’) = 1 – P(A) P(A’) = 1 – = – = = 0,833 = 83,33% 6 6 6 6 Por lo tanto se puede decir que P(A) + P (A´) = 1,0 y se dirá que los eventos A y A´ son complementarios. Figura 12.2. Eventos complementarios
A A´ Supongamos ahora, que al realizar el experimento del lanzamiento de un dado, se quiere hallar la probabilidad de que aparezca el “dos” o el “cuatro”. Sabemos que al hacer un solo lanzamiento de un dado, debe aparecer el “dos” o el “cuatro”, pero no los dos, es decir, la aparición de uno de ellos excluye la aparición del otro y, en este caso, se dice que los eventos son mutuamente excluyentes. Se puede decir, que dos o más eventos son mutuamente excluyentes, cuando uno de los eventos ocurre, ninguno de los otros puede ocurrir al mismo tiempo.
323
Estadística básica aplicada
324
Se dice que si dos eventos A y B son mutuamente excluyentes se debe aplicar la regla de adición, es decir, que la probabilidad de que ocurra uno o el otro de los eventos es igual a la suma de sus posibilidades. Lo anterior es válido para dos o más eventos, donde uno solo de ellos debe ocurrir. Figura 12.4. Sucesos mutuamente excluyentes.
A
B
Los eventos A y B son mutuamente excluyentes, ya que no se superponen, es decir, son incompatibles.
La probabilidad de que aparezca el “dos” será P(A) = 1/6; de que aparezca el “cuatro” es P(B) = 1/6; de acuerdo con la regla de adición, se tendrá: 1 1 2 1 P(A o B) = P(A) + P(B) = + = = = 0,33 = 33,33% 6 6 6 3 Si se dijera ¿cuál es la probabilidad, al lanzar un dado, de que aparezca el “dos” o el “cuatro” o el “seis”?, la solución será: 1 1 1 3 P(A o B o C) = P(A) + P(B) + P(C) = + + = = 0,50 6 6 6 6 Volvamos al experimento de extraer una carta (oígase bien, una sola carta, de una sola baraja): ¿cuál es la probabilidad de obtener un “as” o un “seis de copas” o un “rey”? 4 Probabilidad de que sea un “as”: P(A) = 40 1 Probabilidad de que sea un “seis de copas”: P(B) = 40 4 Probabilidad de que sea un “rey”: P(C) = 40 Como sólo debe ocurrir uno de esos eventos, dado que se extraerá una carta, la probabilidad de que sólo uno de ellos ocurra estará dada por: 4 1 4 9 P(A o B o C) = P(A) + P(B) + P(C) = + + = = 0,225 = 22,5% 40 40 40 40 Ahora, el experimento con la baraja de 40 cartas consiste en que al extraer una carta, se desea saber cuál es la probabilidad de que sea “as” o “copas”.
Capítulo 12. Inferencia estadística Observemos que al extraer una carta puede ser “as”, pero también puede ser “as de copas”, cumpliéndose la realización de dos pruebas en forma simultánea; por tal razón, se dice que los sucesos son compatibles, o también nos podemos referir a una probabilidad conjunta. Si se dice que dos sucesos son compatibles, o que no son mutuamente excluyentes, cuando la posibilidad de que ocurra un suceso no impide la ocurrencia del otro. En este caso la probabilidad de uno de los dos sucesos se halla así: P(A o B) = P(A)+ P(B) – P(A y B)
P(A o B) =
4 10 1 13 + – = = 40 40 40 40
= 0,325 = 32,5%
Probabilidad de que sea “as”: P(A) = 4/40 Probabilidad de que sea “copas”: P(B) = 10/40 Probabilidad de que sea “as de copas”: P(C) = 1/40 En un diagrama de Venn se pueden presentar eventos compatibles. Figura 12.5. Eventos compatibles.
A
A B
B
Los eventos A y B no son mutuamente excluyentes, ya que tienen algunos elementos en común.
Es corriente utilizar símbolos, tales como A È B para indicar la unión de A con B, y A ∩ B, la intersección de A con B. La anterior expresión de P(A o B)= P(A) + P(B)– P(A y B) se podrá reemplazar por P(A y B) = P (A) + P(B) – P (A ∩ B). Regla de multiplicación. Se dice que dos o más eventos son independientes entre sí, cuando la ocurrencia de un evento no está relacionada con la ocurrencia de los otros. Si hay tres eventos independientes A, B y C, la probabilidad de que ocurran A, B y C se obtiene al multiplicar las tres probabilidades. P(A y B y C) = P(A) . P(B) . P(C) Supongamos que se dispone de tres barajas de 40 cartas. Se desea extraer tres cartas, una de cada baraja; ¿cuál es la probabilidad de obtener un “as” y un “rey de oros” y un “seis de copas” ?
325
Estadística básica aplicada
326
En la primera baraja se tienen 4 “ases”, siendo
:
P(A) = 4/40
en la segunda baraja se tiene un “rey de oros”
:
P(B) = 1/40
en la tercera baraja hay un “seis de copas”
:
P(C) = 1/40
Observemos que los resultados son independientes, pues ninguno de ellos se ve afectado por la aparición del otro; en estos casos aplicamos la regla especial de multiplicación, siendo: 4 1 1 4 1 P (A y B y C) = x x = = = 0,0000625 40 40 40 64.000 16.000 Se hubiera podido enunciar el anterior problema de otra manera, con el mismo resultado: ¿cuál es la probabilidad de extraer tres cartas, con reposición, de una baraja de 40 cartas, de que sean “as” y “rey de oros” y “seis de copas”? Cuando se dice con reposición se entiende que al extraer la primera carta para ser observada, se regresa nuevamente al mazo, es decir, la baraja queda completa con sus cuarenta cartas, procediendo después a una nueva extracción. Es necesario clarificar un poco más la diferencia entre sucesos mutuamente excluyentes y sucesos independientes. a) En el primero se tiene un solo dado, una baraja; en el segundo son dos o más dados o barajas. b) En el primero se extrae una sola carta, es decir, se espera la presentación de un suceso; en el segundo se espera la presentación de dos o más sucesos. c) En el primero utilizamos la conjunción “o” y en el segundo la conjunción “y”. Ejercicio 1. En una fábrica de calzado se manufactura independientemente costura (toda la parte superior del calzado relacionada con el cuero), suela y tacón, siendo estas partes armadas aleatoriamente en cada zapato. Se sabe que en este proceso, el cinco por ciento de las costuras, el cuatro por ciento de las suelas y el uno por ciento de los tacones tienen fallas; ¿qué porcentaje de pares de zapatos resultan:
a) ¿con fallas en sus tres componentes? b) ¿sin fallas en sus tres componentes? Solución:
a)
P(C y S y T) = (0,05) (0,04) (0,01) = 0,00002 = 0,002%
b) P(C) = 1− 0,05 = 0,95 ; P(s) = 1 − 0,04 = 0,96 ; P(T) = 1 − 0,01 = 0,99
P(C y S y T) = (0,95) (0,96) (0,99) = 0,903 = 90,3%
Capítulo 12. Inferencia estadística Ejercicio 2. Una máquina en buenas condiciones de trabajo, produce un artículo defectuoso por cada mil. Los resultados correspondientes a artículos producidos sucesivamente son independientes. ¿Cuál es la probabilidad, para que los próximos dos artículos producidos por esta máquina, no tengan fallas? Solución: 1 1.000 1 999 P=1– = 0,999 = – = = 0,999 1.000 1.000 1.000 1.000 Ahora la probabilidad para A y B será P(A y B) = (0,999) = 0,998001 = 99,8%. • Sucesos dependientes. Se dice que dos o más eventos son dependientes, cuando la ocurrencia de uno, determina la ocurrencia de los otros en un orden determinado. En caso contrario los sucesos son independientes. De una baraja de 40 cartas, se desea extraer tres cartas en forma sucesiva sin reposición, es decir, la carta que se extrae no se regresa a la baraja; ¿cuál es la probabilidad de que en la primera extracción aparezca un “as” y en la segunda un “rey de oros”, y en la tercera un “seis de copas”? 4 Solución: Al extraer la primera carta “as”, se tiene que P(A) = ; luego, al extraer 40 1 la segunda “rey de oros”, se hará sobre un total de 39 cartas, por tanto P(B) = ; 39 1 luego, la tercera carta “seis de copas”, se tendrá que P(C) = . 38 La probabilidad de que todos estos sucesos dependientes ocurran, será igual a: 4 1 1 4 P(A y B y C) = P(A) × P(B) × P(C) = x x = 40 39 38 59.280 1 P(A y B y C) = = 0,00006747 = 0,0067% 14.820 Generalmente se expresa de la siguiente manera con el mismo resultado P(A y B y C) = P(A) . P(BA) . P(CA y B) 4 1 1 4 P(A y B y C) = x x = 40 39 38 59.280 Ejercicio 1. Supongamos que se tiene una caja con 10 monedas de $1.000, y dos de ellas son falsas. Se van a extraer dos monedas, una después de otra sin reposición; ¿cuál es la probabilidad de seleccionar una moneda falsa seguida por otra también falsa?
327
Estadística básica aplicada
328 Solución:
P(A y B) = P(A) . P(B/A) también se puede expresar así
P(A ∩ B) = P(A) . P(BA) 3 P(A y B) = x 10
2 6 1 = = 9 90 15
= 0,0666 = 6,67%
P(A ∩ B) se denomina probabilidad conjunta de A y B; P(A) se llama probabilidad marginal de A; P(B/A) es la probabilidad condicional de B respecto a A. Ejercicio 2. Se extraen tres cartas sin reposición de una baraja de 40 cartas; ¿cuál es la probabilidad de que las tres sean zotas? P(A1 ∩ A2 ∩ A3) = P(A1) . P(A2/A1) . P(A3/A1 y A2) 4 3 2 24 1 P(A1 ∩ A2 ∩ A3) = x = = = = 0,000404 = 0,04% 40 39 38 59.280 2.470 DISTRIBUCIONES DE PROBABILIDAD
Se dice que una distribución de probabilidades muestra los resultados esperados al realizar un experimento, junto con la probabilidad en cada uno de estos resultados. Es decir, nos referimos a los valores posibles de una variable con sus respectivas probabilidades. Estas distribuciones de probabilidad pueden corresponder a variables aleatorias discretas o continuas. Una variable es aleatoria cuando los valores que toma están determinados por factores en los que interviene el azar. Variable aleatoria discreta, es aquella que puede asumir un número finito de valores y si los valores que asume se pueden contar. Entre las distribuciones discretas los modelos más utilizados son: Bernoulli, binomial, multinomial, hipergeométrico, Poisson y exponencial. De estos sólo explicaremos en forma breve el modelo binomial. La variable aleatoria continua es aquella que puede asumir cualquier valor dentro de un determinado intervalo, es decir, comprende un número infinito de valores posibles. El modelo más importante y básico en la inferencia estadística es la distribución normal.
Capítulo 12. Inferencia estadística
329
Distribución Binomial En la aplicación de la distribución binomial se requiere tener presente cinco características de gran importancia, al plantear un problema. a) Existe un número fijo o constante n de pruebas repetidas, b) Cada uno de las n pruebas da lugar a un acontecimiento “favorable” o “desfavorable”; uno de los dos debe presentarse. c) La probabilidad de “éxito” es aquél acontecimiento que consideremos “favorable”; debe ser la misma en cada una de las pruebas. Por lo tanto, p será constante. d) Las pruebas son independientes. e) Nos interesa determinar el número de “éxitos” en las n pruebas. Los anteriores son los criterios que debe satisfacer una experiencia binomial. La distribución binomial puede describirse, para cada uno de los términos, mediante la fórmula:
( )
P(x) = n px qn – 1 x
p probabilidad de éxito de un suceso en un solo ensayo
n es el número de éxitos; q probabilidad de fracaso
( )
n! x es el número de éxitos; n son combinaciones; C = n x (n – x)! x! x Consideremos como ejercicio de aplicación, el lanzamiento de cuatro monedas y elaboremos en primer lugar un espacio muestral. Exitos 0 caras 1 caras 2 caras 3 caras 4 caras
SSSS
SSSC SSCS SCSS CSSS
1/16
4/16
SSCC SCSC SCCS CSCS CCSS CSSC 6/16
SCCC CCCC CSCC CCSC CCCS 4/16
S= sello C= cara
1/16 = 16/16 = 1
En el anterior espacio muestral se puede observar que la probabilidad de obtener exactamente 3 caras, en el lanzamiento de 4 monedas, es igual a 4/16 = 1/4 = 0,25. Si consideramos como “éxito” la aparición de cara y lo simbolizamos por p, siendo su probabilidad igual a 0,5, mientras que q = 0,5 es la probabilidad de fracaso o sea la aparición de sello, se tendrá que:
Estadística básica aplicada
330
P(ssss) = qqqq = q4 P(sssc)
q4 = qqqp = q p
P(sscs)
= qqpq = q3p
3
P(scss) = qpqq = q3p
4q3p
P(csss) = pqqq = q3p P(sscc) = qqpp = q2 p2 P(scsc)
= qpqp = q2 p2
P(cssc)
= pqqp = q2 p2 6q2 p2
P(cscs) = pqpq = q2 p2 P(ccss) = ppqq = q2 p2 P(sccs) = qppq = q2 p2 P(sccc)
=
qppp
=
q p3
P(cscc)
=
pqpp
=
P(ccsc)
=
ppqp
=
q p3 4q p3 q p3
P(cccs) = pppq = q p3 P(cccc) = pppp = p4
p4
Reemplacemos la anterior información en un cuadro más sencillo, que nos permita visualizar mejor las probabilidades para cada suceso. ÉXITOS PROBABILIDADES P(x) CARAS 0 q4 = (1/2)4 = 0,0625 3 3 1 4 q p = 4 (1/2) (1/2) = 0,2500 2 2 2 6q p = 6 (1/2)2 (1/2)2 = 0,3750 3 4 q p3 = 4 (1/2) (1/2)3 = 0,2500 4 p4 = (1/2)4 = 0,0625 1,0000 Vemos que q4 + 4q3 p + 6 q2 p2 + 4 q p3 + p4 = 1,0 Es decir, que sumando todas las probabilidades dadas cuando x = 0, 1, 2, 3, 4, es igual a uno. Además, recordemos el desarrollo del binomio de Newton cuando n = 1; n = 2; n = 3 y n = 4. Siendo (a + b)n (a + b)1 = a + b
(a + b)3 = a3 + 3a2b + 3ab2 + b3
(a + b)2 = a2 + 2ab + b2
(a + b)4 = a4 + 4a3b + 6a2b2 + 4ab3 + b4
Capítulo 12. Inferencia estadística
331
En la anterior expresión reemplacemos la a por q y la b por p: (q + p)4 = q4 + 4q3p + 6q2 p2 + 4qp3 + p4 De esta manera se puede comprender por qué se denomina distribución binomial, al conjunto de probabilidades obtenidas mediante la aplicación de la fórmula dada, para determinar la probabilidad de un suceso o conjunto de sucesos.
()
n x n–x P(x) = p q x En nuestro ejercicio de aplicación decíamos “hallar la probabilidad de obtener exactamente 3 caras al lanzar 4 monedas”, la cual se puede obtener mediante el uso de la fórmula de la binomial.
( ) ( 21 ) ( 21 )
4 P(x = 3) = 3
3
1
( )( )
( )
( )
4! 1 1 4! 1 1 = = = 4 = 0,25% (4 – 3)!3! 8 2 1! 3! 16 16
Una forma más rápida de cálculo se logra con el uso de la calculadora. Veamos los pasos a seguir, en el ejercicio anterior. Casio 350 HB requiere emplear la tecla SHIFT y luego xy los demás pasos o tecleado es igual Casio 991 MS tiene dos situaciones diferentes, así: 4 SHIFT
nCr
3
x
(
:
1
)
2
^
3
x
(
/
:
2
)
^
/
0,5 xy
1
=
En Muchas calculadores que tienen la tecla nCr se de operar paso a paso: (
(
4
!
:
(
3
!
x
1
!
)
)
x
(
0,5 xy
3
)
x
(
) =
Ampliemos el ejercicio anterior al lanzamiento de 8 monedas, si se quiere calcular la probabilidad de obtener: Se pide que:
a) exactamente 6 caras.
a) éxitos X = 6
; P(x = 6)
b) menos de dos caras.
b)
X = 0,1
; P(x ≤ 1)
c) menos de seis caras.
c)
X = 0, 1, 2, 3, 4, 5 ; P(x ≤ 5)
d) más de dos caras.
d)
X = 3, 4, 5, 6, 7, 8 ; P(x ≥ 3)
e) más de 4 y menos de 6 caras.
e)
X = 5
f) menos de 4 y más de 6 caras.
f)
X = 0, 1, 2, 3, 7, 8 ; P(3 ≥ x ≥ 7)
; P(x = 5)
Solución
( )
~
a) P(x = 6) = 8 (0,5)6 (0,5)2 = 0,109375 = 10,94% 6 b) P(x ≤ 1) = P(0) + P(1) = 8 (0,5)0 (0,5) 8 + 8 (0,5)1 (0,5)7 = 0,0039 + 0,03125 = 0,03515 =3,52% 0 1
()
( )
Estadística básica aplicada
332
c) P(x ≤ 5) = P(0) + P(1) + P(2) + P(3) + P(4) + P(5)
Recordemos que la probabilidad de x desde 0 hasta 8, es igual a 1 ya que:
()
n Σ x px qn – 1 = 1 = 100% De acuerdo con lo anterior se simplificarán las operaciones utilizando su complemento:
( )
( )
( )
8 8 8 P(x ≤ 5) = 1 – P(6) + P(7) + P(8) = 1 – (0,5)6 (0,5)2 + (0,5)7 (0,5)1 + (0,5)8 (0,5)0 6 7 8 P(x ≤ 5) = 1 – (0,1094 + 0,0313 + 0,0039) = 1 – 0,1446 = 0,8554 = 85,54% Nota: al usar la calculadora en el desarrollo de estos ejercicios, se puede teclear 0,5 o también (1 ÷ 2) cuando lo represente como 1/2, así por ejemplo:
( ) ( ) ( 21 )
8 1 P(x = 6) = 6 2 (
8
6
SHIF
2
nCr
será calculado así:
6
)
(
0,5
6
)
(
0,5
2
)
=
y el resultado será igual a 0,109375 ≅ 0,1094 = 10,94% d) P(x ≥ 3) = P3 + P4 + P5 + P6 + P7 + P8 = 1 – P(o) + P(1) + P(2)
P(x ≥ 3) = 1 – (0,0039 + 0,0313 + 0,1094) = 1 – 0,1446 = 85,54 % puede observarse que el resultado es igual al anteriormente dado, siendo p = q.
()
e) P(x = 5) = 8 (0,5)5 (0,5)3 = 0,21875 = 21,88% 5 f) P(3 ≥ x ≥ 7) = P(o) + P(1) + P(2) + P(3) + P(7) + P(8) P(3 ≥ X ≥ 7) = 0,0039 + 0,0313 + 0,1094 + 0,2188 + 0,0313 + 0,0039 = 0,3986 = 39,86%
Distribución Normal
En una distribución binomial, si el valor de n es demasiado grande, se presenta dificultad en el cálculo de las probabilidades; con el fin de abreviar o simplificar las operaciones se utiliza la distribución normal.
Capítulo 12. Inferencia estadística
333
La distribución binomial es una distribución de variable discreta, en cambio la distribución normal corresponde a una variable continua, así que los problemas de distribución binomial (denominado método exacto), se pueden resolver mediante la distribución normal (denominado método aproximado), transformando la variable discreta en continua. Por otra parte, además, se debe obtener la media y la desviación estándar de una distribución binomial, mediante la aplicación de las siguientes fórmulas:
( )( )
()
1 1 1 µ = np µ = 4 = 2 σ = 4 = 1 2 2 2 σ = npq La distribución normal gráficamente se presenta mediante una curva en forma de campana denominada indistintamente curva normal, curva de error, curva de probabilidad o campana de Gauss, siendo de gran utilidad en la inferencia estadística. El área bajo la curva normal es igual al 100%. La media (µ) se encuentra localizada en el centro, dividiendo la curva en dos partes iguales, correspondiéndole a cada una de ellas el 50%. Para hallar el área bajo la curva utilizamos la variante estadística Z, en otras palabras, la variable X la tipificamos o estandarizamos, mediante la aplicación de la siguiente fórmula:
X–µ Ζ= σ
X
-3σ -2σ -1σ µ +1σ +2σ +3σ -3
-2
-1
0
1
2
3
Z
68,3% 95,5% 99,7 %
La conversión de X en unidades de Z, tiene como fin referir cualquier distribución normal a un tipo único cuyos parámetros serán µ = 0 y σ2 = 1. Si consideramos el lanzamiento de 4 monedas del ejercicio anterior, la probabilidad de obtener exactamente dos caras, mediante la aplicación de la distribución binomial se vio que era igual a 0,375 o 37,5%; ahora, mediante la utilización de la distribución normal se tendrá: En primer lugar, la forma de plantear la pregunta varía, ya que en la binomial era P(X= 2) y en la normal será P(1,5 < X < 2,5), transformando la variable discreta en continua.
334
Estadística básica aplicada Siendo µ = 2 y σ = 1 se tendrá: 0,1915
X–µ 2,5 – 2 Ζ= = = 0,5 σ 1 1,5 – 2 Ζ= = – 0,5 1
1,5
0,1915
2
2,5
-0,5 µ
0,5
X Z
Para Z = 0,5 el área (ver tabla, área bajo la curva normal) será igual a 0,1915; por ser simétrico, para z = -0,5 se tendrá el mismo valor de 0,1915, el área total de la región sombreada será igual a la suma: 0,1915 + 0,1915 = 0,3830= 38,3%. Se observará que el resultado es bastante aproximado al obtenido mediante la binomial. LÍMITES DE CONFIANZA
El análisis de una población podría dificultarse dado su tamaño, lo cual ocasionaría altos costos, requeriría de un gran número de personas para encuestar y un tiempo demasiado largo, para poder abarcar la totalidad de las unidades que conforman la población; en algunas investigaciones, el elemento o unidad se destruye al ser analizado, tal como ocurre, por ejemplo en la vida o duración de una bombilla, de una batería para carro, o de una pila, en la dureza de un vidrio, de un tornillo, de un alambre, etc., lo cual impide que tomemos la totalidad de las unidades producidas, ya sea de una máquina o de un conjunto de máquinas; en otros casos, la población puede ser infinita, como ocurre al analizar las características de los peces en un río. En todos estos casos se hace necesario la realización de una muestra, generalmente aleatoria, que conlleva a tomar tan sólo una parte de los elementos que constituyen la población que se va investigar. Supongamos que se desea estudiar alguna característica o características de los obreros de un sector industrial, por ejemplo: los salarios. Podríamos recurrir a toda la población (total de obreros en el sector) pero sería muy dispendioso la recolección de esa información, debido al número tan elevado de obreros. Así que recurrimos a una muestra aleatoria de 200 obreros, obteniéndose un promedio de salarios de $ 737.200 y desviación estándar de $52.800. El resultado del promedio se infiere, es decir se le considera como si fuera el promedio que se obtiene al tomar la totalidad de los obreros, sin embargo observemos que se podrá obtener un número M de muestras posibles de tamaño 200 de una población de N elementos, así: N! M = CnN = (N – n)!n!
Capítulo 12. Inferencia estadística Supongamos una población pequeña de 13 elementos, de la que se van a seleccionar muestras de 4 elementos. El número de muestras posibles será igual a:
M = C134 =
13! 6.227.020.000 6.227.020.800 = = = 715 total de muestras 9! 4! (362.880) (24) 8.709.120 posibles
El anterior resultado nos está indicando, que se obtendrían 715 medias aritméticas muestrales, con sus respectivas desviaciones típicas. Si comparamos las medias obtenidas, observamos que algunas son diferentes unas a otras, por lo tanto no todas las muestras representarían igualmente bien a la población de la cual se extrajo la muestra. Se dirá que la representatividad con respecto a la población, de la media aritmética obtenida a través de una muestra, dependerá de dos aspectos o características de la distribución de la que ha sido extraída: a) del tamaño de la muestra, el cual debe ser determinado en tal forma que sea el óptimo. b) de la desviación típica (s o s). Si la desviación típica es grande, nos estará indicando que los datos se encuentran muy dispersos en relación a la media, caso contrario sucede, cuando la desviación es pequeña. Con las dos medidas anteriores se obtiene el error estándar de la media, la que es igual a: σ s σx= o sx = n n Cuanto menor sea el error, más representativa será la media. s 52.800 En el ejemplo de los 200 obreros, el error estándar es: sx = = = 3.733,25 n 200 si consideramos que el salario promedio obtenido es del $737.200, siendo uno de los tantos promedios que se pueden obtener en una muestra al azar, sin poder afirmar que sea igual a la media poblacional, requerirá fijar unos límites de confianza para la media muestral con una probabilidad (por ejemplo del 95%, aceptando que nos equivoquemos 5 veces de 100, o sea con un margen de error del 5%) dentro de la cual debe estar la media poblacional. En este caso, la tabla para calcular el área bajo la curva de probabilidad nos dará que Z = 1,96 y se tendrá, que los límites para la media poblacional estimada serán: s X = x± Z 1 – f n
X = 737.200 ± 1,96 (3.733,25)
Xsuperior = 737.200 + 7.317,70 = 744.517,70; Xinferior = 737.200 – 7.317,7 = 729.882,30 El resultado anterior nos indica que la media, de todos los obreros del sector industrial estudiado, debe quedar incluida dentro de los límites con una seguridad del 95%. No es una certeza, ya que hemos aceptado un error o riesgo a equivocarnos del 5%.
335
Estadística básica aplicada
336
Si conociéramos el tamaño de la población de la cual se extrajo la muestra, aplicaríamos un factor de corrección para poblaciones finitas, siempre y cuando la fracción de muestreo sea mayor o igual al 5%. Siendo 3.500 el número total de obreros en el sector, la fracción de muestreo será: n 200 f= = = 0,0571 = 5,71% N 3.500 por lo tanto los límites de confianza para la media muestral se calcularán así: Xsi = x ± Z
s n
1 – f
Xsi = 737.200 ± 7.317,7
1 – 0,0571
Xs = 737.200 + 7.105,71 = 744.305,71 ; Xi = 737.200 – 7.105,71 = 730.094,29 En el caso de que el tamaño de la muestra sea menor o igual a 30 (n 4.000
b) α = 0,05
c)
Z=
x–µ 4.400 – 4.000 = = 2,43 s 985 n 36
Capítulo 12. Inferencia estadística
339
α = 0,05 ZA
RC 1,64
Z
El valor cae en la zona de rechazo, por lo tanto la duración de esas pilas es superior a las 4.000 horas. 1) Ahora, si se trabaja con la desviación típica de la muestra, siendo n menor o igual a 30 se presentan modificaciones sustanciales en la solución de los problemas anteriores. Ejemplo: s = 985 n = 25 α = 0,05 Solución:
α =0,05
α =0,05
a) Ho : µ = 4.000 Ha : µ ≠ 4.000
ZA
RC
RC 2,0639
-2,0639
25 b) α = 0,05; s = 985 = 1.005,31 24 c)
t=
x–µ 3.600 – 4.000 = = – 1,99 s 1.005,31 n 25
Los grados de libertad son υ = n - 1 = 24 α = 0,05
t = 2,0639 (obtenido en la tabla “t”)
En este caso como -1,99 cae en la zona de aceptación, se podrá concluir, al nivel de 5% que el fabricante tiene razón.
Si se trata de una prueba unilateral a la derecha, el punto crítico de “t” siendo α = 0,05, será: υ = n –1 = 25 – 1 = 24 2α = 0,10 (se toma el doble) t = 1,7109
2α = 0,10 ZA
RC 1,7109
t
t
Estadística básica aplicada
340
2α = 0,10 b) Prueba unilateral a la izquierda. RC
ZA
t
–1,7109 DISTRIBUCIÓN JI CUADRADO
En la aplicación de la prueba anterior se presentan dos posibilidades, pero en el caso de que se tengan más de dos posibilidades, ese procedimiento no es aplicable y se hace necesario la utilización de otro tipo de distribución, denominado ji o chi cuadrado, cuyo nombre se deriva del uso como símbolo de la letra griega χ, la que se lee ji o chi. La fórmula que se aplica, para el cálculo de esta distribución, es la siguiente: χ2 = Σ
(ni – ni* )2 n*i
ni = frecuencias observadas o reales = no ni* = frecuencias teóricas o esperadas = ne
Supongamos que se lanza un dado 120 veces ó 120 dados una sola vez; la aparición de cada una de las caras fueron: el uno, se presentó 26 veces; el dos, ocurrió 23 veces; el tres, 19 veces; el cuatro, 14 veces; el cinco, 18 veces y el seis, 20 veces. La frecuencia esperada para cada cara es de 20, calculadas así: E = np n = 120 lanzamientos p = 1/6
(probabilidad de presentación de cada cara)
1 120 y así para todas las caras. Con ésta información n*i = (120) = = 20 6 6 calcularemos el valor de χ2
CARAS
1 2 3 4 5 6
Σ
ni
n*i
26 20 23 20 19 20 14 20 18 20 20 20 120 120
ni – n*i 6 3 -1 -6 -2 0 0
(ni – n*i )2
(ni – n i*)2
36 9 1 36 4 0 -
Para la prueba de hipótesis se procede en la siguiente forma.
n*i 1,80 0,45 0,05 1,80 0,20 0 4,30
χ2 = 4,30 (ji cuadrado calculado)
Capítulo 12. Inferencia estadística
341
a) Ho : El dado es correcto (no está cargado) Ha : El dado no es correcto (está cargado) b) α = 0,05
α == 0,05 0,05 α
ZA ZA
c) Siendo χ = 4,30 2
RC RC
χ2χ2
11,07 11,07
d) Usando la tabla de χ2, el punto crítico para χ2 será igual a 11,07 υ = n – 1 = 6 – 1 = 5 α = 0,05 La distribución χ2 es asimétrica positiva, es decir, la curva presenta un alargamiento a la derecha; por otra parte, sólo se tendrá una región crítica, ubicada siempre al lado derecho. En nuestro ejercicio el valor de ji calculado es 4,30 el cual cae dentro de la zona de aceptación, por lo tanto, consideremos que el dado es correcto (no está cargado), en otras palabras, las diferencias que se presentan entre las frecuencias observadas y las esperadas no son significativas. La distribución se utiliza frecuentemente cuando los datos están ordenados en tablas denominadas de contingencia, que son arreglos en los cuales un conjunto de observaciones se dispone conforme a dos criterios de clasificación: columnas y líneas, por ejemplo: dos procedimientos de fabricación, A y B, han sido ensayados con el fin de aumentar la duración de conservación de productos enlatados. Los resultados obtenidos son:
PROCEDIMIENTOS FRACASOS ÉXITOS TOTAL
A B Total
77 63 140 54 66 120 131 129 260
¿A qué conclusión se puede llegar? (nivel del 5%) Solución: La anterior tabla es de “2 x 2” ya que se tienen dos columnas (fracasos y éxitos) y dos líneas (A y B). El procedimiento que se sigue es similar al anterior. 140 p1 = = 0,54 260 120 p2 = = 0,46 260
o sea que el 54% corresponde al procedimiento A o sea que el 46% corresponde al procedimiento B
De 260 enlatados 131 fueron fracasos, ahora si lo multiplicamos por 0,54, se obtendrá el número de enlatados esperados que fracasan en el procedimiento A; si se multiplica por 0,46, se obtendrá el número de fracasos esperados para el procedimiento B, esto mismo
Estadística básica aplicada
342
sucede con los 129 éxitos, que al ser multiplicados por 0,54 y 0,46, respectivamente, darán el número de éxitos esperados para A y B, de 69,66 y 59,34 respectivamente. ni
77 54 63 66 260
n*i 70,74 60,66 69,66 59,34 260,00
ni – n*i
(ni – ni*)
(ni – ni* )2
6,26 -6,26 -6,66 6,66 0
39,19 39,19 44,36 44,36 –
0,55 0,65 0,64 0,75 2,59
2
ni*
χ = 2,59 (ji cuadrado calculado). Además χ 0,05 = 3,84 (ji cuadrado obtenido en la tabla para υ = 1) 2
2
υ = (2 - 1) (2 - 1) = 1 1) Ho : ni = ni*
= 0,05 α =α0,05
Ha : ni ≠ ni* 2) ∝ = 0,05
ZA
RC RC
ZA
χ2χ2
11,07
3,84
Siendo 2,59 < 3,84, se acepta la hipótesis nula (Ho), o sea que ninguno de los procedimientos es superior al otro. Siempre que se tenga una tabla de “2 x 2” es decir que υ = 1 se debe calcular el valor de χ2 utilizando la correción de Yates, la fórmula y aplicación será: χ =Σ 2
(n –n
ni
ni*
ni – ni* ni – ni*
77 70,74 6,26 54 60,26 -6,26 63 69,66 -6,66 66 59,34 6,66 260 260,00 0
6,26 6,26 6,66 6,66 -
i
*
– 0,5)
2
i
n*i ni – ni* – 0,5 5,76 5,76 6,16 6,16 -
( ni – ni* – 0,5)2 33,18 33,76 37,95 37,95 -
2,20 < 3,84. Se acepta la hipótesis nula, como en el caso anterior.
(n –n i
* i * i
n
– 0,5)2
0,47 0,55 0,54 0,64 2,20
Capítulo 13 APLICACIÓN DE ALGUNAS TÉCNICAS DE MUESTREO GENERALIDADES
En los capítulos anteriores, se dio una visión general sobre los diferentes aspectos relacionados con la estadística descriptiva, que incluia: reseña histórica del desarrollo de la estadística y la informática. Además, se explicaba cómo se describía un hecho a través de cuadros y gráficas; la aplicación de medidas y el análisis de informaciones que se registran periódicamente. En resumen, puede decirse que el alumno cuenta con herramientas suficientes para describir el comportamiento de un hecho, ya sea que la información se obtenga de investigaciones aisladas no periódicas, o cuando son el resultado de registros periódicos. Ahora, nos dedicaremos a explicar, en forma bastante sencilla, en qué consiste la inferencia; cómo se procede en el desarrollo de algunos de los métodos de muestreo, cómo se calcula el tamaño óptimo correspondiente; cómo se aplican los procedimientos de selección de unidades; cómo se determinan los estimadores puntuales y por intervalos, tanto en el muestreo aleatorio simple como en el estratificado. Se recomienda al alumno repasar aquellos capítulos, en donde se explican y se definen algunos términos, tales como: población, muestra, características, unidad y elemento; los factores que impiden la realización de un censo; parámetros y estimadores; algunos métodos de muestreo, aplicación de los métodos de selección de unidades y las etapas que conlleva la realización de una investigación. Sin embargo, trataremos de recordar explicando, en forma rápida, algunos de estos conceptos que consideramos necesarios para el desarrollo del presente capítulo. La inferencia estadística corresponde al proceso de obtener conclusiones generales acerca de los valores estadísticos de la población denominados parámetros, partiendo de valores estimados a través de investigaciones parciales o muestras. Es importante entender que el investigador utiliza el muestreo para obtener conclusiones acerca de la población y no para la muestra. Cuando el investigador selecciona una muestra, está desarrollando una tarea de auditaje a toda una población, considerando que el comportamiento de ella (la muestra) es igual al de la población.
344
Estadística básica aplicada Por población o universo se entiende, como un conjunto de unidades o el recuento de todos los elementos que presentan una característica común. Dependiendo del número de elementos, se clasifica en finita e infinita. Se ha dicho que la muestra es una parte de los elementos representativos de la población. Para que la muestra sea representativa, los elementos deben ser seleccionados al azar, es decir, que todos los elementos de la población objetivo deben tener la misma probabilidad. Se dice que el objetivo del muestreo es contar con el mayor número de elementos, con el menor costo posible. Una muestra estrictamente aleatoria, es aquella, extraída de una población, utilizando métodos al azar; de ahí que se hable de muestreo probabilístico o aleatorio, que permite en cada una de las etapas de selección, conocer la probabilidad de cualquier conjunto que resulte elegido. Entre los métodos de muestreo que se deben mencionar, se tienen: • Muestreo aleatorio simple (MAS). Cuando las probabilidades de selección de los elementos son todos iguales y constantes durante el proceso de selección. El MAS es utilizado frecuentemente en poblaciones relativamente pequeñas, en especial, cuando las características presentan poca variabilidad, lo que permite la obtención de una muestra pequeña, con el consiguiente ahorro de dinero, tiempo y recursos humanos. Es requisito principal que los elementos que presentan o unidad la característica principal esté en desorden, que no tengan dispersión geo z y que su coeficiente de variación sea menor del 30%, es decir, tienda a ser homogénea. Cuando un elemento o unidad de muestreo es extraída de una población finita y, después de registrar sus características, se devuelve a dicha población antes de extraer el siguiente elemento, se dice que se realizó una selección con reemplazamiento; en caso contrario, el muestreo será sin reemplazamiento. Como en los demás métodos de muestreo, se requiere la elaboración o actualización del marco, marco muestral o marco de referencia, que corresponde a un listado de todos los elementos que pueden ser seleccionados. Puede considerarse también un mapa o croquis. • Muestreo por áreas. Se realiza cuando no se dispone de un marco completo de elementos o unidades finales las cuales se tienen como objetivo. El área total sometida a investigación es dividida en pequeñas subáreas, las que son seleccionadas al azar. Todas las áreas seleccionadas se inspeccionan completamente, pudiendo ser analizadas, o pueden conformar la base de un marco para muestras adicionales, dando origen al método de muestreo por etapas. • Muestreo por etapas, áreas o comglomerados. En este caso, las unidades de muestreo en cada etapa son extraídas de una población de unidades (conglomerados o unidades mayores) en su etapa previa. Si el marco de muestreo ha de ser confeccionado
Capítulo 13. Aplicación de algunas técnicas de muestreo durante el proceso mismo de operación, se tiene la ventaja de que solamente cada una de las unidades seleccionadas necesita ser listada para la muestra siguiente. • Muestreo por conglomerados. Es muy posible que en muchos casos no se pueda confeccionar un marco con elementos o unidades finales, constituidos por aquellos que son objeto de investigación, lo cual nos obliga a confeccionar marcos con unidades mayores o conglomerados, que contengan elementos que nos permitan llegar al elemento o unidad final. • Muestreo sistemático. Denominado por algunos como muestreo tipificado, considerado también como un método en el que no se aplica la selección aleatoria, ya que los elementos se seleccionan a intervalos regulares, llamados intervalos de muestreo; sin embargo, no se debe olvidar que la primera unidad, o unidad de arranque, se selecciona al azar; por esta razón es considerada como aleatoria. • Muestreo por fases. A veces es conveniente y económico recoger ciertos ítems de información muy general y sobre la totalidad de los elementos de una muestra bastante grande y otros ítems de información (generalmente más detallados) en una submuestra, extraída de la primera muestra. En este caso, el método es considerado bifásico, porque requiere tan sólo de dos fases. Si de la segunda muestra se obtiene otra muestra, y de ésta otra, y así sucesivamente, este método de muestreo se denomina polifásico. Las diferencias entre el método por etapas y por fases son, entre otras: en el primero, la unidad de selección cambia en cada etapa; en cambio en la segunda, es la misma. En el muestreo por fases el elemento o unidad final es elegida directamente, en contraste con el de etapas que requiere de varios procesos de selección, como su nombre lo indica, realizándolo mediante etapas. • Muestreo aleatorio estratificado. Se aplica en poblaciones cuyas unidades presentan características de gran variabilidad. Se dice que si el coeficiente de variación es mayor o igual al 100%, obligatoriamente este método debe ser aplicado. Si la variación es menor o igual al 33%, debe corresponder al muestro aleatorio simple. Entre el 33% y el 100% la selección de uno de los dos métodos anteriores estará sujeta a la decisión del investigador, de acuerdo con los factores que constantemente se mencionan: dinero y tiempo. En este método, la población se divide en grupos o estratos más o menos homogéneos, en cuanto a su conformación interna, pero heterogéneos si se comparan entre sí. En muy pocas ocasiones se diseña un plan de muestreo que sólo se desarrolle a través de uno de los tantos métodos de muestreo. Lo más común es la concurrencia de dos o más métodos de muestreo, por lo cual recibe el nombre de mixto.
345
Estadística básica aplicada
346
DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA (M.A.S)
Expliquemos brevemente algunos de los componentes que son comunes, en las diferentes fórmulas, para calcular el tamaño de la muestra, dependiendo del método de muestreo que se aplique. a) Grado de confianza. Es fijado por el investigador de acuerdo con la experiencia y conocimiento que tenga de la población que va a investigar. Sin embargo, por lo general, se trabaja con el 95% o el 95,5%, correspondiendo un valor de Z = 1,96 y Z = 2,00, respectivamente. El valor de Z se obtiene dividiendo el porcentaje dado como confianza por dos. Luego, se utiliza la tabla (ver apéndice) de áreas en una distribución normal. Si consideramos que la confianza es del 95%, se tendrá que 0,9500 ÷ 2 = 0,4750. Lo localizamos dentro de la tabla y leemos al frente, en la primera columna de Z, en la que aparece 1,9 y en la parte superior 0,06, con lo cual se establece que el valor de Z es igual a 1,96. El lector puede comprobar otros valores de Z, que en algunos casos son utilizados.
P = 68,26% ⇒ Z = 1,00 P = 86,64% ⇒ Z = 1,50 P = 90,00% ⇒ Z = 1,64 o 1,65
P = 95,5% ⇒ Z = 2,00 P = 99,0% ⇒ Z = 2,57 P = 99,7% ⇒ Z = 3,00
Vale la pena comprobar que a medida que aumentamos el nivel confianza, el tamaño de la muestra también aumentará. b) Grado de variabilidad. Está dado por la varianza. Entre más variabilidad presente la característica prinicipal que tiene que ver con el objetivo de la investigación, mayor será el tamaño de la muestra, necesario para que represente a la población. Ya se ha señalado la importancia que tiene el calcular el coeficiente de variación, para determinar el método a escoger entre el M.A.S y el M.A.E. Recordaremos que la característica que se va a estudiar puede ser cuantitativa o cualitativa. La primera, la hemos denominado variable y la varianza se calcula mediante la fórmula:
σ2 = S2 =
Σ X2i – Nµ2 Σ Xi2 ni – Nµ2 o σ2 = S2 = N – 1 N–1
(Sin agrupar)
(Datos agrupados)
En caso de que la característica sea cualitativa o atributo, se tendrá que la varianza será igual a:
σ2p = S2p = PQ
Donde P es la proporción de elementos que presentan la característica investigada en la población, siendo P = ΣAi / N.
Capítulo 13. Aplicación de algunas técnicas de muestreo
En la mayoría de los casos, por no decir siempre, la varianza poblacional se desconoce; por lo tanto, se debe estimar ya sea: • Consultando censos que contengan esta característica. • Consultando encuestas similares. • Utilizando el procedimiento más común, es decir, estimando la varianza a través de la realización de una encuesta preliminar, piloto o pretest. Los tres procedimientos anteriores son válidos tanto en variables como en atributos. En este último, es muy común una cuarta recomendación. • Considerar el valor de P = 0,50, con el cual se obtiene el máximo valor posible de n. Quiere decir que si el valor de p aumenta, o disminuye, de 0,50, el tamaño de la muestra disminuirá.
c) Error de muestreo. Simbolizado por e ó E, al igual que el nivel de confianza es determinado por el investigador, teniendo en consideración que a mayor error menor será el tamaño y, al contrario, a menor error mayor será el tamaño de la muestra.
El error y la desviación típica deben estar dados en las mismas unidades de la variable, es decir, si la variable se mide en kilos, la varianza y el error deben referirse en kilos. Podrá ser fijado directamente, por ejemplo, si nos referimos al peso promedio de los alumnos de un Instituto, se puede establecer supuestamente un error de dos kilos. Esto quiere decir que el promedio de la población objetivo puede estimarse en 50 kilos, con un error de 2 kilos. Estaríamos pensando, por consiguiente, que el verdadero valor puede estar entre 48 y 52. Debe observarse que entre mayor variabilidad tenga la característica, mayor debe ser el error. Otra manera de fijar el error en una variable consiste en la realización de una encuesta preliminar, para determinar el promedio de la variable y multiplicarlo por un porcentaje, hasta donde sea posible no mayor del 10%. Suponiendo que los 50 kilos corresponden al promedio obtenido en la encuesta y si el investigador fija un porcentaje del 5% de error, se tendrá: E = (0,05) (50) = 2,5 kilos. En la característica cualitativa, el error siempre se expresará en términos de porcentajes.
d) Tamaño poblacional. En muchos casos, la población puede ser conocida y se le considerará como una población finita, en caso contrario, la población será definida como infinita.
347
Estadística básica aplicada
348
MÉTODO DE MUESTREO ALEATORIO
•
Muestreo aleatorio simple (M.A.S)
Para el cálculo del tamaño de la muestra en el M.A.S se debe tener en cuenta si se conoce o no el tamaño poblacional.
1.
En poblaciones infinitas, las fórmulas que se aplican están dadas por:
(Variable); n =
Z2 S2x E2
n =
Z2 PQ E2
(Atributos)
Utilizaremos las fórmulas anteriores aplicándolas a los siguientes problemas. a) Una corporación de ahorro y vivienda, localizada en una ciudad intermedia, desea determinar a qué proporción de sus ahorradores le pagan su sueldo en forma quincenal. En estudios similares se ha encontrado que la proporción es del 72%. Si se establece que debe haber una estimación correcta con aproximación de ± 6% de la proporción verdadera y una confianza del 90%, ¿qué tamaño de muestra se necesita, suponiendo que la población es infinita o demasiado grande?
n = [1,642 (0,72) (0,28)] ÷ 0,062 ≈ 151 ahorradores
b) En un instituto de educación intermedia, el departamento de bienestar desea estimar el peso promedio de sus alumnos. El error debe ser más o menos 3 libras y una confianza del 95%. ¿Cuál debe ser el tamaño de muestra, bajo el supuesto de que no se conoce el tamaño de la población y además se estima que la desviación típica es de 11 libras?
n = [1,962 (11)2] ÷ 32 = 51,65 ≈ 52 alumnos
El uso de la calculadora 4000p mediante la aplicación de programas sencillos, nos permite agilizar los cálculos. Veamos dos programas diseñados para calcular el tamaño de la muestra en poblaciones infinitas. a) Z2 S2 ZS 2 n = E2 = E
( )
Z = nivel de confianza S = desviación típica S2 = varianza E = error n = tamaño de la muestra; n0 = primera aproximación
Siendo: Z = 1,96; S = 11; E = 3. Se procede al cálculo de n, suponiendo que el programa es el Nº 1 en la calculadora.
Capítulo 13. Aplicación de algunas técnicas de muestreo 2. En las poblaciones finitas se podrá aplicar cualquiera de las siguientes fórmulas (para la variable y el atributo) y sus resultados serán exactamente iguales, en cada caso: (variable) (atributo)
n =
PQ n = 2 E PQ + Z N
S2
( )
( EZ ) + NS 2
2
También se puede emplear: (variable) (atributo)
NZ2PQ Z2S2N n = n = 2 2 2 NE2 + Z2PQ NE + Z S Otra forma más práctica de calcular el tamaño óptimo puede ser, para ambos casos:
(variable) n =
no no 1+ N
Z2S2 siendo : no = E2
(atributo) o
no =
Z2PQ E2
n0 se denomina primera aproximación, ya que el investigador puede trabajar con este resultado, en vez de n, resultante de aplicar la fórmula completamente. c) Suponga que en el ejercicio (a) de la página 348, se conoce el número de ahorradores, siendo 1.200 en la actualidad. Aplicaremos las diferentes fórmulas dadas anteriormente: 150,62 = 134 ahorradores; 0,72 (0,28) = 134 ahorradores n = 150,62 0,062 0,72 (0,28) 1+ + 1.200 1,642 1.200 n =
1,642 x 0,72 (0,28) x 1.200 n = 1.200 (0,06)2 + 1,642 (0,72)(0,28)
= 134 ahorradores
Ahora suponga en el segundo ejercicio (b) de la página 340, correspondiente a una variable, sabiendo que el número de estudiantes es de 800. Calculemos el valor de n por las diferentes fórmulas mencionadas: n =
51,65 = 48,52 ~ = 49 ahorradores; 51,65 1+ 800
1,962 x 800 x 112 n = 800 (3)2 + 1,962 (121)
= 49 ahorradores
349
Estadística básica aplicada
350 121 n = 32 121 + 1,962 800
= 49 ahorradores
Con las anteriores aplicaciones, comprobamos que el tamaño de la muestra puede calcularse por cualquiera de las fórmulas dadas y el resultado será exactamente igual.
• Muestreo Aleatorio Estratificado (M.A.E.)
El tamaño de la muestra requerido para los métodos de asignación igual y asignación proporcional, se puede calcular aplicando la misma fórmula para los dos métodos.
(variable) no =
ΣWh S
2 h
(atributo) no =
ΣWh Ph Qh
siendo: n=
E2/Z2 E2/Z2
no 1 + (no / N)
Apliquemos las fórmulas anteriores en los ejercicios siguientes. 6. Supongamos la siguiente información, correspondiente a los salarios de 3.200 empleados en un sector industrial. La población fue dividida en tres estratos, de acuerdo con el nivel salarial. La información obtenida mediante una encuesta preliminar es:
Información Poblacional
Salarios
N = 3.200
(miles de $)
N1 = 1.664
W1= 0,52 = 52%
x1 = 246,0
s21 = 289,7
N2 = 960
W2 = 0,30 = 30%
x2 = 323,5
s22 = 465,6
N3 = 576
W3 = 0,18 = 18%
x3 = 576,4
s 23 = 502,5
xst = Σ Wn x h
xst = W1 x1 + W2 x2 + W3 x3
xst = 0,52 (246,0) + 0,30 (323,5) + 0,18 (576,4) = 328,72
Capítulo 13. Aplicación de algunas técnicas de muestreo N1 = N(W1) = 3.200(0,52) = 1.664 Se considera el error en un 2% y la N2 = N(W2) = 3.200(0,30) = 960 confianza del 95%. N3 = N(W3) = 3.200(0,18) = 576 N = 3.200 E = 0,02(328,72) = 6,57; E = (%)xst
no =
0,59(289,7) + 0,30(465,6) + 0,18(502,5) (6,57 / 1,96)2
no 35.68 n = no = 35,68 1 + 1+ N 3.200
= 35,68;
= 36 empleados
Los tamaños muestrales en cada una de las asignaciones, se obtendrá así: (a) Asignación igual L = número de estratos nh =
n
L
n1 = 12 n2 = 12 n = 36 empleados n3 = 12
nh = n/L = 36 ÷ 3 = 12
(b) Asignación proporcional nn = n(Wh) n1 = 36 (0,52) = 19 empleados n2 = 36 (0,30) = 11 empleados n3 = 36 (0,18) = 7 empleados n = 37 empleados En el muestreo estratificado también se puede calcular el tamaño de la muestra directamente para cada uno de los estratos; en estos casos debe aplicarse el método de Neyman: no h n = h no 1+ h N
variable atributo 2 WhPhQh WhSh n = noh = o oh (E ÷ Z)2 (E ÷ Z)2
351
Estadística básica aplicada
352
Utilizando la información del ejercicio anterior, se tendrá: 0,52 (28,97) no1 = = 23,9 n1 = 23,9 ÷ [1+(23,9 ÷ 1.664)] ≈ 24 (4,92 ÷ 1,96)2 n1 = 24 empleados 0,30 (465,6) no2 = = 12,82 (6,47 ÷ 1,96)2
n2 = 12,82 [1+(12,82 ÷ 960)] ≈ 13 n2 = 13 empleados
0,18 (28,97) no3 = = 3 2 (11,53 1,96) ÷
n3 = 3 empleados
E1 = 0,02 (246,0) = 4,92
E2 = 0,02 (323,5) = 6,47
E3 = 0,02 (576,4) = 11,53
Eh = (%)xh
n = 24 + 13 + 3 = 40 empleados
DISEÑO DE MUESTREO
El diseño y el tamaño de la muestra nos van a determinar la cantidad de información necesaria respecto a los objetivos de la encuesta. Recordemos que el objetivo del muestreo es contar con el mayor número de unidades, y la mayor cantidad de información, pero con el menor costo posible. A veces se cree que con mucha información se logran buenas estimaciones; sin embargo, generalmente ocasionan despilfarro de dinero, pérdida inútil de tiempo y complicaciones en la organización y análisis de los datos. Otras veces se peca por poca información, que hace temer por el éxito de la investigación. Los dos casos se deben a que la muestra no fue correctamente diseñada.
Para el diseño de la muestra y cálculo del tamaño se requiere que se hayan adelantado algunas etapas, tales como:
a) Planteamiento del problema. Nos permite determinar la necesidad, o no, de adelantar una investigación que permita recoger o utilizar información que nos proporcione un mayor conocimiento del problema, aclarar algunas inquietudes y tener más herramientas de juicio para la toma de decisiones. Supongamos que se tiene planteado como ejercicio de aplicación el problema de mala calidad de la leche, la baja nutrición de los niños, el precio elevado de este producto y su distribución. b) Una vez determinada la necesidad de realizar la investigación, debe establecerse el objetivo, o los objetivos, de una manera clara y precisa, los cuales no deben perderse de vista, y sí ser tenidos en cuenta a medida que se vaya avanzando tanto en el diseño como en la instrumentación de la encuesta. En nuestro caso
Capítulo 13. Aplicación de algunas técnicas de muestreo particular, consideremos que el objetivo principal del estudio es “Investigar los hábitos sobre el consumo de leche en uno de los barrios de la ciudad ”; como objetivos secundarios nos interesa conocer: las variaciones en el consumo; composición y niveles de ingreso de la familia; además, se busca información sobre la calidad de la leche, precios, marcas, distribución, entre otros. c) Debemos conocer la población objetivo, que debe estar claramente definida y plenamente identificada al iniciar el proceso de selección y entrevista. Implica la elección de la unidad o el elemento, la cual debe ser: clara, mensurable, adecuada y comparable. En nuestro problema, la unidad corresponde a aquellas familias que viven en el barrio objeto de investigación. Observemos que la familia es, en nuestro caso, la unidad de selección. d) Formulamos la hipótesis, ya sea para afirmar o rechazar. Anotaremos como ejemplo algunas de ellas. • Que cantidad o porcentaje de leche de marca se consume. • Variaciones en las cantidades compradas, frente a precios y marcas. • La posesión de neveras influye en los hábitos de compra. • El consumo de leche aumenta con la población escolar. • El consumo de leche por persona es bajo en comparación con el mínimo nutricional recomendable. e) Se elabora el marco de referencia. Recordemos que el marco es un listado de todas las unidades que constituyen la población objetivo, y puede también corresponder a un mapa o croquis que indique la localización de las unidades. En nuestro caso, el marco estará constituido por 320 familias, que además de estar completamente localizadas, se encuentran numeradas desde 001 hasta 320. f) Se establece el método de recolección, teniendo en cuenta las ventajas y desventajas que presenta cada una de ellas, que nos permita hacer una buena selección.
Algunos de estos métodos son: la entrevista, el correo, la entrega personal del cuestionario, el teléfono y el panel. Para nuestro caso, se ha considerado la entrevista como el método de recolección más indicado.
g) A esta altura se han desarrollado otras etapas tales como: la elaboración del instrumento de recolección; la selección y preparación del personal; se ha hecho examen de la documentación, en especial para determinar si este tipo de estudio ya fue realizado y si existe alguna metodología que se haya aplicado a una investigación similar, con buenos resultados; además, se cuenta con los recursos necesarios que permitan el buen desarrollo y terminación del trabajo.
En el diseño y determinación del tamaño de la muestra se hicieron anteriormente algunas consideraciones que se deben tener en cuenta en la investigación, siendo
353
Estadística básica aplicada
354
una de ellas el grado de homogeneidad o heterogeneidad que presenten las características que se van a investigar, pues ello permite tomar decisiones respecto a sí el método de muestreo es aleatorio simple o estratificado. De acuerdo con los anteriores planteamientos desarrollaremos dos ejercicios, uno para el M.A.S y el otro para el M.A.E. Para el primero se tomará como población uno de los barrios de la ciudad, bajo el supuesto que hay una relativa homogeneidad en las características que se investigarán respecto a los demás barrios; en el segundo caso, suponiendo la existencia de una gran heterogeneidad, consideramos que la población está constituida por las familias de tres barrios, cada una de ellas con niveles de ingreso diferentes, de ahí cada uno conforma un estrato, lo cual nos permitirá utilizar el método de muestreo aleatorio estratificado, asignación proporcional.
En los dos ejercicios propuestos se determinará cuál va a ser el tamaño óptimo, también se considerará que en ambos casos se desconoce la varianza poblacional, por tanto, se les debe estimar mediante la realización de una encuesta preliminar. Una vez recogida la información, en dicha encuesta, sólo se utilizarán los datos correspondientes a tres características que tienen que ver con el objetivo principal: ingresos en miles de pesos; gasto diario en leche y frecuencia de las compras si ellas se hacen diariamente.
APLICACIÓN EN EL MUESTREO ALEATORIO SIMPLE En la determinación del tamaño de la muestra, por lo general, se tiene en cuenta aquella característica que guarde una relación estrecha con el objeto de la investigación. En otros casos, pueden tomarse dos o más características, que darán dos o más tamaños muestrales, escogiendo el de mayor valor al tamaño que se haya obtenido. Supuestamente, se debe conocer la varianza poblacional de la(s) característica(s). En caso contrario, como el que nos ocupa, serán estimadas mediante la realización de la encuesta preliminar, que además permite, entre otros, probar el cuestionario; familiarizar al entrevistador; conocer la reacción de informante; determinar el tiempo requerido en la entrevista, etc. Supongamos que el investigador determina que el tamaño de la encuesta preliminar será 3% del tamaño poblacional. Este porcentaje es arbitrario, lo fija el investigador dependiendo del tamaño poblacional y de los recursos disponibles: dinero y tiempo. Determinado el tamaño npreliminar = 0,03 (320) = 10, seleccionamos diez familias dentro del total de las 320. La selección de las unidades se va a hacer sin reposición, por el método sistemático; luego, en las otras selecciones, aplicaremos otros métodos para que el alumno se familiarice. En la selección sistemática, primero que todo, determinamos el valor del intervalo de selección.
Capítulo 13. Aplicación de algunas técnicas de muestreo
355
I = (1/f) = 1/ (n/N) = N/n = 320 / 10 = 32 familias. Lo anterior quiere decir, que por cada 32 familias seleccionamos una. La primera unidad se hará al azar, seleccionando un número entre 01 y 32. Ahora supongamos que mediante el uso de la calculadora, oprimiendo INV • ó SHIFT • EXE y con este procedimiento apareció en pantalla 0,742, sólo leeremos 42, que no nos sirve por ser un número superior a 32; entonces repetimos el proceso hasta que se obtenga un número que esté dentro del intervalo de selección. Supongamos que el número fue 05, considerado como el punto de arranque, al que se le sumará 32, y así sucesivamente. Los números seleccionados fueron: 005; 037; 069; 101; 133; 165; 197; 229; 261; y 293. Cada una de estas familias serán entrevistadas. Una vez recogida la información, utilizamos, en nuestro caso como ejercicio de explicación, los resultados correspondientes a las tres características que contiene el formulario de 60 preguntas, con los cuales confeccionamos el siguiente cuadro: Cuadro 14.1 Resultado de la encuesta preliminar - M.A.S NÚMERO DE
ORDEN
1 2 3 4 5 6 7 8 9 10
NÚMERO DE SISTEMÁTICO
005 037 069 101 133 165 197 229 261 293
INGRESO SEMANAL (Miles $)
$ 320 270 285 310 300 286 319 316 320 336
GASTO SEMANAL EN LECHE
$ 7.500 11.000 9.200 15.000 9.200 6.200 12.500 15.600 18.700 22.000
COMPRA DIARIA
NO SÍ SÍ SÍ NO NO SÍ SÍ SÍ SÍ
La media y la varianza calculada para la característica, ingreso quincenal (miles de $), será: x = 3.062 / 10 = 306,2 = $306.200,oo s2 = [941.334 – 10 (306,2)2 ] ÷ (10 – 1) = 416,62 El error fue establecido así: E= 0,04 (306,2)= 12,25 y la confianza del 95%, o sea Z = 1,96. Reemplazando en la fórmula, se tendrá: 320 (1,96)2 (416,62) n = = 21,24 ≈ 22 familias 320 (12,25)2 + 1,962 (395,28) Puede observarse que el tamaño de la muestra obtenida en este ejemplo es pequeño, dado que el coeficiente de variación arroja un porcentaje inferior al 33%.
Estadística básica aplicada
356 CV =
s 100 x
CV = 20,41 ÷ 306,2 = 6,67% (CV = Coeficiente de Variación)
En cambio si se determina el tamaño de la muestra, correspondiente a la variable “gasto semanal en leche”, será demasiado grande, dado que su coeficiente de variación es del 40,08%. Si calculamos el tamaño de la muestra, con la misma confianza del 95% y un error del 4%, nos dará un tamaño de n = 161 familias, para la variable “gasto semanal en leche” Consideremos ahora el atributo “si compra a diario”, con fines de explicación del proceso de cálculo; para ello, se tiene: p = Σai / n = (# de SI) ÷ 10 = 7/10 = 0,70 = 70%
y q = 1 – 0,70 = 0,30 = 30%
Si la confianza es del 95% y el error supuestamente es del 12%, se tendrá que: n =
320 (1,96)2 (0,70) (0,30) = 48 familias 320(0,12)2 + 1,962 (0,70) (0,30)
Si se fuera a tener en cuenta las tres características anteriores, el tamaño óptimo sería el de n= 161 familias, ya que debe tomarse el valor resultante más grande. Aplicación del Muestreo Aleatorio Estratificado Supongamos que la encuesta se va a realizar mediante el muestreo aleatorio estratificado, en una población de 500 familias, la que se ha dividido en tres estratos, de acuerdo con los niveles de ingresos semanales:
Estrato I: Ingresos inferiores a $280.000 (semanales) Estrato II: Ingresos entre $280.000 y 500.000 Estrato III: Ingresos superiores a $500.000
Se sabe que el número de familias para cada estrato es: Estrato I: N1 = 280 Estrato II: N2 = 150 Estrato III: N3 = 70
W1 = N1/N = 280/500 = 0,56 = 56% W2 = N2/N = 150/500 = 0,30 = 30% W3 = N3/N = 70/500 = 0,14 = 14%
N1 = N (W1) = 500 (0,56) = 280 familias N2 = N (W2) = 500 (0,30) = 150 familias N3 = N (W3) = 500 (0,14) = 70 familias
Capítulo 13. Aplicación de algunas técnicas de muestreo
357
Si consideramos que la encuesta preliminar debe ser del 3%, se tendrá que: npiloto = 0,03 (500) = 15 familias Ahora si aplicamos el método de la asignación igual, se tendrá: nh = n/L = 15/3 = 5. Por lo tanto, cada uno de los estratos muestrales tendrá 5 familias.
n1 = 5 n2 = 5 n3 = 5 siendo n = 15 familias
Si se trata de aplicación la asignación proporcional, se tendrá:
n1 = W1 (n)
n1 = 0,56 (15) ≅ 9 familias
n2 = W2 (n)
n2 = 0,30 (15) ≅ 5 familias
n = 17 familias
n3 = W3 (n)
n3 = 0,14 (15) ≅ 3 familias
Realizada la encuesta preliminar, la información obtenida respecto a dos (de las 40 características consideradas ) relacionadas con el objetivo de la investigación, aplicando el método del muestreo aleatorio estratificado, asignación proporcional, se tendrá: Cuadro 14.2 Resultados de la encuesta preliminar – M.A.E Ingresos Compra Número Número semananales de orden
aleatorio
(miles $)
ESTRATO I
1 2 3 4 5 6 7 8 9
113 256 016 088 222 006 278 177 216
diaria
220,6 Sí 228,4 NO 224,6 NO 236,0 NO 242,9 Sí 262,8 Sí 232,9 NO 226,7 Sí 250,6 NO
x1 =
2.125,5 = 236,17 = $236.170 (semanal) 9
s12 =
503.471,99 – 9 (236,17)2 = 187,47 9–1
s12 = 187,47
P1 = 4/9 = 0,44
Estadística básica aplicada
358 ESTRATO II
1 2 3 4 5
143 017 089 132 145
331,9 368,2 334,5 420,4 412,9
NO Sí Sí NO NO
x2 = 373,58
s22 = 1.757,90
p2 = 2/5 = 0,40
ESTRATO III
1 2 3
34 650,8 NO 12 580,9 NO 45 616,7 Sí
x3 = 616,13
s23 = 1.221,74
p3 = 1/3 = 0,33
La anterior selección aleatoria de las unidades para cada estrato, se hizo utilizando la calculadora 4000p tecleando SHIFT • EXE y en la 3600p solamente se teclea INV • Se puede observar que ningún número seleccionado al azar se repite, lo cual indica que se hizo una selección sin reposición, de la siguiente manera: En el ESTRATO I de un total de 280 familias, numeradas de 001 hasta 280, se seleccionaron 9. En el ESTRATO II se seleccionaron 5 familias, cuya población es 150, por lo tanto deben estar numeradas entre 001 y 150. Finalmente, en el ESTRATO III las familias se numeraron desde 01 hasta 70 y fueron seleccionadas 3. Disponiendo de la información correspondiente a los tres estratos y las dos características seleccionadas de acuerdo con el objetivo de la investigación, procedemos a calcular el tamaño de la muestra, aplicando la siguiente fórmula para la característica cuantitativa o variable.
no =
ΣWh S2h (E/Z)2
para la variable;
no n= 1 + (no / N)
; y para el atributo no =
ΣWh Ph Qh (E/Z)2
En cada uno de los cálculos, el investigador fijará de acuerdo con su experiencia el error. En este caso se tomó un error del 3,49% para la variable y del 8% para el atributo, con una confianza del 95%, lo cual equivale a Z = 1,96 valor éste, que puede ser comprobado al observar la Tabla II de áreas bajo la curva normal. La media aritmética estratificada se calcula aplicando la fórmula: xst = Σ Wn xh
xst = W1 x1 + W2 x2 + W3 x3 ; y el error mediante: E = 0,0349 (xst)
Capítulo 13. Aplicación de algunas técnicas de muestreo El cálculo se realiza así: a) Veamos cómo se procede utilizando la información de la Tabla 14.2 con la variable ingresos. xst = 0,56 (236,17) + 0,30 (373,58) + 0,14 (616,13) = 330,58; (Ingreso semanal)
E = 0,0349 (330,58) = 11,53 0,56 (187,47) + 0,30 (1.757,9) + 0,14 (1.221,74) no = = 23,21 (11,53 ÷ 1,96)2
ΣWhS2h Una vez calculado el no = (E/Z)2 n=
no 1+(no / N)
=
= 23,21 procedemos a obtener el valor de n
23,21 = 23 familias 1+(23,21/500)
b) Ahora procedemos con el atributo “si la compra se efectúa dependiendo de la marca”. Por ejercicio nada más, se realizará esta operación. Veamos cómo se hace: pst = ΣWh ph
pst = 0,56 (0,44) + 0,30 (0,40) + 0,14 (0,33) = 0,41
E = 0,08 = 8% (el error se toma directamente, el porcentaje que lo fija el investigador) Wp Q El valor de no = h h h (E/Z)2
Se obtiene:
0,56 (044) (0,56) + 0,30 (0,4) (0,6) + 0,14 (0,33) (0,67) no = = 144,62 (0,08 ÷ 1,96)2
Ahora se procede a calcular el valor de n, es decir, el tamaño óptimo siendo:
no 144,62 n = = = 113 familias 1+(n / N) 1+(144/500) o Si fuera necesario determinar el tamaño óptimo entre estos dos resultados se deberá tomar el mayor de ellos, en este caso se dirá que n = 113 familias y los tamaños muestrales aplicando el método de asignación proporcional, serían: n1 = n (W1) = 113 (0,56) = 63,28 ≅ 64 familias n2 = n (W2) = 113 (0,30) = 33,90 ≅ 34 familias n3 = n (W3) = 113 (0,14) = 15,82 ≅ 16 familias y el valor del tamaño óptimo será: n = 64 + 34 + 16 = 114 familias, en vez de 113.
359
Estadística básica aplicada
360
ESTIMADOR PUNTUAL Y POR INTERVALOS
Se ha explicado el procedimiento que se debe seguir, para calcular el tamaño óptimo en los métodos de muestreo aleatorio simple y estratificado. Por razón de espacio y tiempo, suponemos que el tamaño óptimo para nuestro estudio fue calculado en 22 familias, en vez de las n = 48 familias en el M.A.S y de 113 familias en el M.A.E.
Seleccionadas las unidades, según la teoría de muestreo, éstas no deben sustituirse; sin embargo, en la práctica suele hacerse.
Generalmente, las sustituciones se realizan por falta de información sobre la unidad seleccionada, por razones diferentes tales como: dirección errada; no existe la dirección; la vivienda está desocupada; se niegan a informar; no está la persona que da la información, etc.
Entre los diferentes métodos de sustitución, los más aplicados son: a) Se toma un número de elementos superior al tamaño óptimo. Por ejemplo en vez de 22 familias tomar 30. b) Reemplazamos a la unidad que no informó, por la siguiente unidad que fue seleccionada y que debe ser entrevistada. c) Seleccionamos dentro de las unidades que informaron, un número igual a las unidades que no suministraron información. La información de estos formularios se duplica.
Aplicación en el Muestreo Aleatorio Simple (M.A.S.) Supongamos que se terminó el proceso de recolección y se dispone de la información requerida para alcanzar el objetivo propuesto. En el cuadro que mostramos a continuación, sólo aparecen dos de las respuestas recogidas en el cuestionario, que nos sirven para explicar cómo se calcula el estimador de la variable y del atributo; además, cómo se establecen los intervalos de confianza para los estimadores. Por comodidad y agilidad se ha supuesto que el tamaño óptimo en el muestreo aleatorio simple es de n = 22, familias en vez de las 151 calculado para el atributo (en la variable fue n = 52 familias, pues se tomó el mayor de los dos valores calculados).
Capítulo 13. Aplicación de algunas técnicas de muestreo Cuadro 14.3 Muestra aleatoria simple
NÚMERO NÚMERO INGRESO COMPRAN SEMANAL DE ORDEN ALEATORIO DIARIOS (MILES $)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
015 286 Sí 317 280 Sí 118 376 Sí 089 260 NO 006 280 Sí 218 275 Sí 300 370 NO 011 264 Sí 054 242 NO 034 333 NO 178 325 Sí 245 329 Sí 097 331 Sí 022 448 Sí 166 270 Sí 317 342 Sí 011 285 NO 056 328 Sí 001 436 NO 199 324 Sí 213 351 NO 133 317 NO
x = 7.052 ÷ 22 = 320,55 s2 =
2.320.812 – 22 (320,55)2 22 – 1
s2 = 2.872,64 s = 53,60 p = 14/22 = 0,64 Σai = el número de SÍ Σai = 14
Para el cálculo de la media aritmética, varianza y desviación estándar, aplicamos las fórmulas establecidas para datos no agrupados. Cuando n es grande, es preferible agruparlos en una tabla de frecuencias y utilizar las fórmulas indicadas para datos agrupados. Se consideran como estimativos la media igual a $320,55 y la proporción igual a 0,64. Estos resultados significan que el promedio de ingresos para las 320 familias que constituyen la población, se estima en $320.545,45 y que la proporción de familias que compran leche de marca corresponde a un 64% de la población. Generalmente, se presenta una diferencia entre el estimador puntual y el parámetro (valor en la población); por esta razón es preferible determinar el estimador por intervalos, dentro del cual se considera que debe estar el parámetro, con cierto grado de confiabilidad, fijado por el investigador. Siendo: N–n N–n µ =x±Z s P = p ± Z pq N – 1 N –1 n n (Variable)
(Atributo)
Si n > 30, se dice que la muestra es grande y debe utilizarse Z; si por el contrario n < 30, la muestra es considerada pequeña y se utiliza “t” de Student.
361
Estadística básica aplicada
362 N–n N–1
Se denomina “factor de corrección para poblaciones finitas”. Se utiliza únicamente cuando la población es finita, es decir, el tamaño de la población es conocido o estimado.
Como en el ejercicio que se ha venido realizando, el tamaño de la muestra es pequeño, debe utilizarse la Tabla III, que aparece en el apéndice correspondiente a la “t” de Student. La manera de obtener el valor para “t” es sencilla, si se siguen atentamente las explicaciones. En la primera columna de la tabla aparece una letra griega υ que se lee "nu" y que representa al número de grados de libertad, es decir, n – 1. En este caso se tendrá que υ = 22 − 1 = 21. Si el nivel de confianza fijado por el investigador es del 95%, se determina su complemento siendo igual a 0,05, el cual puede observarse en la parte superior de la tabla. En el punto de intersección para estos dos datos aparece el valor correspondiente a t = 2,0796. Los límites de confianza para el promedio de ingreso semanal, serán: N–n Reemplazando tenemos: µ =x±t s N –1 n µ = 320,55 ± 2,0796
53,60 22
320 – 22 = 320,55 ± 22,97 320 – 1
343,52 297,58
Se estima un ingreso semanal promedio de $320.545, pero el valor verdadero (poblacional) debe estar entre $343.520 y $297.580, con una seguridad del 95%. Estamos sujetos, en este caso, a un error del 5% (complemento) de que el valor del parámetro quede por fuera de estos límites. Los límites de confianza para la proporción de compradores diario se obtienen mediante la fórmula:
P =p±Z
pq n
N–n N – 1 Reemplazando se tiene:
P = 0,64 ± 2,0796
0,64(0,36) 320 – 22 320 – 1 22
= 0,64 ± 0,21
0,85 = 85% 0,43 = 43%
Se estima que la proporción de familias que compran leche de marca es del 64% y que la verdadera proporción debe estar entre el 43% y el 85%. Se observa que el error de estimación es del 0,21 = 21% es relativamente grande; ello se debe a la utilización de una muestra demasiado pequeña de 22 elementos.
Capítulo 13. Aplicación de algunas técnicas de muestreo Aplicación en el Muestreo Aleatorio Estratificado Determinado el tamaño de la muestra, en nuestro caso supuestamente n = 24 familias, se obtuvieron los siguientes tamaños muestrales, tanto para la asignación proporcional como para la asignación igual. Asignación proporcional: n1 = 24 (0,56) = 14
Asignación igual: n1 = 8
n2 = 24 (0,30) = 8
n2 = 8
n3 = 24 (0,14) = 4
n3 = 8
n = 24 familias
n = 26 familias
Utilizaremos el método de asignación proporcional para calcular los estimadores y fijar límites de confianza del 95%. Como en el caso del MAS, de la información recogida a través de la encuesta sólo se analizarán dos características: ingreso quincenal (miles de $) y la compra de leche, si se tiene en cuenta la marca o no. La selección de los números aleatorios se hizo utilizando la Tabla I, del apéndice.
Cuadro Nº 14.4 Muestra aleatoria estratificada NÚMERO
NÚMERO
DE ORDEN ALEATORIO
INGRESO SEMANAL (MILES $)
ESTRATO I
1 2 3 4 5 6 7 8 9 10 11 12 13 14
036 276 009 217 099 256 209 111 087 007 075 161 046 213
COMPRA DIARIA
278,5 Sí 254,6 NO 235,4 NO 236,2 NO 236,2 Sí 280,4 NO 230,6 NO 238,1 Sí 254,6 Sí 234,6 NO 236,2 Sí 276,4 NO 270,5 NO 263,6 NO
x1 = 3.525,9 / 14 = 251,85 (Miles $) s21 =
892.570.5 – 14 (251,85)2 = 351,74 14 – 1
s1 = 18,75 p1 = 5/14 = 0,36 q1 = 1 – 0,36 = 0,64
363
Estadística básica aplicada
364
1 2 3 4 5 6 7 8
1 2 3 4
ESTRATO II 0,34 149 089 111 123 077 133 003
426,5 380,6 450,4 356,2 340,5 376,4 410,6 384,5
Sí Sí NO NO Sí NO NO Sí
ESTRATO III 08 56 70 19
562,2 Sí 610,5 NO 588,2 Sí 554,5 Sí
x2 = 3.125,7 / 8 = 390,71 (miles $) s22 =
685.407 – 8 (3990.71)2 = 1.328,14 8–1
s2 = 1.328,14 2
s2 = 36,44
p2 = 4/8 = 0,50 x3 = 2.315,4 / 4 = 578,85 (miles $) 1.342.228,58 + 4(578,85)2 = 653,10 s32 = 8–1 s32 = 653,10 s3 = 25,56 p3 = 3/4 = 0,75
Se sabe que: N1 = 280
W1 = 0,56
P = 95% (confianza)
N2 = 150
W2 = 0,30
υ = n1 + n2 + n3 – 3 = (14 + 8 + 4) – 3 = 23
N3 = 70
W3 = 0,14
n = 23 α = 0,05
⇒ t = 2,0687
Los límites de confianza para el promedio de ingreso semanal serán: xst = 0,56(251,85) + 0,30(390,71) + 0,14(578,85) = 339,25 (miles $) La fórmula para determinar los límites de confianza para el promedio, es como se expresa a continuación: 1 S2 Xst = xst± t ΣNh (Nh – nh ) h reemplazando se tiene que: N2 nh
Capítulo 13. Aplicación de algunas técnicas de muestreo
365
1 351,74 1.328,14 653,10 Xst = 339,25 ± 2,069 280 (280 – 14) + 150(150 – 8) + 70(70–4) 2 14 8 4 500 Xst = 339,25 ± 10,27
349,52 328,30
Ingreso semanal promedio (miles $)
Ahora en la proporción, se tendrá: Pst = pst ± t
1 N2
ΣNh (Nh – nh )
ph qh nh
1 0,36 (0,64) 0,5(0,5) 0,75(0,25) Pst = 0,46 ± 2,069 280 (280 – 14) + 150 (150 – 8) + 70(70–4) 2 14 8 4 500 Pst = 0,46 ± 0,09
0,55 = 55% 0,37 = 37%
Proporción de compradores diarios
El estudio de la teoría de muestreo y la inferencia estadística es mucho más de lo que aquí se ha expuesto. Sólo se ha querido que el estudiante adquiera un mínimo de conocimiento, necesario para la realización de pequeñas encuestas.
RESPUESTAS A LOS EJERCICIOS PROPUESTOS Y ALGUNOS CUESTIONARIOS DE EVALUACIÓN 1.g 2 (1 + 2 + 3 + 4) + (1 + 2 + 3 + 4) + 20 = 50
Capítulo 1 Ejercicios propuestos:
1.h (12 + 22 + 32 + 42 + 52) + 5 = 60
9.1 (c) 9.2 (b) 9.3 (d)
2.a ∑ i
10.a Falso 10.b Cierto 10.c Falso 10.d Cierto 10.e Falso
7
i =1
i =1
6
2.c ∑ xi i =3
6
Ejercicios propuestos: 2.a Falso 2.b Cierto 2.c Cierto 2.d Falso 2.f Falso
∑ 2i
2.d ∑ ( X i − 2i ) i =3
Capítulo 2 1.1 (d) 1.2 (a) 1.3 (c) 1.4 (c) 2.e Falso
5
2.b
2.g Cierto 2.h Cierto 2.i Falso 2.j Falso 2.k Falso
Capítulo 3 Ejercicios propuestos:
3.a (4 + 2 + 5 + 1) - 8 = 4 3.b 3(5 + 1 + 3 + 10) - 4(1) = 57 - 4 = 53 3.c 16 + 4 + 25 + 1 + 9 = 55 4.a [2(4+2+5+1+3)]2 = 302 = 900 5.a 1 x 2 x 3 x 4 x 5 = 120 5.e 5 x 5 x 5 = 53 = 125
Capítulo 4 Ejercicios propuestos:
1.b 2 (3 + 4 + 5 + 6) = 36
1.a Falso 1.b Cierto 1.c Falso
1.c 3 (1 + 2 + 3 + 4 + 5) - 10 = 35
1.g Falso (no debe ser mayor a 1)
1.d 9 (12 + 22 + 32 + 42) - 12 (1 + 2 + 3 + 4 + 5) + 16 = 106
1.h Cierto (entre y4 y y6 sí hay un 40% que resulta al restar H6 - H4)
1.e [2 (1)2 - 2]2 + [2 (2)2 - 2]2 + [2(3)2 - 2]2 + [2 (4)2 - 2]2 + [2 (5)2 - 2]2 = 3.496
1.i N4 + n5 = N5 = 30 + 6 = 36
1.a 1 + 2 + 3 + 4 + 5 + = 15
1.f (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10) - 20 = 35
H5 =
1.d Cierto 1.e Falso 1.f Falso
N 5 36 = = 0,72 ≠ 0,36 n 50
1.f Falso: H3 + H4 = 1,9 = (h1+h2+h3) + (h1+ h2+ h3+ h4) = 1,9; (0,2 + 0,4 + h3)
Estadística básica aplicada
368
+ (0,2 + 0,4 + h3 + 0,2) = 1,9
H2 = h1+h2; 0,6 = 0,2 + h2 h4 = 0,4 Como m = 6 se tendrá h1 + h2 + h3 + h4 + h5 + h6 = 1 0,2 + 0,4 + 0,25 + 0,2 + h5 + h6=1 1,05 + h5 + h6 > 1 (no puede ser) 1.k Falso, la frecuencia relativa no puede ser negativa 1.l Puede ser cierto
n1 30 = h1 = = 0,6 n 50
1.m Falso m = 1 + 3,3 log n 2.1 (d) 2.2 (b) 3. yi ni ni Ni Hi 1 2 0,04 2 0,04 2 2 0,04 4 0,08 3 6 0,12 10 0,20 4 1 0,02 11 0,22 5 4 0,08 15 0,30 6 5 0,10 20 0,40 7 2 0,04 22 0,44 9 9 0,18 31 0,62 10 8 0,16 39 0,78 15 2 0,04 41 0,82 16 1 0,02 42 0,84 20 1 0,02 43 0,86 22 3 0,06 46 0,92 25 4 0,08 50 1,00
S
50
1,00
-
-
x21 = 15 h5 = 0,08 m = 14
y4 = 4 N4 = 11
n3 = 6 H6 = 0,40
4. xmáx = 89 xmin = 63
xmáx- xmin = Rango 89 - 63 = 26
n = 50
C=
m = 1 + 3,3 log n m = 1 + 3,3 log 50 = 6,6 m=7
Rango 26 = = 3,7 = 4 m 7
El rango se incrementa en (2) dos unidades, por tal motivo, le restamos uno (1) al límite inferior y le sumamos uno (1) al límite superior.
, , xi-1-xi ni hi Ni Hi 62,1-66 3 0,075 3 66,1-70 6 0,150 9 70,1-74 9 0,225 18 74,1-78 9 0,225 27 78,1-82 2 0,050 29 82,1-86 5 0,125 34 86,1-90 6 0,150 40
0,075 0,225 0,450 0,675 0,725 0,850 1,000
S 40 1,000
5. a) Total de hogares de clase media en el barrio El Futuro de la ciudad Caracas b) 150 hogares de clase media del barrio El Futuro de la ciudad Caracas
c) Característica cualitativa
d) Clase de aceite o materia usada en la cocina
e) 7
f)
Aceite Hogares Maíz 14 Soya 65 Ajonjolí 21 Al detal 17 Cerdo 21 Vegetales 6 Oliva 13
g) Algunos usan más de una marca
Respuestas 6.
yi ni hi
x2 = 830.400
10 6 0,12 20 10 0,20 30 18 0,36 40 10 0,20 50 6 0,12 S 50 1,00
9. a.(7)
b.(8)
c.(12)
50
7.
d.(14)
Cuestionario de evaluación
1(c)
2(e)
3(d)
4(c)
5(b)
6(b)
7(d)
8(b)
9(b)
10(d)
Capítulo 5 Ejercicios propuestos: 1. Represente por medio de la gráfica circular, luego elabore una gráfica de barras. En su opinión ¿cuál le parece mejor? 2. Observe la gráfica No. 532 página 84 3.
Afirmar falso o verdadero a) Cierto b) Cierto c) Cierto d) Falso e) Falso f) Falso g) Cierto
Cuestionario de evaluación: 1(b) 2(d) 3(d) 4(a) 5(e)
6(c)
yi hi yihi 7 0,10 0,70 8 0,65 5,20 9 0,25 2,25 S 1,00 8,15
y = 8 empleadas por sucursal 8. El promedio es x = $30.610 diarios Con el 10% el promedio será x = $33.610 Con el aumento de $3.000 el promedio es x = $33.220 Para los que ganan $30.000, les da lo mismo $3.000 que el 10%. Para los salarios inferiores a $30.000 les conviene un aumento de $3.000. Para los salarios superiores a $30.000 les conviene un aumento del 10%. 9. 9.1 Falso 9.2 Falso 9.3 Cierto 9.4 Cierto 10. a) x = 10.525 b) Me = 8.775 c) Md = 5.000 d) Mediana valor central e) 35.000 11. 11.1 (b)
Capítulo 6 Ejercicios propuestos: 4. a) Media x = 793.600 Mediana Me = 826.500 Moda Md = No hay b) El valor central dado por la mediana, por no estar afectado por valores extremos
( x2 − 58.000) 40 + x2 (60) 100
x1 = 772.400
6. x = 35 ( 978.000 ) +15 (1.193.160 ) = 1.042.548
5. 807.200 =
369
12.
11.2 (c)
11.3 (d)
a) Asimetría negativa b) Asimetría positiva c) Simétrica d) Ligeramente asimétrica negativa
13. M [ yi ] = M [1, 25 X i + 2.200]
M [ yi ] = M [1, 25 X i ] + M [ 2.200]
M [ yi ] = 1, 25 x + 2.200 2200
M [ yi ] = 1, 25 ( 665.000 ) + 2.200 2200 = 833.450
Estadística básica aplicada
370 14.
yi ni Ni Zi“ Z“ini
y1 4 4 -1 50 16 20 0 y3 25 45 1 y4 5 50 2 S 50 - -
-4 0 25 10 31
n1 + n2 + n3 + n4 + n5 + n6 = 150 n1 + (n1 + 5) + 30 + 30 + (n1 + 5) + n1 = 150 4n1 + 70 = 150 4n1 = 80 n1 = 20 −225 53, 25 = 60 + C 150 C = 4,5 y = 53,25
∑ Z i" ni 31 y = Ot + C ; 62, 4 = 50 + C 50 n
yi ni yihi
17.
,
,
yj-1 - yj nj Nj yj
yjnj
20 7 8 5 2
120 140 147 155 160 162
867.000 104.040.000 917.000 18.340.000 967.000 6.769.000 1.002.000 8.016.000 1.067.000 5.335.000 1.117.000 2.234.000
S 162
-
- 144.734.000
892.000,1 - 942.000 942.000,1 - 992.000 992.000,1 - 1.042.000 1.042.000 - 1.092.000 1.092.000 - 1.142.000
3.120 = 62, 4 50
a) y =
144.734.000 = 893.419,75 162
b) Me = 867.000 Md = 867.000
15. x = 37.387 millones $ 16. yi ni Ni yi ni Z“i
51 + 55,5 = 53, 25 2
842.000,1 - 892.000 120
La moda = 70
y=
=
2
Es bimodal Md = 51 y Md = 55,5
30 4 120 50 16 800 70 25 1.750 90 5 450 S 50 3.120
Por los demás métodos, la media aritmética debe dar 62,4
y j −1 + y j
Me =
C = 20
Zin“i
42 20 20 840 -4 -80 46,5 25 45 1.162,5 -3 -75 51 30 75 1.530,0 -2 -60 55,5 30 105 1.665,0 -1 -30 60 25 130 1.500,0 0 0 64,5 20 150 1.290,0 1 20 S 150 - 7.987,5 - -225
18.= a) x
3.311 = 82, 78 40
82 + 83 = 82,5 2 M d = 88
Me = b)
yi,,−1 − yi,,
ni
Ni
yi
yi ni
49,1 - 58 2 2 53,5 107,0 58,1 - 67 5 7 62,5 437,5 67,1 - 76 7 14 71,5 500,5 76,1 - 85 9 23 80,5 724,5 85,1 - 94 6 29 89,5 537,0 94,1 - 103 8 37 98,5 788,0 103,1 - 112 3 40 107,5 322,5
S 40
-
- 3.417,0
Respuestas
371
a) M −1 =
3.417 c) y = = 85, 43 40 20 − 14 M e = 76 + 9 = 82 9
b) CR =
3 + 12 = 7, 5 2
7. M −1 =
M d = y j = 80,5
9. M −1 =
M d = y j = 80,5 Cuestionario de evaluación: 1 (c); 2 (d); 3 (b); 4 (c); 5 (e) 6 (b); 7 (d); 8 (e); 9 (c); 10 (d) 11 (b); 12 (b); 13 (d); 14(b); 15 (a) 16 (c); 17 (c); 18 (c)
32 + 62 + 122 = 7,937 3
c) M 2 =
6 M d = 76 + 9 = 80,15 6 + 7 d) y = 85,4 3
1 = 5,142 1/ 3 + 1/ 6 + 1/12
2 = 3, 2 1/ 2 + 1/ 8
800 200 / 50 + 200 / 55 + 200 / 70 + 200 / 5
ML1 = 55, 20
10. M −1 =
2 = 47,96 1/ 40 + 1/ 60
Capítulo 7 Ejercicios propuestos: 2. a) Md = 3(79,5) - 2 (80,3) = 77,9
Capítulo 8 Ejercicios propuestos:
3. Media armónica 5. 21 = x1 + 6 + x3; 216 = x1 ⋅ 6 ⋅ x3 15 = x1 + x3 ;
216 = x1 ⋅ x3 6
36 = x1 x3
x1 =
15 =
36 + x3 x3
15 x3 = 36 + x32
x32 − 15 x3 + 36 = 0 x1 = 3
x2 = 6
36 x3
x3 = 12
1. a) s 2 = b) Falso
3.000 − 622 = −3.784 falso 50 c) Falso
d) 0, 22 (10 ) = 0, 4 ≠ 4 Falso 2. a) x = M e = M d b) x > M e > M d c) x < M e < M d
Estadística básica aplicada
372
3. cv =
CVB =
s 5 = = 1, 25 ó 125% la media x 4
CVA < CVB
no representa a la distribución 4. (d) 5. (d) Falso
(e) Falso
sx = 19, 33 cv A = = cvB
23.900 2.390 = 0, 0866 = 8, 66% 275.750 27.575
8. a) Variabilidad absoluta
s A2 > sB2
7.800 > 5.400
b) Variabilidad relativa
88, 32 = 0,1104 = 11, 04% 800
cvB =
73, 48 = 0,1131 = 11,31% 650
cvB > cv A 9. b) S A = 144 = 12 S A > S B SB = 11 Sí puede afirmarse 10. x1 = 46
x2 = 8,6
s12 = 8, 24 s22 = 8, 24 13. a) S A < S B b) CVA =
ZB =
s y = 2.390
19,33 = 0,546 = 54,6%; cv A > cvB 35, 4
= cv A
968.000 − 963.000 = 0,07 76.000 Z A > Z B mejor en A que en B
c) Z A =
y = 27.575
7. x = 35, 4
26.000 < 28.000 76.000 = 0, 0789 = 7, 89% 963.000
88.000 = 0,0905 = 9,05% 972.000
968.000 − 972.000 = −0,05 88.000
14. a)
yi ni yi ni yi2 ni yi-y (yi-y)2ni
10 30 300 3.000 -33,4 33.466,80 30 25 750 22.500 -13,4 4.489,00 50 15 750 37.500 6,6 653,40 70 13 910 63.700 26,6 9.198,28 90 12 1.080 97.200 46,6 26.058,72 110 5 550 60.500 66,6 22.177,80 S 100 4.340 284.400 - 96.044,00
y = 43, 4 2 c) s =
= s2
284.400 − 43, 42 = 960, 44 100 96.044 = 960, 44 100
Cuestionario de evaluación 1 (c) 2 (d) 3 (c) 4 (e) 6 (b) 7 (c) 8(a) 9(b) 11 (e) 12 (b) 13(a) 14(a)
5 (c) 10 (a) 15 (d)
Capítulo 9 Ejercicios propuestos: 2. Por tener la misma covarianza. 3. Que la recta es descendente, por ser la pendiente negativa.
Respuestas 4. a) falso d) falso
b) cierto c) falso e) falso
5. a) falso d) falso 6. R 2 = 1 −
7. r =
mxy sx s y
b) falso c) falso e) falso 1 yx 2 y
s
s
=1−
9 = 0,64; r = 0,8 25
a) s
bxy =
R 2 0,8836 = = 2, 21 byx 0, 40
byx sx2 = mxy = 0, 40 (18 ) = 7, 2 s y2 =
7, 2 = 3, 26 2, 21
r ( sx ) ( s y ) = mxy
;
2 y
=s −
mxy2 sx2
482 = 64 − = 40,96 100
b) Yˆ ¨= byx ( 50 ) + c yx byx =
10. a) R 2 = byx bxy
2 s yx = R 2 S y2 = 0,8836 ( 3, 26 ) = 2,88
0,6 (10 )( 8 ) = 48 2 yx
373
48 = 0, 48 100
c yx = 3 − 0, 48 (16 ) = − 4,68
1 − R2 = 1 − R /11,66%
b) V[ x + y ] = 18 + 3, 26 + 2 ( 7, 2 ) = 35,66
11. a) byx =
b) r = 8. a) Cierto R2 = 0,81
c) Falso, los coeficientes deben tener el mismo signo d) byx =
60 = 1, 2 cierto 50
es falso, no puede ser mayor a 1.
c yx = 21 − 9 ( 8 ) = −51
36 = 9 no puede ser r > 1 ( 2 )( 2 )
12. a) (1) 480,9 = bxy (67,3) + 23cxy; (-67,3) (2) 1.445,21 = bxy (202,71) + 67,3cxy; (23)
( 2 ) 33.239,83 (1) − 32.364,57
= 4.662,33bxy +
bxy =
1,547,9cxy
= − 4.529, 29bxy − − 1,547,9cxy
875, 26 =
mxy
20 9. a) r = = = 1,33 sx s y ( 3)( 5 )
36 =9; 4
Y =9 (20) - 51=129
Y =0,48(50)-4,68=19,32
b) c yx = 64 − 7 (10 ) = −6 ≠ 4 Falso
2,88 = 1 − 0,8834 = 0,1166 3, 26
133,04bxy
875, 26 = 6,58 133,04
Estadística básica aplicada
374 cxy =
480,9 − 67,3 ( 6,58 ) 23
r=
= 1,66
Xˆ = 6,58 ( 20 ) + 1,66 = 133, 26 b) r =
mxy sx s y
=
14. mxy = byx S x2 = 0, 2 ( 20 ) = 4
1,65 = 0, 47 ( 7,01)( 0,5)
S y2 =
1.445, 21 480,9 67,3 − = 23 23 23
mxy =
mxy = 1,65
sx =
11.187,59 − 23 ( 20,91)
2
23
=
202,71 − 23 ( 2,93) 23
2
= 0,5
316 − ( 4,53)( 2,03) = 1,34 30 s y2 = 1,11 sx2 = 4, 05
13. mxy =
= byx bxy =
mxy2
r 2 ( S x2 )
=
42 = 0,99 ( 0,81)( 20 )
V[ x + y ] = 20 + 0,99 + 2 ( 4 ) = 28,99 15. El (a), (b) y (c) se le deja al alumno. Solamente se le ayudará a determinar las ecuaciones y la estimación.
1.167 − (11,125 )(11, 25 ) = 20,72 8 s y2 = 13,69
mxy =
s y = 3, 69
sx = 7,01 sy =
1,34 = 0,6 ( 2,01)(1,11)
byx =
20,72 = 0,64 32,61
bxy =
20,72 = 1,51 13,69
C yx = 11, 25 − 0,64 (11,125 ) = 4,13 C xy = 11,125 − 1,51(11, 25 ) = −5,86
1, 34 = 0, 33 4, 05
Xˆ = 1,51 y − 5,86
1,34 = 1, 21 1,11
x = 11,125 Yˆ = 0,64 ( 40 ) + 4,13 = 29,73
y = 11, 25
c yx = 2, 03 − 0, 33 ( 4, 53) = 0, 54 C xy = 4,53 − 1, 21( 2,03) = 2,07
Y = 0, 33 ( 30 ) + 0, 54 = 10, 44
X= 1, 21( 20 ) + 2, 07 = 36, 71
Cuestionario de evaluación: 1 (a) 2 (d) 3 (b) 4 (a) 5 (c) 6 (d) 7 (c) 8 (d) 9 (e) 10 (c) 11 (a) 12 (d) 13 (e) 14 (d) 15 (e) 16 (c) 17 (c) 18 (d) 19 (d) 20 (a)
Respuestas Capítulo 10 Ejercicios propuestos: 1. a) Falso b) Cierto c) Cierto d) Cierto
Yˆ x xy x2 Años yi 2015 5 -2 -10 4 2016 ? -1 -y2 1 2017 10 9,8 0 0 0 2018 ? 1 y4 1 2019 14 14,2 2 28 4 S 49 22 10
a) b =
14, 2 − 9,8 = 2, 2 2
c = 9,8 Yˆ = 2, 2 x + 9,8
Yˆ = 2, 2 (12 ) + 9,8 = 36, 2 2017 será año de origen, por lo tanto, x = 12 para el 2025 b) b =
∑ xy 2 ∑x
b(∑ x
2
) = ∑ xy = 2, 2 (10 ) = 22
∑y c= n ; nc = ∑ y = 5 ( 9,8 ) = 49 49 − 29 = 20 = y2 + y4 22 − 18 = 4 = − y2 + y4 y2 + y4 = 20 − y2 + y4 = 4 2 y4 = 24 y4 = 12 20 − 12 = 8 = y2
375
4. Años
y
x
x2 xy
y2
2009 8 0 0 0 64 2012 16 3 9 48 256 2016 14 4 16 56 196 2017 20 7 49 140 400 2018 22 9 81 198 484 2019 26 10 100 260 676
S 106 33 255 702 2.076
(1) 106 = 33b + 6c ( −5,5) ( 2 ) 702 = 255b + 33c 702 = 255b + 33c −583 = −181,5b − 33c 119 = 73,5b b=
119 = 1,62 73,5
702 = 255 (1,62 ) + 33c C = 8,75 09
Yˆ97 = 1,62 ( 0 ) + 8,75 = 8,75 12
Y05 = 1, 62 ( 3) + 8, 75 = 13, 61 13
Y06 = 1, 62 ( 4 ) + 8, 75 = 15, 23 14
Y09 = 1, 62 ( 7 ) + 8, 75 = 20, 09 Y1809 = 1, 62 ( 7 ) + 8, 75 = 20, 09 Yˆ06 = 1,62 ( 9 ) + 8,75 = 23,33 Y1909 = 1, 62 ( 7 ) + 8, 75 = 20, 09 Yˆ07 = 1,62 (10 ) + 8,75 = 24,95 Ahora estime usted los años que pide el ejercicio.
Estadística básica aplicada
376
2010 = 116,66 2011 = 128,57 2012 = 128,57 2013 = 105,55 2014 = 78,95 2015 = 80 2016 = 133,33 2017 = 125 2018 = 120 2019 = 145,83
Capítulo 11 Ejercicios propuestos: 1. Problemas propuestos: a) Cierto d) Cierto b) Cierto e) Falso c) Cierto f) Falso
g) % devaluación = 1 − 2305 100 = 15,37% 2723,51
5. IPA =
15,37% ≠ 20% Falso h) Falso 2.
t
i) Falso t
t
F J 0 = LJ 0 P J o ; 125 = 115 P J o 2 t 125 = P J o = 135,87 115 t
Vot = LIo × P J o = 130 (1,3587 ) = 176,63 t
t
3. a) Primer método
I 1719 = b)
27.673 × 100 = 116,17 23.821
116,9 + 113, 46 + 119,35 + 126,03 + 116,07 + 78,66 + 143,9 + 119,32 + 99 9 1.032,69 = = 114,74 9
4. a) 2009 = 100
b) 2009 = 80 2010 = 116,67 2010 = 93,33 2011 = 150 2011 = 120 2012 = 150 2012 = 120 2013 = 158,33 2013 = 126,66 2014 = 125 2014 = 100 2015 = 100 2015 = 80 2016 = 133,33 2016 = 106,66 2017 = 166,66 2017 = 133,33 2018 = 200 2018 = 160 2019 = 291,67 2019 = 233,33 b) 2009 = 100
100 × 100 = 26,14% 382,5
Se ha perdido el poder de compra en un 73,86%, de 2016 a 2019. En otras palabras, un peso de 2016 hoy en día equivale a 26 centavos.
Vt
Jt
6. L o = o t P Io 7.
2013 2014 2015 2016 2017 2018 2019
2,86 3,20 3,29 3,14 3,00 3,14 3,43
8. 912.000 × 100 = S = 162.857,14 R19
560
162.857,14 × 100 = S R18 = 139.194,14 117,0 772.000 × 100 = 554,62 = IPC06 139.194,14 13 9. X =
12.000.000 (1.120,3) 108, 4
= $124.018.450
Respuestas 11. Años IPC (a) (b) (c) (d) (e) (f) 2013 =100
2013 100 2014 105,7 2015 108,6 2016 114,3 2017 118,6 2018 120,0 2019 121,4
18,0 56.250 100 100 56.250 100 19,5 54,210 108,33 96 51.315 91,22 21,2 57.500 117,77 102,22 53.000 94,22 33,2 54.285 184,44 96,51 47.428 84,31 43,0 51.000 238,88 90,67 43.000 76,44 48,3 55.238 268,33 98,20 46.000 81,77 49,4 54.455 274,44 96,97 44.909 79,83
12. Años 2014 =100 IQX014 ICPM14 2014 2015 2016 2017 2018 2019
100,0 110,0 88,0 105,6 121,4 140,8
100,0 100,0 133,3 146,63 100,0 88,0 111,1 117,32 122,2 148,35 88,8 125,03
13. Ver definiciones 14. Porque la base deja de ser representativa.
377
16. Años A B 1 100,0 74,1 2 98,0 72,6 3 110,0 81,5 4 135,0 100 5 145,8 108,0 6 129,6 96,0 17.
Años I 1 100,0 2 108,0 3 101,5 4 118,7 5 123,5
Cuestionario de evaluación: 1 (b) 2 (b) 3 (d) 4 (e) 5 (c) 6 (c) 7 (b) 8 (c) 9 (b) 10 (b) 11 (a) 12 (b) 13 (c) 14(c) 15 (e) 16 (b) 17 (a)
Apéndice TABLA I
Tabla
APÉNDICE
Números al azar
Números al azar
15 77 01 64 69
69 58 40 81 16
60 20 00 84 22
28 26 46 66 36
86 66 17 34 49
85 40 51 40 10
15 33 94 11 65
57 62 94 04 99
05 57 22 71 77
99 68 12 11 14
47 69 35 90 95
16 17 45 86 29
15 70 48 02 00
59 33 93 28 58
34 32 24 34 07
13 26 87 40 20
40 81 46 08 09
74 99 16 92 99
85 19 01 23 11
74 00 79 41 69
10 55 33 20 47
54 16 86 11 16
59 34 71 55 84
03 48 17 60 13
38 71 23 91 83
05 06 67 26 77
14 85 40 52 68
60 41 94 98 18
62 20 94 03 71
60 26 45 17 92
65 50 89 18 74
42 07 05 15 69
86 97 40 25 88
14 17 73 92 07
93 11 93 45 25
59 68 53 31 55
73 47 16 49 79
69 80 76 16 60
58 53 07 04 53
66 94 94 18 13
31 31 05 36 48
75 16 00 21 11
42 44 84 46 84
83 20 49 17 12
21 93 34 61 16
91 59 46 44 45
49 25 36 12 07
25 90 89 55 25
83 47 17 23 93
99 56 14 39 16
63 59 73 21 67
80 00 25 58 25
72 06 12 86 74
54 79 70 85 88
71 58 21 98 48
89 72 47 46 94
78 56 10 65 97
84 79 42 31 49
94 15 31 13 09
45 43 03 82 81
70 51 21 03 18
50 21 99 49 73
06 99 19 24 96
39 43 10 14 12
94 08 55 54 70
14 15 99 60 44
62 72 38 18 36
63 92 61 55 93
77 66 82 10 91
81 51 67 01 47
92 46 90 39 99
64 08 00 97 27
54 96 63 40 54
34 70 27 48 18
68 59 91 83 32
81 23 17 13 01
37 57 92 16 34
15 80 90 25 64
67 77 29 95 84
80 84 84 87 22
87 54 42 46 56
28 89 02 06 98
59 90 74 13 38
98 66 23 20 23
90 55 31 83 48
74 73 84 98 13
11 48 25 33 39
27 36 08 99 57
60 42 88 68 25
22 89 67 83 16
94 55 14 00 97
32 51 92 47 03
92 33 73 20 21
29 77 37 06 98
64 63 34 31 43
69 21 94 26 20
73 90 70 92 76
49 14 60 34 43
90 51 72 11 07
75 94 19 49 40
82 36 36 89 29
87 70 08 71 98
49 00 89 89 99
29 08 02 72 32
68 16 20 82 19
25 06 22 30 87
87 44 48 90 91
38 53 10 60 29
40 07 58 97 84
09 04 33 56 72
82 37 97 60 92
76 39 17 84 34
67 65 52 89 90
62 97 04 33 81
91 27 56 46 35
83 71 07 22 15
17 55 56 82 62
88 83 86 38 14
63 89 39 81 90
25 62 58 68 87
73 13 79 15 12
18 34 22 24 75
56 47 45 22 81
30 82 38 34 52
57 48 30 34 17
91 28 00 57 30
92 12 38 95 21
15 70 78 50 88
01 07 90 72 77
99 53 04 34 73
33 47 55 62 57
08 21 77 31 05
64 74 04 93 42
20 19 09 71 46
37 32 69 69 89
56 66 25 32 38
64 70 26 27 67
77 40 04 34 63
98 99 89 31 16
12 80 50 28 96
88 40 52 02 29
82 69 34 50 21
74 00 91 27 52
98 72 03 45 65
30 89 71 45 91
87 63 88 23 62
51 07 69 59 02
89 49 14 98 53
41 92 36 07 76
85 37 84 37 47
32 25 21 15 08
82 34 57 57 35
22 03 33 48 84
37 37 29 38 37
89 76 25 09 69
44 61 88 23 13
01 59 47 64 04
99 59 96 20 30
87 31 33 69 45
58 48 00 83 48
94 44 08 67 79
41 61 41 15 60
11 88 83 24 82
24 07 78 61 89
42 58 88 22 16
13 24 40 09 00
65 46 38 61 12
90 62 41 11 59
85 18 42 61 29
88 76 04 21 80
78 27 84 05 99
85 75 67 80 05
57 05 71 70 21
31 99 99 06 96
53 99 25 13 63
(Continúa)
380
CIROMARTÍNEZ BENCARDINO
Estadística básica aplicada
380 Números al azar (continuación) 42 39 30 02 34
99 46 68 45 15
19 74 15 50 17
44 80 13 86 38
40 45 82 13 44
04 52 43 96 38
13 83 80 72 34
20 84 56 19 49
59 14 85 42 99
71 16 34 33 79
82 85 77 30 16
69 32 46 46 30
84 20 68 72 98
94 62 63 59 44
00 89 06 15 87
38 48 84 88 24
55 46 48 60 06
90 08 83 83 98
40 90 88 25 26
85 74 55 80 85
91 19 05 68 22
58 04 63 21 16
23 38 25 43 32
98 94 65 35 35
16 91 07 12 43
54 81 87 21 31
40 46 17 62 63
99 71 14 12 64
51 68 50 60 78
22 69 51 98 37
65 43 75 12 91
20 36 25 57 92
33 65 95 48 75
00 06 65 25 90
16 29 34 14 43
49 98 71 31 80
59 57 32 43 07
85 06 64 75 27
29 17 06 11 30
68 70 97 87 21
03 98 68 89 39
71 87 32 14 99
42 10 25 37 30
08 27 75 43 97
54 20 69 93 50
56 04 21 34 92
89 81 52 15 12
84 11 12 66 87
47 21 06 86 08
35 39 52 28 09
32 52 48 94 61
60 43 08 29 67
86 20 90 03 18
48 22 42 82 59
84 31 00 92 15
79 73 88 64 27
89 92 95 64 78
40 06 16 28 66
54 93 14 19 00
39 11 13 27 55
05 12 93 24 38
18 25 64 65 51
81 15 80 43 36
94 49 89 58 80
80 76 25 65 69
59 72 45 18 64
49 67 78 83 66
72 92 63 42 78
21 14 35 00 16
05 92 74 20 31
22 75 30 52 34
00 43 50 50 91
10 64 18 60 30
48 99 84 23 37
20 03 50 50 05
86 21 48 23 45
01 80 49 33 99
57 92 46 06 55
60 98 81 40 20
72 45 67 83 67
47 02 27 40 96
41 44 06 54 76
83 52 32 56 15
09 45 22 54 07
49 70 54 48 84
36 76 21 72 44
85 55 63 87 29
62 84 18 48 29
23 75 29 90 68
02 56 04 32 34
43 84 04 45 20
18 42 25 25 95
70 15 92 80 82
47 10 21 18 57
83 54 02 09 53
88 82 00 84 16
82 67 66 77 89
78 31 98 11 56
27 07 76 59 71
87 56 99 27 28
83 10 03 87 35
31 89 45 64 40
61 57 87 29 73
69 40 81 83 78
38 48 42 22 29
36 57 72 32 39
32 78 83 08 53
87 69 15 29 29
11 24 78 09 01
35 27 12 80 54
63 83 40 96 33
52 74 75 58 02
66 94 42 87 71
15 33 56 74 49
92 05 98 56 05
85 29 24 77 88
45 67 31 74 66
76 46 33 84 55
50 13 03 00 97
36 18 25 57 31
91 49 28 72 30
03 03 32 57 95
19 01 67 59 15
00 72 44 40 07
93 42 69 48 89
87 60 75 26 58
65 28 70 09 88
76 32 66 08 99
67 99 07 26 67
47 67 42 72 31
93 20 96 93 05
95 71 90 83 58
02 47 28 10 24
80 64 66 52 38
34 94 17 54 28
94 34 73 87 35
33 66 29 50
21 38 74 75 20
54 87 63 74 34
80 48 64 70 79
10 42 12 47 60
31 51 84 25 61
15 76 23 67 84
81 43 35 46 20
95 21 48 80 57
42 57 65 70 17
49 44 83 03 32
53 60 38 20 38
27 02 61 96 31
36 84 25 44 05
14 80 92 91 76
39 57 07 38 03
12 39 71 36 50
82 44 43 32 84
37 77 36 93 64
03 00 22 34 59
83 22 53 06 87
63 11 38 68 14
69 63 25 22 53
49 99 06 31 53
35 10 31 74 97
56 56 24 84 81
54 14 11 24 60
97 32 52 97 29
85 25 07 61 67
75 65 43 98 76
14 42 68 43 55
85 35 29 44 75
95 08 42 39 30
34 12 53 00 91
42 44 24 72 86
52 95 61 21 88
53 57 56 76 42
39 29 24 47 87
06 89 29 41 09
88 16 39 38 57
70 64 36 88 96
88 80 42 18 56
79 44 06 33 07
20 64 21 48 29
13 30 95 40 57
41 19 03 38 11
74 30 45 56 81
14 84 18 09 31
20 98 29 04 09
23 36 64 70 84
35 90 33 28 80
31 42 17 42 14
53 97 26 51 79
56 39 88 41 10
41 86 43 21 65
27 78 35 17 70
05 54 68 00 81
57 73 00 65 27
37 88 17 32 78
23 77 82 23 63
32 70 14 93 29
92 35 32 80 34
12 77 83 97 42
98 41 16 08 33
381
ESTADÍSTICABÁSICAAPLICADA
Apéndice
381
Números al azar (continuación) 65 67 57 25 37
61 14 90 95 89
63 15 38 22 88
67 54 24 16 70
36 03 43 78 99
67 31 48 80 29
29 75 62 66 20
06 95 93 05 22
42 18 68 82 07
35 85 84 11 10
94 07 25 78 88
71 92 56 13 38
00 21 32 91 42
57 87 41 13 39
46 60 33 81 89
98 40 03 05 13
23 79 44 10 06
62 37 35 74 89
37 32 87 50 25
44 94 20 81 69
99 28 14 84 72
37 60 08 57 93
31 46 40 68 65
88 96 64 46 69
09 77 52 93 91
50 07 12 34 37
43 89 16 85 44
26 59 20 40 26
77 28 35 71 03
00 56 60 15 16
43 43 27 67 69
24 70 00 71 43
41 27 40 43 75
26 53 43 14 09
54 03 37 54 29
23 71 33 20 98
75 46 75 11 95
11 27 73 15 47
01 53 39 55 47
27 77 51 39 16
33 39 03 80 68
63 76 38 21 28
89 65 05 32 04
09 18 15 91 48
77 27 49 07 59
70 60 79 38 93
80 47 18 80 30
23 27 51 39 11
56 13 89 58 19
42 45 52 60 02
42 80 22 71 37
41 78 34 80 50
52 35 37 72 51
91 15 29 08 28
59 22 58 29 34
70 15 04 92 81
58 71 82 88 34
67 53 42 67 05
60 96 28 14 96
88 77 62 92 69
89 87 13 76 96
78 80 29 11 43
96 96 75 43 06
24 08 07 41 67
81 13 28 85 66
34 71 21 83 96
26 78 18 33 22
07 54 10 84 39
64 03 35 82 03
68 81 64 19 12
01 56 07 44 40
86 57 76 42 27
84 48 21 76 80
00 59 65 93 84
58 68 72 17 66
48 09 36 95 36
20 82 53 32 89
92 68 50 88 17
37 92 02 23 43
63 24 69 80 91
23 97 10 96 57
74 07 95 26 44
93 08 43 30 41
86 45 74 33 78
84 33 38 76 73
43 97 55 45 98
35 69 45 96 80
46 26 39 96 33
60 20 73 30 79
17 19 03 47 28
40 05 08 50 79
89 58 19 86 48
27 98 99 24 08
94 19 15 81 29
82 14 35 88 03
66 97 10 69 02
25 36 43 71 76
00 67 56 12 69
07 89 55 63 31
50 72 20 33 36
97 58 55 23 12
87 39 84 32 23
26 91 01 11 26
01 24 06 58 20
33 46 38 86 23
84 95 87 34 95
31 23 12 64 75
89 28 38 15 91
81 89 08 86 08
88 20 01 11 67
11 52 38 09 94
32 47 35 42 67
39 33 89 97 16
28 94 86 93 86
96 13 43 85 99
38 69 94 97 10
44 42 85 46 88
55 56 63 58 22
89 19 26 82 25
94 15 54 65 62
23 99 36 33 41
99 76 22 29 19
92 53 92 15 71
47 57 74 69 03
65 57 90 53 17
09 15 95 74 87
09 63 82 63 29
84 57 45 80 07
13 57 40 58 34
21 93 90 39 21
55 75 91 36 57
38 30 89 64 42
01 84 83 12 79
32 09 56 03 81
90 88 00 71 02
84 62 29 92 42
03 92 37 46 19
90 75 68 84 49
53 80 62 19 20
31 14 42 11 17
79 25 70 07 80
85 32 53 87 11
33 79 14 20 04
12 40 31 74 39
80 21 37 65 20
40 10 91 52 27
21 18 64 61 04
85 55 16 90 71
31 95 15 86 74
87 80 75 71 27
93 18 86 63 72
22 53 44 23 89
38 06 46 04 79
67 77 33 21 75
40 51 74 60 53
63 71 69 30 23
12 85 90 05 07
67 33 56 52 60
21 50 72 26 28
48 67 31 87 61
05 29 95 78 06
10 41 62 18 37
42 91 98 43 33
20 58 62 80 65
19 90 07 84 49
30 04 29 90 89
64 25 66 36 41
99 59 15 43 86
34 10 05 99 83
08 02 18 01 22
75 50 83 42 46
80 76 77 34 16
04 05 06 28 86
60 70 04 13 28
98 76 78 43 69
68 42 44 11 33
11 20 42 00 22
40 03 06 12 45
06 32 34 44 18
01 26 36 78 42
51 38 78 69 65
25 98 73 40 31
12 04 99 51 09
49 04 32 68 68
54 64 15 25 68
98 41 81 63 70
58 43 39 93 18
54 46 98 33 01
47 85 39 81 11
48 84 07 64 76
08 44 37 01 53
59 67 11 11 53
16 98 16 52 52
39 32 22 18 22
04 03 06 77 17
17 30 92 82 09
42 37 88 43 35
11 54 89 05 61
10 46 27 43 33
88 92 72 62 01
382
CIROMARTÍNEZ BENCARDINO
Estadística básica aplicada
382
Tabla II de distribución normalnor ordinaria Tab la II una de una distr ib ución mal ordinar ia abla distrib ibución normal ordinaria
Cada cantidad de la tabla es la proporción bajo la Cada cantidad de la tabla es la proporción bajo la curcurva que se encuentra y un valor va que se encuentra entre Z entre = 0 y unZ=0 valor positivo de positivo deZ.Z. Las áreas para valores negativos Las áreas para valores negativos de Zse obtiene porde Z se obtiene por simetría. Simetría. Z
O Z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0 0,1 0,2 0,3 0,4
0,0000 0,0398 0,0793 0,1179 0,1554
0,0040 0,0488 0,0832 0,1217 0,1591
0,0080 0,0478 0,0871 0,1255 0,1628
0,0120 0,0517 0,0910 0,1293 0,1664
0,0160 0,0557 0,0948 0,1331 0,1700
0,0199 0,0596 0,0987 0,1368 0,1736
0,0239 0,0636 0,1026 0,1406 0,1772
0,0279 0,0675 0,1064 0,1443 0,1808
0,0319 0,0714 0,1103 0,1480 0,1844
0,0359 0,0753 0,1141 0,1517 0,1879
0,5 0,6 0,7 0,8 0,9
0,1915 0,2257 0,2580 0,2881 0,3159
0,1950 0,2291 0,2611 0,2910 0,3186
0,1985 0,2324 0,2642 0,2939 0,3212
0,2019 0,2357 0,2673 0,2967 0,3238
0,2054 0,2389 0,2703 0,2995 0,3264
0,2088 0,2422 0,2734 0,3023 0,3289
0,2123 0,2454 0,2764 0,3051 0,3315
0,2157 0,2486 0,2794 0,3078 0,3340
0,2190 0,2517 0,2823 0,3106 0,3365
0,2224 0,2549 0,2852 0,3133 0,3389
1,0 1,1 1,2 1,3 1,4
0,3413 0,3643 0,3849 0,4032 0,4192
0,3438 0,3665 0,3869 0,4049 0,4207
0,3461 0,3686 0,3888 0,4066 0,4222
0,3485 0,3708 0,3907 0,4082 0,4236
0,3508 0,3729 0,3925 0,4099 0,4251
0,3531 0,3740 0,3944 0,4115 0,4265
0,3554 0,3770 0,3962 0,4131 0,4279
0,3577 0,3790 0,3980 0,4147 0,4292
0,3599 0,3810 0,3997 0,4162 0,4306
0,3621 0,3830 0,4015 0,4177 0,4319
1,5 1,6 1,7 1,8 1,9
0,4332 0,4452 0,4554 0,4641 0,4713
0,4345 0,4463 0,4564 0,4649 0,4719
0,4357 0,4474 0,4573 0,4656 0,4726
0,4370 0,4484 0,4582 0,4664 0,4732
0,4382 0,4495 0,4591 0,4671 0,4738
0,4394 0,4505 0,4599 0,4678 0,4744
0,4406 0,4515 0,4608 0,4686 0,4750
0,4418 0,4525 0,4616 0,4693 0,4756
0,4429 0,4535 0,4625 0,4699 0,4761
0,4441 0,4545 0,4633 0,4706 0,4767
2,0 2,1 2,2 2,3 2,4
0,4772 0,4821 0,4861 0,4893 0,4918
0,4778 0,4826 0,4864 0,4806 0,4920
0,4783 0,4830 0,4868 0,4898 0,4922
0,4788 0,4834 0,4871 0,4901 0,4925
0,4793 0,4838 0,4875 0,4904 0,4927
0,4798 0,4842 0,4878 0,4906 0,4929
0,4803 0,4846 0,4881 0,4909 0,4931
0,4808 0,4850 0,4884 0,4911 0,4932
0,4812 0,4854 0,4887 0,4913 0,4934
0,4317 0,4857 0,4890 0,4916 0,4936
2,5 2,6 2,7 2,8 2,9
0,4938 0,4953 0,4965 0,4974 0,4981
0,4940 0,4955 0,4966 0,4975 0,4982
0,4941 0,4956 0,4967 0,4976 0,4982
0,4943 0,4957 0,4968 0,4977 0,4983
0,4945 0,4959 0,4969 0,4977 0,4984
0,4946 0,4960 0,4970 0,4978 0,4984
0,4948 0,4961 0,4971 0,4979 0,4985
0,4949 0,4962 0,4972 0,4979 0,4985
0,4951 0,4963 0,4973 0,4980 0,4986
0,4952 0,4964 0,4974 0,4981 0,4986
3,0
0,4987
0,4987
0,4987
0,4988
0,4988
0,4989
0,4989
0,4989
0,4990
0,4990
Apéndice
ESTADÍSTICABÁSICAAPLICADA
383
Tabla III “t” de Student Tab la distribución III distr ib ución student abla distrib ibución t de
La La primera columna número primeracolumna señalaseñala elnúmeroel degrados deli- de grados de bertad libertad (v). El deencabezado delas las otras las otras columnas de (v). El encabezado columnas de las probabilidades (P) de al que t exceda probabilidades (P)de quetexcedanuméricamente valor de la tabla. al valor de la tabla. numéricamente P
-t
0
t
0,50
0,25
0,10
0,05
0,025
0,01
0,005
1 2 3 4
1,00000 0,81650 0,76489 0,74070
2,4142 1,6036 1,4226 1,3444
6,3138 2,9200 2,3534 2,1318
12,706 4,3027 3,1825 2,7764
25,452 6,2053 4,1765 3,4954
63,657 9,9248 5,8409 4,6041
127,32 14,089 7,4533 5,5976
5 6 7 8 9
0,72669 0,71756 0,71114 0,70639 0,70272
1,3009 1,2733 1,2543 1,2403 1,2297
2,0150 1,9432 1,8946 1,8595 1,8331
2,5706 2,4469 2,3646 2,3060 2,2622
3,1634 2,9687 2,8412 2,7515 2,6850
4,0321 3,7074 3,4995 3,3554 3,2498
4,7733 4,3168 4,0293 3,8325 3,6897
10 11 12 13 14
0,69981 0,69745 0,69548 0,69384 0,69242
1,2213 1,2145 1,2089 1,2041 1,2001
1,8125 1,7959 1,7823 1,7709 1,7613
2,2281 2,2010 2,1788 2,1604 2,1448
2,6338 2,5931 2,5600 2,5326 2,5096
3,1693 3,1058 3,0545 3,0123 3,9768
3,5814 3,4966 3,4284 3,3725 3,3257
15 16 17 18 19
0,69120 0,69013 0,68919 0,68837 0,68763
1,1967 1,1937 1,1910 1,1887 1,1886
1,7530 1,7459 1,7396 1,7341 1,7291
2,1315 2,1199 2,1098 2,1009 2,0930
2,4899 2,4729 2,4581 2,4450 2,4334
2,9467 2,9208 2,8982 2,8784 2,8609
3,2860 3,2520 3,2225 3,1966 3,1737
20 21 22 23 24
0,68696 0,68635 0,68580 0,68531 0,68485
1,1848 1,1831 1,1816 1,1802 1,1789
1,7247 1,7207 1,7171 1,7139 1,7109
2,0860 2,0796 2,0739 2,0687 2,0639
2,4231 2,4138 2,4055 2,3979 2,3910
2,8453 2,8314 2,8188 2,8073 2,7969
3,1534 3,1352 3,1188 3,1040 3,0905
25 26 27 28 29
0,68443 0,68405 0,68370 0,68335 0,68304
1,1777 1,1766 1,1757 1,1748 1,1739
1,7081 1,7056 1,7033 1,7011 1,6991
2,0595 2,0555 2,0518 2,0484 2,0452
2,3846 2,3788 2,3734 2,3685 2,3638
2,7874 2,7787 2,7707 2,7633 2,7564
3,0782 3,0669 3,0565 3,0469 3,0380
30 40 60 120
0,68276 0,68066 0,67862 0,67656 0,67449
1,1731 1,1673 1,1616 1,1559 1,1503
1,6973 1,6839 1,6707 1,6577 1,6449
2,0423 2,0211 2,0003 1,9799 1,9600
2,3596 2,3289 2,2991 2,2699 2,2414
2,7500 2,7045 2,6603 2,6174 2,5758
3,0298 3,9712 2,9146 2,8599 2,8070
383
384
CIROMARTÍNEZ BENCARDINO
Estadística básica aplicada
384
Tab la IV e xponencial y logar itmos abla exponencial logaritmos Exponencial
e
x
y e
Logaritmos Neperianos ln x
x
Logaritmos Decimales x
-x
ln x
x 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
e 1,105 2 1,221 4 1,349 9 1,491 8 1,648 7 1,822 1 2,013 8 2,225 5 2,459 6
e 0,904 8 0,818 7 0,740 8 0,670 3 0,606 5 0,548 8 0,496 6 0,449 3 0,406 6
x 1 2 3 4 5 6 7 8 9
ln x 0,000 0 0,693 1 1,098 6 1,386 3 1,609 0 1,791 8 1,945 9 2,079 4 2,197 2
lg x 0,000 0 0,301 0 0,477 1 0,602 1 0,699 0 0,778 2 0,845 1 0,903 1 0,954 2
x 51 52 53 54 55 56 57 58 59
ln x 3,931 8 3,951 2 3,970 3 3,989 0 4,007 3 4,025 4 4,043 1 4,060 4 4,077 5
lg x 1,707 6 1,716 0 1,724 3 1,732 4 1,740 4 1,748 2 1,755 9 1,763 4 1,770 9
1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9
2,718 3 3,004 2 3,320 1 3,669 3 4,055 2 4,481 7 4,953 0 5,473 9 6,049 6 6,685 9
0,367 9 0,332 9 0,301 2 0,272 5 0,246 6 0,223 1 0,201 9 0,182 7 0,165 3 0,149 6
10 11 12 13 14 15 16 17 18 19
2,302 6 2,397 9 2,484 9 2,564 9 2,639 1 2,708 1 2,772 6 2,833 2 2,890 4 2,944 4
1,000 0 1,041 4 1,079 2 1,113 9 1,146 1 1,176 1 1,204 1 1,230 4 1,255 3 1,278 8
60 61 62 63 64 65 66 67 68 69
4,094 3 4,110 9 4,127 1 4,143 1 4,158 9 4,174 4 4,189 7 4,204 7 4,219 5 4,234 1
1,778 2 1,785 3 1,792 4 1,799 3 1,806 2 1,812 9 1,819 5 1,826 1 1,832 5 1,838 8
2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9
7,389 1 8,166 2 9,025 0 9,974 2 11,023 2 12,182 5 13,463 14,880 16,445 18,174
0,155 3 0,122 5 0,110 8 0,100 3 0,090 7 0,082 1 0,074 3 0,067 2 0,060 8 0,055 0
20 21 22 23 24 25 26 27 28 29
2,995 7 3,044 5 3,091 0 3,135 5 3,178 1 3,218 8 3,258 1 3,295 8 3,335 2 3,367 3
1,301 0 1,322 2 1,342 4 1,361 7 1,380 2 1,397 9 1,415 0 1,431 4 1,447 2 1,462 9
70 71 72 73 74 75 76 77 78 79
4,248 5 4,262 7 4,276 7 4,290 5 4,304 1 4,317 5 4,330 7 4,343 8 4,356 7 4,369 4
1,845 1 1,851 3 1,857 3 1,863 3 1,869 2 1,875 1 1,880 8 1,886 5 1,892 1 1,897 6
3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9
20,086 22,198 24,533 27,113 29,964 33,115 36,598 40,447 44,701 49,402
0,049 8 0,045 0 0,040 8 0,036 9 0,033 4 0,030 2 0,027 3 0,024 7 0,022 4 0,020 2
30 31 32 33 34 35 36 37 38 39
3,401 2 3,434 0 3,465 7 3,496 5 3,526 4 3,555 3 3,583 5 3,610 9 3,637 6 3,663 6
1,477 1 1,491 4 1,505 1 1,518 5 1,531 5 1,544 1 1,556 3 1,568 2 1,579 8 1,591 1
80 81 82 83 84 85 86 87 88 89
4,382 0 4,394 4 4,406 7 4,418 8 4,430 8 4,442 7 4,454 3 4,465 9 4,477 3 4,488 6
1,903 1 1,908 5 1,913 8 1,919 1 1,924 3 1,929 4 1,934 5 1,939 5 1,944 5 1,949 4
4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9
54,598 60,340 66,686 73,700 81,451 90,017 99,484 109,95 121,51 134,29
0,018 3 0,016 6 0,015 0 0,013 6 0,012 3 0,011 1 0,010 1 0,009 1 0,008 2 0,007 4
40 41 42 43 44 45 46 47 48 49
3,688 9 3,713 6 3,737 7 3,761 2 3,784 2 3,806 7 3,828 6 3,850 1 3,871 2 3,891 8
1,602 1 1,612 8 1,623 2 1,633 5 1,643 5 1,653 2 1,662 8 1,672 1 1,681 2 1,690 2
90 91 92 93 94 95 96 97 98 99
4,499 8 4,510 9 4,521 8 4,532 6 4,543 3 4,553 9 4,564 8 4,574 7 4,585 0 4,595 1
1,954 2 1,959 0 1,963 8 1,968 5 1,973 1 1,977 7 1,982 3 1,986 8 1,991 2 1,995 6
0,006 7 0,002 5 0,000 9 0,000 3 0,000 1 0,000 05
50
3,912 0
1,699 0
100
4,605 2
2,000 0
5 6 7 8 9 10
148,41 403,43 1 096,63 2 981,0 8 108,1 026 2222026
M lg e 0 , 43429
1 ln 10 2 , 302 59 M
Apéndice
ESTADÍSTICABÁSICAAPLICADA
385385
Tab la V distr ib ución de Ji cuadr ado abla distrib ibución cuadrado
χ enlatabla.usignificaelnúmeroυdegrados A significaeláreadelextremoderechoparalosvaloresc2 queaparecen delibertad. 2
A = 0,99
A = 0,98
A = 0,95
A = 0,90
A = 0,80
A = 0,70
A = 0,50
1 2 3 4 5
0,00016 0,02 0,12 0,30 0,55
0,00063 0,04 0,18 0,43 0,75
0,0039 0,10 0,35 0,71 1,14
0,016 0,21 0,58 1,06 1,61
0,064 0,45 1,00 1,65 2,34
0,15 0,71 1,42 2,20 3,00
0,46 1,39 2,37 3,36 4,35
6 7 8 9 10
0,67 1,24 1,65 2,09 2,56
1,13 1,56 2,03 2,53 3,06
1,64 2,17 2,73 3,32 3,94
2,20 2,83 3,49 4,17 4,86
3,07 3,82 4,59 5,38 6,18
3,83 4,57 5,53 6,39 7,27
5,35 6,35 7,34 8,34 9,34
11 12 13 14 15
3,05 3,57 4,11 4,66 5,23
3,61 4,18 4,76 5,37 5,98
4,53 5,23 5,89 6,57 7,26
5,58 6,30 7,04 7,79 6,55
6,99 7,81 8,63 9,47 10,31
8,15 9,03 9,93 10,82 11,72
10,34 11,34 12,34 13,34 14,34
16 17 18 19 20
5,81 6,41 7,02 7,63 8,26
6,61 7,26 7,91 8,57 9,24
7,96 8,67 9,39 10,12 10,85
9,31 10,08 10,86 11,65 12,44
11,15 12,00 12,86 13,72 14,58
12,62 13,53 14,44 15,35 16,27
15,34 16,34 17,34 18,34 19,34
21 22 23 24 25
8,90 9,54 10,20 10,86 11,52
9,92 10,60 11,29 11,99 12,70
11,59 12,34 13,09 13,85 14,61
13,24 14,04 14,85 15,66 16,47
15,44 16,31 17,19 18,06 18,94
17,18 18,10 19,02 19,94 20,87
20,34 21,34 22,34 23,34 24,34
26 27 28 29 30
12,20 12,88 13,56 14,26 14,95
13,41 14,12 14,85 15,57 16,31
15,38 16,15 16,93 17,71 18,49
17,29 18,11 18,94 19,77 20,60
19,82 20,70 21,59 22,48 23,36
21,78 22,72 23,65 24,58 25,51
25,34 26,34 27,34 28,34 29,34
(Continúa)
386
CIROMARTÍNEZ BENCARDINO
Estadística básica aplicada
386
(Continuación)
A = 0,99
A = 0,98
A = 0,95
A = 0,90
A = 0,80
A = 0,70
A = 0,50
1 2 3 4 5
1,07 2,41 3,66 4,88 6,06
1,64 3,22 4,64 5,99 7,29
2,71 4,60 6,25 7,78 9,24
3,84 5,99 7,82 9,49 11,07
5,41 7,82 9,84 11,67 13,39
6,64 9,21 11,34 13,28 15,09
10,83 13,82 16,27 18,46 20,52
6 7 8 9 10
7,23 8,38 9,52 10,66 11,78
8,56 9,80 11,03 12,24 13,44
10,64 12,02 13,36 14,68 15,99
12,59 14,07 15,51 16,92 18,31
15,03 16,62 18,17 19,68 21,16
16,81 18,48 20,09 21,67 23,21
22,46 24,32 26,12 27,88 29,59
11 12 13 14 15
12,90 14,01 15,12 16,22 17,32
14,63 15,81 16,98 18,15 19,31
17,28 18,55 19,81 21,06 22,31
19,68 21,03 22,36 23,68 25,00
22,62 24,05 25,47 26,87 28,26
24,72 26,22 27,69 29,14 30,58
31,26 32,91 34,53 36,12 37,70
16 17 18 19 20
28,42 19,51 20,60 21,69 22,78
20,46 21,62 22,76 23,90 25,04
23,54 24,77 25,98 27,20 28,41
26,30 27,59 28,87 30,14 31,41
29,63 31,00 32,35 33,69 35,02
32,00 33,41 34,80 36,19 37,57
39,25 40,79 42,31 43,82 45,32
21 22 23 24 25
23,86 24,94 26,02 27,10 28,17
26,17 27,30 28,48 29,55 30,68
29,62 30,81 32,01 33,20 34,38
32,67 33,92 35,17 36,42 37,65
36,34 37,66 38,97 40,27 41,57
38,93 39,29 41,64 42,98 44,31
46,80 48,27 49,73 51,18 52,62
26 27 28 29 30
29,25 30,32 31,39 32,46 33,53
31,80 32,91 34,03 35,14 36,25
35,56 36,74 37,92 39,09 40,26
38,88 40,11 41,34 42,56 43,77
42,86 44,14 45,42 46,69 47,96
45,64 46,96 48,28 49,59 50,69
54,05 55,48 56,89 58,20 59,70
ÍNDICE TEMÁTICO A Ajuste exponencial 247, 272, 278, 279, 280, 283 Ajuste parabólico 247, 267, 278
C Centro recorrido 89, 90, 151, 152, 166, 167, 168 Coeficiente de correlación 187, 209, 219, 220, 228-233, 235, 238-242, Coeficiente de variación 171, 172, 186, 187, 195, 196, 201-207, 282, 344346, 355, 356 Coeficiente de regresión 209, 216, 221 Combinaciones 320, 321, 329 Conjuntos 90, 318, 321
D Desviación típica o estándar 121, 153, 155, 171-173, 180-192, 195, 201, 203, 210, 211, 232, 335-339, 347, 348 Determinación del tamaño de la muestra 346, 353, 354 Diagramas de frecuencias 67, 68, 85 Diseño de muestreo 352 Distribución binomial 317, 329-333 Distribución de Poisson 328 Distribución ji cuadrado 317, 340 Distribución normal 187, 193, 317, 328, 332, 346, 382 Distribuciones de probabilidad 328
E Empalme 285, 297, 298, 309 Encadenamiento 285, 290, 309
Error estándar de estimación 217, 231, 235, 259, 267, 271, 278 Espacio muestral 319, 320, 322, 323, 329 Estadística descriptiva 2, 9, 11, 121, 129, 156, 158, 343 Estimador 5, 9, 16, 27, 89, 129, 343, 360, 361, 363 Etapas en una investigación 13, 14, 31 Eventos 319, 322-327 Eventos complementarios 322, 323 Experimento 318-324, 328
G Gráfica de barras 88, 369 Gráficas circulares 67, 86 Diagramas lineales 79, 85
H Histograma 65, 67, 68-71, 84-87
I Índice agregativo simple 309, 310 Índice con base ja 289, 314 Índice con base variable 287-290, 311314 Índice de Fisher 293, 295, 310 Índice de Laspeyres 292, 293, 309 Índice de Paasche 293, 309 Índice de precios al consumidor 297, 298, 300, 309, 311, 313-315 Índice de valor 296, 303, 305, 311 Índice simple 286-289 Índices 285, 287, 289, 298, 305 Índices ponderados 290, 292, 293 Inferencia estadística 317, 318, 328, 333, 343, 365
Estadística básica aplicada
388
L Leyes o reglas de probabilidad 321 Límites de con anza 183, 218, 227, 231, 268, 272, 317, 334-337, 362-364
M Media aritmética 90, 91, 93, 160, 164, 196, Media armónica 89, 90, 142-146, 166170, 371 Media geométrica 139, 164 Mediana 107, 162, 191 Medidas de apuntamiento 90 Medidas de asimetría 90, 199 Medidas de dispersión 27, 90, 171, 173 Medidas de posición 90, 121, 129, 169 Moda 111, 163 Muestreo aleatorio estratificado 345, 350, 354, 356, 357, 363 Muestreo aleatorio simple 17, 30, 343, 344, 348, 354, 360 Muestreo por áreas 344 Muestreo por conglomerados 345 Muestreo por etapas 344 Muestreo por fases 345 Muestreo sistemático 17, 30, 345
O Ojiva 65, 67, 71, 85-87
P Parámetro 5, 9, 89, 129, 213-215, 221, 343, 361 Pendiente 213, 240, 267, 282, 372 Permutaciones 320, 321 Pictogramas 65, 67, 72, 85 Polígono 71 Probabilidad a priori 318
Probabilidad empírica 318 Probabilidad subjetiva 318 Probabilidades 317, 318, 321, 325, 328, 330, 344, 383 Promedios 48, 75, 90, 105, 132, 144, 147, 165 Propiedades de la media 101, 130 Propiedades de la sumatoria 35 Prueba 24, 337 Pruebas de hipótesis 337 Puntaje típico 172, 187, 201
R Regresión exponencial 209, 213, 220 Regresión lineal simple 237 Regresión y correlación 209
S Series cronológicas 80, 85, 247 Series de tiempo 4, 80, 247, 277 Sucesos 318-331 Sucesos dependientes 327 Sucesos independientes 326 Sucesos mutuamente excluyentes 324, 326 Sumatoria 33
T Técnicas de muestreo 343 Tendencia lineal 280
V Variable aleatoria continúa 328 Variable aleatoria discreta 328 Variaciones 247, 320 Varianza 121, 129, 158, 171-181, 184-195 Varianza residual 209, 217, 225-228, 232, 235, 240, 259, 271, 274, 278
BIBLIOGRAFÍA •
Barbancho, Alfonso G. Estadística elemental moderna, ediciones Ariel, 1973.
•
Barbancho, Alfonso G. Ejercicios de estadística descriptiva para economistas, ediciones Ariel, 1973.
•
Berenson y Levine. Estadística básica en administración, edit. Prentice Hall, 1992, México.
•
Chevry, Gabriel R. Práctica de las encuestas estadísticas, ediciones Ariel, 1967.
•
Chou, Ya Lun. Análisis estadísticos, editorial interamericana, 1969.
•
Donzallaz, Paul. La estadística comercial, ediciones Aguilar, 1964.
•
Goode, William J. y Hatt, Paul K. Métodos de investigación social, editorial Trillas 1967.
•
Grassau S., Erika. Elementos de estadística, editorial Universitaria. Chile 1969.
•
Kendall, Maurice G. y Bucklan William R. Diccionario de términos estadísticos, publicación del IASI 1959.
•
Kish, Leslie. Muestreo de encuestas, editorial Trillas, 1975.
•
Martínez B. Ciro. Estadística y muestreo (décima tercera edición), editorial Ecoe ediciones, Santa Fe de Bogotá, 2012.
•
Mason y Lind. Estadística para administración, edit. Alfaomega, 1992, México.
•
Mendenhall. Estadística para las ciencias sociales, edit. Educativa, 1987, México.
•
Mendenhall. Introducción a la probabilidad y la estadística, Iberoamericana, 1982, EEUU.
•
Núñez del Prado B. Arturo. Estadística básica para planificación, ediciones Siglo XXI, 1976.
•
Proaño, Humberto. Estadística Aplicada a la mercadotecnia, editorial Diana, 1975.
•
Servin, Luis. Introducción al muestreo, editorial Limusa, 1978.
•
Yamane, Taro. Estadística, ediciones Harla, 1976.
•
Yamane, Taro. Problemas de estadística aplicada, ediciones Harla, 1976.
Este libro fue compuesto en caracteres Times New Roman a 11 puntos, impreso sobre papel Bond de 75 gramos y encuadernado con el método hot melt, en marzo de 2019, en Bogotá, Colombia.
ESTADÍSTICA
BÁSICA APLICADA La Estadística es una disciplina aplicada en todos los campos de la actividad humana, de ahí que se tenga como asignatura indispensable en casi todos los programas académicos, además, en el mundo de los negocios, su conocimiento es considerado de gran importancia ya que suministra instrumentos de investigación que permiten observar, recopilar y controlar actividades de producción, ventas y proyecciones a corto, mediano y largo plazo, optimizando los procesos y estrategias en una empresa. En un lenguaje claro, los capítulos del uno al once desarrollan temas de Estadística Descriptiva: elaboración de cuadros y gráficas; promedios (media aritmética, moda, media cuadrática, geométrica y armónica); medidas de dispersión (varianza, desviación típica); regresión y correlación; series cronológicas; números índices e indicadores económicos. En los capítulos doce y trece se presenta una síntesis de Inferencia Estadística (probabilidad, distribución de medias muestrales y límites de confianza, prueba de hipótesis, distribución «t» de Student y, por último, la distribución Ji-cuadrado) y la aplicación de algunas técnicas de muestreo. Dirigido a estudiantes de Estadística, Contabilidad, Finanzas, Economía, Administración y a todas aquellas personas que tengan interés por la Estadística aplicada en el campo comercial y contable. Colección: Ciencias básicas Área: Estadística
Incluye Formas del uso de la calculadora dependiendo su modelo. Aplicaciones en Excel para agilizar los procesos de cálculo y presentación de los datos. Ejemplos de fácil aplicación y ejercicios para simplificar el aprendizaje de la estadística. Solucionario a los ejercicios propuestos y un apéndice que contiene las tablas estadísticas más usuales.
Ciro Martínez Bencardino Economista de la Universidad Jorge Tadeo Lozano, Especialista en Técnicas en Estadísticas por la CIENES, de Santiago de Chile y Especialista en Estadística Laboral de la Universidad Río de Piedras de Puerto Rico, curso en Bio-estadística de la Universidad de los Andes. Estuvo vinculado a la enseñanza de la Estadística en instituciones como la U. del Rosario, U. Santo Tomás, U. Central, U. Gran Colombia, entre otras y durante muchos años trabajó en el campo de la Estadística, ocupando diferentes cargos gubernamentales. Autor de los libros Estadística comercial (1981), Muestreo, algunos métodos y sus aplicaciones prácticas (1984), Estadística y muestreo que este año alcanza su catorceava edición.
ISBN 978-958-771-747-1
9 789587 717471
ecoeediciones.com
e-ISBN 978-958-771-748-8