360 25 8MB
Spanish Pages [422]
R. B. Avila Acosta
ESTADISTICA ELEMENTAL
RO BERTO B. AVILA ACOSTA ESTADISTICO-DEMOGRAFO Director del Instituto de Biomatemática de la Facultad de Ciencias Matemáticas. Profesor Principal de la Universidad Nacional Mayor de San Marcos. Premio Nacional "Godofredo García" en M atem áticas Aplicadas - CONCYTEC 1988.
ESTADISTICA ELEMENTAL CO N 500 PROBLEMAS RESUELTOS
NUEVA EDICION 19 96
E s u jd io s y EdicioNES L ¡ ma - P erú
R.A.
A SILVIA , MA GA LL Y, MARTHINET
PUBLICACIONES DEL AUTOR: "Sumatorias y Productos" “Manual de Estadística Básica” “Modelo Matricial para analizar la evolución de los efectivos escolares” “Técnicas e Instrumentos de Recolección de datos” “Estadística Aplicada a la Educación” "Aspectos cuantitativos del analfabetismo del Perú” “Perfil Educativo de la Costa del Perú” “MEDICIÓN DE LA DESIGUALDAD SOCIAL : MÉTODO DE LA DISPERSIÓN RELATIVA. (MEDIRA)” “ANÁLISIS SOCIO DEMOGRÁFICO DE LA REGIÓN LORETO” “GUIA PARA ELABORAR LA TESIS” “ESTADISTICA ELEMENTAL”
PUBLICACIONES 1996-1997 “La Agenda Estadística del Perú” “Elementos de Inferencia Estadística y Aplicaciones” “Perfil Socio Demográfico del Perú” “ 1010 Problemas Resueltos de Estadística y Probabilidades" “Modelos Estadísticos en la Investigación” “Marginación y desigualdad Social en el Perú : Una dimensión estructural”
6 > R o b E RTO B. A v í I a A c os t a
PRESENTACION
Esta NUEVA EDICION del libro «ESTADISTICA ELEMENTAL» totalmente renovada, actualizada y ampliada, ha sido estructurada de acuerdo a los programas de estudios de los cursos de ESTADISTICA GENERAL que se vienen desarrollando en las Universidades, Institutos Superiores Tecnológicos e Institutos Pedagógicos; presenta algunas innovaciones didácticas para una lectura activa y amena que facilita el proceso de enseñanza-aprendizaje de la Estadística. Por su ordenamiento, graduación e ilustración de conceptos, propiedades, métodos, fórmulas y aplicaciones es muy útil como TEXTO DE ESTUDIO, cuyo contenido se puede desarrollar totalmente y con suma facilidad en dos semestres académicos. Participo que mi libro «ESTADISTICA ELEMENTAL» está dirigido, preferentemente, a estudiantes y profesionales que utilizan la Estadística como técnica y ciencia auxiliar en su formación profesional, en sus trabajos de investigación o en el desarrollo de proyectos. El contenido ha sido sistematizado con el propósito que estudiantes y lectores logren una mayor comprensión y aplicación de la Estadística Básica, para cuyo efecto se utiliza un vocabulario sencillo y preciso, reforzado a través del desarrollo de más de 200 ejemplos y problemas con datos reales, evitando en todo momento complejidades matemáticas. Para comprender y aprender Estadística, con este libro, es suficiente conocer las seis operaciones elementales de la Matemática. «ESTADISTICA ELEMENTAL» comprende nueve capítulos planificados gradualmente, desde la Estadística unidimensional a la bidimensional, para finalizar con un capítulo de Cálculo de Probabilidades. El primer capítulo tiene como finalidad explicar por qué y para qué estudiar Estadística y precisar cuáles son los objetivos de esta Ciencia, así como familiarizarnos con la ESTADISTICA
ELEMENTAL < 7
terminología y la clasificación de las variables, y una motivación hacia la Investigación Estadística. En el segundo, se presentan las diversas técnicas e instrumentos de recolección de datos, así como la identificación de las fuentes de datos. El tercer capítulo corresponde a las formas de organización y presentación de datos, construcción de tablas, cuadros y gráficos estadísticos. En el cuarto capítulo se estudia el proceso de reducción de datos, determinación y cálculo de indicadores y medidas de resumen estadístico, como los estadígrafos de posición, dispersión, deformación y de apuntamiento, insistiendo en la interpretación, utilidad y aplicaciones. El quinto capítulo presenta en forma detallada los Números Indices, destacando la metodología para calcular Indices de Precios al Consumidor (IPC), la elaboración y análisis de la Canasta Familiar; también se estudia el efecto del IPC en el poder adquisitivo del dinero y los niveles de vida de la población. A partir del sexto capítulo se inicia el trabajo con las estadísticas bidimensionales, o de dos variables, con la construcción de tablas de doble entrada y el cálculo de algunos indicadores, como las frecuencias bidimensionales, además de la Covarianza. El sétimo capítulo corresponde al estudio de la relación o asociación entre variables mediante la Teoría de la Regresión y Correlación, la construcción y aplicación de diversos modelos de regresión y correlación lineal y no lineal. Para completar el objetivo de la previsión y proyección de la Estadística, en el octavo capítulo se estudia las Series Cronológicas o de Tiempo, analizando en detalle sus componentes, construyendo modelos para estimar y proyectar valores de las variables para un período futuro. Como inicio a la Inferencia Estadística en el noveno y último capítulo se hace una introducción al Cálculo de Probabilidades y las distribuciones teóricas de probabilidad, destacando el estudio de la Distribución Normal como modelo de aplicación frecuente en la ciencia estadística. Se completa con un.Anexo sobre Sumatorias, Tablas Estadísticas de mayor uso y una miscelánea de problemas resueltos. Nuevamente reitero mi gratitud y reconocimiento a mis colegas, alumnos y lectores por su constante estímulo, simpatía y sugerencias. Escribir un libro es el desafío más noble de la cátedra universitaria, y difundir ideas es hacer la vida eterna, porque los hombres pasan y las obras quedan Qué mejor satisfacción en mi vida, que tener dos hijas, cultivar valiosas inteligencias en mis alumnos, y ahora dejarles este libro como testimonio de mi compromiso y aporte al desarrollo técnico y científico de nuestra juventud.
Lima, Verano de 1996
8 > RobERTO
B.
A v í Ía A c osi a
R. 6. Avila Acosta
INDICE CAPITULO 1. INTRODUCCION 1.1 1.2
La Estadística...............................................................................................................13 ¿Por qué estudiar Estadística ? .................................................................................. 15 1.3 Objetivos de la Estadística................................................................................... 16 1.4 Breve Reseña Histórica.............................................................................................. 19 1.5 Nomenclatura Estadística........................................................................................... 22 1.6 Elementos Básicos de la EstadísticaMatriz Tripartita deD atos.................................. 24 1.7 Clasificación de Variables : 1.7.1. Según la naturaleza de la variable...................................................................27 1.7.2. Según el orden de las observaciones..............................................................28 1.7.3. Según el número de las variables....................................................................28 1.7.4. Según la escala de medición...........................................................................29 1.7.5. Según la amplitud de las unidades de observación........................................ 30 1.7.6. Según la relación entre variables.....................................................................30 1.8 Elementos de una Variable.........................................................................................31 1.9 La Investigación Estadística........................................................................................33 1.10 Sugerencia de Investigaciones ...................................................................................38 1.11 Pasos en procesamiento de datos deuna investigación en elcomputador................38
CAPITULO 2. RECOLECCION DE DATOS 2.1 2.2 2.3 2.4
La Recolección de D atos............................................................................................ 41 La Información Estadística.......................................................................................... 42 Las Fuentes de Datos................................................................................................. 42 Técnicas de Recolección de Datos: 2.4.1. La Observación................................................................................................. 43 2.4.2. La técnica documental...................................................................................... 44 2.4.3. La Entrevista..................................................................................................... 45 2.4.4. El Cuestionario.................................................................................................. 45 2.4.5. Preparación del cuestionario yformulario.................................................. 46 2.4.6. La encuesta o investigación estadística............................................................49
ESTADISTICA
ELEMENTAL
CAPITULO 3. PRESENTACION DE DATOS 3.1 3.2
3.3 3.4 3.5
3.6
Organización y Presentación de Datos....................................................................... 53 Tablas Estadísticas...................................................................................................... 55 3.2.1. Tablas de Frecuencia o de Distribución............................................................ 56 3.2.2. Cuadros Estadísticos.........................................................................................56 Partes principales de un cuadro estadístico................................................................ 57 Recomendaciones para la Construcción de Cuadros................................................. 61 Construcción de Tablas de Frecuencia....................................................................... 62 3.5.1. Tablas de Frecuencia para variables cuantitativas........................................... 63 3.5.2. Elementos de una tabla de frecuencia.............................................................. 75 3.5.3. Propiedades de las frecuencias........................................................................ 77 3.5.4. Tablas de frecuencia para variables cualitativas o estadísticas de atributos... 78 Los Gráficos Estadísticos.............................................................................................80 3.6.1. Construcción de Gráficos........... .......................................................................80 3.6.2. Principales partes de un gráfico........................................................................ 81 3.6.3. Principales tipos de gráficos...............................................................................81 3.6.4. Gráficos de la distribución de frecuencias........................................................ 82 3.6.5. Miscelánea de gráficos......................................................................................86
CAPITULO 4. R E D U C C IO N D E L O S D A T O S 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18
Generalidades: Estadígrafos........................................................................................93 Estadígrafos de Posición..............................................................................................96 La Media Aritmética : Cálculo y Propiedades...............................................................96 La Mediana : Cálculo y Ventajas dela Mediana........................................................ 110 LasCuartilas.......................................................................................... 121 LasDecilas................................................................. 127 Las Quintilas.............................................................................................................. 128 Los Percentiles........................................................................................................... 128 LasRanilas................................................................................................................ 131 La Moda o Valor M odal.......................................................... 131 La Media Geométrica................................................................................................. 136 La Media Armónica.............. ..................................................................................... 138 Estadígrafos de Dispersión........................................................................................139 Recorrido o rango...................................................................................................... 142 Desviación Media....................................................................................................... 143 Recorrido Semi Intercuartil.........................................................................................144 La Varianza : Cálculo y Propiedades..... ................................................................... 145 Componentes de la Varianza...................................................... 150
w > RobEnm B. Avila A costa
4.19 4.20 4.21 4.22 4.23 4.24
La Desviación Estándar.......................................................................................... 154 Coeficiente de Variación........................................................................................... 155 Aplicación de la desviación estándar........................................................................156 Estadígrafos de Deformación.................................................................................... 157 Estadígrafos de Apuntamiento oKurtosis.................................................................. 159 La Medición de la Desigualdad................................................................................. 161 4.24.1. Coeficiente de Concentración de Giní......................................................... 161 4.24.2. Método de la Dispersión Relativa. MEDIRÁ............................................... 166
CAPITULO 5. NUMEROS INDICES 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8
Generalidades........................................................................................................... 175 Clases de Números indices......................................................................................176 Cálculo de Números Indices : Simples y Ponderados...................................... 177 Indice de Precios al Consumidor : Antecedentes y Aspectos Conceptuales............191 Indice de Quantum y de Valor Unitario..................................................................... 198 Cambio de Base y Empalme.....................................................................................200 Deflactación.............................................................................................................. 202 Principales usos del Indice de Precios al Consumidor............................................. 205
CAPITULO 6. DISTRIBUCIONES BIDIMENSIONALES DE FRECUENCIA 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8
Generalidades........................................................................................................... 209 Tablas Bidimensionales de Frecuencia....................................................................210 Variables Bidimensionales Discretas................................................. .....................211 Variables Bidimensionales Continuas.......................................................................218 Variable Discreta y Variable Continua......................................................................220 Valores M edios...................................... :.......................................’............... ........ 221 Varianza y Covarianza..............................................................................................223 Variables Cualitativas................................................................................................230 6.9 Variable Cualitativa y Variable Cuantitativa..............................................................230 6.10 Asociación entre Variables........................................................................................231
CAPITULO 7. REGRESION Y CORRELACION 7.1 7.2 7.3
235 238 243
Nociones Básicas.......... Regresión Simple......... Regresión Simple Lineal
ESTADISTICA
ELEMENTAL
7.4 7.5 7.6 7.7
7.8
Correlación Lineal.............. ........................................................................................255 Correlación por rangos............................................................................................... 269 Otras medidas de correlación simple............................... 276 Regresión y Correlación Simple No Lineal.......... .'.................................................... 279 La parábola de segundo grado. La función potencial. La función exponencial. La hipérbolaequilátera. Regresión y Correlación Lineal Múltiple.....................................................................300
CAPITULO 8. SERIES CRONOLOGICAS 8.1
8.2 8.3 8.4 8.5 8.6
8.7 8.8
8.9
Generalidades................................................ 313 Componentes de una serie cronológica.....................................................................316 Estudio de la tendencia.............................................................................................. 318 Tendencia Lineal: Ajuste de una Linea Recta............................................................322 La Tendencia Parabólica........................................................................................... 328 La Tendencia Exponencial......................................................................................... 332 Estudio de las Variaciones Estacionales....................................................................338 Las Variaciones Cíclicas............................................................................................ 349 Ajuste de Polinomios............................................................................................ 354
CAPITULO 9. INTRODUCCION A LA PROBABILIDAD 9.1
Noción de Probabilidad.............................................................................................. 358 Espacio Muestral y Sucesos...................................................................................... 361 Axiomas de Probabilidad........................................................................................... 368 Probabilidad de Adición de Sucesos..........................................................................370 Probabilidad Condicional............................................................................................ 372 Teorema de la Multiplicación.....................................................................................375 Sucesos Independientes............................................................................................ 376 Teorema de Bayes..................................................................................................... 379 Distribución de Probabilidad.................... 382 9.10 La Distribución Binomial............................................................................................. 383 9.11 La Distribución Normal............................................................................................... 388 9.12 La Distribución de Poisson......................................................................................... 398
9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9
ANEXO UNO: SUMATORIAS SIMPLES
401
ANEXO DOS: PROBLEMAS.................
409
TABLAS ESTADISTICAS.....................
417
BIBLIOGRAFIA......................................
423
RobeRio B. A v í I a A costa
Capítulo
1
INTRODUCCION
LA ESTADISTICA El origen etimológico de la palabra «estadística» no está bien determinado, puesto que existen distintas opiniones y referencias. Para algunos viene de la voz griega STATERA que significa «balanza», otros sostienen que deriva del latín STATUS que significa «situación», mientras que algunos autores afirman que procede del alemán STAAT que significa «estado». En el caso concreto de suponer que viene del vocablo «estado», es por el hecho que una de las funciones tradicionales del gobierno central y del Estado es llevar registros sobre la situación de la población, nacimientos, defunciones, producción, impuestos y otros hechos contables o de control. La evolución y desarrollo de la Estadística en el mundo actual definitivamente ha superado el significado etimológico de esta ciencia; la Estadística constituye hoy en día un valioso instrumento de decisión en todas las situaciones de la vida, desde el hogar hasta la política nacional y mundial. Un concepto no siempre caracteriza la esencia y contenido de una ciencia, sin embargo es costumbre presentar alguna definición. En el caso de Estadística, se encuentra por ejemplo en el diccionario Larousse, «Estadística es la ciencia que tiene por objeto agrupar metódicamente todos los hechos que se prestan a una evaluación numérica (población, riqueza, impuestos, etc. )». Por su parte, el diccionario de la Academia de la Lengua, establece «Estadística (de Estadista) censo o recuento de la población, de los recursos naturales o industriales, del tráfico o de cualquier otra manifestación de un ESTADISTICA
ELEMENTAL < 13
Estado, Provincia, pueblo, clase, etc. Estudio de los hechos morales o físicos del mundo que se prestan a numeración o recuento y a comparación de las cifras a ellos referentes». En el mundo actual por Estadística debemos entender algo más elaborado de un tratamiento científico. La Estadística ya no es la errónea susceptible y recopilación de grandes masas de datos y presentarlos en de concepción tablas o gráficos; ni tampoco el simple cálculo de totales, promedios y porcentajes, etc. En todo caso estas ideas corresponden a los inicios de la Estadística o a las etapas del proceso estadístico. En el intento de precisar una idea o definición, se puede decir que la Estadística es la «ciencia que tiene por objeto la clasificación y análisis de conjuntos de datos de observaciones, para interpretarlos y obtener leyes y relaciones entre ellas. Es la ciencia que orienta la toma de decisiones a partir del análisis e interpretación de observacion es realizadas en forma directa o experimentalmente». Aún cuando aquí se establece que la Estadística es una ciencia, sin embargo entre los propios especialista s existen algunas discrepancias de considerarla como ciencia o como una técnica. Mientras no se supere definitivamente esta discusión, resultará más preciso describir a la Estadística como «la te cnología d el m é to d o científico» (A.M.Mood), entendiendo que la tecnología se ocupa de la aplicación sistemática de conocimientos científicos para resolver problemas prácticos. En este sentido la Estadística proporciona reglas, técnicas e instrumentos para los investigadores, las que pueden ser de aplicación completamente general y útiles en cualquier campo de las ciencias: física, química, biología, economía, sociología, ingeniería, etc., y en cualquier campo del conocimiento. H. Cramer, sostiene que «el principal objeto de la Teoría Estadística consiste en la investigación de la posibilidad de obtener inferencias válidas a partir de los datos estadísticos, y en la construcció n de métodos para realizar dichas inferencias». Jerzy Neyman, afirma que la «Estadística trata de problemas relativos a las característic as operatorias de las reglas de comportamiento inductivo basado en experimentos aleatorios». Para A. Wald el «objetivo principal de la Estadística es el estudio de las funciones decisorias estadísticas».
14> Robenro B. A v í I a A costa
Proponer ahora una definición de la Estadístic a puede resultar poco significativa porque no se lograría precisar su esencia, su cobertura y los hechos que estudia esta ciencia. A manera de información, conviene indicar que hace más de un siglo Gustavo Rumelin sostenía que había por lo menos 63 definiciones de Estadística, y que pueden añadir otras si se tiene en cuenta el avance de esta disciplina. «La función principal de la Estadística es elaborar principios y métodos que nos ayuden a tomar decisiones frente a la incertidumbre» sostiene Ya Lun Chou, por esta razón podría definirse la Estadística como «un método de toma de decisiones frente a la incertidumbre». La Estadística como ciencia cumple los aspectos principales del método cie n tífic o , tales com o:
i) R e a liza ció n de e xp e rim e n to s y o bse rva cio n e s; ii) obtención de conclusiones o proposiciones objetivas a partir de los resultados de dichos experimentos y observaciones, ¡ii)formula ción de leyes que simplifiquen la descripción de un gran número de experiencias u observaciones. Para conocer una ciencia hay que estudiarla con interés y profundidad, para comprenderla y tener una idea más ciara de lo que es Estadística, será conveniente analizar sus objetivos.
n ^ c-POR QUÉ ESTUDIAR ESTADÍSTICA ? 1. La Estadístic a, como la Matemática, constituye uno de los idiomas esenciales para comunicarse en el mundo universal de la ciencia y la tecnología. La Estadística permite comprender con mayor facilidad la bibliogra fía especializada. La mayoría de los libros, estudios e investigac iones especializ adas en economía , educación, sociología, medicina, psicología, etc., contienen resultados basados en el análisis estadístico. Sin lugar a dudas, aquellos profesionales que no conozcan Estadística tendrán serias dificultades para ser expertos en su respectivo campo científico. 2. En las diversas áreas y especialidades de la formación profesional y científica, la Estadística constituye una ciencia auxiliar y complementaria, ESTADISTICA
ELEMENTAL
que ofrece técnicas, métodos, modelos y procedimientos para el análisis cuantitativo y cualitativo de los fenómenos y hechos que interesa estudiar a los profesionales. La Estadística es una herramienta auxiliar de utilidad inmediata y práctica en el trabajo profesional. Permite registrar hechos, calcular repeticiones, analizar datos y observaciones y calcular indicadores. Ayuda a cuantificar o dimensionar el comportamiento de los hechos y va riables en una población determinada, realizar estimaciones y proyeciones. 3. La Estadística ayuda a desarrollar una investigación rigurosa. La Estadística no es simplemente un conjunto de fórmulas, procedimientos y modelos, la Estadística por la forma como está estructurada operacionaliza los datos, ofrece los fundamentos lógicos en los que se sustenta la investigación básica y aplicada, de allí que la Estadística constituye «la tecnología del método científico». En toda investigación una vez formulado el problema, la tarea inmediata es el diseño del plan de análisis estadístico, antes de obtener los datos en las unidades de análisis. La Estadística participa en la solución del problema, puesto que permite revelar la información vital para la solución de un problema práctico. Ayuda a conocer las características de una población, cuyos resultados orienta la toma de decisiones. La Estadística permite hacer inferencias acerca de una población a partir de datos obtenidos de una muestra representativa. Los profesionales que no conozcan Estadística tendrán serias dificultades para diseñar un plan de investigación y conocer una realidad, que están interesados en transformar o desarrollar. Téngase presente que sólo se puede transformar con éxito aquello que se conoce.
[ ¡ ¡ i] OBJETIVOS DE LA ESTADISTICA En términos generales los objetivos de la Estadística pueden ser clasificados o agrupados en tres grandes capítulos: descripción, análisis y predicción. de grandes colecciones de datos empíricos, reduciéndolos a un pequeño número de características que concentra la parte más importante y significativa de la información proporcionada por los datos. Según la terminología de R.A. Fisher, este proceso se conoce con la denominación de «reducción de datos». La descripción supone que los datos que vienen expresados en su forma natural deben ser clasificados y
a) D escripción
RobERTO B. A v í Ia A cosi a
presentados sistemáticamente en cuadros o tablas como una primera reducción de datos, sin embargo la «reducción de datos» propiamente dicha se obtiene cuando el comportamiento y características de los datos se expresan por un conjunto de indicadores, medidas de resumen o estadígrafos. El trabajo estadístico se inicia con el estudio del problema, la identificación de variables y la recolección de datos. Tanto la reducción como la descripción de la información se estudia en el gran capítulo denominado Estadística D e scrip tiva . Es importante anotar que la descripción estadística de los fenómenos o hechos es el primer aspecto al cual se redujo la ciencia estadística durante mucho tiempo, aplicándose especialmente a los datos demográficos, sociales, económicos, etc. b) A nálisis
estadístico de datos experimentales y de los fenómenos
Toda investigación estadística incluye un problema de análisis de datos experimentales, con el objeto de formarse un concepto de una población o universo y adoptar decisiones. En este caso no es necesario observar toda la población sino que será suficiente elegir una muestra representativa. La preocupación del análisis estadístico es inferir propiedades para una población sobre la base de resultados muéstrales conocidos. Aquí se presenta varios problemas que trata la Estadística de hoy, como aquellos relacionados con el muestreo estadístico, la estimación estadística y el cálculo de probabilidades, las pruebas estadísticas, etc. Estos son aspectos que corresponde esencialmente a la Inferencia
observados.
E stadística
Todo análisis debe suponer la elección adecuada de una muestra representativa, la que será estudiada en detalle para obtener conclusiones y resultados, que dentro de ciertos márgenes de aceptación sean válidas a toda la población de la cual fue elegida la muestra. Por ejemplo, para analizar la sangre de una persona, será suficiente extraer una pequeña cantidad de sangre; del mismo modo para conocer la simpatía o demanda de un artículo, no será necesario consultar o encuestar a toda una población de un país o ciudad, es suficiente elegir una muestra de pobladores o familias, etc. lo cual constituye la máxima aspiración práctica de toda ciencia. Este objetivo de predicción y previsión está implícito tanto en la descripción como en el análisis estadístico, puesto que en general interesa orientar la toma de decisiones con vigencia y efecto en el futuro. «El pasado puede ser evaluado, el presente descrito con cierta exactitud y el futuro puede ser
c) P redicción
o comportamiento de los fenómenos en el futuro,
ESTADISTICA
ELEMENTAL < 17
previsto». La predicción puede entenderse como ia estimación de resultados en el futuro. Con este objetivo se pretende responder por ejemplo, cuál será el volumen de las exportaciones en el siguiente quinquenio; cuál será la población escolar del Perú dentro de 10 años; cuáles serán los niveles de desempleo por sectores en América Latina; qué efecto producirá un incentivo tributario en las futuras inversiones de un país, etc. Naturalmente que las estimaciones y proyecciones dependen del grado de conocimiento del comportamiento pasado y presente de las variables en estudio. Para concretar estos objetivos y fines, la Estadística se vale por una parte del CENSO, que recopila datos del todo, analiza la distribución y variación de las características de los elementos que componen una población claramente definida; por otra parte del muestreo, que permite estimar o inferir características de un todo considerando una parte representativa. En base al análisis de experiencias y evaluaciones pasadas y actuales, hace estimaciones de fenómenos y características para un futuro, propone valores esperados. La Estadística también se vale de una serie de artificios matemáticos y del cálculo de probabilidades, para inferir sobre la validez de supuestos, construir modelos y métodos estadísticos. En sus inicios la Estadística se limitaba a una mera descripción empírica, ahora puede hacer una crítica e interpretación de la situación estudiada, porque ha desarrollado métodos matemáticos y estadísticos para hacer inferencias y pruebas estadísticas. La Estadística Moderna concede mayor importancia al análisis, a las muestras, que a los datos procedentes de toda la población. Quizás para el hombre común, todavía la Estadística es un simple procedimiento de recopilación y acumulación de datos numéricos; en la mayoría de los casos estas acumulaciones estaban relacionadas con las decisiones administrativas, fiscales o militares. La observación o registro de ciertos hechos, constituía naturalmente un primer avance para lograr una explicación o descripción de su comportamiento. El especialista, por su parte, considera a la Estadística como un método científico, un poderoso instrumento del pensamiento. La Estadística ha permitido investigar las propiedades numéricas de los conjuntos de hechos, y de este modo este instrumento de la investigación ha transformado completamente ciertas ramas de la ciencia. Su faceta probabilistica incluso ha resquebrajado sólidas construcciones filosóficas: «ha renovado las discusiones determinismo/probabilidad y la de esencia/existencia» (E.Borei. Probabilité et certitude 1956). RobERTO
B. A v Ü a A c o s i a
La Estadística es una técnica indispensable en la investigación pura o aplicada. En la investigación, el especialista obtiene muestras, toma medidas, tabula datos, efectúa cálculos y luego los interpreta. Los métodos y afirmaciones estadísticas son cada vez más significativos. Los principios básicos de esta rama del sober son requeridos por todo el mundo, sea en el trabajo o en la vida diaria.
BREVE RESEÑA HISTÓRICA Las estadísticas son tan antiguas como la humanidad misma. Los esfuerzos del hombre por evaluar en forma cuantitativa las características que lo rodean, dio como resultado la Estadística. En Egipto, se hacía recopilaciones regulares de datos de la administración estatal. Los hebreos utilizaron datos estadísticos a menudo; así la Biblia menciona el censo que Moisés levantó a instancias de Jahve. En el año 2258 A.C. el Emperador Yao dispuso el levantamiento de un censo en la China. En Roma, se llevaban registros numéricos para fines tributarios, en tiempo de Octavio Augusto se realizó un censo. Algunos sostienen que el año 0, año del nacimiento de Jesucristo, está relacionado con un empadronamiento. Se sabe que el año 727, los árabes realizaron un censo más o menos completo en la península Ibérica. En la Edad Media ya se encuentran estadísticas sistematizadas. El clero se dedicó a la recopilación, ordenamiento y estudio de los datos de tipo demográfico. En el siguió XV durante el gobierno de los Reyes Católicos, en el siglo XVI reinado de Felipe II y siguientes, se levantaron censos relativamente completos. Es digno de mencionar el llamado censo del Marqués de la Ensenada en 1748; así como también las numerosas estadísticas económicas contenidas en et Archivo de Indias de Sevilla. En América morena es posible encontrar algunos antecedentes estadísticos en la época pre colombina. Aún cuando los pobladores del Tahuantinsuyo no conocían la estadística como tal, estaban familiarizados con datos e informes sobre aspectos demográficos y económicos. En el Imperio Incaico existía la costumbre de registrar todos los hechos demográficos y socio económicos, lo cual permitió desarrollar técnicas de ESTADISTICA
ELEMENTAL < £ >
recopilación y archivo de datos. El Inca y su esforzada élite cooperadora, conocían por medio de los Quipus el potencial humano y económico del Imperio y, en consecuencia, deducían las necesidades que debían satisfacer. El Quipu consistía en un cordón central de lana del que pendían otros cordones unidos por otros, que se diferenciaban entre si por su grosor, color, número y forma de nudos. El «nudo» dice Garcilaso de la Vega, expresa el número pero no la palabra. La Yupana o Abaco, era el accesorio del Quipu, y facilitaba el cálculo de grandes cantidades. El Quipu Camayoc era el funcionario que conocía la técnica del registro por medio de los nudos. En el Cusco se ubicaba la Oficina Central de los Quipus. El Quipu sirvió a los antiguos peruanos para levantar los censos de población cada cierto número de años. El Imperio Incaico era una sociedad veraz y, por tanto todos los habitantes estaban acostumbrados a decir la verdad en el acto censal. Durante el despotismo ilustrado de Federico Guillermo I y de Federico El Grande de Prusia, la Estadística pasó a ser una organización estatal. Desde hace mucho tiempo, la Iglesia siempre se dedicó a recopilar ciertos datos demográficos y, a partir del Concilio de Trento (1545-1563), se establece la obligatoriedad de inscribir los nacimientos, matrimonios y defunciones. Los antecedentes históricos de la Estadística se encuentran fundamental mente en la Demografía, recién a mediados del siglo XVII se considera a la Estadística como una disciplina independiente. En Alemania, se creó por pri mera vez la cátedra de Estadística, originándose la Escuela Universitaria Admi nistrativa, la que consideraba la Estadística como una descripción de los fenó menos pertenecientes al Estado, según la orientación de Vito de Seckendorff (1626-1689) y Hermann Conring (1606-1681), quien en 1660 empezó a dictar un curso en la Universidad de Helmstadt. Su discípulo Godofredo de Achenwall (1719-1772), fue el primer gran teórico de la Estadística en lengua alemana y le dio el nombre de Estadística, basándose en el origen etimológico «Status». Por la misma época, en Inglaterra nace la Escuela Demográfica o de los aritméticos políticos, quienes se proponían determinar en forma cuantitativa las leyes empíricas que regían el comportamiento de los fenómenos políticos y sociales, que de ninguna manera eran independientes del volumen, estructura y distribución de la población. Entre los miembros de esta escuela destacaron William Petty (1623-1687), Edmundo Halley (1662-1742), King, Devenant y John Graunt (1620-1674), este último realizó un trabajo matemático de estadísticas vitales y económicas. En Alemania, esta orientación, en dura lucha con la escuela de Achenwall y Schlózer, obtuvo el primer éxito definitivo gracias al esfuerzo de Johann Peter Süssmilch. 20 > R o b rR io B. A v í I a AcosrA
Por la época Contemporánea, en Francia se originó la Escuela de Probabilística, basada en los problemas de juegos de azar planteados a Blas Pascal (1623-1662) por el Caballero de Mére (Antonio Gambaud). La solución de estos problemas motivó el auge del Cálculo de Probabilidades, con destacada participación de Pedro de Fermat (1601-1665), Laplace (17491827), Poisson (1777-1855), los hermanos Bernouilli (Daniel, Jacob y Nicolás), Gauss y De Moivré (1667-1754). Poco tiempo después el Cálculo de Probabilidades toma gran impulso debido a los trabajos de los franceses Borel, Fréchet y Levy, y de los rusos Tchevyshev (1821-1894), Tchuprov, Markov, Kintchine y Kolmogorov (nacido en 1903). Entre los ingleses destacó el clérigo Tomás Bayes. Cabe destacar el aporte de Adolph Quetelet (1796-1874) que fué el priemro en aplicar métodos estadísticos modernos al estudio de conjuntos de datos, razón por la cual se le reconoce como padre de la estadística moderna. Durante el siglo XIX y a principios del XX el trabajo estadístico se caracteriza por el estudio de grandes masas de datos. La ¡dea básica era la colección completa de datos. Pero, a principios del siglo XX y específicamente alrededor de los años treinta, se produjo un nuevo giro en el desarrollo de la Estadística. Nació la Estadística Moderna, la Estadística Inductiva o Inferencia Estadística, la Estadística Analítica. Se espera obtener información de cada detalle en particular; actualmente se buscan métodos que hagan posible obtener conclusiones generales a partir de muestras y de estudios parciales. En la Estadística Moderna, la palabra clave es «muestra». Estos cambios en la teoría y práctica estadística requirieron cada vez más de las matemáticas superiores, entonces surge la Estadística Matemática, cuyos procedimientos característicos son el análisis de la varianza, el cálculo de correlaciones y las pruebas de hipótesis estadísticas. En el campo de la Estadística Moderna destacaron Francisco Galton (18221911) y Kart Pearson (1857-1936), que desarrollaron ideas sobre regresión y correlación, William Gosset (1876-1936) que escribía con el seudónimo de «Student» y Sir Ronald A. Fisher (1890-1962), quienes desarrollaron métodos de trabajo usados en el análisis estadístico y en la prueba de hipótesis. Por su parte en 1894, Jerzy Neyman, conjuntamente con el hijo de Pearson, crearon la Teoría del Muestreo. Otro destacado estadístico fué Abraham Wald (1902-1950) con aplicaciones al campo de la Genética. Resumiendo, en la evolución histórica de la Estadística se pueden distinguir tres fases: ESTADISTICA
ELEMENTAL < 21
1. Censos y empadronamientos (Hasta el siglo XVI). 2. De la descripción de poblaciones a la aritmética política (S. XVI a XVIII). 3. Estadística y Cálculo de Probabilidades (S. XIX a la fecha).
1.5 NOMENCLATURA ESTADISTICA C onsiderando que existe un conjunto de términos que se usan frecuentemente en la Estadística, conviene precisar el significado de algunos de ellos. Estadística, servirá para designar a la ciencia que vamos a estudiar. Estadísticas, se tomará como sinónimo de d a to s estadísticos, servirá
para designar a toda colección sistemática de datos referentes a un determinado fenómeno. Estadístico, es la persona que se dedica al estudio de la Estadística, es el profesional que analiza estadísticas, desarrolla métodos y modelos estadísticos y contribuye a la evolución de la ciencia estadística. Estadígrafo, es cualquier función de datos empíricos que se usa con fines descriptivos o analíticos; son medidas de resumen estadístico de un conjunto de datos, por ejemplo, la media aritmética, la mediana, la varianza, el coeficiente de correlación, etc.
Algunas veces al profesional en Estadística se le da el nombre de «Estadígrafo», término que no resulta muy apropiado si se tiene en cuenta que en diversas Universidades y Centros Superiores, se otorgan el título de Estadístico, Estadístico-Matemático, Ingeniero Estadístico, Master en Estadística, Licenciado en Estadística, etc. D ato , es el valor o respuesta que adquiere la variable en cada unidad de análisis. Dato es el resultado de la observación, entrevista o recopilación en general. Los datos son la materia prima de la Estadística. I nformación , es el resultado de los datos procesados de acuerdo a ciertos objetivos. No hay información sin datos. I ndicadores, son elementos característicos que describen una situación permitiendo su análisis. Son referentes empíricos que permiten una medición, 22 >RobERTO B. A v í I a A cos i a
descripción, ordenamiento de los datos o características en forma válida y confiable. Los indicadores no determinan la realidad, la realidad determina el valor del indicador. La validez y confiabilidad del indicador depende de la validez de los datos utilizados y de la lógica de su relación o construcción. Indicador, es toda cantidad, valor o elemento que permite conocer el estado de un hecho, también permite expresar o conocer la variación, el comporta miento, la intensidad o relación de una o más características, variables, hechos o fenómenos. En este sentido, los llamados índices, tasas, estadígrafos, medidas de resumen, etc., son indicadores. M uestra, es una parte o subconjunto de una población en estudio. La muestra está constituida de elementos seleccionados de una manera deliberada, con el objeto de investigar las propiedades de su población. La muestra sólo da información de aquella población de la que ha sido extraída. Por ejemplo, una muestra de salarios de trabajadores de la industria pesquera de la ciudad de Chimbóte, no nos diría mucho de los salarios de los trabajadores de construcción civil de la misma ciudad, como tampoco se podrá inferir conclusiones válidas para los trabajadores pesqueros de Paita. Parámetro, es un valor obtenido para describir en forma resumida las características pertinentes o más importantes acerca de una población. Son las medidas de resumen de una población, en tanto que las medidas de resumen de una muestra se llamará estadígrafos. Una población puede tener muchas características y por tanto muchos parámetros. P oblación o universo , está referido a cualquier colectivo finito o infinito de elementos que interesan a un estudio. Población es un conjunto completo de individuos u objetos que poseen alguna característica común observable. Población es el número de elementos que definen la cobertura de un estudio. La población es el universo de estudio que está integrado por la totalidad de todas las unidades de análisis. U nidad de análisis , es el objeto o elemento indivisible que será estudiado en una población, sobre los cuales se va a obtener datos. La unidad de análisis no es el fenómeno investigado sino el que genera el fenómeno y proporciona datos concretos. V ariable, es una característica que puede tomar diferentes valores. Las variables son características observables, susceptibles de adoptar distintos valores o ser expresados en varias categorías. Variable es un aspecto específico de la realidad referido a la unidad de análisis, y que puede ser ESTADISTICA
susceptible de ser medido o cuantificado. La variable adquiere un valor determinado en cada unidad de análisis Todas las variables tienen una escala de registro. Puede ser una característica medible (peso, ingresos, coeficiente de inteligencia, grados de estudio, etc.) o una cualidad no medible (estado civil, nacionalidad, sexo, etc.); en general variable es una característica que se puede categorizar. Las variables surgen de los objetivos de toda investigación.
IT?!ELEMENTOS BASICOS DE LA ESTADISTICA M atriz T rip a rtita de Datos Después de la conceptualización de Estadística y la precisión de sus objetivos, es fácil advertir que en el trabajo estadístico existen tres elementos básicos como son: la población o muestra (unidades de análisis), las variables o características, y los datos. En todo estudio, el investigador (sujeto) observa sistemáticamente fenómenos o hechos de algún sector de la realidad (objeto de estudio), donde le interesa analizar algunas características (variables) y que con el propósito de dimensionar o cualificar el fenómeno, registra o simplemente recibe valores ya registrados, es decir obtiene o recopila datos. Por ejemplo, los hechos socio-económicos, debido a la enorme extensión de su objeto, adoptan diferentes formas y generan una estructura que tiene tres componentes o elementos. 1. Los e le m e n to s o unidades de análisis (población) que pueden ser personas, instituciones, objetos, familias, animales y otras unidades más complejas. Estas unidades tienen una característica en común, en cuanto constituyen el objeto de estudio de una investigación. Toda población tiene «N» elementos o unidades de análisis, y una muestra «n» elementos, donde n Robemo B. Avila A costa
3) 40-49
Cuadro N °1.2
MATRIZ TRIPARTITA DE DATOS PRECODIFICADOS SEXO
Cód. 01 02
1
2
EDAD
1
2
3
4
5
0
NIVEL
TENECIA DE
EDUCATIVO
VIVIENDA
1
2 ¡
3
1
2
N° DE HUOS
3
0
1
2
32 I o ta l
I^ C U V S IF IC A C IO nTd E VARIABLES Antes de considerar aspectos relacionados con la recopilación, descripción y reducción de datos estadísticos, es necesario distinguir los diversos tipos de variables que se pueden encontrar en los diversos estudios e investigaciones. Entre los muchos criterios de clasificación, podemos mencionar seis tipos:
1.7.1
SEGUN LA NATURALEZA DE LA VARIABLE
a) V a ria b le s cu a lita tiva s o estadísticas de atributos. Cuando expresan una cualidad, característica o atributo, tienen carácter cualitativo, sus datos se expresan mediante una palabra, es no numérico. Por ejemplo: estado civil, los colores, lugar de nacimiento, profesiones, actividad económica, causas de accidentes, etc. b) V a ria b le s cuan tita tivas. Cuando el valor de la variable se expresa por una cantidad, es de carácter numérico. El dato o valor puede resultar de la operación de contar o medir. Por ejemplo: edad, número de hijos por familia, ingresos, viviendas por centro poblado, niveles de desempleo, producción, utilidades por empresas, etc. Las variables cuantitativas pueden ser: discreta y continua.
ESTADISTICA
ELEMENTAL RobEuro B. A v í I a A c o s i a
b) Estadís ticas b id im e nsio nales Cuando se considera simultáneamente dos variables o aspectos en cada ad elemento del conjunto o fenómeno que se estudia. La bidimensionalid modo requiere que las variables tengan cierta asociación o relación, de de que una variable pudiera de alguna manera explicar el comportamiento madre, la de vo educati nivel el según hijos de número la otra. Por ejemplo, profeso res por edad y tiempo de servicio s, produc ción por años, importaciones anuales, etc. c) Estadís ticas p lu rid im e n sio n a le s s Cuando se considera simultáneamente más de dos variables o aspecto también l ensiona pluridim en cada elemento de la población o muestra. Lo ia, supone que entre las variables exista alguna relación o interdependenc otras y iente depend entre los cuales es posible determinar una variable de independientes Por ejemplo, el consumo según el ingreso y número nda, personas por familia; la demanda, el precio y la inversión en propaga el nivel de fecundidad según la edad, nivel educativo de la madre y área de residencia, etc.
—
1.7.4
SEGUN LA ESCALA DE MEDIC ION
a) V a ria b le s nom inales. en Son aquellas variables que establecen la distinción de los elementos la a ye distribu ellas, entre orden algún diversas categorías, sin implicar civil, estado sexo, s: Ejemplo ías. categor unidad de análisis en dos o más deportes que practica, profesiones, lugar de nacimiento, etc. b) V a ria b le s ord in a le s. Aquellas variables que implican orden entre sus categorías, pero no grados ía, de distancia iguales entre ellas; están referidas a un orden o jerarqu de donde las categorías expresan una posición de orden. Ejemplo: grado instrucción, clases sociales, grado de simpatía, rango de agresividad, orden de mérito, etc. c) V a ria b le s de in te rv a lo Son aquellas que suponen a la vez orden y grados de distancia ¡guales entre las diversas categorías, pero no tienen un origen natural, sino convencional, tiene un cero relativo. Ejemplo: coeficiente de inteligencia, temperatura, puntuación obtenida en una escala, etc. ESTADISTICA
ELEMENTAL RobERT O
B.
A v í I a A c os ta
Ejem plo 1.2 En el caso más simple, para la relación de dos variables. 1. El presupuesto familiar (VD) depende de los ingresos (VI). 2. El volumen de ventas (VD) se explica por la inversión en propaganda (VI). 3. El número de hijos por familia (VD) tiene relación con el nivel educativo de los padres (VI). 4. El analfabetism o (VD) tiene relación con el lugar de residencia (VI) y la expansión del servicio educativo (VI). c) V ariables in te rvin ie n te s o interferent es, son aquellas que coparticipan con la variable independiente condicionando el comportamiento de la variable dependiente. En el caso de la relación entre presupuesto familiar (VD) y los ingresos (VI), algunas variables intervinientes serían la conducta de consumo, la edad de los miembros de la familia, etc.
[ELEMENTOS DE UNA VARIABLE
□
La identificación y definición de variables es la tarea más delicada de toda investigación y del trabajo estadístico. Téngase presente que las variables se deducen a partir de los objetivos de un estudio o investigación. En consecuen cia, para tener éxito en la selección de variables, es recomendable distinguir los siguientes cinco elementos: a) Nombre o denominación de la variable. b) Definición o conceptualización de la variable. c) Un conjunto de categorías o niveles, que es definida por el investigador. Las categorías no son únicas, lo mínimo es dos categorías y dependen de los objetivos de la investigación. d) Procedimientos para categorizar o agrupar las unidades de análisis. e) Algunas medidas de resumen o indicadores.
E¡ em pio 1.3 a) Nombre b) Definición
Veamos la variable estado c iv il: Estado civil o conyugal. Es la situación de la persona empadronada en relación con las leyes y costumbres del país. ESTADISTICA
ELEMENTAL
c) Categoría s : (01) Soltero (a) (02) Casado (a) (03) Conviviente
(04) Viudo (a) (05) Divorciado (a). (06) Separado (a).
También puede ser (01) Soltero (02) No Soltero
d) Categorización : ¿Cuál es su estado civil o conyugal? e) Medidas de resumen, Indicadores : - Distribución porcentual. - Tasa de nupcialidad, que indica la frecuencia de matrimonios, etc. Ejem plo 1.4 Veamos la variable cuantitativa, ingreso : a) N o m b re
Ingresos
b) D e finició n : Son los recursos monetarios netos, incluyendo todas las bonificaciones que percibe una persona por su ocupación principal y secundaria durante el período de referencia de la encuesta. c) C ategorías : Puede proponerse en forma de niveles o simplemente intervalos. Para Niveles de ingreso alto, medio, bajo. Por ejemplo 11 intervalos (dólares) Para Intervalos (02)201- 400 ; (03)401-6 00 (01) Menos de 200 (05)801-1 000 ; (06)1001-1400 (04)601-8 00 (08)1801 -2200 ; (09)2201-2600 (07) 1401-1800 (11) Más de 3000 dólares. (10) 2601-3000 d) C a te g orización e) Ind ica d o re s
¿Cuál fué su ingreso total en el último mes? Ingreso promedio, ingreso mediano, Dispersión de los ingresos, Indice de Gini, etc.
Ejem plo 1.5 El analfabetismo en la población de 15 y más años, dimen sionando a partir de la tasa de analfabetismo. a) N o m b re
Tasa de analfabetismo (%)
b) D efinició n :
Proporción de peruanos de 15 y más años, que no saben leer ni escribir.
3 2 / R o b E R io B. A v í I a A costa
c) C a t e g o r í a s ; Bajo Medio : Alto ; Muy Alto d) C a t e g o r i z a c i ó n e) I n d i c a d o r e s
Menos del 10% De 10 a 20% De 21 a 30% Más de 30%
¿Sabe leer y escribir? Proporción de analfabetos hombres y Analfabetos por área urbano-rural, etc
B U L A INVESTIGACION ESTADISTICA
1.9.1
QUE ES INVESTIG ACION
El objetivo de la Investigación es descubrir respuestas a determinadas interrogantes a través de la aplicación de procedimientos científicos. El punto de partida de la investigación es la existencia de un problema que habrá que definir, examinar, valorar y analizar críticamente, para poder luego formular y entender su solución. Ander Egg (1971), define la Investigación Científica como «un proceso formal, sistemático, racional e intencionado en el que se lleva a cabo el método científico de análisis; como un procedimiento reflexivo, controlado y crítico que permite descubrir nuevos hechos o datos, relaciones o leyes, en cualquier campo del conocimiento, en un momento histórico». La Investigación es un proceso de producción de conocimientos científicos; es un proceso sistemático a través del cual se recogen datos e información de la realidad objetiva para dar respuesta a las interrogantes que se plantean. No hay investigación grande o pequeña, simplemente investigar es buscar respuestas para plantear soluciones. Cuando se aplica el método científico al estudio de los problemas económi cos se habla de investigación económica, asimismo se tiene investigación educativa, investigación agropecuaria, etc. Toda investigación requiere de datos, sin datos no hay investigación, entonces surge la necesidad de definir métodos de análisis o tratamiento de datos, con el propósito de obtener algunas ESTADISTICA
ELEMENTAL R o b c n i o
B . A v í I a A costa
a) P reguntas abiertas, llamadas también ¡limitadas, son aquellas que el investigador responde con su propio vocabulario, sin que se le ponga alguna alternativa, conjunto de palabras o frases. Ejem plo [2.1 • •
Describa brevemente las tareas que realiza en el cargo que ocupa. Anote la tématica de las revistas especializadas que usted conoce.
b) P reguntas cerradas dicotómicas, aquellas que sólo pueden respon derse por un SI o NO, o simplemente cuando sólo tienen dos alternativas.
Ejem plo |2.2 ¿Sabe leer? SI Sexo: Masculino SI ¿Trabaja actualmente? ¿Está Ud. de acuerdo con el aborto? SI
( ( ( (
)1 )1 )1 )1
NO ( Femenino ( NO ( NO (
)2 )2 )2 )2
c) Preguntas cerradas de elección m últiple, son aquellos que proponen un conjunto de alternativas en la respuesta. Ejem plo 2.3 •
Categoría Docente:
.
Edad:
•
¿A 1( 2( 3( 4( 5( 6(
Principal Asociado
Menores de 20 años De 20 a 29 años De 30 a 39 años
( )1 ( )2 ( )3
( )1 ( )2
Auxiliar Jefe de Práctica
De 40 a 49 años De 50 años y más
( )3 ( )4
( )4 ( )5
qué se debe que seamos un país poco desarrollado? ) Poco esfuerzo de sus habitantes. ) Dominio de los países desarrollados ) Falta de conocimientos y tecnología. ) Errores de los gobernantes. ) Herencia colonial. ) Otros
¿ Qué cosa buena para el país quisieras que ocurra en el siguiente año? ESTADISTICA
ELEMENTAL < 47
1( 2( 3( 4( 5( d)
) ) ) ) )
Más inversión y trabajo Menos pobreza Menos corrupción y delincuencia Aumento de salarios Mejora de la Educación
Preguntas literale s, son preguntas abiertas cuyas respuestas se expre san con una palabra o cantidad.
Ejem plo 2.4 • ¿ Cuál es su estado civil ? • ¿ Cuál es su ocupación actual ? • ¿ Cuál es su ingresa total ? • Lugar de Nacimiento. e) Preguntas con respuesta en grados de intensidad, cuyas respuestas indican un grado de intensidad debtro de una escala creciente o decreciente, ascendente o descendente. Hay un abanico cerrado, donde el encuestado tiene que elegir una de las posibilidades. Ejem plo 2.5; •
•
La gestión del Rector de la Universidad, es : Muy Buena ( ) Buena ( ) Regular ( )
Mala ( )
No opina ( )
¿Está Ud. de acuerdo con la política económica del gobierno ? Muy de acuerdo ( ) De acuerdo ( ) En desacuerdo ( ) No responde ( )
D. P autas a )
b)
c) d)
e)
f) g)
para la redacción
y
el
c o n t e n id o
de las
preguntas.
Incluir preguntas estrictamente necesarias para : - Satisfacer los objetivos. - Establecer controles de consistencia en las respuestas. - Individualizar al informante. Incluir preguntas para que el informante recuerde. Evitar las preguntas que obliguen al informante a hacer cálculos y pueda cometer errores. Evitar palabras que provoquen diferentes interpretaciones. Redactar en forma clara y directa. La pregunta no debe sugerir respuestas. Colocar primero las preguntas más simples y menos confidenciales.
48 / R o b E R i o B. A v Ü a A c o s i a
2.4.6
LA ENCUESTA O INVESTIGACION ESTADISTICA
La encuesta es una técnica de recolección de satos, donde se obtiene la información tal como se necesita, preparada exprofesamente y con objetivo estadístico. Permite observar y registrar características en las unidades de análisis de una determinada población o muestra, delimitada en el tiempo y en el espacio. En toda encuesta se hace uso de un cuestionario, cuyas respuestas se registran en el form ulario o cédula Cuando una encuesta está dirigida a la totalidad de elementos de una población, se llama Censo; en tanto, cuando está dirigida a una parte representativa (muestra) de una población, se llama Encuesta por muestreo >La selección de la muestra requiere de técnicas especiales que se analizan en los cursos de muestreo. Hay cuatro maneras de obtener los datos y la información con la Técnica de la Encuesta : a) Con una entrevista o diálogo con el encuestado, cuyos datos terminada la entrevista se registran en el formulario. b) Por empadronamiento, donde el empadronador pregunta o encuesta al empadronado y registra los datos en el formulario. c) Por correo, cuando se envian los formularios por correo al domicilio del empadronado o unidad de análisis. d) Por teléfono o fax, cuando las preguntas se formulan telefónicamente.
Nota 11 La redacción de preguntas deben ser claras, sencillas y compren sibles, diseñadas para obtener el dato o respuesta esperada a las variables consideradas en la investigación. Sólo debe incluirse preguntas que están asociadas a los objetivos y propósitos del estudio. N ota R Las variables, el cuestionario y el formulario deben ser evaluados antes de su aplicación. Por ejemplo trabajar con una Matriz de Formulación y Evaluación del Cuestionario, así como con la Encuesta Experimental.
ESTADISTICA
ELEMENTAL < 49
EJEMPLO DE UN FORMULARIO E s tu d io : "P E R F IL SOCIO ECONOM ICO Y ACADEM ICO DEL ES TU D IA N TE UNIVERSITARIO Esta encuesta es ESTRICTAMENTE CONFIDENCIAL, tiene como finalidad recolectar datos sobre aspectos socio económicos, familiares y académicos del estudiante, a fin de disponer de un marco de referencia, por tanto, agradecemos responder con la mayor sinceridad y seriedad, coloque una x en el paréntesis de su respuesta. CODIGO ó MATRICULA :
AÑO 0 CICLO :
Especialidad : I. D A T O S G E N E R A L E S
1.1. SEXO :
1.2. EDAD en años :
Hombre
( )1
Mujer
( )2
1.3. En qué distrito vive o
Fecha de Nacimiento :
1.4. LUGAR DE NACIMIENTO :
reside actualmente ?
1.5. ESTADO CIVIL :
Provincia :
Soltero
( )1
Casado
Departamento :
Viudo
( )3
Divorciado ( ) 4
Conviviente ( ) 5
Separado
( )2 ( )6
II. A N T E C E D E N T E S E D U C A T IV O S D E L A S E C U N D A R IA
2.1. En qué colegio terminó la Educación Secundarla ? Estatal
( )1
No Estatal ( ) 2
2.3. Cuándo (fecha) terminó la Educación Secundaria ?
2.2. Donde está ubicado su Colegio ? Distrito: Provincia : 2.4. Que año repitió alguna vez ? (D
2.5. Qué asignaturas le agradaban o tenía más éxito en la Secundaria ?
(2 )
(3 )
(4 )
2.4. Qué asignaturas le desaprobó alguna vez en la Secundarla ?
1.
1.
2.
2.
3.
3.
4.
4.
5.
5.
2.7. Está Ud. siguiendo la PROFESION que pensó estudiar ?
SI
( )1
NO
Qué carrera profesional le gustaría seguir 7 ............................................................ III. A N T E C E D E N T E S E C O N O M IC O S D E L E S T U D IA N T E
3.1. Trabaja actualmente en algo ? SI
3.2. Qué hace o qué cargo desempeña 7
( )
Dónde ? ........................................... 3.3. SI TRABAJA en algo ¿En cuánto estima
3.4. SI NO TRABAJA, de quién depende económicamente 7
sus Ingresos mensuales 7 (US $)
50
( ) 1 Menos de 50
( ) 2 de 51 a 100
( ) 3 de 101 a 150
( )4 de 151 a 200
( ) 5 de 201 a 300
( ) 6 Más de 300
> Robcirro B.
A v í I a A c os ta
(5 )
3.5. Cuándo (año) empezó a trabajar por primera vez 7
( )2
IV. ASPECTOS ACADEMICOS UNIVERSITARIOS : 4.2. Cuándo ingresó por primera vez
4.1. Cuándo postuló por primera ve2
a una universidad ?
a una universidad ?
4.4. Qué asignaturas de semestres o años
4.3. En qué asignaturas o cursos está
anteriores le falta aprobar ?
matriculado actualmente ?
1.
1.
2.
2.
3.
3. 4.5. En qué ciclo o año de estudios está
4.
matriculado ahora ? 4.6. Ha seguido otra profesión ?
5.
6. 7.
SI
4.7. AL MES, cuánto estima que gasta en : Derecho de enseñanza SI. Material de enseñanza
( )
Cuál ? ......................... 4.8. Cómo calificaría la enseñanza que viene recibiendo en la Facultad 7
Pasajes, refrigerios, etc. TOTAL
Muy Buena ( ) 1
Buena
( )2
Regular
Mala
{ )4
( )3
V. A S P E C T O S S O C IO F AM ILIA R ES : 5.1. Cuántos miembros
5.2. Vive actualmente con sus padres ? Con Ambos
integran su familia ? 5.3. Nivel Educativo de sus padres : PADRE
MADRE
( ) 1 Con uno de ellos ( ) 2 Con ninguno
tran los ingresos mensuales de : (US $)
1 ( ) Primaria Incompleta
( )1
PADRE
MADRE
2 ( ) Primaria Completa
( )2
1. Menos de 100
( )1
( M
3 ( ) Secund. Incompleta
( )3
2. 100-200
( )2
( )2
4 ( ) Secund. Completa
( )4
3. 201-300
( )3
( )3
5 ( ) Superior Incompleta
( )5
4. 301 - 400
( )4
( )4
5. 401 -500
( )5
( )5
6. 501 -600
( )6
( )8
7. Más de 600
( )4
( )4
6 ( ) Superior Completa ( )6 5.5. Actividad Económica de sus padres 7 PADRE
MADRE
1 ( ) Comercio Ambulatorio
( )1
2 ( ) Obrero
( )2
5.6. Vive actualmente con sus padres 7 Alquilada ( ) 1
Compra Venta ( ) 2
3 ( ) Empleado Público 4 ( ) Empleado Privado
( )4
5 ( ) Empresa propia
( )5
Videograbadora
( H
6 ( ) Profesional Independ.
( )6
Auto o cano
( )2
7 ( ) Agricultor
( >7
Máquina de Escribir
( )3
Computadora
( )4
8 ( ) Trabajador eventual.
( )3
( )8 OBSERVACIONES Y COMENTARIOS : Fecha :
( )3
5.4. Señale en que intervalo se encuen-
Propia ( ) 3
5.7. Su familia tiene :
R e s p o n s a b le :
ESTADISTICA
ELEMENTAL
RobE RTO
B.
A v i U A cost a
Capítulo
PRESENTACION DE DATOS
g¡HORGANIZACION Y PRESENTACION DE DATOS Cuando se realiza la recopilación de antecedentes con fines estadísticos, se obtiene una gran cantidad de datos, algunas veces estos están en su forma natural o empírica (fuentes primarias) y otras ya están organizadas en tablas, cuadros y gráficos (fuentes secundarias). Los datos pueden estar incompletos, incorrectos, desordenados, pero en todos los casos constituyen los datos básicos para iniciar un estudio, conocer y analizar el comportamiento y las características de los elementos de una población. En el trabajo estadístico, siempre se dispone de muchos datos que, definitivamente tienen que ser clasificados, ordenados y presentados adecuadamente, de tal manera que facilite la comprensión, descripción y análisis del fenómeno estudiado, y obtener conclusiones válidas para la toma de decisiones. Supongamos que interesa analizar las características socio económicas de la mano de obra ocupada en la industria textil. En primer lugar, hay que conseguir una lista completa de las fábricas o empresas textiles; con esta lista es fácil conocer o averiguar el número de trabajadores en cada empresa; de este modo queda determinada la fuente de datos (empresas textiles), identificadas las unid a d e s de análisis (trabajadores) y el ta m a ñ o de la p ob la ción . A continuación se definen las va ria b le s y se construye el cuestionario, luego medíante una encuesta o un formulario se recopila los datos que interesa sobre las características socio económicas (variables) de cada trabajador.
ESTADISTICA
ELEMENTAL < 5 3
Como resultado de esta recopilación se dispone de una cantidad de datos, registrado en los formularios tal como fueron captados, en su forma más natural y estadísticamente desordenados. Para facilitar el análisis estadístico y la interpretación de las características socio económicas, es necesario organizar los datos. En general, la organización y presentación de los datos estadísticos, supone realizar los siguientes pasos: a) E v a lu a c ió n y C rític a , que consiste en inspeccionar la validez y confiabilidad de los datos, para corregir los errores y omisiones de acuerdo a ciertas reglas fijas. A partir de datos incorrectos no se pueden obtener buenos resultados. b) Codificación, que es una técnica mediante la cual los datos o respuestas (numérica o verbal) se convierte en un número, símbolo o lenguaje que permita su procesamiento o tabulación electrónica. La codificación implica la definición de criterios de clasificación y de categorízación de las variables con miras a formular el plan de tabulaciones. c) Clasificación, que consiste en establecer las categorías de las variables. d) Procesam iento o Tabulación de datos, que es la contabilización o registro del número de casos (frecuencia o repetición) en cada una de las categorías de la variable, de acuerdo al plan de tabulación previamente establecido. El plan de tabulación es el primer ordenamiento de los datos, cuyos tabulados o tablas son analizados para construir los llamados «cuadros de análisis». La clasificación se puede hacer en relación a una sola variable (clasificación unidimensional), por ejemplo, según la edad, sueldos, nivel educativo o lugar de nacimiento, etc.; o pueden clasificarse de acuerdo a dos variables o características (clasificación bidimensional), por ejemplo, por edad y tiempo de servicios; por sueldo y nivel educativo, etc. e) Presentación de los datos, donde los resultados de la tabulación, una vez evaluados, se presentan en cuadros, tablas y gráficos. La presentación de datos implica tener la información estadística organizada para proceder al análisis e interpretación de los resultados y de los aspectos considerados de la población en estudio. En el trabajo estadístico, lo que se tiene disponible en un primer momento es un material numérico, producto de la observación o recopilación de datos, que son categorizados, ordenados, procesados y presentados en cuadros o gráficos; hay un proceso de resumen estadístico que se concreta con el cálculo de indicadores. 54 > R o b E R i o B. A v í I a A c o s t a
Hay dos formas de presentar ordenadamente los datos estadísticos: i) En forma tabular, como son los cuadros y tablas estadísticas; ¡i) Mediante gráficos y diagramas. Fundamentalmente se usa la forma tabular, los gráficos se utilizan complementariamente para ilustrar mediante figuras el comportamiento de las variables y facilitar la comprensión de los fenómenos estudiados.
TABLAS ESTADISTICAS Las tablas estadísticas presentan ordenadamente los datos estadísticos en filas y columnas, clasificados y agrupados de acuerdo a un criterio específico. En las tablas, metodológicamente, conviene distinguirlas «tablas de frecuencia o de distribución» y los «cuadros estadísticos o de análisis».
CuadroN° 3.01 TABLA DE DISTRIBUCION DE 45 VIVIENDAS DEL DISTRITO EL AGUSTINO, SEGUN EL NUMERO DE PERSONAS POR VIVIENDA. AÑO 1995. F R E C U E N C IA
N° d e p e rs o n a s
N ° d e v iv ie n d a s
F R E C U E N C IA
F R E C U E N C IA
p o r v iv ie n d a
F R E C U E N C IA
R E L A T IV A
ABSO LUTA
R E L A T IV A
V A R IA B L E
ABSO LUTA
ACU M ULADA
ACU M ULADA
3
2
0 ,0 4 4
2
0 ,0 4 4
4
4
0 ,0 8 9
6
0 ,1 3 3
5
12
0 ,2 6 7
18
0 ,4 0 0
6
9
0 ,2 0 0
27
0 ,6 0 0
7
6
0 ,1 3 3
33
0 ,7 3 3
8
5
0,1 11
38
0 ,8 4 4
9
3
0 ,0 6 7
41
0,911
10
4
0 ,0 8 9
45
1 ,0 0 0
m = 8
n = 45
1 ,0 0 0
Fuente: "Encuesta de Hogares del Distrito El Agustino". Julio 1995. Elaboración: Estudios y Ediciones RA. Agosto 1995.
ESTADISTICA
ELEMENTAL < 55
3.2.1
TABLAS DE FRECUENCIA O DE DISTRIBUCION
Son tablas de trabajo estadístico, que presentan la distribución de un conjunto de elementos de acuerdo a las categorías de la variable. En ellas se observa la frecuencia o repetición de cada uno de los valores de la variable, que se obtiene después de realizar la operación de tabulación; las tablas presentan los diversos tipos de frecuencia (absoluta, relativas, etc.), como se indica en el Cuadro N° 3.1. Las tablas de frecuencia también se utilizan para organizar los datos y calcular algunos indicadores, medidas de resumen o estadígrafos.
3.2.2
CUADROS ESTADISTICOS
El cuadro estadístico es el arreglo ordenado, columnas y filas, de datos estadísticos o características relacionadas, con el objeto de ofrecer información estadística de fácil lectura, comparación e interpretación. Un cuadro estadístico es el resultado de trabajos previos (planeamiento, recopilación, tabulación, cálculos, etc.). Estos cuadros constituyen los llamados «cuadros de análisis» que se incluyen frecuentemente en el cuerpo de los estudios, de las investigaciones o de los informes. Cada cuadro estadístico puede tomar una forma particular o propia, sin embargo existen recomendaciones y normas generales para su construcción, que pretenden uniformizar criterios para presentar datos estadísticos. Por ejemplo, en el Cuadro N° 3.02. se presenta la Población Económi camente Activa (PEA) de 15 años y más, de la Región Loreto, clasificada de acuerdo a dos variables: Nivel de Educación y Provincias. Es un cuadro de tipo bidimensional, de dos variables o de «doble entrada»; en esta clasificación se distinguen una Variable Principal (nivel de educación) colocada en forma horizontal y una Variable Secundaria (provincias) colocada en forma vertical). No es la única forma de presentar datos, pero es la más recomendable, si lo permite la naturaleza de las variables. Para diferenciar las variables principal y secundaria, en el título del cuadro, se antepone la palabra POR a la variable principal (nivel educativo) y SEGUN a la variable secundaria (provincias).
56/
RobtRio
B . A v í I a A costa
C u a d ro N° 3 .02 POBLACIÓN ECONÓMICAMENTE ACTIVA DE 15 Y MÁS AÑOS DE LA REGIÓN LORETO POR NIVEL DE EDUCACIÓN ALCANZADO SEGÚN PROVINCIAS. CENSO DE POBLACIÓN DE 1993. (d is trib u c ió n p o rc e n tu a l) N iv e l E d u c a tiv o 21 P r o v in c ia s
T o ta l PEA
T O T A L 1/
T o ta l
S in N iv e l
P r im a ria
S ecun d a ria
Supe r io r
141 7 5 0
1 0 0 .0
7 .5
44.1
3 2 .4
16.0
M aynas
78 890
1 0 0 .0
5 .2
3 6 .0
38.1
2 0 .7
A. A m azonas
22 508
1 0 0 .0
13.5
5 2 .2
2 4 .3
1 0 .0
L o re to
11 0 3 8
1 0 0 .0
12.5
6 0 .5
19.7
7 .3
6 564
100 0
14.0
5 3 .8
2 3 .5
8 .7
R e q u e na
11 8 2 8
1 0 0 .0
7.2
5 8 .5
2 5 .5
8 .8
U ca ya li
10 9 2 2
1 0 0 .0
4 .4
5 9 .7
27.1
8 .8
M . R a m ó n C a s tilla
2/ Se refiere a algún grado o año de estudios Fuente: INEI. Censos Naciona les de 1 9 9 3 . Elaborac ión: Estudios y Edicione s RA. Diciemb re 1994.
IM P A R T E S PRINCIPALES DE UNI rU A n R fl FSTA niSTirn el Cuadro En general, una tabla o cuadro estadístico completo, tal como N° 3.3. por ejemplo, puede tener ocho partes: 1. 2. 3. 4. 5. 6. 7. 8.
Número del cuadro. Título Encabezamiento o conceptos. Cuerpo. Nota de pie o llamadas. Fuente. Nota de unidad de medida. Elaboración.
1) N úmero
del
Cuadro , es el código o elemento de identificación que permite
junto ubicar el cuadro en el interior de un documento. El número se anota es el que con la palabra «cuadro», por ejemplo: Cuadro N° 3.3. indica tercer cuadro del capitulo tres. ESTADISTICA
ELEMENTAL < 57
2) Tít u io , es la descripción resumida del contenido del cuadro. La redacción
del título debe ser breve, claro y completo, de modo que se pueden deducir sin ambigüedad qué tipo de información contiene el cuadro. Un título completo, debe indicar: a) Que :
que hay en el cuadro, se refiere al hecho observado o la característica principal. Ejem plo : Viviendas Particulares; Población Económica mente Activa de 15 años y más; Indicadores Económicos: Alumnos Matriculados; etc. b) Donde : se refiere al lugar geográfico o institución a la que corresponde la información. E je m p lo : del Perú; del departam ento de Tacna; de América; de la Empresa Textil Cahuide S.A.; de la ciudad de Trujillo; del Sector Minero; etc. c) Como : Cómo están ordenados o clasificados los datos en el cuadro. La variable ubicada en la fila de identifica con la preposición «por» y la que está en la columna se le antepone «según». E je m p lo : por material predominante en las paredes exteriores según región natural y área; por nivel educativo según ramas de actividad; por fuentes de financiamiento según programas; por sexo según estado civil; etc. d) Cuando: a qué momento o período de tiempo está referida la informa ción; puede ser un momento específico o puntual, como también un período de varios años, meses o semanas, etc. Ejem plo : Censo de población del 11 de Julio de 1993; Año 1985; Ejercicio 1987; Período 1980 - 1995; etc.
Ejem plo 3.1 Que Donde Como Cuando
(Ver Cuadro N° 3.02) Viviendas particulares, departamento de Arequipa. por tipo de abastecimiento de agua según provincias. Censo de Población de 1993.
o Encabezamiento , es la descripción de las filas y columnas de un cuadro estadístico; el encabezamiento se ubica en la parte superior del cuerpo del cuadro. Indica las variables y sus categorías o intervalos, también puede indicar un período de tiempo.
3) Concepto
58 > R o b E R i o B . A v í I a A c o s i a
O
co CM
T- T-
TT N. o
CO
o
CM
CM
CO
ID
CD
T- o_
CO CM
CO ID
CM
TJo
© 3 O < V © < D en o < £ ©
O E © c
CD
T-
o' T—
CD'
ID
©
5
C © E E © © © O o
CO
ID
CO
CO
CO
ID
O
© O o.
O T-. CD CO co
h-
ai J-3D ”D
CO ID
O
ID
O O) Cco CD
CO
CM
CO CO
rCM
00
G) CM
CM
o
CM
CM CD
■*—
©
a
00
©
co'
ai = co O
E en o
0.
h-
© ■o
O
o o
h
o c E
©
c
> CL
© © © u
© E o >» © o
° s UJ g ZO oj c© 3
•0>
© O
o
S i
c © *o © c N c > © D O o 3
cl
0)
a 09 o c o o
si
O
© *© D. c '3 ro 1© © k_ o. % E © © O < o o 49 > O H- CL
O
LU
< © T3 2OO o .2
© ©
E a GJ n © o c:
^ ©
©■= •g S' g £
O o o o O O O o o o o o O O o § o o o o O o o
Elaboración: Estudios y Ediciones R.A.
(valores porcentuales)
"O
Un idad de Medición :
Número dei Cuadro: Titulo :
C u a d ro N° 3.03 DEPARTAMENTO DE AREQUIPA : VIVIENDAS PARTICULARES a/ POR TIPO DE ABASTECIMIENTO DE AGUA, SEGUN PROVINCIAS. CENS0 1993.
o
T3 O
O
=5 UJ Q£ Q . O
z
ESTADISTICA
ELEMENTAL R o b t R i o
B . A v í I a A costa
En estas tablas, como producto de la operación de tabulación, se observa cuántos elementos (frecuencia o repetición) hay en cada categoría, valor o intervalo de la variable. La tabla de frecuencia constituye la agrupación de elementos que tienen características comunes. Estas tablas presentan diversos tipos de frecuencia (absolutas, relativas o acumuladas). Veamos cómo se construye una tabla de frecuencia para variables cuantitativas (discretas y continuas) y variables cualitativas.
3.5.1
TABLAS DE FRECUENCIA PARA VARIABLES CUANTITATIVAS
Realizadas las observaciones o recopilación de datos, denotaremos la variable por X y los datos originales por: X1, X2, X3, ..., Xn, donde X¡ representa la i-ésima observación de la variable con (i=1,2,3,4,...,n). Es decir que: X 1 = dato de la primera observación. X2 = dato de la segunda observación. X 3 = dato de la tercera observación.
Xn = dato de la n-ésima observación. En este caso el subíndice «i» es un número entero, que expresa el orden de la observación. Asimismo, diremos que este conjunto de «n» observaciones constituye una muestra de tamaño «n». No olvidemos que habrá tantos valores de X como elementos tenga la población o muestra. Si se tiene Xv X2, X3, X4, X5, X6 observaciones, entonces n=6 constituye el número de observaciones realizadas, es decir la muestra tiene 6 elementos. En general, para construir una tabla de frecuencia, se requiere realizar dos operaciones : i) La Clasificación, que consiste en determinar las categorías, los distintos valores que toman las variables o los intervalos de clase. ii) La Tabulación, que consiste en distribuir los elementos de la población en la respectiva categoría o intervalo de la variable. Aquí se contabiliza cuántos elementos hay en cada categoría, es decir, determinar cuántas veces se repite (frecuencia) cada valor distinto o categorías de las variables. ESTADISTICA
ELEMENTAL
Cuando la población o muestra es relativamente grande, los datos se tabulan en forma mecánica o electrónica, utilizando las computadoras para obtener las tablas de frecuencia o cuadros de salida. Mediante este proceso se puede tabular simultáneamente una o más variables, y desde luego calcular algunos indicadores y modelos estadísticos. Si la población o muestra es pequeña o tiene pocos elementos, se puede tabular en forma manual; en este procedimiento, para las frecuencias o repeticiones, se usa una rayita vertical(/) que se va agrupando cada cinco casos como W/.
A. TABLAS DE FRECUEN CIA DE VARIABLE DISCRETA Variable Discreta es aquella cuyo valor sólo se puede expresar por números enteros positivos; los valores corresponden a puntos aislados de la recta numérica. Ejemplo 3.2 En una muestra de 20 pequeñas empresas considerar el número de trabajadores por empresa. Con estos datos, determinar la distribu ción (tabla de frecuencia) de las empresas según el número de trabajadores. Aquí los tres elementos básicos serán: Población o muestra : 20 empresas (n=20) Variable X = Número de trabajadores por empresas. Datos
:
X¡ (i = 1,2,3.... 20) o simplemente (i = 1720)
lo que significa que habrán 20 datos cuyos valores son:
X -4 II ■ts.
-'T
X9 = 5; Xi4 = 2;
x io =
5'
X 15= 4 CM
CO II o
X i9 “ 5'
X5 = 3;
X
*1 8 = 6
h
X 17 = 4 ;
X
X i2 - 5;
CD II ti co co oo T— X X
X ,1 = 4; X 16- 3;
h
X 2 = 5;
X
X, = 6; X6 = 3;
Para la construcció n de la Tabla de Frecuencia , tal como se indicó anteriormente, primero se clasifican o determinan los distintos valores de X! y luego se tabula. Veamos: ¡) La C l a s if ic a c ió n : en este caso se identifican los d is tin to s v a lo re s que tiene X¡, primero se ubican el mayor y menor valor de X¡ como son Xm|n 2 y Xm'ax = 6 ,0 sea, los valores de la variable van de 2 a 6 que al final da R o b tR io
B . A v i l a A c os ta
la serie: 2,3,4,5,6 empleados; la variable original X¡ tiene cinco valores distintos. A los distintos valores que toma la variable X¡ la vamos a denotar por y y5=6 y4=5; y3=4; y2=3; resultando: y1=2; en este caso y¡ (i=1,2,3,4,5) o simplemente y¡ (i = 175)- Si m=número de valores distintos de X|, entonces m=5. En general, y¡ (i=1,2.... m) donde m < n, en el ejemplo n = 20, m = 5, es decir que los y¡ son menos que las X¡, lo cual conduce a una reducción de datos. i¡) La T a b u l a c ió n : consiste en determinar cuántas empresas hay en cada una de las cinco categorías, es decir, cuántas veces se repite cada valor de y¡. El número de veces que se repite cada y¡ se llamará Frecuenc ia A b solu ta o Repetició n, que se denota por n¡ o por f¡. En el ejemplo, como se trata de una muestra muy pequeña, se puede tabular a mano usando rayitas o tarjados, resultando el Cuadro N° 3.04. La construcción de una tabla de frecuencia, en ninguno de los casos, supone pérdida de información, al final la suma de las repeticion es o frecuencias debe ser igual al número total de observaciones o datos originales. Cuadro N° 3.04 D IS T R IB U C IO N D E 2 0 E M P R E S A S S E G U N E L N U M E R O D E T R A B A J A D O R E S . 1994. N ú m e r o d e v e c e s q u e s e r e p it e n lo s d i s t in t o s
N ú m e ro de
v a lo r e s d e la v a r ia b le
tr a b a ja d o r e s
Valores de
Tabulación en rayitas
y,
Repeticiones o frecuencia n, absolutas
y, = 2
/
n, = 1
y2=3
////
n; =4
y3 = 4
y4 = s y5 = e
•4-Lll II t+u. III
=7 n4 = 5 n5 = 3 n3
n
T o ta l
=
20
Fuente: Registro de Pequeñas Empresas. Julio 1994.
ESTADISTICA
ELEMENTAL \6 5
Las dos columnas de la tabla que hemos construido, constituyen las columnas básicas de toda tabla de frecuencia, a partir de las cuales se puede determinar otros elementos o frecuencias. B. TABLAS DE FRECUENCIA DE VARIABLE CONTINUA Una variable continua es aquella que puede tomar cualquier valor del conjunto de los números racionales, es decir, su valor puede ser un número entero o una fracción. Como siempre, llamaremos Xv X2, X3 ... Xn a los datos originales, donde Xj (i = 1, n) es la i-ésima observación y «n» el número de observaciones. De igual modo, para construir las tablas se tiene que realizar las operaciones de clasificación y tabulación. Considerando que la variable continua toma valores racionales, se acostumbra presentar los datos utilizando Intervalos de Clase en las tablas de frecuencia. Por lo tanto, la clasificación consistirá en determinar el número de intervalos (m) y la amplitud de cada intervalo (c). En todo conjunto de valores de la variable X¡ es posible conocer el máximo (el más grande) y el mínimo (el más pequeño) valor de X¡, donde Xmax - Xmin constituye el recorrido (R) de la variable. Gráficamente el recorrido es un gran segmento.
que se puede dividir en un número arbitrario de intervalos o pequeños segmen tos. Si m = número de intervalos, entonces: la amplitud de cada intervalo (c) es: = * max ~ xmin _ Recorrido Total =R n Numero de intervalos m El punto medio de cada intervalo se llama MARCA DE CLASE y se denota por y¡ con x¡ (i = 1,m). Supongamos que Xm¡n = 8; Xmax = 32. 6 6 7 Robenio B. A v Ü a A costa
32
8
entonces el recorrido R = Xmax - Xm¡n = 32 - 8 = 24; si se divide en 6 intervalos, resulta que la amplitud de cada intervalo es 4.
c=
3 2 -8 6
Gráficamente los intervalos son:
8
12
16
20
24
28
32
N o ta H La amplitud o longitud de los intervalos no siempre son iguales; pueden utilizarse amplitudes desiguales, pero siempre relacionados con una amplitud de intervalo como unidad. En general, hay tres tipos de intervalos: a) Intervalos de igual amplitud. b) Intervalos de diferente amplitud. c) Intervalos abiertos.
(a)
Peso (Kg) 20,1 30,1 40,1 50,1 60,1
-30 -40 -50 -60 -7 0
(b) Edades (años) 3- 5 6 -1 4 1 5 -2 4 2 5 -3 9
(c) Ingresos (soles) Menos de 500 501 - 1000 1001 -2000 2001 - 3000 3000 - 4000 4001 y más.
ÍÑ o ta B El número de intervalos (m) es arbitrario, sin embargo es recomen dable tener presente los siguientes criterios:• •
Naturaleza de la variable. ESTADISTICA
ELEMENTAL
Robenio B.
A v í I a A costa
Primera Forma < L ,-L J 320 - 370 370 -4 20 420 - 470 470 - 520 520 - 570 570 - 620 6 20 -6 70
Segunda Forma L ,-L s 320.1 -370 370.1 -420 420.1 -470 470.1 -520 520.1 -570 570.1 -620 620.1 -670
En la primera forma se usa un concepto matemático, de intervalo abierto (paréntesis) y de intervalo cerrado (corchete). Donde (L¡ - Ls] significa que es abierto por la izquierda y cerrado por la derecha, es decir que en cada intervalo no está incluido el extremo inferior (LM) pero sí lo está el extremo superior (Ls). En tanto que la segunda forma, numéricamente es más práctica, puesto que directamente indica los valores comprendidos en cada intervalo. En este texto usaremos preferentemente la primera forma. 5o El punto medio de cada intervalo, es la MARCA DE CLASE, que se denota con y¡ donde: 320 + 370 yi = — ò— = 345 420 + 470 . . . y 3 = ------ -------= 445
520 + 570 ' _ y 5 = ------ -------= 545
620 + 670 y 7 = --------------= 645
6 o Finalmente se organiza la tabla:
ESTADISTICA
ELEMENTAL RobeRio B.
11
5 8 7 -6 1 3 -6 1 0 -6 0 0 5 9 1 -6 0 7 -5 8 0 -5 7 1
m= 7
9
5 6 0 -5 6 5 -5 6 0 -5 2 8 -5 2 6 -5 7 0 5 3 7 -5 5 0 -5 5 8 -5 6 0 -5 3 0
6 2 0 -6 7 0
14
5 0 0 -5 1 2 -4 9 2 -5 0 1 -4 7 1 5 0 0 -5 1 8 -4 8 0 -5 0 7
l7:
8
6
n = 60
La frecuencia representa el número de empleados en cada intervalo según el sueldo. De este modo se obtienen las frecuencias o repeticiones (n¡) resultando el Cuadro N° 3.06. donde se aprecia los intervalos, las marcas de clase (y¡) y las frecuencias absolutas n¡ ó f¡, con m=7 intervalos. C u a d ro N° 3.06. D IS T R IB U C IO N D E 6 0 E M P L E A D O S D E L A E M P R E S A P IR A M ID E S .A . P O R S U E L D O S M E N S U A L E S . 1995
Total F u e n te :
E la b o r a c ió n :
=
4
co
ni
na = 14 II co
y1 = 345 y2 = 395 y3 = 445 y4 = 495 y 5 = 545 y6 ~ y7 = 645
II
320 - 370 370 - 420 420 - 470 470 - 520 520 - 570 5 70 -6 20 620 - 670
N° de trabajadores n¡ = f¡
o c=
Marca de clase Vi
-
Intervalos (US.$.) (L ,-y
n5 = 11 n6 = 8 n7 = 6 n = 60
Planillas de Sueldos y Salarios de la Empresa Pirámide S.A. Junio 1995. Estudios y Ediciones RA. 1995
Para 5 intervalos, la tabla de frecuencia es:
- 390 - 460 - 530 - 600 - 670
m - 5
y1 = 355 > 2 = 425 y3 = 495 y4 = 565 ys = 635
ii
320 390 460 530 600
Vi
c”
(L, - L J
n1 = 8 n2 = 14 n3 = 16 n4 = 13 n5 = 9 n = 60
ESTADISTICA
ELEMENTAL < 7 3
¿Las tablas de frecuencia con intervalos se usa solamente para variables continuas? NO, las variables discretas también se puede presentar en tablas con intervalos, como se aprecia en el Cuadro N° 3.07. C u a d ro
N° 3 . 0 7 . D IS T R IB U C IO N D E 1 1 5 F A M IL IA S D E LA C IU D A D D E T R U J IL L O , S E G U N E L N U M E R O D E H IJ O S P O R F A M IL IA , 1 9 9 3 .
Número de hijos por familia
Marca de clase
Número de familias
L m * L,
y¡
ni
i y2 = 4
m = 44 C
y3 = 7
n3 = 16
li
10
o
O
'd-
11
C
m =4
ID
CN
*< -li
■
y t=
II
0- 2 3- 5 6- 8 9 -1 1
n =115
Por otra parte, las variables continuas también se pueden presentar en tablas sin intervalos, como se ilustra con las edades.
C u a d ro
N° 3 . 0 8 . D IS T R IB U C IO N D E L O S A L U M N O S D E L P R IM E R G R A D O D E L C E P . « G O D O F R E D O G A R C IA » S E G U N E D A D , J U N IO 1 9 9 2 .
"i n1 = 3 n2 = 18 n3 = 12 n4 = 9
II
y¡ CJl
N° de alumnos
*
R o b erto B . A vi'I a A c os t a
3.5.2
ELEMENTOS DE UNA TABLA DE FRECUENCIA
En toda tabla de frecuencia completa, se identifican los siguientes elementos: de la variable o intervalo de clase, que resulta de la clasificación o categorización de la variable. Se representa por Y¡ a los puntod, y por L¡- Ls a los intervalos de clase.
1) V alor
absoluta o repetición, es el número de veces que se repite un determinado valor de la variable; en el caso de intervalos es el número de observaciones comprendido en dicho intervalo. Se representa por n¡ con (i= 1,2,,..m) donde «m» representa el número de valores distintos que toma la variable X¡ o el número de intervalos considerados (m ii o RobERTo
B.
A v i l a A costa
aprecia en el Gráfico N° 3.02., que corresponde al Cuadro N° 3.09. referido a la distribución de pequeñas empresas según el número de trabajadores.
GRAFICO N° 3.02
GRAFICO N° 3.01
DIAGRAMA DE FRCUENCIAS ABSOLUTAS
GRAFICOACUMULATIVO DE FRECUENCIAS ABSOLUTAS
n¡ f¡
20 i 17
12
1
5
:
T
1 1 1
1 •
0
b) F recuencias
2
3
4
5
6
7 Y¡
de variable c o n t i n u a
En el caso más general, las variables continuas se agrupan en tablas de frecuencia con intervalos, por lo tanto, se trata de representar gráficamente intervalos en el eje horizontal. La representación gráfica de las frecuencias (absolutas o relativas) se hace mediante el Histogram a de Frecuencias, que está constituido por un conjunto sucesivo de rectángulos, cuya base es igual a la amplitud de un intervalo y la altura igual a la respectiva frecuencia, como el Gráfico N° 3.03. correspondiente a las frecuencias del Cuadro N° 3.10. Para construir el histograma de frecuencias, se indican en el eje horizontal los extremos de los intervalos L¡ - Ls, y en el eje vertical el valor de las frecuencias (n¡ ó fj).
ESTADISTICA
ELEMENTAL< 83
Otro gráfico que se usa para representar las frecuencias, es el Polígono de Frecuencia, que se construye como sigue: en cada punto medio o marca de clase (Y¡) de cada intervalo se levanta un segmento de altura igual a la respectiva frecuencia (n¡ ó h,), luego une los extremos con una línea poligonal, resultando el Polígono de Frecuencia, como se ilustra en el Gráfico N° 3.04. Para completar los extremos, se extiende el polígono en media amplitud del intervalo en cada extremo. Por su parte, las frecuencias acumuladas (absolutas o relativas) se grafican mediante los Polígonos Acumulativos de Frecuencias. De igual manera, en el eje horizontal se ubican ios extremos de los intervalos y en el eje vertical el valor de N¡ ó H¡. En el extremo superior de cada intervalo se levanta un segmento de altura igual a la respectiva frecuencia absoluta, luego partiendo del extremo inferior del primer intervalo se une, con segmentos de recta, los extremos de los segmentos verticales, obteniendo una línea poligonal que, a partir de la última frecuencia acumulada, se extiende paralelamente al eje horizontal, obteniéndose la gráfica del Polígono Acumulativo de Frecuencias (Gráfico N° 3.05.).
N o ta E Todo gráfico estadístico es la representación de cantidades números o medidas por figuras o dibujos, por lo tanto se construyen con relación a una escala de medida que debe conocerse. El tamaño y la forma del gráfico debe interpretarse numéricamente, como una aproximación del verdadero valor del fenómeno o variable que representa.
G R A FIC O N° 3.03 HISTOGRAMA DE FRCUENCIAS ABSOLUTAS
8 4 >RobE Ri o B. A ví I a A cosí a
16 T
GRAFICO N° 3.04 POLIGONO DE FRECUENCIAS
GRAF ICO N° 3.05 POLIGONO ACUMULATIVO DE FRCUENCIAS (OJIVA)
Parala realización de sus gráficas le sugerimos utilize la Hoja de Cálculo Excel, debido a que éste aparte de la gran variedad que incorpora (de 2 y 3 dimensiones, curvas y pictogramas); cuenta con un Asistente que le guía paso a paso en la elaboración de los mismos. La versión de esteprograma para Windows 95 posibilita la estratificación de Mapas. En el caso de la elaboración de Pirámides emplee Harvard Graphics. ESTADISTI CA
ELEMENTAL < 8 5
3.6.5. MISCELANEA DE GRAFICOS GRAFICO N° 3.06
SERIE CRONOLOGICA
PERU : EXPORTACION DE HARINA DE PESCADO A EUROPA. 1988-1994.
Fuente: Prom. Perú. "Perú en Cifras". 1995.
GRAFICO N° 3.07
NUBE DE PUNTOS O DIAGRAMA DE ESPARCIMIENTO
PERU : POBLACION RURAL (%) Y TASA DE MORTALIDAD INFANTIL (x 1000) EN UNA MUESTRA DE 13 PROVINCIAS DE LA ZONA ANDINA. CENSO 1993.
Fuente : INEI. Censos Nacionales de 1993.
8 6 /R o b E R T o
B. A v í I a A costa
GRAFICO N° 3.08
TASAS ESPECIFICAS POR EDAD
PERU : TASAS ESPECIFICAS DE FECUNDIDAD, SEGUN EDADES. 1981 y 1993 Edad
TEF 1981 1993
Grupos de 15-19
0,007
0,062
20-24
0,222
0,164
25-29
0,244
0,168
30-34
0,208
0,140
35-39
0,161
0,099
40-44
0,078
0,046
45-49
0,019
0,010
TGF
5,1
3,4
Fuente : INEI. Perú : Niveles y Tendencias de la Fecundidad. Lima, Agosto 1995.
GRAFICO N° 3.09
BARRAS SIMPLES
P PARAGUAY : VIVIENDAS QUE DISPONEN DE SERVICIOS BASICOS. 1972 y 1992.
%
Agua
Luz
Desagüe
Fuente : Censos de Población de Paraguay. 1992
ESTADISTICA
ELEMENTAL
GRAFICO N° 3.10
BARRAS COMPUESTAS
PERU : MUJERES QUE USAN METODOS ANTICONCEPTIVOS MODERNOS Y TRADICIONALES, SEGUN NIVEL DE EDUCACION. 1992. 80,0 70.0 eo,o 50.0 40.0 30.0
20.0 10,0
0,0 Sin Educación
Primaría
Secundaria
Superior
Fuente: ENDES 1991/92.
GRAFICO N° 3.11
SECTORES CIRCULARES
PARAGUAY : DEFUNCIONES DE MENORES DE 5 AÑOS POR ENFERMEDADES INMUNOPREVENIBLES. 1992.
Tos Ferina S aram pión
% T o s F e rin a
1 0 ,7
T é ta n o
3 9 ,3
D ifte r ia S a r a m p ió n
Tétano
Difteria Fuente : Ministerio de Salud. Dpto. de Bioestadística.
88
> RobERto B.
A v í I a A costa
3 ,6 4 6 ,4 1 0 0 ,0
CORONA
GRAFICO N° 3.12
LA LIBERTAD : POBLACION DE 15 Y MAS AÑOS Y 1993, POR NIVEL EDUCATIVO ALCANZADO. 1981 □ Sin Nivel B Primaria B Secundaria □ Superior
PIRA MIDE S
Gráfico N° 3.13.
LOS PAISES POBLACION POR GRUPOS DE EDAD DE 2000. AÑO AL ADA ARGENTINA Y BOLIVIA ESTIM
--------------------- ARG ENTINA____________ 80 y +
i.a p g ) i , *
75 - 79 70 - 74
1,4 1’6 a ,4 É l|g 8 j a .4
86 - as 60 - 54
a.P | | É j $ d a .*
55 - 58 50 - 54
BOLIVIA
B m w é i» SSuuUr
a.o á.» «.a «.o
4 -2 : :
45 - 48 40 - 44 35 - 38
• .i i i p & S & j « i «.« 6 ,4 l l m f l ® «.a * .■ A 7 É É É É É g ¿ & M i 7,7 8 .0 0.0 8,1 8.1 8,1 0.1
30 - 34 25 - 28 20 - 24 15 - 18 10 - 14 5 - 8
».3Í «.«
0 -4 1 8 ,0
S i® wes&ss 8,3
1 0 ,0
0.8
S ,0
0 ,0
5 ,0
1 0 ,0
1 5 ,0
ESTADISTICA
ELEMENTAL
RobeRio B.
A v í I a A c o s ta
hay seis mujeres infectadas por cada cuatro hombres en Africa
Capítulo
4
REDUCCION DE DATOS
PflGENERALIDADES
; ESTADIGRAFOS
Los tres capítulos anteriores están referidos, con cierto detalle, a la clasifica ción de variables, recolección de datos, construcción de tablas de frecuencia y a la representación gráfica, como fase preliminar en la descripción y análisis estadístico. El objetivo principal de esta primera etapa, ha sido determinar la naturaleza y formas de la distribución de frecuencias, como base para la «reducción de los datos» a través de ciertas características descriptivas y medidas de resumen. Supongamos que se realiza un estudio económico sobre presupuestos de las familias de la ciudad del Cusco; en base a los datos recopilados, es posible clasificar las familias de acuerdo al monto de sus ingresos, en 4, 5 o 6 categorías o grupos. Como tiene que ocurrir para cada caso resultará una determinada distribución de frecuencias. En forma similar, se puede repetir este estudio en dos o más ciudades y luego analizar los aspectos diferenciales. En el problema de comparar dos o más distribuciones de frecuencias, puede resultar fácil hacer una comparación gráfica de las frecuencias, sin embargo, existen dificultades para hacer comparaciones cuantitativas. Estadísticamente para facilitar este análisis comparativo es necesario disponer de algunos indicadores o medidas de resumen. Aún cuando la comparación de los histogramas (o gráficos) puede proporcionar valiosa información general, siempre es posible obtener información más precisa y útil, como la comparación directa de los datos tabulados (tablas de frecuencia) y mucho mejor si se dispone de elementos o valores representativos (medidas de resumen) del conjunto de observaciones. ESTADISTICA ELEMENTAL < 9 3
Como respuesta, la Estadística plantea reducir los datos y sustituir toda la tabla de frecuencias por unos pocos valores representativos del conjunto, es decir, reemplazar la distribución de frecuencias por unas pocas características descriptivas de los aspectos fundamentales de la distribución considerada. Estas características descriptivas (cantidad), constituyen ios llamados ESTADÍGRAFOS, que son indicadores o medidas de resumen estadístico. Por tanto, en vez de comparar totalmente dos distribuciones de frecuencia o gráficos, sólo bastará comparar los estadígrafos de ambas distribuciones. En general, para llegar a determinar los ESTADÍGRAFOS se sigue el siguiente esquema:
Recopilación de datos
DATOS ORIGINALES
Organización y procesamiento de datos
DISTRIBUCIONES DE FRECUENCIAS
(X¡)
i (Y¡; n ¡; h¡)
________________ i ________________
Reducción de datos
CARACTERISTICAS DESCRIPTIVAS 1
ESTADIGRAFOS
De acuerdo al valor y naturaleza de la variable, se puede obtener diversas formas de distribución de frecuencia, como se aprecia en el Gráfico N° 4.01. Como «medidas de resumen» del comportamiento de estas distribuciones se define cuatro tipos de Estadígrafos: a) De posición o tendencia central
b) De dispersión o variabilidad. c) De deformación o asimetría. d) De apuntamiento o Kurtosis.
94 / RobERTo B. A ví Ia A costa
GRAFICO N° 4.01 a. Posición
20
t
i
10
10 0-
-R h
0 * -M -ffí- -
24
12
8
li * 28
b. Dispersión
20
j
10
--
0 -I— ♦10
c. Deformación
20
t
10
*
0
20 t
20 T
10
10
0
0
4h
■p rf
20
d. Apuntamiento
20
t
20
10
10
0
0
+ S I
I
h
ESTADISTICA ELEMENTAL < 95
ESTADÍGRAFOS DE POSICION Como su nombre lo insinúa, son estadígrafos que describen la posición que ocupa una distribución de frecuencia alrededor de un valor de la variable. Supongamos que se elige tres conjuntos de estudiantes de primaria, secundaria y superior, cuya distribución por edades ha permitido obtener los histogramas del Gráfico N° 4.2. Como se observa en los Gráficos 4.2.(a), 4.2.(b) y 4.2.(c) hay un desplazamiento de las distribuciones hacia la derecha a medida que avanza el nivel educativo de cada grupo; la diferencia entre los tres histogramas es sólo el cambio de posición o localización a lo largo del eje horizontal o valor de la variable (edad). * En cada uno de los tres casos se advierte que los valores observados se agrupan alrededor de cierto «valor central» o «valor medio». Estos valores centrales, por su desplazamiento en el mismo sentido y magnitud, se considera como números que describen la posición de la distribución de frecuencias, y se definen como e s ta d íg ra fo s de posición o de tenden cia central Los estadígrafos, son valores que de manera condensada representan en un sólo valor, a una serie de datos y además describen resumidamente al conjunto de observaciones. Los estadígrafos de posición de uso más frecuente son: la media aritmética, la mediana, las cuartilas, las decilas, los percentiles y la moda; existen además la media geométrica, la media armónica, etc.
fE Ü T M E D IA ARITMETICA Es el estadígrafo de posición más importante. La media aritmética se denomina simplemente MEDIA y comúnmente se le conoce como promedio. La media aritmética se define y calcula dividiendo la suma de los valores de la variable entre el número de observaciones o valores. . . ,. Suma de valores de la variable Media = ------------------------------------------Numero de valores Para una variable X, la media se puede simbolizar como: X ; M(X) ; ax 96 > RobeRTO B. AviU A costa
GRAFICO N° 4.02 DISTRIBUCION DE TRES CONJUNTOS DE ALUMNOS DE PRIMARIA, SECUNDARIA Y SUPERIOR, SEGUN LA EDAD. 4.02 (a) E d u c a c ió n P rim a ria
EDAD
20
Edad
Alum nos
5-7
-12
7-9
26
9-11
24
11-13
20
13-15
18
15-17
14
17-19
8
m=7
n=122
Edad
A lu m n o s
4.02 (b) E d u c a c ió n S e c u n d a ria
10-12
12
12-14
26
14-16
24
16-18
20
18-20
16
20-22
8
22-24
4
m=7
n= 110
Edad
Alumno s
14-16
4
4.02 (c) E d u c a c ió n S u p e rio r
16-18
8
18-20
20
20-22
26
22-24
18
24-26
12
26-28
8
28-30
6
m=8
n=102
ESTADISTICA ELEMENTAL RobERio B. Aví Ia A costa
GRAFICO N° 4.04
Ejem plo 4.24 Las ventas mensuales de 3 grupos de comerciantes informales de la ciudad de Lima, se indica en el cuadro siguiente :
Cuadro N°4.14 Ventas mensuales (miles de S I . )
Grupos de Comerciantes A
Y¡
B
C
2 -4 4 -6 6 -8 8 -1 0 1 0 -1 2 12 - 14 1 4 -1 6 16 - 18 1 8 -2 0 2 0 -2 2 2 2 -2 4
3 5 7 9 11 13 15 17 19 21 23
2 4 8 10 15 9 7 6 4 2 1
3 7 10 14 8 6 5 4 1
6 12 15 8 6 5 3 —
—
—
Total
—
68
58
55
11.8 22
11.8 18
11.8 14
Venta Promedio S I . Recorrido (R)
—
—
—
ESTADISTICA ELEMENTAL 0, hay dos alternativas:
142> RobERTo B. A v i U A costa
ESE DESVIACION MEDIA
I
a) La desviación media o desviación promedio de un conjunto de observacio nes X v X2, X3, ... , Xn se define por:
Z|x¡-x| D.M.= — --------n donde X es la media aritmética y
|x¡ —xj es
el valor absoluto de las
desviaciones de X¡ respecto a X .
Ejem plo 4.25 Hallarla desviación media del número de personas en 5 viviendas : 2,3,6,8,11. y
D.M.
2 + 3 + 6 + 8 + 11 30 5 ~ 5 “
|2 -6 | + |3 -6 | + |6 -6 | + |8 -6 | + |11-6|
n ,, 4 + 3 + 0 + 2 + 5 D.M. = ------— - — -— = 2,8 personas b) Datos agrupados: Si las Yv Y2, Y3, ... Ym ocurren con frecuencias nt , n2, n3, ... , nm respectivamente, la desviación media se obtiene: ifo - Y n , D.M. i=1 Ejem plo 4.26 Sigamos considerando la tabla del ejemplo 4.3. referente a los sueldos de 80 trabajadores y calcular la desviación media, sabiendo que y - 1 7 4 ,4 0 . Según los cálculos indicados en la tabla siguiente, se tiene que:
ESTADISTICA
ELEMENTAL 0 esto es evidente, puesto que todas las desviaciones positivas o negativas, al elevarse al cuadrado se hacen positivas. b) «Si el valor de las observaciones son todas iguales, entonces la varianza es CERO». En este caso, las observaciones se confunden en un punto, la media es el mismo punto y la desviación es cero. n c) «La varianza de una constante es cero». V(K) = 0 K = constante V(K) = M {[K - M(K)]2} = M{[K - K]2} = M(0) = 0 V(K) = 0
c.q.d.
d) «La varianza del producto de una constante por una variable, es igual al cuadrado de la constante por la varianza de la variable». V(K.Y) = K2 V(Y) V(K.Y)
= M {[K Y - M(K Y)]2} = M{[K Y - K M(Y)]2} = M { K2 [Y - M(Y)]2} = K2 M {[Y - M(Y)]2}
V(K.Y)
= K2 V(Y)
e) «La varianza de la suma de una variable más una constante, es igual a la varianza de la variable». V(Y + K) = V(Y) V(Y + K) = M {[ (Y + K) - M(Y + K)]2}
ESTADISTICA ELEMENTAL w =-
,
s2 n-| + s2 n2 n
n
Y ( Y r - Y ) 2nr
_ - 2 (Y 1 - Y ) 2n-| + (Y 2 - Y)2n2
Sb = -----------ñ ---------- -- ----------------------ñ
luego: s2 =
s2n-| + s2n2 , ¡Y , - Y ) 2ni +(Y 2 - Y ) 2n2 n
N ota IB Para dos estratos de tamaño n., y n2 que tienen medias iguales y varianzas s.,2, s22 respectivamente, la varianza total está dada por: s
2
s 2 + s 2n2 --------------------n
Ejem plo 4.32 En una Empresa Metal Mecánica, los trabajadores están clasificados en Directivos, Empleados y Obreros, de los cuales se conocen los siguientes indicadores:
152^> RobERto B.
A v í Ia A costa
Categoría s
N° de Trabajadores
Sueldo Promedio
Varianza
nr
Yr
sr2
700 300 250
4900 3600 8100
5 15 25
Directivos Empleados Obreros
¿Cuál es la varianza para la totalidad de trabajadores? Categorías
nr
Directivos Empleados Obreros
5 15 25
Yr
sr2 nr
Sr2
4900 3600 8100
700 300 250
45
la varianza total es :
Yr nr
Y 2 nr
24500 54000 202500
3500 4500 6250
2450000 1350000 1562500
281000
16250
5362500
X sr2 n2
X Yr nr
XY?n
s2 = sw2 + sb2 L sr nr 2, s w =M(s¡r) =
n
281000 45
s2 = 6244,40 2
si
= V(Yr) = —— ■■n-- - í ^ fn r ^ n n
Sb=V(Yf ) = - 3^ 250° - f - - — 45 45
Ì = 119166,7 0- 100277,80
s2 = 18888,90 b
ESTADISTICA ELEMENTAL < 153
La varianza total es: s2 = 6244,40 + 18888,90 s2 = 25133,30 dólares al cuadrado ó S = 158,50 Aquí resultó que:
s b2 > sw2
entonces se puede concluir que la variación o dispersión total se debe principalmente a la variación de los sueldos entre los estratos o categorías de trabajadores.
4.19 LA DESVIACION ESTANDAR O TIPICA «La desviación estándar o típica, se define como la raíz cuadrada de la varianza». s=/
m {{X -M (X )2]}
= +Vv(X)
Es uno de los estadígrafos de dispersión de mayor uso, en el cual las unidades de la variable ya no están elevadas al cuadrado. La desviación estándar, al igual que la varianza, es no negativa (s>0), puesto que es la raíz cuadrada positiva de la varianza. A mayor dispersión le corresponderá una mayor desviación estándar
N ota m En general, los estadígrafos de dispersión se usa para comparar dos o más distribuciones o poblaciones con variables de la misma naturaleza. A mayor dispersión o heterogeneidad entre los valores o elementos de una población, le corresponde un valor mayor para el estadígrafo de dispersión. El cálculo de la desviación estándar es muy simple, si se conoce la varianza. La desviación estándar de los sueldos de los 80 trabajadores es. s = VÌ903.40 = 43,60 dólares. Ejemplo ¡4.33 Considerando los trabajadores de la Empresa Metal Mecánica, para la distribución de sus sueldos se tiene: 1 54>RobE Rio
B.
A v í I a A costa
Media
Varianza
Desviación estándar
Y
s2
s
700 300 250
4900 3600 8100
70 60 90
Categoría
Directivos Empleados Obreros se deduce que.
s(empleados) < s(directivos) < s(obreros) es decir los sueldos de los obreros presentan mayor dispersión que los sueldos de los directivos, y éstos mayor dispersión que los sueldos de los empleados. Encontrar una mayor dispersión también significa que existe una mayor discrepancia entre los sueldos mayores y menores.
4.20 COEFICIENTE DE VARIACION Está definido por la expresión: Coeficiente de Variación = P.^ i ^ i ó n Estándar Media Aritmética CV = ¿ X este estadígrafo de dispersión se expresa en unidades independientes de la naturaleza de la variable. El valor se puede expresar en términos porcentuales. Es un estadígrafo que se utiliza para comparar dos o más distribuciones cuando las unidades de medida de las variables están expresadas en diferentes unidades o escalas de medida. Por ejemplo, comparar sueldos expresados en soles y en dólares; extensiones o superficies medida en metros cuadrados y otro en pies cuadrados, etc.
ESTADISTICA ELEMENTAL 30), la distribución de las n observaciones es aproximadamente simétrica o tiene la forma de una curva normal (Gráfico N° 4.5.). De acuerdo a las áreas bajo la curva normal, indicados en tablas se puede sostener que: 156i> RobERio B.
A v í Ia A costa
i) El 68.3% de las observaciones estarán comprendidas dentro del intervalo ( Y - s , Y + s) ii) El 95.5% de las observaciones estarán comprendidas dentro del intervalo ( Y - 2 s ; Y + 2s) ¡ii) El 99.7% de las observaciones estarán comprendidas dentro del intervalo (Y - 3s ; Y + 3s)
Gráfico N° 4.05 AREAS BAJO LA CURVA NORMAL
4.22 ESTADIGRAFOS DE DEFORMACION La deformació n consiste en analizar la simetría o asimetría (no simetría) de las distribucion es. Por ejemplo, el Gráfico N° 4.6.(b) representa una distribución SIMETRICA , en tanto que 4.6 .(a) y 4.6.(c) correspond e a distribuciones asimétricas o deformes. El gráfico 4.6.(a) presenta una deformación hacia la izquierda, que corres ponde a la cola o rama más larga de la distribución, es decir tiene asimetría por la izquierda o asimetría negativa. En tanto que 4.6. (c) corresponde a una distribución con asimetría por la derecha o de asimetría positiva.
ESTADISTICA
ELEMENTAL 0 .
b)
Si AS < 0 .
Tiene asimetría positiva. La distribución extiende la cola hacia los valores grandes de la variable. Tiene asimetría negativa. La distribución extiende la cola hacia los valores pequeños de la variable.
1 5 8 >RobE Rto B. A v í Ia A costa
Por otra parte, también se deduce que hay asimetría cuando: Mo < Me < y
Asimetría Positiva,
y < Me 0 s 43,60 Ae 3(Y - Me) 3(174,40-174) AS 2 = — --------- - = -4----- :----------- L = 0,028 > 0 s 43,60 AS = Q3 ~ 2Q2 + Q i _ 208,20-2(174)+ 140,80 Q3 - Q , ~ 280,20-140,80 = 0,00015 >0 en cualquiera de las fórmulas AS es positivo, por tanto tiene Asimetría Positiva, es decir hay un ligero predominio de sueldos menores. Frecuentemente, la distribución de los salarios tiene asimetría positiva, porque existen muchos trabajadores que ganan poco y pocos trabajadores que ganan bien.
4.23 ESTADIGRAFOS DE APUNTAMIENTO O KURTOSIS Entendemos como kurtosis al grado de apuntamiento de una distribución. La Kurtosis se analiza comparando la distribución con la forma de una curva normal o simétrica, con igual media aritmética y desviación estándar que la distribución que se estudia.
ESTADISTICA
ELEMENTAL 3 Leptokútica (apuntada) a < 3 Platikurtica ( achatada) otro estadígrafo de kurtosis es: K=-
Q
= Coeficiente Percentil de kurtosis.
P 9 0 _ P 10
donde Q es el recorrido semi intercuartil, P10 y p 90 son los percentiles 10 y 90. Para la curva normal resulta K = 0,263.
160> Rob ERi o 0 . A v i U A c os ta
I M T iviedicion p e \ a desig ualdad Los estadígrafos de dispersión permiten conocer el grado de concentración de los elementos de una población respecto a una categoría de la variable. La desviación estándar mide la dispersión de los elementos respecto a la media aritmética, e! coeficiente de variación dimensiona la homogeneidad de una distribución. Es decir, permiten analizar la desigualdad que puede ser de tipo económico, social, poblacional, etc. Además de los indicadores de la dispersión estadística, se han propuesto diversos índices para analizar la concentración de los elementos de una población respecto a una variable. Es lógico considerar que a mayor concentración o ventaja entre algunos elementos, la desigualdad en el conjunto será mayor. Existen diversos indicadores para estudiar la concentración y desigualdad económica y social, asi como otros referidos al desarrollo humano y a los estados de pobreza. En este libro, por ahora se analizarán : * El índice de concentración de Gini. « La curva de Lorenz. • El indice de Marginación Social.
4 .2 4 .1
COEFICIENTE DE CONCENTRACION DE GINI
Las curvas de concentración fueron ideadas por Lorenz, de allí que se denomina Curvas de Lorenz. Independientemente de éste, también fueron propuestas por Chatelain, Seailles y Gini. Conrrado Gini plantea que es posible analizar las discrepancias considerando una medida que reúna en un solo valor las comparaciones entre las frecuencias relativas de la variable y los que corresponde a una población o número de casos, de este modo define un conjunto de pares de observaciones (p, q) ó bien puede ser (X, Y). En vez de representar las diferencias a través de promedios, establece una distribución teórica que debería tener la variable si se repartiese por igual entre todas las unidades o elementos de la población. Para construir el Indice de Gini, se considera un par de valores : ESTADISTiCA ELEMENTAL 061
Pj = frecuencias relativas de las observaciones. (proporción del número de casos). q¡ = frecuencias relativas de la variable. (proporción de la variable). Luego se obtiene las respectivas frecuencias acumuladas P¡ y Q¡, con este par de valores (P¡, Q¡) se construye una linea poligonal, conocida como la Curva Lorenz, que da origen al Diagrama de Concentración, ilustradro en la figura siguiente : Gráfico N° 4.07
Para una proporción acumulada de unidades (para un P¡ dado) menor se rá la concentración en tanto menor sea la distancia entre el punto ubicado so bre la curva de Lorenz y el situado sobre la línea de equidistribución. Al contrario, mayor será la desigualdad en tanto mayor sea la distancia entre ambos puntos. Entonces para el índice de concentración de Gini, se considera la diferen cia P¡ - Q¡, que cuando es menor está más cerca a la línea de equidistribución o de homogeneidad. De este modo, se construye el Indice de G in i:
162> RobERio B.
A v í Ia A costa
m-1
K ñ - Q i) G=—
---- T--------
m-1
I* ,
i=1 m-1
m-1
donde ZP¡ es valor máximo que puede tener:
Z ( ñ _ Q ¡, mientras ma
yor sea este valor, mayor será la concentración del fenómeno estudiado.. Además : 0 < G < 1; m = N° de categorías o intervalos. El valor mínimo de G es cero y se alcanza siempre que P¡ = Qi, que significa rá que la variable se distribuye discretamente entre todas las unidades. N o ta jFli] Cuando G se acerca a 0 la distribución es más homogénea o de
igual distribución. A mayor valor de G, le corresponde una mayor desigualdad o concentración. La desigualdad debe entenderse como la concentración en pocas personas, instituciones, áreas, etc. E je m p lo ¡4.36] Determinar la concentración de los ingresos (en dólares) de los trabajadores de una Empresa Exportadora, en el último trimestre de 1995, los indicadores a continuación : C U A D R O N° 4 .15 DISTRIBUCION DE LOS INGRESOS DE LOS TRABAJADORES DE LA EMPRESA EXPORTADORA RA. S.A. 1995 ingresos
N° de
Monto de
L¡ - Ls
Trabajadores
Ingresos
Hasta 300 301 - 600 601 - 900 901 - 1200 1201 - 1500 1501 - 1800 1801-2100 2101 - 2400 2401 - 2700 2701 y más
54 223 106 85 45 25 7 4 2 1
m =10
552
Pi
q¡
Pi
Q¡
Pi - Q i
14553 100350 79800 89040 60480 41415 14430 8900 5000 3100
0,098 0,404 0,192 0,154 0,081 0,045 0,013 0,007 0,004 0,002
0,035 0,241 0,191 0,213 0,145 0,099 0,035 0,021 0,012 0,008
0,098 0,502 0,694 0,848 0,929 0,974 0,987 0,994 0,998
0,035 0,276 0,467 0,680 0,825 0,924 0,959 0,980 0,992
0,063 0,226 0,227 0,168 0,104 0,050 0,028 0,014 0,006
417068
1,000
7,024
0,886
ESTADISTICA ELEMENTAL RobEiuo B.
A v í Ia A costa
se tiene que : 2,696 — G 1981 )= ?103 = 0,5283
G (1993) = 0,4844
V
Es decir que en 1993 existe una ligera disminución de la concentración poblacional de los centros poblados de 2000 y más habitantes, en ambos años existe una concentración significativa de la población en pocos centros poblado s. Evidentemente entre 1981 y 1993 han surgido 58 centros conglomerados urbanos que tienen 2000 o más habitantes en la Macro Reqión del Norte del Perú.
CUADRO N° 4.16 MAS PERU : MACROREGION NORTE : CENTROS POBLADOS DE 2000 HABITANTES Y 1993. Y 1981 NAL. Y POBLACION, SEGUN TAMAÑO POBLACIO 1993
1981 In te rv a lo s
C onglo
de p o b la c ió n
merado
Población
C onglo
Población
merado
1)
2 000 -
4 999
80
256 701
110
2)
5 000 -
9 999
43
307 366
45
310 363
3)
10 000 -
19 999
16
215 757
35
489 179
4)
20 000 -
49 999
10
302 383
15
461 916
5)
50 000 -
99 999
2
114 542
4
325 074
6) 100 000 - 2 4 9 999
3
488 233
1
149 147
7) 250 000 - 4 9 9 999
2
627 663
3
940 408
1
537 458
214
3 543 242
8) 500 000 - 999 999 TOTAL
156
2 312 645
329 697
en el Peni. 196 1 - 1 9 9 3 . Fuente: INEI. UNFPA. Dimensiones y Características del Crecimiento Urbano
ESTADISTICA ELEMENTAL Ó65
CUADRO N° 4.1 7 PERU : MARGINACION NORTE : FRECUENCIAS RELATIVAS Y ACUMULADAS PARA CALCULAR EL INDICE DE GINI, PARA 1981.
Conglomerado Pi
Población qi
p¡
Qi
P¡
•
Q¡
1
0,513
0,111
0,513
0,111
0,402
2
0,276
0,133
0,789
0,244
0,545
3
0,103
0,093
0,891
0,337
0,554
4
0,064
0,131
0,955
0,468
0,487
5
0,013
0,050
0,968
0,518
0,450
6
0,019
0,211
0,987
0,729
0,258
7
0,013
0,271
5,103
2,696
EP
E ( P' - Q ')
m =7
1,000
1,000
>
4 .2 4 .2 METODO DE LA DISPERSION RELATIVA : MEDIRA 1) Ideas Básicas MEDIRÁ es un método estadístico para dimensionar Niveles de Vida y Desigualdad Social a partir de los llamadas Necesidades Básicas Insatisfechas (NBI). Está diseñado para dimensionar y analizar los problemas de acceso a los servicios básicos y la desigualdad social y económica entre subáreas ge ográficas, especificando la prioridad sectorial en educación, vivienda, salud, etc., Este método fué propuesto por R. B. Avila (1992), para construirel Indice de Marginación RA (IM). En el campo social se llamará el Indice de Marginación Social (IMS) es un indicador que permite dimensionar y describir el nivel de de acceso a los servicios sociales básicos, es decir unida al grado de satisfacción de las necesidades básicas. Es un indicador fundamentalmente de tipo social, y a partir de su valor se determina la desigualdad social entre subáreas de un determinado ámbito geográfico. La naturaleza relativa de MEDIRÁ es que el Indice de Marginación Social se obtiene comparando los indicadores específicos de las subáreas con aquella que presente la mayor ventaja o nivel de satisfacción. Las subáreas pueden ser provincias de un departamento, o los distritos de una provincia, etc. 166> Robeiuo B. A v í I.a
á c o sta
2) Desarrollo M etodológico 2.1)
Determinación de n Indicadores Básicos o Específicos para el análi sis de la desigualdad social en m subáreas. Construir una matriz de m x n (Matriz de Indicadores Básicos).
h
Indicadores lM b I:
In
A,
lu
Il2
Il3
lln
A2
I21
l22
l23
bn
A3
I31
l32
Am
Im1
Im2
Im3
Imn
Sub áreas
Max (1) Min (1) R Para cada indicador identificar el valor máximo Max(l) y el mínimo Mín(l) y el recorrido R = Máx(l) - Mín(l). 2.2)
Estandarización de los Indicadores, que significa transformar los indicadores originales (l¡j) que tienen diferente recorrido en otro (d¡j) que tendrá un recorrido entre 0 y 1. Entonces : ^ _ l¡j-M in (l) 'i r
Relación Directa, cuando el mayor valor de l¡j significa mayor desventaja o marginación
Max(l) - l¡j Relación Inversa, cuando el mayor valor de l¡j sig nifica menor desventaja o marginación R N ota E l i En la Estandarización se asigna el valor dy = 1 a la sub área que presenta al mayor grado relativo de insatisfacción o desventaja, y dy = 0 el de menor desventaja. En ambos casos : 0 < dy < 1 De donde resulta una Matriz de Indicadores Estandarizados.
ESTADISTICA ELEMENTAL
R o Ijerjo
B.
A v í Ia A cosia
E jem plo |4.38| Determinar la Desigualdad Social en Educación entre las provincias del Departamento del Cusco. En primer lugar hay que determinar los indicadores básicos (I) que permitan visualizar el grado de desarrollo educativo de una población. Para el ejemplo, fueron seleccionados 3 indicadores : • Tasa de analfabetismo (de contexto). • Tasa de asistencia escolar de niños y adolescentes de 6 a 17 años de edad (de proceso). • Población de 15 y más años con educación inferior a secundaria (de resultado). A partir de los resultados del Censo de Población de 1993 se obtuvieron el valor de los indicadores del Cuadro N° 4.18 expresado en porcentaje para las 13 provincias del departamento del Cusco. Como todos los indicadores son de relación directa, se aplicó la fórmula :
d¡j =
l¡i — Min (I) p
cuyos resultados estándarizados están en el mismo cuadro con los indicadores básicos.
En la última columna está el IME (Indice de Marginación Social en Educación), el valor más alto corresponde a Paucartambo, que se entiende como la provincia cuya población tiene los mayores problemas educativos del departamento del Cusco. La provincia Cusco es la privilegiada porque es la capital del departamento. El IME no siempre es un valor da 1 para el peor (Paucartambo) y 0 para el mejor (Cusco), puede tener otros valores pero siempre entre 0 y 1. El valor de IME permite establecer una clasificación de orden, y agrupar las provincias en 4 estratos, como se ilustra en el gráfico de barras, donde es fácil visualizar las Desigualdades Educativas entre las provincias. La Gráfica N° 4.08 indica que las provincias de Paucartambo, Paruro, Chumbivilcas y Quispicanchis sufren la mayor marginación social en Educación en el departamento del Cusco; además se deduce la desigualdad social educativa afecta a la mayoría de las provincias. También puede construirse un mapa estadístico para ubicar geográfica mente las poblaciones con mayores desventajas educativas. ESTADISTICA ELEMENTAL RobtRio B.
A v í Ia A costa
ingreso promedio diario por omnibus es 440 soles, el ingreso promedio diario de los omnibus grandes es 584 soles; por cada 20 soles de ingreso de los medianos, los pequeños tiene 13 soles de ingreso diario. ¿Cuál es el ingreso promedio diario de los omnibuses medianos y pequeños? De acuerdo a los datos, se puede construir la siguiente tabla : Tamaño Omnibus Pequeños Medianos Grandes Total
Ingreso diario promedio y¡
h|
0,65 x X
584 440
y¡
h¡
0,60 0,30 0,10
0,39 x 0,30 x 54,80
1,00
440
0,39x + 0,30x + 54,80 = 440 de donde : 0,69x = 385,2 x = 558,30 soles, ingreso promedio de los ómnibus medianos. 558(0,65) = 362,8 soles, ingreso promedio de los ómnibus pequeños.
Ejem plo ]4.4 l| Calcular el Nivel Educativo Promedio, la Desviación Están dar y el Coeficiente de Variación de la Información del Cuadro NM.19. Es importante indicar que : ÿ - S Vi ni n
= 1
y ¡ h¡
esta fórmula permite obtener la media aritmética directamente, y así se obtuvo el nivel educativo promedio de la PEA de Tacna. Por los resultados, el nivel educativo de la PEA masculina es ligeramente mayor que la PEA femenina en Tacna; además la dispersión del nivel educativo es mayor en las mujeres, y por el coeficiente de variación la distribución del nivel educativo de los hombres es más homogénea que en las mujeres en 1981. ESTADISTICA ELEMENTAL R o b tR io B . A v iU A cosia
Capítulo
NUMEROS INDICES GENERALIDADES En los capítulos anteriores se han estudiado, fundamentalmente los estadígrafos de posición y dispersión, que expresados como valores numéricos proporcionan una buena idea del comportamiento de una distribución de datos, sin embargo esta información no permite precisar la variación o cambios que experimenta el valor de las observaciones en relación al tiempo o al espacio. Este problema se supera incorporando otros indicadores como los Números Indices que permiten analizar el comportamiento y evolución de una variable o hecho con relación al tiempo y al lugar. El Número Indice es un indicador que plantea una comparación, y expresa la variación de una variable, hecho o fenómeno, ya sea en el tiempo o en el espacio, respecto de un punto o momento de referencia llamado Base del Indice La base del índice como punto de referencia de la comparación debe presentar un comportamiento regular para la información considerada en el índice, a fin de no llegar a conclusiones equivocadas y alarmantes. Por ejemplo, si en el Perú se estudia la producción de harina de pescado durante el período 1970-1990, no resulta recomendable y significativo elegir como año base 1973 puesto que en este año se produjo una fuerte crisis en la producción de harina de pescado, por el ausentismo de la anchoveta en el mar peruano. Como tampoco comparar precios de la década de los 90 con precios de la década del 80 donde hubo una hiperinflación.
ESTADISTICA
ELEMENTAL R o b E R i o B.
A v i U A c o s ia
5.3 CALCULO DE NUMEROS INDICES 5 .3.1 NUMEROS INDICES SIMPLES a) Para
un solo artículo
Un núm ero índice es simple, si sólo expresa o representa el porcentaje de variación de cada valor observado (precio o cantidad) respecto a la base elegida. Si llam am os x0 el valor de la observación en la base, y xt el valor de los restantes años o períodos, entonces el índice lt para el mom ento o tiem po t queda expresado por el cociente:
lt/0 = ^ 1 x 1 0 0 A0 El índice sim ple de precios será:
I t / o ^ x lO O *0 el índice sim ple de cantidad:
J t/o = ^ L x100 uo donde: Pt = precio de un sólo artículo o producto en el año dado t (u otra unidad de tiem po) P0 = precio de un sólo artículo o producto en el año base. Q t = cantidad de un sólo artículo o producto (producido, consum ido, vendido) en el año dado t. Q 0 = cantidad de un sólo a rtículo o producto (producido, consum ido, vendido) en el año base. Con los datos del C uadro N° 5 01 referido a la Exportación de Harina de Pescado, cuando se tom a 1988 com o año base, se tiene que 1988=100% que corresponde a 798 mil toneladas, obteniendo los núm eros indices sim ples de cantidad.
'89/88 = ^ x 1 0 0 = 140.0%
ESTADISTICA
ELEMENTAL 91/88
1151 =798~x100 = 144.2%
l94/88 = —
x100 = 284.9%
Los números índices facilitan la comparación relativa entre valores, se puede deducir cuál es el aumento o disminución relativa (%) de los valores de una variable respecto a un valor determinado elegido como punto de referencia o base. — Si el índice es mayor que 100% entonces hay aumento, si es menor que 100% hay una disminución. La magnitud del aumento o disminución se puede obtener mediante la expresión: lyo -100 Para la base 1988 todos los números indices aumentan, es decir que la exportación de harina de pescado está incrementándose respecto a 1988, por ejemplo la exportación en 1994 es 3 veces lo que se exportó en 1988, es decir el incremento es : 284.9 - 100 = 184.9%. Cambiando la base 1991 = 100% se deduce que la exportación de harina de pescado en 1992 disminuyo en 5.5%, puesto que : l92/91 - 100 = 94.5 100 = -5.5% En tanto que en 1993 la exportación fué 46.7% más que en 1991. Aqui se está analizando sólo la exportación de harina de pescado, es decir se trata de un indice simple [N ota Q Como se deduce del ejemplo, se puede tomar cualquier año como base, por tanto los indices tandrán valores distintos dependiendo de la base del indice. i N o t a ^ Los números indices puden ser de base fija o de base variable. Los indices de base variable son aquellos que expresan la variación respecto al momento o año inmediato anterior. Es importante tener presente que para una serie de observaciones, cual quier año o momento puede ser elegido como base. No es requisito que la 1 7 8 > R o b E R i o B. A v í I a A c o s i a
base sea una observación anterior, también puede ser una posterior o una intermedia. La elección de la base debe responder al objetivo de los índices. No hay índice sin base, y la interpretación debe estar siempre asociada con la base del índice. Ejem plo [5.1 Determinar los números índices de la exportación de Harina de Pescado en el período 1988 - 1994. En este cuadro, los índices de cada columna resultaron de dividir el volumen exportado cada año entre la exportación del año, tomado como base (100%). En este caso se trata de Indice de Base Fija. C uadro N° 5.01. PERU: EXPORTACION DE HARINA DE PESCADO. Período 1988-1994 (Miles de TM) Años
INDICES (%)
Exportación 1988=100%
1991=100%
1994=100%
1988
798
100,0
69,3
35,1
1989
1117
140,0
97,0
49,1
1990
1114
139,6
96,8
49,0
1991
1151
144,2
100,0
50,6
1992
1088
136,3
94,5
47,8
1993
1689
211,6
146,7
74,3
284,9
197,6
100,0
1994
2274
Fuente: Ministerio de Pesquería Elaboración: Estudios y Ediciones RA
Del cuadro se deduce 3 series de números índices, cada uno con distinta base, 1988, 1991 y 1994.1como se advierte no son iguales y desde luego de diversa interpretación. Ejem plo|5.2 Calcular el indice simple de precios de base fija (1991 = 100%) y la base variable, para los precios del gas doméstico (Balón de 24 Lbs). t/t-1
x100 'ti
ESTADISTICA
ELEMENTAL |ft r ~ 22.9760-22 .8217 2
r = 0,9770
luego :
el valor de (r) indica que existe una alta correlación o afinidad entre las variables C = costo total, Q = producción.
d)
Para graficar la función exponencia l o la función de costo to ta l: C* = 26,516 (1,0138)° se calcula algunos puntos aislados (Q,C) a partir de la ecuación dando valores a Q, donde : Si :
Q Q Q Q Q
= = = = =
20 40 60 80 90
entonces :
C C C C C
= = = = =
34,9 45,9 60,3 79,4 91,0
los cinco puntos se grafican en el mismo plano del diagrama de esparcimien to (Gráfico N° 7.9.), y por estos puntos trazar a "m ano alzada" la curva exponencia l correspondiente. Com o es de esperar los datos observados (Q .C) están ubicados muy cerca al lugar geom étrico de la curva que reafirm a el elevado valor de r = 0.9770.
e) El costo total, para una producción de 42000 unidades significa que Q = 42, luego reem plazando en: C* = 26,516 (1 ,0 1 3 8 )° se tiene C* = 26,5 16 (1.0 138)42 = 47,152 millones de pesos C* = 47 152 000 pesos
ESTADISTICA ELEMENTAL
qq
_
GRAFICO N° 7.9 DIAGRAMA DE ESPARCIMIENTO Y CURVA EXPONENCIAL DE PRODUCCIÓN (Q) Y COSTO TOTAL (C)
80 70 60 I
50
°
40
o
30
20
-
10
-
0
10
20
30
40
50
60
70
80
90
Producción
fr^ota m Debe tenerse cuidado al interpretar los resultados de la correla ción. El coeficiente de correlación r solam ente mide el grado de relación o afinidad entre variables, que ayuda a explicar el com partim ientos de la variable dependiente dado algunos valores para la variable independiente. Es peligroso sostener que un alto coeficiente de correlación establece una relación de causa efecto entre las variables. Es fundam ental elegir convenientem ente la m uestra a identificar con claridad la validez de la relación entre las variables consideradas, antes que proceder a los cálculos estadísticos.
7.7.4
LA HIPERBOLA EQUILATERA
Es un caso especial de la función potencial. Esta curva se usa con frecuencia para el ajuste de curvas de dem anda. Es una función asintótica con los ejes coordenados. La form a más simple de su ecuación es :
es una función con un sólo parám etro "a". 29b > RobeRio
B. Avila
A costa
ECUACIONES NORMALES Com o tiene un sólo parám etro será necesario disponer de una ecuación normal. A hora la expresión que m inim izar es : MinO> = £ ( Y - Y * ) 2 = X [ Y - J derivando respecto el parám etro " a " se tiene : —
=2 X [Y -da H X
1 X
=
0
luego :
esta Ecuación Norm al perm ite obtener el valor "a".
COEFICIENTE DE CORRELACION Com o se ha ilustrado para otras curvas, el Coeficiente de Correlación de la hipérbola equilátera también se obtiene de la expresión :
r2
= S Y *2 -n Y IY
2
-n Y
2 2
-nY Z Y2 -n Y '
S Y2 - n Y donde la raíz cuadrada (r) constituye el valor del Coeficiente de Correlación Hiperbólica.
Ejem plo |7.18 C onsiderar las cantidades vendidas (miles de unidades) de un artículo según la variación de su precio (en soles), observados en un período de 9 meses, cuyos datos se indican en el Cuadro N° 7.11. ESTADISTICA ELEMENTAL Robemo B. AviU A costa
c) Para obtener el valor del Coeficiente de correlación se reemplaza valores en :
r2_
aY
—
VXJ
-n Y
£ Y 2 -n Y r 2 =0,9743
2
? 1 0 1 7 .5 (1 43.88)-9(107.78)2 1 4 7 .5 0 0 -9 (1 07.78)2
entonces
r = 0,9871
com o r es num éricam ente alto, la curva de regresión obtenida se puede utilizar com o un m odelo de regresión no lineal para explicar el com porta miento de la variable dependiente (Y) dado valores de (X). Por ejemplo, ¿cuál sería la cantidad de dem anda si el precio del artículo se establece en 30 soles?; en este caso X = 30 es reem plazado en la ecuación, resultando : 1017.5 Y = ---------- = 34 30 d)
miles
de
, unidades.
Nuevamente, para graficar la hipérbola equilátera será necesario determinar algunos puntos, como: Si : X = 4 ; C = 254 X = 10 C = 102 X = 16 C = 63 X = 26 C = 39 los puntos se grafican en el plano rectangular elegido y por ellos se traza a m ano alzada la curva correspondiente, resultando la curva del Gráfico N° 7.10.
En todos los casos, las funciones de regresión (linea recta o curva), siem pre estarán atravesando la nube de puntos correspondiente; si esto no ocurre la ecuación determ inada no es correcta.
ESTADISTICA ELEMENTAL RobEiuo B. AvíIa Acosta
VARIABLE DEPENDIENTE (Y)
1) Volumen de ventas, en unidades 2) Peso de los estudiantes. 3) Producción anual de papas por hectárea.
4) Consumo de bienes industriales por año. 5) Unidades cosumidas de un bien por familia
VARIABLES INDEPENDIENTES (X2, X j,...)
Precio unitario (X2 ) Gasto de propaganda (X3 ) Estatura (X2 ) Edad (Xa) Cantidad de lluvia (X2 ) Cantidad de fertilizantes (X3 ) Temperatura Promedio ( X a ) Ingreso disponible (X2 ) Importación de bienes de consumo (X3 ) Precio unitario del bien (X2 ) Ingreso (X3 ) Número de miembros por familia (X4 )
Con el propósito de facilitar la com presión de estos m odelos de regresión múltiple, vam os a considerar por ahora la relación y asociación entre tres variables. Entonces, observando un conjunto de valores tridim ensionales (Y,X 2 ,X3), la Línea Recta de Regresión de Y sobre X 2 ,X 3 se puede e s c rib ir: Y* = b ,+ b2 X 2 + b 3 X 3 que es una recta que tiene tres parámetros: b., ,b2,b3; los m ism o que se obtie nen de las Ecuaciones Norm ales que proporciona el M étodo M ínimo C uadra dos: (1) Z Y = b1n + b 2 V X 2 + b 3 y j X 3 (2) y Y X 2 = b! V X 2 + b 2 J j X 2 + b 3 J ] X 2 X 3
(3) y
= b 1.v
y x 3
x 3 + b 2 y x 2 x 3 + b 3 y x 3'
la solución de este sistem a de tres ecuaciones con tres incógnitas permite obtener el valor de los parám etros b 1 ,b 2 ,b3. Sin em bargo, los parámetros también se pueden obtenerse a partir de las siguientes expresiones : Dividiendo la Ecuación (1) entre "n" se obtiene b 1 : Y = b-| + b 2 X 2 + 0 b-j = Y - b
2
3
X3
X 2 — b3 X 3
ESTADISTICA ELEMENTAL
RobERTO
B. A vi' I a A co sta
el tiem po. Com o se recordará para obtener la Y* = a + bX que tiene dos parám etros «a» y «b» se requiere de las ecuaciones normales : X Y = an + b X X £ X Y =a IX +b X X 2 donde las sum atorias se obtienen de los datos de la serie cronológica.
C O N VE R S IO N DEL TIEM PO C A L E N D A R IO EN ES C A LA DE X : a)
En toda serie cronológica, cuando se trabaja con una función : y = f(x )
x = tiempo
el tiem po calendario, que puede ser meses, trim estres, años, etc, debe convertirse en una escala o valor de x, que generalmente es un número entero. Por ejem plo, la serie de los años calendarios : 1990,
1991,
1992,
1993,
1994
puede expresarse com o : X : 1 2 3
4
5
6
7
1988,
donde
1989,
£ X = 28
o también puede elegirse cualquier año como origen de la serie; por ejemplo 1991 (x = 0), entonces : X : - 3 - 2 - 1 0 1 2 3 entonces Y X = 0 Puede elegirse cualquier escala, lo fundamental es que el tiempo calendario quede expresado en valores de X. b)
Según los valores que se elijan para X, es posible abreviar los cálculos en las Ecuaciones Normales. La recom endación general, es asignar valores de X de modo que Y i)
X
= 0 . Al respecto, se presentan dos casos :
Cuando la serie tiene un núm ero im p a r de observaciones consecutivas, se elige el punto m edio com o nuevo origen de la serie, en el ejemplo correspondería al año 1991, al cual se asigna el valor 0. ESTÀDIS1ICA
ELEMENTAL Robtiuo B.
A v í I a A costa
Solución : i) La serie tiene 13 datos cuya poligonal está en el G ráfico N° 8.3 íi) C om o se trata de una serie de 13 años (núm ero im par de observaciones), elegim os com o punto medio el año 1988 de donde X=0, luego la escala para X es . X : -6, -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 6, de donde X X=0 En estas condiciones se usan las ecuaciones norm ales sim plificadas :
X
y = an
223 225 = 13a.
X
x y = b X x2
204 839 = 182b.
resolviendo, se obtiene que : a = 17 171,15 b = 1 125,49 sustituyendo estos valores en la ecuación de la recta, se tiene : y*=17171,15 + 1125,49 X que constituyen la recta de tendencia de la evolución de la deuda externa total del Perú.i)
iii) Para graficar la recta de tendencia obtenida es suficiente determ inar dos puntos, reem plazando X es la ecuación, por ejemplo X 1=-3, X2=5 se obtiene los puntos P ^ -3 ; 8678) y P2(5; 14450), los m ism os que se gráfica y por ellos se traza la gráfica de la recta y*= 10842,69 + 721,52 X indicado en el G ráfico N° 8.3.
ESTADISTICA
ELEMENTAL RobcRio B. Aví I a Acosia
v)
El error está definido por las desviacione s de los valores de y respecto a la función de la tendencia, al igual que en el caso de la regresión y correlación, el error estándar de estimación se calcula por la fórmula.
c2
I y 2 - a l y - bl x y
byx ~
n donde reem plazando valores, se obtiene que S = 676,40 m illones de dólares. Es decir, que el error promedio en las estim aciones sería 676,40 m illones de dólares; luego se puede definir intervalos con distintos niveles de probabilidad , com o : p
( y * - s yx < y < y * + s y x ) = o , 683.
que para el caso del ejemplo, seria : P ( y* - 676,40 < y , y* + 676,40 ) = 0,683 y concretam ente para 1996, asum iendo que la tendencia observada conti nuará en 1988, existe una probabilidad del 63.3% que la deuda total del país estaría com prendida entre 25499 y 26851 millones de dólares.
G rá fic o N° 8.3. D EU D A E XTE R N A T O T A L DEL PERU. 1982-1994.
6 000 -------------------------------:--------------------------------------1982 1983 1984
—
1985 1986 1987 1988 1989 1990 1991
1992 1993 1994
Años
ESTADISTICA
ELEMENTAL R o b c m o B. A v í Ia A c o s t a
(1)
X Y = an + c E x 2
(2) X XY = b X X 2 (3)
X X 2Y = a X X 2 + c X X 4
de la ecuación (2) se despeja fácilmente b, resultando : b = ( X X Y )/ X X 2
resolviendo las ecuaciones (1) y (3) se obtiene los parámetros : a y c.
Ejem plo 8.3 D eterm inar la tendencia parabólica de la serie cronológica de la evolución del núm ero de ingresados anuales a las universidades estatales del Perú, en el Periodo 1985-1994. (C uadro N° 8.3 ). En prim er lugar, conviene construir la poligonal de la serie y observar si efectivam ente se ajusta una función parabólica En el Gráfico N° 8 4. presenta la poligonal de la serie, y hay evidencias de su form a parabólica. En el C uadro N° 8.3. se presenta la serie de los ingresados (1985-1994), así como los cálculos necesarios para construir las ecuaciones normales de la parábola. De acuerdo a las recom endaciones, com o la serie tiene 10 años consecutivos (caso par), para asignar valores a X, se ubicará el origen de la serie entre los años 1989 y 1990, entonces la escala para X (tiem po) es : A ños : 1985 X -9 de este m odo
86 -7
87 -5
88 -3
89 -1
0
90 1
91 3
92 5
93 1994 7 9
X X = 0 y tam bién X X 3 = 0.
La ecuación de la parábola Y* = a + bX + c X 2 tiene como ecuaciones normales sim plificadas a : (1) X Y = a n + c X X (2) X XY = b X X 2 (3) X X 2Y = a X X 2 + c X X 4
ESTADISTICA
ELEMENTAL Robcmo B. A v í Ia A c o s t a
C u a d ro N° 8 .0 3 DETERMINACION DE LA TENDENCIA PARABOLICA : NUMERO DE INGRESADOS A LAS UNIVERSIDADES ESTATALES DEL PERU. 1985-1994. (miles de personas) Años
Tiempo X
Ingre sados Y
X2
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
-9 -7 -5 -3 -1 1 3 5 7 9
28 33 35 40 41 40 41 43 45 47
81 49 25 9 1 1 9 25 49 81
n=10
0
393
330
IY
IX 2
IX
X3
X4
XY
-729 -343 -125 -27 -1 1 27 125 343 729
6 561 2 401 625 81 1 1 81 625 2401 6 561
-252 -231 -175 -120 -41 40 123 215 315 423
2 268 1 617 875 360 41 40 369 1075 2 205 3 807
784 1 089 1225 1 600 1 681 1600 1 681 1 849 2 025 2 209
0
19 338
297
12 657
15 743
IX 3
IX Y
IX 4
X2Y
Y2
I X 2Y
IY 2
Fuente : ANR. Departamento de Informática y Documentación. Elaboración : Estudios y Ediciones R.A.
Gráfico N° 8.4. NUMERO DE INGRESANTES A LAS UNIVERSIDADES ESTATALES DEL PERÚ : 1985 -1994. 50,0 .
♦
25,0 ---------------------- ;---------- •--------- * --------- t---------- t--------- i------------------- 1985
1986
1987
1988
1989
1990
Años
1991
1992
ESTADISTICA
1993
1994
ELEMENTAL R o b E R r o
B. A v í Ia A c o s t a
X log Y
I X Log Y
log b = 0,00981 log a = 3,83533
lu e g o : lu e g o :
b = 1.0228 a = 6844.3
luego la exponencial es : log Y* = 3.83533 + 0.00981 X o ta m b ié n :
Y* = 6844.3 (1.0228)x
por el valor de «b» se deduce que i = 2.28%, que indica la tasa de crecim iento prom edio anual de la población peruana en el período 1940-1993; en otras palabras en los últim os 53 años la población peruana presentó crecim iento dem ográfico prom edio de 2.28 por ciento anual. En el período 1972- 1981 el crecim iento dem ográfico fue 2,56% y para 1981-1993 de 2,0% anual. ¿Cuál será la población en el año 1996 y en el año 2000? C onsiderando la e x p o n e n c ia l: Para 1996 (X = 56) : Y * 19 9 6
= 6844.3 (1.0228)56 = 24 1 88 500 habitantes .
En el año 2000 (X = 60) : Y * 2 ooo = 6844 3 (1 022 8)60 = 26 471 100 habitantes. Estas estim aciones suponen que el ritmo del crecimiento sería de 2,28% anual. Recientes estudios están dem ostrando que la Fecundidad está disminuyendo, por tanto la población tendrá un ritmo anual menor, y se estim a que sería de 1,8% entre 1995 y 2000.
R o ta H D em ográficam ente la proyección de la población se realiza por el M étodo de lo s C o m p o n e n te s, que considera el efecto que tiene los nacimien tos, las defunciones y las m igraciones en el crecim iento de la población. La estim ación oficial de INEI para 1985 es 23 531 700 habitantes y de 25 661 690 para el año 2000.
ESTADISTICA
ELEMENTAL
RobtRio B.
A v i l a A c os ta
Existen diversos m étodos para medir y explicar las variaciones estacionales de una serie El objetivo fundam ental de la mayoría de los métodos es obtener INDICES E S TA C IO N A LE S . Una serie cronológica puede o no tener variación estacional; por lo tanto, antes de decidir el cálculo de los indices estacionale s debe exam inarse cuidadosam ente las variaciones con el auxilio de la gráfica de la serie. Por ejemplo, la serie referente a la venta trimestral de pares de zapatos, indicados en el Cuadro N° 8.6. y en el G ráfico N° 8.7., presenta una clara variación estacional. Se observa que en los 3 años considerado s, las m ayores ventas se producen en el II y IV trim estre, con una dism inución significativa en el I trimestre. Entre los diversos m étodos para obtener Indices Estacionale s, los más sencillos son: a) M étodo del porcentaje promedio.
b) M étodo de las m edias simples.
C u a d ro N ° 8 .0 6 V E N T A T R IM E S T R A L D E Z A P A T O S D E U N A R E D D E Z A P A T E R ÍA S E N L O S A Ñ O S 1 9 9 3 ,1 9 9 4 y 19 9 5 .
T r im e s tr e
1993
1994
1995
I
5 443
5 881
6 253
II
7 142
7 906
8424
III
6 781
7 423
7 928
IV
7 658
8110
8 907
27 024
2 9 32 0
31512
T o ta l A n u a l
Fuente : Estadísticas de ventas de Zapaterías Don Pie. 1993-1995. E la b o ración : Estudios y Ediciones R A
ESTADISTICA
ELEMENTAL
Gráfico N° 8.7. VENTA TRIMESTRAL DE ZAPATOS DE UNA RED DE ZAPATERIAS, EN LOS AÑOS 1993-1995. 9 000 8 500 8 000
•§ 7 500 o .
■
« 7 000 » I 6 500
o.
6 000 5 500 5 000
I
II
III 1993
8.7.1
IV
I
II
III
IV
1994
I
II
III
IV
1995
METODO DEL PORCENTAJE PROMEDIO *•
Es uno de los m étodos más simples y rápidos para determ inar los « in d ic e s e s ta c io n a le s » . El m étodo plantea lo siguiente : • • •
S um ar los datos de cada año y obtener el valor prom edio de cada subperíodo (meses, trim estres, etc.). Expresar los datos originales (Y) de cada año en térm inos porcentuales respecto al prom edio anual. Hallar el prom edio de los porcentajes de cada mes o trim estre de los distintos años, este valor constituye el Indice Estacional.
frjo tg H Para analizar las variaciones estacionales, es recom endable tener inform ación por lo menos para tres años divido en subperíodos (m eses, trimestres, etc.).
34K>RobERi o
B. A v í I a A c o s t a
Ejem plo 8.6 P ara d e ta lla r el p ro c e d im ie n to del M é to d o del P o rc e n ta je P rom edio, considerando el núm ero m ensual de accidentes de trabajo en un fábrica durante 5 años (1991 al 1995), indicados en el C uadro N° 8.7. 1) Sum ar el número de accidentes de cada año (columna) y calcular el número prom edio de accidentes por mes. Com o se aprecia en el Cuadro N° 8.7., el núm ero anual de accidentes están en la fila 1, luego dividiendo entre 12 meses, se obtiene el prom edio m ensual de accidentes de la fila 2 (donde están 12,6 ; 18,2 ; ...). 2) E xpresar en porcentaje el núm ero de accidentes m ensuales respecto a su prom edio anual; para el efecto se divide cada valor m ensual entre el prom edio m ensual de cada año, este resultado se m ultiplica por 100, los resultados están en el C uadro N° 8.8. Hagam os algunos cálculos : Para enero de 1991
^ ^ - = 95%
12.6
Para m arzo de 1992
18(100) 18.8 9(100)
Para julio de 1993
21.6
Para diciem bre de 1994
= 42%
30(100) 26.4
= 114% , etc.
3) O btener finalm ente los Indices Estacionales. Se sum an los 5 porcentajes mensuales de cada mes (filas) las sumas están en la colum na 1 del Cuadro N° 8.8, este valor se divide entre 5 (años) y resulta el Indice Estacional de cada m es (colum na 2). El indice estacional de enero es :
Si =
95+99+93+90+91 5
468 “
5
93.6%
este resultado significa que el núm ero de accidentes de enero ha estado, por lo general, en un 6.4% por debajo del núm ero prom edio año. Para ESTADISTICA
ELEMENTAL
AÑOS 1993
Robemo B.
A v í I a A c os ta
1994
1995
18 20 28
22 26 23 36 35 31 12 17 15 22 24 30
24 26 24 36 40 37 15 18 18 23 26
218
259
293
317
18,2
21,6
24,4
26,4
30
C u a d ro N °8 .0 8 PORCENTAJES MENSUALES E INDICES ESTACIONALES DE ACCIDENTES DE TRABAJO EN FABRICA TEXTIL. 1991-1995. MESES Enero Febrero Marzo Abril Mayo Junio Julio Agosto Setiembre Octubre Noviembre Diciembre
1991 %
1992 %
AÑOS 1993 %
1994 %
1995 %
95 143 143 151 143 95 24 48 32 95 111 119
99 132 99 132 159 137 33 50 39 88 99 132
93 130 111 139 139 130 42 51 60 83 93 130
90 107 94 147 143 127 49 70 61 90 98 123
91 98 91 136 152 140 57 68 68 87 98 114
(2) (D Indice Totales de cada mes Estacional (S) 93,6 122,0 107,6 141,0 147,2 125,8 41,0 57,4 52,0 88,6 99,8 123,6 1199,6
468 610 538 705 736 629 205 287 260 443 499 618
Fuente : Departamento de Seguridad Industrial. E la b o ra c ió n ; Estudios y Ediciones R.A.
Gráfico N° 8.8. NUMERO MENSUAL DE ACCIDENTES DE TRABAJO EN UNA FABRICA TEXTIL. 1991-1995.
0
dic-91
dic-92
dic-93
dic-94
ESTADISTICA
dic-95
ELEMENTAL R ot>£R io
B.
=
prom edio sim ple de los valores de Y para el mes i (i=1, 2 ......12) o trim estre (i = 1, 2, 3, 4)
A v í I a A c o s ia
Tj =
d e svia cio n e s prom edios co rre sp o n d ie n te s para cada mes o trim estre, debido a la tendencia. Este v a lo r co n stitu ye un té rm ino de corrección, que puede ser positivo o negativo.
El resultado E¡ = Y . - T¡ es un estacional típico o un prom edio ajustado por la tendencia. Finalm ente los valores se usan para calcular el Indice Estacional. La desviación prom edio se calcula de una ecuación de tendencia. En nuestro caso, con el propósito de simplificar, sólo utilizarem os la ecuación de tendencia lineal m ínim o cuadrado; esto significa que la desviación promedio para cada mes o trim estre se calculará a partir de valor de « b « en la ecuación de la recta : Y* = a + bX entonces, la desviació n prom edio m ensual será trim estres será b/4.
b/12. Si se trabaja con
El procedim iento para calcular los índices de variación estacional por este Método de las M edias Sim ples, lo vam os a ilustrar con un ejemplo.
Ejemplo | 8.7 Consideramos las ventas mensuales del Superm ercado ABC durante los años de 1991 a 1995. Los datos se presentan en el C uadro N° 8.9. con un total de 60 observaciones ( 5 x 1 2 meses), cuya poligonal está en el Gráfico N° 8.10. De la poligonal se deduce que la serie presenta variaciones estacionales, observándose que las m ayores ventas se producen en los m eses de julio y diciembre, en tanto las m enores ventas corresponden a los m eses de febrero y octubre, en cada uno de los cinco años. En un análisis más riguroso convendría explicar las causas de estas varia ciones, así com o las consecuencias en el program a financiero de la empresa. El procedim iento de cálculo de los In d ic e s E s ta c io n a le s (S) es como sigue:
1) Encontrar el prom edio de las ventas (media aritm ética) para cada mes, entonces sum ar horizontalm ente las ventas del m ism o mes (columna 1) y dividir entre 5 años (Enero: 187/5 = 37.4; Febrero 176/5 = 35.2; etc.) para obtener el prom edio de ventas mensual Y¡ (colum na 2). Con el cálculo de las m edias ( Y . ) se ha elim inado el efecto de las variaciones cíclicas y de las irregularidades. Estos promedios viene a form ar el patrón estacional antes de corregir el efecto de la tendencia.
ESTADISTICA
ELEMENTAL R o b E R io
1992
B. A v i U A c o s i a
1993
1994
1995
52 57 57 60 53 50 47 53 68 633 52,8
49,9
1993 S l O O t D T - O C M C O t f O C O C N
1992 L n C M i n C M ' T N O N ' t O C O t D r O C O ^ ^ ’ d ' d - ' ^ ' r i ’T ^ ^ l D
34 33 41
ESTADISTICA OO CM
co LO
O-
E la b o ración : Estudios y Ediciones R.A.
45,92
47,2
05 CM
Fuente : Registro de Ventas
43,7
42,4
Promedio Mensual
235,8
58,95
106,50 108,18 112,49 102,87 94,11 87,51 97,49 128,37
100,89 46,33 48,91 49,69 51,66 47,24 43,22 40,19 44,77
76,17 103,98
551,08
r-. ( û r - m o i ' î i n ' ^ i D ' r - i n s CO S t T C O T f t n O - d - C N ’ - C O O T— T— CM CM CM CM CM CM CM CM CM CO
565,8
"
524
OO CO 0 _ CO O CM O co" lo" cm" ro - '^ ro -o -c D
509
0,892 1,115 1,338 1,561 1,784 2,007 2,230 2,453
CM CM O
Total Anual
0,223 0,446 0,669
34,98 47,75
(7) (6) (5) (2) Indice Patrón Promedio Inc. Promedio de ventas de tendencias Estacional Estacional Corregido S(%) por mes Yt 0.223 mes Et = Yi - Tt Ti 81,44 37,40 0,0 h-T io co" r-" crT o " co" c o - ^ r o - 'M - L o io
47,0
42 40 54
05 05 un
46 45 46 48 44 41 37 40 54
1995
1994 C T ) ( D ( M O C M i n ( O C N t D 3 ’- S CO CO LO O" LO LO LO LO O' LO CO
1991
(D Suma de cada mes Tf
Marzo Abril Mayo Junio Julio Agosto Setiembre Octubre Noviembre Diciembre
Enero Febrero
MESES
SONV
DETERMINACION DE INDICES ESTACIONALES VENTAS MENSUALES DEL SUPERMERCADO A.B.C. 1991-1995 (Miles de dólares)
co
S Cfj £
ELEMENTAL RobERTo B.
A v íIa A c o s ia
=
Gráfico N° 8.11. INDICES ESTACIONALES VENTAS MENSUALES DEL SUPERMERCADO
70 ---------- ------------------------------------------------------------------------------------------ ---1
2
3
4
5
6
7
8
S
10
11
12
8.8 LAS VARIACIONES CICLICAS Las variaciones cíclicas son aquellas fluctuaciones que se presentan alrededor de la tendencia, generalmente cada cierto periodo largo tiempo. Son generalmente variaciones de períodos poco regulares, y por tanto resulta difícil precisar cada cuánto tiempo se presentaría un movimiento cíclico. Como no son fáciles de controlar, éstas se analizan como un residuo que se estima una vez que se conoce la tendencia y las variaciones estacionales y que las variaciones irregulares hayan sido eliminadas. Las variaciones cíclicas pueden ser medidas a partir de datos anuales o de datos que se presentan en unidades de tiempo menores de un año (trimestres, meses, etc.). Esta vez nos vamos a referir sólo a las series anuales; en estas series la variación estacional se considerada eliminada, así como las variaciones irregulares. El método más simple para analizar las fluctuaciones cíclicas es el de Datos Ajustados por Tendencia. Considerando el modelo multiplicativo de las ESTADISTICA
ELEMENTAL R o b E R io
1976; 1982; 1987; 1994; B.
X = -9 X = -3 X= 2 X= 9
A v í I a A costa
Y*76 = Y*82 = Y*87 = Y*94 =
162,1 162,6 163,0 163,5
3)
Obtener los valores ajustados de Y respecto de la tendencia en este caso se divide Y entre Y* que se multiplica por 100 para obtener los valores de la columna 7. Así tenemos : Para:
Y Y*
172 = - x 100 = 106,1% 162.1
1976
C=
1987
Y 149 C = _ = _LIY_ x 100 = 91,4% Y* 163.0
1994
C = 108,9%
—
= —
4) Como las variaciones cíclicas se presentan alrededor de la tendencia, entonces esta tendencia se considera como la base o 100% para la desviación de cada año; luego la desviación porcentual respecto a la tendencia es la diferencia de C -100% que se indica en la columna 8 del Cuadro N° 8.11. e ilustrado en el Gráfico N° 8.12. ¡Nota lO Las variaciones cíclicas también se puede estimarse en base al modelo aditivo: Y = T + C de donde C =Y - T = Y - Y* que proporciona los mismo resultados. Esto significa que las desviaciones porcentuales respecto al valor de tendencia Y* son iguales a los valores de la columna 8 En 1976 Y -Y * Y*
172-1621 x 100= x 100 = 61 % 162.1
En 1990 Y Y * x 100 = 158--16- - 2 x 100 = -3.2% 163.2 Y* R o ta B Los valores porcentuales obtenidos sólo se limitan a describir los movimientos cíclicos pasados de la serie cronológica, da una idea de lo que ocurrió, por tanto se puede explicar. Este comportamiento observado no son hechos determinantes para anticipar el comportamiento futuro de la serie, es decir no se puede utilizar con éxito para proyectar variaciones cíclicas. Sin embargo, aún cuando existen estas limitaciones, los valores constituyen elementos referenciales en la futura programación.
ESTADISTICA
ELEMENTAL O
a=1
esta transformación constituye la Estandarización de la Curva Normal, por tanto da origen a lo que se denomina la CURVA NORMAL ESTANDARIZADA O TIPIFICADA, cuya expresión ahora es:
en esta curva, las áreas comprendidas entre dos puntos cualesquiera ( z v z 2 ) también se encuentran tabulados en las Tablas de Areas bajo la Curva Nor mal Tipificada o Estándar de 0 a z (Tabla II). Por ejemplo, considerando los valores de z (-1,1), (-2, 2), (-3, 3) se tiene las siguientes áreas:
P(-1 < z < 1) = 0.6827 P(-2 < z < 2) = 0.9545 P (-3 < z < 3) = 0.9973
-3
-2
-1
o
2
3
95,45% 99,73% ESTANDARIZACION DE X: Para utilizar las Tablas de la Curva Normal Estandarizada o Tipificada (Tabla II) se requiere transformar o estandarizar los valores originales de X en valores de Z donde : z = puntaje estandarizado X¡ = valor de la variable p = media de los valores de X¡ (media poblacional) o = desviación estándar de X¡ (desviación estándar)
390/RobeRTO B. A v í I a A c o s i a
Nota : Cuando se trabaja con muestras, la relación de estandarización será:
z=
x = media muestral.
x -X
donde s = desviación estándar muestral
En el siguiente ejemplo, vamos a ilustrar cómo se estandariza los valores de X: Ejemplo 9.35
X, 1
o
_ 10,5 - 12,4 2,6
X 2 -M J 3 - 1 2 . 4 = 2
a
x3- m. i6
3
9.11.3