122 16 4MB
Spanish Pages 260 Year 2006
PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS APLICACIONES EN EL ÁREA DE CIENCIA Y TECNOLOGÍA DE ALIMENTOS
Pedro J. Martín-Álvarez
CONSEJO SUPERIOR DE INVESTIGACIONES CIENTÍFICAS
En el libro se recogen los ejemplos prácticos utilizados por los alumnos de la asignatura “Quimiometría Alimentaria”, de la licenciatura de Ciencia y Tecnología de los Alimentos, de la Universidad Autónoma de Madrid, impartida por el Prof. Pedro J. Martín-Álvarez, durante los cursos en que fue ofrecida con carácter optativo, así como los utilizados en los cursos organizados por el Instituto de Fermentaciones Industriales del CSIC, en los que ha participado como especialista en el tratamiento estadístico de los datos. El principal objetivo del libro ha sido familiarizar a sus usuarios con el manejo de las distintas herramientas estadísticas que ofrece el programa SPSS para Windows, mediante prácticas de aplicación de las técnicas estadísticas más usuales, utilizando los procedimientos y sus opciones más adecuadas. En todos los ejemplos prácticos, la mayoría publicados en revistas científicas, se intenta mostrar tanto los objetivos que se persiguen, al aplicar las correspondientes técnicas estadísticas, como los resultados que se obtienen y las conclusiones que se deducen.
PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS APLICACIONES EN EL ÁREA DE CIENCIA Y TECNOLOGÍA DE ALIMENTOS
BIBLIOTECA DE CIENCIAS, 27
PEDRO J. MARTÍN-ÁLVAREZ
PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS APLICACIONES EN EL ÁREA DE CIENCIA Y TECNOLOGÍA DE ALIMENTOS
CONSEJO SUPERIOR DE INVESTIGACIONES CIENTÍFICAS MADRID, 2006
Reservados todos los derechos por la legislación en materia de Propiedad Intelectual. Ni la totalidad ni parte de este libro, incluido el diseño de la cubierta, puede reproducirse, almacenarse o transmitirse en manera alguna por ningún medio ya sea electrónico, químico, mecánico, óptico, informático, de grabación o de fotocopia, sin permiso previo por escrito de la editorial. Las noticias, asertos y opiniones contenidos en esta obra son de la exclusiva responsabilidad del autor o autores. La editorial, por su parte, sólo se hace responsable del interés científico de sus publicaciones.
Catálogo general de publicaciones oficiales: http://publicaciones.administracion.es
MINISTERIO DE EDUCACIÓN Y CIENCIA
CONSEJO SUPERIOR DE INVESTIGACIONES CIENTÍFICAS
© CSIC © Pedro J. Martín-Álvarez NIPO: 653-06-102-7 ISBN: 84-00-08470-5 Depósito Legal: M-48085-2006 Fotocomposición e impresión: GRÁFICAS/85, S. A. Gamonal, 5. 28031 Madrid Impreso en España - Printed in Spain
A mi esposa, María Dolores, y a mis hijos, Pedro J., Carlos A. y María D.
ÍNDICE
Págs.
PRÓLOGO....................................................................................................................
11
I. SESIÓN BÁSICA................................................................................................
15
II. PRÁCTICAS DE ESTADÍSTICA UNIVARIANTE......................................... II.1. Valores descriptivos y prueba de normalidad........................................ II.2. Contraste para una media ....................................................................... II.3.1. Ejemplo de contraste para dos medias en caso de grupos independientes....................................................................................................... II.3.2. Ejemplo de contraste para dos medias en caso de grupos relacionados......................................................................................................... II.4.1. Ejemplo de contraste para más de dos medias. ANOVA de una vía.. II.4.2. Ejemplo de contraste para más de dos medias. ANOVA de dos vías. II.4.3. Otro ejemplo de ANOVA de dos vías ................................................... II.4.4. Ejemplo de ANOVA de dos vías sin el término de la interacción...... II.4.5. Otro ejemplo de ANOVA de dos vías sin el término de la interacción ...........................................................................................................
33 33 39
III. PRÁCTICAS DE ESTADÍSTICA BIVARIANTE............................................ III.1. Ejemplo de regresión simple .................................................................. III.2. Ejemplo de regresión polinómica........................................................... III.3. Ejemplo de regresión polinómica con repeticiones .............................. III.4. Ejemplo de regresión no lineal...............................................................
101 101 114 124 132
44 52 56 74 79 84 92
10
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows Págs.
IV. PRÁCTICAS DE ESTADÍSTICA MULTIVARIANTE ................................... IV.1. Ejemplo de estadística descriptiva multivariante .................................. IV.2. Ejemplo de aplicación del análisis de conglomerados ......................... IV.3. Ejemplo de aplicación del análisis de conglomerados para datos binarios ........................................................................................................ IV.4. Ejemplo de aplicación del análisis de componentes principales ......... IV.5. Ejemplo de aplicación del modelo factorial de componentes principales.......................................................................................................... IV.6. Ejemplo de aplicación del análisis factorial, de conglomerados y discriminante................................................................................................. IV.7. Ejemplo de aplicación del análisis lineal discriminante por pasos sucesivos ...................................................................................................... IV.8. Ejemplo de aplicación del análisis de regresión lineal múltiple.......... IV.9. Ejemplo de aplicación del análisis de regresión lineal múltiple por pasos sucesivos............................................................................................
141 141 155 164 169 182 196 228 232 241
V. BIBLIOGRAFÍA.................................................................................................. 255
PRÓLOGO
En este documento se recopilan las prácticas utilizadas por los alumnos de la asignatura “Quimiometría Alimentaria”, que impartí, como Profesor Asociado, durante los cursos en que fue ofrecida con carácter optativo y correspondiente al 2.º curso de la licenciatura de Ciencia y Tecnología de los Alimentos, de la Facultad de Ciencias de la Universidad Autónoma de Madrid, así como los ejemplos prácticos utilizados en los numerosos cursos, sobre tratamiento estadístico de datos en el área de Ciencia y Tecnología de los Alimentos, en los que he participado como profesor. Como se indica en el apartado de temas de ayuda de la versión 13.0.1, de 20 de noviembre de 2004, el programa SPSS para Windows (SPSS, Inc.) “proporciona un poderoso sistema de análisis estadístico y de gestión de datos en un entorno gráfico, utilizando menús descriptivos y cuadros de diálogo sencillos que realizan la mayor parte del trabajo. La mayoría de las tareas se pueden llevar a cabo simplemente situando el puntero del ratón en el lugar deseado y pulsando en el botón”. El programa forma parte del software científico adquirido por el CSIC, con licencia de campus, que puede instalarse y ejecutarse en los ordenadores de los investigadores del CSIC, y que proporciona: • Un Editor de datos, similar a una hoja de cálculo, que permite definir, introducir, editar y presentar los datos mediante el Visor de datos y el Visor de variables; • Un Visor de resultados que permite examinar los resultados, mostrarlos y ocultarlos de forma selectiva, y desplazar tablas y gráficos de gran calidad entre SPSS y otras aplicaciones; • Tablas pivote multidimensionales, con filas, columnas y capas, que pueden modificarse y reorganizarse; • Gráficos de alta resolución que pueden modificarse con el Editor de gráficos; • Transformaciones de los datos, como crear nuevas variables o seleccionar conjuntos de datos;
12
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
• Importación desde otras bases de datos; • Posibilidad de enviar por correo electrónico tablas y gráficos en formato HTML; y • Ayuda en pantalla, y en tutoriales, sobre cómo utilizar los procedimientos estadísticos y cómo interpretar los resultados. El principal objetivo de esta obra ha sido familiarizar a los usuarios con el manejo de las distintas herramientas estadísticas que ofrece el programa SPSS para Windows. Para lograr dicho objetivo se presentan ejemplos prácticos de aplicación de las técnicas estadísticas más usuales, utilizando los apropiados procedimientos del programa. Las prácticas incluyen desde la introducción de los datos y la definición de variables, hasta el comentario de los resultados obtenidos, pasando por el manejo de las distintas opciones que ofrecen las ventanas de los procedimientos estadísticos. La versión del SPSS utilizada en el desarrollo de las prácticas es la versión actual 13.0 en castellano, que puede instalarse y ejecutarse en los ordenadores de los investigadores del CSIC en la modalidad de licencia flotante en red. En todas las prácticas se muestran la ventana de datos, las ventanas de los procedimientos con sus opciones, y los resultados que se obtienen, que no difieren de los que proporcionaba la versión 11.5, posiblemente la versión más utilizada, salvo pequeñas diferencias en las salidas gráficas y en las herramientas del correspondiente Editor de gráficos. El primer capítulo corresponde a una sesión básica con el programa SPSS para familiarizarse con la ejecución del programa, la definición de variables, la introducción de los datos, y el almacenamiento de los mismos en un archivo para su uso posterior. Mediante la ejecución de un procedimiento de estadística descriptiva, se comentan las distintas pantallas del programa (Visor de variables, Visor de datos, Visor de resultados y Editor de gráficos), se modifican los datos erróneos, y se guardan los resultados seleccionados. El segundo capítulo incluye un total de 9 prácticas correspondientes a los contrastes estadísticos más importantes de estadística univariante: • contraste de normalidad de los datos, • contraste para una media, • contraste de igualdad de dos medias (para muestras independientes o relacionadas), • análisis de la varianza (ANOVA) de un factor (contraste para más de dos medias), y de 2 factores (modelo completo o sin interacción). El tercer capítulo incluye 4 prácticas correspondientes a ejemplos de problemas de estadística bivariante: • • • •
análisis de correlación simple, análisis de regresión simple, regresión polinómica, y regresión no lineal.
El cuarto capítulo incluye un total de 9 prácticas correspondientes a ejemplos de aplicación de algunas de las técnicas estadísticas multivariantes más utilizadas: • estadística descriptiva, • análisis de conglomerados jerárquicos (para variables cuantitativas o binarias),
Prólogo
13
• análisis y modelo factorial de componentes principales, • análisis lineal discriminante (completo o por pasos sucesivos), y • regresión lineal múltiple (completa o por pasos sucesivos). En todos los ejemplos prácticos se intenta mostrar tanto los objetivos que se persiguen, al aplicar la correspondiente técnica estadística, como los resultados que se obtienen y las conclusiones que se deducen. Madrid, diciembre de 2005. PEDRO J. MARTÍN-ÁLVAREZ Investigador científico del Instituto de Fermentaciones Industriales del CSIC
I. SESIÓN BÁSICA
1. Abrir el programa SPSS (SPSS Inc., Chicago, IL 60606, EE.UU., http://www.spss. com), e introducir, en la primera columna de la tabla del Editor de datos, los siguientes valores para una variable de tipo numérico: 107.9, 96.76, 91.2, 79.0, 103.15, 88.06, 101.3, 106.05, 93.7, 86.0, 100.7 99.4, 104.6, 227.20, 112.2, 106.9, 93.0, 88.3, 101.96, 109.8 Defina la variable con nombre varx, de tipo numérico, con 2 decimales y medida tipo escala. Guarde estos datos en un fichero con nombre PRACBASI.SAV. 2. Para esta variable varx, calcule los valores descriptivos: media, desviación típica, valor mínimo y máximo, y obtenga el correspondiente histograma. Observe en el Visor de resultados la tabla con los valores descriptivos y el gráfico. 3. Interprete los datos. ¿Se puede afirmar que existe algún dato atípico? 4. Cambie el valor 227.2 de la variable varx, fila 14, por 117.2, salve el fichero de datos y obtenga los nuevos valores descriptivos y el correspondiente histograma. Resultados:
1. Abra el programa SPSS, desde el icono del escritorio, o desde el menú de Inicio de la pantalla del ordenador, seleccionando Programas, SPSS para Windows, y SPSS 13.0 para Windows, y observe que se tiene la siguiente ventana:
16
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Seleccione Introducir Datos en el apartado ¿Qué desea hacer?, y pulse en Aceptar. Aparece la pantalla de Vista de Variables del Editor de datos del SPSS, que permite definir las variables que se vayan a utilizar, en este caso sólo se necesita la variable de nombre varx. Por defecto se asignará automáticamente unas especificaciones para dicha variable: tipo (numérico), anchura (8), decimales (2), valor para dato perdido (ninguno = no hay dato “missing”), columnas (8), alineación (derecha), tipo de medida(escala). Se puede asignar la etiqueta “Concentración”. De esta forma, se tiene la siguiente Vista de Variables de la ventana del Editor de datos:
I.
Sesión básica
17
Si pulsa en la pestaña Vista de datos, en la parte inferior izquierda de la pantalla, puede empezar a introducir los 20 datos de la variable varx, en la primera columna, a partir de la primera fila, y tendrá la siguiente pantalla de Vista de datos, del Editor de datos del SPSS:
Notas: En la tabla de datos los casos (o muestras) ocupan las filas y las variables las columnas. Dependiendo de las especificaciones del ordenador de trabajo en cuanto al símbolo decimal de los datos numéricos (ver en Mi PC, Panel de Control, Configuración regional, Números, Símbolo), se podrá utilizará el punto decimal o la coma decimal. Observe la existencia de la barra de menús, o de herramientas (Archivo, Edición, Ver, Datos, …, ?), y de botones, similares a las de otros programas del entorno de Windows. Para guardar estos datos en un fichero, para estudios posteriores, elegir en la barra de menús Archivo, Guardar como (o use el correspondiente botón), y en la ventana, en el cuadro Guardar en: seleccionar unidad y destino (por ejemplo la unidad A:); en el cuadro Nombre de archivo poner pracbasi; y en Tipo seleccionar SPSS (*.SAV); y pulsar en Guardar:
18
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
2. Para obtener los valores descriptivos, elija en la barra de menús: Analizar, Estadísticos descriptivos, Descriptivos (en la versión 8.0 elegir Estadística, Resumir, Descriptivos):
y en la ventana correspondiente del comando, coloque la variable varx en el cuadro Variables:
Abra la ventana de Opciones y marque los estadísticos deseados (media, desviación típica, valor mínimo y máximo); pulse en la tecla de Continuar y después en la tecla de Aceptar de la ventana general del procedimiento Descriptivos.
I.
Sesión básica
19
Se obtiene la siguiente tabla en la ventana del Visor de Resultados del SPSS:
con los valores descriptivos: n = 20, valor mínimo = 79, valor máximo = 227.20, media aritmética ( –x = ∑ xi /n) = 104.9, y desviación típica, o estándar (s = √∑ (xi – –x) 2 /(n – 1)) = = 30.11.
20
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Para obtener el histograma de los datos, elija en la barra de menús: Gráficos, Histograma:
y en la correspondiente ventana, coloque la variable varx en el cuadro Variable; seleccione Mostrar curva normal, y pulse en la tecla de Aceptar.
I.
Sesión básica
21
En el Visor de resultados del SPSS aparecerá el gráfico con el histograma.
3. Como puede observarse existe un dato, en torno a 220, muy alejado del resto, que pudiera ser considerado como atípico o “outlier”. Observando la columna de los datos, en la Vista de Datos, corresponde al valor 227.2 de la fila 14. Una vez revisado, se comprueba que se debe a un error de trascripción del verdadero valor 117.2. 4. Una vez corregido dicho valor en la Vista de datos del Editor de datos (sin más que seleccionar la celda y escribir encima), se procede a salvar el fichero (Archivo, Guardar) y ejecutando nuevamente los anteriores procedimientos (Analizar, Estadísticos descriptivos, Descriptivos y Gráficos, Histograma), los nuevos resultados en el Visor de resultados del SPSS, son los siguientes:
22
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
es decir: número de observaciones (n) = 20, media aritmética ( –x) = 99.359, desviación típica (s) = 9.7594, valor mínimo = 79, valor máximo = 117.20. El valor de la desviación estándar relativa o coeficiente de variación (CV(%)=100·desv.típ./media), sería: 9.82%. Este último valor, relacionado con la precisión, no es proporcionado por el programa. Observando el histograma, no parece existir ningún punto atípico. Nota: A la izquierda de la pantalla, se puede observar el panel de titulares de los resultados, que puede ayudar a navegar por los mismo, a controlar su presentación (contraer o expandir), y en la selección o borrado de los mismos.
I.
Sesión básica
23
También se podría haber utilizado el comando: Analizar, Estadísticos descriptivos, Explorar, (o Estadística, Resumir, Explorar, en la versión 8):
En la correspondiente ventana del comando, colocar la variable varx en el cuadro Dependientes:
24
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
y en la ventana de Gráficos seleccionar Histograma y gráfico de tallo y hojas, pulsar en la tecla Continuar, y pulsar en la tecla de Aceptar en la ventana principal del comando.
Los resultados en el Visor de resultados del SPSS son los siguientes: • Tabla con los valores descriptivos: Descriptivos Concentración
Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis
Límite inferior Límite superior
Estadístico
Error típ.
99.3590 94.7915 103.9265
2.18227
99.4989 101.0000 95.246 9.75940 79.00 117.20 38.20 15.0375 -.258 -.402
.512 .992
Sesión básica
25
que incluye: – la media aritmética ( –x = 99.36) y su error típico
la mediana, la varianza
la desviación típica (s), el valor mínimo (min), y máximo (max), el rango (max – min), la amplitud intercuartílica (Q3 – Q1) y el coeficiente de asimetría y de curtosis, junto con sus errores típicos. – el intervalo de confianza al 95% para la media poblacional (94.79, 103.93). Recordar que este intervalo es
donde t.975,n–1 es el
valor de la t-Student con n–1 grados de libertad tal que su función de distribución, F(t.975,n–1), es 0.975. – el valor de la media recortada al 5% (99.50), que es una mejor estimación de la tendencia central (más robusta), especialmente cuando los datos no son normales y que se calcula como la media aritmética después de haber eliminado el 5% de los casos mayores y el 5% de los menores. • El histograma de frecuencias para la variable varx (“Concentración”): Histograma 5
4
Frecuencia
I.
3
2
1
0 80,00
90,00
100,00
Concentración
110,00
Media =99,359 Desviación típica =9,7594 120,00 N =20
26
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
• El gráfico de tallo y hojas (una especie de histograma semi-gráfico): Frequency 1.00 3.00 5.00 9.00 2.00 Stem width: Each leaf:
Stem & 7 8 9 10 11
. . . . .
Leaf 9 688 13369 011346679 27
10.00 1 case(s)
que informa de la existencia de un único dato en el intervalo [70,80), de tres datos en [80,90), de cinco en [90,100), de 9 en [100,110), y de 2 en el intervalo [110,120). • El diagrama de caja (o “box plot”) con los valores de la mediana, primer (Q1) y tercer cuartil (Q3), y los valores extremos para el intervalo de valores admisibles (Q1 – 1.5(Q3 – Q1), Q3 + 1.5(Q3 – Q1)): 130,00
120,00
110,00
100,00
90,00
80,00
70,00 Concentración
que pone de manifiesto que ahora todos los datos caen dentro de este intervalo de valores admisibles.
I.
Sesión básica
27
El correspondiente diagrama de caja para los datos iniciales, con el valor sin corregir, hubiese sido el siguiente: 250,00 14
* 200,00
150,00
100,00
Concentración
poniendo de manifiesto que el dato número 14 es un dato extremo que podría ser considerado como atípico (“outlier”). Los gráficos en la Ventana de Resultados se pueden modificar mediante el Editor de gráficos del SPSS, para ello basta “pinchar 2 veces” con el ratón, sobre el gráfico (o utilizando el botón derecho del ratón), y se entra en la correspondiente ventana donde se pueden utilizar las herramientas del Editor de gráficos. Por ejemplo, para modificar el histograma, una vez dentro del Editor de gráficos, se tendría la siguiente pantalla:
28
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
donde puede observarse la correspondiente barra de menús (Archivo, Edición, Ver, Opciones, Elementos, ..., ¿). Para cambiar títulos basta con pinchar dos veces con el puntero del ratón e introducir los cambios y tipo de letra en la ventana de Propiedades (p.e., cambiar varx por Concentración). Para incorporar la curva pinchar dos veces sobre el histograma y aparecerá la ventana de Propiedades donde se puede seleccionar Ver la curva normal. Pulsar Aplicar; también se puede modificar el Nº de intervalos seleccionando Personalizado en Tamaños de clase.
I.
Sesión básica
29
Una vez realizadas todas las modificaciones, utilizando la herramienta Archivo, Cerrar, se regresa a la Ventana de Resultados con el gráfico modificado: Histograma 5
Frecuencia
4
3
2
1
0 80,00
90,00
100,00
110,00
Media =99,359 Desviación típica =9,7594 120,00 N =20
Concentración
En la Ventana de Resultados, se puede seleccionar con el ratón los gráficos y tablas que interesen (ayudarse de la tecla Control para la selección). Una vez seleccionados se puede imprimir (Archivo, Imprimir), o copiar a un fichero de MS-WORD (utilizar los comandos Edición, Copiar Objetos del SPSS y los correspondientes Edición, Pegar del MS-WORD, que después se puede ajustar, ampliar o disminuir su tamaño, con Formato
30
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
de imagen). También se puede obtener una vista previa de los mismos (Archivo, Presentación preliminar), o enviar por correo electrónico (Archivo, Enviar mensaje), o guardar en un fichero con extensión spo (Archivo, Guardar como) que podrá abrirse posteriormente. Para finalizar la práctica habría que salir del programa SPSS con el comando Archivo, Salir, desde la Ventana de resultados (preguntará si se quieren guardar o no los resultados obtenidos), o desde la ventana del Visor de datos del Editor de datos. Si posteriormente se quisiera trabajar nuevamente con el fichero pracbasi.sav, abra el programa SPSS, y elija el fichero mencionado, si figura en la ventana Abrir una fuente de datos existente. Si no figura pulsar en Cancelar, y en la barra de herramientas elija Archivo, Abrir, Datos, acceda a la carpeta correspondiente, seleccione el fichero pracbasi.sav y pulse Abrir. Los datos aparecerán en el Editor de datos. Aunque la salida gráfica de la versión 11.5 tenía una menor calidad que la proporcionada por la nueva versión 13.0, su Editor de gráficos permitía mejorar la calidad de los gráficos de la Ventana de Resultados, mediante las herramientas de la barra de menús: Archivo, Edición, Ver, Galería, Diseño, Series, Formato,...; y sus correspondientes ventanas. La pantalla del Editor de gráficos de la versión 11.5 era la siguiente:
I.
Sesión básica
31
• Para centrar los títulos de los ejes y modificar el número de intervalos, se puede elegir, en la barra de herramientas: Diseño, ejes, Intervalo, Aceptar; y en la nueva ventana:
en Justificación de títulos, elegir Centro, y en Intervalos, elegir Personalizado, pulsar en Definir,
y en Definición elegir 10 en Nº de intervalos. Pulse Continuar, y después Aceptar. • Para que aparezca la curva Normal utilizar la herramienta Diseño, opciones, Mostrar curva normal, • Para centrar el título general utilizar la herramienta Diseño, Títulos, Aceptar, • Para cambiar el tipo de letra y tamaño de los caracteres de un texto, una vez seleccionado, utilizar la herramienta Formato, Texto. • Para eliminar la leyenda, en este caso los valores descriptivos, se puede utilizar la herramienta Diseño, Leyenda.
II. PRÁCTICAS DE ESTADÍSTICA UNIVARIANTE
II.1. VALORES DESCRIPTIVOS Y PRUEBA DE NORMALIDAD Los contenidos en alcoholes isoamílicos (2-metil-1-butanol y 3-metil-1-butanol) de 20 botellas de whisky de una determinada marca, fueron (Herranz et al., 1989; MartínÁlvarez et al., 1988): 107.9, 96.7, 91.2, 79.0, 103.1, 88.0, 101.3, 106.0, 93.7, 86.0, 100.7, 99.4, 104.6, 117.2, 112.2, 106.9, 93.0, 88.3, 101.9, 109.8 1. Calcular los valores descriptivos y el intervalo de confianza al 95% para la media poblacional. 2. Obtener el gráfico de tallo y hojas, el diagrama de caja, el histograma con la curva normal y el gráfico de la prueba de normalidad. 3. Contrastar la normalidad de los datos con las pruebas de Shapiro-Wilk, y de Kolmogorov-Smirnov (Martín-Álvarez, 2000). 4. Imprimir los resultados. 5. Guardar los resultados en un fichero de MS-WORD y salir del SPSS. Resultados:
Abrir el programa SPSS, seleccionar Introducir Datos, y pulsar en Aceptar. En la pantalla de Vista de Variables, definir la variable isoamil de tipo numérico con 2 decimales y medida tipo escala.
34
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Seleccionar la pestaña Vista de datos (en la parte inferior izquierda de la pantalla), e introducir, en la primera columna, los 20 anteriores valores. Guardar el fichero de datos con nombre pracuni.bas (Archivo, Guardar como, desde el Visor de datos). Se tiene:
1.-3. Para obtener los valores descriptivos y el intervalo de confianza al 95% para la media de la población, así como el gráfico de tallo y hojas, el diagrama de caja, el histograma con la curva normal y el contraste de normalidad (pruebas de Shapiro-Wilk, y de Kolmogorov-Smirnov), se puede utilizar el comando Analizar, Estadísticos descriptivos, Explorar, o (Estadística, Resumir, Explorar, en versiones anteriores a la 9). En la ventana del comando colocar el nombre de la variable en el cuadro Dependientes, y en la ventana de Gráficos seleccionar Tallo y hojas, Histograma y Gráficos con prueba de normalidad, pulsar en Continuar, y Aceptar.
II.
Prácticas de estadística univariante
35
36
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados, en la Ventana de Resultados del SPSS, son los siguientes: a) informe del número de datos válidos (20) y perdidos (0): Resumen del procesamiento de los casos
N ISOAMIL
Válidos Porcentaje 20
Casos Perdidos N Porcentaje
100.0%
0
.0%
N
Total Porcentaje 20
100.0%
b) valores descriptivos de la concentración de alcoholes isoamílicos: Descriptivos ISOAMIL
Media Intervalo de confianza para la media al 95%
Límite inferior Límite superior
Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis
Estadístico
Error típ.
99.3450 94.7771 103.9129
2.18246
99.4833 101.0000 95.263 9.76026 79.00 117.20 38.20 15.0250 -.256 -.402
.512 .992
( –x = 99.34; s = 9.76; min = 79.0; max = 117.2; el intervalo de confianza al 95% para la media poblacional, IC95% = (94.78,103.91); y la media recortada al 5%, 99.48, muy próxima a la aritmética). c) resultados del contraste de normalidad de los datos según el criterio de Kolmogorov-Smirnov y el de Shapiro-Wilk: Pruebas de normalidad Kolmogorov-Smirnova Estadístico gl Sig. ISOAMIL
.105
20
.200*
Shapiro-Wilk Estadístico gl .985
20
Sig. .983
* Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors.
que ponen de manifiesto que se puede aceptar la normalidad de los datos (la Sig. = significación o probabilidad asociada con el contraste de la hipótesis nula (H0 ≡ Datos con
II.
Prácticas de estadística univariante
37
distrib. normal) es mayor que el nivel de significación fijado (α = 0.05)), con cualquiera de los dos criterios. d) histograma: Histograma 5
Frecuencia
4
3
2
1
0 80,00
90,00
100,00
110,00
Media =99,345 Desviación típica =9,76026 120,00 N =20
isoamil
e) diagrama tallo y hojas: ISOAMIL Stem-and-Leaf Plot Frequency 1.00 3.00 5.00 9.00 2.00 Stem width: Each leaf:
Stem & 7 8 9 10 11
. . . . .
Leaf 9 688 13369 011346679 27
10.00 1 case(s)
38
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
f) gráfico con el contraste normalidad: Gráfico Q-Q normal de isoamil 2
Normal esperado
1
0
-1
-2 80
90
100
110
120
Valor observado
En este gráfico los valores observados se representan respecto a los valores esperados si la muestra se obtuviera de una distribución normal; y puesto que los puntos se agrupan en torno a una línea recta, se puede concluir, de manera gráfica, que la muestra de datos procede de una distribución normal (Martín-Álvarez, 2000). g) diagrama de caja 120,00
110,00
100,00
90,00
80,00
isoamil
que no muestra datos atípicos fuera del intervalo de valores admisibles. Los gráficos obtenidos pueden modificarse mediante los comandos del Editor de gráficos del SPSS (“pinchar 2 veces” con el ratón, sobre el gráfico, modificarlo mediante
II.
Prácticas de estadística univariante
39
los correspondientes comandos, y salir del editor gráfico mediante la herramienta Archivo, Cerrar). 4. Seleccionar los resultados, tablas y/o gráficos, que se quieran imprimir y utilizar Archivo, Imprimir. 5. Si hay resultados, tablas y/o los gráficos, que se quieran copiar a un fichero MSWORD, seleccionarlos y utilizar la herramienta Edición, Copiar Objetos del SPSS y la de Edición, Pegar del MS-WORD. Por último para salir del SPSS elegir Archivo, Salir. II.2. CONTRASTE PARA UNA MEDIA Comprobar la exactitud de un método analítico para una muestra de referencia con 0.34 mg/l de concentración (Massart et al., 1990; Martín-Álvarez, 2000). Los resultados de 15 determinaciones analíticas de la muestra dan los siguientes valores: .223 .243 .268 .278 .285 .291 .299 .316 .331 .346 .360 .361 .380 .404 .409 ¿Se puede aceptar que proceden de una población Normal con media 0.34 (el valor de referencia para la muestra)? ¿El método analítico es exacto para esa muestra? 1. Calcular los valores descriptivos, el intervalo de confianza al 95% para la media, el gráfico con el diagrama de caja, y contrastar la normalidad de los datos mediante la prueba de Shapiro-Wilk y con el gráfico de probabilidad normal. Si los datos son normales consultar el intervalo de confianza al 95% para ver si incluye el valor de referencia. 2. Contrastar la hipótesis Ho ≡ µ = µ0 = 0.34 para los datos. Observar e interpretar los resultados obtenidos. ¿Puede aceptarse la hipótesis nula? 3. Repetir el contraste aceptando que el valor de referencia hubiese sido 0.40, e interpretar los resultados obtenidos. 4. Copiar los resultados que interesen en un fichero de MS-WORD anotando, también, las conclusiones obtenidas. Resultados
Ejecutar el programa SPSS, y abrir el anterior fichero pracuniv.bas desde el recuadro Abrir una fuente de datos existente, si figura el nombre del fichero, o con el comando Archivo, Abrir, Datos (o seleccionar Introducir Datos, y pulsar en Aceptar sí se quiere crear otro fichero). En la pantalla de Vista de Variables, definir la nueva variable referen, de tipo numérico con 3 decimales y medida tipo escala. Seleccionar la pestaña Vista de datos (en la parte inferior izquierda de la pantalla), e introducir, en la segunda columna, los 15 valores de las determinaciones analíticas empezando en la primera fila. 1. Para obtener los valores descriptivos y el intervalo de confianza al 95% para la media de la población, así como el contraste de Shapiro-Wilk para la normalidad de los datos se puede utilizar el comando Analizar, Estadísticos descriptivos, Explorar. En la ventana del comando colocar el nombre de la variable referen en el cuadro Dependientes, y en la ventana de Gráficos seleccionar Gráficos con prueba de normalidad, pulsar en Continuar, y Aceptar.
40
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados son los siguientes: • El resumen del número de casos válidos (n = 15): Resumen del procesamiento de los casos
REFEREN
Válidos N Porcentaje 15 75.0%
Casos Perdidos N Porcentaje 5 25.0%
N
Total Porcentaje 20 100.0%
II.
Prácticas de estadística univariante
41
• Los valores descriptivos: Descriptivos REFEREN
Media Intervalo de confianza para la media al 95%
Límite inferior Límite superior
Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis
Estadístico
Error típ.
.31960 .28821 .35099
.014636
.32000 .31600 .003 .056683 .223 .409 .186 .08300 .027 -.917
.580 1.121
media ( –x = 0.3196), desviación típica (s = 0.05668), error típico de la media (s/√ n = 0.146), y el intervalo de confianza para la media al 95% (0.288,0.351) que incluye el de referencia y, por tanto, el valor medio experimental (0.3196) es concordante con lo que cabría esperar para esa muestra de 0.34 mg/l, o dicho de otro modo, el método analítico es exacto para la muestra. En la tabla también figuran: el valor de la media recortada al 5% ( –x 5 % = 0.32), la mediana (Med = 0.316), la varianza (s2 = 0.003213), el valor mínimo (xmin = 0.223), el valor máximo (xmax = 0.409), el intervalo o rango (xmax – xmin = 0.106), la amplitud intercuartílica (Q3 – Q1 = 0.083), el coeficiente de asimetría (0.027) y el de curtosis o apuntamiento (–0.917) con sus respectivos errores típicos (0.58 y 1.121, respectivamente). • El resultado del contraste de normalidad de los 15 datos: Pruebas de normalidad Kolmogorov-Smirnov a Estadístico gl Sig. REFEREN
.109
15
.200*
Estadístico
Shapiro-Wilk gl
.971
15
Sig. .866
* Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors.
que incluye: el valor del estadístico del contraste de Kolmogorov-Smirnov (Dcal = 0.109), sus grados de libertad (n = 15), y la probabilidad asociada con la corrección de significación de Lilliefors (Sig. = P = 0.200), que permite aceptar la hipótesis nula de normalidad de los datos, por ser mayor que el nivel de significación (α = 0.05); y también los resultados del estadístico del contraste de Shapiro-Wilk (wcal = 0.972), sus grados de libertad (gl = 15), y la probabilidad asociada (Sig. = P = 0.851 > 0.05), que permite aceptar, también, la hipótesis nula de normalidad de los datos.
42
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
• el histograma, y el diagrama de tallo y hojas para los datos: Histograma
REFEREN Stem-and-Leaf Plot
4
Frequency
Stem &
Leaf
Frecuencia
3
2.00 5.00 3.00 3.00 2.00
2
1
0 0,250
0,300
0,350
0,400
Media =0,3196 Desviación típica =0,056683 N =15
2 2 3 3 4
Stem width: Each leaf:
. . . . .
24 67899 134 668 00
.100 1 case(s)
referen
• el gráfico de probabilidad normal para el contraste visual de la normalidad de los datos y el diagrama de caja (con el intervalo de valores admisibles, que pone de manifiesto que no existen valores atípicos): Gráfico Q-Q normal de referen 2
0,40
Normal esperado
1 0,35
0 0,30 -1 0,25 -2 0,25
0,30
0,35
Valor observado
0,40
0,20
referen
Para contrastar la hipótesis Ho ≡ µ = µ0 = 0.34 para los datos, elegir en la barra de menús el procedimiento Analizar, Comparar medias, Prueba T para una muestra, y colocar el nombre de la variable en el cuadro de Contrastar variables:, y el valor 0.34 en el cuadro Valor de prueba:, pulsar en Aceptar.
II.
Prácticas de estadística univariante
43
Los resultados que se obtienen son los siguientes: • Valores descriptivos de la variable utilizada (referen) (n = 15, media ( –x = 0.3196), desviación típica (s = 0.05668) y error típico de la media (s/√ n = 0.146)): Estadísticos para una muestra N REFEREN
Desviación típ.
Media 15
.31960
.056683
Error típ. de la media .014636
• Resultados de la aplicación del test de hipótesis para una media (H0 ≡ µ = µ0 = 0.34): Prueba para una muestra Valor de prueba = 0.34
t REFEREN
-1.394
gl
Sig. (bilateral) 14
.185
Diferencia de medias -.02040
95% Intervalo de confianza para la diferencia Inferior Superior -.05179
.01099
valor del estadístico t-Student (tcal = –1.394), con n-1 = 14 grados de libertad, y una probabilidad asociada (significación bilateral) P = 0.184. Como P es mayor que nuestro nivel de significación α = 0.05, se deduce que no hay motivos para rechazar la hipótesis nula, y por tanto, se acepta que el valor medio obtenido para la muestra ( –x = 0.3196) no difiere del valor de referencia (valor de prueba = 0.34). En los resultados se incluyen también: la diferencia entre –x y el valor 0.34 (diferencia de medias = –0.020), y el intervalo de confianza al 95% para dicha diferencia (–0.052, 0.011). Puesto que este intervalo contiene el valor 0, se puede concluir, también, que las 2 medias no son significativamente diferentes. 3. Si el valor de referencia hubiese sido 0.40 (repetir el procedimiento Analizar, Comparar medias, Prueba T para una muestra, colocando el valor 0.40 en el cuadro Valor de prueba:),
44
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
los resultados que se obtendrían serían: Estadísticos para una muestra N REFEREN
Media 15
.31960
Desviación típ. .056683
Error típ. de la media .014636
Prueba para una muestra Valor de prueba = 0.40
REFEREN
t -5.493
gl 14
Sig. (bilateral) .000
Diferencia de medias -.08040
95% Intervalo de confianza para la diferencia Inferior Superior -.11179 -.04901
Los valores descriptivos para los datos son los mismos que antes, pero los resultados para el contraste son distintos. Ahora el valor del estadístico t-Student (tcal = –5.493), con 14 grados de libertad, tiene una probabilidad asociada (significación bilateral) P = 0.000, que es menor que nuestro nivel de significación α = 0.05, y se deduce que hay motivos para rechazar la hipótesis nula, y por tanto, se acepta que el valor medio obtenido para la muestra ( –x = 0.3196) difiere del valor de referencia (valor de prueba = 0.40), o que el método analítico mide menos de lo esperado. El intervalo de confianza al 95% para la diferencia de medias (–0.1118 , –0.0490) no contiene el valor 0, y se puede concluir, también, que las 2 medias son significativamente diferentes (P < 0.05). 4. Para copiar y pegar múltiples resultados en un fichero de MS-WORD, seleccionar las tablas o los gráficos que se vayan a copiar (mantenga pulsada la tecla de mayúsculas “⇑” o la de Control “Ctrl” para seleccionar múltiples elementos), elija Edición y Copiar objetos (No Edición y Copiar, si disponemos de una versión anterior a la 13.0) en la barra de menús del SPSS, y en la aplicación de destino (MS-WORD), elija en la barra de menús: Edición y Pegar. En la versión 13.0 para copiar tablas se puede utilizar también la opción Edición y Copiar, que tiene la ventaja de poder editar la tabla pegada en el documento de MS-WORD. Nota: Para cortar, copiar y/o pegar objetos dentro del Visor de Resultados, o entre dos ventanas del Visor de resultados, se pueden utilizar las herramientas Cortar, Copiar y/o Pegar del menú de Edición. II.3.1. EJEMPLO DE CONTRASTE PARA DOS MEDIAS EN CASO DE GRUPOS INDEPENDIENTES Dadas las siguientes determinaciones, obtenidas con un mismo método analítico, en 18 muestras procedentes de dos grupos diferentes: Grupo A: {11.2 13.7 14.8 11.1 15.0 16.1 17.3 10.9 10.8 11.7} Grupo B: {10.9 11.2 12.1 12.4 15.5 14.6 13.5 10.8}
II.
Prácticas de estadística univariante
45
¿se puede aceptar que estos resultados proceden de dos poblaciones normales con la misma media? ¿Tienen los dos grupos el mismo valor medio? (Martín-Álvarez, 2000). 1. Definir una variable para el agrupamiento de los datos (variable grupo, con valores 1 para el Grupo A y 2 para el Grupo B), y una variable para los resultados analíticos (variable resul con los anteriores datos). 2. Calcular los valores descriptivos de la variable resul en cada grupo, y contrastar la hipótesis Ho ≡ µ1 = µ2 para los datos de esta variable en los dos grupos. Observar e interpretar los resultados obtenidos. ¿Proceden los datos de dos poblaciones normales con la misma media? (Martín-Álvarez, 2000) 3. Obtener el gráfico con las barras de error, correspondientes al intervalo de confianza al 95% para la media, para la variable resul en los dos grupos. 4. Copiar los resultados, anotando las conclusiones, en un fichero MS-WORD. 5. Contrastar la hipótesis anterior, pero utilizando la prueba no paramétrica de MannWhitney, en caso de no aceptar distribuciones normales Resultados:
Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas II.1 y II.2. 1. Para este contraste es necesario definir dos nuevas variables: una de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los datos con su grupo de procedencia (variable grupo, valor 1 para los datos del Grupo A y 2 para los del Grupo B); y otra de tipo numérico, medida tipo escala, con un ancho de 8 y 1 decimal, y etiqueta “Concent.” para los valores de los resultados analíticos de las muestras (variable resul), es decir:
En el Visor de datos, introducir los correspondientes valores de las 2 variables, en la tercera y cuarta columnas, 1 y 11.2 en la fila 1; 1 y 13.7 en la fila 2; 1 y 14.8 en la fila 3; …; 1 y 11.7 en la fila 10; 2 y 10.9 en la fila 11; …; y 2 y 10.8 en la fila 18. Salvar el fichero (Archivo, Guardar) 2. Para calcular los valores descriptivos de la variable resul en cada grupo, y contrastar la hipótesis Ho ≡ µ1 = µ2 para los datos de esta variable en los dos grupos utilizar el procedimiento Analizar, Comparar medias, Prueba T para muestras independientes, y colocar como Variable a contrastar, la variable resul, y como Variable de agrupación, la variable grupo, con valores 1 y 2 en la ventana de Definir los grupos, pulsar en Continuar y en Aceptar,
46
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
se obtendrían los siguientes resultados, que incluyen: • Valores descriptivos: n, media ( –x), desviación típica (s) y error típico de la media ( –x/√ n), para la variable resul (Concent.) en cada grupo (grupo = 1 (A) y grupo = 2 (B)): Estadísticos de grupo
Concent.
GRUPO 1 2
N
Media 10 8
13.260 12.625
Desviación típ. 2.4254 1.7564
Error típ. de la media .7670 .6210
II.
Prácticas de estadística univariante
47
• Resultados de los test de hipótesis. Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas
F
Concent. Se han asumido varianzas iguales No se han asumido varianzas iguales
2.554
Sig.
.130
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia
95% Intervalo de confianza para la diferencia Inferior Superior
.620
16
.544
.635
1.0238
-1.5354
2.8054
.643
15.889
.529
.635
.9869
-1.4582
2.7282
En primer lugar, el resultado del test de comparación de las 2 varianzas (Prueba de Levene para la igualdad de varianzas) con el valor del estadístico (F = 2.554) y la probabilidad asociada con ese valor (Sig. = P = 0.130), que al ser mayor de nuestro α = 0.05, se deduce que ambas varianzas pueden ser consideradas homogéneas o iguales (igual dispersión en los 2 grupos). En segundo lugar, y aceptando la igualdad de varianzas, hay que fijarse en la línea de resultados indicada por “Se han asumido varianzas iguales”, y en la Prueba T para la igualdad de medias, que incluye: el valor del estadístico para este contraste (t-Student = 0.620), sus grados de libertad (gl = 10 + 8 – 2 = 16), y la probabilidad asociada en caso de prueba bilateral (Sig. = P = 0.544). Esta última probabilidad es también mayor que nuestro nivel de significación (α = 0.05), y por tanto, no existen motivos para rechazar la hipótesis nula de igualdad de medias en los dos grupos de datos. El intervalo de confianza al 95% para la diferencia de las dos medias incluye el valor 0 y por tanto también se acepta que los dos grupos de datos tienen la misma media. En el caso en que los anteriores datos fuesen los resultados proporcionados por dos laboratorios para una misma muestra de referencia, se aceptaría que ambos laboratorios tienen la misma precisión y proporcionan los mismos resultados para esa muestra de referencia utilizada. Esta tabla “Prueba de muestras independientes” de resultados del SPSS podría modificarse en la Ventana de Resultados, para cambiar su visualización (tamaño de los caracteres, ancho de alguna columna, e incluso eliminarla), pinchando dos veces sobre la tabla, y utilizando el menú Formato, Propiedades de la Tabla, Formatos de casilla, Área de datos, Cambiar a Texto Arial 10, …, Aplicar, Aceptar,
48
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Para eliminar la columna Error típ. de la diferencia, seleccionar con el ratón los dos datos de la columna y Edición, Borrar. Para modificar el ancho de las columnas utilizar el ratón. Una vez modificada la tabla, se puede copiar en un fichero de MS-WORD (Edición, Copiar objetos, y Edición, Pegar). El resultado sería el siguiente: Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas
Concent.
Se han asumido varianzas iguales No se han asumido varianzas iguales
F
Sig.
2.554
.130
Prueba T para la igualdad de medias
t
Sig. (bilateral)
gl
Diferencia de medias
95% Intervalo de confianza para la diferencia Inferior
Superior
.620
16
.544
.635
-1.5354
2.8054
.643
15.889
.529
.635
-1.4582
2.7282
3. Para obtener el gráfico con las barras de error, correspondientes al intervalo de confianza al 95% para la media de la variable resul en cada uno de los dos grupos de datos, utilizar el comando Gráficos, Barras de error, Simple, Definir, colocar la variable resul en el cuadro Variable y la variable grupo en el cuadro Eje de categorías, y pulsar en Aceptar.
II.
Prácticas de estadística univariante
49
El gráfico sería el siguiente:
95% IC referen
0,35
0,30
0,25
0,20 1
grupo
2
que pone de manifiesto que el valor medio de un grupo está incluido en el intervalo de confianza al 95% para la media del otro grupo, lo que implica la igualdad de las 2 medias. 4. Seleccionar tablas y gráficos para copiar con Edición, Copiar objetos, y Edición, Pegar.
50
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
5. Para la aplicación correcta del estadístico del contraste de la hipótesis de igualdad de las 2 medias (Ho ≡ µ1 = µ2 ), en caso de muestras independientes, es necesario aceptar que se cumple la distribución normal de los valores de la variable resul en ambos grupos. Sin exigir la normalidad de los datos se puede utilizar la prueba no paramétrica de Mann-Whitney, que está implementada en el programa SPSS y que aplicaremos a continuación. Para seleccionar los datos del Grupo A, y poder realizar el contraste de normalidad, hay que utilizar el menú: Datos, Seleccionar casos, y elegir: Si se satisface la condición, de que la variable grupo tome el valor 1 (grupo = 1 en el recuadro correspondiente). Pulsar Continuar y Aceptar en la ventana de Seleccionar casos (véase figura adjunta).
Una vez seleccionados los datos de un grupo, hay que utilizar el comando Analizar, Estadísticos descriptivos, Explorar, y en ventana de gráficos elegir la prueba de normalidad. Se tiene así: Pruebas de normalidad
Concent. a
Kolmogorov-Smirnov a Estadístico gl Sig. .240 10 .107
Estadístico .873
Shapiro-Wilk gl 10
Sig. .108
Corrección de la significación de Lilliefors.
que confirma la normalidad para los 10 datos del Grupo A (P = 0.11 > 0.05). Repitiendo la selección de los datos del Grupo B (Grupo = 2), y el procedimiento Explorar, se tendría: Pruebas de normalidad
Concent.
Kolmogorov-Smirnova Estadístico gl Sig. .176 8 .200*
* Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors.
Estadístico .910
Shapiro-Wilk gl 8
Sig. .356
II.
Prácticas de estadística univariante
51
que pone de manifiesto que también es posible aceptar la distribución normal para este grupo de datos (P = Sig. = 0.356 > 0.05). Sin necesidad de aceptar distribuciones normales de los datos, vamos a utilizar la prueba no paramétrica de Mann-Whitney, para el mismo contraste anterior de la igualdad de las 2 medias (Ho ≡ µ1 = µ2). En algunos libros se utiliza esta prueba no paramétrica para el contraste de la igualdad de las dos medianas en lugar de las medias. Para este contraste hay que elegir el procedimiento Analizar, Pruebas no paramétricas, 2 muestras independientes, seleccionar la variable resul en Contrastar variables, y la variable grupo como Variable de agrupación, con valores 1 para el Grupo 1: y 2 para el Grupo 2: en Definir grupos. Pulsar Continuar y Aceptar. No olvidar utilizar todos los datos para este contraste no paramétrico, mediante la herramienta Datos, Seleccionar casos, seleccionar Todos los casos.
Los resultados obtenidos para la prueba de Mann-Whitney son: • La tabla con los rangos (orden de cada dato en la secuencia ascendente de todos los datos ) promedios en cada grupo: Rangos
Concent.
GRUPO 1 2 Total
N 10 8 18
Rango promedio 10.05 8.81
Suma de rangos 100.50 70.50
52
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
• Resultados del contraste: Estadísticos de contrasteb Concent. U de Mann-Whitney W de Wilcoxon Z Sig. asintót. (bilateral) Sig. exacta [2*(Sig. unilateral)] a b
34.500 70.500 -.489 .625 a
.633
No corregidos para los empates. Variable de agrupación: GRUPO.
valor del estadístico de Mann-Whitney (U = 34.5 ), y el valor del estadístico Z, con distribución aproximadamente Normal (Z = –0.489), junto con su probabilidad asociada (P = Sig. Bilateral = 0.625), que al ser mayor que el nivel de significación (α = 0.05), permite concluir que no existen motivos para no aceptar la igualdad de medias (o medianas) en los dos grupos. En la tabla se incluye la probabilidad exacta de obtener un resultado tan extremo como el observado, y en cualquier dirección, cuando la hipótesis nula es cierta (Ho ≡ µ1 = µ2), y que también indica que se puede aceptar la igualdad de los dos valores medios, con este procedimiento que no exige normalidad en los datos (Martín-Álvarez, 2000). II.3.2. EJEMPLO DE CONTRASTE PARA DOS MEDIAS EN CASO DE GRUPOS RELACIONADOS Dados los siguientes resultados, proporcionados por dos métodos analíticos, para analizar una cierta característica en 10 muestras de vinos tintos (Massart et al., 1990): Muestra
1
2
3
4
5
6
7
8
9
10
Método1
114
49
100
20
90
106
100
95
160
110
Método2
116
42
95
10
94
100
96
102
150
104
¿se puede aceptar que las diferencias entre cada pareja de valores, proceden de una población normal con media 0? ¿Son equivalentes los 2 métodos analíticos?, ¿dan los mismos resultados? 1. Definir las variables metodo1 y metodo2 con los anteriores valores. 2. Calcular los valores descriptivos de estas dos variables, y de la variable diferencia (metodo1 – metodo2), 3. Contrastar la hipótesis de igualdad de medias (Ho ≡ µ1 = µ2) ó la hipótesis de media cero para las diferencias (Ho ≡ µdif = 0) (Martín-Álvarez, 2000). Observar e interpretar los resultados. 4. Contrastar la hipótesis anterior, pero utilizando la prueba no paramétrica de Wilcoxon, en caso de no aceptar distribuciones normales. Interpretar los resultados.
II.
Prácticas de estadística univariante
53
5. Copiar los resultados, anotando las conclusiones, en un fichero de MS-WORD. Resultados:
Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. 1. En el caso de muestras relacionadas se necesita utilizar dos variables, una para cada uno de los resultados obtenidos con cada método de análisis (variables metodo1 y metodo2, numéricas, medida tipo escala, con 1 decimal).
En el Visor de datos, se introducen los correspondientes valores de las 2 variables de cada muestra de vino, en la quinta y sexta columnas; 114 y 116 en la fila 1; 49 y 42 en la fila 2; …; 110 y 104 en la fila 10. 2. y 3. Para calcular los valores descriptivos de estas dos variables, y de la variable diferencia (metodo1 - metodo2) se puede utilizar el procedimiento Analizar, Comparar medias, Prueba T para muestras relacionadas. Seleccionar las dos variables y colocarlas en el cuadro Variables relacionadas, y pulsar Aceptar.
54
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados que se obtienen son los siguientes: • Valores descriptivos para cada variable en las 10 muestras de vino: Estadísticos de muestras relacionadas
Par 1
METODO1 METODO2
Media 94.4000 90.9000
N 10 10
Desviación típ. 37.63037 38.71391
Error típ. de la media 11.89977 12.24241
• Coeficiente de correlación entre ambas variables (r = 0.989): Correlaciones de muestras relacionadas N Par 1
METODO1 y METODO2
Correlación 10
Sig.
.989
.000
que es significativamente diferente de 0, P < 0.05, para el contraste Ho ≡ ρ = 0. • Resultados del contraste de hipótesis (Ho ≡ µ1 = µ2 ó Ho ≡ µdif = 0): Prueba de muestras relacionadas
Media Par 1
METODO1 - METODO2
3.5000
Diferencias relacionadas 95% Intervalo de confianza para la diferencia Desviación típ. Inferior Superior 5.85472
-.6882
7.6882
t 1.890
gl
Sig. (bilateral) 9
.091
con los valores descriptivos de la variable diferencia, incluyendo el intervalo de confianza al 95%, y el resultado del contraste: valor del estadístico t-Student (1.89), con 9 grados de libertad (n-1), y la probabilidad asociada (P = Sig. bilateral = 0.091) que permite aceptar la hipótesis nula (Ho ≡ µ1 = µ2 ó Ho ≡ µdif = 0), es decir, se acepta la igualdad de las dos medias, o, equivalentemente, los dos métodos analíticos dan los mismos resultados (miden igual).
II.
Prácticas de estadística univariante
55
4. Seleccionar tablas para copiar con Edición, Copiar objetos, y Edición, Pegar. 5. Para el anterior contraste (Ho ≡ µdif = 0), para muestras relacionadas, mediante el estadístico t-Student, es preciso aceptar distribución normal de los valores de la variable diferencia. Sin necesidad de aceptar dicha normalidad es posible utilizar la prueba no paramétrica de Wilcoxon, basada en los rangos de las diferencias (Martín-Álvarez, 2000), mediante el procedimiento Analizar, Pruebas no paramétricas, 2 muestras relacionadas (Colocar las dos variables metodo1 y metodo2 en el cuadro Contrastar pares y pulsar Aceptar).
Los resultados que se obtienen son los siguientes:
56
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
• la tabla con la suma de los rangos y el rango promedio: Rangos Rango promedio
N metodo2 - metodo1
a b c
7a 3b 0c 10
Rangos negativos Rangos positivos Empates Total
6,29 3,67
Suma de rangos 44,00 11,00
metodo2 < metodo1 metodo2 > metodo1 metodo2 = metodo1
• y el valor del estadístico Z para el contraste, con distribución aproximadamente Normal (Z = –1.686), junto con la probabilidad asintótica asociada (P = Sig. Bilateral = 0.092), que al ser mayor que el nivel de significación (α = 0.05), permite concluir que no existen motivos para no aceptar la igualdad de medias de las dos variables. Estadísticos de contrasteb metodo2 metodo1 Z Sig. asintót. (bilateral) a b
-1,686a ,092
Basado en los rangos positivos. Prueba de los rangos con signo de Wilcoxon.
Nota: Para este tipo de datos relacionados, dado que se dispone de 2 variables, se podría utilizar la regresión lineal del que se considere como método nuevo (p.e., metodo2) frente al de referencia (metodo1) y ver si la pendiente de la recta es muy diferente de la unidad.
II.4.1. EJEMPLO DE CONTRASTE PARA MÁS DE DOS MEDIAS. ANOVA DE UNA VÍA Las cinco concentraciones facilitadas por seis laboratorios analíticos, para una misma muestra certificada, fueron los siguientes: Lab.1
Lab.2
Lab.3
Lab.4
Lab.5
Lab.6
1.6
1.2
1.5
6.0
6.2
3.3
2.9
1.9
2.7
3.8
3.8
3.8
3.5
2.9
3.4
5.5
5.5
5.5
1.8
1.1
2.0
4.2
4.2
4.9
2.2
2.9
3.4
5.3
5.3
4.5
II.
Prácticas de estadística univariante
57
¿Se puede aceptar igualdad en los resultados facilitados por los 6 laboratorios? ¿Se puede aceptar que los datos proceden de 6 poblaciones normales con la misma media? 1. Definir la variable de agrupamiento (variable lab con valores 1 para los datos del Laboratorio 1, …, y 6 para los del Laboratorio 6) y la variable con los valores de las concentraciones (variable concen), e introducir los correspondientes datos. 2. Calcular los valores descriptivos para la variable concen en cada uno de los 6 grupos, contrastar la hipótesis de igualdad de las seis medias (Ho ≡ µ1 = µ2 = … = µ6). En caso de no aceptar la igualdad de las medias utilizar el test de Student-Newman-Keuls para conocer las diferencias (Martín-Álvarez, 2000). Observar e interpretar los resultados obtenidos. 3. Obtener el gráfico con las barras de error de la variable concen, en cada uno de los 6 grupos. 4. Copiar los resultados, anotando las conclusiones, en un fichero de MS-WORD. 5. Contrastar la hipótesis anterior, pero utilizando la prueba no paramétrica de Kruskal-Wallis, en caso de no aceptar distribuciones normales. Copiar los resultados y conclusiones en el fichero de MS-WORD. 6. Con el programa SPSS, utilizar también el comando Analizar, Modelo lineal general, Univariante, para realizar el ANOVA de una vía considerando niveles fijos y aleatorios para el factor LAB. ¿El factor tiene efecto significativo sobre la concentración? 7. Con el programa SPSS, y aceptando niveles aleatorios, calcular las componentes de la varianza (Analizar, Modelo lineal general, Componentes de la Varianza) y los valores de la repetitividad y reproducibilidad para la muestra analizada. Resultados:
Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas II.1-II.3. 1. Para contrastar los 6 valores medios del apartado 2) es necesario definir dos nuevas variables: una de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los datos con su grupo de procedencia (variable lab con valores 1 para los datos del Laboratorio 1, … y 6 para los del Laboratorio 6) y otra, también de tipo numérico, medida tipo escala, con un ancho de 8 y 1 decimal, para los valores de las concentraciones (variable concen), es decir:
En la pantalla del Visor de datos, introducir los correspondientes valores de estas 2 nuevas variables, en la séptima y octava columnas: 1 y 1.6 en la fila 1; 1 y 2.9 en la fila 2; …; 2 y 1.2 en la fila 6; …; 3 y 1.5 en la fila 11; …; y 6 y 4.5 en la fila 30. Se tiene así:
58
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Salvar el fichero (utilizar la herramienta Archivo, Guardar). 2. Para calcular los valores descriptivos para la variable concen en cada uno de los 6 grupos y contrastar la hipótesis de igualdad de las seis medias (Ho ≡ µ1 = µ2 = … = µ6), elegir en la barra de menús: Analizar, Comparar medias, ANOVA de un factor, y colocar la variable concen en el cuadro de Dependientes:, y la variable lab en el cuadro de Factor:. En la ventana de Opciones, elegir en Estadísticos: Descriptivos, Prueba de homogeneidad de la varianza, Welch, y seleccionar Gráfico de las medias, pulsar Continuar y Aceptar.
II.
Prácticas de estadística univariante
59
Los resultados que se obtienen son los siguientes: a) Valores descriptivos (n, media, desviación típica, error típico, intervalos de confianza para las medias al 95%, valor mínimo y máximo), de la variable concen en cada grupo (LAB = 1, …, LAB = 6), y para el total (n = 30): Descriptivos CONCEN Intervalo de confianza para la media al 95% N 1 2 3 4 5 6 Total
5 5 5 5 5 5 30
Media 2.400 2.000 2.600 4.960 5.000 4.400 3.560
Desviación típica .7906 .8775 .8456 .9236 .9823 .8718 1.5080
Error típico .3536 .3924 .3782 .4130 .4393 .3899 .2753
Límite inferior 1.418 .910 1.550 3.813 3.780 3.318 2.997
Límite superior 3.382 3.090 3.650 6.107 6.220 5.482 4.123
Mínimo 1.6 1.1 1.5 3.8 3.8 3.3 1.1
Máximo 3.5 2.9 3.4 6.0 6.2 5.5 6.2
b) Resultado de la prueba de homogeneidad de las 6 varianzas (Estadístico de Levene = 0.130, con 5 y 24 grados de libertad, y una probabilidad asociada Sig. = P = 0.984). Puesto que P > 0.05 no existen motivos para rechazar la igualdad de las varianzas necesaria para la correcta utilización del contraste (o ANOVA de un factor). Prueba de homogeneidad de varianzas CONCEN Estadístico gl1 gl2 Sig. de Levene .130
5
24
.984
c) Tabla ANOVA, principal resultado del contraste aceptando homogeneidad de varianzas, con las sumas de cuadrados, grados de libertad, cuadrados medios, y el valor del estadístico F-Snedecor (Fcal = 12.082) y de la probabilidad asociada al contraste
60
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
(Ho ≡ µ1 = µ2 = … = µ6). Dado que esta probabilidad (Sig. = P = 0.000) es menor que el nivel de significación elegido (α = 0.05), existen motivos para rechazar la igualdad de las 6 medias (no todas las 6 medias son iguales), o equivalentemente, no todos los laboratorios proporcionan el mismo valor de la concentración para la muestra certificada. ANOVA CONCEN Suma de cuadrados Inter-grupos Intra-grupos Total
Media cuadrática
gl
47.200 18.752 65.952
5 24 29
9.440 .781
F
Sig.
12.082
.000
d) Resultado del estadístico de Welch que contrasta la igualdad de las medias y que es preferible al estadístico F cuando no se puede mantener el supuesto de igualdad de varianzas: valor del estadístico (9.572), grados de libertad y la probabilidad asociada (Sig. = P = 0.001), que pone de manifiesto que hay que rechazar la igualdad de las 6 medias. Pruebas robustas de igualdad de las medias CONCEN Estadístico a Welch a
gl1
9.572
gl2 5
Sig.
11.192
.001
Distribuidos en F asintóticamente.
e) El gráfico de las medias de la variable concen en cada grupo definido por los valores de la variable lab: 5,0
Media de concen
4,5
4,0
3,5
3,0
2,5
2,0 1
2
3
4
lab
5
6
II.
Prácticas de estadística univariante
61
Una vez aceptado que no todas las 6 medias son iguales, se podría repetir el procedimiento anterior, Analizar, Comparar medias, ANOVA de un factor, y utilizar la ventana “Post hoc”, para elegir las pruebas para llevar a cabo todas las comparaciones por parejas entre las 6 medias, que permitan conocer las diferencias entre las mismas. Asumiendo varianzas iguales, se puede seleccionar la prueba DMS (Diferencia mínima significativa), que utiliza pruebas t-Student para llevar a cabo todas las comparaciones por parejas, o la de Student-Neuman-Keuls (S-N-K), que realiza todas las comparaciones por parejas entre las medias utilizando la distribución del rango de Student. Pulsar en la tecla Continuar y en la de Aceptar.
Los resultados serían los anteriores además de los correspondientes a esta prueba: a) la prueba de Student-Neuman-Keuls (S-N-K): CONCEN
LAB Student-Newman-Keuls a
a
2 1 3 6 4 5 Sig.
Subconjunto para alfa = .05 1 2
N 5 5 5 5 5 5
2.000 2.400 2.600
.539
4.400 4.960 5.000 .539
Se muestran las medias para los grupos en los subconjuntos homogéneos. Usa el tamaño muestral de la media armónica = 5.000.
62
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
que permite obtener dos grupos de medias homogéneas; el primero formado por las medias de los laboratorios 2, 1 y 3, y el segundo formado por las medias de los laboratorios 6, 4 y 5. Una forma abreviada de presentar las diferencias entre los grupos es la siguiente: Lab.: Medias:
1 2.4a
2 2.0a
3 2.6a
4 4.9b
5 5.0b
6 4.4b
de manera que dos medias con distinto superíndice son significativamente diferentes, P < 0.05. b) la tabla con los resultados de la prueba DMS: Comparaciones múltiples Variable dependiente: CONCEN
DMS
(I) LAB 1
2
3
4
5
6
(J) LAB 2 3 4 5 6 1 3 4 5 6 1 2 4 5 6 1 2 3 5 6 1 2 3 4 6 1 2 3 4 5
Diferencia de Error típico medias (I-J) .400 .5590 -.200 .5590 -2.560* .5590 -2.600* .5590 -2.000* .5590 -.400 .5590 -.600 .5590 -2.960* .5590 -3.000* .5590 -2.400* .5590 .200 .5590 .600 .5590 -2.360* .5590 -2.400* .5590 -1.800* .5590 2.560* .5590 2.960* .5590 2.360* .5590 -.040 .5590 .560 .5590 2.600* .5590 3.000* .5590 2.400* .5590 .040 .5590 .600 .5590 2.000* .5590 2.400* .5590 1.800* .5590 -.560 .5590 -.600 .5590
* La diferencia entre las medias es significativa al nivel .05.
Sig. .481 .724 .000 .000 .002 .481 .294 .000 .000 .000 .724 .294 .000 .000 .004 .000 .000 .000 .944 .326 .000 .000 .000 .944 .294 .002 .000 .004 .326 .294
Intervalo de confianza al 95% Límite Límite inferior superior -.754 1.554 -1.354 .954 -3.714 -1.406 -3.754 -1.446 -3.154 -.846 -1.554 .754 -1.754 .554 -4.114 -1.806 -4.154 -1.846 -3.554 -1.246 -.954 1.354 -.554 1.754 -3.514 -1.206 -3.554 -1.246 -2.954 -.646 1.406 3.714 1.806 4.114 1.206 3.514 -1.194 1.114 -.594 1.714 1.446 3.754 1.846 4.154 1.246 3.554 -1.114 1.194 -.554 1.754 .846 3.154 1.246 3.554 .646 2.954 -1.714 .594 -1.754 .554
II.
Prácticas de estadística univariante
63
que marca con * las diferencias significativas (P < 0.05) entre todos los pares (I, J) de medias. Por ejemplo, la media del laboratorio 3 no es diferente de la media del laboratorio 1 (J = 1, P = 0.724), ni de la del 2 (J = 2, P = 0.294), pero si es diferente de la media del laboratorio 4, (J = 4, P = 0.000), de la del 5 (J = 5, P = 0.000) y de la del 6 (J = 6, P = 0.004). Luego se puede concluir que los laboratorios 1, 2 y 3, proporcionan valores inferiores de las concentraciones que los facilitados por los laboratorios 4, 5 y 6. 3. Para obtener el gráfico con las barras de error, para la variable concen, en cada uno de los 6 grupos, elegir el procedimiento Gráficos, Barras de error, Simple, y en Definir, colocar la variable concen en el cuadro Variable, y la variable lab en el cuadro Eje de categorías; y elegir Intervalo de confianza para la media al nivel 95% en el cuadro Las barras representan, Aceptar.
El gráfico resultante es el siguiente, donde puede observarse que los valores medios de los laboratorios 1, 2 y 3, no están incluidos en los intervalos de confianza al 95% correspondientes a las medias de los laboratorios 4, 5 y 6, y viceversa.
64
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
8
95% IC concen
6
4
2
0 1
2
3
4
5
6
lab
4. Seleccionar los tablas y gráficos de la Ventana de Resultados del SPSS, y copiarlos, anotando las conclusiones, a un fichero de MS-WORD. 5. Para contrastar la hipótesis anterior (Ho ≡ µ1 = µ2 = … = µ6), pero utilizando la prueba no paramétrica de Kruskal-Wallis, en caso de no aceptar distribuciones normales, se utiliza el procedimiento Analizar, Pruebas no paramétricas, K muestras independientes). Colocar: la variable concen en el cuadro Contrastar variables:, la variable lab en el cuadro Variable de agrupación:, y en Definir rango, elegir 1 y 6 para los Rangos mínimo y máximo para variable de agrupación. Pulsar en Continuar y en Aceptar.
II.
Prácticas de estadística univariante
65
Los resultados obtenidos para esta prueba de Kruskal-Wallis son: • La tabla con los rangos promedios en cada grupo: Rangos
CONCEN
LAB 1 2 3 4 5 6 Total
Rango promedio
N 5 5 5 5 5 5 30
8.80 6.20 9.60 23.80 24.00 20.60
• El resultado de la prueba: valor del estadístico Chi-cuadrado (χ2 = 21.578 ), grados de libertad (gl = 5), y probabilidad asintótica (P = Sig.=0.001), que al ser menor que el nivel de significación (α = 0.05), permite concluir que existen motivos para no aceptar la igualdad de las 6 medias. Estadísticos de contraste a,b CONCEN Chi-cuadrado gl Sig. asintót. a b
21.578 5 .001
Prueba de Kruskal-Wallis. Variable de agrupación: LAB.
66
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
6. El programa SPSS dispone también de un procedimiento más general (Analizar, Modelo lineal general, Univariante), para realizar el Análisis de la Varianza (ANOVA), para uno o más factores con niveles fijos o aleatorios, y poder comprobar si dichos factores, o sus interacciones, tienen efecto significativo sobre la variable estudiada. Se acepta que los valores de la variable estudiada siguen un determinado modelo matemático. En esta práctica hay un único factor, el factor laboratorio (representado por la variable lab), con 6 niveles, que se pueden considerar fijos (los 6 laboratorios son los únicos de interés), y se quiere saber si dicho factor tiene efecto significativo sobre la variable concen. Se acepta el modelo: yi,j = –y + αj + εi,j, donde yi,j representa la observación i-ésima, proporcionada por el laboratorio j-ésimo, –y es un valor medio global, αj es el efecto (o desviación) del laboratorio j-ésimo, y εi,j sería el término del error de la observación i-ésima, proporcionada por el laboratorio j-ésimo, y la hipótesis a contrastar sería: H0 ≡ El factor no tiene efecto sobre la característica estudiada o, equivalentemente, H0 ≡ αj = 0 ∀j. En la ventana de este comando colocar la variable concen en el cuadro Dependiente:, y la variable lab en el cuadro Factores fijos: y pulsar en Aceptar:
II.
Prácticas de estadística univariante
67
Los resultados de este Análisis de varianza univariante, son los siguientes: a) el número de observaciones en cada nivel del factor (m = 5 en todos los grupos): Factores inter-sujetos N LAB
1 2 3 4 5 6
5 5 5 5 5 5
b) la tabla ANOVA, donde en la fila correspondiente al factor Laboratorio (LAB), se puede observar el valor del estadístico F-Snedecor (Fcal = 12.082), y la probabilidad asociada de obtener un mayor valor del estadístico con 1 y 24 grados de libertad (P = Significación=0.000), que al ser menor que el nivel de significación (α = 0.05), permite concluir que el factor tiene efecto significativo sobre la concentración, hay que rechazar la hipótesis nula (H0). Pruebas de los efectos inter-sujetos Variable dependiente: CONCEN Suma de cuadrados tipo III Fuente Modelo corregido 47.200a Intersección 380.208 LAB 47.200 Error 18.752 Total 446.160 Total corregida 65.952 a
Media cuadrática
gl 5 1 5 24 30 29
9.440 380.208 9.440 .781
F 12.082 486.614 12.082
Significación .000 .000 .000
R cuadrado = .716 (R cuadrado corregida = .656).
Observar la coincidencia con la anterior tabla ANOVA del procedimiento Analizar, Comparar medias, ANOVA de un factor, de los valores de las filas: LAB, Error y Total corregida, con la anteriores Inter-grupos, Intra-grupos y Total. El procedimiento Analizar, Modelo lineal general, Univariante, permite seleccionar el tipo de modelo para analizar en caso de más de un factor: completo (con todos los términos de los efectos principales e interacciones), o personalizado (no considerando algunas interacciones), que se puede fijar en la ventana Modelo. También permite obtener los valores descriptivos de la variable en los distintos grupos (niveles del factor), y el contraste de la homogeneidad de las varianzas (test de Levene), y otras estimaciones, que se pueden seleccionar en la ventana Opciones, de dicho procedimiento,
68
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los estadísticos descriptivos, y el resultado del contraste de igualdad de varianzas son los siguientes: Estadísticos descriptivos Variable dependiente: CONCEN LAB Media Desv. típ. 1 2.400 .7906 2 2.000 .8775 3 2.600 .8456 4 4.960 .9236 5 5.000 .9823 6 4.400 .8718 Total 3.560 1.5080
N 5 5 5 5 5 5 30
II.
Prácticas de estadística univariante
69
Contraste de Levene sobre la igualdad de las varianzas error a Variable dependiente: CONCEN F .130 a
gl1
gl2 5
24
Significación .984
Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los grupos. Diseño: Intercept+LAB.
iguales a los ya comentados anteriormente. También es posible obtener el gráfico con los valores estimados por el modelo para las medias (con especificaciones para el eje horizontal y las líneas distintas, si más de un factor), colocando, en la ventana de Gráficos, el nombre de la variable lab en el cuadro de Eje horizontal, y pulsando Añadir,
70
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
El gráfico obtenido, similar al proporcionado por el procedimiento Analizar, Comparar medias, ANOVA de un factor, es el siguiente: Medias marginales estimadas de concen
Medias marginales estimadas
5,0
4,5
4,0
3,5
3,0
2,5
2,0 1
2
3
lab
4
5
6
También es posible obtener los resultados de las pruebas de comparación entre medias (DMS, S-N-K, …), que se pueden seleccionar en la ventana Post hoc, del procedimiento, colocando la variable lab en el cuadro Constrastes post hoc para:, y seleccionando, por ejemplo, S-N-K en el apartado Asumiendo varianzas iguales. Pulsar en Continuar y en Aceptar,
II.
Prácticas de estadística univariante
71
Los resultados del contraste Student-Newman-Keuls, para comparar las 6 medias son los siguientes (iguales que los obtenidos con el anterior procedimiento ANOVA de un factor): CONCEN Student-Newman-Keuls a,b LAB 2 1 3 6 4 5 Significación
a b
Subconjunto 1 2
N 5 5 5 5 5 5
2.000 2.400 2.600
.539
4.400 4.960 5.000 .539
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .781. Usa el tamaño muestral de la media armónica = 5.000. Alfa = .05.
En un grupo estarían las medias de los laboratorios 1, 2 y 3, y en otro grupo las medias de los otros tres laboratorios. Las medias proporcionadas por los laboratorios 1, 2 y 3, son inferiores a las medias proporcionadas por los laboratorios 4, 5 ó 6, para la misma muestra de referencia. En caso de considerar que los 6 laboratorios son elegidos al azar desde una población más numerosa de posibles laboratorios, se aceptarían niveles aleatorios para el factor, y la hipótesis nula para el contraste sería: Ho ≡ la dispersión entre laboratorios (σ 2lab) es nula. Para este caso, en la ventana del procedimiento Analizar, Modelo lineal general, Univariante, colocar la variable concen en el cuadro Dependiente:, y la variable lab en el cuadro Factores aleatorios: y pulsar en Aceptar:
72
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
La correspondiente tabla ANOVA sería la siguiente: Pruebas de los efectos inter-sujetos Variable dependiente: CONCEN Suma de cuadrados Fuente tipo III Intersección Hipótesis 380.208 Error 47.200 LAB Hipótesis 47.200 Error 18.752 a b
Media cuadrática
gl 1 5 5 24
380.208 9.440a 9.440 .781b
F
Significación
40.276
.001
12.082
.000
MS(LAB). MS(Error).
que pone de manifiesto (Fcal = 12.082, P = Sig. = prob(Fk – 1,n – k > Fcal) = 0.000 < 0.05) que existe dispersión entre laboratorios (σ 2lab ≠ 0). Una estimación de la precisión global de la medida de la concentración proporcionada por los laboratorios elegidos, teniendo en cuenta la varianza del método analítico y la varianza entre los laboratorios, sería √Var(lab) + Var(error) = √σ 2lab + σ 2err . Las estimaciones de estas varianzas, a partir de los cuadrados medios de la tabla ANOVA, en el caso de modelos equilibrados (m muestras en cada grupo), serían: σˆ 2err = MSSerr) (cuadrado MSSlab – MSSerr medio del error) = 0.781, y σˆ 2lab = –––––––––––––– = (9.440 – 0.781)/5 = 1.7318). m
II.
Prácticas de estadística univariante
73
7. El programa SPSS permite calcular las componentes de la varianza, para niveles aleatorios, mediante el procedimiento Analizar, Modelo lineal general, Componentes de la Varianza. En la ventana del procedimiento, colocar la variable concen en el cuadro Dependiente:, y la variable lab en el cuadro Factores aleatorios: y pulsar en Aceptar:
74
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
La tabla con las estimaciones de las componentes de la varianza, sería la siguiente: Estimaciones de la varianza Componente Var(LAB) Var(Error)
Estimación 1.732 .781
Variable dependiente: CONCEN. Método: Estimación mínima no cuadrática insesgada. (Ponderación = 1 para Efectos aleatorios y Residual).
que informa de los valores de la varianza del efecto aleatorio (dispersión entre laboratorios, σ 2lab = 1.732) y de la varianza del error del método (σ 2err = 0.781). Si se considera como repetibilidad para la muestra analizada, el valor r, tal que prob(|xi – xj|< r) = 0.95, siendo xi, xj dos medidas individuales realizadas en condiciones de repetibilidad, y considerando como reproducibilidad para la muestra, el valor R, tal que prob(|xi – xj|< R) = 0.95, siendo xi, xj dos medidas individuales realizadas en condiciones de reproducibilidad, se puede estimar los siguientes valores para la repetibilidad y la reproducibilidad de la muestra: r = 2.8 · σˆ err = 2.47 y R = 2.8 · √σ 2err + σ 2lab = 4.44, respectivamente. El valor 2.8 corresponde, aceptando normalidad de las medidas, al valor xi – xj 1.96 · √ 2 = 2.77 (xi ~ N(µ,σR) ⇒ xi – xj ~ N(0,√ 2σR2) ⇒ –––––– ~ N(0,1) ⇒ prob(|xi – xj| σR√ 2 < 1.96 · σR) = 0.95). Los resultados obtenidos con los procedimientos: Analizar, Estadísticos Descriptivos, Analizar, Comparar medias, y Analizar, Pruebas no paramétricas, utilizando la versión 13.0, no difieren de los proporcionados por la anterior versión 11.5. Únicamente existen pequeñas diferencias en la salida gráfica del procedimiento Gráficos, Barras de error. II.4.2. EJEMPLO DE CONTRASTE PARA MÁS DE DOS MEDIAS. ANOVA DE DOS VÍAS Las concentraciones (mg/l) de 1-propanol en 8 vinos elaborados mediante la fermentación de un mismo mosto de uva, en presencia o no de HOLLEJOS y con la adicción o no de SO2 (diseño experimental 22), fueron las siguientes (Herraiz et al., 1990): SO2
HOLLEJOS
0 = No 1 = Sí
0 = No
1 = Sí
38.50
38.13
62.30
55.80
38.70
61.38
31.42
57.21
¿Cómo afectan ambos factores en la concentración del alcohol?
II.
Prácticas de estadística univariante
75
1. Definir las variables hollejos, SO2 y propanol, e introducir los valores de la tabla, y guardar los datos. 2. Calcular los valores descriptivos de la variable propanol, para cada combinación de los niveles de los factores hollejos y SO2, y estudiar el efecto de ambos factores y de su interacción en la concentración de 1-propanol (Martin-Álvarez, 2000). Obtener el gráfico con los valores medios estimados para la variable propanol. 3. Interpretar los resultados y guardarlos, anotando las conclusiones, en un fichero de MS-WORD. Resultados
1. Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. Para estudiar el efecto de los 2 factores y de su interacción en la concentración de 1-propanol, es necesario definir tres nuevas variables en la Vista de Variables: dos de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los niveles de los 2 factores (variable hollejos con valores 0 y 1 para indicar ausencia o presencia de hollejos en el mosto, y la variable SO2 con valores 0 y 1 para indicar ausencia o presencia de SO2 en el mosto), y otra, también de tipo numérico, medida tipo escala, con un ancho de 8 y 2 decimales, para los valores de las concentraciones del alcohol (variable propanol), es decir:
En la pantalla del Visor de datos, se introducen los correspondientes valores de estas 3 nuevas variables, en las columnas 9, 10 y 11: 0, 0 y 38.50 en la fila 1; 0, 0 y 38.70 en la fila 2; …; 1, 1 y 57.21 en la fila 8. Salvar el fichero (Archivo, Guardar):
76
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
2. Para realizar el Análisis de la Varianza (ANOVA), para estos dos factores, con niveles fijos, y poder comprobar si dichos factores, y su interacción, tienen efecto significativo sobre la variable concentración del 1-propanol en los vinos analizados, se puede utilizar el anterior procedimiento: Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar la variable propanol en el cuadro Dependiente:, y las variables hollejos y SO2 en el cuadro Factores fijos: y pulsar en Aceptar.
II.
Prácticas de estadística univariante
77
En esta situación se acepta el modelo: yi,j,k = –y + αi + βj + γi,j + εi,j,k, donde yi,j,k representa la observación k-ésima (concentración del alcohol) de los vinos elaborados con los niveles i-ésimo del factor hollejos y el j-ésimo del factor SO2, –y es un valor medio global, αi es el efecto del nivel i-ésimo del factor hollejos, βj es el efecto del nivel j-ésimo del factor SO2, γi,j la interacción entre el nivel i-ésimo del factor hollejos y el nivel j-ésimo del factor SO2, y εi,j,k sería el término del error. Las hipótesis a contrastar serían: 1) H1 ≡ γi,j = 0 ∀i,j, que supone aceptar que la interacción no tiene efecto sobre la característica analizada, 2) H2 ≡ αi = 0 ∀i, que supone aceptar que el factor hollejos no tiene efecto sobre la característica analizada, y 3) H3 ≡ βj = 0 ∀j, que supone aceptar que el factor SO2 no tiene efecto sobre la característica analizada. Los resultados de este análisis de varianza univariante, con 2 factores, son los siguientes: a) el número de observaciones en cada uno de los niveles de los factores (4 en todos): Factores inter-sujetos N HOLLEJOS SO2
0 1 0 1
4 4 4 4
b) la tabla con los valores descriptivos (media, desviación típica, y número de observaciones) de la variable propanol en cada combinación de los niveles de los factores, y para cada nivel individual de cada factor: Estadísticos descriptivos Variable dependiente: PROPANOL HOLLEJOS 0
1
Total
SO2 0 1 Total 0 1 Total 0 1 Total
Media 38.6000 34.7750 36.6875 61.8400 56.5050 59.1725 50.2200 45.6400 47.9300
Desv. típ. .14142 4.74469 3.51960 .65054 .99702 3.15592 13.42312 12.85430 12.41078
N 2 2 4 2 2 4 4 4 8
c) la tabla ANOVA, con las sumas de cuadrados correspondientes a las fuentes de variación (factor HOLLEJOS, factor SO2, Interacción HOLLEJOS*SO2, Error y Total Corregido), sus grados de libertad (1, 1, 1, 4 y 7, respectivamente), sus cuadrados me-
78
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
dios, los valores del estadístico F-Snedecor para contrastar las tres anteriores hipótesis, y las correspondientes probabilidades asociadas: Pruebas de los efectos inter-sujetos Variable dependiente: PROPANOL Suma de cuadrados tipo III Fuente Modelo corregido 1054.243a Intersección 18378.279 HOLLEJOS 1011.150 SO2 41.953 HOLLEJOS * SO2 1.140 Error 23.949 Total 19456.472 Total corregida 1078.193 a
Media cuadrática
gl 3 1 1 1 1 4 8 7
351.414 18378.279 1011.150 41.953 1.140 5.987
F 58.693 3069.531 168.882 7.007 .190
Significación .001 .000 .000 .057 .685
R cuadrado = .978 (R cuadrado corregida = .961).
que permite obtener las siguientes conclusiones: • Puesto que Fcal = 0.190 y P = 0.685, para la primera hipótesis (H1 ≡ γi,j = 0 ∀i,j), se concluye que no hay motivos para rechazar la hipótesis nula (H1), o que la interacción no tiene un efecto significativo sobre la concentración (P > 0.05). • Puesto que Fcal = 168.882 y P = 0.000, para la segunda hipótesis (H2 ≡ αi = 0 ∀i), hay motivos para rechazar la hipótesis nula (H2), o, equivalentemente, que el factor hollejos tiene un efecto significativo sobre la concentración (P < 0.05) • Puesto que Fcal =7.007 y P=0.057, para la tercera hipótesis (H3 ≡ βj = 0 ∀j), el factor SO2 no tiene un efecto significativo sobre la concentración (P > 0.05) Si en la ventana de Gráficos del anterior procedimiento, se coloca el factor SO2 en el cuadro Eje horizontal, el factor hollejos en el cuadro de Líneas distintas, y se pulsa la tecla Añadir,
II.
Prácticas de estadística univariante
79
se obtiene el siguiente gráfico con los valores medios estimados para cada combinación de los niveles de los 2 factores: Medias marginales estimadas de propanol hollejos 0 1
Medias marginales estimadas
60,00
50,00
40,00
30,00 0
so2
1
que pone de manifiesto: • el efecto significativo del factor hollejos, que da lugar a un mayor valor de la concentración del 1-propanol en los vinos elaborados con la adicción de hollejos en el mosto (valores de 61.84 y 56.50, frente a 38.6 y 34.77), • una pequeña disminución de dicha concentración cuando el SO2 está presente en el mosto, aunque no es significativa al nivel 0.05 (valores de 34.77 frente a 38.60, en ausencia de hollejos, y valores de 56.50 frente a 61.84 en presencia de hollejos), y • que no existe efecto de la interacción entre los dos factores (líneas paralelas, o el incremento en concentración debida a la presencia de hollejos en el mosto es independiente de la adicción o no de SO2). 3. Dado que sólo hay 2 niveles para el factor hollejos, la conclusión sería que la adicción de hollejos en el mosto da lugar a un mayor valor de la concentración del 1propanol en los vinos. En el caso de que este factor tuviese más de 2 niveles, y se quisiera comparar los valores medios con la anterior prueba de S-N-K, se debería utilizar la ventana de Post hoc del anterior procedimiento (Analizar, Modelo lineal general, Univariante). II.4.3. OTRO EJEMPLO DE ANOVA DE DOS VÍAS Las concentraciones (mg/l) de ácido butírico en 8 vinos elaborados mediante la fermentación de un mismo mosto de uva, en presencia o no de HOLLEJOS y con la adicción o no de SO2 (diseño experimental 22), fueron las siguientes (Herraiz et al., 1990):
80
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
SO2
HOLLEJOS
0 = No 1 = Sí
0 = No
1 = Sí
0.82
0.64
0.86
1,87
0.91
1.05
0.57
1.89
¿Cómo afectan ambos factores en la concentración del ácido butírico? ¿La concentración del ácido, es independiente de ambos factores? ¿Existe interacción entre los dos factores? 1. Definir las variables hollejos, SO2 y butirico, e introducir los valores de la tabla, y guardar los datos. 2. Calcular los valores descriptivos de la variable butirico, para cada combinación de los niveles de los factores hollejos y SO2, y estudiar el efecto de ambos factores y de su interacción en la concentración del ácido butírico. Obtener el gráfico con los valores medios estimados para la variable butirico. 3. Interpretar los resultados y guardarlos, anotando las conclusiones, en un fichero de MS-WORD. Resultados:
1. Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. Para estudiar el efecto de los 2 factores y de su interacción en la concentración del ácido butírico, se pueden utilizar las anteriores variables para los factores (hollejos y SO2), del Visor de Variables, y únicamente se necesita definir una nueva variable, de tipo numérico, medida tipo escala, con un ancho de 8 y 2 decimales, para los valores de las concentraciones del ácido butírico (variable butirico), es decir:
En la pantalla del Visor de datos, se introducen los correspondientes valores de esta nueva variable en la columna 12: 0.82 en la fila 1; 0.91 en la fila 2; …; 1.89 en la fila 8. Salvar el fichero (Archivo, Guardar):
II.
Prácticas de estadística univariante
81
2. Como en la anterior práctica II.4.2, para realizar el ANOVA de estos dos factores, con niveles fijos, y poder comprobar si dichos factores, y su interacción, tienen efecto significativo sobre la variable concentración del ácido butírico en los vinos analizados, hay que utilizar el anterior procedimiento: Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar la variable butirico en el cuadro Dependiente:, y las variables hollejos y SO2 en el cuadro Factores fijos:. En la ventana de Opciones elegir Mostrar: Estadísticos descriptivos, pulsar en Continuar y en Aceptar.
82
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados de este análisis de varianza univariante, con 2 factores, son los siguientes: a) el número de observaciones en cada uno de los niveles de los factores (4 en todos): Factores inter-sujetos N HOLLEJOS SO2
0 1 0 1
4 4 4 4
b) la tabla con los valores descriptivos (media, desviación típica, y número de observaciones) de la variable butirico en cada combinación de los niveles de los factores, y para cada nivel individual de cada factor: Estadísticos descriptivos Variable dependiente: BUTIRICO HOLLEJOS 0
1
Total
SO2 0 1 Total 0 1 Total 0 1 Total
Media .8650 .6050 .7350 .9550 1.8800 1.4175 .9100 1.2425 1.0763
Desv. típ. .06364 .04950 .15716 .13435 .01414 .53971 .10033 .73672 .51818
N 2 2 4 2 2 4 4 4 8
c) la tabla ANOVA, con las sumas de cuadrados correspondientes a las fuentes de variación (factor HOLLEJOS, factor SO2, Interacción HOLLEJOS*SO2, Error y Total Corregido), sus grados de libertad (1, 1, 1, 4 y 7, respectivamente), sus cuadrados medios, los valores del estadístico F-Snedecor para las tres anteriores hipótesis, y las correspondientes probabilidades asociadas (recordar que el modelo es: yi,j,k = –y + αi + βj + γi,j + εi,j,k donde yi,j,k ahora representa la concentración del ácido butírico):
II.
Prácticas de estadística univariante
83
Pruebas de los efectos inter-sujetos Variable dependiente: BUTIRICO
Fuente Modelo corregido Intersección HOLLEJOS SO2 HOLLEJOS * SO2 Error Total Total corregida a
Suma de cuadrados tipo III
Media cuadrática
gl
1.855a 9.267 .932 .221 .702 .025 11.146 1.880
3 1 1 1 1 4 8 7
.618 9.267 .932 .221 .702 .006
F 99.924 1497.618 150.564 35.735 113.473
Significación .000 .000 .000 .004 .000
R cuadrado = .987 (R cuadrado corregida = .977).
• Fcal = 113.473, P = 0.000 para H1, que indica que hay motivos para rechazar la hipótesis nula H1 ≡ γi,j = 0 ∀i,j, o que la interacción tiene un efecto significativo sobre la concentración (P < 0.01) • Fcal = 150.564, P = 0.000 para H2, que indica que hay motivos para rechazar la hipótesis nula H2 ≡ αi = 0 ∀i, o, equivalentemente, que el factor hollejos tiene un efecto significativo sobre la concentración (P < 0.01) • Fcal = 35.735, P = 0.004 que indica que hay que rechazar la hipótesis nula H3 ≡ βj = 0 ∀j, o que el factor SO2 también tiene un efecto significativo sobre la concentración (P < 0.01) Si en la ventana de Gráficos del anterior procedimiento, se coloca el factor SO2 en el cuadro Eje horizontal, el factor hollejos en el cuadro de Líneas distintas, y se pulsa Añadir,
84
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
se obtiene el siguiente gráfico con los valores estimados para cada combinación de los niveles de los 2 factores: Medias marginales estimadas de butirico hollejos
2,00
0 1
Medias marginales estimadas
1,80 1,60 1,40 1,20 1,00 0,80 0,60 0
1
so2
que pone de manifiesto la importancia del efecto de la interacción entre los factores (líneas no paralelas), el incremento en concentración en los vinos debida a la presencia de hollejos en el mosto es mucho mayor cuando también se procedió a la adicción de SO2 en el mosto. 3. En cuanto a las conclusiones, lo más importante es el efecto de la interacción entre los factores, que no permite conocer el efecto de un factor, independientemente de los niveles del otro. La presencia de SO2 hace disminuir la concentración del ácido si no hay hollejos en el mosto, y aumentarla en el caso de su presencia. Los valores mayores de la concentración del ácido butírico se dan en los vinos elaborados con la adición de hollejos y de SO2. Los resultados obtenidos con el procedimiento Analizar, Modelo Lineal General, Univariante, utilizando la versión 13.0, no difieren de los proporcionados por la anterior versión 11.5, salvo pequeñas diferencias en la salida gráfica de las medias marginales estimadas. II.4.4. EJEMPLO DE ANOVA DE DOS VÍAS SIN EL TÉRMINO DE LA INTERACCIÓN Las puntuaciones de aceptabilidad general de 3 vinos, proporcionadas por 10 jueces en una prueba descriptiva del análisis sensorial, fueron las siguientes (O’Mahony, 1986):
II.
Prácticas de estadística univariante
85
Jueces
Vino 1
Vino 2
Vino 3
1 2 3 4 5 6 7 8 9 10
12 13 13 11 13 14 12 12 13 14
13 14 14 13 13 12 14 11 13 13
12 11 12 11 11 12 11 11 11 12
¿Se puede aceptar que los tres vinos tienen la misma aceptabilidad general? 1. Definir las variables: vino (con valores 1, 2, 3), juez (con valores 1, 2, …, 10) y puntuac con las correspondientes puntuaciones de la tabla. 2. Estudiar el efecto de los factores vino y juez sobre la variable puntuac. Como únicamente se dispone de una observación por cada combinación de los niveles es preciso considerar un modelo ANOVA de 2 factores sin interacción. Con el programa SPSS utilizar el comando Analizar, Modelo lineal general, Univariante, Modelo: personalizado, efectos principales, sin interacción. 3. Interpretar los resultados y guardarlos, anotando las conclusiones, en un fichero de MS-WORD. Resultados:
1. Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. Para estudiar el efecto de los 2 factores en las puntuaciones de aceptabilidad global de los vinos, es necesario definir tres nuevas variables en la Vista de Variables: dos de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los niveles de los 2 factores (variable vino con valores 1, 2 ó 3, y la variable juez con valores 1, 2, …, ó 10), y otra, también de tipo numérico, medida tipo escala, con un ancho de 8 y 0 decimales, y etiqueta “Aceptabilidad”, para los valores de las puntuaciones de la tabla (variable puntuac).
86
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En la pantalla del Visor de datos, se introducen los correspondientes valores de estas tres variables en las columnas 13, 14 y 15: 1, 1 y 12 en la fila 1; 1, 2 y 13 en la fila 2; …; 3, 10 y 12 en la fila 30. Salvar el fichero (Archivo, Guardar):
2. Para estudiar el efecto de los factores vino y juez sobre la variable puntuac utilizar el comando Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar la variable puntuac en el cuadro Dependiente:, y las variables vino y juez en el cuadro Factores fijos:. En la ventana de Opciones colocar los dos factores en el cuadro Mostrar las medias para: y pulsar en Continuar, y en la de Gráficos, colocar
II.
Prácticas de estadística univariante
87
el factor juez en el cuadro Eje horizontal, y el factor vino en el cuadro de Líneas distintas, y pulsar en Añadir y Continuar. Para especificar que el modelo no tiene el término correspondiente a la interacción ( yi,j = –y + αi + βj + εi,j) hay que abrir la ventana Modelo y elegir Personalizado en Especificar modelo, colocar los dos factores en el cuadro Modelo:, y en Construir términos: poner Efectos principales, pulsar en Continuar. Pulsar en Aceptar.
88
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
II.
Prácticas de estadística univariante
89
Los resultados que se obtienen son los siguientes: a) el número de observaciones en cada uno de los niveles de los factores (10 en los niveles del factor vino y 3 en los del factor juez): Factores inter-sujetos N VINO
JUEZ
1 2 3 1 2 3 4 5 6 7 8 9 10
10 10 10 3 3 3 3 3 3 3 3 3 3
b) la tabla ANOVA, con las sumas de cuadrados correspondientes a las fuentes de variación (factores vino y juez, Error y Total Corregido), sus grados de libertad (2, 9, 18 y 29, respectivamente), sus cuadrados medios, los valores del estadístico F-Snedecor para las dos hipótesis a contrastar, y sus correspondientes probabilidades asociadas (recordar que el modelo es: yi,j = –y + αi + βj + εi,j donde ahora yi,j representa la puntuación): Pruebas de los efectos inter-sujetos Variable dependiente: Aceptabilidad
Fuente Modelo corregido Intersección VINO JUEZ Error Total Total corregida a
Suma de cuadrados tipo III
Media cuadrática
gl a
22.100 4588.033 14.467 7.633 10.867 4621.000 32.967
R cuadrado = .670 (R cuadrado corregida = .469).
11 1 2 9 18 30 29
2.009 4588.033 7.233 .848 .604
F 3.328 7599.810 11.982 1.405
Significación .012 .000 .000 .257
90
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
• Fcal = 11.982, P = 0.000 para H2, que indica que hay motivos para rechazar la hipótesis nula H2 ≡ αi = 0 ∀i, o, equivalentemente, que el factor vino tiene un efecto significativo sobre la puntuación (P < 0.01) • Fcal = 1.405, P = 0.257 que indica que no hay que rechazar la hipótesis nula H3 ≡ βj = 0 ∀j, o que el factor juez no tiene un efecto significativo sobre la puntuación (P > 0.05), o que no existen diferencias entre los jueces (los jueces se comportan de manera homogénea en sus respuestas). c) la tabla con los valores de las medias marginales estimadas para la variable puntuac, en los niveles de los dos factores: 1. VINO Variable dependiente: Aceptabilidad
VINO 1 2 3
Media 12.700 13.000 11.400
Error típ.
Intervalo de confianza al 95% Límite Límite inferior superior
.246 .246 .246
12.184 12.484 10.884
13.216 13.516 11.916
(se observa que el intervalo de confianza para el vino 3 no se solapa con los otros). 2. JUEZ Variable dependiente: Aceptabilidad
JUEZ 1 2 3 4 5 6 7 8 9 10
Media 12.333 12.667 13.000 11.667 12.333 12.667 12.333 11.333 12.333 13.000
Error típ. .449 .449 .449 .449 .449 .449 .449 .449 .449 .449
Intervalo de confianza al 95%. Límite Límite inferior superior 11.391 11.724 12.058 10.724 11.391 11.724 11.391 10.391 11.391 12.058
13.276 13.609 13.942 12.609 13.276 13.609 13.276 12.276 13.276 13.942
d) El gráfico de las medias marginales estimadas por el modelo, para las puntuaciones de la aceptabilidad.
II.
Prácticas de estadística univariante
91
Medias marginales estimadas de Aceptabilidad vino
14
1 2
Medias marginales estimadas
3 13
12
11
10 1
2
3
4
5
6
7
8
9
10
juez
que pone de manifiesto menores valores de las puntuaciones para el vino 3. 3. Los resultados de la prueba de S-N-K para comparar todas las medias de los niveles del factor vino, se pueden obtener utilizando la ventana Post hoc del anterior procedimiento (Analizar, Modelo lineal general, Univariante). Para ello colocar el factor vino en el cuadro Contraste Post hoc para:, seleccionar la prueba S-N-K en el apartado Asumiendo varianzas iguales, y pulsar en Continuar, y en Aceptar,
92
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados de la prueba son: Aceptabilidad Student-Newman-Keuls a,b VINO 3 1 2 Significación
a b
Subconjunto 1 2
N 10 10 10
11.40
1.000
12.70 13.00 .399
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .604. Usa el tamaño muestral de la media armónica = 10.000. Alfa = .05.
que indican que únicamente las puntuaciones del vino 3 son inferiores a las de los otros dos vinos. II.4.5. OTRO EJEMPLO DE ANOVA DE DOS VÍAS SIN EL TÉRMINO DE LA INTERACCIÓN Los resultados de las concentraciones (mg/l) de un cierto compuesto, proporcionadas por 5 métodos analíticos diferentes, en 6 muestras distintas, fueron los siguientes (Sharaf et al., 1986): Muestra 1
Muestra 2
Muestra 3
Muestra 4
Muestra 5
Muestra 6
Método 1
4.82
9.86
15.40
12.00
13.10
17.20
Método 2
4.81
9.92
15.50
11.95
13.12
17.22
Método 3
4.40
9.30
14.80
11.00
12.30
16.50
Método 4
4.78
9.90
15.40
12.03
13.15
17.18
Método 5
4.79
9.91
15.45
11.90
13.11
17.20
¿Se puede aceptar la igualdad de los resultados analíticos proporcionados por los 5 métodos? 1. Definir las variables muestra (con valores 1, 2, 3, 4, 5, 6), metodo (con valores 1, 2, 3, 4, 5) y concent con los correspondientes valores de la tabla, y guardar los datos. 2. Estudiar el efecto de los factores muestra y método sobre la variable concent. 3. Interpretar los resultados y guardarlos, anotando las conclusiones, en un fichero de MS-WORD. 4. Repetir eliminando el Método 3, e interpretar los resultados. Resultados:
1. Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. Para estudiar el efecto de los 2 factores (muestra, metodo) en los
II.
Prácticas de estadística univariante
93
valores de las concentraciones (variable concent), es necesario definir tres nuevas variables en la Vista de Variables: dos de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los niveles de los 2 factores (variable muestra con valores 1, 2, …, ó 6, y la variable metodo con valores 1, 2, …, ó 5), y otra, también de tipo numérico, medida tipo escala, con un ancho de 8 y 2 decimales, para los valores de las concentraciones de la tabla (variable concent).
En la pantalla del Visor de datos, hay que introducir los correspondientes valores de estas tres variables en las columnas 16, 17 y 18: 1, 1 y 4.82 en la fila 1; 2, 1 y 4.81 en la fila 2; …; 5, 6 y 17.20 en la fila 30.
Salvar el fichero (Archivo, Guardar).
94
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
2.-3. Para estudiar el efecto de los factores metodo y muestra sobre la variable concent utilizar el comando Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar la variable concent en el cuadro Dependiente:, y las variables metodo y muestra en el cuadro Factores fijos:. En la ventana de Opciones colocar los dos factores en el cuadro Mostrar las medias para: y pulsar en Continuar, y en la de Gráficos, colocar el factor muestra en el cuadro Eje horizontal, y el factor metodo en el de Líneas distintas, y pulsar en Añadir y Continuar. Para especificar que el modelo no tiene el término correspondiente a la interacción, abrir la ventana Modelo y elegir Personalizado en Especificar modelo, colocar los dos factores en el cuadro Modelo:, y en Construir términos: poner Efectos principales, pulsar en Continuar. Pulsar en Aceptar.
II.
Prácticas de estadística univariante
95
96
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados que se obtienen son los siguientes: a) el número de observaciones en cada uno de los niveles de los factores (6 en los métodos, y 5 en las muestras): Factores inter-sujetos N METODO
MUESTRA
1 2 3 4 5 1 2 3 4 5 6
6 6 6 6 6 5 5 5 5 5 5
b) la tabla ANOVA, con las sumas de cuadrados correspondientes a las fuentes de variación (factores metodo y muestra, Error y Total Corregido), sus grados de libertad (4, 5, 20 y 29, respectivamente), sus cuadrados medios, los valores del estadístico F-Snedecor para las dos hipótesis a contrastar, y sus correspondientes probabilidades
II.
Prácticas de estadística univariante
97
asociadas (recordar que el modelo es: yi,j = –y + αi + βj + εi,j, donde ahora yi,j representa la concentración: Pruebas de los efectos inter-sujetos Variable dependiente: CONCENT
Fuente Modelo corregido Intersección METODO MUESTRA Error Total Total corregida a
Suma de cuadrados tipo III
Media cuadrática
gl
479.435a 4272.133 2.271 477.164 .172 4751.741 479.607
9 1 4 5 20 30 29
53.271 4272.133 .568 95.433 .009
F
Significación
6194.737 496798.2 66.032 11097.701
.000 .000 .000 .000
R cuadrado = 1.000 (R cuadrado corregida = .999).
• Fcal = 66.032, P = 0.000 para H2, que indica que hay motivos para rechazar la hipótesis nula H2 ≡ αi = 0 ∀i, o, equivalentemente, que el factor método tiene un efecto significativo sobre la concentración (P < 0.01), o que los métodos analíticos difieren. • Fcal = 11097.701, P = 0.000 que indica que hay que rechazar la hipótesis nula H3 ≡ βj = 0 ∀i, o que el factor muestra tiene un efecto significativo sobre la concentración (P < 0.01), o que, como era de esperar, existen diferencias entre las muestras analizadas. c) la tabla con los valores de las medias marginales estimadas para la variable concent, en los niveles de los factores: 1. MÉTODO Variable dependiente: CONCENT
METODO 1 2 3 4 5
Media 12.063 12.087 11.383 12.073 12.060
Error típ. .038 .038 .038 .038 .038
Intervalo de confianza al 95%. Límite Límite inferior superior 11.984 12.008 11.304 11.994 11.981
12.142 12.166 11.462 12.152 12.139
(se observa que el intervalo de confianza para el método 3 no se solapa con los otros)
98
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
2. MUESTRA Variable dependiente: CONCENT
MUESTRA 1 2 3 4 5 6
Media
Intervalo de confianza al 95%. Límite Límite inferior superior
Error típ.
4.720 9.778 15.310 11.776 12.956 17.060
.041 .041 .041 .041 .041 .041
4.633 9.691 15.223 11.689 12.869 16.973
4.807 9.865 15.397 11.863 13.043 17.147
d) El gráfico de las medias marginales estimadas por el modelo, para las concentraciones: Medias marginales estimadas de concent metodo
18,00
1 2 16,00
3
Medias marginales estimadas
4 5
14,00
12,00
10,00
8,00
6,00
4,00 1
2
3
4
5
6
muestra
que pone de manifiesto menores valores de las concentraciones del método 3. Para comparar todas las medias de los niveles del factor método, se puede utilizar la ventana Post hoc del anterior procedimiento (Analizar, Modelo lineal general, Univariante). Para ello colocar el factor metodo en el cuadro Contraste Post hoc para:, seleccionar la prueba S-N-K en el apartado Asumiendo varianzas iguales, y pulsar en Continuar, y en Aceptar,
II.
Prácticas de estadística univariante
99
Los resultados de la prueba de S-N-K son los siguientes: CONCENT Student-Newman-Keulsa,b METODO 3 5 1 4 2 Significación
a b
Subconjunto 1 2
N 6 6 6 6 6
11.3833
1.000
12.0600 12.0633 12.0733 12.0867 .959
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .009. Usa el tamaño muestral de la media armónica = 6.000 Alfa = .05.
que indica que el método 3 proporciona valores menores para las concentraciones que los otros métodos. 4. Los resultados que se obtienen al eliminar el método analítico 3 (Datos, Seleccionar casos, Si se satisface la condición: Si metodo ~ = 3), ponen de manifiesto que únicamente existe diferencias entre las muestras (P = 0.000 < 0.05), pero no entre los métodos (P = 0.585 > 0.05).
100
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Pruebas de los efectos inter-sujetos Variable dependiente: concent
Fuente Modelo corregido Intersección metodo muestra Error Total Total corregida a
Suma de cuadrados tipo III 385,371a 3496,920 ,003 385,368 ,019 3882,311 385,390
gl 8 1 3 5 15 24 23
R cuadrado = 1,000 (R cuadrado corregida = 1,000).
Media cuadrática 48,171 3496,920 ,001 77,074 ,001
F 37310,02 2708458 ,667 59695,63
Significación ,000 ,000 ,585 ,000
III. PRÁCTICAS DE ESTADÍSTICA BIVARIANTE
III.1. EJEMPLO DE REGRESIÓN SIMPLE Aplique el análisis de regresión lineal simple a los siguientes datos de un calibrado (X = concentración del analito, Y = variable respuesta del método): X (concentración)
0
1
2
3
4
5
6
Y (respuesta)
.1
3.8
10
14.4
20.7
26.9
29.1
1. Abra el programa SPSS, defina las variables X e Y, introduzca estos datos, y guárdelos en un fichero con nombre practbiv.sav en la unidad A:. 2. Utilizando el procedimiento Analizar, Regresión, Lineal, obtenga los resultados del análisis de regresión lineal simple de la variable Y sobre la variable X (modelo teórico Yi = β0 + β1Xi + εi): • parámetros estimados (coeficientes de regresión: b0 y b1) y los intervalos de confianza, • la tabla ANOVA, • el coeficiente de determinación (R2) y la desviación estándar residual (s), • valores observados (Yi ), valores calculados ( Yˆï = b0 + b1Xi ), y residuos (ei = (Yi – Yˆï )), • el gráfico de dispersión de los residuos tipificados (ei* = ei /s) frente a los valores observados, y el gráfico de probabilidad normal de los residuos, y • guarde, como nuevas variables, los valores calculados y los residuos. Observe e interprete cada uno de los resultados generados. Compruebe que se han creado dos nuevas variables con nombres pre_1 y res_1, en el Visor de datos.
102
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
3. Obtenga el diagrama de dispersión de los datos con la recta de regresión y las bandas de confianza al 95% (utilice el procedimiento Gráficos, Interactivos, Diagrama de dispersión). 4. Obtenga el Diagrama de dispersión de los valores calculados frente a los observados para la variable Y (utilice Gráficos, Dispersión), incluyendo la recta de ajuste. 5. Copie los resultados en un fichero MS-WORD, y anote las conclusiones. 6. Guarde el fichero de datos y salga del programa SPSS. Resultados:
1. Ejecute el programa SPSS, seleccione Introduzca datos, y pulse Aceptar. En las dos primeras columnas del Visor de datos, introduzca los anteriores valores para las variables x e y (0 y 0.1 en la primera fila, 1 y 3.8 en la segunda fila, …, 6 y 29.1 en la séptima fila),
Abra el Visor de variables, cambie los nombres de las variables (var00001 por x, y var00002 por y), modificar el número de decimales, y mantener las demás características (tipo numérico, ancho 8, …, alineación derecha, medida tipo escala).
III.
Prácticas de estadística bivariante
103
Guarde el fichero de datos con nombre practbiv.sav utilizando Archivo, Guardar como. 2. Para realizar el calibrado lineal de los datos hay que utilizar el procedimiento Analizar, Regresión, Lineal, y colocar la variable x en el cuadro Independientes:, y la variable y en el cuadro Dependiente:
104
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En la ventana Estadísticos… seleccione Estimaciones e Intervalos de confianza en Coeficientes de regresión, y Ajuste del modelo, para obtener los parámetros estimados y los intervalos de confianza, pulse Continuar,
Para obtener el gráfico de dispersión de los residuos tipificados frente a los valores observados, y el gráfico de probabilidad normal de los residuos, hay que abrir la ventana Gráficos… y colocar la variable DEPENDNT en el cuadro del eje X, y la variable ZRESID en el cuadro de la variable Y, y seleccionar Gráfico de prob. normal en Gráficos de residuos tipificados, y pulsar Continuar,
III.
Prácticas de estadística bivariante
105
Para guardar, como nuevas variables, los valores calculados y los residuos, hay que abrir la ventana Guardar… y seleccionar No tipificados en Valores pronosticados, y No tipificados en Residuos, y pulsar Continuar,
En la ventana Opciones…, compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse Continuar.
106
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Por último, pulse Aceptar en la ventana del procedimiento Analizar, Regresión, Lineal. Los resultados que se obtienen, en el Visor de resultados, son los siguientes:
Regresión
Variables introducidas/eliminadasb Modelo 1 a b
Variables introducidas
Variables eliminadas
Xa
Método .
Introducir
Todas las variables solicitadas introducidas. Variable dependiente: Y.
que informa sobre las variables utilizadas en el modelo. Resumen del modelob Modelo 1 a b
R cuadrado corregida .990
R R cuadrado a .996 .992
Error típ. de la estimación 1.1115
Variables predictoras: (Constante), X. Variable dependiente: Y.
que proporciona los indicadores de la bondad de ajuste del modelo: coeficiente de determinación, R2 = 0.992, su raíz cuadrada: R = 0.996 o valor absoluto del coeficiente de correlación (r), y la desviación estándar residual o error típico de la estimación, s = 1.1115. ANOVAb Modelo 1
a b
Suma de cuadrados Regresión Residual Total
739.543 6.177 745.720
Media cuadrática
gl 1 5 6
739.543 1.235
F 598.647
Sig. .000a
Variables predictoras: (Constante), X. Variable dependiente: Y.
que es la tabla del ANOVA para la regresión: que informa de la suma de cuadrados de la descomposición de la variabilidad total de los valores de la variable Y (Total), en la parte explicada por el modelo (Regresión) y la correspondiente al error (Residual), los correspondientes grados de libertad (gl), los cuadrados medios y el valor del estadístico F-Snedecor (F = 598.647), junto con la probabilidad asociada para el contraste H0 ≡ β1 = 0 (Sig. = P = 0.000). Dado que P < 0.05 se acepta hipótesis alternativa H1 ≡ β1 ≠ 0, es decir, no se puede aceptar un valor constante para la variable Y.
III.
Prácticas de estadística bivariante
107
Coeficientesa Coeficientes no estandarizados Modelo 1 a
B (Constante) X
-.418 5.139
Error típ. .757 .210
Coeficientes estandarizados Beta .996
t
Sig.
-.552 24.467
Intervalo de confianza para B al 95% Límite superior Límite inferior
.605 .000
-2.365 4.599
1.529 5.679
Variable dependiente: Y.
que proporciona información sobre los coeficientes de regresión estimados (no estandarizados, b0 = – 0.418, b1 = 5.139, es decir el modelo ajustado sería: ( Yˆ = – 0.418 + 5.139 · X), sus desviaciones típicas (error típico de b0 = 0.757, error típico de b1 = 0.210), el valor del estadístico t-Student y su probabilidad asociada para el contraste H0 ≡ β1 = 0 (t = – 0.552 y P = 0.605 para H0 ≡ β0 = 0, t = 24.467 y P = 0.000 para H0 ≡ β1 = 0), los intervalos de confianza al 95% para los parámetros del modelo: (– 2.365, 1.529) para β0, que incluye el valor 0 e indica que la constante podría eliminarse del modelo, y (4.599,5.679) para β1. Estadísticos sobre los residuosa Mínimo Valor pronosticado Residuo bruto Valor pronosticado tip. Residuo tip. a
-.418 -1.318 -1.389 -1.186
Máximo 30.418 1.621 1.389 1.459
Media 15.000 .000 .000 .000
Desviación típ. 11.1021 1.0146 1.000 .913
N 7 7 7 7
Variable dependiente: Y.
que proporciona información estadística (mínimo, máximo, media y desviación típica) sobre los valores calculados (pronosticados), los residuos, y los correspondientes valores estandarizados.
108
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Gráficos Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: y
1,0
Prob acum esperada
0,8
0,6
0,4
0,2
0,0 0,0
0,2
0,4
0,6
0,8
1,0
Prob acum observada
que es el gráfico de probabilidad normal de los residuos tipificados, que permite aceptar la normalidad de los mismos Gráfico de dispersión Variable dependiente: y
Regresión Residuo tipificado
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5 0,0
5,0
10,0
15,0
20,0
25,0
30,0
y
que es el gráfico de dispersión de los residuos tipificados frente a los valores observados de Y, y que en principio, no parece indicar anomalías para el modelo.
III.
Prácticas de estadística bivariante
109
En el Visor de datos figuran dos nuevas variables con nombres pre_1 y res_1, que corresponden a los valores calculados y a los residuos, respectivamente:
3. Para obtener el diagrama de dispersión de los datos con la recta de regresión y las bandas de confianza al 95%, hay que utilizar el procedimiento Gráficos, Interactivos, Diagrama de dispersión.
y en la ventana del procedimiento, en la ficha de Asignar variables, seleccione Coordenada 2-D, y arrastre la variable Y hasta el cuadro para el Eje Y y la variable X hasta el cuadro del Eje X; en la ficha de Ajuste, en Método seleccione Regresión e Incluir constante en la ecuación; y en Líneas de pronóstico seleccione Media e Intervalo de confianza al 95%, y en Ajustar líneas para seleccione Total, y pulse Aceptar.
110
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
III.
Prácticas de estadística bivariante
111
Los resultados son los siguientes: Gráfico interactivo 30,0
Regresión lineal con Intervalo de predicción de la media al 95,00%
1y = -0.42 + 5.14 * x R-cuadrado = 0.99
y
20,0
10,0
0,0 0
2
4
6
x
El gráfico puede modificarse (pulse dos veces sobre él, mover la leyenda general y la del ajuste de la recta con el ratón, cambie la fuente del texto una vez seleccionado utilizando el botón derecho del ratón, cambie el estilo, color y tamaño de los símbolos…), para quedar en la forma: Regresión lineal con Intervalo de predicción de la media al 95.00% 30,0 1y = -0.42 + 5.14 * x R-cuadrado = 0.99
y
20,0
10,0
0,0
0
2
x
4
6
4. Para obtener el diagrama de dispersión de los valores calculados para la variable Y frente a los observados, se puede utilizar el procedimiento Gráficos, Dispersión/Puntos, Dispersión simple. Coloque en el cuadro del Eje X la variable Y, y en el cuadro del Eje Y la variable pre_1, y pulse Aceptar:
112
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Como resultado se obtiene el siguiente grafico:
Unstandardized Predicted Value
30,00000
20,00000
10,00000
0,00000
0,0
5,0
10,0
15,0
y
20,0
25,0
30,0
III.
Prácticas de estadística bivariante
113
que puede modificarse con el Editor de gráficos del SPSS (pulse dos veces sobre él). Para modificar el título de los ejes, o modificar el rango de los datos visualizados, pulse dos veces con el botón izquierdo del ratón; cambie el texto, y modifique el rango (Propiedades, Escala). Para incluir línea de ajuste hay que utilizar la herramienta Elementos, Línea de ajuste total, y en Propiedades, Ajustar línea, seleccione Lineal en Método de ajuste. Si se quiere incluir las bandas de confianza, elegir Media en Intervalos de confianza. Pulse Aplicar y Cerrar.
Una vez completadas las modificaciones y cerrada la ventana del Editor de gráficos (Archivo, Cerrar), tendríamos en la Ventana de Resultados, el siguiente gráfico:
Valores calculados de Y
30,00
20,00
10,00
0,00
Sq r lineal = 0,992
0,0
5,0
10,0
15,0
20,0
Valores observados de Y
25,0
30,0
114
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
5. En la Ventana de resultados se pueden seleccionar las tablas o gráficos que se quieran imprimir directamente (utilizando la herramienta Archivo, Imprimir), o copiar (con la herramienta Edición, Copiar objetos) en un fichero MS-WORD. 6. Por último guarde el fichero de datos y salga del programa SPSS. A la vista de los resultados, que indican que no es preciso incluir el término independiente en el modelo teórico (se acepta H0 ≡ β0 = 0), se podría repetir el procedimiento Analizar, Regresión, Lineal, pero sin Incluir constante en la ecuación del modelo en la ventana Opciones. Los resultados que se obtienen son: Yˆ = 5.043 · X, y valores de 0.997 y 1.045 para el coeficiente de determinación (R2) y para la desviación estándar residual (s). III.2. EJEMPLO DE REGRESIÓN POLINÓMICA ¿Puede aceptarse un modelo lineal de primer orden para los siguientes datos de un calibrado?: X (conc.)
0
1
2
3
4
5
Y (resp.)
.2
3.6
7.5
11.5
15
17
6
7
8
9
10
20.4 22.7 25.9 27.6 30.2
En caso negativo obtenga la regresión polinómica de segundo orden de la variable Y frente a X. 1. Abra el programa SPSS, y recupere el archivo practbiv.sav. Defina las nuevas variables X2 e Y2 con los datos anteriores de X e Y (el programa no admite 2 variables con el mismo nombre), y guarde el fichero con estos nuevos datos. 2. Obtenga los resultados de la aplicación del análisis de regresión lineal simple de Y2 sobre X2, incluyendo el gráfico de dispersión de los residuos tipificados frente a los valores observados para la variable Y2. Interprete los resultados. ¿Se puede aceptar un modelo lineal? 3. En caso de no aceptar un modelo lineal de primer orden, ajustar un polinomio de segundo grado, y guarde los valores calculados. Analizar los resultados y observar que se ha creado una nueva variable con nombre fit_1. 4. Obtener el gráfico con los valores calculados y observados para la variable Y2 en función de la variable X2. 5. Seleccionar los resultados para imprimir o copiar en un fichero de MS-WORD. Guarde los datos y salga del SPSS. Resultados:
1. Ejecute el programa SPSS, y abra el anterior fichero practbiv.sav (seleccione el fichero practbiv.sav y pulse Aceptar, si se encuentra en el cuadro Abra una fuente de datos existente, o pulse Cancelar y utilice la herramienta de Archivo, Abrir, Datos, desde la unidad y correspondiente carpeta donde resida el fichero practbiv.sav). En las columnas 5 y 6 del Visor de datos, introduzca los anteriores valores para las variables x2 e y2 (0 y 0.2 en la primera fila, 1 y 3.6 en la segunda fila, 2 y 7.5 en la tercera fila, …, 10 y 30.2 en la fila 11),
III.
Prácticas de estadística bivariante
115
2. Para realizar el calibrado lineal de los datos hay que utilizar el procedimiento Analizar, Regresión, Lineal, y colocar la variable x2 en el cuadro Independientes: y la variable y2 en el cuadro Dependiente. En la ventana Gráficos… coloque la variable ZRESID en el cuadro de la variable Y y la variable DEPENDNT en el cuadro del eje X, y seleccione también el Gráfico de prob. normal en Gráficos de residuos tipificados, pulse Continuar. En la ventana Opciones…, compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse Continuar. Pulse Aceptar en la ventana del procedimiento Analizar, Regresión, Lineal. Los resultados que se obtienen incluyen las siguientes tablas y gráficos: Variables introducidas/eliminadasb Modelo 1 a b
Variables introducidas X2a
Variables eliminadas .
Método Introducir
Todas las variables solicitadas introducidas. Variable dependiente: Y2.
que informa sobre las variables utilizadas en el modelo. Resumen del modelob Modelo 1 a b
R .995a
R cuadrado .990
R cuadrado corregida .989
Error típ. de la estimación 1.0274
Variables predictoras: (Constante), X2. Variable dependiente: Y2.
que proporciona los indicadores de la bondad de ajuste del modelo: coeficiente de determinación, R2 = 0.990, su raíz cuadrada R = 0.995, y la desviación estándar residual o error típico de la estimación, s = 1.0274.
116
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
ANOVAb Modelo 1
a b
Suma de cuadrados Regresión Residual Total
984.009 9.500 993.509
Media cuadrática
gl 1 9 10
984.009 1.056
F 932.219
Sig. .000a
Variables predictoras: (Constante), X2. Variable dependiente: Y2.
que es la tabla del ANOVA para la regresión: que informa de la suma de cuadrados de la descomposición de la variabilidad total de los valores de la variable Y (Total), en la parte explicada por el modelo (Regresión) y la correspondiente al error (Residual), los correspondientes grados de libertad (gl), los cuadrados medios y el valor del estadístico F-Snedecor (F = 932.219), junto con la probabilidad asociada para el contraste H0 ≡ β1 = 0 (Sig. = P = 0.000). Dado que P < 0.05 se acepta hipótesis alternativa H1 ≡ β1 ≠ 0, es decir, no se puede aceptar un valor constante para la variable Y2. Coeficientesa Coeficientes no estandarizados B Error típ.
Modelo 1 a
(Constante) X2
1.555 2.991
Coeficientes estandarizados Beta
.580 .098
.995
t 2.682 30.532
Sig. .025 .000
Variable dependiente: Y2.
que proporciona información sobre los coeficientes de regresión estimados (no estandarizados, b0 = 1.555, b1 = 2.991), sus desviaciones típicas (error típico de b0 = 0.580, error típico de b1 = 0.098), el valor del estadístico t-Student y su probabilidad asociada para el contraste H0 ≡ βi = 0 (t = 2.682 y P = 0.025 para H0 ≡ β0 = 0, t = 30.532 y P = 0.000 para H0 ≡ β1 = 0). Estadísticos sobre los residuosa Mínimo Valor pronosticado Residuo bruto Valor pronosticado tip. Residuo tip. a
1.555 -1.355 -1.508 -1.318
Máximo 31.464 1.482 1.508 1.442
Media 16.509 .000 .000 .000
Desviación típ. 9.9197 .9747 1.000 .949
N 11 11 11 11
Variable dependiente: Y2.
que proporciona información estadística (mínimo, máximo, media y desviación típica) sobre los valores calculados (pronosticados), los residuos, y los correspondientes valores estandarizados.
III.
Prácticas de estadística bivariante
117
Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: y2
1,0
Prob acum esperada
0,8
0,6
0,4
0,2
0,0 0,0
0,2
0,4
0,6
0,8
1,0
Prob acum observada
que es el gráfico de probabilidad normal de los residuos tipificados, que permite aceptar la normalidad de los mismos.
Gráfico de dispersión Variable dependiente: y2
Regresión Residuo tipificado
1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 0,0
10,0
20,0
y2
30,0
118
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
que es el gráfico de dispersión de los residuos tipificados frente a los valores observados de y2, y que parece indicar una cierta curvatura, incompatible con el modelo lineal. La curvatura también se aprecia en el siguiente gráfico con el diagrama de dispersión de los datos y la recta de regresión ajustada, obtenida con el procedimiento Gráficos, Interactivos, Diagrama de dispersión (valores observados por debajo de la línea para valores inferiores de x2, luego por encima de la línea, y otra vez por debajo para valores superiores de x2): Regresión lineal 30,0
1y2 = 1,55 + 2,99 * x2 R-cuadrado = 0,99
y2
20,0
10,0
0,0 0,0
2,5
5,0
7,5
10,0
x2
3.-4. Para ajustar un polinomio de segundo grado a los datos, hay que realizar el análisis de regresión polinómica de segundo orden (modelo Y = β0 + β1X + β2X 2 + ε) mediante el procedimiento Analizar, Regresión, Estimación Curvilínea,
III.
Prácticas de estadística bivariante
119
En la ventana del procedimiento, coloque la variable y2 en el cuadro Dependientes: y la variable x2 en el cuadro Variable: del apartado Independiente. Seleccione Cuadrático en Modelos: y Mostrar tabla de ANOVA, Representar los modelos e Incluir constante en la ecuación. En la ventana Guardar…, seleccione Valores pronosticados en Guardar variables. Pulse Continuar y Aceptar.
120
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados que se obtienen son los siguientes:
Cuadrático Resumen del modelo
R
R cuadrado
R cuadrado corregida
,999
,998
,999
Error típico de la estimación ,399
La variable independiente esx2.
con el valor del R2 (.999) y el de la desviación estándar residual, o error típico de la estimación (.399) ANOVA Suma de cuadrados Regresión Residual Total
992,233 1,276 993,509
Media cuadrática
gl 2 8 10
496,116 ,160
F 3109,902
Sig. ,000
La variable independiente esx2.
la tabla ANOVA de la regresión con el valor del estadístico F-Snedecor = 3109.90 y su significación P = 0.000, que informa que alguno de los parámetros β1 o β2 no es cero, es decir no es posible aceptar el modelo teórico Y = β0. Coeficientes
x2 x2 ** 2 (Constante)
Coeficientes no estandarizados B Error típico 3,970 ,142 -,098 ,014 ,086 ,304
Coeficientes estandarizados Beta 1,321 -,338
t 28,041 -7,180 ,283
Sig. ,000 ,000 ,785
la tabla con los valores de los coeficientes de regresión estimados para el modelo ( Yˆ = 0.086 + 3.970 · X – 0.098 · X 2), así como los resultados de los contrastes H0 ≡ βi = 0 para cada uno de los tres parámetros del modelo teórico (valores del estadístico t-Student y su probabilidad asociada, que indican que sería posible aceptar H0 ≡ β0 = 0, puesto que P = 0.785 > 0.05).
III.
Prácticas de estadística bivariante
121
y2
Observada Cuadrático
30,0
20,0
10,0
0,0 0
2
4
6
8
10
x2
que es la representación de los valores observados (Yi ) y calculados, por el modelo ( Yˆ = 0.086 + 3.970 · X – 0.098 · X 2), para cada valor de la variable independiente (Xi ). Los resultados proporcionados por la versión 11.5 del SPSS eran los siguientes: Estimación curvilínea MODEL: MOD_1. Dependent variable.. Y2
Method.. QUADRATI
Listwise Deletion of Missing Data Multiple R R Square Adjusted R Square Standard Error
.99936 .99872 .99839 .39941
Analysis of Variance: DF Sum of Squares Regression 2 Residuals 8
Mean Square 992.23287 1.27622
F =
Signif F =
3109.90247
496.11643 .15953
.0000
-------------------- Variables in the Equation -------------------Variable X2 X2**2 (Constant)
B
SE B
Beta
T
Sig T
3.969930 -.097902 .086014
.141574 .013636 .304291
1.320971 -.338230
28.041 -7.180 .283
.0000 .0001 .7846
The following new variables are being created: Name FIT_1
Label Fit for Y2 with X2 from CURVEFIT, MOD_1 QUADRATIC
122
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Y2 40
30
20
10
0 Observada Cuadrático
-10 -2
0
2
4
6
8
10
12
X2
Esta salida gráfica se podía modificar utilizando el Editor de gráficos, para lograr una mejor resolución (seleccionando los puntos de la serie Observada, de la leyenda, y utilizando la herramienta Formato, Interpolación, elegir Ninguna en Estilo de interpolación, aumentando el tamaño de los símbolos con la herramienta Formato, Marcadores, Aplicar y Cerrar; cambiando el color de los símbolos con la herramienta Formato, Color, Aplicar y Cerrar; eliminando la leyenda con la herramienta Diseño, Leyenda, Aceptar; centrando y cambiando el título del Eje X y eliminando el Texto Y2). Con esas modificaciones se podía obtener la siguiente figura: 40
30
20
10
0
-10 -2
0
2
4
x
6
8
10
12
III.
Prácticas de estadística bivariante
123
A la vista de los resultados, que indican que no es preciso incluir el término independiente en el modelo teórico (se acepta H0 ≡ β0 = 0), se podría repetir el procedimiento Analizar, Regresión, Estimación Curvilínea, pero sin Incluir constante en la ecuación del modelo. Los resultados que se obtienen son los siguientes: Resumen del modelo a
R 1,000 a
Error típico de la estimación ,378
R cuadrado corregida 1,000
R cuadrado 1,000
La variable independiente esxt2. La ecuación se estimó sin el término constante.
ANOVAa Suma de cuadrados Regresión
3990,271 1,289 3991,560
Residual Total a
Media cuadrática
gl 2 9 11
F
1995,136 ,143
13930,67
Sig. ,000
La variable independiente esx2. La ecuación se estimó sin el término constante.
Coeficientes Coeficientes estandarizados Beta
Coeficientes no estandarizados B Error típico x2 x2 ** 2
4,003 -,100
,078 ,010
t
1,243 -,253
51,583 -10,505
y2 Observada Cuadrático 30,0
20,0
10,0
0,0 0
2
4
6
x2
8
10
Sig. ,000 ,000
124
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
que muestra que el modelo estimado sería: Yˆ = 4.003X – 0.100 · X 2, con un valor de R2 = 1.000 y una desviación estándar residual (s) = .378. En el Visor de Datos se habrá creado una nueva variable (fit_2) con los nuevos valores calculados (Yˆ = 4.003X – 0.100 · X 2).
5. Copiar y pegar resultados (Edición, Copiar objetos; Edición, Pegar), y salir del SPSS (Archivo, Salir). III.3. EJEMPLO DE REGRESIÓN POLINÓMICA CON REPETICIONES ¿Puede aceptarse un modelo lineal de primer orden de la variable Y3 frente a la variable X3, para los siguientes datos?: X3
5.0
5.0
5.0
10.0
10.0
10.0
20.0
20.0
20.0
30.0
Y3
.32
.30
.35
.53
.55
.52
1.01
.99
1.14
1.55
X3
30.0
30.0
40.0
40.0
40.0
Y3
1.50
1.50
1.85
1.83
1.85
En caso negativo obtenga la regresión polinómica de segundo orden de la variable Y3 frente a X3. 1. Abra el programa SPSS. Recupere el archivo practbiv.sav, y defina las variables X3 e Y3 con los anteriores datos. Guarde el fichero con estos nuevos datos. 2. Obtenga los resultados de la aplicación del análisis de regresión lineal de la variable Y3 frente a la X3. Contraste la falta de ajuste del modelo lineal (Utilice el ANOVA de un factor para calcular el puro error). Interprete los resultados. 3. En caso de falta de ajuste del modelo lineal, Obtenga los resultados de la aplicación del análisis de regresión polinómica de la variable Y3 frente a la X3. 4. Guarde los resultados en un fichero de MS-WORD, y salga del SPSS.
III.
Prácticas de estadística bivariante
125
Resultados:
1. Ejecute el programa SPSS, y abra el anterior fichero practbiv.sav (seleccione el fichero practbiv.sav y pulse Aceptar, si se encuentra en el cuadro Abra una fuente de datos existente, o pulse Cancelar y utilice la herramienta de Archivo, Abrir, Datos, desde la unidad y correspondiente carpeta donde resida el fichero practbiv.sav). En las columnas 9 y 10 del Visor de datos, introduzca los anteriores valores para las variables x3 e y3 (5 y 0.32 en la primera fila, 5 y .30 en la segunda fila, 5 y .35 en la tercera fila, …, 40 y 1.85 en la fila 15),
2. Para realizar la regresión lineal de los datos hay que utilizar el procedimiento Analizar, Regresión, Lineal, y colocar la variable x3 en el cuadro Independientes: y la variable y3 en el cuadro Dependiente. En la ventana Gráficos… coloque la variable ZRESID en el cuadro del eje Y y la variable DEPENDNT en el cuadro del eje X, y seleccione también el Gráfico de prob. normal en Gráficos de residuos tipificados, pulse Continuar. En la ventana Opciones…, compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse Continuar. Pulse Aceptar en la ventana del procedimiento Analizar, Regresión, Lineal. Los resultados que se obtienen incluyen las siguientes tablas y gráficos: Regresión
Variables introducidas/eliminadasb Modelo 1 a b
Variables introducidas X3a
Variables eliminadas
Todas las variables solicitadas introducidas. Variable dependiente: Y3.
que informa sobre las variables utilizadas en el modelo.
.
Método Introducir
126
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Resumen del modelob Modelo 1 a b
R .995a
R cuadrado corregida .990
R cuadrado .991
Error típ. de la estimación .05951
Variables predictoras: (Constante), X3. Variable dependiente: Y3.
que proporciona los indicadores de la bondad de ajuste del modelo: coeficiente de determinación, R2 = 0.991, su raíz cuadrada R = 0.995, y la desviación estándar residual o error típico de la estimación, s = 0.0595. ANOVAb Modelo 1
a b
Suma de cuadrados Regresión Residual Total
4.897 .046 4.943
Media cuadrática
gl 1 13 14
4.897 .004
F 1382.981
Sig. .000a
Variables predictoras: (Constante), X3. Variable dependiente: Y3.
que es la tabla del ANOVA para la regresión: que informa de la suma de cuadrados de la descomposición de la variabilidad total de los valores de la variable Y (Total), en la parte explicada por el modelo (Regresión) y la correspondiente al error (Residual), los correspondientes grados de libertad (gl), los cuadrados medios y el valor del estadístico F-Snedecor (F = 1382.981), junto con la probabilidad asociada para el contraste H0 ≡ β1 = 0 (Sig. = P = 0.000). Dado que P < 0.05 se acepta hipótesis alternativa H1 ≡ β1 ≠ 0, es decir, no se puede aceptar un valor constante para la variable y3. Coeficientesa
Modelo 1 a
Coeficientes no estandarizados B Error típ. (Constante) X3
.116 .045
.030 .001
Coeficientes estandarizados Beta .995
t 3.920 37.188
Sig. .002 .000
Variable dependiente: Y3.
que proporciona información sobre los coeficientes de regresión estimados (no estandarizados, b0 = 0.116, b1 = 0.045), sus desviaciones típicas (error típico de b0 = 0.030, error típico de b1 = 0.001), el valor del estadístico t-Student y su probabilidad asociada para el contraste H0 ≡ βi = 0 (t = 3.920 y P = 0.002 para H0 ≡ β0 = 0, t = 37.188 y P = 0.000 para H0 ≡ β1 = 0).
III.
Prácticas de estadística bivariante
127
Estadísticos sobre los residuosa Mínimo Valor pronosticado Residuo bruto Valor pronosticado tip. Residuo tip. a
.3388 -.0704 -1.207 -1.183
Máximo
Desviación típ.
Media
1.9004 .1320 1.433 2.217
1.0527 .0000 .000 .000
.59144 .05734 1.000 .964
N 15 15 15 15
Variable dependiente: Y3.
que proporciona información estadística (mínimo, máximo, media y desviación típica) sobre los valores calculados (pronosticados), los residuos, y los correspondientes valores estandarizados. Gráficos Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: y3 1,0
Prob acum esperada
0,8
0,6
0,4
0,2
0,0 0,0
0,2
0,4
0,6
0,8
1,0
Prob acum observada
que es el gráfico de probabilidad normal de los residuos tipificados, que permite observar una cierta curvatura.
128
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Gráfico de dispersión
Regresión Residuo tipificado
Variable dependiente: y3
2
1
0
-1
0,50
1,00
1,50
2,00
y3
que es el gráfico de dispersión de los residuos tipificados frente a los valores observados de y3, y que parece indicar una cierta curvatura, incompatible con el modelo lineal. Puesto que se dispone de repeticiones (3 observaciones en cada valor de X), es posible realizar el contraste de falta de ajuste del modelo lineal (H0 ≡ El modelo no tiene falta de ajuste) calculando el puro error de los datos. Para ello se puede utilizar el procedimiento Analizar, Comparar medias, ANOVA de un factor, y elegir como variable dependiente la y3, y como factor la variable x3,
III.
Prácticas de estadística bivariante
129
La tabla que se obtiene es la siguiente: ANOVA
Y3 Suma de cuadrados Inter-grupos Intra-grupos Total
Media cuadrática
gl
4.926 .017 4.943
4 10 14
1.232 .002
F
Sig.
727.317
.000
que facilita el valor de la suma de cuadrados del puro error (SSpe = ∑ (nj – 1)sj2 = 0.017), j y sus grados de libertad (m = ∑ (nj – 1)sj2 = 10), y que permite descomponer la suma de j
cuadrados de los residuos de la regresión en la forma: SSres = SSpe + SSfa , donde el término correspondiente a la falta de ajuste (SSfa = SSres – SSpe ) tiene n – 2 – m grados de libertad. De acuerdo con esta información la anterior tabla ANOVA de la regresión podría aumentarse en la forma siguiente: Suma de cuadrados
Modelo
1
Media cuadrática
gl
Regresión
4.897
1
4.897
Residual
0.046
13
0.003
Falta ajuste Puro error Total
0.029 0.017 4.943
3
0.0097
10
0.0017
F
Sig.
1382.98108 5.71
.0000 .015
14
MSSfa El valor del estadístico del contraste (Fcal = ––––– = 5.71) es mayor que el corresMSSpe pondiente valor tabulado (F3,10 = 3.71) lo que obliga a rechazar la hipótesis de linealidad de los datos (H0) y aceptar, por tanto, que el modelo calculado tiene falta de ajuste. Habría que probar con otro modelo como puede ser el modelo polinómico. La probabilidad asociada al anterior valor Fcal = 5.71 es P = 0.015, que puede obtenerse mediante la expresión 1-CDF.F(5.71,3,10) en la herramienta Transformar, Calcular nueva variable, y que es menor que el nivel de significación α = 0.05). La función CDF.F(cant, gl1, gl2) devuelve la probabilidad acumulada de que un valor de la distribución F, con los grados de libertad gl1 y gl2, sea menor que la cantidad cant. 3. Los resultados que se obtienen al realizar la regresión polinómica de segundo grado, mediante el procedimiento Analizar, Regresión, Estimación curvilínea, son los siguientes:
130
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Cuadrático Resumen del modelo
R ,997
R cuadrado ,995
Error típico de la estimación ,046
R cuadrado corregida ,994
La variable independiente esx3.
ANOVA Suma de cuadrados Regresión Residual Total
Media cuadrática
gl
4,918 ,026 4,943
2 12 14
2,459 ,002
F
Sig.
1154,976
,000
t 13,200 -3,102 ,424
Sig. ,000 ,009 ,679
La variable independiente esx3.
Coeficientes Coeficientes no estandarizados B Error típico ,058 ,004 ,000 ,000 ,017 ,039
x3 x3 ** 2 (Constante)
Coeficientes estandarizados Beta 1,292 -,304
y3 Observada Cuadrático
2,00
1,50
1,00
0,50
0
10
20
30
40
x3
Dado que estos resultados indican que no es preciso incluir el término independiente en el modelo teórico (P = 0.6791 > 0.05, se acepta H0 ≡ β0 = 0), se podría repetir el procedimiento Analizar, Regresión, Estimación Curvilínea, pero sin Incluir constante en la ecuación del modelo. Los resultados que se obtienen son los siguientes:
III.
Prácticas de estadística bivariante
131
Resumen del modeloa
R
R cuadrado
R cuadrado corregida
,999
,999
,999 a
Error típico de la estimación ,045
La variable independiente esx3. La ecuación se estimó sin el término constante.
ANOVAa
Regresión Residual Total a
Suma de cuadrados 21,539 ,026 21,565
gl 2 13 15
Media cuadrática 10,769 ,002
F 5399,274
Sig. ,000
La variable independiente esx3. La ecuación se estimó sin el término constante.
Coeficientes Coeficientes estandarizados Beta
Coeficientes no estandarizados B Error típico x3 x3 ** 2
,05959 -,00033
,002 ,000
t
1,223 -,232
32,155 -6,113
Sig. ,000 ,000
(Observar que se ha modificado el n.º de decimales del formato de los coeficientes de regresión, utilizando la herramienta de Formato y Propiedades de casilla, 5 decimales.) y3 Observada Cuadrático
2,00
1,50
1,00
0,50
0
10
20
30
40
x3
Los resultados muestran que el modelo estimado sería:Yˆ = 0.05959 · X – 0.00033 · X 2, con un valor de R2 = .999 y una desviación estándar residual (s) = 0.045. 4. Salir del SPSS (Archivo, Salir).
132
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
III.4. EJEMPLO DE REGRESIÓN NO LINEAL a x Ajustar los siguientes datos a la ecuación de Michaelis Menten: y = ––––– : x+b X
1.0
1.0
2.0
2.0
5.0
5.0
5.0
10.0
10.0
10.0
20.0
Y
.33
.35
.48
.53
.72
.71
.71
.84
.84
.82
.92
X
20.0
20.0
30.0
30.0
30.0
40.0
40.0
40.0
Y
.91
.91
.94
.93
.94
.95
.95
.94
1. Abra el programa SPSS. Recupere el archivo practbiv.sav, y defina las nuevas variables x4 (para la X) e y4 (para la Y) con los anteriores datos. Guarde el fichero con estos nuevos datos. 2. Obtenga los resultados de la aplicación del análisis de regresión no lineal para las variables x4 e y4, según el modelo anterior y Guarde los Valores pronosticados por el modelo estimado (Utilice el procedimiento Analizar, Regresión, No lineal). Interprete los resultados. Observe que se ha creado una nueva variable con nombre pred_. 3. Represente gráficamente los valores observados y calculados (Utilice Gráficos, Dispersión; elija Superpuestos y Defina los pares: y4-x4 y pred_-x4 ). Edite el gráfico obtenido. 4. Copie los resultados en un fichero de MS-WORD, y salga del SPSS. Resultados:
1. Ejecute el programa SPSS, y abra el anterior fichero practbiv.sav (seleccione el fichero practbiv.sav y pulse Aceptar, si se encuentra en el cuadro Abra una fuente de datos existente, o pulse Cancelar y utilice la herramienta de Archivo, Abrir, Datos, desde la unidad y correspondiente carpeta donde resida el fichero practbiv.sav). En las dos primeras columnas libres (11 y 12) del Visor de datos, introduzca los anteriores valores para las nuevas variables (1.0 y 0.33 en la primera fila, 1.0 y .35 en la segunda fila, …, 40 y 0.94 en la fila 19). Abra el Visor de variables, y cambie los nombres de las variables var00001 y var00002 por x4 e y4, modificar el número de decimales, y mantenga las demás características (tipo numérico, ancho 8, …, alineación derecha, medida tipo escala). Guarde el fichero (Archivo, Guardar),
III.
Prácticas de estadística bivariante
133
2. Para obtener los resultados de la aplicación del análisis de regresión no lineal para a (x4) las variables x4 e y4, según el modelo anterior ((y4) = ––––––– ) , hay que utilizar el pro(x4) + b cedimiento Analizar, Regresión, No lineal, y en la ventana principal del comando: 1) elija la variable y4 como variable Dependiente; 2) coloque a * x4/(x4+b) en el cuadro de Expresión del modelo; 3) en el apartado de Parámetros elija como nombres: a con valor inicial 1, pulse Añadir, y b con valor inicial 3, pulse Añadir; 4) en la ventana Guardar elija guardar los valores pronosticados ( Yˆi ) en una nueva variable, Continuar; 5) en la ventana Opciones elija el procedimiento, por defecto, de Levenberg-Marquardt; 6) en la ventana Pérdida elija como función objetivo o función de pérdida a minimizar, la suma de desviaciones al cuadrado entre los valores calculados y los observados (min∑(Yi – Yˆi ) 2 ); y 7) en la ventana Restricciones elija Sin restricciones en los valores de los parámetros del modelo, y pulse Aceptar en la ventan principal.
134
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
III.
Prácticas de estadística bivariante
135
Los resultados que se obtienen son los siguientes:
Análisis de la regresión no lineal Historial de iteracionesb
a
Número de iteraciones 1.0 1.1 2.0 2.1 3.0 3.1 4.0 4.1 5.0 5.1 a b
Suma de cuadrados residual ,085 ,008 ,008 ,002 ,002 ,002 ,002 ,002 ,002 ,002
Parámetro a 1,000 ,987 ,987 ,995 ,995 ,996 ,996 ,996 ,996 ,996
b 3,000 1,669 1,669 1,928 1,928 1,949 1,949 1,949 1,949 1,949
Las derivadas se calculan numéricamente. El número de iteraciones mayores se muestra a la izquierda del decimal, mientras que el número de iteraciones menores se encuentra a la derecha del decimal. La ejecución se detuvo después de 10 evaluaciones de modelos y 5 evaluaciones de derivadas, ya que la reducción relativa entre sumas residuales sucesivas de cuadrados es, como mucho, SSCON = 1,00E-008.
136
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
información sobre el proceso de convergencia, que comienza con valores de A = 1.000 B = 3.000, que dan lugar a una suma de cuadrados de 0.085, para terminar, después de 10 interacciones, con valores de A = .996 y B = 1.949, con una suma de cuadrados de 0.002 Estimaciones de los parámetros
Parámetro a b
Estimación
Error típico
,996 1,949
,004 ,046
Intervalo de confianza al 95% Límite superior Límite inferior ,987 1,852
1,006 2,045
la estimación de los parámetros, sus errores e intervalos de confianza. El modelo esti0.996 x mado sería, por tanto, y = ––––––––– . x + 1.949 Correlaciones de las estimaciones de los parámetros a b
a
b
1,000 ,730
,730 1,000
la correlación entre los parámetros estimados ANOVAa Origen Regresión Residual Total sin corrección Total corregido a
Suma de cuadrados 12,169 ,002 12,170 ,771
Mean Squares
gl 2 17 19 18
6,084260 ,000113
Variable dependiente: y4a. R cuadrado = 1 - (Suma de cuadrados residual) (Suma corregida de cuadrados) = ,998.
la tabla ANOVA con la descomposición de la suma de cuadrados. El cuadrado medio del error residual, vale 1.13E-04, que representa el valor de la varianza residual (s2), y, por tanto, un valor de la desviación estándar residual de s = 1.062 10–02, y un R2 de 0.998. En el Visor de datos se ha creado una nueva variable con nombre pred_ con los valores calculados con el modelo estimado. Los resultados proporcionados por la versión 11.5 del SPSS eran los siguientes:
III.
Prácticas de estadística bivariante
137
Regresión no lineal
All the derivatives will be calculated numerically. The following new variables are being created: Name Label PRED_ Predicted Values Iteration Residual SS A B 1 .0845198358 1.00000000 3.00000000 1.1 .0082631397 .986961460 1.66913492 2 .0082631397 .986961460 1.66913492 2.1 .0019444380 .995249244 1.92755922 3 .0019444380 .995249244 1.92755922 3.1 .0019166859 .996190205 1.94852623 4 .0019166859 .996190205 1.94852623 4.1 .0019166843 .996199205 1.94869278 5 .0019166843 .996199205 1.94869278 5.1 .0019166843 .996199238 1.94869326 Run stopped after 10 model evaluations and 5 derivative evaluations. Iterations have been stopped because the relative reduction between successive residual sums of squares is at most SSCON = 1.000E-08 Nonlinear Regression Summary Statistics Y4 Source Regression Residual Uncorrected Total
DF 2 17 19
(Corrected Total)
18
Dependent Variable
Sum of Squares 12.16852 1.916684E-03 12.17044
Mean Square 6.08426 1.127461E-04
.77053
R squared = 1 - Residual SS / Corrected SS = Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error A B
.996199238 1.948693259
.004435011 .045858012
Lower .986842182 1.851941310
.99751
Upper 1.005556294 2.045445208
Asymptotic Correlation Matrix of the Parameter Estimates
A B
A 1.0000 .7297
B .7297 1.0000
138
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
3. Para obtener la representación gráfica de los valores observados (Yi, en la variable y4) y los calculados (Yˆi , guardados en la nueva variable pred_), en función de la variable x4, habría que utilizar el procedimiento Gráficos, Dispersión/Puntos, Dispersión Superpuestos, Definir, y elegir en el cuadro Pares Y-X: los pares: y4-x4 y pred_-x4, pulsando Intercambie pares para respetar el orden de los Pares Y-X:
III.
Prácticas de estadística bivariante
139
La representación gráfica sería la siguiente: y4 x4 Predicted Values x4
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30 0,0
10,0
20,0
30,0
40,0
que se puede modificar en el Editor de gráficos: • seleccione la serie Predicted values-x4 y cambie el color del marcador; en Elementos, seleccione Línea de interpolación, Recta, Aplicar; desmarcar Elementos, Mostrar Marcadores de líneas; y pulse Cerrar
140
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
• suprima la leyenda con Opciones, Ocultar Leyenda • ponga títulos a los ejes en Edición, Propiedades, Etiquetas y marcas, Mostrar título del eje, Aplicar, Cerrar. Cambiar el texto Eje X poniendo Variable X. Repetir para el eje Y. y obtendrá la siguiente figura:
4. Por último se pueden seleccionar los resultados para copiarlos en un fichero de MS-WORD (Copiar Objetos y Pegar), y salir del SPSS (Archivo, Salir).
IV. PRÁCTICAS DE ESTADÍSTICA MULTIVARIANTE
IV.1. EJEMPLO DE ESTADÍSTICA DESCRIPTIVA MULTIVARIANTE A partir de las 10 variables analizadas en 16 vinos de las variedades Airén (A), Malvar (M), Monastrell (Mo) y Trepat (T), cuyos valores se muestran en la siguiente tabla (concentraciones en mg/l), calcular, utilizando el programa SPSS, los valores descriptivos totales y para cada variedad, así como la matriz de correlaciones (Pozo-Bayón et al., 2001). Obtener los diagramas de caja para cada variable y los de dispersión para todas las combinaciones posibles de las variables. Muestra
Metanol
Propanol
Butanoato etilo
Hexanoato etilo
Octanoato
Decanoato
Cis-3hexen1-ol
Hexanoico
Octanoico
Decanoico
Variedad
M 98
28.50
48.55
.35
1.04
1.37
.66
.16
M 98
27.27
40.04
.59
1.04
1.44
.73
.13
14.58
2.11
.81
M
15.72
1.86
.73
M
M 99
30.04
37.39
.82
1.20
1.47
.59
M 99
32.50
38.36
.82
1.27
1.71
.93
.16
7.62
2.68
.84
M
.19
7.81
3.31
1.38
M
A 97
33.49
27.77
.81
1.77
5.19
A 97
52.30
22.59
.81
1.80
5.41
2.04
0.00
7.63
1.64
.77
A
1.84
0.00
7.53
1.39
.56
A
A 98
35.20
32.53
.87
1.54
A 98
37.10
28.56
.91
1.99
3.45
1.10
0.00
8.62
3.92
1.47
A
4.95
1.85
0.00
8.06
3.37
1.42
A
T 97
44.05
12.01
.00
T 97
45.60
14.66
.29
1.21
2.03
1.31
1.35
7.16 11.75
1.99
T
1.15
2.29
1.21
1.51
8.44 12.96
2.12
T
T 98
40.23
10.55
.58
1.48
4.03
1.41
.94
3.12
T
10.13
9.19
142
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
(Continuación) Muestra
Metanol
Propanol
Butanoato etilo
Hexanoato etilo
Octanoato
Decanoato
Cis-3hexen1-ol
T 98
37.90
14.79
.29
1.05
4.58
2.78
1.24
8.51
8.69
3.31
T
Mo 97
45.82
18.40
.23
.37
.62
.26
1.19
2.50
4.42
1.07
Mo
Mo 97
60.55
20.22
.50
.55
.64
.17
.91
4.11
5.16
.64
Mo
Mo 98
45.86
17.27
.46
1.37
2.15
.96
.47
8.51
7.39
1.79
Mo
Mo 98
40.62
16.75
.35
1.02
2.02
1.20
.47
6.87
6.50
1.92
Mo
Hexanoico
Octanoico
Decanoico
Variedad
Resultados:
Ejecutar el programa SPSS, seleccionar Introducir datos, y pulsar Aceptar. En el Visor de variables definir: • la variable muestra de tipo cadena y escala nominal para etiquetar las muestras de vinos, • las variables metanol, propanol, butanoat, hexanoat, octanoat, decanota, cis3hexe, hexanoci, octanoic y decanoic, de tipo numérico con 2 decimales y medida tipo escala, con los valores de las concentraciones, y • la variable variedad de tipo cadena y escala nominal con los valores M, A, T y Mo.
En el Visor de datos, introducir los valores de la anterior tabla para las variables muestra, metanol, propanol, …, octanoic y variedad. Se tiene así la siguiente tabla de valores en el Visor de datos.
IV.
Prácticas de estadística multivariante
143
Guardar los datos en un fichero de nombre practmultiv.sav (Archivo, Guardar como). Para obtener los valores descriptivos de las variables numéricas, se puede ejecutar el procedimiento, Analizar, Estadísticos Descriptivos, Descriptivos, elija todas las variables numéricas, y los estadísticos: media, desviación típica, mínimo y máximo en la ventana de Opciones, pulse Continuar y Aceptar, es decir:
144
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
La tabla de resultados que se obtiene es la siguiente: Estadísticos descriptivos N METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC N válido (según lista)
Mínimo 16 16 16 16 16 16 16 16 16 16 16
27.27 10.55 .00 .37 .62 .17 .00 2.50 1.39 .56
Máximo 60.55 48.55 .91 1.99 5.41 2.78 1.51 15.72 12.96 3.31
Media
Desv. típ.
39.8144 25.0275 .5425 1.2406 2.7094 1.1900 .5450 8.3625 5.3963 1.4962
9.00906 11.48499 .27632 .42665 1.63855 .68597 .55146 3.20764 3.65608 .84272
Para editar la tabla y cambiar el número de decimales de la media y desviación típica a dos, bastaría con seleccionar la tabla, pinchando 2 veces con el ratón sobre la misma, resaltar las casillas correspondientes, utilizar la herramienta Formato, Propiedades de casilla, Categoría = Número, Formato = #.#, Decimales: 2, pulsar Aplicar y Acep-
IV.
Prácticas de estadística multivariante
145
tar. Para salir de la edición de la tabla pinchar, con el ratón, fuera de la misma. De esta forma se obtiene: Estadísticos descriptivos N METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC N válido (según lista)
Mínimo 16 16 16 16 16 16 16 16 16 16 16
27.27 10.55 .00 .37 .62 .17 .00 2.50 1.39 .56
Máximo 60.55 48.55 .91 1.99 5.41 2.78 1.51 15.72 12.96 3.31
Media 39.81 25.03 .54 1.24 2.71 1.19 .55 8.36 5.40 1.50
Desv. típ. 9.01 11.48 .28 .43 1.64 .69 .55 3.21 3.66 .84
Para obtener la matriz de correlaciones (de Pearson) entre las 10 variables, se puede utilizar el procedimiento Analizar, Correlaciones, Bivariadas, colocando todas las variables numéricas en el cuadro Variables:, y eligiendo Medias y desviaciones típicas en Estadísticos, en la ventana de Opciones (si se quiere obtener los valores descriptivos), y pulsando Continuar y Aceptar, es decir
146
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados que se obtienen, una vez editados convenientemente, son los siguientes: Estadísticos descriptivos Media METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC
39.81 25.03 .54 1.24 2.71 1.19 .55 8.36 5.40 1.50
Desviación típica 9.01 11.48 .28 .43 1.64 .69 .55 3.21 3.66 .84
N 16 16 16 16 16 16 16 16 16 16
IV.
Prácticas de estadística multivariante
147
Correlaciones MET ANO L METANOL
PROPANOL
BUTANOAT
HEXANOAT
OCTANOAT
DECANOAT
CIS3HEXE
HEXANOCI
OCTANOIC
DECANOIC
Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N
1
PR OPA NOL
BUT ANO AT
HEX ANO AT
OCT ANO AT
DE CAN OAT
CIS 3HE XE
HEX ANO CI
OCT ANO IC
DE CAN OIC
-.683 ** -.286
-.242
-.039
-.103
.474
-.658 ** .359
.023
.
.004
.282
.367
.885
.704
.064
.006
.172
.934
16
16
16
16
16
16
16
16
16
16
1
.491
.094
-.201
-.307
.
.053
.730
.455
.247
16
-.683 ** .004 16
16
16
-.286
.491
1
.282
.053
16
16
-.242
.094
.634 **
.367
.730
.008
.030
16
16
.001
.009
16
16
16
16 .121
.
.008
.087
.656
.000
.719
.004
.136
16
16
16
16
16
16
16
16
.822 ** .620 * -.554 *
.249
-.186
.041
.
.000
.353
.491
.881
16
16
1
16
16
16
-.201
.442
.822 **
.885
.455
.087
.000
16
16
16
16
-.103
-.307
.121
.620 *
.885 **
.704
.247
.656
.010
.000
16
16
16
16
.001
.634 ** .442
-.039
.474
-.727 ** .542 * -.758 ** -.629 **
-.813 ** .098
.010
.026
16
-.678 ** -.389
16
16
16
16
.885 ** -.274
.059
-.079
.263
.
.000
.305
.828
.771
.325
16
16
16
16
16
16
1
-.010
.083
.165
.506 *
.
.970
.759
.540
.046
16
16
16
16
16
16
-.727 ** -.813 ** -.554 * -.274
-.010
1
-.355
1
.857 ** .588 *
.064
.001
.000
.026
.305
.970
.
.178
.000
.017
16
16
16
16
16
16
16
16
16
16
.098
.249
.059
.083
-.355
1
-.179
.003
-.658 ** .542 * .006
.030
.719
.353
.828
.759
.178
.
.508
.991
16
16
16
16
16
16
16
16
16
16
-.758 ** -.678 ** -.186
-.079
.165
.857 ** -.179
1
.771
.540
.000
.359 .172 16 .023
.001
.004
.491
.508
16
16
16
16
16
16
-.629 ** -.389
.041
.263
.506 *
.588 *
.003
.764 **
16
.764 **
.
.001
16
16 1
.934
.009
.136
.881
.325
.046
.017
.991
.001
.
16
16
16
16
16
16
16
16
16
16
** La correlación es significativa al nivel 0,01 (bilateral). * La correlación es significante al nivel 0,05 (bilateral).
148
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En esta última tabla se señalan los valores de los coeficientes de correlación de Pearson que son significativamente diferentes de cero (* para P < 0.05 y ** para P < 0.01) según el contraste H0 ≡ ρ = 0. Para lograr disminuir el tamaño de la tabla, se cambió Correlación de Pearson por Correl. Pearson, y se disminuyó el ancho de la columna con el ratón, y, una vez seleccionadas las restantes columnas, se utilizó la herramienta Formato, Ancho casilla de datos, Establecer en 32 puntos. Para editar la tabla hay que pinchar 2 veces con el ratón sobre la misma. Para obtener los valores descriptivos de las variables numéricas, en cada uno de los cuatro grupos de datos (variedades), se puede ejecutar el procedimiento, Analizar, Modelo Lineal general, Multivariante, y colocar todas las 10 variables numéricas en el cuadro Dependientes:, y la variable variedad en el cuadro de Factores fijos:; y en la ventana de Opciones: elegir Estadísticos descriptivos en Mostrar:; pulse Continuar y Aceptar, es decir:
IV.
Prácticas de estadística multivariante
149
Se obtiene la siguiente tabla con el valor medio, la desviación típica y el número de muestras, de cada una de las 10 variables analizadas, en cada una de las cuatro variedades, es decir: Estadísticos descriptivos METANOL
PROPANOL
BUTANOAT
HEXANOAT
OCTANOAT
DECANOAT
...........
VARIEDAD A M Mo T Total A M Mo T Total A M Mo T Total A M Mo T Total A M Mo T Total A M Mo T Total A M
Media 39.5225 29.5775 48.2125 41.9450 39.8144 27.8625 41.0850 18.1600 13.0025 25.0275 .8500 .6450 .3850 .2900 .5425 1.7750 1.1375 .8275 1.2225 1.2406 4.7500 1.4975 1.3575 3.2325 2.7094 1.7075 .7275 .6475 1.6775 1.1900 .0000 .1600
Desv. típ. 8.64500 2.25392 8.58523 3.51631 9.00906 4.08574 5.09565 1.53638 2.07704 11.48499 .04899 .22457 .12124 .23678 .27632 .18448 .11615 .45375 .18392 .42665 .88679 .14773 .84176 1.26307 1.63855 .41532 .14660 .51025 .73952 .68597 .00000 .02449
N 4 4 4 4 16 4 4 4 4 16 4 4 4 4 16 4 4 4 4 16 4 4 4 4 16 4 4 4 4 16 4 4
En la tabla figuran las variables dependientes y la variedad en las filas, y los estadísticos en las columnas. Se podrían cambiar para que figurasen únicamente las variables dependientes en las filas, y los estadísticos por variedad en las columnas de la misma. Esto puede hacerse al editar la tabla (pinchar 2 veces con el ratón sobre la misma) y utilizar la herramienta Pivotar, Paneles de pivotado. Aparece el siguiente panel de pivotado,
150
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
que se puede cambiar, arrastrando el pivote correspondiente a la variable variedad a la parte superior de la columna, es decir:
En la tabla pivotada se pueden eliminar los datos correspondientes al total y al número de observaciones (marcar los datos dentro de las columnas y pulsar la tecla suprimir); cambiar el número de decimales (Formato, Propiedades de casillas), poner los nombres de las variedades, para lograr así la siguiente tabla:
IV.
Prácticas de estadística multivariante
151
Estadísticos descriptivos
metanol propanol butanoat hexanoat octanoat decanoat cis3hexe hexanoci octanoic decanoic
Airén Media Desv. típ. 39,52 8,65 27,86 4,09 ,85 ,05 1,78 ,18 4,75 ,89 1,71 ,42 ,00 ,00 7,96 ,50 2,58 1,25 1,06 ,46
variedad Malvar Monastrell Media Desv. típ. Media Desv. típ. 29,58 2,25 48,21 8,59 41,09 5,10 18,16 1,54 ,65 ,22 ,39 ,12 1,14 ,12 ,83 ,45 1,50 ,15 1,36 ,84 ,73 ,15 ,65 ,51 ,16 ,02 ,76 ,35 11,43 4,32 5,50 2,70 2,49 ,65 5,87 1,33 ,94 ,30 1,36 ,61
Trepat Media Desv. típ. 41,95 3,52 13,00 2,08 ,29 ,24 1,22 ,18 3,23 1,26 1,68 ,74 1,26 ,24 8,56 1,22 10,65 2,04 2,64 ,68
Para la representación gráfica de las 16 muestras de vinos utilizando las 10 variables analíticas, se puede utilizar el procedimiento Gráficos, Dispersión/Puntos, Dispersión Matricial, y en Definir colocar: las 10 variables en el cuadro Variables en la matriz, la variable variedad en el cuadro Establecer marcas por:, la variable muestra en el cuadro Etiquetar los casos mediante:; y en la ventana de Opciones señalar Mostrar el gráfico con las etiquetas de los casos; y pulsar Aceptar,
152
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
decan
octano
hexan
cis3he decan
octano
hexan butano propan metan
Se obtiene el siguiente diagrama de dispersión matricial, una vez cambiados los marcadores en el Editor de gráficos (ver práctica IV.4 ):
T 98 A 98 T 98 T 97
T 97
T 98
Mo 98
T 98
T 98
Mo 97
T 97
T 98
T 98 T 98 T 98
Mo 97
M 99
T 97
T 97
T 98
T 98
Mo 97
Mo 98 T 98 Mo 97
M 99
T 98
T 97
T 98 T 97 Mo 97
T 98 T 98
T 98
T 98 T 98
Mo 97
T 97 T 98 T 98 T 98 T 98
T 97
T 98 T 98 T 98
T 98 Mo 98
T 98
T 98 T 98 T 98
Mo 97
T 98
T 98
T 98
T 98 T 98 T 98 T 98
T 98 T 98 T 97 T 98 T 97
T 98
T 98
Mo 97
Mo 97
T 98
T 98
T 97
Mo 97
T 98 T 97
T 97 T 98 T 98
T 98
T 97 T 98 T 98 T 98 T 98 T 98 T 98
T 97
T 97
T 98
T 98T 98 T 98 Mo 97
T 98 T 98
T 98
T 98
T 98 Mo 98
T 98 T 98 Mo 97
Mo 97 T 98
M 99
T 98 Mo 97
Mo 98 M 99
M 99
T 98
T 98
M 99
T 98 T 98 T 98
T 97
T 98 T 98 T 98 Mo 98
T 97
T 97 M 99
M 99 T 98
T 98
Mo 98 M 99
Mo 97
T 97
T 98
T 98
T 98 T 98 T 98
T 98 T 98
T 98
T 98
T 98
A 97
T 98
T 98
T 98
T 98 T 98
T 98
T 98
A 97
T 98
T 98
T 98
T 98
M 99 T 98 T 98
T 98
T 98
M 99
T 98 T 98
T 98
T 97
M 99
T 98
T 98
T 98
T 97
T 98 Mo 98
T 98
T 98
M 99
T 98 T 98
T 98
M 99
T 98
T 98
T 98
T 98
T 97 M 99
T 98 T 98
T 98
T 98
T 98
Mo 98
Mo 98
T 98
Mo 98
T 98
T 97
variedad A M Mo T
IV.
Prácticas de estadística multivariante
153
Los estadísticos descriptivos, así como los diagramas de caja para cada variable, en cada uno de los 4 grupos, se pueden obtener con el procedimiento Analizar, Estadísticos descriptivos, Explorar. Los gráficos serían los siguientes: 50,00 60,00 40,00
propanol
metanol
50,00
40,00
30,00
20,00 30,00 10,00 A
M
Mo
T
A
M
variedad
Mo
T
Mo
T
Mo
T
variedad
1,00
2,00
0,80 1,50
hexanoat
butanoat
0,60
0,40
1,00
0,50
0,20
0,00
0,00 A
M
Mo
A
T
M
variedad
6,00
3,00
5,00
2,50
4,00
2,00
decanoat
octanoat
variedad
3,00
1,50
2,00
1,00
1,00
0,50
0,00
0,00 A
M
Mo
variedad
T
A
M
variedad
154
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
16,00 1,50 14,00
12,00
cis3hexe
hexanoci
1,00
0,50
10,00
8,00
6,00
4,00
0,00
2,00 A
M
Mo
T
A
M
variedad
Mo
T
Mo
T
variedad
14,00
3,50
12,00
3,00
10,00
decanoic
octanoic
2,50 8,00
6,00
2,00
1,50 4,00 1,00
2,00
0,00
0,50 A
M
Mo
variedad
T
A
M
variedad
Los resultados que proporciona la versión 13.0 para la estadística descriptiva mulitvariante, mediante los procedimientos: Analizar, Estadísticos descriptivos, Descriptivos; Analizar, Estadísticos descriptivos, Explorar y Analizar, Correlaciones, Bivariadas, no difieren de los que se obtendrían con la versión 11.5. Únicamente existen pequeñas diferencias en la salida gráfica del diagrama de dispersión matricial y de los diagramas de caja, así como en las herramientas del correspondiente Editor de gráficos. Desde el Visor de datos es posible exportar los datos, incluidos los nombres de las variables a otras aplicaciones, como puede ser el programa MS-EXCEL, sin más que utilizar el procedimiento Archivo, Guardar como, y en el Tipo de archivo elegir Excel 97 y posterior (*.xls). También es posible importar los datos de otras aplicaciones desde el Visor de datos sin más que utilizar la herramienta Archivo, Abrir, Datos; elegir el Tipo de archivo, p.e., Excel (*.xls), colocar el correspondiente fichero en el cuadro Nombre de archivo, y pulsar Abrir. En el cuadro de Apertura de fuentes de datos, señalar Leer nombres de variables de la primera fila de datos, y pulsar Aceptar. En el Visor de datos aparecerán los valores importados para las correspondientes variables, y en el Visor de variables tendremos las variables recuperadas, numéricas o de cadena. También es posible importar datos de otras aplicaciones utilizando la opción: Crear una nueva consulta con el asistente de base de datos, al ejecutar el programa SPSS. Para ello, una vez resaltada esta opción, pulsar Aceptar, y seleccionando la fuente de datos que se quiere recuperar, p. e. Excel Files, pulsar tecla Siguiente, y mediante Examinar, se busca el fichero de MS-EXCEL que se quiere recuperar, y se coloca su nombre en el cuadro Nombre de archivo, pulsar Abrir, y Aceptar; Mover los campos de la tabla, que
IV.
Prácticas de estadística multivariante
155
se quieren recuperar, al cuadrado Recuperar los campos en este orden, y pulsar la tecla Finalizar. En el Visor de datos aparecerán los datos importados, y en el Visor de variables tendremos las variables recuperadas, numéricas o de cadena. IV.2. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE CONGLOMERADOS Aplicar el análisis de conglomerados (“Cluster analysis”) a los 16 vinos varietales anteriores, utilizando los datos de composición química (mg/l) de las 10 variables analizadas. Obtener el dendrograma correspondiente, utilizando: • como medida de similitud (o semejanza) entre las muestras, la distancia euclídea al cuadrado a partir de las variables estandarizadas, y • como regla para la fusión de los grupos, el método de Ward. Identificar e interpretar los resultados obtenidos, y guardarlos en un fichero de MSWORD. Resultados:
Ejecutar el programa SPSS y abrir el fichero practmultiv.sav. Utilizar el procedimiento Analizar, Clasificar, Conglomerados jerárquicos. Colocar las 10 variables de composición Metanol, Propanol…, Decanoico en el cuadro de Variables, en Conglomerar elija casos, en Etiquetar casos mediante elija la variable alfabética muestra, y en Mostrar elija Estadísticos y gráficos. En la ventana de Estadísticos elija Historial de conglomeración y Matriz de distancias; Continuar. En la ventana de Gráficos elija Dendrograma; en Témpanos elija todos los conglomerados, y en Orientación elija Vertical. En la ventana de Método: en Método de conglomeración elija el Método de Ward; en Medida elija Intervalo y Distancia euclídea al cuadrado, en Transformar valores elija Estandarizar: Puntuaciones Z por variable; pulse Continuar y Aceptar.
156
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
IV.
Prácticas de estadística multivariante
157
158
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados que se obtienen son los siguientes:
Conglomerados jerárquicos Matriz de distancias
1:M 2:M 3:M 4:M 5:A Caso 98 98 99 99 97 1:M 98 .000 1.5 8.8 9.4 24 2:M 98 1.5 .000 7.5 8.3 20 3:M 99 8.8 7.5 .000 .822 12 4:M 99 9.4 8.3 .822 .000 10 5:A 97 24 20 12 10 .000 6:A 97 32 29 19 16 4.7 7:A 98 14 11 4.0 2.2 4.7 8:A 98 26 22 13 9.8 1.5 9:T 97 35 37 30 26 34 10:T 97 34 34 28 24 33 11:T 98 33 30 25 19 21 12:T 98 43 42 37 30 27 13:Mo 97 32 34 21 22 40 14:Mo 97 34 35 22 22 39 15:Mo 98 20 19 12 9.2 16 16:Mo 98 20 19 12 9.3 17
distancia euclídea al cuadrado 10: 11: 12: 13: 14: 15: 16: 6:A 7:A 8:A 9:T T T T Mo Mo Mo Mo 97 98 98 97 97 98 98 97 97 98 98 32 14 26 35 34 33 43 32 34 20 20 29 11 22 37 34 30 42 34 35 19 19 19 4.0 13 30 28 25 37 21 22 12 12 16 2.2 9.8 26 24 19 30 22 22 9.2 9.3 4.7 4.7 1.5 34 33 21 27 40 39 16 17 .000 9.1 4.9 34 32 23 32 38 30 15 19 9.1 .000 3.4 27 24 14 26 29 27 8.0 9.9 4.9 3.4 .000 32 30 16 25 42 39 13 17 34 27 32 .000 1.6 10 12 15 20 7.6 6.8 32 24 30 1.6 .000 7.2 12 17 19 6.9 7.5 23 14 16 10 7.2 .000 7.0 30 32 6.4 8.1 32 26 25 12 12 7.0 .000 35 42 16 13 38 29 42 15 17 30 35 .000 4.7 15 10 30 27 39 20 19 32 42 4.7 .000 13 13 15 8.0 13 7.6 6.9 6.4 16 15 13 .000 1.6 19 9.9 17 6.8 7.5 8.1 13 10 13 1.6 .000
Esta es una matriz de disimilaridades
que es la matriz de distancias con las similitudes entre las muestras (casos), en este caso la distancia euclídea al cuadrado.
IV.
Prácticas de estadística multivariante
159
Vinculación de Ward Historial de conglomeración Etapa en la que el conglomerado aparece por primera vez
Conglomerado que se combina
1
Conglom erado 1 3
Conglom erado 2 4
Coeficientes .411
Conglom erado 1 0
Conglom erado 2 0
2
1
2
1.150
0
0
3
5
8
1.898
0
0
8
4
9
10
2.712
0
0
10
5
15
16
3.535
0
0
10
6
3
7
5.476
1
0
12
7
13
14
7.805
0
0
14
8
5
6
10.764
3
0
13
9
11
12
14.286
0
0
11
10
9
15
20.654
4
5
11
11
9
11
29.842
10
9
14
12
1
3
40.295
2
6
13
13
1
5
64.354
12
8
15
14
9
13
90.225
11
7
15
15
1
9
150.000
13
14
0
Etapa
Próxima etapa 6 12
que es el historial de conglomeración que muestra los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de fusión en el que cada caso se unió a su conglomerado correspondiente. Diagrama de témpanos vertical
X X X X X X X X X
X X X X X X X X X X X X X X X
X X
X X X X X X X X X X X X X X X
X X X X X X X
X X X X X X X X X X X X X X X
X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X
X X X X X X X X X X X X X X X
X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X
X X X X X X X X X X X X X X X
1:M 98
2:M 98
3:M 99
4:M 99
7:A 98
5:A 97
8:A 98
6:A 97
9:T 97
10:T 97
15:Mo 98
16:Mo 98
11:T 98
X X X X X X X X X X X X X X X
12:T 98
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
13:Mo 97
14:Mo 97
Caso
Número de conglomerados
X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
el diagrama de témpanos que muestra información sobre cómo se combinan los casos en los conglomerados, en cada iteración del análisis, así, en el paso 4 existen 4 con-
160
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
glomerados; uno formado por los casos 13 y 14; otro por los casos 9, 10, 11, 12, 15 y 16; otro por los casos 5, 6 y 8; y otro con los restantes 1, 2, 3, 4 y 7. Dendrograma
******HIERARCHICAL
CLUSTER
ANALYSIS******
Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num M 99 M 99 A 98 M 98 M 98 A 97 A 98 A 97 Mo 97 Mo 97 T 98 T 98 T 97 T 97 Mo 98 Mo 98
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
3 4 7 1 2 5 8 6 13 14 11 12 9 10 15 16
el dendrograma que es una representación visual de los pasos de una solución de conglomeración jerárquica que muestra, para cada paso, los conglomerados que se combinan y los valores de los coeficientes de su distancia. Las líneas verticales conectadas designan casos combinados. En el dendrograma el programa reescala las distancias reales a valores entre 0 y 25, preservando la razón de las distancias entre los pasos. En el dendrograma se observan 2 grandes grupos de muestras: uno que corresponde a los vinos de las variedades Airén (A) y Malvar (M), que son blancas, y el otro a los vinos de las variedades Trepat (T) y Monastrell (Mo) que son tintas. A su vez también se observa la influencia del año de vendimia (97 ó 98) que es más acusada en el caso de la variedad Monastrell. Se pueden seleccionar las tablas y el dendrograma, que se quieran copiar a un fichero de MS-WORD, y utilizar las herramientas: Edición, Copiar Objetos del SPSS y Edición, Pegar del MS-WORD.
IV.
Prácticas de estadística multivariante
161
Utilizando el anterior procedimiento Analizar, Clasificar, Conglomerados jerárquicos…, es posible obtener el dendrograma de las variables, eligiendo Conglomerar Variables y en la ventana del Método: en Método de conglomeración elija Vinculación Inter-grupo; en Medida elija Intervalo y Correlación de Pearson, en Transformar valores elija Puntuaciones Z por variables, y en Transformar medidas elija Valor absoluto. En la ventana de Gráficos elija Dendrograma; en Témpanos elija todos los conglomerados, y en Orientación elija Vertical. Pulsar Continuar y Aceptar.
162
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados que se obtienen son los siguientes:
Conglomerados jerárquicos Matriz de distancias
Caso METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC
META NOL 1.000 .683 .286 .242 .039 .103 .474 .658 .359 .023
PRO PAN OL .683 1.000 .491 .094 .201 .307 .727 .542 .758 .629
BUTA NOA T .286 .491 1.000 .634 .442 .121 .813 .098 .678 .389
Archivo matricial de entrada HEXA OCT DEC CIS3 NOA ANO ANO HEX T AT AT E .242 .039 .103 .474 .094 .201 .307 .727 .634 .442 .121 .813 1.000 .822 .620 .554 .822 1.000 .885 .274 .620 .885 1.000 .010 .554 .274 .010 1.000 .249 .059 .083 .355 .186 .079 .165 .857 .041 .263 .506 .588
HEXA NOCI .658 .542 .098 .249 .059 .083 .355 1.000 .179 .003
OCT ANOI C .359 .758 .678 .186 .079 .165 .857 .179 1.000 .764
DEC ANOI C .023 .629 .389 .041 .263 .506 .588 .003 .764 1.000
Vinculación promedio (Inter-grupos) Historial de conglomeración
Etapa 1 2 3 4 5 6 7 8 9
Conglomerado que se combina Conglom Conglom erado 1 erado 2 5 6 7 9 3 7 4 5 1 2 1 8 3 10 1 3 1 4
Coeficientes .885 .857 .746 .721 .683 .600 .580 .365 .221
Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 2 0 1 0 0 5 0 3 0 6 7 8 4
Próxima etapa 4 3 7 9 6 8 8 9 0
IV.
Prácticas de estadística multivariante
163
Diagrama de témpanos vertical
X X X X X X X X X
X X X X X X X X X
X X X X X X X X X
X X X X X X
X X X X X X X X X
X
X X X X X X X X X
X X X
X X X X X X X X X
X X X X X X X X
X X X X X X X X X
X X X X X X X
X X X X X X X X X
X X
X X X X X X X X X
X X X X
X X X X X X X X X
METANOL
PROPANOL
HEXANOCI
BUTANOAT
CIS3HEXE
OCTANOIC
DECANOIC
HEXANOAT
DECANOAT
Número de conglomerados 1 2 3 4 5 6 7 8 9
OCTANOAT
Caso
X X X X X
X X X X X X X X X
Dendrograma
******HIERARCHICAL
CLUSTER
ANALYSIS*****
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num OCTANOAT DECANOAT HEXANOAT METANOL PROPANOL HEXANOCI CIS3HEXE OCTANOIC BUTANOAT DECANOIC
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
5 6 4 1 2 8 7 9 3 10
--------------------------------------------------------------------------------------------------El dendrograma muestra la relación entre las variables analizadas. Se observan 3 grupos de variables: octanoat, decanoat y hexanoat, el cis3hexe, octanoic, butanoat, y decanoic, y el metanol, propanol y hexanoci. Los resultados obtenidos con la versión 13.0 para el análisis de conglomerados, mediante el procedimiento Analizar, Clasificar, Conglomerados jerárquicos, no difieren de los que se obtendrían con la versión 11.5.
164
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
IV.3. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE CONGLOMERADOS PARA DATOS BINARIOS Mediante el programa SPSS, aplicar el análisis de conglomerados a los siguientes datos binarios del perfil electroforético de las proteínas en 11 mostos de uva de diferentes variedades. La presencia de la banda se indica con el valor 1, y la ausencia de la misma por el valor 0 (Moreno-Arribas et al., 1999). Mostos
BANDAS 1
2
3
4
5
6
7
8
9
10
11
Parellada48
0
0
0
1
0
0
1
0
1
0
0
Parellada34
0
1
1
1
0
0
1
0
1
0
0
Garnacha26
0
1
1
1
0
0
1
0
1
0
0
Garnacha35
0
1
1
1
0
0
1
0
1
0
0
Macabeo27
0
1
1
1
0
1
1
1
0
0
0
Viñate30
0
1
0
1
0
1
1
1
1
0
0
Viñate41
0
1
0
1
0
1
1
1
0
0
0
Airen2
0
1
0
1
0
1
1
1
0
0
0
Airen25
0
1
0
1
0
0
1
0
0
1
0
Pansa33
0
1
0
0
0
0
1
1
0
1
0
Pansa13
0
1
1
1
1
1
1
1
0
1
0
Obtener el dendrograma correspondiente, utilizando el método de unión de Ward, y como medida de similitud el porcentaje de no coincidencias entre las muestras. Identificar e interpretar los resultados obtenidos, y guardarlos en un fichero de MSWORD. Resultados:
Ejecutar el programa SPSS, definir la variable de cadena mostos (para etiquetar las muestras de mostos), y las variables b1, b2, …, b11 (para las 11 bandas electroforéticas), e introducir los anteriores datos. Guardar el fichero con nombre practmultivbina.sav.
IV.
Prácticas de estadística multivariante
165
Utilizar el comando Analizar, Clasificar, Conglomerados jerárquicos. Colocar las 11 variables (b1, …, b11) en el cuadro de Variables, en Conglomerar elija casos, en Etiquetar casos mediante: elija la variable alfabética mostos, y en Mostrar elija Estadísticos y gráficos. En la ventana de Estadísticos elija Historial de conglomeración y Matriz de distancias; pulse Continuar. En la ventana de Gráficos elija Dendrograma; en Témpanos elija todos los conglomerados, y en Orientación elija Vertical. En la ventana Método: en Método de conglomeración elija Vinculación Inter-grupos; en Medida elija Binaria y Concordancia simple; pulse Continuar y Aceptar.
166
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
IV.
Prácticas de estadística multivariante
167
Los resultados que se obtienen son los siguientes:
Conglomerados jerárquicos
Resumen del procesamiento de los casosb
N
Válidos Porcentaje 11
a b
Casos Rechazado Valor binario fuera de a Valor perdido rango N Porcentaje N Porcentaje
100.0
0
.0
0
.0
Total Porcentaje
N
11
100.0
Valores distintos de 1 y 0. Vinculación promedio (Inter-grupos).
que es el resumen con los casos válidos (11) y rechazados (0). Matriz de distancias medida de emparejamiento simple
Caso 1:Parellada48 2:Parellada34 3:Garnacha26 4:Garnacha35 5:Macabeo27 6:Viñate30 7:Viñate41 8:Airen2 9:Airen25 10:Pansa33 11:Pansa13
1:Par ellad a48 1.000 .818 .818 .818 .545 .727 .636 .636 .727 .545 .364
2:Par ellad a34 .818 1.000 1.000 1.000 .727 .727 .636 .636 .727 .545 .545
3:Gar nach a26 .818 1.000 1.000 1.000 .727 .727 .636 .636 .727 .545 .545
4:Gar nach a35 .818 1.000 1.000 1.000 .727 .727 .636 .636 .727 .545 .545
5:Ma cabe o27 .545 .727 .727 .727 1.000 .818 .909 .909 .636 .636 .818
6:Viñ ate30 .727 .727 .727 .727 .818 1.000 .909 .909 .636 .636 .636
7:Viñ ate41 .636 .636 .636 .636 .909 .909 1.000 1.000 .727 .727 .727
8:Aire n2 .636 .636 .636 .636 .909 .909 1.000 1.000 .727 .727 .727
9:Aire n25 .727 .727 .727 .727 .636 .636 .727 .727 1.000 .818 .636
10:P ansa 33 .545 .545 .545 .545 .636 .636 .727 .727 .818 1.000 .636
11:P ansa 13 .364 .545 .545 .545 .818 .636 .727 .727 .636 .636 1.000
Esta es una matriz de similaridades.
que es la matriz de distancias con las medidas de emparejamiento simple entre los pares de muestras.
168
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Vinculación promedio (Inter-grupos) Historial de conglomeración
Etapa 1 2 3 4 5 6 7 8 9 10
Conglomerado que se combina Conglom Conglom erado 1 erado 2 7 8 3 4 2 3 5 7 5 6 9 10 1 2 5 11 5 9 1 5
Coeficientes 1.000 1.000 1.000 .909 .879 .818 .818 .727 .673 .636
Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 2 0 1 4 0 0 0 0 3 5 0 8 6 7 9
Próxima etapa 4 3 7 5 8 9 10 9 10 0
que es el historial de conglomeración, mostrando los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de fusión en el que cada caso se unió a su conglomerado correspondiente. Diagrama de témpanos vertical
X X X X X X X X X X
X X X X X
X X X X X X X X X X
X X
X X X X X X X X X X
X X X
X X X X X X X X X X
X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X
X X X X X X X X X X
X
X X X X X X X X X X
X X X X X X X X X
X X X X X X X X X X
X X X X X X X X
X X X X X X X X X X
1:Parellada48
2:Parellada34
3:Garnacha26
4:Garnacha35
5:Macabeo27
7:Viñate41
8:Airen2
6:Viñate30
11:Pansa13
9:Airen25
Número de conglomerados 1 2 3 4 5 6 7 8 9 10
10:Pansa33
Caso
X X X X
X X X X X X X X X X
que es el diagrama de témpanos, con la información sobre cómo se combinan los casos en los conglomerados, en cada iteración del análisis.
IV.
Prácticas de estadística multivariante
169
Dendrograma * * * * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * * * *
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label
Num
Viñate41 Airen2 Macabeo27 Viñate30 Pansa13 Airen25 Pansa33 Garnacha26 Garnacha35 Parellada34 Parellada48
7 8 5 6 11 9 10 3 4 2 1
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
que es el dendrograma para las 11 muestras de mostos, con la información de la similitud entre los mismos, en base al perfil electroforético, y que podría utilizarse como alternativa al método de clasificación varietal mediante las características morfológicas. El dendrograma se puede copiar a un fichero de MS-WORD, utilizando las herramientas: Edición, Copiar Objetos del SPSS, y Edición, Pegar del MS-WORD. IV.4. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE COMPONENTES PRINCIPALES Aplicar el análisis de componentes principales (“Principal component analysis”) a los datos de composición química (mg/l) de los 16 vinos varietales de la práctica IV.1. Obtener: 1. el gráfico de sedimentación (con los valores propios, que son las varianzas de las componentes principales), 2. el número de componentes principales seleccionadas (con el criterio: valores propios > 1), 3. la tabla con los valores iniciales de las saturaciones de las variables (“loadings”, o correlaciones con la variable originales), para las componentes principales seleccionadas, 4. la tabla con las puntuaciones de las observaciones (“scores”, o coordenadas de las muestras en el espacio de las componentes principales), 5. el gráfico de dispersión de las saturaciones de las variables, para las dos primeras componentes principales, y
170
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
6. el gráfico de dispersión de las puntuaciones de las muestras, para las dos primeras componentes principales, para ayudar en la interpretación de los datos. 7. Identificar e interpretar los resultados, y guardarlos en un fichero de MS-WORD. Resultados:
Ejecutar el programa SPSS y abrir el fichero practmultiv.sav. Utilizar el comando Analizar, Reducción de datos, Análisis factorial, y en la ventana principal del comando, colocar las 10 variables de composición Metanol, Propanol, …, Decanoico en el cuadro de Variables. En la ventana de Descriptivos: en Estadísticos elija Descriptivos univariados y Solución inicial; en Matriz de correlaciones elija Coeficientes y Niveles de significación; pulse Continuar. En la ventana de Extracción: en Método elija Componentes principales, en Analizar elija Matriz de correlaciones, en Extraer elija Aautovalores > 1, y en Mostrar elija Solución factorial sin rotar y Gráfico de sedimentación; pulse Continuar. En la ventana de Rotación: en Método elija Ninguno, y en Mostrar elija Gráficos de saturaciones; pulse Continuar. En la ventana de Puntuaciones: señalar Guardar como variables y Método de regresión, pulse Continuar. Por último, en la ventana de Opciones: en Valores perdidos elija excluir casos según lista, y en Formato visualización de los coeficientes elija Ordenados por tamaño y Suprimir valores absolutos menores que 0,25; pulse Continuar; y pulse Aceptar en ventana principal.
IV.
Prácticas de estadística multivariante
171
172
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
IV.
Prácticas de estadística multivariante
173
Los resultados que se obtienen son los siguientes:
A. factorial
Estadísticos descriptivos
METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC
Media 39.8144 25.0275 .5425 1.2406 2.7094 1.1900 .5450 8.3625 5.3962 1.4962
Desviación típica 9.00906 11.48499 .27632 .42665 1.63855 .68597 .55146 3.20764 3.65608 .84272
N del análisis 16 16 16 16 16 16 16 16 16 16
que es la tabla con los valores descriptivos de las 10 variables.
174
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Matriz de correlaciones
Correlac ión
Sig. (Unilater al)
METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC
META NOL 1.000 -.683 -.286 -.242 -.039 -.103 .474 -.658 .359 .023 .002 .141 .183 .443 .352 .032 .003 .086 .467
PRO PAN OL -.683 1.000 .491 .094 -.201 -.307 -.727 .542 -.758 -.629 .002 .027 .365 .228 .123 .001 .015 .000 .005
BUTA NOA T -.286 .491 1.000 .634 .442 .121 -.813 .098 -.678 -.389 .141 .027 .004 .043 .328 .000 .360 .002 .068
HEXA NOA T -.242 .094 .634 1.000 .822 .620 -.554 .249 -.186 .041 .183 .365 .004
OCT ANO AT -.039 -.201 .442 .822 1.000 .885 -.274 .059 -.079 .263 .443 .228 .043 .000
.000 .005 .013 .177 .246 .440
.000 .152 .414 .386 .163
DEC ANO AT -.103 -.307 .121 .620 .885 1.000 -.010 .083 .165 .506 .352 .123 .328 .005 .000
CIS3 HEX E .474 -.727 -.813 -.554 -.274 -.010 1.000 -.355 .857 .588 .032 .001 .000 .013 .152 .485
.485 .380 .270 .023
.089 .000 .008
HEXA NOCI -.658 .542 .098 .249 .059 .083 -.355 1.000 -.179 .003 .003 .015 .360 .177 .414 .380 .089 .254 .496
OCT ANOI C .359 -.758 -.678 -.186 -.079 .165 .857 -.179 1.000 .764 .086 .000 .002 .246 .386 .270 .000 .254
DEC ANOI C .023 -.629 -.389 .041 .263 .506 .588 .003 .764 1.000 .467 .005 .068 .440 .163 .023 .008 .496 .000
.000
que es la matriz de correlaciones y de las probabilidades asociadas al contraste H0 ≡ ρ = 0. Comunalidades METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC
Inicial 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Extracción .843 .938 .828 .863 .957 .872 .938 .815 .887 .857
Método de extracción: Análisis de Componentes principales.
que es la matriz de comunalidades con las varianzas iniciales de las variables (todas unitarias por utilizar la matriz de correlación) y las que se explican con las 3 componentes extraídas.
IV.
Prácticas de estadística multivariante
175
Varianza total explicada
Componente
Total
1 2 3 4 5 6 7 8 9 10
Sumas de las saturaciones al cuadrado de la extracción % de la Total % acumulado varianza
Autovalores iniciales % de la % acumulado varianza
4.323 2.914 1.560 .407 .383 .190 .113 .067 .034 .008
43.232 29.139 15.603 4.067 3.828 1.904 1.135 .673 .336 .083
43.232 72.370 87.974 92.041 95.869 97.773 98.907 99.581 99.917 100.000
4.323 2.914 1.560
43.232 29.139 15.603
43.232 72.370 87.974
Método de extracción: Análisis de Componentes principales.
que muestra el resumen del análisis con los autovalores de cada componente principal, y los porcentajes de la varianza total explicada por cada una de ellas. El número de componentes seleccionadas es 3, que tienen autovalores mayores que 1, y que explican un 87.974% de la varianza total de las 10 variables utilizadas; la primera componente explica un 43.22%, la segunda un 29.139% y la tercera un 15.60% de la varianza total. Gráfico de sedimentación 5
Autovalor
4
3
2
1
0 1
2
3
4
5
6
7
8
9
10
Número de componente
que es el gráfico de sedimentación con los autovalores (varianzas) de las 10 componentes principales. Sólo los tres primeros son mayores que 1.
176
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Matriz de componentesa Componente 2
1 CIS3HEXE OCTANOIC PROPANOL BUTANOAT DECANOIC DECANOAT OCTANOAT HEXANOAT HEXANOCI METANOL a
.957 .866 -.840 -.807 .596
3
.257 -.407
.265 .258 -.352 .418
.571 .931 .926 .759
-.260 -.526 -.475 .612
.766 -.684
Método de extracción: Análisis de componentes principales. 3 componentes extraídos.
que es la matriz de las componentes, o de las saturaciones (o “loadings”) de las variables en las tres componentes principales extraídas. Los valores representan las correlaciones de las variables originales y las 3 componentes principales seleccionadas, y están ordenados por tamaño. Los valores inferiores a 0.25 han sido eliminados para mayor claridad. Las variables cis3hexen, octanoic, propanol y butanoat están muy correlacionadas con la primera componente principal, las dos primeras positivamente y las otras dos negativamente. Las variables decanota, octanoat y hexanoat están más correlacionadas positivamente con la segunda componente principal… Gráfico de componentes
octanoat hexanoat
1,0
Componente 2
decanoat butanoat
0,5
decanoic octanoic
hexanoci 0,0
cis3hexe
metanol
propanol -0,5
-1,0 -1,0
-0,5
0,0
Compone
0,5
nte 1
1,0 1,0
0,5
-0,5
0,0
-1,0
te 3 onen
p
Com
que es el gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales.
IV.
Prácticas de estadística multivariante
177
El gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales puede modificarse para lograr la representación bidimensional en las 2 primeras componentes, utilizando el Editor de gráficos y la herramienta Edición, Propiedades, y en la ventana correspondiente de Variables: mover la Componente 3 del Eje Z: al cuadrado de Excluidos, y pulsar Aplicar y Cerrar.
Salir del Editor de gráficos con la herramienta Archivo, Cerrar. El nuevo gráfico de dispersión, para únicamente las 2 primeras componentes, sería el siguiente: Gráfico de componentes octanoat decanoat
1,0 hexanoat
decanoic
Componente 2
0,5 octanoic
butanoat hexanoci
metanol
0,0
cis3hexe propanol -0,5
-1,0 -1,0
-0,5
0,0
Componente 1
0,5
1,0
178
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En el Visor de datos se puede observar que se han creado 3 nuevas variables (fac1_1, fac2_1 y fac3_1) con los valores de las puntuaciones de las muestras en las tres nuevas variables (componentes principales) por haber seleccionado la opción de Guardar. El correspondiente gráfico de dispersión para las muestras de vino en el plano definido por las dos primeras componentes principales, se puede obtener con el procedimiento Gráficos, Dispersión/Puntos, Dispersión simple. Colocar la primera componente principal (variable fac1_1) en el cuadro del Eje X, y la segunda componente (fac2_1) en el cuadro del Eje Y, la variable variedad en el cuadro Establecer marcas por: y la variable muestra en el cuadro Etiquetar los casos mediante:;
IV.
Prácticas de estadística multivariante
179
En la ventana Opciones marcar Mostrar el gráfico con las etiquetas de caso, pulse Continuar, y Aceptar. El gráfico de dispersión que se obtiene es el siguiente: variedad
REGR factor score 2 for analysis 1
2,00
A M Mo T 1,00
0,00
-1,00
-2,00 -1,50
-1,00
-0,50
0,00
0,50
1,00
1,50
REGR factor score 1 for analysis 1
que puede modificarse con el Editor de gráficos, sin más que seleccionar un marcador con el ratón, y en la ventana correspondiente de Marcador: cambiar el Tipo, Tamaño, y Color del Borde, pulsar Aplicar y repetir la operación para cada marcador seleccionado; pulsar Cerrar. También podríamos seleccionar los títulos de los ejes y cambiar el texto (poner PC1 y PC2), y salir del editor con la herramienta Archivo, Cerrar;
180
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
El gráfico resultante podría ser el siguiente: variedad
2,00
A M Mo T
PC2
1,00
0,00
-1,00
-2,00 -1,50
-1,00
-0,50
0,00
0,50
1,00
1,50
PC1
En esta figura, teniendo en cuenta la primera componente (PC1), se observan dos grandes grupos de muestras, los vinos de las variedades blancas (Airén, Malvar) a la izquierda, y los vinos de las variedades tintas (Trepat, Monastrell) a la derecha, lo que indica, en virtud de la anterior matriz de componentes (correlación positiva de la PC1 con las variables cis3hexen y de octanoic, y negativa con las variables propanol y butanoat), que los vinos tintos tendrán mayores concentraciones de cis3hexen y de octanoic, y menores concentraciones de propanol y butanoat que los blancos. Por otra parte, teniendo en cuenta la segunda componente principal (PC2), los vinos de las variedades Airén y Trepat tendrán mayores concentraciones de decanoat y octanoat que los de las variedades Malvar y Monastrell. La información proporcionada por el análisis de componentes principales es de tipo exploratorio y ayuda a interpretar los datos. Desde un punto de vista estadístico se puede confirmar lo observado sin más que utilizar el procedimiento ANOVA de un factor (variedad) y el test de Student-Newman-Keuls para la comparación de las 4 medias. Los siguientes resultados confirman lo dicho:
IV.
Prácticas de estadística multivariante
181
CIS3HEXE
OCTANOIC Student-Newman-Keuls a,b,c
Student-Newman-Keuls a,b,c VARIEDAD
N
A M Mo T Significación
a b
c
Subconjunto 2 3
1 4 4 4 4
VARIEDAD M A Mo T Significación
.0000 .1600 .7600 .312
1.000
1.2600 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .046. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
a b
c
N 4 4 4 4
a b
c
Subconjunto 2
3
13.0025 18.1600 27.8625 .060
1.000
41.0850 1.000
VARIEDAD T Mo M A Significación
a b
c
Mo M T A Significación
a b
c
4 4 4 4
1 .2900 .3850
.459
Subconjunto 2 3 .3850 .6450 .058
.6450 .8500 .125
OCTANOAT Student-Newman-Keuls a,b,c
Subconjunto 1 2 4 4 4 4
N
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .031. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
DECANOAT Student-Newman-Keuls a,b,c N
10.6475 1.000
BUTANOAT
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 12.333. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
VARIEDAD
1.000
Student-Newman-Keuls a,b,c 1
4 4 4 4
5.8675 .929
PROPANOL
N
Subconjunto 2 3
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 1.984. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
Student-Newman-Keuls a,b,c VARIEDAD T Mo A M Significación
1 2.4900 2.5800
.6475 .7275
.825
1.6775 1.7075 .934
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .250. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
VARIEDAD Mo M T A Significación
a b
c
N
Subconjunto 2
1 4 4 4 4
3
1.3575 1.4975 3.2325 .826
1.000
4.7500 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .778. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
182
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados obtenidos con la versión 13.0 al aplicar el procedimiento Analizar, Reducción de datos, Análisis factorial, no difieren de los que se obtendrían con la versión 11.5. Únicamente existen pequeñas diferencias en la salida gráfica de los diagramas de dispersión y en las herramientas del Editor de gráficos. En la versión 11.5 del SPSS, para modificar el gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales, y lograr la correspondiente representación bidimensional en las 2 primeras componentes, hay que utilizar las herramientas: Galería, Dispersión (elegir Simple y Reemplazar, y en la ventana de datos visualizados en el diagrama de dispersión, elegir la Componente 1 para mostrar en el eje X y la Componente 2 para mostrar en el eje Y). IV.5. EJEMPLO DE APLICACIÓN DEL MODELO FACTORIAL DE COMPONENTES PRINCIPALES En la siguiente tabla se recogen las concentraciones, en mg/l, de algunos alcoholes: 1-hexanol (hexol), 3-etoxi-1-propanol (etxol), cis-3-hexen-1-ol (cisol), linalol (linol), bezilalcohol (benol), metanol(metano), 1-propanol(propan), isobutanol(isol), 2-metil-1-butanol(m1but2), 3-metil-1-butanol(m1but3), 2-feniletanol(fenol), y α-terpineol(terpi), analizados mediante cromatografía de gases, en 8 muestras de vinos obtenidas tras la fermentación de un mismo mosto, en presencia o ausencia de hollejos y de SO2 (Herraiz et al., 1990). muestra
hexol etxol cisol linol benol metano propan
isol
m1but2 m1but3
fenol
terpi
control
1.21
.48
.06
.02
.07
45.42 38.50 41.08 45.45 264.60 65.11
.25
control
1.32
.40
.07
.03
.08
28.57 38.70 42.78 45.96 262.60 62.18
.39
so2
.89
.34
.02
.01
.06
35.02 38.13 43.80 40.93 240.00 55.22
.13
so2
1.17
.37
.03
.02
.05
31.40 31.42 38.18 37.80 212.90 56.13
.13
holl
1.66
.52
.04
.02
.28
265.60 62.30 43.40 50.87 300.40 56.40
.06
holl
1.83
.85
.05
.02
.30
251.87 61.38 44.60 48.17 301.00 56.70
.10
hollso2
2.01 1.74
.07
.03
.44
248.40 55.80 40.53 50.83 281.50 60.21
.08
hollso2
1.96 1.39
.05
.02
.55
249.70 57.21 39.96 50.00 286.60 57.29
.13
Aplicar el análisis factorial (modelo de componentes principales) a los datos de composición química, en las 8 muestras de vinos (Martín-Álvarez, 2000). Obtener: 1. la tabla con las saturaciones de las variables (“loadings”), correspondientes a las componentes extraídas 2. la tabla con las puntuaciones de las observaciones (“scores”), en las componentes extraídas 3. los gráficos de dispersión de las saturaciones y de las puntuaciones, para las dos primeras componentes principales 4. Identificar e interpretar los resultados y guardarlos en un fichero de MS-WORD. 5. Aplicar también el análisis de conglomerados a los datos de composición química de las 8 muestras de vinos para tener una visión de la influencia de los factores hollejos y so2.
IV.
Prácticas de estadística multivariante
183
Resultados:
Ejecutar el programa SPSS y crear un fichero (alcoholes.sav) con las variables: 1) muestra, de tipo cadena, para etiquetar los 8 vinos; 2) hollejos, de tipo numérico, para indicar la presencia o no de hollejos frescos en el mosto (valor 1 para la presencia y 0 para la ausencia); 3) so2, de tipo numérico, para indicar la presencia o no de SO2 en el mosto (valor 1 para la presencia y 0 para la ausencia); y 4) las 12 variables: hexol, etxol, …, terpi para las concentraciones (mg/l) de los 12 alcoholes (1-hexanol, 3-etoxi-1propanol, …, α-terpineol), todas de tipo numérico. Introducir los correspondientes valores de la tabla de datos. Se tiene así:
Con el programa SPSS, hay que utilizar el procedimiento Analizar, Reducción de datos, análisis factorial, y en la ventana principal del procedimiento, colocar las 12 variables hexol, etxol, …, terpin, en el cuadro de Variables:
184
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En la ventana de Descriptivos…: en Estadísticos elija univariados y solución inicial; en Matriz de correlaciones elija Coeficientes y Nivel significación; pulse Continuar. En la ventana de Extracción…: en Método elija Componentes principales, en Analizar matriz de correlaciones, en Extraer autovalores > 1, y en Mostrar Solución factorial sin rotar y Gráfico de sedimentación; pulse Continuar. En la ventana de Rotación…: en Método elija Ninguno, y en Mostrar elija gráficos de saturaciones; pulse Continuar. En la ventana de Puntuaciones…: señalar Guardar como variables y Método de regresión, pulse Continuar. Por último, en la ventana de Opciones…: en Valores perdidos elija excluir casos según lista, y en Formato visualización de los coeficientes elija Ordenar por tamaño y suprimir valores absolutos menores que 0.25; pulse Continuar; y pulse Aceptar en ventana principal. Los resultados que se obtienen son los siguientes:
A. factorial Estadísticos descriptivos Media HEXOL ETXOL CISOL LINOL BENOL METANO PROPAN ISOL M1BUT2 M1BUT3 FENOL TERPIN
1.5063 .7613 .0488 .0213 .2288 144.4975 47.9300 41.7913 46.2513 268.7000 58.6550 .1588
Desviación típica
N del análisis
.41462 .52908 .01808 .00641 .19394 117.16281 12.41078 2.20328 4.78836 30.52816 3.49399 .10934
que es la tabla con los valores descriptivos de las 12 variables.
8 8 8 8 8 8 8 8 8 8 8 8
IV.
Prácticas de estadística multivariante
185
Matriz de correlacionesa
Correlación
a
HEX OL
ETXO L
CISO L
LINO L
BEN OL
META NO
PRO PAN
ISOL
M1B UT2
M1B UT3
FEN OL
TER PIN
HEXOL 1.000 ETXOL .854 CISOL .516 LINOL .502 BENOL .927 METANO .911 PROPAN .856 ISOL -.048 M1BUT2 .846 M1BUT3 .775 FENOL -.041 TERPIN -.409
.854 1.000 .484 .438 .894 .710 .606 -.259 .664 .498 .029 -.401
.516 .484 1.000 .879 .317 .209 .229 -.060 .594 .454 .774 .462
.502 .438 .879 1.000 .266 .185 .152 -.231 .447 .258 .543 .370
.927 .894 .317 .266 1.000 .888 .820 -.100 .788 .694 -.186 -.499
.911 .710 .209 .185 .888 1.000 .975 .175 .837 .842 -.297 -.657
.856 .606 .229 .152 .820 .975 1.000 .374 .877 .925 -.254 -.562
-.048 -.259 -.060 -.231 -.100 .175 .374 1.000 .275 .496 -.139 .022
.846 .664 .594 .447 .788 .837 .877 .275 1.000 .942 .181 -.213
.775 .498 .454 .258 .694 .842 .925 .496 .942 1.000 .070 -.253
-.041 .029 .774 .543 -.186 -.297 -.254 -.139 .181 .070 1.000 .684
-.409 -.401 .462 .370 -.499 -.657 -.562 .022 -.213 -.253 .684 1.000
Esta matriz no es definida positiva.
que es la matriz de correlaciones, no definida positiva, por tener más variables que muestras. Comunalidades Inicial HEXOL ETXOL CISOL LINOL BENOL METANO PROPAN ISOL M1BUT2 M1BUT3 FENOL TERPIN
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Extracción .973 .883 .989 .811 .936 .986 .992 .924 .956 .979 .841 .877
Método de extracción: Análisis de Componentes principales.
que es la matriz de comunalidades con las varianzas iniciales de las variables (todas 1 por la estandarización de las variables) y las que se explican con las componentes extraídas.
186
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción
Autovalores iniciales Componente 1 2 3 4 5 6 7 8 9 10 11 12
% de la varianza 54.116 25.509 13.262 3.061 1.985 1.612 .454 2.592E-15 9.771E-16 5.450E-16 -1.46E-15 -2.75E-15
Total 6.494 3.061 1.591 .367 .238 .193 .055 3.110E-16 1.172E-16 6.540E-17 -1.75E-16 -3.30E-16
% acumulado 54.116 79.625 92.887 95.949 97.933 99.546 100.000 100.000 100.000 100.000 100.000 100.000
Total 6.494 3.061 1.591
% de la varianza 54.116 25.509 13.262
% acumulado 54.116 79.625 92.887
Método de extracción: Análisis de Componentes principales.
que muestra el resumen del análisis con los autovalores de cada componente principal, y los porcentajes de la varianza total explicada por cada una de ellas. El número de componentes seleccionadas es 3, que tienen autovalores mayores que 1, y que explican un 92.887% de la varianza total de las 12 variables utilizadas; la primera componente explica un 54.116%, la segunda un 25.509% y la tercera un 13.262% de la varianza total. Gráfico de sedimentación
Autovalor
6
4
2
0
1
2
3
4
5
6
7
8
9
10
11
12
Número de componente
que es el gráfico de sedimentación con los autovalores de las 12 componentes principales. Sólo los tres primeros son mayores que 1.
IV.
Prácticas de estadística multivariante
187
Matriz de componentesa Componente 2
1 HEXOL METANO M1BUT2 PROPAN BENOL M1BUT3 ETXOL FENOL CISOL LINOL TERPIN ISOL
a
.969 .949 .934 .932 .921 .881 .820
3
-.292 -.272 -.269 .451 -.448 .908 .865 .783 .781
.488 .413 -.436
.277 .926
Método de extracción: Análisis de componentes principales. 3 componentes extraídos.
que es la matriz de las componentes, o de las saturaciones (o “loadings”) de las variables en las tres componentes principales extraídas. Los valores representan las correlaciones de las variables originales y las 3 componentes principales seleccionadas, y están ordenados por tamaño. Los valores inferiores a 0.25 han sido eliminados para mayor claridad. Las variables hexol, metano, m1but2, propan, benol, m1but3 y etxol están muy correlacionadas positivamente con la primera componente principal. Las variables fenol, cisol, linol y terpin están más correlacionadas positivamente con la segunda componente principal… Gráfico de componentes
fenol
1,0
linol
Componente 2
terpin
cisol
0,5 etxol
m1but2 m1but3
0,0
hexol benol isol
-0,5
metano
propan
-1,0 -1,0
-0,5
0,0
0,5
Compone
nte 1
0,5 1,0 1,0
0,0
-0,5 -1,0
ente mpon
3
Co
que es el gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales.
188
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
El gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales puede modificarse para lograr la representación bidimensional en las 2 primeras componentes, utilizando el Editor de gráficos y la herramienta Edición, Propiedades, y en la ventana correspondiente de Variables: mover la Componente 3 del Eje Z: al cuadrado de Excluidos:, y pulsar Aplicar y Cerrar. También se pueden añadir líneas de referencia para el valor 0 de los ejes, mediante la herramienta Opciones, Línea de referencia del eje X (ó Y), y en el cuadro Posición del eje: colocar el valor 0, pulsar Aplicar y Cerrar. Salir del Editor de gráficos. El nuevo gráfico de dispersión sería el siguiente: Gráfico de componentes 1,0
fenol
cisol
terpin
linol
Componente 2
0,5
etxol 0,0
m1but2
m1but3
isol
hexol
benol propan metano
-0,5
-1,0 -1,0
-0,5
0,0
0,5
1,0
Componente 1
En el Visor de datos se puede observar que se han creado 3 nuevas variables (fac1_1, fac2_1 y fac3_1) con los valores de las puntuaciones de las 8 muestras de vino en las tres nuevas variables (componentes principales) por haber seleccionado la opción de Guardar. El correspondiente gráfico de dispersión para las muestras de vino en el plano definido por las dos primeras componentes principales, se puede obtener con el procedimiento Gráficos, Dispersión/Puntos, Dispersión simple. Colocar la primera componente principal (variable fac1_1) en el cuadro del Eje X, la segunda componente (fac2_1) en el cuadro del Eje Y, y la variable muestra en el cuadro Etiquetar los casos mediante:; y en la ventana Opciones marcar Mostrar el gráfico con las etiquetas de caso, pulse Continuar, y Aceptar.
Prácticas de estadística multivariante
189
El gráfico de dispersión que se obtiene es el siguiente: 2,00000 control
REGR factor score 2 for analysis 1
IV.
control 1,00000 hollso2
0,00000
hollso2
so2 holl
-1,00000
holl
so2
-1,50000
-1,00000
-0,50000
0,00000
0,50000
1,00000
REGR factor score 1 for analysis 1
1,50000
190
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
que puede modificarse mediante el Editor de gráficos (con las herramientas de Opciones, líneas de referencia, cambio de títulos de los ejes, y 2 cifras decimales en Formato de numeración), para lograr:
2,00 control
control 1,00
PC2
hollso2
0,00
hollso2
so2 holl
-1,00
holl
so2
-1,50
-1,00
-0,50
0,00
0,50
1,00
1,50
PC1
A la vista de esta figura se pone de manifiesto que las muestras de vino obtenidas mediante la adición de hollejos al mosto (muestras “holl” y “hollso2”), tienen valores en la primera componente principal mayores que el resto de las muestras, lo que indica también mayores concentraciones en los alcoholes correlacionados positivamente con dicha componente principal, fundamentalmente: 1-hexanol, metanol, 2-metil-1-butanol,1-propanol, bencilalcohol y 3-metil-1-butanol, todos ellos con correlaciones > 0.88. Esta primera componente explica un 54.12% de la varianza total de los datos. La segunda componente principal, que explica un 25.51% del total de la varianza, diferencia entre las muestras control (“control“) y los vinos obtenidos en presencia de SO2 (“so2”). Las muestras control, tendrán concentraciones mayores que las muestras etiquetadas como “so2”, en los alcoholes 2-feniletanol, cis-3-hexen-1-ol, linalol y α-terpineol que tienen correlaciones > 0.78 con esta segunda componente. El factor hollejos tiene, por tanto, una gran influencia sobre las variables analizadas (alcoholes). El efecto del factor SO2 es más notable cuando la fermentación tiene lugar sin la adición de los hollejos. La información proporcionada por el análisis de componentes principales es de tipo exploratorio, pero ayuda a interpretar los datos de una forma rápida. Desde un punto de vista estadístico se puede confirmar lo observado sin más que utilizar el correspondiente ANOVA de dos factores (hollejos y so2) o el ANOVA de un factor (muestra) para una mejor interpretación en caso de que la interacción sea significativa. Los siguientes resultados confirman lo dicho anteriormente:
IV.
Prácticas de estadística multivariante
191
Estadísticos descriptivos MUESTRA control Desv. típ. Media
HEXOL ETXOL CISOL LINOL BENOL METANO PROPAN ISOL M1BUT2 M1BUT3 FENOL TERPIN
1.27 .44 .07 .03 .08 37.00 38.60 41.93 45.71 263.60 63.65 .32
holl Media
.08 .06 .01 .01 .01 11.91 .14 1.20 .36 1.41 2.07 .10
1.75 .69 .05 .02 .29 258.74 61.84 44.00 49.52 300.70 56.55 .08
Desv. típ.
.12 .23 .01 .00 .01 9.71 .65 .85 1.91 .42 .21 .03
hollso2 Desv. Media típ.
Media
1.99 1.57 .06 .03 .50 249.05 56.51 40.25 50.42 284.05 58.75 .11
1.03 .36 .03 .02 .06 33.21 34.78 40.99 39.36 226.45 55.68 .13
.04 .25 .01 .01 .08 .92 1.00 .40 .59 3.61 2.06 .04
so2 Desv. típ.
.20 .02 .01 .01 .01 2.56 4.74 3.97 2.21 19.16 .64 .00
Pruebas de los efectos inter-sujetos
Fuente MUESTRA
Variable dependien te HEXOL ETXOL CISOL LINOL BENOL METANO PROPAN ISOL M1BUT2 M1BUT3 FENOL TERPIN
Suma de cuadrados tipo III 1.142 1.840 .002 .000 .257 95846.254 1054.243 15.861 151.481 6141.390 76.441 .072
gl 3 3 3 3 3 3 3 3 3 3 3 3
Media cuadrática .381 .613 .001 4.583E-05 .086 31948.751 351.414 5.287 50.494 2047.130 25.480 .024
F 24.992 20.557 7.381 1.222 53.950 524.578 58.693 1.167 22.397 21.414 11.306 8.083
Significación .005 .007 .042 .410 .001 .000 .001 .426 .006 .006 .020 .036
que informa de que únicamente no existen diferencias significativas (P>0.05) para las variables linol e isol.
192
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Pruebas post hoc muestra Subconjuntos homogéneos METANO Student-Newman-Keults
PROPAN
a,b,c
Student-Newman-Keuls a,b,c Subconjunto
MUESTRA so2 control hollso2 holl Significación
a b
c
N 2 2 2 2
1 33.2100 36.9950
Subconjunto
2
MUESTRA so2 control hollso2 holl Significación
249.0500 258.7350 .282
.653
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 60.904. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
a b
c
N
1 34.7750 38.6000
2 2 2 2
.193
2
56.5050 61.8400 .095
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 5.987. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
valores medios mayores en los vinos elaborados con hollejos. BENOL Student-Newman-Keuls
HEXOL
a,b,c
Student-Newman-Keuls a,b,c
Subconjunto MUESTRA so2 control holl hollso2 Significación
a b
c
N 2 2 2 2
1 .0550 .0750
2
Subconjunto
3
.2900 .642
1.000
.4950 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .002. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
MUESTRA so2 control holl hollso2 Significación
a b
c
N 2 2 2 2
1 1.0300 1.2650
.130
2
1.7450 1.9850 .124
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .015. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
valores medios mayores en los vinos elaborados con hollejos.
IV.
Prácticas de estadística multivariante
193
M1BUT2
M1BUT3
Student-Newman-Keuls a,b,c
Student-Newman-Keuls a,b,c Subconjunto
Subconjunto MUESTRA so2 control holl hollso2 Significación
a b
c
N
1 39.3650
2 2 2 2
1.000
MUESTRA so2 control hollso2 holl Significación
2 45.7050 49.5200 50.4150 .073
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 2.254. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
a b
c
N
1 2 3 2 226.4500 2 263.6000 2 284.0500 284.0500 2 300.7000 1.000 .105 .164
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 95.598. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
valores medios inferiores en los vinos elaborados únicamente con SO2. ETXOL Student-Newman-Keuls a,b,c Subconjunto MUESTRA so2 control holl hollso2 Significación
N
1 .3550 .4400 .6850
2 2 2 2
.250
2
1.5650 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .030. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
a b
c
valores medios superiores en los vinos elaborados con hollejos y SO2. FENOL
TERPIN
Student-Newman-Keuls a,b,c
Student-Newman-Keuls a,b,c Subconjunto
Subconjunto MUESTRA so2 holl hollso2 control Significación
a b
c
N 2 2 2 2
1 55.6750 56.5500 58.7500 .216
2
63.6450 1.000
MUESTRA holl hollso2 so2 control Significación
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 2.254. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
valores medios superiores en los vinos control.
a b
c
N 2 2 2 2
1 .0800 .1050 .1300 .659
2
.3200 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .003. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
194
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
CISOL Student-Newman-Keuls a,b,c Subconjunto MUESTRA so2 holl hollso2 control Significación
a b
c
N
1 .0250 .0450
2 2 2 2
.099
2 .0450 .0600 .0650 .197
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 8.750E-05. Usa el tamaño muestral de la media armónica = 2.000 Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
valores medios diferentes en los vinos control y elaborados con hollejos y SO2 y los vinos elaborados únicamente con SO2. LINOL
ISOL
Student-Newman-Keuls a,b,c
Student-Newman-Keuls a,b,c Subconjunto
Subconjunto MUESTRA so2 holl control hollso2 Significación
a b
c
N
1 2 2 2 2
.0150 .0200 .0250 .0250 .455
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 3.750E-05. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
MUESTRA hollso2 so2 control holl Significación
a b
c
N 2 2 2 2
1 40.2450 40.9900 41.9300 44.0000 .403
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 4.530. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.
no existen diferencias significativas entre los 4 valores medios de estas dos variables. Para obtener el dendrograma de las muestras de vino habría que utilizar el procedimiento Analizar, Clasificar, Conglomerados jerárquicos, y colocar las 12 variables hexol, etxol, …, terpin en el cuadro de Variables, en Conglomerar elija casos, en Etiquetar casos mediante elija la variable alfabética muestra, y en Mostrar elija Estadísticos y gráficos.
IV.
Prácticas de estadística multivariante
195
En la ventana de Gráficos elija Dendrograma; en Témpanos elija Todos los conglomerados, y en Orientación elija Vertical. En la ventana de Método: en Método de conglomeración elija el Método de Ward; en Medida elija Intervalo y Distancia euclídea al cuadrado, en Transformar valores elija Estandarizar: Puntuaciones Z por variable; Continuar y Aceptar. Los resultados que se obtienen son los siguientes:
Conglomerados jerárquicos Vinculación de Ward Historial de conglomeración
Etapa 1 2 3 4 5 6 7
Conglomerado que se combina Conglom Conglom erado 1 erado 2 5 7 1 3 5 1 1
6 8 2 4 7 3 5
Coeficientes .825 3.564 6.469 12.112 21.505 40.929 84.000
Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 1 3 6
0 0 0 0 2 4 5
Próxima etapa 5 5 6 6 7 7 0
196
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Diagrama de témpanos vertical
X X X X X X X
X X X X X X
X X X X X X X
X X X
X X X X X X X
X X X X X X X
X X X X X X X
X
X X X X X X X
X X X X
X X X X X X X
X X
X X X X X X X
1:control
2:control
3:so2
4:so2
5:holl
6:holl
Número de conglomerados 1 2 3 4 5 6 7
7:hollso2
8:hollso2
Caso
X X X X X
X X X X X X X
Dendrograma
******HIERARCHICAL
CLUSTER
ANALYSIS*****
Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num holl holl hollso2 hollso2 control control so2 so2
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
5 6 7 8 1 2 3 4
--------------------------------------------------------------------------------------------------El dendrograma pone de manifiesto que la mayor diferencia entre las muestras de vino, se debe al factor hollejos, y también, aunque en menor manera, al factor so2. IV.6. EJEMPLO DE APLICACIÓN DEL ANÁLISIS FACTORIAL, DE CONGLOMERADOS Y DISCRIMINANTE En la siguiente tabla se muestran los datos de composición química (mg/l) de cinco alcoholes y del color (absorbancia a 420 nm), de 53 muestras de whisky de 4 marcas comerciales (Martín-Álvarez et al., 1988; Herranz et al., 1989; Martín-Álvarez, 2000):
IV.
Prácticas de estadística multivariante
Muestra
197
Marca
Metanol
Aceta.etilo
Propanol
2met1propa
3met1propa
Absorban
A1
1
12.80
32.50
58.10
60.70
87.90
.34
A2
1
11.60
30.70
57.20
58.30
83.70
.35
A3
1
12.20
29.30
53.70
60.60
80.00
.34
A4
1
10.40
28.80
52.30
56.30
79.20
.35
A5
1
10.90
29.50
53.90
61.80
79.30
.34
A6
1
11.60
30.90
53.90
61.60
81.40
.34
A7
1
10.00
27.60
50.20
50.90
73.20
.34
A8
1
12.00
31.10
57.40
61.10
83.20
.32
A9
1
12.00
28.75
56.00
60.00
85.00
.34
A10
1
12.20
29.90
57.70
63.80
86.20
.33
A11
1
10.95
29.60
50.70
61.40
80.00
.33
A12
1
11.00
29.25
55.00
58.50
94.25
.32
A13
1
11.00
28.50
56.50
58.00
82.50
.32
A14
1
12.10
29.20
57.00
64.70
87.80
.35
A15
1
10.20
31.20
57.40
61.10
83.20
.33
A16
1
11.10
30.50
54.50
65.10
80.10
.33
A17
1
12.10
31.30
55.70
60.90
84.60
.34
A18
1
12.04
31.90
55.10
55.90
83.50
.34
A19
1
11.40
30.60
53.70
53.90
86.00
.33
A20
1
12.10
31.30
54.40
56.00
83.70
.33
B1
2
6.10
25.30
24.40
54.20
97.10
.43
B2
2
5.50
23.90
24.40
46.50
101.30
.43
B3
2
5.30
22.10
23.90
43.10
93.90
.42
B4
2
5.30
22.30
26.70
45.60
97.50
.42
B5
2
5.40
22.60
30.70
52.10
104.30
.38
B6
2
5.10
23.30
28.20
53.40
98.90
.44
B7
2
5.00
23.30
28.90
55.10
94.90
.44
B8
2
5.20
27.30
29.70
55.80
93.80
.49
B9
2
5.20
28.10
30.80
52.40
84.50
.47
B10
2
5.30
25.60
28.70
55.90
82.60
.46
B11
2
5.40
23.20
29.80
55.90
85.20
.46
B12
2
5.80
24.40
33.90
55.60
103.40
.46
C1
3
5.30
24.20
22.10
29.30
85.20
.43
C2
3
6.20
29.00
21.00
38.10
82.00
.39
C3
3
5.20
36.50
18.50
37.90
79.40
.41
C4
3
5.80
31.60
21.10
42.20
89.00
.40
198
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
(Continuación) Muestra
Marca
Metanol
Aceta.etilo
Propanol
2met1propa
3met1propa
Absorban
C5
3
6.60
31.80
25.60
39.20
89.50
.40
C6
3
6.20
29.60
24.00
38.00
87.70
.40
C7
3
6.10
30.80
23.00
37.40
86.80
.41
C8
3
6.10
30.60
23.80
36.90
88.10
.41
C9
3
6.30
32.10
23.50
39.20
87.40
.41
C10
3
5.30
42.00
18.00
41.30
91.50
.39
C11
3
6.50
30.00
20.60
36.70
87.60
.38
C12
3
6.30
31.50
27.80
37.80
91.50
.42
C13
3
6.00
31.70
26.40
37.80
88.00
.40
C14
3
6.30
35.10
20.30
37.20
90.30
.40
C15
3
6.60
31.70
27.80
39.60
95.40
.41
D1
4
4.40
25.70
26.40
36.20
78.20
.27
D2
4
4.70
23.20
29.10
48.50
84.40
.25
D3
4
5.90
26.10
27.70
48.30
79.20
.29
D4
4
4.70
24.00
27.80
53.20
80.60
.26
D5
4
4.60
22.50
26.10
41.30
68.80
.29
D6
4
5.60
23.70
29.80
43.30
73.90
.27
1. Utilizando el programa SPSS, aplicar el análisis factorial (modelo de componentes principales), el análisis de conglomerados y el análisis lineal discriminante a los datos de composición y de color de las 53 muestras de whisky de las 4 marcas comerciales. 2. Identificar e interpretar los resultados. Resultados:
Ejecutar el programa SPSS y crear un fichero (whisky.sav) con las variables: 1) muestra, de tipo cadena, para etiquetar las 53 botellas de whisky; 2) marca, de tipo numérico para indicar la marca de procedencia de la botella; 3) las 6 variables: metanol, acetetil, propanol, met1but2, met1but3, y absorban, para las concentraciones (mg/l) de los 5 alcoholes y la absorbancia a 420nm, todas de tipo numérico. Introducir los correspondientes valores de la tabla de datos. Se tiene así:
IV.
Prácticas de estadística multivariante
199
Con el programa SPSS, hay que utilizar el procedimiento Analizar, Reducción de datos, Análisis factorial, y en la ventana principal del procedimiento, colocar las 6 variables: metanol, acetetil, propanol, met1but2, met1but3, y absorban, en el cuadro de Variables:
200
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En la ventana de Descriptivos…: en Estadísticos elija Univariados y Solución inicial; en Matriz de correlaciones elija Coeficientes y Nivel significación; pulse Continuar. En la ventana de Extracción…: en Método elija Componentes principales, en Analizar matriz de correlaciones, en Extraer autovalores > 1, y en Mostrar Solución factorial sin rotar y Gráfico de sedimentación; pulse Continuar. En la ventana de Rotación…: en Método elija Ninguno, y en Mostrar elija Gráficos de saturaciones; pulse Continuar. En la ventana de Puntuaciones…: señalar Guardar como variables y Método de regresión, pulse Continuar. Por último, en la ventana de Opciones…: en Valores perdidos elija excluir casos según lista, y en Formato visualización de los coeficientes elija Ordenar por tamaño y suprimir valores absolutos menores que 0.25; pulse Continuar; y pulse Aceptar en ventana principal. Los resultados que se obtienen son los siguientes: A. factorial
Estadísticos descriptivos Media METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN
7.8300 28.6264 36.8094 50.1057 86.5406 .3717
Desviación típica 2.94759 4.02518 14.68929 9.78060 7.39927 .05800
N del análisis 53 53 53 53 53 53
que es la tabla con los valores descriptivos (media y desviación típica) de las 6 variables utilizadas en el análisis. Matriz de correlaciones METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN 1.000 .373 .948 .712 -.281 -.433 .373 1.000 .169 -.063 -.130 -.023 .948 .169 1.000 .833 -.291 -.478 MET1BUT2 .712 -.063 .833 1.000 -.078 -.262 MET1BUT3 -.281 -.130 -.291 -.078 1.000 .609 ABSORBAN -.433 -.023 -.478 -.262 .609 1.000 Sig. (Unilateral) METANOL .003 .000 .000 .021 .001 ACETETIL .003 .113 .327 .177 .435 PROPANOL .000 .113 .000 .017 .000 MET1BUT2 .000 .327 .000 .290 .029 MET1BUT3 .021 .177 .017 .290 .000 ABSORBAN .001 .435 .000 .029 .000 Correlación
METANOL ACETETIL PROPANOL
que es la matriz de correlación, con las probabilidades asociadas al contraste de correlación nula.
IV.
Prácticas de estadística multivariante
201
Comunalidades Inicial METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN
Extracción
1.000 1.000 1.000 1.000 1.000 1.000
.947 .979 .974 .903 .840 .813
Método de extracción: Análisis de Componentes principales.
que es la matriz de comunalidades con las varianzas iniciales de las variables y las que se explican con las 3 componentes extraídas. Varianza total explicada
Componente 1 2 3 4 5 6
Autovalores iniciales % de la varianza Total % acumulado 3.118 51.960 51.960 1.267 21.116 73.076 1.072 17.875 90.951 .358 5.966 96.917 .165 2.743 99.660 .020 .340 100.000
Sumas de las saturaciones al cuadrado de la extracción % de la varianza Total % acumulado 3.118 51.960 51.960 1.267 21.116 73.076 1.072 17.875 90.951
Método de extracción: Análisis de Componentes principales.
que muestra el resumen del análisis con los autovalores de cada componente principal, y los porcentajes de la varianza total explicada por cada una de ellas. El número de componentes seleccionadas es 3, que tienen autovalores mayores que 1, y que explican un 90.95% de la varianza total de las 6 variables utilizadas; la primera componente explica un 51.96%, la segunda un 21.12% y la tercera un 17.87% de la varianza total. Gráfico de sedimentación
Autovalor
3
2
1
0 1
2
3
4
5
6
Número de componente
que es el gráfico de sedimentación con los autovalores de las 6 componentes principales.
202
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Matriz de componentesa 1 1
PROPANOL PROPANOL METANOL METANOL MET1BUT2 MET1BUT2 ABSORBAN ABSORBAN MET1BUT3 MET1BUT3 ACETETIL ACETETIL a
.958 .958 .933 .933 .781 .781 -.646 -.646 -.486 -.486 .254
Componente Componente 2 2
3 3
.481 .481 .575 .575 .774 .774
.255 .255 .948
Método de extracción: Análisis de componentes principales. 3 componentes extraídos.
que es la matriz de las componentes, o de las saturaciones de las variables en las tres componentes principales extraídas. Los valores representan las correlaciones de las variables originales y las 3 componentes principales seleccionadas, y están ordenados por tamaño. Los valores inferiores a 0.25 han sido eliminados para mayor claridad. Las variables propanol y metanol están muy correlacionadas con la primera componente principal (“loadings” > 0.9), mientras que la segunda componente principal no queda bien definida, únicamente la variable met1but3 muestra una correlación de 0.77. La variable acetetil contribuye a la definición de la tercera componente principal (“loading” > 0.9). Las variables met1but2, absorban y met1but3, no muestran una clara contribución a una única componente. Convendría realizar la rotación de los 3 factores (componentes principales) para ver si mejora la definición de los mismas, maximizando la contribución de cada variable en un único factor. Gráfico de componentes
absorban
1,0
acetetil met1but3
Componente 2
0,5
metanol
met1but2 0,0
propanol -0,5
-1,0 -1,0
-0,5
Compone
0,0
nte 1
0,5
1,0 1,0
0,5
0,0
-0,5
-1,0
nte 3
pone
Com
que es el gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales.
IV.
Prácticas de estadística multivariante
203
Para proceder a realizar la mencionada rotación, se puede elegir en la ventana de Rotación el Método Varimax, que busca la rotación que maximiza la contribución de cada variable en un único factor,
Los resultados que se obtienen, además de las tablas con los valores descriptivos, correlaciones, y comunalidades y el gráfico de sedimentación, iguales a los anteriores, son los siguientes: Varianza total explicada
Comp onente 1 2 3 4 5 6
Autovalores iniciales % % de la acumula Total varianza do 3.12 1.27 1.07 .36 .16 .02
51.96 21.12 17.87 5.97 2.74 .34
51.96 73.08 90.95 96.92 99.66 100.00
Sumas de las saturaciones al cuadrado de la extracción % % de la acumula Total varianza do 3.12 1.27 1.07
51.96 21.12 17.87
51.96 73.08 90.95
Suma de las saturaciones al cuadrado de la rotación % % de la acumula Total varianza do 2.64 1.68 1.14
43.96 27.96 19.03
43.96 71.92 90.95
Método de extracción: Análisis de Componentes principales.
que muestra el resumen del análisis con los autovalores de cada componente principal, los porcentajes de la varianza total explicada por cada una de las tres componentes seleccionados en la solución inicial sin rotar, iguales a los mostrados anteriormente, y los nuevos porcentajes de la varianza total explicada por los 3 factores rotados con el método ”varimax”. Los tres factores rotados siguen explicando un 90.95% de la varianza total de las 6 variables utilizadas; pero ahora el primero (primera componente) explica un 43.96% (menos que en la solución inicial que era un 51.96%), el segundo explica un 27.96% (antes era un 21.12%) y el tercero explica un 19.03% de la varianza total (antes un 17.87%).
204
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Matriz de componentesa Componente 2
1 PROPANOL METANOL MET1BUT2 ABSORBAN MET1BUT3 ACETETIL a
Matriz de componentes rotadosa 3
.958 .933 .781 -.646 -.486 .254
.481 .575 .774
Componente 2
1
.255 .948
Método de extracción: Análisis de componentes principales. 3 componentes extraídos
PROPANOL MET1BUT2 METANOL MET1BUT3 ABSORBAN ACETETIL
a
.945 .936 .881 -.293
3
-.263 .337 .909 .851 .986
Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. La rotación ha convergido en 4 iteraciones.
que son las matrices de las componentes con las saturaciones (“loadings”) de las variables en la solución inicial y en la correspondiente a la rotación con el método “varimax”. Los valores representan las correlaciones de las variables originales y los 3 factores (componentes principales) de la solución inicial y rotada, y están ordenados por tamaño. Los valores inferiores a 0,25 han sido eliminados para mayor claridad. En la nueva matriz de componentes rotados se observa que todas las variables contribuyen de una manera más clara en la definición de un único factor. Ahora, tras la rotación, las variables propanol, met1but2 y metanol están muy correlacionadas con la primera componente principal (“loadings” > 0.88), mientras que las variables met1but3 y absorban están mas correlacionadas con la segunda componente principal rotada (“loadings” > 0.85). La variable acetetil contribuye a la definición de la tercera componente principal rotada (“loading” > 0.98). Matriz de transformación de las componentes Componente 1 2 3
1
2
3
.861 .500 -.092
-.475 .856 .202
.180 -.130 .975
Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.
que representa la matriz de transformación para pasar de la matriz inicial de componentes a la rotada.
IV.
Prácticas de estadística multivariante
205
Gráfico de componentes en espacio rotado
absorban
1,0
Componente 2
met1but3 0,5 acetetil
0,0
met1but2
metanol
-0,5
propanol
-1,0 -1,0
-0,5
0,0
Compone
0,5
nte 1
1,0 1,0
0,5
0,0
-0,5
-1,0
te 3 onen
p
Com
que es el gráfico de dispersión tridimensional con los valores de las saturaciones (“loadings”) de las 6 variables en las 3 primeras componentes principales rotadas. El gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales rotadas puede modificarse para lograr la representación bidimensional en las 2 primeras componentes rotadas, utilizando el Editor de gráficos, la herramienta Edición, Propiedades, y en la ventana correspondiente de Variables: mover la Componente 3 del Eje Z: al cuadrado de Excluidos:, y pulsar Aplicar y Cerrar. También se pueden añadir líneas de referencia para el valor 0 de los ejes, mediante la herramienta Opciones, Línea de referencia del eje X (ó Y), y en el cuadro Posición del eje: colocar el valor 0, pulsar Aplicar y Cerrar. Salir del Editor de gráficos. El nuevo gráfico de dispersión sería el siguiente: Gráfico de componentes en espacio rotado 1,0
absorban met1but3
Componente 2
0,5
acetetil
met1but2
0,0
metanol
propanol
-0,5
-1,0 -1,0
-0,5
0,0
Componente 2
0,5
1,0
206
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En el Visor de datos se puede observar que se han creado 3 nuevas variables (fac1_2, fac2_2 y fac3_2) con los valores de las puntuaciones de las 53 muestras de whisky en las tres nuevas variables (componentes principales rotadas) por haber seleccionado la opción de Guardar. El correspondiente gráfico de dispersión para las 53 muestras de whisky en el plano definido por las dos primeras componentes principales rotadas, que explican un 71.92% de la varianza total, se puede obtener con el procedimiento Gráficos, Dispersión/Puntos, Dispersión Simple. Colocar la primera componente principal rotada (variable fac1_2) en el cuadro del Eje X, y la segunda componente rotada (fac2_2) en el cuadro del Eje Y, la variable marca en Establecer marcas por:, y la variable muestra en el cuadro Etiquetar los casos mediante:; en la ventana Opciones marcar Mostrar el gráfico con las etiquetas de caso, pulse Continuar, y Aceptar.
IV.
Prácticas de estadística multivariante
207
El gráfico de dispersión que se obtiene es el siguiente: marca 1 2 3 4
REGR factor score 2 for analysis 3
4,00000
B12 B2 B8
2,00000 C15
C10 C1 C14
C9
0,00000 C11
C3
-2,00000
B10
C13
D6
D5
B3 B4
C5
D3 D1
B6 B7
A12
B11
A17 A19 A2
A1
A20 D2
A14
A13 A11 A16
A7
D4
-4,00000 -2,00000
-1,00000
0,00000
1,00000
2,00000
REGR factor score 1 for analysis 3
que puede modificarse con el Editor de gráficos (seleccionar un marcador, y en la ventana correspondiente cambiar el Tipo, Tamaño, y Color del Borde; seleccionar cada eje de coordenadas y cambiar el n.º de decimales, la escala y los títulos), para lograr: marca 1 2 3 4
4,00
B12 2,00
B2 B6
B8
C15 B3 B4 B7 C8 C13 C1 C14 B9 B11 B10 C9 C11 C3 D3 D2
PCR2
C10
0,00
D1 -2,00
D5
D6
A12 A17
A19
A4
A20
A1 A14 A6 A9 A10
A16
A7
D4
-4,00 -2,00
-1,00
0,00
1,00
2,00
PCR1
A la vista de esta figura se pone de manifiesto que se produce una diferenciación de las 53 botellas de whisky según su marca de procedencia. Las muestras de la marca A tienen valores en la primera componente principal mayores que el resto de las muestras, lo que indica también mayores concentraciones en los alcoholes correlacionados positi-
208
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
vamente con dicha componente principal rotada, propanol, met1but2 y metanol todos ellos con correlaciones > 0.88. La segunda componente diferencia, fundamentalmente, las muestras de la marca D y las de la B. Desde un punto de vista estadístico se puede confirmar lo observado sin más que utilizar el correspondiente ANOVA de un factor (marca). Los siguientes resultados confirman lo dicho anteriormente: Factores inter-sujetos N MARCA
1 2 3 4
20 12 15 6
Pruebas de los efectos inter-sujetos
Fuente MARCA
Suma de cuadrados tipo III
Variable dependiente METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN
Media cuadrática
gl
434.911 547.310 10880.236 4206.277 1552.330 .161
3 3 3 3 3 3
F
144.970 182.437 3626.745 1402.092 517.443 .054
Significaci ón
420.785 30.283 522.571 89.450 19.585 183.420
.000 .000 .000 .000 .000 .000
Pruebas post hoc marca Subconjuntos homogéneos METANOL
MET1BUT2
Student-Newman-Keulsa,b MARCA 4 2 3 1 Significación
a b
N
Student-Newman-Keuls Subconjunto 2
1 6 12 15 20
3
4.9833 5.3833 6.0533 .118
1.000
11.4845 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .345. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.
MARCA 3 4 2 1 Significación
a b
N
a,b
1 15 6 12 20
Subconjunto 2 3
4
37.9067 45.1333 52.1333 1.000
1.000
1.000
59.5300 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 15.675. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.
IV.
Prácticas de estadística multivariante
209
PROPANOL Student-Newman-Keulsa,b MARCA
N
3 4 2 1 Significación
a b
Subconjunto 2
1 15 6 12 20
3
22.9000 27.8167 28.3417 1.000
.644
55.0200 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 6.940. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.
MET1BUT3
ABSORBAN
Student-Newman-Keulsa,b MARCA 4 1 3 2 Significación
a b
N 6 20 15 12
1 77.5167
Student-Newman-Keulsa,b Subconjunto 2 3
4
MARCA 4 1 3 2 Significación
83.2375 87.9600 1.000
1.000
94.7833 1.000 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 26.421. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.
a b
N 6 20 15 12
1 .2717
Subconjunto 2 3
4
.3355 .4040 1.000
1.000
1.000
.4417 1.000
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .000. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.
ACETETIL Student-Newman-Keulsa,b MARCA 4 2 1 3 Significación
a b
Subconjunto 1 2
N 6 12 20 15
24.2000 24.2833
.937
30.1200 31.8800 .100
Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 6.024. Usa el tamaño muestral de la media armónica= 10.909. Alfa = .05.
Para obtener el dendrograma de las 53 muestras de whisky habría que utilizar el procedimiento Analizar, Clasificar, Conglomerados jerárquicos, colocar las 6 variables metanol, acetetil, propanol, met1but2, met1but3, y absorban en el cuadro de Variables, elegir: Conglomerar casos, la variable alfabética muestra en Etiquetar casos mediante: y Estadísticos y gráficos en Mostrar.
210
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En la ventana de Gráficos elegir Dendrograma; en Témpanos elegir Todos los conglomerados, y en Orientación elegir Vertical. En la ventana de Método: en Método de conglomeración elegir el Método de Ward; en Medida elegir Intervalo y Distancia euclídea al cuadrado, en Transformar valores elegir Estandarizar: Puntuaciones Z por variable; Continuar y Aceptar. Los resultados que se obtienen son los siguientes:
IV.
Prácticas de estadística multivariante
211
Conglomerados jerárquicos - Vinculación de Ward Historial de conglomeración Etapa en la que el conglomerado aparece por primera vez
Conglomerado que se combina
Etapa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
Conglomer ado 1
Conglomer ado 2
39
40
18
20
Conglomer ado 1
Conglomer ado 2
.019
0
0
6
.047
0
0
11 10
Coeficientes
Próxima etapa
5
11
.092
0
0
37
45
.145
0
0
5
37
41
.215
4
0
15
38
39
.292
0
1
18
8
17
.378
0
0
21
10
14
.482
0
0
26
6
16
.596
0
0
17
3
5
.743
0
3
17
2
18
.895
0
2
19
26
27
1.058
0
0
23
23
24
1.228
0
0
29
44
47
1.406
0
0
33
36
37
1.591
0
5
25
9
13
1.789
0
0
30
3
6
1.990
10
9
27
38
43
2.200
6
0
25
2
19
2.420
11
0
28
30
31
2.663
0
0
31
8
15
2.934
7
0
28
49
51
3.220
0
0
32
21
26
3.542
0
12
35
52
53
3.994
0
0
36
36
38
4.457
15
18
34
1
10
4.947
0
8
37
3
4
5.463
17
0
40
2
8
5.999
19
21
30
22
23
6.558
0
13
39
2
9
7.199
28
16
40
29
30
7.881
0
20
49
49
50
8.671
22
0
44
44
46
9.532
14
0
41
34
36
10.404
0
25
41
21
32
11.287
23
0
38
48
52
12.461
0
24
44
1
12
13.636
26
0
46
21
28
15.043
35
0
45
22
25
16.584
29
0
45
2
3
18.269
30
27
43
34
44
19.980
34
33
47
35
42
22.372
0
0
48
2
7
25.261
40
0
46
48
49
28.477
36
32
51
21
22
31.717
38
39
49
1
2
35.346
37
43
52
33
34
39.511
0
41
48
33
35
47.996
47
42
50
21
29
57.666
45
31
50
21
33
105.257
49
48
51
21
48
160.100
50
44
52
1
21
312.000
46
51
0
X X X X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
24 25 26
27 28
29 30
41 42 43
44 45
46 47
52
50 51
48 49
39 40
37 38
35 36
33 34
31 32
22 23
20 21
18 19
16 17
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X X X X
X X X X X X X X X X X X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X X X X X
X X X X X X
X X X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X X X X X X X X X X X X X X
X X
14 15
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X
7 8
5 6
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X X X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X X X X X
X X X X X X
X X X X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X
X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
12 13
50:D3
X X X X X X
51:D4
X X X X X X X X X X
49:D2
9 10 11
53:D6
X X X X X X
52:D5
X X X X X X X X X X X X X X X X X X X X X X
48:D1
X X X X X X
35:C3
X X X X X X X X X X X X X X X X X X X X X X
42:C10
X X X X X X X X X X X X X X X X X X X X X X X X X X
46:C14
X X X X X X X X X X X X X X X X X X X X X X
47:C15
X X X X X X X X X X X X X X X X X X X X X X X X X X
44:C12
X X X X X X X X X X X X X
40:C8
X X X X X X X X X X X X X X X X X X X X X X X
43:C11
X X X X X X X X X X X X
3 4
1 2
Número de conglomerados 36:C4
37:C5
45:C13
41:C9
38:C6
39:C7
X X X X
X X X X X X
X X
X X X X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X X X X X
X X
X X
X X
X X
X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X
X X
X X X
X X
X X
X X
X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X
24:B4
25:B5
29:B9
31:B11
34:C2
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X X X X
X X X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X X X X X
X X X X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X
33:C1
Caso 30:B10
Diagrama de témpanos vertical 26:B6
27:B7
32:B12
28:B8
22:B2
23:B3
X X
X X
X X X
X X
X X
X X X
X X X X
X X X X
X X X X
X X X X
X X X X X X
X X X X
X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X
X X X X X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X X
X X
X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X
11:A11
16:A16 6:A6
4:A4
21:B1 7:A7
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X X X
X X X X
X X X X
X X X X
X X X X
X X X X
X X X X
X X X X X X
X X X X
X X X X
X X X X
X X X X
X X X X
X X X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X X
X X
X X
X X
X X
X X
X X
X X
X X X
X X
X X
X X
X X X
X X
X X
X X X
X X X X X
X X X X X X
X X X X X X
X X X X X X
X X
X X X X
X X X X X X
X X X X
X X X X
X X X X
X X X X
X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X
3:A3
5:A5
X X
X X
X X X
X X
X X
X X
X X X
X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X X X X X
X X X X
212 Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
IV.
Prácticas de estadística multivariante
213
Dendrograma * * * * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * * * *
Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ C7 39 C8
40
C6
38
C11
43
C5
37
C13
45
C9
41
C4
36
C2
34
C12
44
C15
47
C14
46
C1
33
C3
35
C10
42
B10
30
B11
31
B9
29
B6
26
B7
27
B1
21
B12
32
B8
28
B3
23
B4
24
B2
22
B5
25
D2
49
D4
51
D3
50
D5
52
D6
53
D1
48
A10
10
A14
14
A1 A12 A6 A16 A5 A11
1 12 6 16 5 11
A3
3
A4
4
A9
9
A13
13
A18
18
A20
20
A2 A19 A8
2 19 8
A17
17
A15
15
A7
7
-------------------------------------------------------------------------------
214
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
El dendrograma pone de manifiesto el agrupamiento de las muestras de whisky de acuerdo con su marca, lo que indica que las 6 variables son capaces de diferenciar las muestras de estas marcas. Para aplicar el análisis lineal discriminante (Martín-Álvarez, 2000) a las 53 muestras de whisky de las 4 marcas diferentes (A, B, C y D), hay que utilizar el procedimiento Analizar, Clasificar, Discriminante, del programa SPSS, y colocar las 6 variables metanol, acetetil, propanol, met1but2, met1but3, y absorban en el cuadro Independientes:, la variable marca con valores de 1 a 4 (1 para la marcar A, 2 para B, 3 para C y 4 para la D), en el cuadro Variable de agrupación, y seleccionar Introducir independientes juntas, es decir:
IV.
Prácticas de estadística multivariante
215
En la ventana de Estadísticos, en Descriptivos elegimos Medias y ANOVAs univariados; en Coeficientes de la función elegimos de Fisher y no tipificados (que serán las funciones de clasificación), Continuar. En la ventana de Clasificar, en Probabilidades previas elegimos Calcular según tamaño de los grupos; en Usar matriz de covarianzas elegimos Intra-grupos; en Gráficos elegimos Grupos combinados; en Mostrar elegimos resultados para cada caso, Tabla resumen y Clasificación dejando uno fuera; Continuar. En la ventana de Guardar, elegimos Grupo de pertenencia pronosticado, Puntuaciones discriminantes y Probabilidades de pertenencia al grupo, Continuar, y Aceptar.
216
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados que se obtienen son los siguientes: Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos
Casos Totales
Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos
N
Porcentaje 53
100.0
0
.0
0
.0
0
.0
0 53
.0 100.0
IV.
Prácticas de estadística multivariante
217
Estadísticos de grupo
MARCA 1
2
3
4
Total
METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN
Media 11.4845 30.1200 55.0200 59.5300 83.2375 .3355 5.3833 24.2833 28.3417 52.1333 94.7833 .4417 6.0533 31.8800 22.9000 37.9067 87.9600 .4040 4.9833 24.2000 27.8167 45.1333 77.5167 .2717 7.8300 28.6264 36.8094 50.1057 86.5406 .3717
Desv. típ. .76224 1.26983 2.25052 3.59548 4.31023 .00945 .30401 1.93618 3.02158 4.51872 7.29107 .02887 .45961 3.90315 3.08058 2.84767 3.85112 .01242 .61128 1.41704 1.45247 6.07113 5.46348 .01602 2.94759 4.02518 14.68929 9.78060 7.39927 .05800
N válido (según lista) No Ponderados ponderados 20 20.000 20 20.000 20 20.000 20 20.000 20 20.000 20 20.000 12 12.000 12 12.000 12 12.000 12 12.000 12 12.000 12 12.000 15 15.000 15 15.000 15 15.000 15 15.000 15 15.000 15 15.000 6 6.000 6 6.000 6 6.000 6 6.000 6 6.000 6 6.000 53 53.000 53 53.000 53 53.000 53 53.000 53 53.000 53 53.000
218
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Pruebas de igualdad de las medias de los grupos Lambda de Wilks METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN
.037 .350 .030 .154 .455 .082
F
gl1
420.785 30.283 522.571 89.450 19.585 183.420
gl2 3 3 3 3 3 3
Sig. 49 49 49 49 49 49
.000 .000 .000 .000 .000 .000
En estos primeros resultados se muestra: 1. el resumen de los casos utilizados, 2. los estadísticos descriptivos para las variables en los 4 grupos y para el total de las 53 muestras, y 3. el contraste de igualdad de las medias en los grupos, ANOVA de un factor (valores del estadístico F-Snedecor, grados de libertad y probabilidad asociada). Los valores de las probabilidades asociadas ponen de manifiesto que los valores medios de las 6 variables, son diferentes en las cuatro marcas. Las variables propanol, metanol y absorban son las que tienen mayores valores del estadístico FSnedecor, y por tanto, mayor poder de discriminación para los cuatro grupos. Análisis 1 Resumen de las funciones canónicas discriminantes Autovalores Función 1 2 3 a
Autovalor
% de varianza
% acumulado
85.0 9.4 5.6
85.0 94.4 100.0
88.195a 9.772a 5.806a
Correlación canónica .994 .952 .924
Se han empleado las 3 primeras funciones discriminantes canónicas en el análisis.
Lambda de Wilks Contraste de las funciones 1 a la 3 2 a la 3 3
Lambda de Wilks .000 .014 .147
Chi-cuadrado 412.921 201.853 90.135
gl 18 10 4
Sig. .000 .000 .000
IV.
Prácticas de estadística multivariante
219
Coeficientes estandarizados de las funciones discriminantes canónicas 1 METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN
-.436 -.253 -.891 .156 .843 .824
Función 2 .444 -.018 .074 .029 .414 .848
3 .427 .752 -.174 -.838 -.092 .021
Matriz de estructura 1 ABSORBAN METANOL PROPANOL MET1BUT3 MET1BUT2 ACETETIL
.273 -.498 -.563 .086 -.180 -.045
Función 2 .688* .617* .568* .227* .294 .117
3 .021 .168 -.392 -.091 -.554* .515*
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas. Variables ordenadas por el tamaño de la correlación con la función. * Mayor correlación absoluta entre cada variable y cualquier función discriminante.
Coeficientes de las funciones canónicas discriminantes 1 METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN (Constante)
-.743 -.103 -.338 .039 .164 48.255 -12.882
Coeficientes no tipificados.
Función 2 .756 -.007 .028 .007 .081 49.603 -32.530
3 .727 .306 -.066 -.212 -.018 1.217 -.335
220
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Funciones en los centroides de los grupos MARCA 1 2 3 4
1 -10.946 9.937 7.001 -.890
Función 2 1.274 2.093 -.133 -8.099
3 -.069 -3.039 3.219 -1.739
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos
Este apartado de resultados, Análisis 1, Resumen de las funciones canónicas discriminantes, incluye 6 tablas que corresponden a los resultados del análisis canónico de variables y que son: 1. Tabla con los autovalores y porcentajes de la varianza explicados por cada variable canónica, 2. Tabla con los valores de la Λ de Wilks, y su aproximación mediante la Chi-cuadrado, para ver si existen diferencias entre los 4 vectores de medias de las 3 variables canónicas generadas, y que supone aceptar que dichos vectores son diferentes en los cuatro grupos. 3. Tabla con los coeficientes estandarizados de las variables canónicas. 4. Tabla de la matriz de estructura con las correlaciones entre las variables originales y las canónicas. La primera variable canónica esta correlacionada con la variable propanol (– 0.565), mientras que la segunda variable canónica está mas correlacionada con las variables absorban (0.691) y metanol (0.617). 5. Tabla con los coeficientes, no tipificados, para la definición de las variables canónicas. Así, la primera variable canónica queda definida por: Y1 = – 12.882 – 0.743*Metanol – 0.103*Acetetil – 0.338*Propanol + 0.039*Met1but2 + 0.164*met1but3 + 48.255*Absorban. 6. Tabla con las coordenadas de los centroides de los 4 grupos en las variables canónicas (valores de – 10.946, 9.937, 7.001 y – 0.890 para la primera variable canónica en los centros de los grupos 1, 2, 3 y 4, respectivamente. Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos
Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados
53 0 0 53
IV.
Prácticas de estadística multivariante
221
Probabilidades previas para los grupos
MARCA 1 2 3 4 Total
Previas
Casos utilizados en el análisis No ponderados Ponderados
.377 .226 .283 .113 1.000
20 12 15 6 53
20.000 12.000 15.000 6.000 53.000
Coeficientes de la función de clasificación MARCA METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN (Constante)
1
2
3
4
15.361 2.940 1.436 .890 4.495 1612.625 -657.068
-1.693 -.127 -5.409 2.347 8.039 2657.403 -947.724
3.353 2.108 -4.892 .891 7.267 2412.923 -812.874
-.407 1.461 -2.121 1.570 5.419 1630.971 -456.352
Funciones discriminantes lineales de Fisher.
Este apartado de resultados, Estadísticos de clasificación, incluye 3 tablas que corresponden a los resultados de la clasificación de las muestras, y que son: 1. Resumen del proceso de clasificación. 2. Probabilidades a priori para los grupos. 3. Coeficientes de las funciones de clasificación (de Fisher), una para cada grupo, en función de las variables originales, así la función de clasificación para el grupo 2, sería: d2 = – 947.625 – 1.693*metanol – 0.127*acetetil – 5.409*propanol + 2.347* met1but2 + 8.039* met1but3 + 2657.403*absorban.
222
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Funciones discriminantes canónicas 5,0
marca 1 2 3 4
2
2,5 1 3
Función 2
0,0
Centroide de grupo -2,5
-5,0
-7,5
4
-10,0 -15
-10
-5
0
5
10
15
Función 1
Esta figura es la representación gráfica de las 53 muestras en el plano definido por las dos primeras variables canónicas que explicaban un 94.4% de la variación total. Se pone de manifiesto la separación de los 4 grupos, y una mayor proximidad de los grupos 2 y 3. Teniendo en cuenta la matriz de estructura, se puede decir que las muestras del grupo 1 tendrán valores más altos en propanol y las del grupo 4 tendrán los valores más bajos de absorbancia y metanol. Observar que en la gráfica proporcionada por el procedimiento del SPSS se han modificado los marcadores. Resultados de la clasificaciónb,c
Original
Recuento
%
Validación cruzadaa Recuento
%
a b c
MARCA 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Grupo de pertenencia pronosticado 2 3 4 20 0 0 0 0 12 0 0 0 0 15 0 0 0 0 6 100.0 .0 .0 .0 .0 100.0 .0 .0 .0 .0 100.0 .0 .0 .0 .0 100.0 20 0 0 0 0 12 0 0 0 0 15 0 0 0 0 6 100.0 .0 .0 .0 .0 100.0 .0 .0 .0 .0 100.0 .0 .0 .0 .0 100.0 1
Total 20 12 15 6 100.0 100.0 100.0 100.0 20 12 15 6 100.0 100.0 100.0 100.0
La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. Clasificados correctamente el 100.0% de los casos agrupados originales. Clasificados correctamente el 100.0% de los casos agrupados validados mediante validación cruzada.
IV.
Prácticas de estadística multivariante
223
Esta es la tabla resumen de los resultados de la asignación de las 53 muestras a los grupos (matriz de clasificación) teniendo en cuenta las anteriores funciones de clasificación, que da lugar a un 100% de clasificación correcta de las muestras. También se incluyen los resultados de la asignación mediante el procedimiento de validación cruzada, que calcula las funciones de clasificación sin tener en cuenta la muestra que se quiere clasificar. También con este método, todas las muestras son correctamente asignadas a sus grupos de procedencia. En el Visor de datos se han creado las siguientes variables: 1. dis_1, con el grupo de pertenencia pronosticado, o grupo con una mayor probabilidad posterior (a posteriori), basándose en las puntuaciones discriminantes, o el grupo al cual pertenece el caso, según pronostica el modelo. 2. dis1_1, dis2_1, dis3_1, con las puntuaciones de las muestras en las 3 nuevas variables discriminantes obtenidas, que se obtienen mediante la multiplicación de los coeficientes discriminantes no tipificados por los valores de las variables independientes, sumando todos los productos y añadiendo el valor de la constante. Se guarda una puntuación por cada función discriminante obtenida (número de grupos menos 1). La puntuación media combinando todos los casos es 0 y la varianza intra-grupos combinada es 1, es decir las 3 nuevas variables discriminantes (variables canónicas) tienen media 0 y varianza 1. 3. is1_2, dis2_2, dis3_2, dis4_2, con las probabilidades a posterior de pertenencia a cada uno de los 4 grupos. La primera variable contiene la probabilidad a posterior de pertenencia al primer grupo, la segunda variable contiene la probabilidad de pertenencia al segundo grupo, y así sucesivamente. Si quisiéramos aplicar las funciones lineales discriminantes para comprobar la autenticidad del contenido de otras botellas de la marca A, abiertas y sospechosas de haber podido ser manipuladas, que consideramos forman parte del grupo test, tendríamos que incluir su composición en la tabla de datos, utilizando un código distinto de los anteriores (1 - 4), por ejemplo Marca = 5, y repetir los anteriores pasos del comando Analizar, Clasificar, Discriminante (rango valores de marca = 1 a 4). El grupo de pertenencia pronosticado para estas nuevas muestras del grupo test, se puede ver en las variables creada por el comando guardar, así como los valores de las probabilidades a posterior de pertenencia a cada grupo. En la tabla resumen de la asignación de las muestras (matriz de clasificación), se incluiría una nueva línea, etiquetada como “casos desagrupados”, con el resultado de la asignación de estas nuevas botellas de la marca A. Esta información permitiría comprobar la autenticidad, o no, del contenido de esas botellas de la marca A sospechosas de haber podido ser manipuladas (Martín-Álvarez et al., 1988). Las botellas que fueran asignadas al grupo de la marca A, el correspondiente a su etiqueta, tendrían el contenido propio de su marca (autenticidad), mientras que las botellas que fueran asignadas a uno de los otros grupos, pondrían de manifiesto la no autenticidad de su contenido (su contenido habría sido reemplazado por el correspondiente a las otras marcas B, C o D, de menor precio).
224
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Aceptando que los nuevos valores para 24 botellas abiertas son:
Los resultados de aplicar el procedimiento Analizar, Clasificar, Discriminante (rango valores de marca = 1 a 4). serían los mismos que antes, salvo los siguientes: Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales
N 53
Porcentaje 68.8
24
31.2
0
.0
0
.0
24 77
31.2 100.0
que informa de haber utilizado en el análisis discriminante las 53 muestras del grupo estándar.
IV.
Prácticas de estadística multivariante
225
Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos
77
Código de grupo perdido
0
o fuera de rango Perdida al menos una variable discriminante
0
Usados en los resultados
77
que informa de la existencia de un total de 77 casos en el proceso de clasificación.
20
marca 1 2 3 4
Variable canónica 2
15
Casos no agrupados Centroide de grupo
10
5 2
1 3
0
-5 4
-10 -15
-10
-5
0
5
10
15
Variable canónica 1
que es la representación gráfica de todas las muestras, incluyendo las muestras del grupo test (casos no agrupados), en el plano definido por las dos primeras variables canónicas. Observar que en la gráfica proporcionada por el procedimiento del SPSS se han modificado tanto los marcadores como los títulos de los ejes.
226
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Resultados de la clasificaciónb,c Grupo de pertenencia pronosticado MARCA
Original
Recuento 1 2 3 4 Casos desagrupados % 1 2 3 4 Casos desagrupados Validación cruzadaa Recuento 1 2 3 4 % 1 2 3 4 a b c
1
2
3
4
0 0 0 19 100.0 .0 .0 .0 79.2 20 0 0 0 100.0 .0 .0
0 12 0 0 3 .0 100.0 .0 .0 12.5 0 12 0 0 .0 100.0 .0
0 0 15 0 1 .0 .0 100.0 .0 4.2 0 0 15 0 .0 .0 100.0
0 0 0 6 1 .0 .0 .0 100.0 4.2 0 0 0 6 .0 .0 .0
20 12 15 6 24 100.0 100.0 100.0 100.0 100.0 20 12 15 6 100.0 100.0 100.0
.0
.0
.0
100.0
100.0
20
Total
La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. Clasificados correctamente el 100.0% de los casos agrupados originales. Clasificados correctamente el 100.0% de los casos agrupados validados mediante validación cruzada.
que incluye los resultados de la asignación de las 24 muestras del grupo test (datos desagrupados, marca = 5). De las 24 muestras, 19 son asignadas al grupo 1, 3 al grupo 2, 1 al grupo 3 y 1 al grupo 4. Un 79.2% de las muestras procedentes de botellas abiertas de la marca A, tienen un contenido de acuerdo con su marca, mientras que las otras 5, un 20.8%, son sospechosas de tener alterado su contenido. En el Visor de datos, se puede saber la asignación de estas muestras, observando el valor adjudicado a la variable con el grupo de pertenencia pronosticado (dis_2), y a las 4 variables con las probabilidades a posterior de pertenencia a cada uno de los 4 grupos (dis1_3, dis2_3, dis3_3, dis4_3).
IV.
Prácticas de estadística multivariante
227
Las muestras 54 a 71 y la 77 se asignan al grupo 1 (marca A), con una probabilidad prácticamente de 1. Las muestras 72, 73 y 75 se asignan al grupo 2 (marca B) también con probabilidades prácticamente unitarias. La muestra 76 se asigna al grupo 3 con probabilidad 0.9993 y la muestra 74 se asigna al grupo 4 con probabilidad 1.
228
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
IV.7. EJEMPLO DE APLICACIÓN DEL ANÁLISIS LINEAL DISCRIMINANTE POR PASOS SUCESIVOS Utilizando el programa SPSS, aplicar el análisis lineal discriminante por pasos sucesivos (Martín-Álvarez, 2000) a los datos de las 6 anteriores variables (metanol, acetetil, propanol, met1but2, met1but3, y absorban) en las 53 muestras de whisky de las 4 marcas comerciales, con vistas a ver si es posible la diferenciación con un número menor de variables. Resultados:
Para aplicar el análisis lineal discriminante por pasos sucesivos a las 53 muestras de whisky de las 4 marcas diferentes (A, B, C y D), hay que utilizar el procedimiento Analizar, Clasificar, Discriminante, del programa SPSS, colocar las 6 variables metanol, acetetil, propanol, met1but2, met1but3, y absorban en el cuadro Independientes:, colocar la variable marca con valores de 1 a 4 (1 para la marcar A, 2 para B, 3 para C y 4 para la D) en el cuadro Variable de agrupación, y seleccionar Usar método de inclusión por pasos, es decir:
IV.
Prácticas de estadística multivariante
229
En la ventana Método… elegir Usar valor de F en Criterios, y valores de 4.0 para Entrada y 3.9 para Salida, es decir:
En las demás ventanas, proceder igual que en la práctica anterior, es decir: • En la ventana de Estadísticos, en Descriptivos elegimos Medias y ANOVAs univariados; en Coeficientes de la función elegimos de Fisher y No tipificados (que serán las funciones de clasificación); Continuar. • En la ventana de Clasificar, en Probabilidades previas elegimos calcular Según tamaño de los grupos; en Usar matriz de covarianzas elegimos Intra-grupos; en Gráficos elegimos Grupos combinados; en Mostrar elegimos Resultados para cada caso, Tabla resumen y Clasificación dejando uno fuera, Continuar. • En la ventana de Guardar, elegimos Grupo de pertenencia pronosticado, Puntuaciones discriminantes y Probabilidades de pertenencia al grupo, pulsar Continuar y Aceptar. Los resultados obtenidos serían los mismos que antes, salvo los siguientes:
230
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Análisis 1 Estadísticos por pasos Variables introducidas/eliminadasa,b,c,d Lambda de Wilks
F exacta
Paso
Introducidas
Estadístico
1 2 3 4 5 6
PROPANOL ABSORBAN METANOL MET1BUT3 MET1BUT2 ACETETIL
.030 .003 .001 .000 .000 .000
a b c d
gl1
1 2 3 4 5 6
gl2
3 3 3 3 3 3
gl3
Estadístico
49.00 522.6 49.00 272.3 49.00 49.00 49.00 49.00
gl1
3 6
gl2
49.00 96.00
F aproximada
Sig.
Estadístico
gl1
gl2
209.6 180.2 154.0 148.1
9 12 15 18
114.5 122.0 124.6 124.9
En cada paso se introduce la variable que minimiza la lambda de Wilks global. El número máximo de pasos es 12. La F parcial mínima para entrar es 4. La F parcial máxima para eliminar es 3.9. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.
Variables en el análisis Paso 1 2 3
4
5
6
PROPANOL PROPANOL ABSORBAN PROPANOL ABSORBAN METANOL PROPANOL ABSORBAN METANOL MET1BUT3 PROPANOL ABSORBAN METANOL MET1BUT3 MET1BUT2 PROPANOL ABSORBAN METANOL MET1BUT3 MET1BUT2 ACETETIL
Tolerancia 1.000 .958 .958 .793 .950 .827 .698 .695 .787 .625 .647 .694 .776 .625 .853 .592 .672 .774 .614 .727 .808
Sig.
.000 .000
F para eliminar 522.571 408.868 141.484 46.545 139.041 35.263 53.596 126.352 36.837 18.442 16.648 117.852 24.661 16.915 8.603 13.725 117.775 9.935 16.641 12.148 11.544
Lambda de Wilks .082 .030 .004 .009 .003 .002 .004 .001 .001 .001 .002 .001 .001 .000 .000 .001 .000 .000 .000 .000
.000 .000 .000 .000
IV.
Prácticas de estadística multivariante
231
Variables no incluidas en el análisis Paso 0
1
2
3
4 5
METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL MET1BUT2 MET1BUT3 ACETETIL MET1BUT2 MET1BUT3 ACETETIL MET1BUT2 ACETETIL
Tolerancia 1.000 1.000 1.000 1.000 1.000 1.000 .834 .993 .866 .905 .958 .827 .978 .866 .657 .963 .853 .625 .948 .853 .808
Tolerancia mín. 1.000 1.000 1.000 1.000 1.000 1.000 .834 .993 .866 .905 .958 .793 .943 .838 .657 .776 .729 .625 .616 .625 .592
F para introducir 420.785 30.283 522.571 89.450 19.585 183.420 35.843 28.664 20.518 19.581 141.484 35.263 28.564 17.269 17.305 8.363 9.645 18.442 8.071 8.603 11.544
Lambda de Wilks .037 .350 .030 .154 .455 .082 .009 .011 .013 .014 .003 .001 .001 .001 .001 .001 .001 .000 .000 .000 .000
que muestra información de las variables seleccionadas / eliminadas en cada paso del análisis, junto con los valores de la Λ de Wilks, y su aproximación mediante la Chi-cuadrado, para ver si existen diferencias entre los 4 vectores de medias de las variables seleccionadas en cada paso. En el primer paso la variable seleccionada es propanol con un valor del estadístico F-Snedecor de 522.571 (paso 0), que era el mayor valor de la tabla del contraste de igualdad de las medias en los grupos (ANOVA de un factor). En el segundo paso la variable seleccionada es la absorban, con el mayor valor de la F para entrar (141.484) una vez seleccionada la variable propanol. En tercer lugar se selecciona el metanol que tiene el mayor valor de la F para entrar (35.263) una vez seleccionadas las variables propanol y absorban. En cuarto lugar se selecciona la variable met1but3, luego met1but2 y finalmente la variable acetetil. Los valores de la F para eliminar variables ya seleccionadas, en cada paso, son todos superiores al valor 3.9 fijado, y por tanto, ninguna variable es eliminada. Al final todas las 6 variables son incluidas, y el resto de los resultados coinciden con los anteriormente reseñados. En este ejemplo la tabla con las pruebas de igualdad de las medias de los grupos (ANOVAs univariados), pone de manifiesto que los valores medios de las 6 variables, son diferentes en las cuatro marcas comerciales, y por tanto son consideradas como candidatas para la selección. En otros casos se pueden considerar como candidatas únicamente las variables que tomen valores diferentes en los grupos. Una vez más, indicar que los resultados que proporciona la versión 13.0 para el análisis lineal discriminante, con el procedimiento Analizar, Clasificar, Discriminante, no difieren de los que se obtendrían con la versión 11.5; únicamente existen pequeñas dife-
232
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
rencias en la salida gráfica de las puntuaciones discriminantes de las muestras, así como en las herramientas del correspondiente Editor de gráficos. IV.8. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE A partir de los siguientes datos, y utilizando el programa SPSS, aplicar el análisis de regresión lineal múltiple para modelar los valores de la variable Y a partir de las variables X1, X2, y X3. X1
X2
X3
Y
1.10
1.10
1.10
21.18
2.50
1.10
1.10
23.22
1.10
2.50
1.10
26.67
2.50
2.50
1.10
28.68
1.10
1.10
2.50
25.64
2.50
1.10
2.50
30.84
1.10
2.50
2.50
32.22
2.50
2.50
2.50
33.23
1.80
1.80
1.80
29.11
1.80
1.80
1.80
29.40
Resultados:
Ejecutar el programa SPSS, seleccionar Introducir datos, y pulse Aceptar. En el Visor de variables definir las 4 variables numéricas: x1, x2, x3 e y, y en el Visor de Datos introducir los correspondientes valores.
IV.
Prácticas de estadística multivariante
233
Guardar los datos en un fichero con nombre regrmult.sav (Archivo, Guardar como). Para aplicar la regresión lineal múltiple de la variable y en función de las variables: x1, x2 y x3 hay que utilizar el procedimiento Análisis, Regresión, Lineal.
y en la ventana del procedimiento colocar la variable y en el cuadro Dependiente:, y las variables x1, x2 y x3 en el cuadro de Independientes:.
234
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En la ventana de Estadísticos elegir: en Coeficientes de regresión: Estimaciones, Intervalos de confianza, Ajuste del modelo y Descriptivos; y en Residuos: Diagnósticos por casos: Todos los casos; Continuar. En la ventana de Gráficos elegir gráfico de dispersión con los valores de la variable y (DEPENDNT) como eje X, y los valores de los residuos estandarizados (*ZRESID) como eje Y; y en Gráficos residuos tipificados elegir Gráfico de probabilidad normal; Continuar. En la ventana de Guardar elegir para los Valores pronosticados los No tipificados (yˆ ) y los Corregidos al calcular el modelo sin tener en cuenta la i-ésima observación (yˆ (i) ); en Residuos elegir los No tipificados ( yi – yˆ i ) y los Eliminados (yi – yˆ (i) ); en Distancias elegir la de Cook; y en Intervalos de pronóstico para la Media, Intervalo de confianza al 95%; Continuar. En la ventana de Opciones elegir Incluir constante en la ecuación y en Valores perdidos excluir Casos según lista; Continuar y Aceptar.
IV.
Prácticas de estadística multivariante
235
236
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados obtenidos son los siguientes:
Regresión Estadísticos descriptivos Media
Desviación típ.
28.0190 1.8000 1.8000 1.8000
Y X1 X2 X3
N
3.85252 .65997 .65997 .65997
10 10 10 10
con los valores descriptivos de las 4 variables (valor medio, desviación típica y número de observaciones) Correlaciones Y Correlación de Pearson
Sig. (unilateral)
N
Y X1 X2 X3 Y X1 X2 X3 Y X1 X2 X3
X1
1.000 .314 .609 .679 . .189 .031 .016 10 10 10 10
X2
.314 1.000 .000 .000 .189 . .500 .500 10 10 10 10
.609 .000 1.000 .000 .031 .500 . .500 10 10 10 10
X3 .679 .000 .000 1.000 .016 .500 .500 . 10 10 10 10
la matriz de correlación con el resultado de los contrastes Ho ≡ ρij = 0: que pone de manifiesto que la correlación entre la variable Y y las variables x2 y x3 es significativamente diferente de 0 (p < 0.05) Variables introducidas/eliminadasb Modelo 1 a b
Variables introducidas X3, X2, X1a
Variables eliminadas .
Método Introducir
Todas las variables solicitadas introducidas. Variable dependiente: Y.
que indica las variables introducidas (X1, X2, X3) para definir el modelo de regresión.
IV.
Prácticas de estadística multivariante
237
Resumen del modelob Modelo 1 a b
R .964a
R cuadrado corregida .895
R cuadrado .930
Error típ. de la estimación 1.24658
Variables predictoras: (Constante), X3, X2, X1. Variable dependiente: Y.
el resumen del ajuste de los datos al modelo, con los valores de R2 (0.930), que supone aceptar que un 93% de la variación de los valores de la variable y quedan explicados por el modelo, el coeficiente de correlación múltiple R (0.964), el R2ajus(0.895) y la desviación estándar residual o error típico de la estimación (s = √∑ei2 /(n – 4) = 1.2466), que es la estimación de σ. ANOVAb Suma de cuadrados
Modelo 1
a b
Regresión Residual Total
Media cuadrática
gl
124.253 9.324 133.577
3 6 9
F
41.418 1.554
Sig.
26.653
.001a
Variables predictoras: (Constante), X3, X2, X1. Variable dependiente: Y.
la tabla del Análisis de la Varianza para el modelo ajustado que incluye: la probabilidad para el contraste H0 ≡ β1 = β2 = β3 = 0 (Sig. = P = 0.001) que pone de manifiesto que se debe rechazar la hipótesis nula y aceptar que al menos uno de los coeficientes es distinto de 0, es decir los valores de la variable y no corresponden a un valor constante (Yi ≠ β0 + εi ). Coeficientes
Coeficientes no estandarizados Modelo 1
a
B (Constante) X1 X2 X3
11.189 1.832 3.557 3.961
Error típ. 2.002 .630 .630 .630
a
Coeficien tes estandari zados Beta .314 .609 .679
Intervalo de confianza para B al 95% t 5.588 2.910 5.650 6.291
Sig. .001 .027 .001 .001
Límite inferior 6.290 .292 2.017 2.420
Límite superior 16.088 3.373 5.098 5.501
Variable dependiente: Y.
la información sobre los valores de los coeficientes de regresión: con los valores de los coeficientes b0 = 11.189, b1 = 1.832, b2 = 3.557, b3 = 3.961, sus desviaciones estándar sb0 = 2.002, sb1 = .63, sb2 = .63, sb3 = .63, los valores del estadístico tcal (t) para el contraste de hipótesis H0 ≡ βi = 0, así como los valores de la probabilidad asociada (Sig.), y los intervalos de confianza para los parámetros del modelo teórico (βi). En este ejemplo, todos los 4 coeficientes deben ser considerados significativamente diferentes de cero
238
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
(P < 0.05). El modelo estimado es, por tanto, Yˆ = 11.189 + 1.832X1 + 3.557X2 + 3.961X3. La tabla anterior también incluye los valores de los coeficientes de regresión para el caso de variables predictoras estandarizadas (coeficientes estandarizados Beta), que informan de la mayor o menor contribución de cada una de las variables predictoras en la variable respuesta (la que más influye sería la X3). Diagnósticos por casoa Número de caso 1 2 3 4 5 6 7 8 9 10 a
Residuo tip. -.236 -.657 .173 -.272 -1.106 1.008 .177 -1.070 .875 1.108
Y 21.18 23.22 26.67 28.68 25.64 30.84 32.22 33.23 29.11 29.40
Valor pronosticado 21.4740 24.0390 26.4540 29.0190 27.0190 29.5840 31.9990 34.5640 28.0190 28.0190
Residuo bruto -.2940 -.8190 .2160 -.3390 -1.3790 1.2560 .2210 -1.3340 1.0910 1.3810
Variable dependiente: Y.
que son los diagnósticos por casos: con los valores observados yi de la variable Y, los calculados con el modelo (valor pronosticado: yˆ i = 11.189 + 1.832 · x1 + 3.557 · x2 + 3.961 · x3), las diferencias o residuos ei = yi – yˆ i (Residual), y los residuos tipificados (ei /s). Estadísticos sobre los residuosa
Valor pronosticado Valor pronosticado tip. Error típico del valor pronosticado Valor pronosticado corregido Residuo bruto Residuo tip. Residuo estud. Residuo eliminado Residuo eliminado estud. Dist. de Mahalanobis Distancia de Cook Valor de influencia centrado a
Desviación típ.
Mínimo
Máximo
Media
21.4740 -1.761
34.5640 1.761
28.0190 .000
3.71563 1.000
N 10 10
.39420
.85915
.76616
.19604
10
21.7400
35.7710
28.2152
3.78599
10
-1.3790 -1.106 -1.527 -2.6267 -1.782 .000 .013
1.3810 1.108 1.391 2.3924 1.542 3.375 .527
.0000 .000 -.065 -.1962 -.090 2.700 .179
1.01783 .816 1.044 1.70062 1.142 1.423 .219
10 10 10 10 10 10 10
.000
.375
.300
.158
10
Variable dependiente: Y.
los estadísticos: de los valores pronosticados, de los residuos (brutos, tipificados y eliminados y de las distancias, para facilitar la búsqueda de posible datos anómalos.
IV.
Prácticas de estadística multivariante
239
Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: y 1,0
Prob acum esperada
0,8
0,6
0,4
0,2
0,0 0,0
0,2
0,4
0,6
0,8
1,0
Prob acum observada
que es el gráfico de normalidad de los residuos tipificados, y Gráfico de dispersión Variable dependiente: y
Regresión Residuo tipificado
1,0
0,5
0,0
-0,5
-1,0
20,00
22,00
24,00
26,00
28,00
30,00
32,00
34,00
y
que es el gráfico de dispersión de los residuos tipificados en función de los valores observados de la variable Y
240
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En el Visor de Datos se han creado las siguientes variables, como consecuencia de la elección correspondiente en la ventana Guardar: pre_1, res_1, dre_1, adj_1, coo_1, lmci_1,
valor calculado con el modelo estimado, valor del residuo, valor del residuo eliminado, valor pronosticado (corregido) en validación, valor de la distancia de Cook, valor inferior del intervalo de confianza al 95% para la respuesta media pronosticada umci_1, valor superior del intervalo de confianza al 95% para la respuesta media pronosticada
Para obtener el gráfico de dispersión con los valores observados de la variable Y, y los calculados mediante el modelo estimado, se puede utilizar el procedimiento: Gráficos, Dispersión/Puntos, Dispersión Simple; y en Definir elija para el Eje Y la variable pre_1, y para el Eje X la variable y. De esta forma se obtiene el siguiente diagrama de dispersión:
Unstandardized Predicted Value
35,00000
32,50000
30,00000
27,50000
25,00000
22,50000
20,00000 20,00
22,00
24,00
26,00
y
28,00
30,00
32,00
34,00
IV.
Prácticas de estadística multivariante
241
Este gráfico se puede editar, mediante el Editor de Gráficos, para modificar los títulos de los ejes, incluir la línea de ajuste (herramienta Elementos, Línea de ajuste total), añadir un cuadro de texto (Opciones, Cuadro de texto) con el modelo estimado y los estadísticos del ajuste (Y = 11.189 + 1.832X1 + 3.557X2 + 3.961X3, R = 0.964 y s = 1.246), modificar tamaño y color de los símbolos, …, hasta lograr el siguiente gráfico, que representa de una manera resumida el ajuste realizado: 35,00000
Y = 11.189+1.833*X1+3.557*X2+3.961*X3 R=0.964 s = 1.246
32,50000
Y - Calculada
30,00000
27,50000
25,00000
22,50000
20,00000 20,00
22,00
24,00
26,00
28,00
30,00
32,00
34,00
Y - observada
IV.9. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE POR PASOS SUCESIVOS A partir de los siguientes datos, y utilizando el programa SPSS, aplicar el análisis de regresión lineal múltiple por pasos sucesivos, para modelar la variable Y con las variables X1 y X2 según el modelo polinómico de segundo grado: Y = b0 + b1X1 + b2X2 + b11X 21 + b12X1X2 + b22X 22 (Martín-Álvarez, 2000): X1
10
10
10
20
20
20
30
30
30
X2
1
5
10
1
5
10
1
5
10
Y
77.56
279.93
530.80
190.05
941.65
1690.13
X1
10
10
10
20
20
20
30
30
30
X2
1
5
10
1
5
10
1
5
10
Y
80.12
280.62
527.61
184.52
940.82
1688.06
590.81 1090.25 339.36
591.59 1092.81 342.13
Resultados:
Ejecutar el programa SPSS, seleccionar Introducir datos, y pulsar Aceptar. En el Visor de variables definir las 3 variables numéricas: x1 (= X1), x2 (= X2) e y (= Y), y en el
242
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Visor de Datos introducir los correspondientes valores de dichas variables. Guardar los datos en un fichero con nombre regrmultpasos.sav.
Para aplicar el análisis de regresión lineal múltiple, por el procedimiento de pasos sucesivos, para ajustar los datos de la variable y al modelo polinómico de segundo grado definido por la ecuación y = b0 + b1x1 + b2x2 + b11x21 + b12x1x2 + b22x22, es preciso crear las tres nuevas variables predictoras del modelo x11 = X 21, x22 = X 22, y x12 = X1 · X2, utilizando el procedimiento Transformar, Calcular, de la barra de menús, y colocar en el cuadro de Variable de destino, el nombre de la nueva variable, por ejemplo x11, y en el cuadro Expresión numérica la correspondiente expresión, utilizando los operadores y funciones necesarias, por ejemplo x1*x1 para la variable x11, y pulse Aceptar, es decir:
IV.
Prácticas de estadística multivariante
243
Una vez creadas las 3 nuevas variables (x11 = X 21, x22 = X 22, y x12 = X1 · X2), se utilizaría el procedimiento Análisis, Regresión, Lineal, de la barra de menús, colocando como variables independientes las variables x1, x2, x11, x12, x22, y como variable dependiente la variable y, y eligiendo Pasos suc. en el cuadro de Método.
244
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
En la ventana de Estadísticos elegir: en Coeficientes de regresión: Estimaciones, Intervalos de confianza, Ajuste del modelo y Descriptivos; en Residuos: Diagnósticos por casos: todos los casos, Continuar. En la ventana de Gráficos elegir gráfico de dispersión con los valores de y (DEPENDNT) como eje X, y los valores de los residuos estandarizados (*ZRESID) como eje Y, Continuar.
En la ventana de Guardar elegimos para los Valores pronosticados los No tipificados y los Corregidos; en Residuos elegimos los No tipificados (yi – yˆi ) y los Eliminados (yi – yˆ (i) ); y en Intervalos de pronóstico: Media e Intervalo de confianza al 95%, Continuar. En la ventana de Opciones elegir: Usar valor de F, para la Entrada 4.0 y para la Salida 3.99, en Criterios del método por pasos:, Incluir constante en la ecuación y Excluir casos según lista en Valores perdidos, pulse Continuar y Aceptar.
IV.
Prácticas de estadística multivariante
245
246
Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows
Los resultados obtenidos son los siguientes:
Regresión
Estadísticos descriptivos Desviación típ.
Media Y X1 X2 X11 X22 X12
636.6020 20.0000 5.3333 466.6667 42.0000 106.6667
502.76916 8.40168 3.78853 339.54988 43.38880 93.30532
N 18 18 18 18 18 18
que son los estadísticos descriptivos para las variables que intervienen en el análisis. Correlaciones Correlación de Pearson
Sig. (unilateral)
N
Y X1 X2 X11 X22 X12 Y X1 X2 X11 X22 X12 Y X1 X2 X11 X22 X12
Y 1.000 .580 .754 .577 .735 .993 . .006 .000 .006 .000 .000 18 18 18 18 18 18
X1 .580 1.000 .000 .990 .000 .480 .006 . .500 .000 .500 .022 18 18 18 18 18 18
X2 .754 .000 1.000 .000 .975 .812 .000 .500 . .500 .000 .000 18 18 18 18 18 18
X11 .577 .990 .000 1.000 .000 .475 .006 .000 .500 . .500 .023 18 18 18 18 18 18
X22 .735 .000 .975 .000 1.000 .792 .000 .500 .000 .500 . .000 18 18 18 18 18 18
X12 .993 .480 .812 .475 .792 1.000 .000 .022 .000 .023 .000 . 18 18 18 18 18 18
que es la matriz de correlaciones con los coeficientes de correlación entre todas las variables.
IV.
Prácticas de estadística multivariante
247
Variables introducidas/eliminadasa Modelo
Variables introducidas
Variables eliminadas
Método
1
X12
.
Por pasos (criterio: F para entrar >= 4.000, F para salir = 4.000, F para salir