Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows : aplicaciones en al área de ciencia y tecnología de alimentos: ... al área de ciencia y tecnología de alimentos 8400084705, 9788400084707

El principal objetivo de este libro ha sido familiarizar a sus lectores con el manejo de las distintas herramientas esta

128 16 4MB

Spanish Pages 260 Year 2006

Table of contents :
BIBLIOTECA DE CIENCIAS, 27
PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS, Pedro J. Martín-Álvarez
Créditos
Dedicatoria
ÍNDICE
PRÓLOGO
I. SESIÓN BÁSICA
II. PRÁCTICAS DE ESTADÍSTICA UNIVARIANTE
II.1. VALORES DESCRIPTIVOS Y PRUEBA DE NORMALIDAD
II.2. CONTRASTE PARA UNA MEDIA
II.3.1. EJEMPLO DE CONTRASTE PARA DOS MEDIAS EN CASO DE GRUPOS INDEPENDIENTES
II.3.2. EJEMPLO DE CONTRASTE PARA DOS MEDIAS EN CASO DE GRUPOS RELACIONADOS
II.4.1. EJEMPLO DE CONTRASTE PARA MÁS DE DOS MEDIAS. ANOVA DE UNA VÍA
II.4.2. EJEMPLO DE CONTRASTE PARA MÁS DE DOS MEDIAS. ANOVA DE DOS VÍAS
II.4.3. OTRO EJEMPLO DE ANOVA DE DOS VÍAS
II.4.4. EJEMPLO DE ANOVA DE DOS VÍAS SIN EL TÉRMINO DE LA INTERACCIÓN
II.4.5. OTRO EJEMPLO DE ANOVA DE DOS VÍAS SIN EL TÉRMINO DE LA INTERACCIÓN
III. PRÁCTICAS DE ESTADÍSTICA BIVARIANTE
III.1. EJEMPLO DE REGRESIÓN SIMPLE
III.2. EJEMPLO DE REGRESIÓN POLINÓMICA
III.3. EJEMPLO DE REGRESIÓN POLINÓMICA CON REPETICIONES
III.4. EJEMPLO DE REGRESIÓN NO LINEAL
IV. PRÁCTICAS DE ESTADÍSTICA MULTIVARIANTE
IV.1. EJEMPLO DE ESTADÍSTICA DESCRIPTIVA MULTIVARIANTE
IV.2. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE CONGLOMERADOS
IV.3. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE CONGLOMERADOS PARA DATOS BINARIOS
IV.4. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE COMPONENTES PRINCIPALES
IV.5. EJEMPLO DE APLICACIÓN DEL MODELO FACTORIAL DE COMPONENTES PRINCIPALES
IV.6. EJEMPLO DE APLICACIÓN DEL ANÁLISIS FACTORIAL, DE CONGLOMERADOS Y DISCRIMINANTE
IV.7. EJEMPLO DE APLICACIÓN DEL ANÁLISIS LINEAL DISCRIMINANTE POR PASOS SUCESIVOS
IV.8. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE
IV.9. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE POR PASOS SUCESIVOS
V. BIBLIOGRAFÍA
TRABAJOS CITADOS
ARTÍCULOS RECIENTES DEL AUTOR

Recommend Papers

Tratamiento de datos con R, Statistica y SPSS

BOOKSMEDICOS.ORG

393 55 13MB Read more

Ciencia abierta y gestión de datos de investigación (RDM) 9788497049078

Cuando en 1997 se decía «El valor de los datos reside en su uso» (Bits of power) no podíamos imaginar la influencia que

150 7 22MB Read more

La ciencia de los alimentos en la practica

BOOKSMEDICOS.ORG

508 87 13MB Read more

Administración de base de datos diseño y desarrollo de aplicaciones

819 14 7MB Read more

La ciencia de la ciencia ficción: Cuando Hawking jugaba al póker en el Enterprise. Aprende ciencia con las obras de culto de la sci-fi 8417822585, 9788417822583

En un famoso episodio de la no menos célebre Star Trek asistimos a una inusual partida de póker entre el androide Data y

291 64 7MB Read more

Manual de pérdidas y desperdicios de Alimentos [1 ed.]

Por pérdida de alimentos se entiende la disminución de la masa de comestibles para consumo humano en cualquier punto de

155 106 4MB Read more

Prácticas de ordenador con SPSS para Windows

492 106 843KB Read more

Recetas de Alimentos Embutidos y Otros.

114 52 1MB Read more

Fundamentos de tecnología de los alimentos

BOOKSMEDICOS.ORG

493 125 89MB Read more

Superando el síndrome de Sísifo: la experiencia del Programa de Ciencia y Tecnología (FINCyT 1) en el Perú

En!la!sociedad!del!conocimiento!del! siglo!21,!el!desafío!de!Sísifo!es!aún!más! complejo! y! difícil.! Incluso! si! fuer

143 102 2MB Read more

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows : aplicaciones en al área de ciencia y tecnología de alimentos: ... al área de ciencia y tecnología de alimentos
8400084705, 9788400084707

Author / Uploaded
Pedro Jesús Martín Álvarez

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS APLICACIONES EN EL ÁREA DE CIENCIA Y TECNOLOGÍA DE ALIMENTOS

Pedro J. Martín-Álvarez

CONSEJO SUPERIOR DE INVESTIGACIONES CIENTÍFICAS

En el libro se recogen los ejemplos prácticos utilizados por los alumnos de la asignatura “Quimiometría Alimentaria”, de la licenciatura de Ciencia y Tecnología de los Alimentos, de la Universidad Autónoma de Madrid, impartida por el Prof. Pedro J. Martín-Álvarez, durante los cursos en que fue ofrecida con carácter optativo, así como los utilizados en los cursos organizados por el Instituto de Fermentaciones Industriales del CSIC, en los que ha participado como especialista en el tratamiento estadístico de los datos. El principal objetivo del libro ha sido familiarizar a sus usuarios con el manejo de las distintas herramientas estadísticas que ofrece el programa SPSS para Windows, mediante prácticas de aplicación de las técnicas estadísticas más usuales, utilizando los procedimientos y sus opciones más adecuadas. En todos los ejemplos prácticos, la mayoría publicados en revistas científicas, se intenta mostrar tanto los objetivos que se persiguen, al aplicar las correspondientes técnicas estadísticas, como los resultados que se obtienen y las conclusiones que se deducen.

PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS APLICACIONES EN EL ÁREA DE CIENCIA Y TECNOLOGÍA DE ALIMENTOS

BIBLIOTECA DE CIENCIAS, 27

PEDRO J. MARTÍN-ÁLVAREZ

PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS APLICACIONES EN EL ÁREA DE CIENCIA Y TECNOLOGÍA DE ALIMENTOS

CONSEJO SUPERIOR DE INVESTIGACIONES CIENTÍFICAS MADRID, 2006

Reservados todos los derechos por la legislación en materia de Propiedad Intelectual. Ni la totalidad ni parte de este libro, incluido el diseño de la cubierta, puede reproducirse, almacenarse o transmitirse en manera alguna por ningún medio ya sea electrónico, químico, mecánico, óptico, informático, de grabación o de fotocopia, sin permiso previo por escrito de la editorial. Las noticias, asertos y opiniones contenidos en esta obra son de la exclusiva responsabilidad del autor o autores. La editorial, por su parte, sólo se hace responsable del interés científico de sus publicaciones.

Catálogo general de publicaciones oficiales: http://publicaciones.administracion.es

MINISTERIO DE EDUCACIÓN Y CIENCIA

CONSEJO SUPERIOR DE INVESTIGACIONES CIENTÍFICAS

© CSIC © Pedro J. Martín-Álvarez NIPO: 653-06-102-7 ISBN: 84-00-08470-5 Depósito Legal: M-48085-2006 Fotocomposición e impresión: GRÁFICAS/85, S. A. Gamonal, 5. 28031 Madrid Impreso en España - Printed in Spain

A mi esposa, María Dolores, y a mis hijos, Pedro J., Carlos A. y María D.

ÍNDICE

Págs.

PRÓLOGO....................................................................................................................

11

I. SESIÓN BÁSICA................................................................................................

15

II. PRÁCTICAS DE ESTADÍSTICA UNIVARIANTE......................................... II.1. Valores descriptivos y prueba de normalidad........................................ II.2. Contraste para una media ....................................................................... II.3.1. Ejemplo de contraste para dos medias en caso de grupos independientes....................................................................................................... II.3.2. Ejemplo de contraste para dos medias en caso de grupos relacionados......................................................................................................... II.4.1. Ejemplo de contraste para más de dos medias. ANOVA de una vía.. II.4.2. Ejemplo de contraste para más de dos medias. ANOVA de dos vías. II.4.3. Otro ejemplo de ANOVA de dos vías ................................................... II.4.4. Ejemplo de ANOVA de dos vías sin el término de la interacción...... II.4.5. Otro ejemplo de ANOVA de dos vías sin el término de la interacción ...........................................................................................................

33 33 39

III. PRÁCTICAS DE ESTADÍSTICA BIVARIANTE............................................ III.1. Ejemplo de regresión simple .................................................................. III.2. Ejemplo de regresión polinómica........................................................... III.3. Ejemplo de regresión polinómica con repeticiones .............................. III.4. Ejemplo de regresión no lineal...............................................................

101 101 114 124 132

44 52 56 74 79 84 92

10

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows Págs.

IV. PRÁCTICAS DE ESTADÍSTICA MULTIVARIANTE ................................... IV.1. Ejemplo de estadística descriptiva multivariante .................................. IV.2. Ejemplo de aplicación del análisis de conglomerados ......................... IV.3. Ejemplo de aplicación del análisis de conglomerados para datos binarios ........................................................................................................ IV.4. Ejemplo de aplicación del análisis de componentes principales ......... IV.5. Ejemplo de aplicación del modelo factorial de componentes principales.......................................................................................................... IV.6. Ejemplo de aplicación del análisis factorial, de conglomerados y discriminante................................................................................................. IV.7. Ejemplo de aplicación del análisis lineal discriminante por pasos sucesivos ...................................................................................................... IV.8. Ejemplo de aplicación del análisis de regresión lineal múltiple.......... IV.9. Ejemplo de aplicación del análisis de regresión lineal múltiple por pasos sucesivos............................................................................................

141 141 155 164 169 182 196 228 232 241

V. BIBLIOGRAFÍA.................................................................................................. 255

PRÓLOGO

En este documento se recopilan las prácticas utilizadas por los alumnos de la asignatura “Quimiometría Alimentaria”, que impartí, como Profesor Asociado, durante los cursos en que fue ofrecida con carácter optativo y correspondiente al 2.º curso de la licenciatura de Ciencia y Tecnología de los Alimentos, de la Facultad de Ciencias de la Universidad Autónoma de Madrid, así como los ejemplos prácticos utilizados en los numerosos cursos, sobre tratamiento estadístico de datos en el área de Ciencia y Tecnología de los Alimentos, en los que he participado como profesor. Como se indica en el apartado de temas de ayuda de la versión 13.0.1, de 20 de noviembre de 2004, el programa SPSS para Windows (SPSS, Inc.) “proporciona un poderoso sistema de análisis estadístico y de gestión de datos en un entorno gráfico, utilizando menús descriptivos y cuadros de diálogo sencillos que realizan la mayor parte del trabajo. La mayoría de las tareas se pueden llevar a cabo simplemente situando el puntero del ratón en el lugar deseado y pulsando en el botón”. El programa forma parte del software científico adquirido por el CSIC, con licencia de campus, que puede instalarse y ejecutarse en los ordenadores de los investigadores del CSIC, y que proporciona: • Un Editor de datos, similar a una hoja de cálculo, que permite definir, introducir, editar y presentar los datos mediante el Visor de datos y el Visor de variables; • Un Visor de resultados que permite examinar los resultados, mostrarlos y ocultarlos de forma selectiva, y desplazar tablas y gráficos de gran calidad entre SPSS y otras aplicaciones; • Tablas pivote multidimensionales, con filas, columnas y capas, que pueden modificarse y reorganizarse; • Gráficos de alta resolución que pueden modificarse con el Editor de gráficos; • Transformaciones de los datos, como crear nuevas variables o seleccionar conjuntos de datos;

12

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

• Importación desde otras bases de datos; • Posibilidad de enviar por correo electrónico tablas y gráficos en formato HTML; y • Ayuda en pantalla, y en tutoriales, sobre cómo utilizar los procedimientos estadísticos y cómo interpretar los resultados. El principal objetivo de esta obra ha sido familiarizar a los usuarios con el manejo de las distintas herramientas estadísticas que ofrece el programa SPSS para Windows. Para lograr dicho objetivo se presentan ejemplos prácticos de aplicación de las técnicas estadísticas más usuales, utilizando los apropiados procedimientos del programa. Las prácticas incluyen desde la introducción de los datos y la definición de variables, hasta el comentario de los resultados obtenidos, pasando por el manejo de las distintas opciones que ofrecen las ventanas de los procedimientos estadísticos. La versión del SPSS utilizada en el desarrollo de las prácticas es la versión actual 13.0 en castellano, que puede instalarse y ejecutarse en los ordenadores de los investigadores del CSIC en la modalidad de licencia flotante en red. En todas las prácticas se muestran la ventana de datos, las ventanas de los procedimientos con sus opciones, y los resultados que se obtienen, que no difieren de los que proporcionaba la versión 11.5, posiblemente la versión más utilizada, salvo pequeñas diferencias en las salidas gráficas y en las herramientas del correspondiente Editor de gráficos. El primer capítulo corresponde a una sesión básica con el programa SPSS para familiarizarse con la ejecución del programa, la definición de variables, la introducción de los datos, y el almacenamiento de los mismos en un archivo para su uso posterior. Mediante la ejecución de un procedimiento de estadística descriptiva, se comentan las distintas pantallas del programa (Visor de variables, Visor de datos, Visor de resultados y Editor de gráficos), se modifican los datos erróneos, y se guardan los resultados seleccionados. El segundo capítulo incluye un total de 9 prácticas correspondientes a los contrastes estadísticos más importantes de estadística univariante: • contraste de normalidad de los datos, • contraste para una media, • contraste de igualdad de dos medias (para muestras independientes o relacionadas), • análisis de la varianza (ANOVA) de un factor (contraste para más de dos medias), y de 2 factores (modelo completo o sin interacción). El tercer capítulo incluye 4 prácticas correspondientes a ejemplos de problemas de estadística bivariante: • • • •

análisis de correlación simple, análisis de regresión simple, regresión polinómica, y regresión no lineal.

El cuarto capítulo incluye un total de 9 prácticas correspondientes a ejemplos de aplicación de algunas de las técnicas estadísticas multivariantes más utilizadas: • estadística descriptiva, • análisis de conglomerados jerárquicos (para variables cuantitativas o binarias),

Prólogo

13

• análisis y modelo factorial de componentes principales, • análisis lineal discriminante (completo o por pasos sucesivos), y • regresión lineal múltiple (completa o por pasos sucesivos). En todos los ejemplos prácticos se intenta mostrar tanto los objetivos que se persiguen, al aplicar la correspondiente técnica estadística, como los resultados que se obtienen y las conclusiones que se deducen. Madrid, diciembre de 2005. PEDRO J. MARTÍN-ÁLVAREZ Investigador científico del Instituto de Fermentaciones Industriales del CSIC

I. SESIÓN BÁSICA

1. Abrir el programa SPSS (SPSS Inc., Chicago, IL 60606, EE.UU., http://www.spss. com), e introducir, en la primera columna de la tabla del Editor de datos, los siguientes valores para una variable de tipo numérico: 107.9, 96.76, 91.2, 79.0, 103.15, 88.06, 101.3, 106.05, 93.7, 86.0, 100.7 99.4, 104.6, 227.20, 112.2, 106.9, 93.0, 88.3, 101.96, 109.8 Defina la variable con nombre varx, de tipo numérico, con 2 decimales y medida tipo escala. Guarde estos datos en un fichero con nombre PRACBASI.SAV. 2. Para esta variable varx, calcule los valores descriptivos: media, desviación típica, valor mínimo y máximo, y obtenga el correspondiente histograma. Observe en el Visor de resultados la tabla con los valores descriptivos y el gráfico. 3. Interprete los datos. ¿Se puede afirmar que existe algún dato atípico? 4. Cambie el valor 227.2 de la variable varx, fila 14, por 117.2, salve el fichero de datos y obtenga los nuevos valores descriptivos y el correspondiente histograma. Resultados:

1. Abra el programa SPSS, desde el icono del escritorio, o desde el menú de Inicio de la pantalla del ordenador, seleccionando Programas, SPSS para Windows, y SPSS 13.0 para Windows, y observe que se tiene la siguiente ventana:

16

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Seleccione Introducir Datos en el apartado ¿Qué desea hacer?, y pulse en Aceptar. Aparece la pantalla de Vista de Variables del Editor de datos del SPSS, que permite definir las variables que se vayan a utilizar, en este caso sólo se necesita la variable de nombre varx. Por defecto se asignará automáticamente unas especificaciones para dicha variable: tipo (numérico), anchura (8), decimales (2), valor para dato perdido (ninguno = no hay dato “missing”), columnas (8), alineación (derecha), tipo de medida(escala). Se puede asignar la etiqueta “Concentración”. De esta forma, se tiene la siguiente Vista de Variables de la ventana del Editor de datos:

I.

Sesión básica

17

Si pulsa en la pestaña Vista de datos, en la parte inferior izquierda de la pantalla, puede empezar a introducir los 20 datos de la variable varx, en la primera columna, a partir de la primera fila, y tendrá la siguiente pantalla de Vista de datos, del Editor de datos del SPSS:

Notas: En la tabla de datos los casos (o muestras) ocupan las filas y las variables las columnas. Dependiendo de las especificaciones del ordenador de trabajo en cuanto al símbolo decimal de los datos numéricos (ver en Mi PC, Panel de Control, Configuración regional, Números, Símbolo), se podrá utilizará el punto decimal o la coma decimal. Observe la existencia de la barra de menús, o de herramientas (Archivo, Edición, Ver, Datos, …, ?), y de botones, similares a las de otros programas del entorno de Windows. Para guardar estos datos en un fichero, para estudios posteriores, elegir en la barra de menús Archivo, Guardar como (o use el correspondiente botón), y en la ventana, en el cuadro Guardar en: seleccionar unidad y destino (por ejemplo la unidad A:); en el cuadro Nombre de archivo poner pracbasi; y en Tipo seleccionar SPSS (*.SAV); y pulsar en Guardar:

18

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

2. Para obtener los valores descriptivos, elija en la barra de menús: Analizar, Estadísticos descriptivos, Descriptivos (en la versión 8.0 elegir Estadística, Resumir, Descriptivos):

y en la ventana correspondiente del comando, coloque la variable varx en el cuadro Variables:

Abra la ventana de Opciones y marque los estadísticos deseados (media, desviación típica, valor mínimo y máximo); pulse en la tecla de Continuar y después en la tecla de Aceptar de la ventana general del procedimiento Descriptivos.

I.

Sesión básica

19

Se obtiene la siguiente tabla en la ventana del Visor de Resultados del SPSS:

con los valores descriptivos: n = 20, valor mínimo = 79, valor máximo = 227.20, media aritmética ( –x = ∑ xi /n) = 104.9, y desviación típica, o estándar (s = √∑ (xi – –x) 2 /(n – 1)) = = 30.11.

20

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Para obtener el histograma de los datos, elija en la barra de menús: Gráficos, Histograma:

y en la correspondiente ventana, coloque la variable varx en el cuadro Variable; seleccione Mostrar curva normal, y pulse en la tecla de Aceptar.

I.

Sesión básica

21

En el Visor de resultados del SPSS aparecerá el gráfico con el histograma.

3. Como puede observarse existe un dato, en torno a 220, muy alejado del resto, que pudiera ser considerado como atípico o “outlier”. Observando la columna de los datos, en la Vista de Datos, corresponde al valor 227.2 de la fila 14. Una vez revisado, se comprueba que se debe a un error de trascripción del verdadero valor 117.2. 4. Una vez corregido dicho valor en la Vista de datos del Editor de datos (sin más que seleccionar la celda y escribir encima), se procede a salvar el fichero (Archivo, Guardar) y ejecutando nuevamente los anteriores procedimientos (Analizar, Estadísticos descriptivos, Descriptivos y Gráficos, Histograma), los nuevos resultados en el Visor de resultados del SPSS, son los siguientes:

22

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

es decir: número de observaciones (n) = 20, media aritmética ( –x) = 99.359, desviación típica (s) = 9.7594, valor mínimo = 79, valor máximo = 117.20. El valor de la desviación estándar relativa o coeficiente de variación (CV(%)=100·desv.típ./media), sería: 9.82%. Este último valor, relacionado con la precisión, no es proporcionado por el programa. Observando el histograma, no parece existir ningún punto atípico. Nota: A la izquierda de la pantalla, se puede observar el panel de titulares de los resultados, que puede ayudar a navegar por los mismo, a controlar su presentación (contraer o expandir), y en la selección o borrado de los mismos.

I.

Sesión básica

23

También se podría haber utilizado el comando: Analizar, Estadísticos descriptivos, Explorar, (o Estadística, Resumir, Explorar, en la versión 8):

En la correspondiente ventana del comando, colocar la variable varx en el cuadro Dependientes:

24

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

y en la ventana de Gráficos seleccionar Histograma y gráfico de tallo y hojas, pulsar en la tecla Continuar, y pulsar en la tecla de Aceptar en la ventana principal del comando.

Los resultados en el Visor de resultados del SPSS son los siguientes: • Tabla con los valores descriptivos: Descriptivos Concentración

Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

Límite inferior Límite superior

Estadístico

Error típ.

99.3590 94.7915 103.9265

2.18227

99.4989 101.0000 95.246 9.75940 79.00 117.20 38.20 15.0375 -.258 -.402

.512 .992

Sesión básica

25

que incluye: – la media aritmética ( –x = 99.36) y su error típico

la mediana, la varianza

la desviación típica (s), el valor mínimo (min), y máximo (max), el rango (max – min), la amplitud intercuartílica (Q3 – Q1) y el coeficiente de asimetría y de curtosis, junto con sus errores típicos. – el intervalo de confianza al 95% para la media poblacional (94.79, 103.93). Recordar que este intervalo es

donde t.975,n–1 es el

valor de la t-Student con n–1 grados de libertad tal que su función de distribución, F(t.975,n–1), es 0.975. – el valor de la media recortada al 5% (99.50), que es una mejor estimación de la tendencia central (más robusta), especialmente cuando los datos no son normales y que se calcula como la media aritmética después de haber eliminado el 5% de los casos mayores y el 5% de los menores. • El histograma de frecuencias para la variable varx (“Concentración”): Histograma 5

4

Frecuencia

I.

3

2

1

0 80,00

90,00

100,00

Concentración

110,00

Media =99,359 Desviación típica =9,7594 120,00 N =20

26

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

• El gráfico de tallo y hojas (una especie de histograma semi-gráfico): Frequency 1.00 3.00 5.00 9.00 2.00 Stem width: Each leaf:

Stem & 7 8 9 10 11

. . . . .

Leaf 9 688 13369 011346679 27

10.00 1 case(s)

que informa de la existencia de un único dato en el intervalo [70,80), de tres datos en [80,90), de cinco en [90,100), de 9 en [100,110), y de 2 en el intervalo [110,120). • El diagrama de caja (o “box plot”) con los valores de la mediana, primer (Q1) y tercer cuartil (Q3), y los valores extremos para el intervalo de valores admisibles (Q1 – 1.5(Q3 – Q1), Q3 + 1.5(Q3 – Q1)): 130,00

120,00

110,00

100,00

90,00

80,00

70,00 Concentración

que pone de manifiesto que ahora todos los datos caen dentro de este intervalo de valores admisibles.

I.

Sesión básica

27

El correspondiente diagrama de caja para los datos iniciales, con el valor sin corregir, hubiese sido el siguiente: 250,00 14

* 200,00

150,00

100,00

Concentración

poniendo de manifiesto que el dato número 14 es un dato extremo que podría ser considerado como atípico (“outlier”). Los gráficos en la Ventana de Resultados se pueden modificar mediante el Editor de gráficos del SPSS, para ello basta “pinchar 2 veces” con el ratón, sobre el gráfico (o utilizando el botón derecho del ratón), y se entra en la correspondiente ventana donde se pueden utilizar las herramientas del Editor de gráficos. Por ejemplo, para modificar el histograma, una vez dentro del Editor de gráficos, se tendría la siguiente pantalla:

28

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

donde puede observarse la correspondiente barra de menús (Archivo, Edición, Ver, Opciones, Elementos, ..., ¿). Para cambiar títulos basta con pinchar dos veces con el puntero del ratón e introducir los cambios y tipo de letra en la ventana de Propiedades (p.e., cambiar varx por Concentración). Para incorporar la curva pinchar dos veces sobre el histograma y aparecerá la ventana de Propiedades donde se puede seleccionar Ver la curva normal. Pulsar Aplicar; también se puede modificar el Nº de intervalos seleccionando Personalizado en Tamaños de clase.

I.

Sesión básica

29

Una vez realizadas todas las modificaciones, utilizando la herramienta Archivo, Cerrar, se regresa a la Ventana de Resultados con el gráfico modificado: Histograma 5

Frecuencia

4

3

2

1

0 80,00

90,00

100,00

110,00

Media =99,359 Desviación típica =9,7594 120,00 N =20

Concentración

En la Ventana de Resultados, se puede seleccionar con el ratón los gráficos y tablas que interesen (ayudarse de la tecla Control para la selección). Una vez seleccionados se puede imprimir (Archivo, Imprimir), o copiar a un fichero de MS-WORD (utilizar los comandos Edición, Copiar Objetos del SPSS y los correspondientes Edición, Pegar del MS-WORD, que después se puede ajustar, ampliar o disminuir su tamaño, con Formato

30

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

de imagen). También se puede obtener una vista previa de los mismos (Archivo, Presentación preliminar), o enviar por correo electrónico (Archivo, Enviar mensaje), o guardar en un fichero con extensión spo (Archivo, Guardar como) que podrá abrirse posteriormente. Para finalizar la práctica habría que salir del programa SPSS con el comando Archivo, Salir, desde la Ventana de resultados (preguntará si se quieren guardar o no los resultados obtenidos), o desde la ventana del Visor de datos del Editor de datos. Si posteriormente se quisiera trabajar nuevamente con el fichero pracbasi.sav, abra el programa SPSS, y elija el fichero mencionado, si figura en la ventana Abrir una fuente de datos existente. Si no figura pulsar en Cancelar, y en la barra de herramientas elija Archivo, Abrir, Datos, acceda a la carpeta correspondiente, seleccione el fichero pracbasi.sav y pulse Abrir. Los datos aparecerán en el Editor de datos. Aunque la salida gráfica de la versión 11.5 tenía una menor calidad que la proporcionada por la nueva versión 13.0, su Editor de gráficos permitía mejorar la calidad de los gráficos de la Ventana de Resultados, mediante las herramientas de la barra de menús: Archivo, Edición, Ver, Galería, Diseño, Series, Formato,...; y sus correspondientes ventanas. La pantalla del Editor de gráficos de la versión 11.5 era la siguiente:

I.

Sesión básica

31

• Para centrar los títulos de los ejes y modificar el número de intervalos, se puede elegir, en la barra de herramientas: Diseño, ejes, Intervalo, Aceptar; y en la nueva ventana:

en Justificación de títulos, elegir Centro, y en Intervalos, elegir Personalizado, pulsar en Definir,

y en Definición elegir 10 en Nº de intervalos. Pulse Continuar, y después Aceptar. • Para que aparezca la curva Normal utilizar la herramienta Diseño, opciones, Mostrar curva normal, • Para centrar el título general utilizar la herramienta Diseño, Títulos, Aceptar, • Para cambiar el tipo de letra y tamaño de los caracteres de un texto, una vez seleccionado, utilizar la herramienta Formato, Texto. • Para eliminar la leyenda, en este caso los valores descriptivos, se puede utilizar la herramienta Diseño, Leyenda.

II. PRÁCTICAS DE ESTADÍSTICA UNIVARIANTE

II.1. VALORES DESCRIPTIVOS Y PRUEBA DE NORMALIDAD Los contenidos en alcoholes isoamílicos (2-metil-1-butanol y 3-metil-1-butanol) de 20 botellas de whisky de una determinada marca, fueron (Herranz et al., 1989; MartínÁlvarez et al., 1988): 107.9, 96.7, 91.2, 79.0, 103.1, 88.0, 101.3, 106.0, 93.7, 86.0, 100.7, 99.4, 104.6, 117.2, 112.2, 106.9, 93.0, 88.3, 101.9, 109.8 1. Calcular los valores descriptivos y el intervalo de confianza al 95% para la media poblacional. 2. Obtener el gráfico de tallo y hojas, el diagrama de caja, el histograma con la curva normal y el gráfico de la prueba de normalidad. 3. Contrastar la normalidad de los datos con las pruebas de Shapiro-Wilk, y de Kolmogorov-Smirnov (Martín-Álvarez, 2000). 4. Imprimir los resultados. 5. Guardar los resultados en un fichero de MS-WORD y salir del SPSS. Resultados:

Abrir el programa SPSS, seleccionar Introducir Datos, y pulsar en Aceptar. En la pantalla de Vista de Variables, definir la variable isoamil de tipo numérico con 2 decimales y medida tipo escala.

34

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Seleccionar la pestaña Vista de datos (en la parte inferior izquierda de la pantalla), e introducir, en la primera columna, los 20 anteriores valores. Guardar el fichero de datos con nombre pracuni.bas (Archivo, Guardar como, desde el Visor de datos). Se tiene:

1.-3. Para obtener los valores descriptivos y el intervalo de confianza al 95% para la media de la población, así como el gráfico de tallo y hojas, el diagrama de caja, el histograma con la curva normal y el contraste de normalidad (pruebas de Shapiro-Wilk, y de Kolmogorov-Smirnov), se puede utilizar el comando Analizar, Estadísticos descriptivos, Explorar, o (Estadística, Resumir, Explorar, en versiones anteriores a la 9). En la ventana del comando colocar el nombre de la variable en el cuadro Dependientes, y en la ventana de Gráficos seleccionar Tallo y hojas, Histograma y Gráficos con prueba de normalidad, pulsar en Continuar, y Aceptar.

II.

Prácticas de estadística univariante

35

36

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados, en la Ventana de Resultados del SPSS, son los siguientes: a) informe del número de datos válidos (20) y perdidos (0): Resumen del procesamiento de los casos

N ISOAMIL

Válidos Porcentaje 20

Casos Perdidos N Porcentaje

100.0%

0

.0%

N

Total Porcentaje 20

100.0%

b) valores descriptivos de la concentración de alcoholes isoamílicos: Descriptivos ISOAMIL

Media Intervalo de confianza para la media al 95%

Límite inferior Límite superior

Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

Estadístico

Error típ.

99.3450 94.7771 103.9129

2.18246

99.4833 101.0000 95.263 9.76026 79.00 117.20 38.20 15.0250 -.256 -.402

.512 .992

( –x = 99.34; s = 9.76; min = 79.0; max = 117.2; el intervalo de confianza al 95% para la media poblacional, IC95% = (94.78,103.91); y la media recortada al 5%, 99.48, muy próxima a la aritmética). c) resultados del contraste de normalidad de los datos según el criterio de Kolmogorov-Smirnov y el de Shapiro-Wilk: Pruebas de normalidad Kolmogorov-Smirnova Estadístico gl Sig. ISOAMIL

.105

20

.200*

Shapiro-Wilk Estadístico gl .985

20

Sig. .983

* Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors.

que ponen de manifiesto que se puede aceptar la normalidad de los datos (la Sig. = significación o probabilidad asociada con el contraste de la hipótesis nula (H0 ≡ Datos con

II.

Prácticas de estadística univariante

37

distrib. normal) es mayor que el nivel de significación fijado (α = 0.05)), con cualquiera de los dos criterios. d) histograma: Histograma 5

Frecuencia

4

3

2

1

0 80,00

90,00

100,00

110,00

Media =99,345 Desviación típica =9,76026 120,00 N =20

isoamil

e) diagrama tallo y hojas: ISOAMIL Stem-and-Leaf Plot Frequency 1.00 3.00 5.00 9.00 2.00 Stem width: Each leaf:

Stem & 7 8 9 10 11

. . . . .

Leaf 9 688 13369 011346679 27

10.00 1 case(s)

38

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

f) gráfico con el contraste normalidad: Gráfico Q-Q normal de isoamil 2

Normal esperado

1

0

-1

-2 80

90

100

110

120

Valor observado

En este gráfico los valores observados se representan respecto a los valores esperados si la muestra se obtuviera de una distribución normal; y puesto que los puntos se agrupan en torno a una línea recta, se puede concluir, de manera gráfica, que la muestra de datos procede de una distribución normal (Martín-Álvarez, 2000). g) diagrama de caja 120,00

110,00

100,00

90,00

80,00

isoamil

que no muestra datos atípicos fuera del intervalo de valores admisibles. Los gráficos obtenidos pueden modificarse mediante los comandos del Editor de gráficos del SPSS (“pinchar 2 veces” con el ratón, sobre el gráfico, modificarlo mediante

II.

Prácticas de estadística univariante

39

los correspondientes comandos, y salir del editor gráfico mediante la herramienta Archivo, Cerrar). 4. Seleccionar los resultados, tablas y/o gráficos, que se quieran imprimir y utilizar Archivo, Imprimir. 5. Si hay resultados, tablas y/o los gráficos, que se quieran copiar a un fichero MSWORD, seleccionarlos y utilizar la herramienta Edición, Copiar Objetos del SPSS y la de Edición, Pegar del MS-WORD. Por último para salir del SPSS elegir Archivo, Salir. II.2. CONTRASTE PARA UNA MEDIA Comprobar la exactitud de un método analítico para una muestra de referencia con 0.34 mg/l de concentración (Massart et al., 1990; Martín-Álvarez, 2000). Los resultados de 15 determinaciones analíticas de la muestra dan los siguientes valores: .223 .243 .268 .278 .285 .291 .299 .316 .331 .346 .360 .361 .380 .404 .409 ¿Se puede aceptar que proceden de una población Normal con media 0.34 (el valor de referencia para la muestra)? ¿El método analítico es exacto para esa muestra? 1. Calcular los valores descriptivos, el intervalo de confianza al 95% para la media, el gráfico con el diagrama de caja, y contrastar la normalidad de los datos mediante la prueba de Shapiro-Wilk y con el gráfico de probabilidad normal. Si los datos son normales consultar el intervalo de confianza al 95% para ver si incluye el valor de referencia. 2. Contrastar la hipótesis Ho ≡ µ = µ0 = 0.34 para los datos. Observar e interpretar los resultados obtenidos. ¿Puede aceptarse la hipótesis nula? 3. Repetir el contraste aceptando que el valor de referencia hubiese sido 0.40, e interpretar los resultados obtenidos. 4. Copiar los resultados que interesen en un fichero de MS-WORD anotando, también, las conclusiones obtenidas. Resultados

Ejecutar el programa SPSS, y abrir el anterior fichero pracuniv.bas desde el recuadro Abrir una fuente de datos existente, si figura el nombre del fichero, o con el comando Archivo, Abrir, Datos (o seleccionar Introducir Datos, y pulsar en Aceptar sí se quiere crear otro fichero). En la pantalla de Vista de Variables, definir la nueva variable referen, de tipo numérico con 3 decimales y medida tipo escala. Seleccionar la pestaña Vista de datos (en la parte inferior izquierda de la pantalla), e introducir, en la segunda columna, los 15 valores de las determinaciones analíticas empezando en la primera fila. 1. Para obtener los valores descriptivos y el intervalo de confianza al 95% para la media de la población, así como el contraste de Shapiro-Wilk para la normalidad de los datos se puede utilizar el comando Analizar, Estadísticos descriptivos, Explorar. En la ventana del comando colocar el nombre de la variable referen en el cuadro Dependientes, y en la ventana de Gráficos seleccionar Gráficos con prueba de normalidad, pulsar en Continuar, y Aceptar.

40

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados son los siguientes: • El resumen del número de casos válidos (n = 15): Resumen del procesamiento de los casos

REFEREN

Válidos N Porcentaje 15 75.0%

Casos Perdidos N Porcentaje 5 25.0%

N

Total Porcentaje 20 100.0%

II.

Prácticas de estadística univariante

41

• Los valores descriptivos: Descriptivos REFEREN

Media Intervalo de confianza para la media al 95%

Límite inferior Límite superior

Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

Estadístico

Error típ.

.31960 .28821 .35099

.014636

.32000 .31600 .003 .056683 .223 .409 .186 .08300 .027 -.917

.580 1.121

media ( –x = 0.3196), desviación típica (s = 0.05668), error típico de la media (s/√ n = 0.146), y el intervalo de confianza para la media al 95% (0.288,0.351) que incluye el de referencia y, por tanto, el valor medio experimental (0.3196) es concordante con lo que cabría esperar para esa muestra de 0.34 mg/l, o dicho de otro modo, el método analítico es exacto para la muestra. En la tabla también figuran: el valor de la media recortada al 5% ( –x 5 % = 0.32), la mediana (Med = 0.316), la varianza (s2 = 0.003213), el valor mínimo (xmin = 0.223), el valor máximo (xmax = 0.409), el intervalo o rango (xmax – xmin = 0.106), la amplitud intercuartílica (Q3 – Q1 = 0.083), el coeficiente de asimetría (0.027) y el de curtosis o apuntamiento (–0.917) con sus respectivos errores típicos (0.58 y 1.121, respectivamente). • El resultado del contraste de normalidad de los 15 datos: Pruebas de normalidad Kolmogorov-Smirnov a Estadístico gl Sig. REFEREN

.109

15

.200*

Estadístico

Shapiro-Wilk gl

.971

15

Sig. .866

* Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors.

que incluye: el valor del estadístico del contraste de Kolmogorov-Smirnov (Dcal = 0.109), sus grados de libertad (n = 15), y la probabilidad asociada con la corrección de significación de Lilliefors (Sig. = P = 0.200), que permite aceptar la hipótesis nula de normalidad de los datos, por ser mayor que el nivel de significación (α = 0.05); y también los resultados del estadístico del contraste de Shapiro-Wilk (wcal = 0.972), sus grados de libertad (gl = 15), y la probabilidad asociada (Sig. = P = 0.851 > 0.05), que permite aceptar, también, la hipótesis nula de normalidad de los datos.

42

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

• el histograma, y el diagrama de tallo y hojas para los datos: Histograma

REFEREN Stem-and-Leaf Plot

4

Frequency

Stem &

Leaf

Frecuencia

3

2.00 5.00 3.00 3.00 2.00

2

1

0 0,250

0,300

0,350

0,400

Media =0,3196 Desviación típica =0,056683 N =15

2 2 3 3 4

Stem width: Each leaf:

. . . . .

24 67899 134 668 00

.100 1 case(s)

referen

• el gráfico de probabilidad normal para el contraste visual de la normalidad de los datos y el diagrama de caja (con el intervalo de valores admisibles, que pone de manifiesto que no existen valores atípicos): Gráfico Q-Q normal de referen 2

0,40

Normal esperado

1 0,35

0 0,30 -1 0,25 -2 0,25

0,30

0,35

Valor observado

0,40

0,20

referen

Para contrastar la hipótesis Ho ≡ µ = µ0 = 0.34 para los datos, elegir en la barra de menús el procedimiento Analizar, Comparar medias, Prueba T para una muestra, y colocar el nombre de la variable en el cuadro de Contrastar variables:, y el valor 0.34 en el cuadro Valor de prueba:, pulsar en Aceptar.

II.

Prácticas de estadística univariante

43

Los resultados que se obtienen son los siguientes: • Valores descriptivos de la variable utilizada (referen) (n = 15, media ( –x = 0.3196), desviación típica (s = 0.05668) y error típico de la media (s/√ n = 0.146)): Estadísticos para una muestra N REFEREN

Desviación típ.

Media 15

.31960

.056683

Error típ. de la media .014636

• Resultados de la aplicación del test de hipótesis para una media (H0 ≡ µ = µ0 = 0.34): Prueba para una muestra Valor de prueba = 0.34

t REFEREN

-1.394

gl

Sig. (bilateral) 14

.185

Diferencia de medias -.02040

95% Intervalo de confianza para la diferencia Inferior Superior -.05179

.01099

valor del estadístico t-Student (tcal = –1.394), con n-1 = 14 grados de libertad, y una probabilidad asociada (significación bilateral) P = 0.184. Como P es mayor que nuestro nivel de significación α = 0.05, se deduce que no hay motivos para rechazar la hipótesis nula, y por tanto, se acepta que el valor medio obtenido para la muestra ( –x = 0.3196) no difiere del valor de referencia (valor de prueba = 0.34). En los resultados se incluyen también: la diferencia entre –x y el valor 0.34 (diferencia de medias = –0.020), y el intervalo de confianza al 95% para dicha diferencia (–0.052, 0.011). Puesto que este intervalo contiene el valor 0, se puede concluir, también, que las 2 medias no son significativamente diferentes. 3. Si el valor de referencia hubiese sido 0.40 (repetir el procedimiento Analizar, Comparar medias, Prueba T para una muestra, colocando el valor 0.40 en el cuadro Valor de prueba:),

44

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

los resultados que se obtendrían serían: Estadísticos para una muestra N REFEREN

Media 15

.31960

Desviación típ. .056683

Error típ. de la media .014636

Prueba para una muestra Valor de prueba = 0.40

REFEREN

t -5.493

gl 14

Sig. (bilateral) .000

Diferencia de medias -.08040

95% Intervalo de confianza para la diferencia Inferior Superior -.11179 -.04901

Los valores descriptivos para los datos son los mismos que antes, pero los resultados para el contraste son distintos. Ahora el valor del estadístico t-Student (tcal = –5.493), con 14 grados de libertad, tiene una probabilidad asociada (significación bilateral) P = 0.000, que es menor que nuestro nivel de significación α = 0.05, y se deduce que hay motivos para rechazar la hipótesis nula, y por tanto, se acepta que el valor medio obtenido para la muestra ( –x = 0.3196) difiere del valor de referencia (valor de prueba = 0.40), o que el método analítico mide menos de lo esperado. El intervalo de confianza al 95% para la diferencia de medias (–0.1118 , –0.0490) no contiene el valor 0, y se puede concluir, también, que las 2 medias son significativamente diferentes (P < 0.05). 4. Para copiar y pegar múltiples resultados en un fichero de MS-WORD, seleccionar las tablas o los gráficos que se vayan a copiar (mantenga pulsada la tecla de mayúsculas “⇑” o la de Control “Ctrl” para seleccionar múltiples elementos), elija Edición y Copiar objetos (No Edición y Copiar, si disponemos de una versión anterior a la 13.0) en la barra de menús del SPSS, y en la aplicación de destino (MS-WORD), elija en la barra de menús: Edición y Pegar. En la versión 13.0 para copiar tablas se puede utilizar también la opción Edición y Copiar, que tiene la ventaja de poder editar la tabla pegada en el documento de MS-WORD. Nota: Para cortar, copiar y/o pegar objetos dentro del Visor de Resultados, o entre dos ventanas del Visor de resultados, se pueden utilizar las herramientas Cortar, Copiar y/o Pegar del menú de Edición. II.3.1. EJEMPLO DE CONTRASTE PARA DOS MEDIAS EN CASO DE GRUPOS INDEPENDIENTES Dadas las siguientes determinaciones, obtenidas con un mismo método analítico, en 18 muestras procedentes de dos grupos diferentes: Grupo A: {11.2 13.7 14.8 11.1 15.0 16.1 17.3 10.9 10.8 11.7} Grupo B: {10.9 11.2 12.1 12.4 15.5 14.6 13.5 10.8}

II.

Prácticas de estadística univariante

45

¿se puede aceptar que estos resultados proceden de dos poblaciones normales con la misma media? ¿Tienen los dos grupos el mismo valor medio? (Martín-Álvarez, 2000). 1. Definir una variable para el agrupamiento de los datos (variable grupo, con valores 1 para el Grupo A y 2 para el Grupo B), y una variable para los resultados analíticos (variable resul con los anteriores datos). 2. Calcular los valores descriptivos de la variable resul en cada grupo, y contrastar la hipótesis Ho ≡ µ1 = µ2 para los datos de esta variable en los dos grupos. Observar e interpretar los resultados obtenidos. ¿Proceden los datos de dos poblaciones normales con la misma media? (Martín-Álvarez, 2000) 3. Obtener el gráfico con las barras de error, correspondientes al intervalo de confianza al 95% para la media, para la variable resul en los dos grupos. 4. Copiar los resultados, anotando las conclusiones, en un fichero MS-WORD. 5. Contrastar la hipótesis anterior, pero utilizando la prueba no paramétrica de MannWhitney, en caso de no aceptar distribuciones normales Resultados:

Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas II.1 y II.2. 1. Para este contraste es necesario definir dos nuevas variables: una de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los datos con su grupo de procedencia (variable grupo, valor 1 para los datos del Grupo A y 2 para los del Grupo B); y otra de tipo numérico, medida tipo escala, con un ancho de 8 y 1 decimal, y etiqueta “Concent.” para los valores de los resultados analíticos de las muestras (variable resul), es decir:

En el Visor de datos, introducir los correspondientes valores de las 2 variables, en la tercera y cuarta columnas, 1 y 11.2 en la fila 1; 1 y 13.7 en la fila 2; 1 y 14.8 en la fila 3; …; 1 y 11.7 en la fila 10; 2 y 10.9 en la fila 11; …; y 2 y 10.8 en la fila 18. Salvar el fichero (Archivo, Guardar) 2. Para calcular los valores descriptivos de la variable resul en cada grupo, y contrastar la hipótesis Ho ≡ µ1 = µ2 para los datos de esta variable en los dos grupos utilizar el procedimiento Analizar, Comparar medias, Prueba T para muestras independientes, y colocar como Variable a contrastar, la variable resul, y como Variable de agrupación, la variable grupo, con valores 1 y 2 en la ventana de Definir los grupos, pulsar en Continuar y en Aceptar,

46

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

se obtendrían los siguientes resultados, que incluyen: • Valores descriptivos: n, media ( –x), desviación típica (s) y error típico de la media ( –x/√ n), para la variable resul (Concent.) en cada grupo (grupo = 1 (A) y grupo = 2 (B)): Estadísticos de grupo

Concent.

GRUPO 1 2

N

Media 10 8

13.260 12.625

Desviación típ. 2.4254 1.7564

Error típ. de la media .7670 .6210

II.

Prácticas de estadística univariante

47

• Resultados de los test de hipótesis. Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas

F

Concent. Se han asumido varianzas iguales No se han asumido varianzas iguales

2.554

Sig.

.130

Prueba T para la igualdad de medias

t

gl

Sig. (bilateral)

Diferencia de medias

Error típ. de la diferencia

95% Intervalo de confianza para la diferencia Inferior Superior

.620

16

.544

.635

1.0238

-1.5354

2.8054

.643

15.889

.529

.635

.9869

-1.4582

2.7282

En primer lugar, el resultado del test de comparación de las 2 varianzas (Prueba de Levene para la igualdad de varianzas) con el valor del estadístico (F = 2.554) y la probabilidad asociada con ese valor (Sig. = P = 0.130), que al ser mayor de nuestro α = 0.05, se deduce que ambas varianzas pueden ser consideradas homogéneas o iguales (igual dispersión en los 2 grupos). En segundo lugar, y aceptando la igualdad de varianzas, hay que fijarse en la línea de resultados indicada por “Se han asumido varianzas iguales”, y en la Prueba T para la igualdad de medias, que incluye: el valor del estadístico para este contraste (t-Student = 0.620), sus grados de libertad (gl = 10 + 8 – 2 = 16), y la probabilidad asociada en caso de prueba bilateral (Sig. = P = 0.544). Esta última probabilidad es también mayor que nuestro nivel de significación (α = 0.05), y por tanto, no existen motivos para rechazar la hipótesis nula de igualdad de medias en los dos grupos de datos. El intervalo de confianza al 95% para la diferencia de las dos medias incluye el valor 0 y por tanto también se acepta que los dos grupos de datos tienen la misma media. En el caso en que los anteriores datos fuesen los resultados proporcionados por dos laboratorios para una misma muestra de referencia, se aceptaría que ambos laboratorios tienen la misma precisión y proporcionan los mismos resultados para esa muestra de referencia utilizada. Esta tabla “Prueba de muestras independientes” de resultados del SPSS podría modificarse en la Ventana de Resultados, para cambiar su visualización (tamaño de los caracteres, ancho de alguna columna, e incluso eliminarla), pinchando dos veces sobre la tabla, y utilizando el menú Formato, Propiedades de la Tabla, Formatos de casilla, Área de datos, Cambiar a Texto Arial 10, …, Aplicar, Aceptar,

48

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Para eliminar la columna Error típ. de la diferencia, seleccionar con el ratón los dos datos de la columna y Edición, Borrar. Para modificar el ancho de las columnas utilizar el ratón. Una vez modificada la tabla, se puede copiar en un fichero de MS-WORD (Edición, Copiar objetos, y Edición, Pegar). El resultado sería el siguiente: Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas

Concent.

Se han asumido varianzas iguales No se han asumido varianzas iguales

F

Sig.

2.554

.130

Prueba T para la igualdad de medias

t

Sig. (bilateral)

gl

Diferencia de medias

95% Intervalo de confianza para la diferencia Inferior

Superior

.620

16

.544

.635

-1.5354

2.8054

.643

15.889

.529

.635

-1.4582

2.7282

3. Para obtener el gráfico con las barras de error, correspondientes al intervalo de confianza al 95% para la media de la variable resul en cada uno de los dos grupos de datos, utilizar el comando Gráficos, Barras de error, Simple, Definir, colocar la variable resul en el cuadro Variable y la variable grupo en el cuadro Eje de categorías, y pulsar en Aceptar.

II.

Prácticas de estadística univariante

49

El gráfico sería el siguiente:

95% IC referen

0,35

0,30

0,25

0,20 1

grupo

2

que pone de manifiesto que el valor medio de un grupo está incluido en el intervalo de confianza al 95% para la media del otro grupo, lo que implica la igualdad de las 2 medias. 4. Seleccionar tablas y gráficos para copiar con Edición, Copiar objetos, y Edición, Pegar.

50

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

5. Para la aplicación correcta del estadístico del contraste de la hipótesis de igualdad de las 2 medias (Ho ≡ µ1 = µ2 ), en caso de muestras independientes, es necesario aceptar que se cumple la distribución normal de los valores de la variable resul en ambos grupos. Sin exigir la normalidad de los datos se puede utilizar la prueba no paramétrica de Mann-Whitney, que está implementada en el programa SPSS y que aplicaremos a continuación. Para seleccionar los datos del Grupo A, y poder realizar el contraste de normalidad, hay que utilizar el menú: Datos, Seleccionar casos, y elegir: Si se satisface la condición, de que la variable grupo tome el valor 1 (grupo = 1 en el recuadro correspondiente). Pulsar Continuar y Aceptar en la ventana de Seleccionar casos (véase figura adjunta).

Una vez seleccionados los datos de un grupo, hay que utilizar el comando Analizar, Estadísticos descriptivos, Explorar, y en ventana de gráficos elegir la prueba de normalidad. Se tiene así: Pruebas de normalidad

Concent. a

Kolmogorov-Smirnov a Estadístico gl Sig. .240 10 .107

Estadístico .873

Shapiro-Wilk gl 10

Sig. .108

Corrección de la significación de Lilliefors.

que confirma la normalidad para los 10 datos del Grupo A (P = 0.11 > 0.05). Repitiendo la selección de los datos del Grupo B (Grupo = 2), y el procedimiento Explorar, se tendría: Pruebas de normalidad

Concent.

Kolmogorov-Smirnova Estadístico gl Sig. .176 8 .200*

* Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors.

Estadístico .910

Shapiro-Wilk gl 8

Sig. .356

II.

Prácticas de estadística univariante

51

que pone de manifiesto que también es posible aceptar la distribución normal para este grupo de datos (P = Sig. = 0.356 > 0.05). Sin necesidad de aceptar distribuciones normales de los datos, vamos a utilizar la prueba no paramétrica de Mann-Whitney, para el mismo contraste anterior de la igualdad de las 2 medias (Ho ≡ µ1 = µ2). En algunos libros se utiliza esta prueba no paramétrica para el contraste de la igualdad de las dos medianas en lugar de las medias. Para este contraste hay que elegir el procedimiento Analizar, Pruebas no paramétricas, 2 muestras independientes, seleccionar la variable resul en Contrastar variables, y la variable grupo como Variable de agrupación, con valores 1 para el Grupo 1: y 2 para el Grupo 2: en Definir grupos. Pulsar Continuar y Aceptar. No olvidar utilizar todos los datos para este contraste no paramétrico, mediante la herramienta Datos, Seleccionar casos, seleccionar Todos los casos.

Los resultados obtenidos para la prueba de Mann-Whitney son: • La tabla con los rangos (orden de cada dato en la secuencia ascendente de todos los datos ) promedios en cada grupo: Rangos

Concent.

GRUPO 1 2 Total

N 10 8 18

Rango promedio 10.05 8.81

Suma de rangos 100.50 70.50

52

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

• Resultados del contraste: Estadísticos de contrasteb Concent. U de Mann-Whitney W de Wilcoxon Z Sig. asintót. (bilateral) Sig. exacta [2*(Sig. unilateral)] a b

34.500 70.500 -.489 .625 a

.633

No corregidos para los empates. Variable de agrupación: GRUPO.

valor del estadístico de Mann-Whitney (U = 34.5 ), y el valor del estadístico Z, con distribución aproximadamente Normal (Z = –0.489), junto con su probabilidad asociada (P = Sig. Bilateral = 0.625), que al ser mayor que el nivel de significación (α = 0.05), permite concluir que no existen motivos para no aceptar la igualdad de medias (o medianas) en los dos grupos. En la tabla se incluye la probabilidad exacta de obtener un resultado tan extremo como el observado, y en cualquier dirección, cuando la hipótesis nula es cierta (Ho ≡ µ1 = µ2), y que también indica que se puede aceptar la igualdad de los dos valores medios, con este procedimiento que no exige normalidad en los datos (Martín-Álvarez, 2000). II.3.2. EJEMPLO DE CONTRASTE PARA DOS MEDIAS EN CASO DE GRUPOS RELACIONADOS Dados los siguientes resultados, proporcionados por dos métodos analíticos, para analizar una cierta característica en 10 muestras de vinos tintos (Massart et al., 1990): Muestra

1

2

3

4

5

6

7

8

9

10

Método1

114

49

100

20

90

106

100

95

160

110

Método2

116

42

95

10

94

100

96

102

150

104

¿se puede aceptar que las diferencias entre cada pareja de valores, proceden de una población normal con media 0? ¿Son equivalentes los 2 métodos analíticos?, ¿dan los mismos resultados? 1. Definir las variables metodo1 y metodo2 con los anteriores valores. 2. Calcular los valores descriptivos de estas dos variables, y de la variable diferencia (metodo1 – metodo2), 3. Contrastar la hipótesis de igualdad de medias (Ho ≡ µ1 = µ2) ó la hipótesis de media cero para las diferencias (Ho ≡ µdif = 0) (Martín-Álvarez, 2000). Observar e interpretar los resultados. 4. Contrastar la hipótesis anterior, pero utilizando la prueba no paramétrica de Wilcoxon, en caso de no aceptar distribuciones normales. Interpretar los resultados.

II.

Prácticas de estadística univariante

53

5. Copiar los resultados, anotando las conclusiones, en un fichero de MS-WORD. Resultados:

Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. 1. En el caso de muestras relacionadas se necesita utilizar dos variables, una para cada uno de los resultados obtenidos con cada método de análisis (variables metodo1 y metodo2, numéricas, medida tipo escala, con 1 decimal).

En el Visor de datos, se introducen los correspondientes valores de las 2 variables de cada muestra de vino, en la quinta y sexta columnas; 114 y 116 en la fila 1; 49 y 42 en la fila 2; …; 110 y 104 en la fila 10. 2. y 3. Para calcular los valores descriptivos de estas dos variables, y de la variable diferencia (metodo1 - metodo2) se puede utilizar el procedimiento Analizar, Comparar medias, Prueba T para muestras relacionadas. Seleccionar las dos variables y colocarlas en el cuadro Variables relacionadas, y pulsar Aceptar.

54

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados que se obtienen son los siguientes: • Valores descriptivos para cada variable en las 10 muestras de vino: Estadísticos de muestras relacionadas

Par 1

METODO1 METODO2

Media 94.4000 90.9000

N 10 10

Desviación típ. 37.63037 38.71391

Error típ. de la media 11.89977 12.24241

• Coeficiente de correlación entre ambas variables (r = 0.989): Correlaciones de muestras relacionadas N Par 1

METODO1 y METODO2

Correlación 10

Sig.

.989

.000

que es significativamente diferente de 0, P < 0.05, para el contraste Ho ≡ ρ = 0. • Resultados del contraste de hipótesis (Ho ≡ µ1 = µ2 ó Ho ≡ µdif = 0): Prueba de muestras relacionadas

Media Par 1

METODO1 - METODO2

3.5000

Diferencias relacionadas 95% Intervalo de confianza para la diferencia Desviación típ. Inferior Superior 5.85472

-.6882

7.6882

t 1.890

gl

Sig. (bilateral) 9

.091

con los valores descriptivos de la variable diferencia, incluyendo el intervalo de confianza al 95%, y el resultado del contraste: valor del estadístico t-Student (1.89), con 9 grados de libertad (n-1), y la probabilidad asociada (P = Sig. bilateral = 0.091) que permite aceptar la hipótesis nula (Ho ≡ µ1 = µ2 ó Ho ≡ µdif = 0), es decir, se acepta la igualdad de las dos medias, o, equivalentemente, los dos métodos analíticos dan los mismos resultados (miden igual).

II.

Prácticas de estadística univariante

55

4. Seleccionar tablas para copiar con Edición, Copiar objetos, y Edición, Pegar. 5. Para el anterior contraste (Ho ≡ µdif = 0), para muestras relacionadas, mediante el estadístico t-Student, es preciso aceptar distribución normal de los valores de la variable diferencia. Sin necesidad de aceptar dicha normalidad es posible utilizar la prueba no paramétrica de Wilcoxon, basada en los rangos de las diferencias (Martín-Álvarez, 2000), mediante el procedimiento Analizar, Pruebas no paramétricas, 2 muestras relacionadas (Colocar las dos variables metodo1 y metodo2 en el cuadro Contrastar pares y pulsar Aceptar).

Los resultados que se obtienen son los siguientes:

56

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

• la tabla con la suma de los rangos y el rango promedio: Rangos Rango promedio

N metodo2 - metodo1

a b c

7a 3b 0c 10

Rangos negativos Rangos positivos Empates Total

6,29 3,67

Suma de rangos 44,00 11,00

metodo2 < metodo1 metodo2 > metodo1 metodo2 = metodo1

• y el valor del estadístico Z para el contraste, con distribución aproximadamente Normal (Z = –1.686), junto con la probabilidad asintótica asociada (P = Sig. Bilateral = 0.092), que al ser mayor que el nivel de significación (α = 0.05), permite concluir que no existen motivos para no aceptar la igualdad de medias de las dos variables. Estadísticos de contrasteb metodo2 metodo1 Z Sig. asintót. (bilateral) a b

-1,686a ,092

Basado en los rangos positivos. Prueba de los rangos con signo de Wilcoxon.

Nota: Para este tipo de datos relacionados, dado que se dispone de 2 variables, se podría utilizar la regresión lineal del que se considere como método nuevo (p.e., metodo2) frente al de referencia (metodo1) y ver si la pendiente de la recta es muy diferente de la unidad.

II.4.1. EJEMPLO DE CONTRASTE PARA MÁS DE DOS MEDIAS. ANOVA DE UNA VÍA Las cinco concentraciones facilitadas por seis laboratorios analíticos, para una misma muestra certificada, fueron los siguientes: Lab.1

Lab.2

Lab.3

Lab.4

Lab.5

Lab.6

1.6

1.2

1.5

6.0

6.2

3.3

2.9

1.9

2.7

3.8

3.8

3.8

3.5

2.9

3.4

5.5

5.5

5.5

1.8

1.1

2.0

4.2

4.2

4.9

2.2

2.9

3.4

5.3

5.3

4.5

II.

Prácticas de estadística univariante

57

¿Se puede aceptar igualdad en los resultados facilitados por los 6 laboratorios? ¿Se puede aceptar que los datos proceden de 6 poblaciones normales con la misma media? 1. Definir la variable de agrupamiento (variable lab con valores 1 para los datos del Laboratorio 1, …, y 6 para los del Laboratorio 6) y la variable con los valores de las concentraciones (variable concen), e introducir los correspondientes datos. 2. Calcular los valores descriptivos para la variable concen en cada uno de los 6 grupos, contrastar la hipótesis de igualdad de las seis medias (Ho ≡ µ1 = µ2 = … = µ6). En caso de no aceptar la igualdad de las medias utilizar el test de Student-Newman-Keuls para conocer las diferencias (Martín-Álvarez, 2000). Observar e interpretar los resultados obtenidos. 3. Obtener el gráfico con las barras de error de la variable concen, en cada uno de los 6 grupos. 4. Copiar los resultados, anotando las conclusiones, en un fichero de MS-WORD. 5. Contrastar la hipótesis anterior, pero utilizando la prueba no paramétrica de Kruskal-Wallis, en caso de no aceptar distribuciones normales. Copiar los resultados y conclusiones en el fichero de MS-WORD. 6. Con el programa SPSS, utilizar también el comando Analizar, Modelo lineal general, Univariante, para realizar el ANOVA de una vía considerando niveles fijos y aleatorios para el factor LAB. ¿El factor tiene efecto significativo sobre la concentración? 7. Con el programa SPSS, y aceptando niveles aleatorios, calcular las componentes de la varianza (Analizar, Modelo lineal general, Componentes de la Varianza) y los valores de la repetitividad y reproducibilidad para la muestra analizada. Resultados:

Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas II.1-II.3. 1. Para contrastar los 6 valores medios del apartado 2) es necesario definir dos nuevas variables: una de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los datos con su grupo de procedencia (variable lab con valores 1 para los datos del Laboratorio 1, … y 6 para los del Laboratorio 6) y otra, también de tipo numérico, medida tipo escala, con un ancho de 8 y 1 decimal, para los valores de las concentraciones (variable concen), es decir:

En la pantalla del Visor de datos, introducir los correspondientes valores de estas 2 nuevas variables, en la séptima y octava columnas: 1 y 1.6 en la fila 1; 1 y 2.9 en la fila 2; …; 2 y 1.2 en la fila 6; …; 3 y 1.5 en la fila 11; …; y 6 y 4.5 en la fila 30. Se tiene así:

58

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Salvar el fichero (utilizar la herramienta Archivo, Guardar). 2. Para calcular los valores descriptivos para la variable concen en cada uno de los 6 grupos y contrastar la hipótesis de igualdad de las seis medias (Ho ≡ µ1 = µ2 = … = µ6), elegir en la barra de menús: Analizar, Comparar medias, ANOVA de un factor, y colocar la variable concen en el cuadro de Dependientes:, y la variable lab en el cuadro de Factor:. En la ventana de Opciones, elegir en Estadísticos: Descriptivos, Prueba de homogeneidad de la varianza, Welch, y seleccionar Gráfico de las medias, pulsar Continuar y Aceptar.

II.

Prácticas de estadística univariante

59

Los resultados que se obtienen son los siguientes: a) Valores descriptivos (n, media, desviación típica, error típico, intervalos de confianza para las medias al 95%, valor mínimo y máximo), de la variable concen en cada grupo (LAB = 1, …, LAB = 6), y para el total (n = 30): Descriptivos CONCEN Intervalo de confianza para la media al 95% N 1 2 3 4 5 6 Total

5 5 5 5 5 5 30

Media 2.400 2.000 2.600 4.960 5.000 4.400 3.560

Desviación típica .7906 .8775 .8456 .9236 .9823 .8718 1.5080

Error típico .3536 .3924 .3782 .4130 .4393 .3899 .2753

Límite inferior 1.418 .910 1.550 3.813 3.780 3.318 2.997

Límite superior 3.382 3.090 3.650 6.107 6.220 5.482 4.123

Mínimo 1.6 1.1 1.5 3.8 3.8 3.3 1.1

Máximo 3.5 2.9 3.4 6.0 6.2 5.5 6.2

b) Resultado de la prueba de homogeneidad de las 6 varianzas (Estadístico de Levene = 0.130, con 5 y 24 grados de libertad, y una probabilidad asociada Sig. = P = 0.984). Puesto que P > 0.05 no existen motivos para rechazar la igualdad de las varianzas necesaria para la correcta utilización del contraste (o ANOVA de un factor). Prueba de homogeneidad de varianzas CONCEN Estadístico gl1 gl2 Sig. de Levene .130

5

24

.984

c) Tabla ANOVA, principal resultado del contraste aceptando homogeneidad de varianzas, con las sumas de cuadrados, grados de libertad, cuadrados medios, y el valor del estadístico F-Snedecor (Fcal = 12.082) y de la probabilidad asociada al contraste

60

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

(Ho ≡ µ1 = µ2 = … = µ6). Dado que esta probabilidad (Sig. = P = 0.000) es menor que el nivel de significación elegido (α = 0.05), existen motivos para rechazar la igualdad de las 6 medias (no todas las 6 medias son iguales), o equivalentemente, no todos los laboratorios proporcionan el mismo valor de la concentración para la muestra certificada. ANOVA CONCEN Suma de cuadrados Inter-grupos Intra-grupos Total

Media cuadrática

gl

47.200 18.752 65.952

5 24 29

9.440 .781

F

Sig.

12.082

.000

d) Resultado del estadístico de Welch que contrasta la igualdad de las medias y que es preferible al estadístico F cuando no se puede mantener el supuesto de igualdad de varianzas: valor del estadístico (9.572), grados de libertad y la probabilidad asociada (Sig. = P = 0.001), que pone de manifiesto que hay que rechazar la igualdad de las 6 medias. Pruebas robustas de igualdad de las medias CONCEN Estadístico a Welch a

gl1

9.572

gl2 5

Sig.

11.192

.001

Distribuidos en F asintóticamente.

e) El gráfico de las medias de la variable concen en cada grupo definido por los valores de la variable lab: 5,0

Media de concen

4,5

4,0

3,5

3,0

2,5

2,0 1

2

3

4

lab

5

6

II.

Prácticas de estadística univariante

61

Una vez aceptado que no todas las 6 medias son iguales, se podría repetir el procedimiento anterior, Analizar, Comparar medias, ANOVA de un factor, y utilizar la ventana “Post hoc”, para elegir las pruebas para llevar a cabo todas las comparaciones por parejas entre las 6 medias, que permitan conocer las diferencias entre las mismas. Asumiendo varianzas iguales, se puede seleccionar la prueba DMS (Diferencia mínima significativa), que utiliza pruebas t-Student para llevar a cabo todas las comparaciones por parejas, o la de Student-Neuman-Keuls (S-N-K), que realiza todas las comparaciones por parejas entre las medias utilizando la distribución del rango de Student. Pulsar en la tecla Continuar y en la de Aceptar.

Los resultados serían los anteriores además de los correspondientes a esta prueba: a) la prueba de Student-Neuman-Keuls (S-N-K): CONCEN

LAB Student-Newman-Keuls a

a

2 1 3 6 4 5 Sig.

Subconjunto para alfa = .05 1 2

N 5 5 5 5 5 5

2.000 2.400 2.600

.539

4.400 4.960 5.000 .539

Se muestran las medias para los grupos en los subconjuntos homogéneos. Usa el tamaño muestral de la media armónica = 5.000.

62

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

que permite obtener dos grupos de medias homogéneas; el primero formado por las medias de los laboratorios 2, 1 y 3, y el segundo formado por las medias de los laboratorios 6, 4 y 5. Una forma abreviada de presentar las diferencias entre los grupos es la siguiente: Lab.: Medias:

1 2.4a

2 2.0a

3 2.6a

4 4.9b

5 5.0b

6 4.4b

de manera que dos medias con distinto superíndice son significativamente diferentes, P < 0.05. b) la tabla con los resultados de la prueba DMS: Comparaciones múltiples Variable dependiente: CONCEN

DMS

(I) LAB 1

2

3

4

5

6

(J) LAB 2 3 4 5 6 1 3 4 5 6 1 2 4 5 6 1 2 3 5 6 1 2 3 4 6 1 2 3 4 5

Diferencia de Error típico medias (I-J) .400 .5590 -.200 .5590 -2.560* .5590 -2.600* .5590 -2.000* .5590 -.400 .5590 -.600 .5590 -2.960* .5590 -3.000* .5590 -2.400* .5590 .200 .5590 .600 .5590 -2.360* .5590 -2.400* .5590 -1.800* .5590 2.560* .5590 2.960* .5590 2.360* .5590 -.040 .5590 .560 .5590 2.600* .5590 3.000* .5590 2.400* .5590 .040 .5590 .600 .5590 2.000* .5590 2.400* .5590 1.800* .5590 -.560 .5590 -.600 .5590

* La diferencia entre las medias es significativa al nivel .05.

Sig. .481 .724 .000 .000 .002 .481 .294 .000 .000 .000 .724 .294 .000 .000 .004 .000 .000 .000 .944 .326 .000 .000 .000 .944 .294 .002 .000 .004 .326 .294

Intervalo de confianza al 95% Límite Límite inferior superior -.754 1.554 -1.354 .954 -3.714 -1.406 -3.754 -1.446 -3.154 -.846 -1.554 .754 -1.754 .554 -4.114 -1.806 -4.154 -1.846 -3.554 -1.246 -.954 1.354 -.554 1.754 -3.514 -1.206 -3.554 -1.246 -2.954 -.646 1.406 3.714 1.806 4.114 1.206 3.514 -1.194 1.114 -.594 1.714 1.446 3.754 1.846 4.154 1.246 3.554 -1.114 1.194 -.554 1.754 .846 3.154 1.246 3.554 .646 2.954 -1.714 .594 -1.754 .554

II.

Prácticas de estadística univariante

63

que marca con * las diferencias significativas (P < 0.05) entre todos los pares (I, J) de medias. Por ejemplo, la media del laboratorio 3 no es diferente de la media del laboratorio 1 (J = 1, P = 0.724), ni de la del 2 (J = 2, P = 0.294), pero si es diferente de la media del laboratorio 4, (J = 4, P = 0.000), de la del 5 (J = 5, P = 0.000) y de la del 6 (J = 6, P = 0.004). Luego se puede concluir que los laboratorios 1, 2 y 3, proporcionan valores inferiores de las concentraciones que los facilitados por los laboratorios 4, 5 y 6. 3. Para obtener el gráfico con las barras de error, para la variable concen, en cada uno de los 6 grupos, elegir el procedimiento Gráficos, Barras de error, Simple, y en Definir, colocar la variable concen en el cuadro Variable, y la variable lab en el cuadro Eje de categorías; y elegir Intervalo de confianza para la media al nivel 95% en el cuadro Las barras representan, Aceptar.

El gráfico resultante es el siguiente, donde puede observarse que los valores medios de los laboratorios 1, 2 y 3, no están incluidos en los intervalos de confianza al 95% correspondientes a las medias de los laboratorios 4, 5 y 6, y viceversa.

64

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

8

95% IC concen

6

4

2

0 1

2

3

4

5

6

lab

4. Seleccionar los tablas y gráficos de la Ventana de Resultados del SPSS, y copiarlos, anotando las conclusiones, a un fichero de MS-WORD. 5. Para contrastar la hipótesis anterior (Ho ≡ µ1 = µ2 = … = µ6), pero utilizando la prueba no paramétrica de Kruskal-Wallis, en caso de no aceptar distribuciones normales, se utiliza el procedimiento Analizar, Pruebas no paramétricas, K muestras independientes). Colocar: la variable concen en el cuadro Contrastar variables:, la variable lab en el cuadro Variable de agrupación:, y en Definir rango, elegir 1 y 6 para los Rangos mínimo y máximo para variable de agrupación. Pulsar en Continuar y en Aceptar.

II.

Prácticas de estadística univariante

65

Los resultados obtenidos para esta prueba de Kruskal-Wallis son: • La tabla con los rangos promedios en cada grupo: Rangos

CONCEN

LAB 1 2 3 4 5 6 Total

Rango promedio

N 5 5 5 5 5 5 30

8.80 6.20 9.60 23.80 24.00 20.60

• El resultado de la prueba: valor del estadístico Chi-cuadrado (χ2 = 21.578 ), grados de libertad (gl = 5), y probabilidad asintótica (P = Sig.=0.001), que al ser menor que el nivel de significación (α = 0.05), permite concluir que existen motivos para no aceptar la igualdad de las 6 medias. Estadísticos de contraste a,b CONCEN Chi-cuadrado gl Sig. asintót. a b

21.578 5 .001

Prueba de Kruskal-Wallis. Variable de agrupación: LAB.

66

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

6. El programa SPSS dispone también de un procedimiento más general (Analizar, Modelo lineal general, Univariante), para realizar el Análisis de la Varianza (ANOVA), para uno o más factores con niveles fijos o aleatorios, y poder comprobar si dichos factores, o sus interacciones, tienen efecto significativo sobre la variable estudiada. Se acepta que los valores de la variable estudiada siguen un determinado modelo matemático. En esta práctica hay un único factor, el factor laboratorio (representado por la variable lab), con 6 niveles, que se pueden considerar fijos (los 6 laboratorios son los únicos de interés), y se quiere saber si dicho factor tiene efecto significativo sobre la variable concen. Se acepta el modelo: yi,j = –y + αj + εi,j, donde yi,j representa la observación i-ésima, proporcionada por el laboratorio j-ésimo, –y es un valor medio global, αj es el efecto (o desviación) del laboratorio j-ésimo, y εi,j sería el término del error de la observación i-ésima, proporcionada por el laboratorio j-ésimo, y la hipótesis a contrastar sería: H0 ≡ El factor no tiene efecto sobre la característica estudiada o, equivalentemente, H0 ≡ αj = 0 ∀j. En la ventana de este comando colocar la variable concen en el cuadro Dependiente:, y la variable lab en el cuadro Factores fijos: y pulsar en Aceptar:

II.

Prácticas de estadística univariante

67

Los resultados de este Análisis de varianza univariante, son los siguientes: a) el número de observaciones en cada nivel del factor (m = 5 en todos los grupos): Factores inter-sujetos N LAB

1 2 3 4 5 6

5 5 5 5 5 5

b) la tabla ANOVA, donde en la fila correspondiente al factor Laboratorio (LAB), se puede observar el valor del estadístico F-Snedecor (Fcal = 12.082), y la probabilidad asociada de obtener un mayor valor del estadístico con 1 y 24 grados de libertad (P = Significación=0.000), que al ser menor que el nivel de significación (α = 0.05), permite concluir que el factor tiene efecto significativo sobre la concentración, hay que rechazar la hipótesis nula (H0). Pruebas de los efectos inter-sujetos Variable dependiente: CONCEN Suma de cuadrados tipo III Fuente Modelo corregido 47.200a Intersección 380.208 LAB 47.200 Error 18.752 Total 446.160 Total corregida 65.952 a

Media cuadrática

gl 5 1 5 24 30 29

9.440 380.208 9.440 .781

F 12.082 486.614 12.082

Significación .000 .000 .000

R cuadrado = .716 (R cuadrado corregida = .656).

Observar la coincidencia con la anterior tabla ANOVA del procedimiento Analizar, Comparar medias, ANOVA de un factor, de los valores de las filas: LAB, Error y Total corregida, con la anteriores Inter-grupos, Intra-grupos y Total. El procedimiento Analizar, Modelo lineal general, Univariante, permite seleccionar el tipo de modelo para analizar en caso de más de un factor: completo (con todos los términos de los efectos principales e interacciones), o personalizado (no considerando algunas interacciones), que se puede fijar en la ventana Modelo. También permite obtener los valores descriptivos de la variable en los distintos grupos (niveles del factor), y el contraste de la homogeneidad de las varianzas (test de Levene), y otras estimaciones, que se pueden seleccionar en la ventana Opciones, de dicho procedimiento,

68

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los estadísticos descriptivos, y el resultado del contraste de igualdad de varianzas son los siguientes: Estadísticos descriptivos Variable dependiente: CONCEN LAB Media Desv. típ. 1 2.400 .7906 2 2.000 .8775 3 2.600 .8456 4 4.960 .9236 5 5.000 .9823 6 4.400 .8718 Total 3.560 1.5080

N 5 5 5 5 5 5 30

II.

Prácticas de estadística univariante

69

Contraste de Levene sobre la igualdad de las varianzas error a Variable dependiente: CONCEN F .130 a

gl1

gl2 5

24

Significación .984

Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los grupos. Diseño: Intercept+LAB.

iguales a los ya comentados anteriormente. También es posible obtener el gráfico con los valores estimados por el modelo para las medias (con especificaciones para el eje horizontal y las líneas distintas, si más de un factor), colocando, en la ventana de Gráficos, el nombre de la variable lab en el cuadro de Eje horizontal, y pulsando Añadir,

70

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

El gráfico obtenido, similar al proporcionado por el procedimiento Analizar, Comparar medias, ANOVA de un factor, es el siguiente: Medias marginales estimadas de concen

Medias marginales estimadas

5,0

4,5

4,0

3,5

3,0

2,5

2,0 1

2

3

lab

4

5

6

También es posible obtener los resultados de las pruebas de comparación entre medias (DMS, S-N-K, …), que se pueden seleccionar en la ventana Post hoc, del procedimiento, colocando la variable lab en el cuadro Constrastes post hoc para:, y seleccionando, por ejemplo, S-N-K en el apartado Asumiendo varianzas iguales. Pulsar en Continuar y en Aceptar,

II.

Prácticas de estadística univariante

71

Los resultados del contraste Student-Newman-Keuls, para comparar las 6 medias son los siguientes (iguales que los obtenidos con el anterior procedimiento ANOVA de un factor): CONCEN Student-Newman-Keuls a,b LAB 2 1 3 6 4 5 Significación

a b

Subconjunto 1 2

N 5 5 5 5 5 5

2.000 2.400 2.600

.539

4.400 4.960 5.000 .539

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .781. Usa el tamaño muestral de la media armónica = 5.000. Alfa = .05.

En un grupo estarían las medias de los laboratorios 1, 2 y 3, y en otro grupo las medias de los otros tres laboratorios. Las medias proporcionadas por los laboratorios 1, 2 y 3, son inferiores a las medias proporcionadas por los laboratorios 4, 5 ó 6, para la misma muestra de referencia. En caso de considerar que los 6 laboratorios son elegidos al azar desde una población más numerosa de posibles laboratorios, se aceptarían niveles aleatorios para el factor, y la hipótesis nula para el contraste sería: Ho ≡ la dispersión entre laboratorios (σ 2lab) es nula. Para este caso, en la ventana del procedimiento Analizar, Modelo lineal general, Univariante, colocar la variable concen en el cuadro Dependiente:, y la variable lab en el cuadro Factores aleatorios: y pulsar en Aceptar:

72

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

La correspondiente tabla ANOVA sería la siguiente: Pruebas de los efectos inter-sujetos Variable dependiente: CONCEN Suma de cuadrados Fuente tipo III Intersección Hipótesis 380.208 Error 47.200 LAB Hipótesis 47.200 Error 18.752 a b

Media cuadrática

gl 1 5 5 24

380.208 9.440a 9.440 .781b

F

Significación

40.276

.001

12.082

.000

MS(LAB). MS(Error).

que pone de manifiesto (Fcal = 12.082, P = Sig. = prob(Fk – 1,n – k > Fcal) = 0.000 < 0.05) que existe dispersión entre laboratorios (σ 2lab ≠ 0). Una estimación de la precisión global de la medida de la concentración proporcionada por los laboratorios elegidos, teniendo en cuenta la varianza del método analítico y la varianza entre los laboratorios, sería √Var(lab) + Var(error) = √σ 2lab + σ 2err . Las estimaciones de estas varianzas, a partir de los cuadrados medios de la tabla ANOVA, en el caso de modelos equilibrados (m muestras en cada grupo), serían: σˆ 2err = MSSerr) (cuadrado MSSlab – MSSerr medio del error) = 0.781, y σˆ 2lab = –––––––––––––– = (9.440 – 0.781)/5 = 1.7318). m

II.

Prácticas de estadística univariante

73

7. El programa SPSS permite calcular las componentes de la varianza, para niveles aleatorios, mediante el procedimiento Analizar, Modelo lineal general, Componentes de la Varianza. En la ventana del procedimiento, colocar la variable concen en el cuadro Dependiente:, y la variable lab en el cuadro Factores aleatorios: y pulsar en Aceptar:

74

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

La tabla con las estimaciones de las componentes de la varianza, sería la siguiente: Estimaciones de la varianza Componente Var(LAB) Var(Error)

Estimación 1.732 .781

Variable dependiente: CONCEN. Método: Estimación mínima no cuadrática insesgada. (Ponderación = 1 para Efectos aleatorios y Residual).

que informa de los valores de la varianza del efecto aleatorio (dispersión entre laboratorios, σ 2lab = 1.732) y de la varianza del error del método (σ 2err = 0.781). Si se considera como repetibilidad para la muestra analizada, el valor r, tal que prob(|xi – xj|< r) = 0.95, siendo xi, xj dos medidas individuales realizadas en condiciones de repetibilidad, y considerando como reproducibilidad para la muestra, el valor R, tal que prob(|xi – xj|< R) = 0.95, siendo xi, xj dos medidas individuales realizadas en condiciones de reproducibilidad, se puede estimar los siguientes valores para la repetibilidad y la reproducibilidad de la muestra: r = 2.8 · σˆ err = 2.47 y R = 2.8 · √σ 2err + σ 2lab = 4.44, respectivamente. El valor 2.8 corresponde, aceptando normalidad de las medidas, al valor xi – xj 1.96 · √ 2 = 2.77 (xi ~ N(µ,σR) ⇒ xi – xj ~ N(0,√ 2σR2) ⇒ –––––– ~ N(0,1) ⇒ prob(|xi – xj| σR√ 2 < 1.96 · σR) = 0.95). Los resultados obtenidos con los procedimientos: Analizar, Estadísticos Descriptivos, Analizar, Comparar medias, y Analizar, Pruebas no paramétricas, utilizando la versión 13.0, no difieren de los proporcionados por la anterior versión 11.5. Únicamente existen pequeñas diferencias en la salida gráfica del procedimiento Gráficos, Barras de error. II.4.2. EJEMPLO DE CONTRASTE PARA MÁS DE DOS MEDIAS. ANOVA DE DOS VÍAS Las concentraciones (mg/l) de 1-propanol en 8 vinos elaborados mediante la fermentación de un mismo mosto de uva, en presencia o no de HOLLEJOS y con la adicción o no de SO2 (diseño experimental 22), fueron las siguientes (Herraiz et al., 1990): SO2

HOLLEJOS

0 = No 1 = Sí

0 = No

1 = Sí

38.50

38.13

62.30

55.80

38.70

61.38

31.42

57.21

¿Cómo afectan ambos factores en la concentración del alcohol?

II.

Prácticas de estadística univariante

75

1. Definir las variables hollejos, SO2 y propanol, e introducir los valores de la tabla, y guardar los datos. 2. Calcular los valores descriptivos de la variable propanol, para cada combinación de los niveles de los factores hollejos y SO2, y estudiar el efecto de ambos factores y de su interacción en la concentración de 1-propanol (Martin-Álvarez, 2000). Obtener el gráfico con los valores medios estimados para la variable propanol. 3. Interpretar los resultados y guardarlos, anotando las conclusiones, en un fichero de MS-WORD. Resultados

1. Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. Para estudiar el efecto de los 2 factores y de su interacción en la concentración de 1-propanol, es necesario definir tres nuevas variables en la Vista de Variables: dos de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los niveles de los 2 factores (variable hollejos con valores 0 y 1 para indicar ausencia o presencia de hollejos en el mosto, y la variable SO2 con valores 0 y 1 para indicar ausencia o presencia de SO2 en el mosto), y otra, también de tipo numérico, medida tipo escala, con un ancho de 8 y 2 decimales, para los valores de las concentraciones del alcohol (variable propanol), es decir:

En la pantalla del Visor de datos, se introducen los correspondientes valores de estas 3 nuevas variables, en las columnas 9, 10 y 11: 0, 0 y 38.50 en la fila 1; 0, 0 y 38.70 en la fila 2; …; 1, 1 y 57.21 en la fila 8. Salvar el fichero (Archivo, Guardar):

76

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

2. Para realizar el Análisis de la Varianza (ANOVA), para estos dos factores, con niveles fijos, y poder comprobar si dichos factores, y su interacción, tienen efecto significativo sobre la variable concentración del 1-propanol en los vinos analizados, se puede utilizar el anterior procedimiento: Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar la variable propanol en el cuadro Dependiente:, y las variables hollejos y SO2 en el cuadro Factores fijos: y pulsar en Aceptar.

II.

Prácticas de estadística univariante

77

En esta situación se acepta el modelo: yi,j,k = –y + αi + βj + γi,j + εi,j,k, donde yi,j,k representa la observación k-ésima (concentración del alcohol) de los vinos elaborados con los niveles i-ésimo del factor hollejos y el j-ésimo del factor SO2, –y es un valor medio global, αi es el efecto del nivel i-ésimo del factor hollejos, βj es el efecto del nivel j-ésimo del factor SO2, γi,j la interacción entre el nivel i-ésimo del factor hollejos y el nivel j-ésimo del factor SO2, y εi,j,k sería el término del error. Las hipótesis a contrastar serían: 1) H1 ≡ γi,j = 0 ∀i,j, que supone aceptar que la interacción no tiene efecto sobre la característica analizada, 2) H2 ≡ αi = 0 ∀i, que supone aceptar que el factor hollejos no tiene efecto sobre la característica analizada, y 3) H3 ≡ βj = 0 ∀j, que supone aceptar que el factor SO2 no tiene efecto sobre la característica analizada. Los resultados de este análisis de varianza univariante, con 2 factores, son los siguientes: a) el número de observaciones en cada uno de los niveles de los factores (4 en todos): Factores inter-sujetos N HOLLEJOS SO2

0 1 0 1

4 4 4 4

b) la tabla con los valores descriptivos (media, desviación típica, y número de observaciones) de la variable propanol en cada combinación de los niveles de los factores, y para cada nivel individual de cada factor: Estadísticos descriptivos Variable dependiente: PROPANOL HOLLEJOS 0

1

Total

SO2 0 1 Total 0 1 Total 0 1 Total

Media 38.6000 34.7750 36.6875 61.8400 56.5050 59.1725 50.2200 45.6400 47.9300

Desv. típ. .14142 4.74469 3.51960 .65054 .99702 3.15592 13.42312 12.85430 12.41078

N 2 2 4 2 2 4 4 4 8

c) la tabla ANOVA, con las sumas de cuadrados correspondientes a las fuentes de variación (factor HOLLEJOS, factor SO2, Interacción HOLLEJOS*SO2, Error y Total Corregido), sus grados de libertad (1, 1, 1, 4 y 7, respectivamente), sus cuadrados me-

78

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

dios, los valores del estadístico F-Snedecor para contrastar las tres anteriores hipótesis, y las correspondientes probabilidades asociadas: Pruebas de los efectos inter-sujetos Variable dependiente: PROPANOL Suma de cuadrados tipo III Fuente Modelo corregido 1054.243a Intersección 18378.279 HOLLEJOS 1011.150 SO2 41.953 HOLLEJOS * SO2 1.140 Error 23.949 Total 19456.472 Total corregida 1078.193 a

Media cuadrática

gl 3 1 1 1 1 4 8 7

351.414 18378.279 1011.150 41.953 1.140 5.987

F 58.693 3069.531 168.882 7.007 .190

Significación .001 .000 .000 .057 .685

R cuadrado = .978 (R cuadrado corregida = .961).

que permite obtener las siguientes conclusiones: • Puesto que Fcal = 0.190 y P = 0.685, para la primera hipótesis (H1 ≡ γi,j = 0 ∀i,j), se concluye que no hay motivos para rechazar la hipótesis nula (H1), o que la interacción no tiene un efecto significativo sobre la concentración (P > 0.05). • Puesto que Fcal = 168.882 y P = 0.000, para la segunda hipótesis (H2 ≡ αi = 0 ∀i), hay motivos para rechazar la hipótesis nula (H2), o, equivalentemente, que el factor hollejos tiene un efecto significativo sobre la concentración (P < 0.05) • Puesto que Fcal =7.007 y P=0.057, para la tercera hipótesis (H3 ≡ βj = 0 ∀j), el factor SO2 no tiene un efecto significativo sobre la concentración (P > 0.05) Si en la ventana de Gráficos del anterior procedimiento, se coloca el factor SO2 en el cuadro Eje horizontal, el factor hollejos en el cuadro de Líneas distintas, y se pulsa la tecla Añadir,

II.

Prácticas de estadística univariante

79

se obtiene el siguiente gráfico con los valores medios estimados para cada combinación de los niveles de los 2 factores: Medias marginales estimadas de propanol hollejos 0 1

Medias marginales estimadas

60,00

50,00

40,00

30,00 0

so2

1

que pone de manifiesto: • el efecto significativo del factor hollejos, que da lugar a un mayor valor de la concentración del 1-propanol en los vinos elaborados con la adicción de hollejos en el mosto (valores de 61.84 y 56.50, frente a 38.6 y 34.77), • una pequeña disminución de dicha concentración cuando el SO2 está presente en el mosto, aunque no es significativa al nivel 0.05 (valores de 34.77 frente a 38.60, en ausencia de hollejos, y valores de 56.50 frente a 61.84 en presencia de hollejos), y • que no existe efecto de la interacción entre los dos factores (líneas paralelas, o el incremento en concentración debida a la presencia de hollejos en el mosto es independiente de la adicción o no de SO2). 3. Dado que sólo hay 2 niveles para el factor hollejos, la conclusión sería que la adicción de hollejos en el mosto da lugar a un mayor valor de la concentración del 1propanol en los vinos. En el caso de que este factor tuviese más de 2 niveles, y se quisiera comparar los valores medios con la anterior prueba de S-N-K, se debería utilizar la ventana de Post hoc del anterior procedimiento (Analizar, Modelo lineal general, Univariante). II.4.3. OTRO EJEMPLO DE ANOVA DE DOS VÍAS Las concentraciones (mg/l) de ácido butírico en 8 vinos elaborados mediante la fermentación de un mismo mosto de uva, en presencia o no de HOLLEJOS y con la adicción o no de SO2 (diseño experimental 22), fueron las siguientes (Herraiz et al., 1990):

80

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

SO2

HOLLEJOS

0 = No 1 = Sí

0 = No

1 = Sí

0.82

0.64

0.86

1,87

0.91

1.05

0.57

1.89

¿Cómo afectan ambos factores en la concentración del ácido butírico? ¿La concentración del ácido, es independiente de ambos factores? ¿Existe interacción entre los dos factores? 1. Definir las variables hollejos, SO2 y butirico, e introducir los valores de la tabla, y guardar los datos. 2. Calcular los valores descriptivos de la variable butirico, para cada combinación de los niveles de los factores hollejos y SO2, y estudiar el efecto de ambos factores y de su interacción en la concentración del ácido butírico. Obtener el gráfico con los valores medios estimados para la variable butirico. 3. Interpretar los resultados y guardarlos, anotando las conclusiones, en un fichero de MS-WORD. Resultados:

1. Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. Para estudiar el efecto de los 2 factores y de su interacción en la concentración del ácido butírico, se pueden utilizar las anteriores variables para los factores (hollejos y SO2), del Visor de Variables, y únicamente se necesita definir una nueva variable, de tipo numérico, medida tipo escala, con un ancho de 8 y 2 decimales, para los valores de las concentraciones del ácido butírico (variable butirico), es decir:

En la pantalla del Visor de datos, se introducen los correspondientes valores de esta nueva variable en la columna 12: 0.82 en la fila 1; 0.91 en la fila 2; …; 1.89 en la fila 8. Salvar el fichero (Archivo, Guardar):

II.

Prácticas de estadística univariante

81

2. Como en la anterior práctica II.4.2, para realizar el ANOVA de estos dos factores, con niveles fijos, y poder comprobar si dichos factores, y su interacción, tienen efecto significativo sobre la variable concentración del ácido butírico en los vinos analizados, hay que utilizar el anterior procedimiento: Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar la variable butirico en el cuadro Dependiente:, y las variables hollejos y SO2 en el cuadro Factores fijos:. En la ventana de Opciones elegir Mostrar: Estadísticos descriptivos, pulsar en Continuar y en Aceptar.

82

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados de este análisis de varianza univariante, con 2 factores, son los siguientes: a) el número de observaciones en cada uno de los niveles de los factores (4 en todos): Factores inter-sujetos N HOLLEJOS SO2

0 1 0 1

4 4 4 4

b) la tabla con los valores descriptivos (media, desviación típica, y número de observaciones) de la variable butirico en cada combinación de los niveles de los factores, y para cada nivel individual de cada factor: Estadísticos descriptivos Variable dependiente: BUTIRICO HOLLEJOS 0

1

Total

SO2 0 1 Total 0 1 Total 0 1 Total

Media .8650 .6050 .7350 .9550 1.8800 1.4175 .9100 1.2425 1.0763

Desv. típ. .06364 .04950 .15716 .13435 .01414 .53971 .10033 .73672 .51818

N 2 2 4 2 2 4 4 4 8

c) la tabla ANOVA, con las sumas de cuadrados correspondientes a las fuentes de variación (factor HOLLEJOS, factor SO2, Interacción HOLLEJOS*SO2, Error y Total Corregido), sus grados de libertad (1, 1, 1, 4 y 7, respectivamente), sus cuadrados medios, los valores del estadístico F-Snedecor para las tres anteriores hipótesis, y las correspondientes probabilidades asociadas (recordar que el modelo es: yi,j,k = –y + αi + βj + γi,j + εi,j,k donde yi,j,k ahora representa la concentración del ácido butírico):

II.

Prácticas de estadística univariante

83

Pruebas de los efectos inter-sujetos Variable dependiente: BUTIRICO

Fuente Modelo corregido Intersección HOLLEJOS SO2 HOLLEJOS * SO2 Error Total Total corregida a

Suma de cuadrados tipo III

Media cuadrática

gl

1.855a 9.267 .932 .221 .702 .025 11.146 1.880

3 1 1 1 1 4 8 7

.618 9.267 .932 .221 .702 .006

F 99.924 1497.618 150.564 35.735 113.473

Significación .000 .000 .000 .004 .000

R cuadrado = .987 (R cuadrado corregida = .977).

• Fcal = 113.473, P = 0.000 para H1, que indica que hay motivos para rechazar la hipótesis nula H1 ≡ γi,j = 0 ∀i,j, o que la interacción tiene un efecto significativo sobre la concentración (P < 0.01) • Fcal = 150.564, P = 0.000 para H2, que indica que hay motivos para rechazar la hipótesis nula H2 ≡ αi = 0 ∀i, o, equivalentemente, que el factor hollejos tiene un efecto significativo sobre la concentración (P < 0.01) • Fcal = 35.735, P = 0.004 que indica que hay que rechazar la hipótesis nula H3 ≡ βj = 0 ∀j, o que el factor SO2 también tiene un efecto significativo sobre la concentración (P < 0.01) Si en la ventana de Gráficos del anterior procedimiento, se coloca el factor SO2 en el cuadro Eje horizontal, el factor hollejos en el cuadro de Líneas distintas, y se pulsa Añadir,

84

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

se obtiene el siguiente gráfico con los valores estimados para cada combinación de los niveles de los 2 factores: Medias marginales estimadas de butirico hollejos

2,00

0 1

Medias marginales estimadas

1,80 1,60 1,40 1,20 1,00 0,80 0,60 0

1

so2

que pone de manifiesto la importancia del efecto de la interacción entre los factores (líneas no paralelas), el incremento en concentración en los vinos debida a la presencia de hollejos en el mosto es mucho mayor cuando también se procedió a la adicción de SO2 en el mosto. 3. En cuanto a las conclusiones, lo más importante es el efecto de la interacción entre los factores, que no permite conocer el efecto de un factor, independientemente de los niveles del otro. La presencia de SO2 hace disminuir la concentración del ácido si no hay hollejos en el mosto, y aumentarla en el caso de su presencia. Los valores mayores de la concentración del ácido butírico se dan en los vinos elaborados con la adición de hollejos y de SO2. Los resultados obtenidos con el procedimiento Analizar, Modelo Lineal General, Univariante, utilizando la versión 13.0, no difieren de los proporcionados por la anterior versión 11.5, salvo pequeñas diferencias en la salida gráfica de las medias marginales estimadas. II.4.4. EJEMPLO DE ANOVA DE DOS VÍAS SIN EL TÉRMINO DE LA INTERACCIÓN Las puntuaciones de aceptabilidad general de 3 vinos, proporcionadas por 10 jueces en una prueba descriptiva del análisis sensorial, fueron las siguientes (O’Mahony, 1986):

II.

Prácticas de estadística univariante

85

Jueces

Vino 1

Vino 2

Vino 3

1 2 3 4 5 6 7 8 9 10

12 13 13 11 13 14 12 12 13 14

13 14 14 13 13 12 14 11 13 13

12 11 12 11 11 12 11 11 11 12

¿Se puede aceptar que los tres vinos tienen la misma aceptabilidad general? 1. Definir las variables: vino (con valores 1, 2, 3), juez (con valores 1, 2, …, 10) y puntuac con las correspondientes puntuaciones de la tabla. 2. Estudiar el efecto de los factores vino y juez sobre la variable puntuac. Como únicamente se dispone de una observación por cada combinación de los niveles es preciso considerar un modelo ANOVA de 2 factores sin interacción. Con el programa SPSS utilizar el comando Analizar, Modelo lineal general, Univariante, Modelo: personalizado, efectos principales, sin interacción. 3. Interpretar los resultados y guardarlos, anotando las conclusiones, en un fichero de MS-WORD. Resultados:

1. Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. Para estudiar el efecto de los 2 factores en las puntuaciones de aceptabilidad global de los vinos, es necesario definir tres nuevas variables en la Vista de Variables: dos de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los niveles de los 2 factores (variable vino con valores 1, 2 ó 3, y la variable juez con valores 1, 2, …, ó 10), y otra, también de tipo numérico, medida tipo escala, con un ancho de 8 y 0 decimales, y etiqueta “Aceptabilidad”, para los valores de las puntuaciones de la tabla (variable puntuac).

86

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En la pantalla del Visor de datos, se introducen los correspondientes valores de estas tres variables en las columnas 13, 14 y 15: 1, 1 y 12 en la fila 1; 1, 2 y 13 en la fila 2; …; 3, 10 y 12 en la fila 30. Salvar el fichero (Archivo, Guardar):

2. Para estudiar el efecto de los factores vino y juez sobre la variable puntuac utilizar el comando Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar la variable puntuac en el cuadro Dependiente:, y las variables vino y juez en el cuadro Factores fijos:. En la ventana de Opciones colocar los dos factores en el cuadro Mostrar las medias para: y pulsar en Continuar, y en la de Gráficos, colocar

II.

Prácticas de estadística univariante

87

el factor juez en el cuadro Eje horizontal, y el factor vino en el cuadro de Líneas distintas, y pulsar en Añadir y Continuar. Para especificar que el modelo no tiene el término correspondiente a la interacción ( yi,j = –y + αi + βj + εi,j) hay que abrir la ventana Modelo y elegir Personalizado en Especificar modelo, colocar los dos factores en el cuadro Modelo:, y en Construir términos: poner Efectos principales, pulsar en Continuar. Pulsar en Aceptar.

88

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

II.

Prácticas de estadística univariante

89

Los resultados que se obtienen son los siguientes: a) el número de observaciones en cada uno de los niveles de los factores (10 en los niveles del factor vino y 3 en los del factor juez): Factores inter-sujetos N VINO

JUEZ

1 2 3 1 2 3 4 5 6 7 8 9 10

10 10 10 3 3 3 3 3 3 3 3 3 3

b) la tabla ANOVA, con las sumas de cuadrados correspondientes a las fuentes de variación (factores vino y juez, Error y Total Corregido), sus grados de libertad (2, 9, 18 y 29, respectivamente), sus cuadrados medios, los valores del estadístico F-Snedecor para las dos hipótesis a contrastar, y sus correspondientes probabilidades asociadas (recordar que el modelo es: yi,j = –y + αi + βj + εi,j donde ahora yi,j representa la puntuación): Pruebas de los efectos inter-sujetos Variable dependiente: Aceptabilidad

Fuente Modelo corregido Intersección VINO JUEZ Error Total Total corregida a

Suma de cuadrados tipo III

Media cuadrática

gl a

22.100 4588.033 14.467 7.633 10.867 4621.000 32.967

R cuadrado = .670 (R cuadrado corregida = .469).

11 1 2 9 18 30 29

2.009 4588.033 7.233 .848 .604

F 3.328 7599.810 11.982 1.405

Significación .012 .000 .000 .257

90

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

• Fcal = 11.982, P = 0.000 para H2, que indica que hay motivos para rechazar la hipótesis nula H2 ≡ αi = 0 ∀i, o, equivalentemente, que el factor vino tiene un efecto significativo sobre la puntuación (P < 0.01) • Fcal = 1.405, P = 0.257 que indica que no hay que rechazar la hipótesis nula H3 ≡ βj = 0 ∀j, o que el factor juez no tiene un efecto significativo sobre la puntuación (P > 0.05), o que no existen diferencias entre los jueces (los jueces se comportan de manera homogénea en sus respuestas). c) la tabla con los valores de las medias marginales estimadas para la variable puntuac, en los niveles de los dos factores: 1. VINO Variable dependiente: Aceptabilidad

VINO 1 2 3

Media 12.700 13.000 11.400

Error típ.

Intervalo de confianza al 95% Límite Límite inferior superior

.246 .246 .246

12.184 12.484 10.884

13.216 13.516 11.916

(se observa que el intervalo de confianza para el vino 3 no se solapa con los otros). 2. JUEZ Variable dependiente: Aceptabilidad

JUEZ 1 2 3 4 5 6 7 8 9 10

Media 12.333 12.667 13.000 11.667 12.333 12.667 12.333 11.333 12.333 13.000

Error típ. .449 .449 .449 .449 .449 .449 .449 .449 .449 .449

Intervalo de confianza al 95%. Límite Límite inferior superior 11.391 11.724 12.058 10.724 11.391 11.724 11.391 10.391 11.391 12.058

13.276 13.609 13.942 12.609 13.276 13.609 13.276 12.276 13.276 13.942

d) El gráfico de las medias marginales estimadas por el modelo, para las puntuaciones de la aceptabilidad.

II.

Prácticas de estadística univariante

91

Medias marginales estimadas de Aceptabilidad vino

14

1 2

Medias marginales estimadas

3 13

12

11

10 1

2

3

4

5

6

7

8

9

10

juez

que pone de manifiesto menores valores de las puntuaciones para el vino 3. 3. Los resultados de la prueba de S-N-K para comparar todas las medias de los niveles del factor vino, se pueden obtener utilizando la ventana Post hoc del anterior procedimiento (Analizar, Modelo lineal general, Univariante). Para ello colocar el factor vino en el cuadro Contraste Post hoc para:, seleccionar la prueba S-N-K en el apartado Asumiendo varianzas iguales, y pulsar en Continuar, y en Aceptar,

92

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados de la prueba son: Aceptabilidad Student-Newman-Keuls a,b VINO 3 1 2 Significación

a b

Subconjunto 1 2

N 10 10 10

11.40

1.000

12.70 13.00 .399

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .604. Usa el tamaño muestral de la media armónica = 10.000. Alfa = .05.

que indican que únicamente las puntuaciones del vino 3 son inferiores a las de los otros dos vinos. II.4.5. OTRO EJEMPLO DE ANOVA DE DOS VÍAS SIN EL TÉRMINO DE LA INTERACCIÓN Los resultados de las concentraciones (mg/l) de un cierto compuesto, proporcionadas por 5 métodos analíticos diferentes, en 6 muestras distintas, fueron los siguientes (Sharaf et al., 1986): Muestra 1

Muestra 2

Muestra 3

Muestra 4

Muestra 5

Muestra 6

Método 1

4.82

9.86

15.40

12.00

13.10

17.20

Método 2

4.81

9.92

15.50

11.95

13.12

17.22

Método 3

4.40

9.30

14.80

11.00

12.30

16.50

Método 4

4.78

9.90

15.40

12.03

13.15

17.18

Método 5

4.79

9.91

15.45

11.90

13.11

17.20

¿Se puede aceptar la igualdad de los resultados analíticos proporcionados por los 5 métodos? 1. Definir las variables muestra (con valores 1, 2, 3, 4, 5, 6), metodo (con valores 1, 2, 3, 4, 5) y concent con los correspondientes valores de la tabla, y guardar los datos. 2. Estudiar el efecto de los factores muestra y método sobre la variable concent. 3. Interpretar los resultados y guardarlos, anotando las conclusiones, en un fichero de MS-WORD. 4. Repetir eliminando el Método 3, e interpretar los resultados. Resultados:

1. Ejecutar el programa SPSS y abrir el fichero de datos pracunic.bas utilizado en las anteriores prácticas. Para estudiar el efecto de los 2 factores (muestra, metodo) en los

II.

Prácticas de estadística univariante

93

valores de las concentraciones (variable concent), es necesario definir tres nuevas variables en la Vista de Variables: dos de tipo numérico, medida tipo escala, con un ancho de 4 y sin decimales, para identificar los niveles de los 2 factores (variable muestra con valores 1, 2, …, ó 6, y la variable metodo con valores 1, 2, …, ó 5), y otra, también de tipo numérico, medida tipo escala, con un ancho de 8 y 2 decimales, para los valores de las concentraciones de la tabla (variable concent).

En la pantalla del Visor de datos, hay que introducir los correspondientes valores de estas tres variables en las columnas 16, 17 y 18: 1, 1 y 4.82 en la fila 1; 2, 1 y 4.81 en la fila 2; …; 5, 6 y 17.20 en la fila 30.

Salvar el fichero (Archivo, Guardar).

94

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

2.-3. Para estudiar el efecto de los factores metodo y muestra sobre la variable concent utilizar el comando Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar la variable concent en el cuadro Dependiente:, y las variables metodo y muestra en el cuadro Factores fijos:. En la ventana de Opciones colocar los dos factores en el cuadro Mostrar las medias para: y pulsar en Continuar, y en la de Gráficos, colocar el factor muestra en el cuadro Eje horizontal, y el factor metodo en el de Líneas distintas, y pulsar en Añadir y Continuar. Para especificar que el modelo no tiene el término correspondiente a la interacción, abrir la ventana Modelo y elegir Personalizado en Especificar modelo, colocar los dos factores en el cuadro Modelo:, y en Construir términos: poner Efectos principales, pulsar en Continuar. Pulsar en Aceptar.

II.

Prácticas de estadística univariante

95

96

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados que se obtienen son los siguientes: a) el número de observaciones en cada uno de los niveles de los factores (6 en los métodos, y 5 en las muestras): Factores inter-sujetos N METODO

MUESTRA

1 2 3 4 5 1 2 3 4 5 6

6 6 6 6 6 5 5 5 5 5 5

b) la tabla ANOVA, con las sumas de cuadrados correspondientes a las fuentes de variación (factores metodo y muestra, Error y Total Corregido), sus grados de libertad (4, 5, 20 y 29, respectivamente), sus cuadrados medios, los valores del estadístico F-Snedecor para las dos hipótesis a contrastar, y sus correspondientes probabilidades

II.

Prácticas de estadística univariante

97

asociadas (recordar que el modelo es: yi,j = –y + αi + βj + εi,j, donde ahora yi,j representa la concentración: Pruebas de los efectos inter-sujetos Variable dependiente: CONCENT

Fuente Modelo corregido Intersección METODO MUESTRA Error Total Total corregida a

Suma de cuadrados tipo III

Media cuadrática

gl

479.435a 4272.133 2.271 477.164 .172 4751.741 479.607

9 1 4 5 20 30 29

53.271 4272.133 .568 95.433 .009

F

Significación

6194.737 496798.2 66.032 11097.701

.000 .000 .000 .000

R cuadrado = 1.000 (R cuadrado corregida = .999).

• Fcal = 66.032, P = 0.000 para H2, que indica que hay motivos para rechazar la hipótesis nula H2 ≡ αi = 0 ∀i, o, equivalentemente, que el factor método tiene un efecto significativo sobre la concentración (P < 0.01), o que los métodos analíticos difieren. • Fcal = 11097.701, P = 0.000 que indica que hay que rechazar la hipótesis nula H3 ≡ βj = 0 ∀i, o que el factor muestra tiene un efecto significativo sobre la concentración (P < 0.01), o que, como era de esperar, existen diferencias entre las muestras analizadas. c) la tabla con los valores de las medias marginales estimadas para la variable concent, en los niveles de los factores: 1. MÉTODO Variable dependiente: CONCENT

METODO 1 2 3 4 5

Media 12.063 12.087 11.383 12.073 12.060

Error típ. .038 .038 .038 .038 .038

Intervalo de confianza al 95%. Límite Límite inferior superior 11.984 12.008 11.304 11.994 11.981

12.142 12.166 11.462 12.152 12.139

(se observa que el intervalo de confianza para el método 3 no se solapa con los otros)

98

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

2. MUESTRA Variable dependiente: CONCENT

MUESTRA 1 2 3 4 5 6

Media

Intervalo de confianza al 95%. Límite Límite inferior superior

Error típ.

4.720 9.778 15.310 11.776 12.956 17.060

.041 .041 .041 .041 .041 .041

4.633 9.691 15.223 11.689 12.869 16.973

4.807 9.865 15.397 11.863 13.043 17.147

d) El gráfico de las medias marginales estimadas por el modelo, para las concentraciones: Medias marginales estimadas de concent metodo

18,00

1 2 16,00

3

Medias marginales estimadas

4 5

14,00

12,00

10,00

8,00

6,00

4,00 1

2

3

4

5

6

muestra

que pone de manifiesto menores valores de las concentraciones del método 3. Para comparar todas las medias de los niveles del factor método, se puede utilizar la ventana Post hoc del anterior procedimiento (Analizar, Modelo lineal general, Univariante). Para ello colocar el factor metodo en el cuadro Contraste Post hoc para:, seleccionar la prueba S-N-K en el apartado Asumiendo varianzas iguales, y pulsar en Continuar, y en Aceptar,

II.

Prácticas de estadística univariante

99

Los resultados de la prueba de S-N-K son los siguientes: CONCENT Student-Newman-Keulsa,b METODO 3 5 1 4 2 Significación

a b

Subconjunto 1 2

N 6 6 6 6 6

11.3833

1.000

12.0600 12.0633 12.0733 12.0867 .959

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .009. Usa el tamaño muestral de la media armónica = 6.000 Alfa = .05.

que indica que el método 3 proporciona valores menores para las concentraciones que los otros métodos. 4. Los resultados que se obtienen al eliminar el método analítico 3 (Datos, Seleccionar casos, Si se satisface la condición: Si metodo ~ = 3), ponen de manifiesto que únicamente existe diferencias entre las muestras (P = 0.000 < 0.05), pero no entre los métodos (P = 0.585 > 0.05).

100

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Pruebas de los efectos inter-sujetos Variable dependiente: concent

Fuente Modelo corregido Intersección metodo muestra Error Total Total corregida a

Suma de cuadrados tipo III 385,371a 3496,920 ,003 385,368 ,019 3882,311 385,390

gl 8 1 3 5 15 24 23

R cuadrado = 1,000 (R cuadrado corregida = 1,000).

Media cuadrática 48,171 3496,920 ,001 77,074 ,001

F 37310,02 2708458 ,667 59695,63

Significación ,000 ,000 ,585 ,000

III. PRÁCTICAS DE ESTADÍSTICA BIVARIANTE

III.1. EJEMPLO DE REGRESIÓN SIMPLE Aplique el análisis de regresión lineal simple a los siguientes datos de un calibrado (X = concentración del analito, Y = variable respuesta del método): X (concentración)

0

1

2

3

4

5

6

Y (respuesta)

.1

3.8

10

14.4

20.7

26.9

29.1

1. Abra el programa SPSS, defina las variables X e Y, introduzca estos datos, y guárdelos en un fichero con nombre practbiv.sav en la unidad A:. 2. Utilizando el procedimiento Analizar, Regresión, Lineal, obtenga los resultados del análisis de regresión lineal simple de la variable Y sobre la variable X (modelo teórico Yi = β0 + β1Xi + εi): • parámetros estimados (coeficientes de regresión: b0 y b1) y los intervalos de confianza, • la tabla ANOVA, • el coeficiente de determinación (R2) y la desviación estándar residual (s), • valores observados (Yi ), valores calculados ( Yˆï = b0 + b1Xi ), y residuos (ei = (Yi – Yˆï )), • el gráfico de dispersión de los residuos tipificados (ei* = ei /s) frente a los valores observados, y el gráfico de probabilidad normal de los residuos, y • guarde, como nuevas variables, los valores calculados y los residuos. Observe e interprete cada uno de los resultados generados. Compruebe que se han creado dos nuevas variables con nombres pre_1 y res_1, en el Visor de datos.

102

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

3. Obtenga el diagrama de dispersión de los datos con la recta de regresión y las bandas de confianza al 95% (utilice el procedimiento Gráficos, Interactivos, Diagrama de dispersión). 4. Obtenga el Diagrama de dispersión de los valores calculados frente a los observados para la variable Y (utilice Gráficos, Dispersión), incluyendo la recta de ajuste. 5. Copie los resultados en un fichero MS-WORD, y anote las conclusiones. 6. Guarde el fichero de datos y salga del programa SPSS. Resultados:

1. Ejecute el programa SPSS, seleccione Introduzca datos, y pulse Aceptar. En las dos primeras columnas del Visor de datos, introduzca los anteriores valores para las variables x e y (0 y 0.1 en la primera fila, 1 y 3.8 en la segunda fila, …, 6 y 29.1 en la séptima fila),

Abra el Visor de variables, cambie los nombres de las variables (var00001 por x, y var00002 por y), modificar el número de decimales, y mantener las demás características (tipo numérico, ancho 8, …, alineación derecha, medida tipo escala).

III.

Prácticas de estadística bivariante

103

Guarde el fichero de datos con nombre practbiv.sav utilizando Archivo, Guardar como. 2. Para realizar el calibrado lineal de los datos hay que utilizar el procedimiento Analizar, Regresión, Lineal, y colocar la variable x en el cuadro Independientes:, y la variable y en el cuadro Dependiente:

104

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En la ventana Estadísticos… seleccione Estimaciones e Intervalos de confianza en Coeficientes de regresión, y Ajuste del modelo, para obtener los parámetros estimados y los intervalos de confianza, pulse Continuar,

Para obtener el gráfico de dispersión de los residuos tipificados frente a los valores observados, y el gráfico de probabilidad normal de los residuos, hay que abrir la ventana Gráficos… y colocar la variable DEPENDNT en el cuadro del eje X, y la variable ZRESID en el cuadro de la variable Y, y seleccionar Gráfico de prob. normal en Gráficos de residuos tipificados, y pulsar Continuar,

III.

Prácticas de estadística bivariante

105

Para guardar, como nuevas variables, los valores calculados y los residuos, hay que abrir la ventana Guardar… y seleccionar No tipificados en Valores pronosticados, y No tipificados en Residuos, y pulsar Continuar,

En la ventana Opciones…, compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse Continuar.

106

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Por último, pulse Aceptar en la ventana del procedimiento Analizar, Regresión, Lineal. Los resultados que se obtienen, en el Visor de resultados, son los siguientes:

Regresión

Variables introducidas/eliminadasb Modelo 1 a b

Variables introducidas

Variables eliminadas

Xa

Método .

Introducir

Todas las variables solicitadas introducidas. Variable dependiente: Y.

que informa sobre las variables utilizadas en el modelo. Resumen del modelob Modelo 1 a b

R cuadrado corregida .990

R R cuadrado a .996 .992

Error típ. de la estimación 1.1115

Variables predictoras: (Constante), X. Variable dependiente: Y.

que proporciona los indicadores de la bondad de ajuste del modelo: coeficiente de determinación, R2 = 0.992, su raíz cuadrada: R = 0.996 o valor absoluto del coeficiente de correlación (r), y la desviación estándar residual o error típico de la estimación, s = 1.1115. ANOVAb Modelo 1

a b

Suma de cuadrados Regresión Residual Total

739.543 6.177 745.720

Media cuadrática

gl 1 5 6

739.543 1.235

F 598.647

Sig. .000a

Variables predictoras: (Constante), X. Variable dependiente: Y.

que es la tabla del ANOVA para la regresión: que informa de la suma de cuadrados de la descomposición de la variabilidad total de los valores de la variable Y (Total), en la parte explicada por el modelo (Regresión) y la correspondiente al error (Residual), los correspondientes grados de libertad (gl), los cuadrados medios y el valor del estadístico F-Snedecor (F = 598.647), junto con la probabilidad asociada para el contraste H0 ≡ β1 = 0 (Sig. = P = 0.000). Dado que P < 0.05 se acepta hipótesis alternativa H1 ≡ β1 ≠ 0, es decir, no se puede aceptar un valor constante para la variable Y.

III.

Prácticas de estadística bivariante

107

Coeficientesa Coeficientes no estandarizados Modelo 1 a

B (Constante) X

-.418 5.139

Error típ. .757 .210

Coeficientes estandarizados Beta .996

t

Sig.

-.552 24.467

Intervalo de confianza para B al 95% Límite superior Límite inferior

.605 .000

-2.365 4.599

1.529 5.679

Variable dependiente: Y.

que proporciona información sobre los coeficientes de regresión estimados (no estandarizados, b0 = – 0.418, b1 = 5.139, es decir el modelo ajustado sería: ( Yˆ = – 0.418 + 5.139 · X), sus desviaciones típicas (error típico de b0 = 0.757, error típico de b1 = 0.210), el valor del estadístico t-Student y su probabilidad asociada para el contraste H0 ≡ β1 = 0 (t = – 0.552 y P = 0.605 para H0 ≡ β0 = 0, t = 24.467 y P = 0.000 para H0 ≡ β1 = 0), los intervalos de confianza al 95% para los parámetros del modelo: (– 2.365, 1.529) para β0, que incluye el valor 0 e indica que la constante podría eliminarse del modelo, y (4.599,5.679) para β1. Estadísticos sobre los residuosa Mínimo Valor pronosticado Residuo bruto Valor pronosticado tip. Residuo tip. a

-.418 -1.318 -1.389 -1.186

Máximo 30.418 1.621 1.389 1.459

Media 15.000 .000 .000 .000

Desviación típ. 11.1021 1.0146 1.000 .913

N 7 7 7 7

Variable dependiente: Y.

que proporciona información estadística (mínimo, máximo, media y desviación típica) sobre los valores calculados (pronosticados), los residuos, y los correspondientes valores estandarizados.

108

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Gráficos Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: y

1,0

Prob acum esperada

0,8

0,6

0,4

0,2

0,0 0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

que es el gráfico de probabilidad normal de los residuos tipificados, que permite aceptar la normalidad de los mismos Gráfico de dispersión Variable dependiente: y

Regresión Residuo tipificado

1,5

1,0

0,5

0,0

-0,5

-1,0

-1,5 0,0

5,0

10,0

15,0

20,0

25,0

30,0

y

que es el gráfico de dispersión de los residuos tipificados frente a los valores observados de Y, y que en principio, no parece indicar anomalías para el modelo.

III.

Prácticas de estadística bivariante

109

En el Visor de datos figuran dos nuevas variables con nombres pre_1 y res_1, que corresponden a los valores calculados y a los residuos, respectivamente:

3. Para obtener el diagrama de dispersión de los datos con la recta de regresión y las bandas de confianza al 95%, hay que utilizar el procedimiento Gráficos, Interactivos, Diagrama de dispersión.

y en la ventana del procedimiento, en la ficha de Asignar variables, seleccione Coordenada 2-D, y arrastre la variable Y hasta el cuadro para el Eje Y y la variable X hasta el cuadro del Eje X; en la ficha de Ajuste, en Método seleccione Regresión e Incluir constante en la ecuación; y en Líneas de pronóstico seleccione Media e Intervalo de confianza al 95%, y en Ajustar líneas para seleccione Total, y pulse Aceptar.

110

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

III.

Prácticas de estadística bivariante

111

Los resultados son los siguientes: Gráfico interactivo 30,0

Regresión lineal con Intervalo de predicción de la media al 95,00%

1y = -0.42 + 5.14 * x R-cuadrado = 0.99

y

20,0

10,0

0,0 0

2

4

6

x

El gráfico puede modificarse (pulse dos veces sobre él, mover la leyenda general y la del ajuste de la recta con el ratón, cambie la fuente del texto una vez seleccionado utilizando el botón derecho del ratón, cambie el estilo, color y tamaño de los símbolos…), para quedar en la forma: Regresión lineal con Intervalo de predicción de la media al 95.00% 30,0 1y = -0.42 + 5.14 * x R-cuadrado = 0.99

y

20,0

10,0

0,0

0

2

x

4

6

4. Para obtener el diagrama de dispersión de los valores calculados para la variable Y frente a los observados, se puede utilizar el procedimiento Gráficos, Dispersión/Puntos, Dispersión simple. Coloque en el cuadro del Eje X la variable Y, y en el cuadro del Eje Y la variable pre_1, y pulse Aceptar:

112

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Como resultado se obtiene el siguiente grafico:

Unstandardized Predicted Value

30,00000

20,00000

10,00000

0,00000

0,0

5,0

10,0

15,0

y

20,0

25,0

30,0

III.

Prácticas de estadística bivariante

113

que puede modificarse con el Editor de gráficos del SPSS (pulse dos veces sobre él). Para modificar el título de los ejes, o modificar el rango de los datos visualizados, pulse dos veces con el botón izquierdo del ratón; cambie el texto, y modifique el rango (Propiedades, Escala). Para incluir línea de ajuste hay que utilizar la herramienta Elementos, Línea de ajuste total, y en Propiedades, Ajustar línea, seleccione Lineal en Método de ajuste. Si se quiere incluir las bandas de confianza, elegir Media en Intervalos de confianza. Pulse Aplicar y Cerrar.

Una vez completadas las modificaciones y cerrada la ventana del Editor de gráficos (Archivo, Cerrar), tendríamos en la Ventana de Resultados, el siguiente gráfico:

Valores calculados de Y

30,00

20,00

10,00

0,00

Sq r lineal = 0,992

0,0

5,0

10,0

15,0

20,0

Valores observados de Y

25,0

30,0

114

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

5. En la Ventana de resultados se pueden seleccionar las tablas o gráficos que se quieran imprimir directamente (utilizando la herramienta Archivo, Imprimir), o copiar (con la herramienta Edición, Copiar objetos) en un fichero MS-WORD. 6. Por último guarde el fichero de datos y salga del programa SPSS. A la vista de los resultados, que indican que no es preciso incluir el término independiente en el modelo teórico (se acepta H0 ≡ β0 = 0), se podría repetir el procedimiento Analizar, Regresión, Lineal, pero sin Incluir constante en la ecuación del modelo en la ventana Opciones. Los resultados que se obtienen son: Yˆ = 5.043 · X, y valores de 0.997 y 1.045 para el coeficiente de determinación (R2) y para la desviación estándar residual (s). III.2. EJEMPLO DE REGRESIÓN POLINÓMICA ¿Puede aceptarse un modelo lineal de primer orden para los siguientes datos de un calibrado?: X (conc.)

0

1

2

3

4

5

Y (resp.)

.2

3.6

7.5

11.5

15

17

6

7

8

9

10

20.4 22.7 25.9 27.6 30.2

En caso negativo obtenga la regresión polinómica de segundo orden de la variable Y frente a X. 1. Abra el programa SPSS, y recupere el archivo practbiv.sav. Defina las nuevas variables X2 e Y2 con los datos anteriores de X e Y (el programa no admite 2 variables con el mismo nombre), y guarde el fichero con estos nuevos datos. 2. Obtenga los resultados de la aplicación del análisis de regresión lineal simple de Y2 sobre X2, incluyendo el gráfico de dispersión de los residuos tipificados frente a los valores observados para la variable Y2. Interprete los resultados. ¿Se puede aceptar un modelo lineal? 3. En caso de no aceptar un modelo lineal de primer orden, ajustar un polinomio de segundo grado, y guarde los valores calculados. Analizar los resultados y observar que se ha creado una nueva variable con nombre fit_1. 4. Obtener el gráfico con los valores calculados y observados para la variable Y2 en función de la variable X2. 5. Seleccionar los resultados para imprimir o copiar en un fichero de MS-WORD. Guarde los datos y salga del SPSS. Resultados:

1. Ejecute el programa SPSS, y abra el anterior fichero practbiv.sav (seleccione el fichero practbiv.sav y pulse Aceptar, si se encuentra en el cuadro Abra una fuente de datos existente, o pulse Cancelar y utilice la herramienta de Archivo, Abrir, Datos, desde la unidad y correspondiente carpeta donde resida el fichero practbiv.sav). En las columnas 5 y 6 del Visor de datos, introduzca los anteriores valores para las variables x2 e y2 (0 y 0.2 en la primera fila, 1 y 3.6 en la segunda fila, 2 y 7.5 en la tercera fila, …, 10 y 30.2 en la fila 11),

III.

Prácticas de estadística bivariante

115

2. Para realizar el calibrado lineal de los datos hay que utilizar el procedimiento Analizar, Regresión, Lineal, y colocar la variable x2 en el cuadro Independientes: y la variable y2 en el cuadro Dependiente. En la ventana Gráficos… coloque la variable ZRESID en el cuadro de la variable Y y la variable DEPENDNT en el cuadro del eje X, y seleccione también el Gráfico de prob. normal en Gráficos de residuos tipificados, pulse Continuar. En la ventana Opciones…, compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse Continuar. Pulse Aceptar en la ventana del procedimiento Analizar, Regresión, Lineal. Los resultados que se obtienen incluyen las siguientes tablas y gráficos: Variables introducidas/eliminadasb Modelo 1 a b

Variables introducidas X2a

Variables eliminadas .

Método Introducir

Todas las variables solicitadas introducidas. Variable dependiente: Y2.

que informa sobre las variables utilizadas en el modelo. Resumen del modelob Modelo 1 a b

R .995a

R cuadrado .990

R cuadrado corregida .989

Error típ. de la estimación 1.0274

Variables predictoras: (Constante), X2. Variable dependiente: Y2.

que proporciona los indicadores de la bondad de ajuste del modelo: coeficiente de determinación, R2 = 0.990, su raíz cuadrada R = 0.995, y la desviación estándar residual o error típico de la estimación, s = 1.0274.

116

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

ANOVAb Modelo 1

a b

Suma de cuadrados Regresión Residual Total

984.009 9.500 993.509

Media cuadrática

gl 1 9 10

984.009 1.056

F 932.219

Sig. .000a

Variables predictoras: (Constante), X2. Variable dependiente: Y2.

que es la tabla del ANOVA para la regresión: que informa de la suma de cuadrados de la descomposición de la variabilidad total de los valores de la variable Y (Total), en la parte explicada por el modelo (Regresión) y la correspondiente al error (Residual), los correspondientes grados de libertad (gl), los cuadrados medios y el valor del estadístico F-Snedecor (F = 932.219), junto con la probabilidad asociada para el contraste H0 ≡ β1 = 0 (Sig. = P = 0.000). Dado que P < 0.05 se acepta hipótesis alternativa H1 ≡ β1 ≠ 0, es decir, no se puede aceptar un valor constante para la variable Y2. Coeficientesa Coeficientes no estandarizados B Error típ.

Modelo 1 a

(Constante) X2

1.555 2.991

Coeficientes estandarizados Beta

.580 .098

.995

t 2.682 30.532

Sig. .025 .000

Variable dependiente: Y2.

que proporciona información sobre los coeficientes de regresión estimados (no estandarizados, b0 = 1.555, b1 = 2.991), sus desviaciones típicas (error típico de b0 = 0.580, error típico de b1 = 0.098), el valor del estadístico t-Student y su probabilidad asociada para el contraste H0 ≡ βi = 0 (t = 2.682 y P = 0.025 para H0 ≡ β0 = 0, t = 30.532 y P = 0.000 para H0 ≡ β1 = 0). Estadísticos sobre los residuosa Mínimo Valor pronosticado Residuo bruto Valor pronosticado tip. Residuo tip. a

1.555 -1.355 -1.508 -1.318

Máximo 31.464 1.482 1.508 1.442

Media 16.509 .000 .000 .000

Desviación típ. 9.9197 .9747 1.000 .949

N 11 11 11 11

Variable dependiente: Y2.

que proporciona información estadística (mínimo, máximo, media y desviación típica) sobre los valores calculados (pronosticados), los residuos, y los correspondientes valores estandarizados.

III.

Prácticas de estadística bivariante

117

Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: y2

1,0

Prob acum esperada

0,8

0,6

0,4

0,2

0,0 0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

que es el gráfico de probabilidad normal de los residuos tipificados, que permite aceptar la normalidad de los mismos.

Gráfico de dispersión Variable dependiente: y2

Regresión Residuo tipificado

1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 0,0

10,0

20,0

y2

30,0

118

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

que es el gráfico de dispersión de los residuos tipificados frente a los valores observados de y2, y que parece indicar una cierta curvatura, incompatible con el modelo lineal. La curvatura también se aprecia en el siguiente gráfico con el diagrama de dispersión de los datos y la recta de regresión ajustada, obtenida con el procedimiento Gráficos, Interactivos, Diagrama de dispersión (valores observados por debajo de la línea para valores inferiores de x2, luego por encima de la línea, y otra vez por debajo para valores superiores de x2): Regresión lineal 30,0

1y2 = 1,55 + 2,99 * x2 R-cuadrado = 0,99

y2

20,0

10,0

0,0 0,0

2,5

5,0

7,5

10,0

x2

3.-4. Para ajustar un polinomio de segundo grado a los datos, hay que realizar el análisis de regresión polinómica de segundo orden (modelo Y = β0 + β1X + β2X 2 + ε) mediante el procedimiento Analizar, Regresión, Estimación Curvilínea,

III.

Prácticas de estadística bivariante

119

En la ventana del procedimiento, coloque la variable y2 en el cuadro Dependientes: y la variable x2 en el cuadro Variable: del apartado Independiente. Seleccione Cuadrático en Modelos: y Mostrar tabla de ANOVA, Representar los modelos e Incluir constante en la ecuación. En la ventana Guardar…, seleccione Valores pronosticados en Guardar variables. Pulse Continuar y Aceptar.

120

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados que se obtienen son los siguientes:

Cuadrático Resumen del modelo

R

R cuadrado

R cuadrado corregida

,999

,998

,999

Error típico de la estimación ,399

La variable independiente esx2.

con el valor del R2 (.999) y el de la desviación estándar residual, o error típico de la estimación (.399) ANOVA Suma de cuadrados Regresión Residual Total

992,233 1,276 993,509

Media cuadrática

gl 2 8 10

496,116 ,160

F 3109,902

Sig. ,000

La variable independiente esx2.

la tabla ANOVA de la regresión con el valor del estadístico F-Snedecor = 3109.90 y su significación P = 0.000, que informa que alguno de los parámetros β1 o β2 no es cero, es decir no es posible aceptar el modelo teórico Y = β0. Coeficientes

x2 x2 ** 2 (Constante)

Coeficientes no estandarizados B Error típico 3,970 ,142 -,098 ,014 ,086 ,304

Coeficientes estandarizados Beta 1,321 -,338

t 28,041 -7,180 ,283

Sig. ,000 ,000 ,785

la tabla con los valores de los coeficientes de regresión estimados para el modelo ( Yˆ = 0.086 + 3.970 · X – 0.098 · X 2), así como los resultados de los contrastes H0 ≡ βi = 0 para cada uno de los tres parámetros del modelo teórico (valores del estadístico t-Student y su probabilidad asociada, que indican que sería posible aceptar H0 ≡ β0 = 0, puesto que P = 0.785 > 0.05).

III.

Prácticas de estadística bivariante

121

y2

Observada Cuadrático

30,0

20,0

10,0

0,0 0

2

4

6

8

10

x2

que es la representación de los valores observados (Yi ) y calculados, por el modelo ( Yˆ = 0.086 + 3.970 · X – 0.098 · X 2), para cada valor de la variable independiente (Xi ). Los resultados proporcionados por la versión 11.5 del SPSS eran los siguientes: Estimación curvilínea MODEL: MOD_1. Dependent variable.. Y2

Method.. QUADRATI

Listwise Deletion of Missing Data Multiple R R Square Adjusted R Square Standard Error

.99936 .99872 .99839 .39941

Analysis of Variance: DF Sum of Squares Regression 2 Residuals 8

Mean Square 992.23287 1.27622

F =

Signif F =

3109.90247

496.11643 .15953

.0000

-------------------- Variables in the Equation -------------------Variable X2 X2**2 (Constant)

B

SE B

Beta

T

Sig T

3.969930 -.097902 .086014

.141574 .013636 .304291

1.320971 -.338230

28.041 -7.180 .283

.0000 .0001 .7846

The following new variables are being created: Name FIT_1

Label Fit for Y2 with X2 from CURVEFIT, MOD_1 QUADRATIC

122

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Y2 40

30

20

10

0 Observada Cuadrático

-10 -2

0

2

4

6

8

10

12

X2

Esta salida gráfica se podía modificar utilizando el Editor de gráficos, para lograr una mejor resolución (seleccionando los puntos de la serie Observada, de la leyenda, y utilizando la herramienta Formato, Interpolación, elegir Ninguna en Estilo de interpolación, aumentando el tamaño de los símbolos con la herramienta Formato, Marcadores, Aplicar y Cerrar; cambiando el color de los símbolos con la herramienta Formato, Color, Aplicar y Cerrar; eliminando la leyenda con la herramienta Diseño, Leyenda, Aceptar; centrando y cambiando el título del Eje X y eliminando el Texto Y2). Con esas modificaciones se podía obtener la siguiente figura: 40

30

20

10

0

-10 -2

0

2

4

x

6

8

10

12

III.

Prácticas de estadística bivariante

123

A la vista de los resultados, que indican que no es preciso incluir el término independiente en el modelo teórico (se acepta H0 ≡ β0 = 0), se podría repetir el procedimiento Analizar, Regresión, Estimación Curvilínea, pero sin Incluir constante en la ecuación del modelo. Los resultados que se obtienen son los siguientes: Resumen del modelo a

R 1,000 a

Error típico de la estimación ,378

R cuadrado corregida 1,000

R cuadrado 1,000

La variable independiente esxt2. La ecuación se estimó sin el término constante.

ANOVAa Suma de cuadrados Regresión

3990,271 1,289 3991,560

Residual Total a

Media cuadrática

gl 2 9 11

F

1995,136 ,143

13930,67

Sig. ,000

La variable independiente esx2. La ecuación se estimó sin el término constante.

Coeficientes Coeficientes estandarizados Beta

Coeficientes no estandarizados B Error típico x2 x2 ** 2

4,003 -,100

,078 ,010

t

1,243 -,253

51,583 -10,505

y2 Observada Cuadrático 30,0

20,0

10,0

0,0 0

2

4

6

x2

8

10

Sig. ,000 ,000

124

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

que muestra que el modelo estimado sería: Yˆ = 4.003X – 0.100 · X 2, con un valor de R2 = 1.000 y una desviación estándar residual (s) = .378. En el Visor de Datos se habrá creado una nueva variable (fit_2) con los nuevos valores calculados (Yˆ = 4.003X – 0.100 · X 2).

5. Copiar y pegar resultados (Edición, Copiar objetos; Edición, Pegar), y salir del SPSS (Archivo, Salir). III.3. EJEMPLO DE REGRESIÓN POLINÓMICA CON REPETICIONES ¿Puede aceptarse un modelo lineal de primer orden de la variable Y3 frente a la variable X3, para los siguientes datos?: X3

5.0

5.0

5.0

10.0

10.0

10.0

20.0

20.0

20.0

30.0

Y3

.32

.30

.35

.53

.55

.52

1.01

.99

1.14

1.55

X3

30.0

30.0

40.0

40.0

40.0

Y3

1.50

1.50

1.85

1.83

1.85

En caso negativo obtenga la regresión polinómica de segundo orden de la variable Y3 frente a X3. 1. Abra el programa SPSS. Recupere el archivo practbiv.sav, y defina las variables X3 e Y3 con los anteriores datos. Guarde el fichero con estos nuevos datos. 2. Obtenga los resultados de la aplicación del análisis de regresión lineal de la variable Y3 frente a la X3. Contraste la falta de ajuste del modelo lineal (Utilice el ANOVA de un factor para calcular el puro error). Interprete los resultados. 3. En caso de falta de ajuste del modelo lineal, Obtenga los resultados de la aplicación del análisis de regresión polinómica de la variable Y3 frente a la X3. 4. Guarde los resultados en un fichero de MS-WORD, y salga del SPSS.

III.

Prácticas de estadística bivariante

125

Resultados:

1. Ejecute el programa SPSS, y abra el anterior fichero practbiv.sav (seleccione el fichero practbiv.sav y pulse Aceptar, si se encuentra en el cuadro Abra una fuente de datos existente, o pulse Cancelar y utilice la herramienta de Archivo, Abrir, Datos, desde la unidad y correspondiente carpeta donde resida el fichero practbiv.sav). En las columnas 9 y 10 del Visor de datos, introduzca los anteriores valores para las variables x3 e y3 (5 y 0.32 en la primera fila, 5 y .30 en la segunda fila, 5 y .35 en la tercera fila, …, 40 y 1.85 en la fila 15),

2. Para realizar la regresión lineal de los datos hay que utilizar el procedimiento Analizar, Regresión, Lineal, y colocar la variable x3 en el cuadro Independientes: y la variable y3 en el cuadro Dependiente. En la ventana Gráficos… coloque la variable ZRESID en el cuadro del eje Y y la variable DEPENDNT en el cuadro del eje X, y seleccione también el Gráfico de prob. normal en Gráficos de residuos tipificados, pulse Continuar. En la ventana Opciones…, compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse Continuar. Pulse Aceptar en la ventana del procedimiento Analizar, Regresión, Lineal. Los resultados que se obtienen incluyen las siguientes tablas y gráficos: Regresión

Variables introducidas/eliminadasb Modelo 1 a b

Variables introducidas X3a

Variables eliminadas

Todas las variables solicitadas introducidas. Variable dependiente: Y3.

que informa sobre las variables utilizadas en el modelo.

.

Método Introducir

126

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Resumen del modelob Modelo 1 a b

R .995a

R cuadrado corregida .990

R cuadrado .991

Error típ. de la estimación .05951

Variables predictoras: (Constante), X3. Variable dependiente: Y3.

que proporciona los indicadores de la bondad de ajuste del modelo: coeficiente de determinación, R2 = 0.991, su raíz cuadrada R = 0.995, y la desviación estándar residual o error típico de la estimación, s = 0.0595. ANOVAb Modelo 1

a b

Suma de cuadrados Regresión Residual Total

4.897 .046 4.943

Media cuadrática

gl 1 13 14

4.897 .004

F 1382.981

Sig. .000a

Variables predictoras: (Constante), X3. Variable dependiente: Y3.

que es la tabla del ANOVA para la regresión: que informa de la suma de cuadrados de la descomposición de la variabilidad total de los valores de la variable Y (Total), en la parte explicada por el modelo (Regresión) y la correspondiente al error (Residual), los correspondientes grados de libertad (gl), los cuadrados medios y el valor del estadístico F-Snedecor (F = 1382.981), junto con la probabilidad asociada para el contraste H0 ≡ β1 = 0 (Sig. = P = 0.000). Dado que P < 0.05 se acepta hipótesis alternativa H1 ≡ β1 ≠ 0, es decir, no se puede aceptar un valor constante para la variable y3. Coeficientesa

Modelo 1 a

Coeficientes no estandarizados B Error típ. (Constante) X3

.116 .045

.030 .001

Coeficientes estandarizados Beta .995

t 3.920 37.188

Sig. .002 .000

Variable dependiente: Y3.

que proporciona información sobre los coeficientes de regresión estimados (no estandarizados, b0 = 0.116, b1 = 0.045), sus desviaciones típicas (error típico de b0 = 0.030, error típico de b1 = 0.001), el valor del estadístico t-Student y su probabilidad asociada para el contraste H0 ≡ βi = 0 (t = 3.920 y P = 0.002 para H0 ≡ β0 = 0, t = 37.188 y P = 0.000 para H0 ≡ β1 = 0).

III.

Prácticas de estadística bivariante

127

Estadísticos sobre los residuosa Mínimo Valor pronosticado Residuo bruto Valor pronosticado tip. Residuo tip. a

.3388 -.0704 -1.207 -1.183

Máximo

Desviación típ.

Media

1.9004 .1320 1.433 2.217

1.0527 .0000 .000 .000

.59144 .05734 1.000 .964

N 15 15 15 15

Variable dependiente: Y3.

que proporciona información estadística (mínimo, máximo, media y desviación típica) sobre los valores calculados (pronosticados), los residuos, y los correspondientes valores estandarizados. Gráficos Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: y3 1,0

Prob acum esperada

0,8

0,6

0,4

0,2

0,0 0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

que es el gráfico de probabilidad normal de los residuos tipificados, que permite observar una cierta curvatura.

128

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Gráfico de dispersión

Regresión Residuo tipificado

Variable dependiente: y3

2

1

0

-1

0,50

1,00

1,50

2,00

y3

que es el gráfico de dispersión de los residuos tipificados frente a los valores observados de y3, y que parece indicar una cierta curvatura, incompatible con el modelo lineal. Puesto que se dispone de repeticiones (3 observaciones en cada valor de X), es posible realizar el contraste de falta de ajuste del modelo lineal (H0 ≡ El modelo no tiene falta de ajuste) calculando el puro error de los datos. Para ello se puede utilizar el procedimiento Analizar, Comparar medias, ANOVA de un factor, y elegir como variable dependiente la y3, y como factor la variable x3,

III.

Prácticas de estadística bivariante

129

La tabla que se obtiene es la siguiente: ANOVA

Y3 Suma de cuadrados Inter-grupos Intra-grupos Total

Media cuadrática

gl

4.926 .017 4.943

4 10 14

1.232 .002

F

Sig.

727.317

.000

que facilita el valor de la suma de cuadrados del puro error (SSpe = ∑ (nj – 1)sj2 = 0.017), j y sus grados de libertad (m = ∑ (nj – 1)sj2 = 10), y que permite descomponer la suma de j

cuadrados de los residuos de la regresión en la forma: SSres = SSpe + SSfa , donde el término correspondiente a la falta de ajuste (SSfa = SSres – SSpe ) tiene n – 2 – m grados de libertad. De acuerdo con esta información la anterior tabla ANOVA de la regresión podría aumentarse en la forma siguiente: Suma de cuadrados

Modelo

1

Media cuadrática

gl

Regresión

4.897

1

4.897

Residual

0.046

13

0.003

Falta ajuste Puro error Total

0.029 0.017 4.943

3

0.0097

10

0.0017

F

Sig.

1382.98108 5.71

.0000 .015

14

MSSfa El valor del estadístico del contraste (Fcal = ––––– = 5.71) es mayor que el corresMSSpe pondiente valor tabulado (F3,10 = 3.71) lo que obliga a rechazar la hipótesis de linealidad de los datos (H0) y aceptar, por tanto, que el modelo calculado tiene falta de ajuste. Habría que probar con otro modelo como puede ser el modelo polinómico. La probabilidad asociada al anterior valor Fcal = 5.71 es P = 0.015, que puede obtenerse mediante la expresión 1-CDF.F(5.71,3,10) en la herramienta Transformar, Calcular nueva variable, y que es menor que el nivel de significación α = 0.05). La función CDF.F(cant, gl1, gl2) devuelve la probabilidad acumulada de que un valor de la distribución F, con los grados de libertad gl1 y gl2, sea menor que la cantidad cant. 3. Los resultados que se obtienen al realizar la regresión polinómica de segundo grado, mediante el procedimiento Analizar, Regresión, Estimación curvilínea, son los siguientes:

130

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Cuadrático Resumen del modelo

R ,997

R cuadrado ,995

Error típico de la estimación ,046

R cuadrado corregida ,994

La variable independiente esx3.

ANOVA Suma de cuadrados Regresión Residual Total

Media cuadrática

gl

4,918 ,026 4,943

2 12 14

2,459 ,002

F

Sig.

1154,976

,000

t 13,200 -3,102 ,424

Sig. ,000 ,009 ,679

La variable independiente esx3.

Coeficientes Coeficientes no estandarizados B Error típico ,058 ,004 ,000 ,000 ,017 ,039

x3 x3 ** 2 (Constante)

Coeficientes estandarizados Beta 1,292 -,304

y3 Observada Cuadrático

2,00

1,50

1,00

0,50

0

10

20

30

40

x3

Dado que estos resultados indican que no es preciso incluir el término independiente en el modelo teórico (P = 0.6791 > 0.05, se acepta H0 ≡ β0 = 0), se podría repetir el procedimiento Analizar, Regresión, Estimación Curvilínea, pero sin Incluir constante en la ecuación del modelo. Los resultados que se obtienen son los siguientes:

III.

Prácticas de estadística bivariante

131

Resumen del modeloa

R

R cuadrado

R cuadrado corregida

,999

,999

,999 a

Error típico de la estimación ,045

La variable independiente esx3. La ecuación se estimó sin el término constante.

ANOVAa

Regresión Residual Total a

Suma de cuadrados 21,539 ,026 21,565

gl 2 13 15

Media cuadrática 10,769 ,002

F 5399,274

Sig. ,000

La variable independiente esx3. La ecuación se estimó sin el término constante.

Coeficientes Coeficientes estandarizados Beta

Coeficientes no estandarizados B Error típico x3 x3 ** 2

,05959 -,00033

,002 ,000

t

1,223 -,232

32,155 -6,113

Sig. ,000 ,000

(Observar que se ha modificado el n.º de decimales del formato de los coeficientes de regresión, utilizando la herramienta de Formato y Propiedades de casilla, 5 decimales.) y3 Observada Cuadrático

2,00

1,50

1,00

0,50

0

10

20

30

40

x3

Los resultados muestran que el modelo estimado sería:Yˆ = 0.05959 · X – 0.00033 · X 2, con un valor de R2 = .999 y una desviación estándar residual (s) = 0.045. 4. Salir del SPSS (Archivo, Salir).

132

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

III.4. EJEMPLO DE REGRESIÓN NO LINEAL a x Ajustar los siguientes datos a la ecuación de Michaelis Menten: y = ––––– : x+b X

1.0

1.0

2.0

2.0

5.0

5.0

5.0

10.0

10.0

10.0

20.0

Y

.33

.35

.48

.53

.72

.71

.71

.84

.84

.82

.92

X

20.0

20.0

30.0

30.0

30.0

40.0

40.0

40.0

Y

.91

.91

.94

.93

.94

.95

.95

.94

1. Abra el programa SPSS. Recupere el archivo practbiv.sav, y defina las nuevas variables x4 (para la X) e y4 (para la Y) con los anteriores datos. Guarde el fichero con estos nuevos datos. 2. Obtenga los resultados de la aplicación del análisis de regresión no lineal para las variables x4 e y4, según el modelo anterior y Guarde los Valores pronosticados por el modelo estimado (Utilice el procedimiento Analizar, Regresión, No lineal). Interprete los resultados. Observe que se ha creado una nueva variable con nombre pred_. 3. Represente gráficamente los valores observados y calculados (Utilice Gráficos, Dispersión; elija Superpuestos y Defina los pares: y4-x4 y pred_-x4 ). Edite el gráfico obtenido. 4. Copie los resultados en un fichero de MS-WORD, y salga del SPSS. Resultados:

1. Ejecute el programa SPSS, y abra el anterior fichero practbiv.sav (seleccione el fichero practbiv.sav y pulse Aceptar, si se encuentra en el cuadro Abra una fuente de datos existente, o pulse Cancelar y utilice la herramienta de Archivo, Abrir, Datos, desde la unidad y correspondiente carpeta donde resida el fichero practbiv.sav). En las dos primeras columnas libres (11 y 12) del Visor de datos, introduzca los anteriores valores para las nuevas variables (1.0 y 0.33 en la primera fila, 1.0 y .35 en la segunda fila, …, 40 y 0.94 en la fila 19). Abra el Visor de variables, y cambie los nombres de las variables var00001 y var00002 por x4 e y4, modificar el número de decimales, y mantenga las demás características (tipo numérico, ancho 8, …, alineación derecha, medida tipo escala). Guarde el fichero (Archivo, Guardar),

III.

Prácticas de estadística bivariante

133

2. Para obtener los resultados de la aplicación del análisis de regresión no lineal para a (x4) las variables x4 e y4, según el modelo anterior ((y4) = ––––––– ) , hay que utilizar el pro(x4) + b cedimiento Analizar, Regresión, No lineal, y en la ventana principal del comando: 1) elija la variable y4 como variable Dependiente; 2) coloque a * x4/(x4+b) en el cuadro de Expresión del modelo; 3) en el apartado de Parámetros elija como nombres: a con valor inicial 1, pulse Añadir, y b con valor inicial 3, pulse Añadir; 4) en la ventana Guardar elija guardar los valores pronosticados ( Yˆi ) en una nueva variable, Continuar; 5) en la ventana Opciones elija el procedimiento, por defecto, de Levenberg-Marquardt; 6) en la ventana Pérdida elija como función objetivo o función de pérdida a minimizar, la suma de desviaciones al cuadrado entre los valores calculados y los observados (min∑(Yi – Yˆi ) 2 ); y 7) en la ventana Restricciones elija Sin restricciones en los valores de los parámetros del modelo, y pulse Aceptar en la ventan principal.

134

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

III.

Prácticas de estadística bivariante

135

Los resultados que se obtienen son los siguientes:

Análisis de la regresión no lineal Historial de iteracionesb

a

Número de iteraciones 1.0 1.1 2.0 2.1 3.0 3.1 4.0 4.1 5.0 5.1 a b

Suma de cuadrados residual ,085 ,008 ,008 ,002 ,002 ,002 ,002 ,002 ,002 ,002

Parámetro a 1,000 ,987 ,987 ,995 ,995 ,996 ,996 ,996 ,996 ,996

b 3,000 1,669 1,669 1,928 1,928 1,949 1,949 1,949 1,949 1,949

Las derivadas se calculan numéricamente. El número de iteraciones mayores se muestra a la izquierda del decimal, mientras que el número de iteraciones menores se encuentra a la derecha del decimal. La ejecución se detuvo después de 10 evaluaciones de modelos y 5 evaluaciones de derivadas, ya que la reducción relativa entre sumas residuales sucesivas de cuadrados es, como mucho, SSCON = 1,00E-008.

136

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

información sobre el proceso de convergencia, que comienza con valores de A = 1.000 B = 3.000, que dan lugar a una suma de cuadrados de 0.085, para terminar, después de 10 interacciones, con valores de A = .996 y B = 1.949, con una suma de cuadrados de 0.002 Estimaciones de los parámetros

Parámetro a b

Estimación

Error típico

,996 1,949

,004 ,046

Intervalo de confianza al 95% Límite superior Límite inferior ,987 1,852

1,006 2,045

la estimación de los parámetros, sus errores e intervalos de confianza. El modelo esti0.996 x mado sería, por tanto, y = ––––––––– . x + 1.949 Correlaciones de las estimaciones de los parámetros a b

a

b

1,000 ,730

,730 1,000

la correlación entre los parámetros estimados ANOVAa Origen Regresión Residual Total sin corrección Total corregido a

Suma de cuadrados 12,169 ,002 12,170 ,771

Mean Squares

gl 2 17 19 18

6,084260 ,000113

Variable dependiente: y4a. R cuadrado = 1 - (Suma de cuadrados residual) (Suma corregida de cuadrados) = ,998.

la tabla ANOVA con la descomposición de la suma de cuadrados. El cuadrado medio del error residual, vale 1.13E-04, que representa el valor de la varianza residual (s2), y, por tanto, un valor de la desviación estándar residual de s = 1.062 10–02, y un R2 de 0.998. En el Visor de datos se ha creado una nueva variable con nombre pred_ con los valores calculados con el modelo estimado. Los resultados proporcionados por la versión 11.5 del SPSS eran los siguientes:

III.

Prácticas de estadística bivariante

137

Regresión no lineal

All the derivatives will be calculated numerically. The following new variables are being created: Name Label PRED_ Predicted Values Iteration Residual SS A B 1 .0845198358 1.00000000 3.00000000 1.1 .0082631397 .986961460 1.66913492 2 .0082631397 .986961460 1.66913492 2.1 .0019444380 .995249244 1.92755922 3 .0019444380 .995249244 1.92755922 3.1 .0019166859 .996190205 1.94852623 4 .0019166859 .996190205 1.94852623 4.1 .0019166843 .996199205 1.94869278 5 .0019166843 .996199205 1.94869278 5.1 .0019166843 .996199238 1.94869326 Run stopped after 10 model evaluations and 5 derivative evaluations. Iterations have been stopped because the relative reduction between successive residual sums of squares is at most SSCON = 1.000E-08 Nonlinear Regression Summary Statistics Y4 Source Regression Residual Uncorrected Total

DF 2 17 19

(Corrected Total)

18

Dependent Variable

Sum of Squares 12.16852 1.916684E-03 12.17044

Mean Square 6.08426 1.127461E-04

.77053

R squared = 1 - Residual SS / Corrected SS = Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error A B

.996199238 1.948693259

.004435011 .045858012

Lower .986842182 1.851941310

.99751

Upper 1.005556294 2.045445208

Asymptotic Correlation Matrix of the Parameter Estimates

A B

A 1.0000 .7297

B .7297 1.0000

138

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

3. Para obtener la representación gráfica de los valores observados (Yi, en la variable y4) y los calculados (Yˆi , guardados en la nueva variable pred_), en función de la variable x4, habría que utilizar el procedimiento Gráficos, Dispersión/Puntos, Dispersión Superpuestos, Definir, y elegir en el cuadro Pares Y-X: los pares: y4-x4 y pred_-x4, pulsando Intercambie pares para respetar el orden de los Pares Y-X:

III.

Prácticas de estadística bivariante

139

La representación gráfica sería la siguiente: y4 x4 Predicted Values x4

1,00

0,90

0,80

0,70

0,60

0,50

0,40

0,30 0,0

10,0

20,0

30,0

40,0

que se puede modificar en el Editor de gráficos: • seleccione la serie Predicted values-x4 y cambie el color del marcador; en Elementos, seleccione Línea de interpolación, Recta, Aplicar; desmarcar Elementos, Mostrar Marcadores de líneas; y pulse Cerrar

140

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

• suprima la leyenda con Opciones, Ocultar Leyenda • ponga títulos a los ejes en Edición, Propiedades, Etiquetas y marcas, Mostrar título del eje, Aplicar, Cerrar. Cambiar el texto Eje X poniendo Variable X. Repetir para el eje Y. y obtendrá la siguiente figura:

4. Por último se pueden seleccionar los resultados para copiarlos en un fichero de MS-WORD (Copiar Objetos y Pegar), y salir del SPSS (Archivo, Salir).

IV. PRÁCTICAS DE ESTADÍSTICA MULTIVARIANTE

IV.1. EJEMPLO DE ESTADÍSTICA DESCRIPTIVA MULTIVARIANTE A partir de las 10 variables analizadas en 16 vinos de las variedades Airén (A), Malvar (M), Monastrell (Mo) y Trepat (T), cuyos valores se muestran en la siguiente tabla (concentraciones en mg/l), calcular, utilizando el programa SPSS, los valores descriptivos totales y para cada variedad, así como la matriz de correlaciones (Pozo-Bayón et al., 2001). Obtener los diagramas de caja para cada variable y los de dispersión para todas las combinaciones posibles de las variables. Muestra

Metanol

Propanol

Butanoato etilo

Hexanoato etilo

Octanoato

Decanoato

Cis-3hexen1-ol

Hexanoico

Octanoico

Decanoico

Variedad

M 98

28.50

48.55

.35

1.04

1.37

.66

.16

M 98

27.27

40.04

.59

1.04

1.44

.73

.13

14.58

2.11

.81

M

15.72

1.86

.73

M

M 99

30.04

37.39

.82

1.20

1.47

.59

M 99

32.50

38.36

.82

1.27

1.71

.93

.16

7.62

2.68

.84

M

.19

7.81

3.31

1.38

M

A 97

33.49

27.77

.81

1.77

5.19

A 97

52.30

22.59

.81

1.80

5.41

2.04

0.00

7.63

1.64

.77

A

1.84

0.00

7.53

1.39

.56

A

A 98

35.20

32.53

.87

1.54

A 98

37.10

28.56

.91

1.99

3.45

1.10

0.00

8.62

3.92

1.47

A

4.95

1.85

0.00

8.06

3.37

1.42

A

T 97

44.05

12.01

.00

T 97

45.60

14.66

.29

1.21

2.03

1.31

1.35

7.16 11.75

1.99

T

1.15

2.29

1.21

1.51

8.44 12.96

2.12

T

T 98

40.23

10.55

.58

1.48

4.03

1.41

.94

3.12

T

10.13

9.19

142

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

(Continuación) Muestra

Metanol

Propanol

Butanoato etilo

Hexanoato etilo

Octanoato

Decanoato

Cis-3hexen1-ol

T 98

37.90

14.79

.29

1.05

4.58

2.78

1.24

8.51

8.69

3.31

T

Mo 97

45.82

18.40

.23

.37

.62

.26

1.19

2.50

4.42

1.07

Mo

Mo 97

60.55

20.22

.50

.55

.64

.17

.91

4.11

5.16

.64

Mo

Mo 98

45.86

17.27

.46

1.37

2.15

.96

.47

8.51

7.39

1.79

Mo

Mo 98

40.62

16.75

.35

1.02

2.02

1.20

.47

6.87

6.50

1.92

Mo

Hexanoico

Octanoico

Decanoico

Variedad

Resultados:

Ejecutar el programa SPSS, seleccionar Introducir datos, y pulsar Aceptar. En el Visor de variables definir: • la variable muestra de tipo cadena y escala nominal para etiquetar las muestras de vinos, • las variables metanol, propanol, butanoat, hexanoat, octanoat, decanota, cis3hexe, hexanoci, octanoic y decanoic, de tipo numérico con 2 decimales y medida tipo escala, con los valores de las concentraciones, y • la variable variedad de tipo cadena y escala nominal con los valores M, A, T y Mo.

En el Visor de datos, introducir los valores de la anterior tabla para las variables muestra, metanol, propanol, …, octanoic y variedad. Se tiene así la siguiente tabla de valores en el Visor de datos.

IV.

Prácticas de estadística multivariante

143

Guardar los datos en un fichero de nombre practmultiv.sav (Archivo, Guardar como). Para obtener los valores descriptivos de las variables numéricas, se puede ejecutar el procedimiento, Analizar, Estadísticos Descriptivos, Descriptivos, elija todas las variables numéricas, y los estadísticos: media, desviación típica, mínimo y máximo en la ventana de Opciones, pulse Continuar y Aceptar, es decir:

144

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

La tabla de resultados que se obtiene es la siguiente: Estadísticos descriptivos N METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC N válido (según lista)

Mínimo 16 16 16 16 16 16 16 16 16 16 16

27.27 10.55 .00 .37 .62 .17 .00 2.50 1.39 .56

Máximo 60.55 48.55 .91 1.99 5.41 2.78 1.51 15.72 12.96 3.31

Media

Desv. típ.

39.8144 25.0275 .5425 1.2406 2.7094 1.1900 .5450 8.3625 5.3963 1.4962

9.00906 11.48499 .27632 .42665 1.63855 .68597 .55146 3.20764 3.65608 .84272

Para editar la tabla y cambiar el número de decimales de la media y desviación típica a dos, bastaría con seleccionar la tabla, pinchando 2 veces con el ratón sobre la misma, resaltar las casillas correspondientes, utilizar la herramienta Formato, Propiedades de casilla, Categoría = Número, Formato = #.#, Decimales: 2, pulsar Aplicar y Acep-

IV.

Prácticas de estadística multivariante

145

tar. Para salir de la edición de la tabla pinchar, con el ratón, fuera de la misma. De esta forma se obtiene: Estadísticos descriptivos N METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC N válido (según lista)

Mínimo 16 16 16 16 16 16 16 16 16 16 16

27.27 10.55 .00 .37 .62 .17 .00 2.50 1.39 .56

Máximo 60.55 48.55 .91 1.99 5.41 2.78 1.51 15.72 12.96 3.31

Media 39.81 25.03 .54 1.24 2.71 1.19 .55 8.36 5.40 1.50

Desv. típ. 9.01 11.48 .28 .43 1.64 .69 .55 3.21 3.66 .84

Para obtener la matriz de correlaciones (de Pearson) entre las 10 variables, se puede utilizar el procedimiento Analizar, Correlaciones, Bivariadas, colocando todas las variables numéricas en el cuadro Variables:, y eligiendo Medias y desviaciones típicas en Estadísticos, en la ventana de Opciones (si se quiere obtener los valores descriptivos), y pulsando Continuar y Aceptar, es decir

146

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados que se obtienen, una vez editados convenientemente, son los siguientes: Estadísticos descriptivos Media METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC

39.81 25.03 .54 1.24 2.71 1.19 .55 8.36 5.40 1.50

Desviación típica 9.01 11.48 .28 .43 1.64 .69 .55 3.21 3.66 .84

N 16 16 16 16 16 16 16 16 16 16

IV.

Prácticas de estadística multivariante

147

Correlaciones MET ANO L METANOL

PROPANOL

BUTANOAT

HEXANOAT

OCTANOAT

DECANOAT

CIS3HEXE

HEXANOCI

OCTANOIC

DECANOIC

Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N Correl. Pearson Sig. (bilateral) N

1

PR OPA NOL

BUT ANO AT

HEX ANO AT

OCT ANO AT

DE CAN OAT

CIS 3HE XE

HEX ANO CI

OCT ANO IC

DE CAN OIC

-.683 ** -.286

-.242

-.039

-.103

.474

-.658 ** .359

.023

.

.004

.282

.367

.885

.704

.064

.006

.172

.934

16

16

16

16

16

16

16

16

16

16

1

.491

.094

-.201

-.307

.

.053

.730

.455

.247

16

-.683 ** .004 16

16

16

-.286

.491

1

.282

.053

16

16

-.242

.094

.634 **

.367

.730

.008

.030

16

16

.001

.009

16

16

16

16 .121

.

.008

.087

.656

.000

.719

.004

.136

16

16

16

16

16

16

16

16

.822 ** .620 * -.554 *

.249

-.186

.041

.

.000

.353

.491

.881

16

16

1

16

16

16

-.201

.442

.822 **

.885

.455

.087

.000

16

16

16

16

-.103

-.307

.121

.620 *

.885 **

.704

.247

.656

.010

.000

16

16

16

16

.001

.634 ** .442

-.039

.474

-.727 ** .542 * -.758 ** -.629 **

-.813 ** .098

.010

.026

16

-.678 ** -.389

16

16

16

16

.885 ** -.274

.059

-.079

.263

.

.000

.305

.828

.771

.325

16

16

16

16

16

16

1

-.010

.083

.165

.506 *

.

.970

.759

.540

.046

16

16

16

16

16

16

-.727 ** -.813 ** -.554 * -.274

-.010

1

-.355

1

.857 ** .588 *

.064

.001

.000

.026

.305

.970

.

.178

.000

.017

16

16

16

16

16

16

16

16

16

16

.098

.249

.059

.083

-.355

1

-.179

.003

-.658 ** .542 * .006

.030

.719

.353

.828

.759

.178

.

.508

.991

16

16

16

16

16

16

16

16

16

16

-.758 ** -.678 ** -.186

-.079

.165

.857 ** -.179

1

.771

.540

.000

.359 .172 16 .023

.001

.004

.491

.508

16

16

16

16

16

16

-.629 ** -.389

.041

.263

.506 *

.588 *

.003

.764 **

16

.764 **

.

.001

16

16 1

.934

.009

.136

.881

.325

.046

.017

.991

.001

.

16

16

16

16

16

16

16

16

16

16

** La correlación es significativa al nivel 0,01 (bilateral). * La correlación es significante al nivel 0,05 (bilateral).

148

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En esta última tabla se señalan los valores de los coeficientes de correlación de Pearson que son significativamente diferentes de cero (* para P < 0.05 y ** para P < 0.01) según el contraste H0 ≡ ρ = 0. Para lograr disminuir el tamaño de la tabla, se cambió Correlación de Pearson por Correl. Pearson, y se disminuyó el ancho de la columna con el ratón, y, una vez seleccionadas las restantes columnas, se utilizó la herramienta Formato, Ancho casilla de datos, Establecer en 32 puntos. Para editar la tabla hay que pinchar 2 veces con el ratón sobre la misma. Para obtener los valores descriptivos de las variables numéricas, en cada uno de los cuatro grupos de datos (variedades), se puede ejecutar el procedimiento, Analizar, Modelo Lineal general, Multivariante, y colocar todas las 10 variables numéricas en el cuadro Dependientes:, y la variable variedad en el cuadro de Factores fijos:; y en la ventana de Opciones: elegir Estadísticos descriptivos en Mostrar:; pulse Continuar y Aceptar, es decir:

IV.

Prácticas de estadística multivariante

149

Se obtiene la siguiente tabla con el valor medio, la desviación típica y el número de muestras, de cada una de las 10 variables analizadas, en cada una de las cuatro variedades, es decir: Estadísticos descriptivos METANOL

PROPANOL

BUTANOAT

HEXANOAT

OCTANOAT

DECANOAT

...........

VARIEDAD A M Mo T Total A M Mo T Total A M Mo T Total A M Mo T Total A M Mo T Total A M Mo T Total A M

Media 39.5225 29.5775 48.2125 41.9450 39.8144 27.8625 41.0850 18.1600 13.0025 25.0275 .8500 .6450 .3850 .2900 .5425 1.7750 1.1375 .8275 1.2225 1.2406 4.7500 1.4975 1.3575 3.2325 2.7094 1.7075 .7275 .6475 1.6775 1.1900 .0000 .1600

Desv. típ. 8.64500 2.25392 8.58523 3.51631 9.00906 4.08574 5.09565 1.53638 2.07704 11.48499 .04899 .22457 .12124 .23678 .27632 .18448 .11615 .45375 .18392 .42665 .88679 .14773 .84176 1.26307 1.63855 .41532 .14660 .51025 .73952 .68597 .00000 .02449

N 4 4 4 4 16 4 4 4 4 16 4 4 4 4 16 4 4 4 4 16 4 4 4 4 16 4 4 4 4 16 4 4

En la tabla figuran las variables dependientes y la variedad en las filas, y los estadísticos en las columnas. Se podrían cambiar para que figurasen únicamente las variables dependientes en las filas, y los estadísticos por variedad en las columnas de la misma. Esto puede hacerse al editar la tabla (pinchar 2 veces con el ratón sobre la misma) y utilizar la herramienta Pivotar, Paneles de pivotado. Aparece el siguiente panel de pivotado,

150

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

que se puede cambiar, arrastrando el pivote correspondiente a la variable variedad a la parte superior de la columna, es decir:

En la tabla pivotada se pueden eliminar los datos correspondientes al total y al número de observaciones (marcar los datos dentro de las columnas y pulsar la tecla suprimir); cambiar el número de decimales (Formato, Propiedades de casillas), poner los nombres de las variedades, para lograr así la siguiente tabla:

IV.

Prácticas de estadística multivariante

151

Estadísticos descriptivos

metanol propanol butanoat hexanoat octanoat decanoat cis3hexe hexanoci octanoic decanoic

Airén Media Desv. típ. 39,52 8,65 27,86 4,09 ,85 ,05 1,78 ,18 4,75 ,89 1,71 ,42 ,00 ,00 7,96 ,50 2,58 1,25 1,06 ,46

variedad Malvar Monastrell Media Desv. típ. Media Desv. típ. 29,58 2,25 48,21 8,59 41,09 5,10 18,16 1,54 ,65 ,22 ,39 ,12 1,14 ,12 ,83 ,45 1,50 ,15 1,36 ,84 ,73 ,15 ,65 ,51 ,16 ,02 ,76 ,35 11,43 4,32 5,50 2,70 2,49 ,65 5,87 1,33 ,94 ,30 1,36 ,61

Trepat Media Desv. típ. 41,95 3,52 13,00 2,08 ,29 ,24 1,22 ,18 3,23 1,26 1,68 ,74 1,26 ,24 8,56 1,22 10,65 2,04 2,64 ,68

Para la representación gráfica de las 16 muestras de vinos utilizando las 10 variables analíticas, se puede utilizar el procedimiento Gráficos, Dispersión/Puntos, Dispersión Matricial, y en Definir colocar: las 10 variables en el cuadro Variables en la matriz, la variable variedad en el cuadro Establecer marcas por:, la variable muestra en el cuadro Etiquetar los casos mediante:; y en la ventana de Opciones señalar Mostrar el gráfico con las etiquetas de los casos; y pulsar Aceptar,

152

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

decan

octano

hexan

cis3he decan

octano

hexan butano propan metan

Se obtiene el siguiente diagrama de dispersión matricial, una vez cambiados los marcadores en el Editor de gráficos (ver práctica IV.4 ):

T 98 A 98 T 98 T 97

T 97

T 98

Mo 98

T 98

T 98

Mo 97

T 97

T 98

T 98 T 98 T 98

Mo 97

M 99

T 97

T 97

T 98

T 98

Mo 97

Mo 98 T 98 Mo 97

M 99

T 98

T 97

T 98 T 97 Mo 97

T 98 T 98

T 98

T 98 T 98

Mo 97

T 97 T 98 T 98 T 98 T 98

T 97

T 98 T 98 T 98

T 98 Mo 98

T 98

T 98 T 98 T 98

Mo 97

T 98

T 98

T 98

T 98 T 98 T 98 T 98

T 98 T 98 T 97 T 98 T 97

T 98

T 98

Mo 97

Mo 97

T 98

T 98

T 97

Mo 97

T 98 T 97

T 97 T 98 T 98

T 98

T 97 T 98 T 98 T 98 T 98 T 98 T 98

T 97

T 97

T 98

T 98T 98 T 98 Mo 97

T 98 T 98

T 98

T 98

T 98 Mo 98

T 98 T 98 Mo 97

Mo 97 T 98

M 99

T 98 Mo 97

Mo 98 M 99

M 99

T 98

T 98

M 99

T 98 T 98 T 98

T 97

T 98 T 98 T 98 Mo 98

T 97

T 97 M 99

M 99 T 98

T 98

Mo 98 M 99

Mo 97

T 97

T 98

T 98

T 98 T 98 T 98

T 98 T 98

T 98

T 98

T 98

A 97

T 98

T 98

T 98

T 98 T 98

T 98

T 98

A 97

T 98

T 98

T 98

T 98

M 99 T 98 T 98

T 98

T 98

M 99

T 98 T 98

T 98

T 97

M 99

T 98

T 98

T 98

T 97

T 98 Mo 98

T 98

T 98

M 99

T 98 T 98

T 98

M 99

T 98

T 98

T 98

T 98

T 97 M 99

T 98 T 98

T 98

T 98

T 98

Mo 98

Mo 98

T 98

Mo 98

T 98

T 97

variedad A M Mo T

IV.

Prácticas de estadística multivariante

153

Los estadísticos descriptivos, así como los diagramas de caja para cada variable, en cada uno de los 4 grupos, se pueden obtener con el procedimiento Analizar, Estadísticos descriptivos, Explorar. Los gráficos serían los siguientes: 50,00 60,00 40,00

propanol

metanol

50,00

40,00

30,00

20,00 30,00 10,00 A

M

Mo

T

A

M

variedad

Mo

T

Mo

T

Mo

T

variedad

1,00

2,00

0,80 1,50

hexanoat

butanoat

0,60

0,40

1,00

0,50

0,20

0,00

0,00 A

M

Mo

A

T

M

variedad

6,00

3,00

5,00

2,50

4,00

2,00

decanoat

octanoat

variedad

3,00

1,50

2,00

1,00

1,00

0,50

0,00

0,00 A

M

Mo

variedad

T

A

M

variedad

154

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

16,00 1,50 14,00

12,00

cis3hexe

hexanoci

1,00

0,50

10,00

8,00

6,00

4,00

0,00

2,00 A

M

Mo

T

A

M

variedad

Mo

T

Mo

T

variedad

14,00

3,50

12,00

3,00

10,00

decanoic

octanoic

2,50 8,00

6,00

2,00

1,50 4,00 1,00

2,00

0,00

0,50 A

M

Mo

variedad

T

A

M

variedad

Los resultados que proporciona la versión 13.0 para la estadística descriptiva mulitvariante, mediante los procedimientos: Analizar, Estadísticos descriptivos, Descriptivos; Analizar, Estadísticos descriptivos, Explorar y Analizar, Correlaciones, Bivariadas, no difieren de los que se obtendrían con la versión 11.5. Únicamente existen pequeñas diferencias en la salida gráfica del diagrama de dispersión matricial y de los diagramas de caja, así como en las herramientas del correspondiente Editor de gráficos. Desde el Visor de datos es posible exportar los datos, incluidos los nombres de las variables a otras aplicaciones, como puede ser el programa MS-EXCEL, sin más que utilizar el procedimiento Archivo, Guardar como, y en el Tipo de archivo elegir Excel 97 y posterior (*.xls). También es posible importar los datos de otras aplicaciones desde el Visor de datos sin más que utilizar la herramienta Archivo, Abrir, Datos; elegir el Tipo de archivo, p.e., Excel (*.xls), colocar el correspondiente fichero en el cuadro Nombre de archivo, y pulsar Abrir. En el cuadro de Apertura de fuentes de datos, señalar Leer nombres de variables de la primera fila de datos, y pulsar Aceptar. En el Visor de datos aparecerán los valores importados para las correspondientes variables, y en el Visor de variables tendremos las variables recuperadas, numéricas o de cadena. También es posible importar datos de otras aplicaciones utilizando la opción: Crear una nueva consulta con el asistente de base de datos, al ejecutar el programa SPSS. Para ello, una vez resaltada esta opción, pulsar Aceptar, y seleccionando la fuente de datos que se quiere recuperar, p. e. Excel Files, pulsar tecla Siguiente, y mediante Examinar, se busca el fichero de MS-EXCEL que se quiere recuperar, y se coloca su nombre en el cuadro Nombre de archivo, pulsar Abrir, y Aceptar; Mover los campos de la tabla, que

IV.

Prácticas de estadística multivariante

155

se quieren recuperar, al cuadrado Recuperar los campos en este orden, y pulsar la tecla Finalizar. En el Visor de datos aparecerán los datos importados, y en el Visor de variables tendremos las variables recuperadas, numéricas o de cadena. IV.2. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE CONGLOMERADOS Aplicar el análisis de conglomerados (“Cluster analysis”) a los 16 vinos varietales anteriores, utilizando los datos de composición química (mg/l) de las 10 variables analizadas. Obtener el dendrograma correspondiente, utilizando: • como medida de similitud (o semejanza) entre las muestras, la distancia euclídea al cuadrado a partir de las variables estandarizadas, y • como regla para la fusión de los grupos, el método de Ward. Identificar e interpretar los resultados obtenidos, y guardarlos en un fichero de MSWORD. Resultados:

Ejecutar el programa SPSS y abrir el fichero practmultiv.sav. Utilizar el procedimiento Analizar, Clasificar, Conglomerados jerárquicos. Colocar las 10 variables de composición Metanol, Propanol…, Decanoico en el cuadro de Variables, en Conglomerar elija casos, en Etiquetar casos mediante elija la variable alfabética muestra, y en Mostrar elija Estadísticos y gráficos. En la ventana de Estadísticos elija Historial de conglomeración y Matriz de distancias; Continuar. En la ventana de Gráficos elija Dendrograma; en Témpanos elija todos los conglomerados, y en Orientación elija Vertical. En la ventana de Método: en Método de conglomeración elija el Método de Ward; en Medida elija Intervalo y Distancia euclídea al cuadrado, en Transformar valores elija Estandarizar: Puntuaciones Z por variable; pulse Continuar y Aceptar.

156

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

IV.

Prácticas de estadística multivariante

157

158

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados que se obtienen son los siguientes:

Conglomerados jerárquicos Matriz de distancias

1:M 2:M 3:M 4:M 5:A Caso 98 98 99 99 97 1:M 98 .000 1.5 8.8 9.4 24 2:M 98 1.5 .000 7.5 8.3 20 3:M 99 8.8 7.5 .000 .822 12 4:M 99 9.4 8.3 .822 .000 10 5:A 97 24 20 12 10 .000 6:A 97 32 29 19 16 4.7 7:A 98 14 11 4.0 2.2 4.7 8:A 98 26 22 13 9.8 1.5 9:T 97 35 37 30 26 34 10:T 97 34 34 28 24 33 11:T 98 33 30 25 19 21 12:T 98 43 42 37 30 27 13:Mo 97 32 34 21 22 40 14:Mo 97 34 35 22 22 39 15:Mo 98 20 19 12 9.2 16 16:Mo 98 20 19 12 9.3 17

distancia euclídea al cuadrado 10: 11: 12: 13: 14: 15: 16: 6:A 7:A 8:A 9:T T T T Mo Mo Mo Mo 97 98 98 97 97 98 98 97 97 98 98 32 14 26 35 34 33 43 32 34 20 20 29 11 22 37 34 30 42 34 35 19 19 19 4.0 13 30 28 25 37 21 22 12 12 16 2.2 9.8 26 24 19 30 22 22 9.2 9.3 4.7 4.7 1.5 34 33 21 27 40 39 16 17 .000 9.1 4.9 34 32 23 32 38 30 15 19 9.1 .000 3.4 27 24 14 26 29 27 8.0 9.9 4.9 3.4 .000 32 30 16 25 42 39 13 17 34 27 32 .000 1.6 10 12 15 20 7.6 6.8 32 24 30 1.6 .000 7.2 12 17 19 6.9 7.5 23 14 16 10 7.2 .000 7.0 30 32 6.4 8.1 32 26 25 12 12 7.0 .000 35 42 16 13 38 29 42 15 17 30 35 .000 4.7 15 10 30 27 39 20 19 32 42 4.7 .000 13 13 15 8.0 13 7.6 6.9 6.4 16 15 13 .000 1.6 19 9.9 17 6.8 7.5 8.1 13 10 13 1.6 .000

Esta es una matriz de disimilaridades

que es la matriz de distancias con las similitudes entre las muestras (casos), en este caso la distancia euclídea al cuadrado.

IV.

Prácticas de estadística multivariante

159

Vinculación de Ward Historial de conglomeración Etapa en la que el conglomerado aparece por primera vez

Conglomerado que se combina

1

Conglom erado 1 3

Conglom erado 2 4

Coeficientes .411

Conglom erado 1 0

Conglom erado 2 0

2

1

2

1.150

0

0

3

5

8

1.898

0

0

8

4

9

10

2.712

0

0

10

5

15

16

3.535

0

0

10

6

3

7

5.476

1

0

12

7

13

14

7.805

0

0

14

8

5

6

10.764

3

0

13

9

11

12

14.286

0

0

11

10

9

15

20.654

4

5

11

11

9

11

29.842

10

9

14

12

1

3

40.295

2

6

13

13

1

5

64.354

12

8

15

14

9

13

90.225

11

7

15

15

1

9

150.000

13

14

0

Etapa

Próxima etapa 6 12

que es el historial de conglomeración que muestra los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de fusión en el que cada caso se unió a su conglomerado correspondiente. Diagrama de témpanos vertical

X X X X X X X X X

X X X X X X X X X X X X X X X

X X

X X X X X X X X X X X X X X X

X X X X X X X

X X X X X X X X X X X X X X X

X X X X X

X X X X X X X X X X X X X X X

X X X X X X X X X X X

X X X X X X X X X X X X X X X

X X X X X X

X X X X X X X X X X X X X X X

X X X X X X X X X X X X

X X X X X X X X X X X X X X X

X

X X X X X X X X X X X X X X X

X X X X X X X X

X X X X X X X X X X X X X X X

X X X X X X X X X X X X X

X X X X X X X X X X X X X X X

X X X

X X X X X X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X

X X X X

X X X X X X X X X X X X X X X

1:M 98

2:M 98

3:M 99

4:M 99

7:A 98

5:A 97

8:A 98

6:A 97

9:T 97

10:T 97

15:Mo 98

16:Mo 98

11:T 98

X X X X X X X X X X X X X X X

12:T 98

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

13:Mo 97

14:Mo 97

Caso

Número de conglomerados

X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X

el diagrama de témpanos que muestra información sobre cómo se combinan los casos en los conglomerados, en cada iteración del análisis, así, en el paso 4 existen 4 con-

160

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

glomerados; uno formado por los casos 13 y 14; otro por los casos 9, 10, 11, 12, 15 y 16; otro por los casos 5, 6 y 8; y otro con los restantes 1, 2, 3, 4 y 7. Dendrograma

******HIERARCHICAL

CLUSTER

ANALYSIS******

Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num M 99 M 99 A 98 M 98 M 98 A 97 A 98 A 97 Mo 97 Mo 97 T 98 T 98 T 97 T 97 Mo 98 Mo 98

0 5 10 15 20 25 +---------+---------+---------+---------+---------+

3 4 7 1 2 5 8 6 13 14 11 12 9 10 15 16

el dendrograma que es una representación visual de los pasos de una solución de conglomeración jerárquica que muestra, para cada paso, los conglomerados que se combinan y los valores de los coeficientes de su distancia. Las líneas verticales conectadas designan casos combinados. En el dendrograma el programa reescala las distancias reales a valores entre 0 y 25, preservando la razón de las distancias entre los pasos. En el dendrograma se observan 2 grandes grupos de muestras: uno que corresponde a los vinos de las variedades Airén (A) y Malvar (M), que son blancas, y el otro a los vinos de las variedades Trepat (T) y Monastrell (Mo) que son tintas. A su vez también se observa la influencia del año de vendimia (97 ó 98) que es más acusada en el caso de la variedad Monastrell. Se pueden seleccionar las tablas y el dendrograma, que se quieran copiar a un fichero de MS-WORD, y utilizar las herramientas: Edición, Copiar Objetos del SPSS y Edición, Pegar del MS-WORD.

IV.

Prácticas de estadística multivariante

161

Utilizando el anterior procedimiento Analizar, Clasificar, Conglomerados jerárquicos…, es posible obtener el dendrograma de las variables, eligiendo Conglomerar Variables y en la ventana del Método: en Método de conglomeración elija Vinculación Inter-grupo; en Medida elija Intervalo y Correlación de Pearson, en Transformar valores elija Puntuaciones Z por variables, y en Transformar medidas elija Valor absoluto. En la ventana de Gráficos elija Dendrograma; en Témpanos elija todos los conglomerados, y en Orientación elija Vertical. Pulsar Continuar y Aceptar.

162

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados que se obtienen son los siguientes:

Conglomerados jerárquicos Matriz de distancias

Caso METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC

META NOL 1.000 .683 .286 .242 .039 .103 .474 .658 .359 .023

PRO PAN OL .683 1.000 .491 .094 .201 .307 .727 .542 .758 .629

BUTA NOA T .286 .491 1.000 .634 .442 .121 .813 .098 .678 .389

Archivo matricial de entrada HEXA OCT DEC CIS3 NOA ANO ANO HEX T AT AT E .242 .039 .103 .474 .094 .201 .307 .727 .634 .442 .121 .813 1.000 .822 .620 .554 .822 1.000 .885 .274 .620 .885 1.000 .010 .554 .274 .010 1.000 .249 .059 .083 .355 .186 .079 .165 .857 .041 .263 .506 .588

HEXA NOCI .658 .542 .098 .249 .059 .083 .355 1.000 .179 .003

OCT ANOI C .359 .758 .678 .186 .079 .165 .857 .179 1.000 .764

DEC ANOI C .023 .629 .389 .041 .263 .506 .588 .003 .764 1.000

Vinculación promedio (Inter-grupos) Historial de conglomeración

Etapa 1 2 3 4 5 6 7 8 9

Conglomerado que se combina Conglom Conglom erado 1 erado 2 5 6 7 9 3 7 4 5 1 2 1 8 3 10 1 3 1 4

Coeficientes .885 .857 .746 .721 .683 .600 .580 .365 .221

Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 2 0 1 0 0 5 0 3 0 6 7 8 4

Próxima etapa 4 3 7 9 6 8 8 9 0

IV.

Prácticas de estadística multivariante

163

Diagrama de témpanos vertical

X X X X X X X X X

X X X X X X X X X

X X X X X X X X X

X X X X X X

X X X X X X X X X

X

X X X X X X X X X

X X X

X X X X X X X X X

X X X X X X X X

X X X X X X X X X

X X X X X X X

X X X X X X X X X

X X

X X X X X X X X X

X X X X

X X X X X X X X X

METANOL

PROPANOL

HEXANOCI

BUTANOAT

CIS3HEXE

OCTANOIC

DECANOIC

HEXANOAT

DECANOAT

Número de conglomerados 1 2 3 4 5 6 7 8 9

OCTANOAT

Caso

X X X X X

X X X X X X X X X

Dendrograma

******HIERARCHICAL

CLUSTER

ANALYSIS*****

Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num OCTANOAT DECANOAT HEXANOAT METANOL PROPANOL HEXANOCI CIS3HEXE OCTANOIC BUTANOAT DECANOIC

0 5 10 15 20 25 +---------+---------+---------+---------+---------+

5 6 4 1 2 8 7 9 3 10

--------------------------------------------------------------------------------------------------El dendrograma muestra la relación entre las variables analizadas. Se observan 3 grupos de variables: octanoat, decanoat y hexanoat, el cis3hexe, octanoic, butanoat, y decanoic, y el metanol, propanol y hexanoci. Los resultados obtenidos con la versión 13.0 para el análisis de conglomerados, mediante el procedimiento Analizar, Clasificar, Conglomerados jerárquicos, no difieren de los que se obtendrían con la versión 11.5.

164

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

IV.3. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE CONGLOMERADOS PARA DATOS BINARIOS Mediante el programa SPSS, aplicar el análisis de conglomerados a los siguientes datos binarios del perfil electroforético de las proteínas en 11 mostos de uva de diferentes variedades. La presencia de la banda se indica con el valor 1, y la ausencia de la misma por el valor 0 (Moreno-Arribas et al., 1999). Mostos

BANDAS 1

2

3

4

5

6

7

8

9

10

11

Parellada48

0

0

0

1

0

0

1

0

1

0

0

Parellada34

0

1

1

1

0

0

1

0

1

0

0

Garnacha26

0

1

1

1

0

0

1

0

1

0

0

Garnacha35

0

1

1

1

0

0

1

0

1

0

0

Macabeo27

0

1

1

1

0

1

1

1

0

0

0

Viñate30

0

1

0

1

0

1

1

1

1

0

0

Viñate41

0

1

0

1

0

1

1

1

0

0

0

Airen2

0

1

0

1

0

1

1

1

0

0

0

Airen25

0

1

0

1

0

0

1

0

0

1

0

Pansa33

0

1

0

0

0

0

1

1

0

1

0

Pansa13

0

1

1

1

1

1

1

1

0

1

0

Obtener el dendrograma correspondiente, utilizando el método de unión de Ward, y como medida de similitud el porcentaje de no coincidencias entre las muestras. Identificar e interpretar los resultados obtenidos, y guardarlos en un fichero de MSWORD. Resultados:

Ejecutar el programa SPSS, definir la variable de cadena mostos (para etiquetar las muestras de mostos), y las variables b1, b2, …, b11 (para las 11 bandas electroforéticas), e introducir los anteriores datos. Guardar el fichero con nombre practmultivbina.sav.

IV.

Prácticas de estadística multivariante

165

Utilizar el comando Analizar, Clasificar, Conglomerados jerárquicos. Colocar las 11 variables (b1, …, b11) en el cuadro de Variables, en Conglomerar elija casos, en Etiquetar casos mediante: elija la variable alfabética mostos, y en Mostrar elija Estadísticos y gráficos. En la ventana de Estadísticos elija Historial de conglomeración y Matriz de distancias; pulse Continuar. En la ventana de Gráficos elija Dendrograma; en Témpanos elija todos los conglomerados, y en Orientación elija Vertical. En la ventana Método: en Método de conglomeración elija Vinculación Inter-grupos; en Medida elija Binaria y Concordancia simple; pulse Continuar y Aceptar.

166

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

IV.

Prácticas de estadística multivariante

167

Los resultados que se obtienen son los siguientes:

Conglomerados jerárquicos

Resumen del procesamiento de los casosb

N

Válidos Porcentaje 11

a b

Casos Rechazado Valor binario fuera de a Valor perdido rango N Porcentaje N Porcentaje

100.0

0

.0

0

.0

Total Porcentaje

N

11

100.0

Valores distintos de 1 y 0. Vinculación promedio (Inter-grupos).

que es el resumen con los casos válidos (11) y rechazados (0). Matriz de distancias medida de emparejamiento simple

Caso 1:Parellada48 2:Parellada34 3:Garnacha26 4:Garnacha35 5:Macabeo27 6:Viñate30 7:Viñate41 8:Airen2 9:Airen25 10:Pansa33 11:Pansa13

1:Par ellad a48 1.000 .818 .818 .818 .545 .727 .636 .636 .727 .545 .364

2:Par ellad a34 .818 1.000 1.000 1.000 .727 .727 .636 .636 .727 .545 .545

3:Gar nach a26 .818 1.000 1.000 1.000 .727 .727 .636 .636 .727 .545 .545

4:Gar nach a35 .818 1.000 1.000 1.000 .727 .727 .636 .636 .727 .545 .545

5:Ma cabe o27 .545 .727 .727 .727 1.000 .818 .909 .909 .636 .636 .818

6:Viñ ate30 .727 .727 .727 .727 .818 1.000 .909 .909 .636 .636 .636

7:Viñ ate41 .636 .636 .636 .636 .909 .909 1.000 1.000 .727 .727 .727

8:Aire n2 .636 .636 .636 .636 .909 .909 1.000 1.000 .727 .727 .727

9:Aire n25 .727 .727 .727 .727 .636 .636 .727 .727 1.000 .818 .636

10:P ansa 33 .545 .545 .545 .545 .636 .636 .727 .727 .818 1.000 .636

11:P ansa 13 .364 .545 .545 .545 .818 .636 .727 .727 .636 .636 1.000

Esta es una matriz de similaridades.

que es la matriz de distancias con las medidas de emparejamiento simple entre los pares de muestras.

168

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Vinculación promedio (Inter-grupos) Historial de conglomeración

Etapa 1 2 3 4 5 6 7 8 9 10

Conglomerado que se combina Conglom Conglom erado 1 erado 2 7 8 3 4 2 3 5 7 5 6 9 10 1 2 5 11 5 9 1 5

Coeficientes 1.000 1.000 1.000 .909 .879 .818 .818 .727 .673 .636

Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 2 0 1 4 0 0 0 0 3 5 0 8 6 7 9

Próxima etapa 4 3 7 5 8 9 10 9 10 0

que es el historial de conglomeración, mostrando los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de fusión en el que cada caso se unió a su conglomerado correspondiente. Diagrama de témpanos vertical

X X X X X X X X X X

X X X X X

X X X X X X X X X X

X X

X X X X X X X X X X

X X X

X X X X X X X X X X

X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X

X X X X X X X X X X

X

X X X X X X X X X X

X X X X X X X X X

X X X X X X X X X X

X X X X X X X X

X X X X X X X X X X

1:Parellada48

2:Parellada34

3:Garnacha26

4:Garnacha35

5:Macabeo27

7:Viñate41

8:Airen2

6:Viñate30

11:Pansa13

9:Airen25

Número de conglomerados 1 2 3 4 5 6 7 8 9 10

10:Pansa33

Caso

X X X X

X X X X X X X X X X

que es el diagrama de témpanos, con la información sobre cómo se combinan los casos en los conglomerados, en cada iteración del análisis.

IV.

Prácticas de estadística multivariante

169

Dendrograma * * * * * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * * * *

Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label

Num

Viñate41 Airen2 Macabeo27 Viñate30 Pansa13 Airen25 Pansa33 Garnacha26 Garnacha35 Parellada34 Parellada48

7 8 5 6 11 9 10 3 4 2 1

0 5 10 15 20 25 +---------+---------+---------+---------+---------+

que es el dendrograma para las 11 muestras de mostos, con la información de la similitud entre los mismos, en base al perfil electroforético, y que podría utilizarse como alternativa al método de clasificación varietal mediante las características morfológicas. El dendrograma se puede copiar a un fichero de MS-WORD, utilizando las herramientas: Edición, Copiar Objetos del SPSS, y Edición, Pegar del MS-WORD. IV.4. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE COMPONENTES PRINCIPALES Aplicar el análisis de componentes principales (“Principal component analysis”) a los datos de composición química (mg/l) de los 16 vinos varietales de la práctica IV.1. Obtener: 1. el gráfico de sedimentación (con los valores propios, que son las varianzas de las componentes principales), 2. el número de componentes principales seleccionadas (con el criterio: valores propios > 1), 3. la tabla con los valores iniciales de las saturaciones de las variables (“loadings”, o correlaciones con la variable originales), para las componentes principales seleccionadas, 4. la tabla con las puntuaciones de las observaciones (“scores”, o coordenadas de las muestras en el espacio de las componentes principales), 5. el gráfico de dispersión de las saturaciones de las variables, para las dos primeras componentes principales, y

170

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

6. el gráfico de dispersión de las puntuaciones de las muestras, para las dos primeras componentes principales, para ayudar en la interpretación de los datos. 7. Identificar e interpretar los resultados, y guardarlos en un fichero de MS-WORD. Resultados:

Ejecutar el programa SPSS y abrir el fichero practmultiv.sav. Utilizar el comando Analizar, Reducción de datos, Análisis factorial, y en la ventana principal del comando, colocar las 10 variables de composición Metanol, Propanol, …, Decanoico en el cuadro de Variables. En la ventana de Descriptivos: en Estadísticos elija Descriptivos univariados y Solución inicial; en Matriz de correlaciones elija Coeficientes y Niveles de significación; pulse Continuar. En la ventana de Extracción: en Método elija Componentes principales, en Analizar elija Matriz de correlaciones, en Extraer elija Aautovalores > 1, y en Mostrar elija Solución factorial sin rotar y Gráfico de sedimentación; pulse Continuar. En la ventana de Rotación: en Método elija Ninguno, y en Mostrar elija Gráficos de saturaciones; pulse Continuar. En la ventana de Puntuaciones: señalar Guardar como variables y Método de regresión, pulse Continuar. Por último, en la ventana de Opciones: en Valores perdidos elija excluir casos según lista, y en Formato visualización de los coeficientes elija Ordenados por tamaño y Suprimir valores absolutos menores que 0,25; pulse Continuar; y pulse Aceptar en ventana principal.

IV.

Prácticas de estadística multivariante

171

172

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

IV.

Prácticas de estadística multivariante

173

Los resultados que se obtienen son los siguientes:

A. factorial

Estadísticos descriptivos

METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC

Media 39.8144 25.0275 .5425 1.2406 2.7094 1.1900 .5450 8.3625 5.3962 1.4962

Desviación típica 9.00906 11.48499 .27632 .42665 1.63855 .68597 .55146 3.20764 3.65608 .84272

N del análisis 16 16 16 16 16 16 16 16 16 16

que es la tabla con los valores descriptivos de las 10 variables.

174

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Matriz de correlaciones

Correlac ión

Sig. (Unilater al)

METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC

META NOL 1.000 -.683 -.286 -.242 -.039 -.103 .474 -.658 .359 .023 .002 .141 .183 .443 .352 .032 .003 .086 .467

PRO PAN OL -.683 1.000 .491 .094 -.201 -.307 -.727 .542 -.758 -.629 .002 .027 .365 .228 .123 .001 .015 .000 .005

BUTA NOA T -.286 .491 1.000 .634 .442 .121 -.813 .098 -.678 -.389 .141 .027 .004 .043 .328 .000 .360 .002 .068

HEXA NOA T -.242 .094 .634 1.000 .822 .620 -.554 .249 -.186 .041 .183 .365 .004

OCT ANO AT -.039 -.201 .442 .822 1.000 .885 -.274 .059 -.079 .263 .443 .228 .043 .000

.000 .005 .013 .177 .246 .440

.000 .152 .414 .386 .163

DEC ANO AT -.103 -.307 .121 .620 .885 1.000 -.010 .083 .165 .506 .352 .123 .328 .005 .000

CIS3 HEX E .474 -.727 -.813 -.554 -.274 -.010 1.000 -.355 .857 .588 .032 .001 .000 .013 .152 .485

.485 .380 .270 .023

.089 .000 .008

HEXA NOCI -.658 .542 .098 .249 .059 .083 -.355 1.000 -.179 .003 .003 .015 .360 .177 .414 .380 .089 .254 .496

OCT ANOI C .359 -.758 -.678 -.186 -.079 .165 .857 -.179 1.000 .764 .086 .000 .002 .246 .386 .270 .000 .254

DEC ANOI C .023 -.629 -.389 .041 .263 .506 .588 .003 .764 1.000 .467 .005 .068 .440 .163 .023 .008 .496 .000

.000

que es la matriz de correlaciones y de las probabilidades asociadas al contraste H0 ≡ ρ = 0. Comunalidades METANOL PROPANOL BUTANOAT HEXANOAT OCTANOAT DECANOAT CIS3HEXE HEXANOCI OCTANOIC DECANOIC

Inicial 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Extracción .843 .938 .828 .863 .957 .872 .938 .815 .887 .857

Método de extracción: Análisis de Componentes principales.

que es la matriz de comunalidades con las varianzas iniciales de las variables (todas unitarias por utilizar la matriz de correlación) y las que se explican con las 3 componentes extraídas.

IV.

Prácticas de estadística multivariante

175

Varianza total explicada

Componente

Total

1 2 3 4 5 6 7 8 9 10

Sumas de las saturaciones al cuadrado de la extracción % de la Total % acumulado varianza

Autovalores iniciales % de la % acumulado varianza

4.323 2.914 1.560 .407 .383 .190 .113 .067 .034 .008

43.232 29.139 15.603 4.067 3.828 1.904 1.135 .673 .336 .083

43.232 72.370 87.974 92.041 95.869 97.773 98.907 99.581 99.917 100.000

4.323 2.914 1.560

43.232 29.139 15.603

43.232 72.370 87.974

Método de extracción: Análisis de Componentes principales.

que muestra el resumen del análisis con los autovalores de cada componente principal, y los porcentajes de la varianza total explicada por cada una de ellas. El número de componentes seleccionadas es 3, que tienen autovalores mayores que 1, y que explican un 87.974% de la varianza total de las 10 variables utilizadas; la primera componente explica un 43.22%, la segunda un 29.139% y la tercera un 15.60% de la varianza total. Gráfico de sedimentación 5

Autovalor

4

3

2

1

0 1

2

3

4

5

6

7

8

9

10

Número de componente

que es el gráfico de sedimentación con los autovalores (varianzas) de las 10 componentes principales. Sólo los tres primeros son mayores que 1.

176

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Matriz de componentesa Componente 2

1 CIS3HEXE OCTANOIC PROPANOL BUTANOAT DECANOIC DECANOAT OCTANOAT HEXANOAT HEXANOCI METANOL a

.957 .866 -.840 -.807 .596

3

.257 -.407

.265 .258 -.352 .418

.571 .931 .926 .759

-.260 -.526 -.475 .612

.766 -.684

Método de extracción: Análisis de componentes principales. 3 componentes extraídos.

que es la matriz de las componentes, o de las saturaciones (o “loadings”) de las variables en las tres componentes principales extraídas. Los valores representan las correlaciones de las variables originales y las 3 componentes principales seleccionadas, y están ordenados por tamaño. Los valores inferiores a 0.25 han sido eliminados para mayor claridad. Las variables cis3hexen, octanoic, propanol y butanoat están muy correlacionadas con la primera componente principal, las dos primeras positivamente y las otras dos negativamente. Las variables decanota, octanoat y hexanoat están más correlacionadas positivamente con la segunda componente principal… Gráfico de componentes

octanoat hexanoat

1,0

Componente 2

decanoat butanoat

0,5

decanoic octanoic

hexanoci 0,0

cis3hexe

metanol

propanol -0,5

-1,0 -1,0

-0,5

0,0

Compone

0,5

nte 1

1,0 1,0

0,5

-0,5

0,0

-1,0

te 3 onen

p

Com

que es el gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales.

IV.

Prácticas de estadística multivariante

177

El gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales puede modificarse para lograr la representación bidimensional en las 2 primeras componentes, utilizando el Editor de gráficos y la herramienta Edición, Propiedades, y en la ventana correspondiente de Variables: mover la Componente 3 del Eje Z: al cuadrado de Excluidos, y pulsar Aplicar y Cerrar.

Salir del Editor de gráficos con la herramienta Archivo, Cerrar. El nuevo gráfico de dispersión, para únicamente las 2 primeras componentes, sería el siguiente: Gráfico de componentes octanoat decanoat

1,0 hexanoat

decanoic

Componente 2

0,5 octanoic

butanoat hexanoci

metanol

0,0

cis3hexe propanol -0,5

-1,0 -1,0

-0,5

0,0

Componente 1

0,5

1,0

178

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En el Visor de datos se puede observar que se han creado 3 nuevas variables (fac1_1, fac2_1 y fac3_1) con los valores de las puntuaciones de las muestras en las tres nuevas variables (componentes principales) por haber seleccionado la opción de Guardar. El correspondiente gráfico de dispersión para las muestras de vino en el plano definido por las dos primeras componentes principales, se puede obtener con el procedimiento Gráficos, Dispersión/Puntos, Dispersión simple. Colocar la primera componente principal (variable fac1_1) en el cuadro del Eje X, y la segunda componente (fac2_1) en el cuadro del Eje Y, la variable variedad en el cuadro Establecer marcas por: y la variable muestra en el cuadro Etiquetar los casos mediante:;

IV.

Prácticas de estadística multivariante

179

En la ventana Opciones marcar Mostrar el gráfico con las etiquetas de caso, pulse Continuar, y Aceptar. El gráfico de dispersión que se obtiene es el siguiente: variedad

REGR factor score 2 for analysis 1

2,00

A M Mo T 1,00

0,00

-1,00

-2,00 -1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

REGR factor score 1 for analysis 1

que puede modificarse con el Editor de gráficos, sin más que seleccionar un marcador con el ratón, y en la ventana correspondiente de Marcador: cambiar el Tipo, Tamaño, y Color del Borde, pulsar Aplicar y repetir la operación para cada marcador seleccionado; pulsar Cerrar. También podríamos seleccionar los títulos de los ejes y cambiar el texto (poner PC1 y PC2), y salir del editor con la herramienta Archivo, Cerrar;

180

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

El gráfico resultante podría ser el siguiente: variedad

2,00

A M Mo T

PC2

1,00

0,00

-1,00

-2,00 -1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

PC1

En esta figura, teniendo en cuenta la primera componente (PC1), se observan dos grandes grupos de muestras, los vinos de las variedades blancas (Airén, Malvar) a la izquierda, y los vinos de las variedades tintas (Trepat, Monastrell) a la derecha, lo que indica, en virtud de la anterior matriz de componentes (correlación positiva de la PC1 con las variables cis3hexen y de octanoic, y negativa con las variables propanol y butanoat), que los vinos tintos tendrán mayores concentraciones de cis3hexen y de octanoic, y menores concentraciones de propanol y butanoat que los blancos. Por otra parte, teniendo en cuenta la segunda componente principal (PC2), los vinos de las variedades Airén y Trepat tendrán mayores concentraciones de decanoat y octanoat que los de las variedades Malvar y Monastrell. La información proporcionada por el análisis de componentes principales es de tipo exploratorio y ayuda a interpretar los datos. Desde un punto de vista estadístico se puede confirmar lo observado sin más que utilizar el procedimiento ANOVA de un factor (variedad) y el test de Student-Newman-Keuls para la comparación de las 4 medias. Los siguientes resultados confirman lo dicho:

IV.

Prácticas de estadística multivariante

181

CIS3HEXE

OCTANOIC Student-Newman-Keuls a,b,c

Student-Newman-Keuls a,b,c VARIEDAD

N

A M Mo T Significación

a b

c

Subconjunto 2 3

1 4 4 4 4

VARIEDAD M A Mo T Significación

.0000 .1600 .7600 .312

1.000

1.2600 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .046. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

a b

c

N 4 4 4 4

a b

c

Subconjunto 2

3

13.0025 18.1600 27.8625 .060

1.000

41.0850 1.000

VARIEDAD T Mo M A Significación

a b

c

Mo M T A Significación

a b

c

4 4 4 4

1 .2900 .3850

.459

Subconjunto 2 3 .3850 .6450 .058

.6450 .8500 .125

OCTANOAT Student-Newman-Keuls a,b,c

Subconjunto 1 2 4 4 4 4

N

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .031. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

DECANOAT Student-Newman-Keuls a,b,c N

10.6475 1.000

BUTANOAT

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 12.333. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

VARIEDAD

1.000

Student-Newman-Keuls a,b,c 1

4 4 4 4

5.8675 .929

PROPANOL

N

Subconjunto 2 3

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 1.984. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

Student-Newman-Keuls a,b,c VARIEDAD T Mo A M Significación

1 2.4900 2.5800

.6475 .7275

.825

1.6775 1.7075 .934

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .250. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

VARIEDAD Mo M T A Significación

a b

c

N

Subconjunto 2

1 4 4 4 4

3

1.3575 1.4975 3.2325 .826

1.000

4.7500 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .778. Usa el tamaño muestral de la media armónica = 4.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

182

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados obtenidos con la versión 13.0 al aplicar el procedimiento Analizar, Reducción de datos, Análisis factorial, no difieren de los que se obtendrían con la versión 11.5. Únicamente existen pequeñas diferencias en la salida gráfica de los diagramas de dispersión y en las herramientas del Editor de gráficos. En la versión 11.5 del SPSS, para modificar el gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales, y lograr la correspondiente representación bidimensional en las 2 primeras componentes, hay que utilizar las herramientas: Galería, Dispersión (elegir Simple y Reemplazar, y en la ventana de datos visualizados en el diagrama de dispersión, elegir la Componente 1 para mostrar en el eje X y la Componente 2 para mostrar en el eje Y). IV.5. EJEMPLO DE APLICACIÓN DEL MODELO FACTORIAL DE COMPONENTES PRINCIPALES En la siguiente tabla se recogen las concentraciones, en mg/l, de algunos alcoholes: 1-hexanol (hexol), 3-etoxi-1-propanol (etxol), cis-3-hexen-1-ol (cisol), linalol (linol), bezilalcohol (benol), metanol(metano), 1-propanol(propan), isobutanol(isol), 2-metil-1-butanol(m1but2), 3-metil-1-butanol(m1but3), 2-feniletanol(fenol), y α-terpineol(terpi), analizados mediante cromatografía de gases, en 8 muestras de vinos obtenidas tras la fermentación de un mismo mosto, en presencia o ausencia de hollejos y de SO2 (Herraiz et al., 1990). muestra

hexol etxol cisol linol benol metano propan

isol

m1but2 m1but3

fenol

terpi

control

1.21

.48

.06

.02

.07

45.42 38.50 41.08 45.45 264.60 65.11

.25

control

1.32

.40

.07

.03

.08

28.57 38.70 42.78 45.96 262.60 62.18

.39

so2

.89

.34

.02

.01

.06

35.02 38.13 43.80 40.93 240.00 55.22

.13

so2

1.17

.37

.03

.02

.05

31.40 31.42 38.18 37.80 212.90 56.13

.13

holl

1.66

.52

.04

.02

.28

265.60 62.30 43.40 50.87 300.40 56.40

.06

holl

1.83

.85

.05

.02

.30

251.87 61.38 44.60 48.17 301.00 56.70

.10

hollso2

2.01 1.74

.07

.03

.44

248.40 55.80 40.53 50.83 281.50 60.21

.08

hollso2

1.96 1.39

.05

.02

.55

249.70 57.21 39.96 50.00 286.60 57.29

.13

Aplicar el análisis factorial (modelo de componentes principales) a los datos de composición química, en las 8 muestras de vinos (Martín-Álvarez, 2000). Obtener: 1. la tabla con las saturaciones de las variables (“loadings”), correspondientes a las componentes extraídas 2. la tabla con las puntuaciones de las observaciones (“scores”), en las componentes extraídas 3. los gráficos de dispersión de las saturaciones y de las puntuaciones, para las dos primeras componentes principales 4. Identificar e interpretar los resultados y guardarlos en un fichero de MS-WORD. 5. Aplicar también el análisis de conglomerados a los datos de composición química de las 8 muestras de vinos para tener una visión de la influencia de los factores hollejos y so2.

IV.

Prácticas de estadística multivariante

183

Resultados:

Ejecutar el programa SPSS y crear un fichero (alcoholes.sav) con las variables: 1) muestra, de tipo cadena, para etiquetar los 8 vinos; 2) hollejos, de tipo numérico, para indicar la presencia o no de hollejos frescos en el mosto (valor 1 para la presencia y 0 para la ausencia); 3) so2, de tipo numérico, para indicar la presencia o no de SO2 en el mosto (valor 1 para la presencia y 0 para la ausencia); y 4) las 12 variables: hexol, etxol, …, terpi para las concentraciones (mg/l) de los 12 alcoholes (1-hexanol, 3-etoxi-1propanol, …, α-terpineol), todas de tipo numérico. Introducir los correspondientes valores de la tabla de datos. Se tiene así:

Con el programa SPSS, hay que utilizar el procedimiento Analizar, Reducción de datos, análisis factorial, y en la ventana principal del procedimiento, colocar las 12 variables hexol, etxol, …, terpin, en el cuadro de Variables:

184

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En la ventana de Descriptivos…: en Estadísticos elija univariados y solución inicial; en Matriz de correlaciones elija Coeficientes y Nivel significación; pulse Continuar. En la ventana de Extracción…: en Método elija Componentes principales, en Analizar matriz de correlaciones, en Extraer autovalores > 1, y en Mostrar Solución factorial sin rotar y Gráfico de sedimentación; pulse Continuar. En la ventana de Rotación…: en Método elija Ninguno, y en Mostrar elija gráficos de saturaciones; pulse Continuar. En la ventana de Puntuaciones…: señalar Guardar como variables y Método de regresión, pulse Continuar. Por último, en la ventana de Opciones…: en Valores perdidos elija excluir casos según lista, y en Formato visualización de los coeficientes elija Ordenar por tamaño y suprimir valores absolutos menores que 0.25; pulse Continuar; y pulse Aceptar en ventana principal. Los resultados que se obtienen son los siguientes:

A. factorial Estadísticos descriptivos Media HEXOL ETXOL CISOL LINOL BENOL METANO PROPAN ISOL M1BUT2 M1BUT3 FENOL TERPIN

1.5063 .7613 .0488 .0213 .2288 144.4975 47.9300 41.7913 46.2513 268.7000 58.6550 .1588

Desviación típica

N del análisis

.41462 .52908 .01808 .00641 .19394 117.16281 12.41078 2.20328 4.78836 30.52816 3.49399 .10934

que es la tabla con los valores descriptivos de las 12 variables.

8 8 8 8 8 8 8 8 8 8 8 8

IV.

Prácticas de estadística multivariante

185

Matriz de correlacionesa

Correlación

a

HEX OL

ETXO L

CISO L

LINO L

BEN OL

META NO

PRO PAN

ISOL

M1B UT2

M1B UT3

FEN OL

TER PIN

HEXOL 1.000 ETXOL .854 CISOL .516 LINOL .502 BENOL .927 METANO .911 PROPAN .856 ISOL -.048 M1BUT2 .846 M1BUT3 .775 FENOL -.041 TERPIN -.409

.854 1.000 .484 .438 .894 .710 .606 -.259 .664 .498 .029 -.401

.516 .484 1.000 .879 .317 .209 .229 -.060 .594 .454 .774 .462

.502 .438 .879 1.000 .266 .185 .152 -.231 .447 .258 .543 .370

.927 .894 .317 .266 1.000 .888 .820 -.100 .788 .694 -.186 -.499

.911 .710 .209 .185 .888 1.000 .975 .175 .837 .842 -.297 -.657

.856 .606 .229 .152 .820 .975 1.000 .374 .877 .925 -.254 -.562

-.048 -.259 -.060 -.231 -.100 .175 .374 1.000 .275 .496 -.139 .022

.846 .664 .594 .447 .788 .837 .877 .275 1.000 .942 .181 -.213

.775 .498 .454 .258 .694 .842 .925 .496 .942 1.000 .070 -.253

-.041 .029 .774 .543 -.186 -.297 -.254 -.139 .181 .070 1.000 .684

-.409 -.401 .462 .370 -.499 -.657 -.562 .022 -.213 -.253 .684 1.000

Esta matriz no es definida positiva.

que es la matriz de correlaciones, no definida positiva, por tener más variables que muestras. Comunalidades Inicial HEXOL ETXOL CISOL LINOL BENOL METANO PROPAN ISOL M1BUT2 M1BUT3 FENOL TERPIN

1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Extracción .973 .883 .989 .811 .936 .986 .992 .924 .956 .979 .841 .877

Método de extracción: Análisis de Componentes principales.

que es la matriz de comunalidades con las varianzas iniciales de las variables (todas 1 por la estandarización de las variables) y las que se explican con las componentes extraídas.

186

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción

Autovalores iniciales Componente 1 2 3 4 5 6 7 8 9 10 11 12

% de la varianza 54.116 25.509 13.262 3.061 1.985 1.612 .454 2.592E-15 9.771E-16 5.450E-16 -1.46E-15 -2.75E-15

Total 6.494 3.061 1.591 .367 .238 .193 .055 3.110E-16 1.172E-16 6.540E-17 -1.75E-16 -3.30E-16

% acumulado 54.116 79.625 92.887 95.949 97.933 99.546 100.000 100.000 100.000 100.000 100.000 100.000

Total 6.494 3.061 1.591

% de la varianza 54.116 25.509 13.262

% acumulado 54.116 79.625 92.887

Método de extracción: Análisis de Componentes principales.

que muestra el resumen del análisis con los autovalores de cada componente principal, y los porcentajes de la varianza total explicada por cada una de ellas. El número de componentes seleccionadas es 3, que tienen autovalores mayores que 1, y que explican un 92.887% de la varianza total de las 12 variables utilizadas; la primera componente explica un 54.116%, la segunda un 25.509% y la tercera un 13.262% de la varianza total. Gráfico de sedimentación

Autovalor

6

4

2

0

1

2

3

4

5

6

7

8

9

10

11

12

Número de componente

que es el gráfico de sedimentación con los autovalores de las 12 componentes principales. Sólo los tres primeros son mayores que 1.

IV.

Prácticas de estadística multivariante

187

Matriz de componentesa Componente 2

1 HEXOL METANO M1BUT2 PROPAN BENOL M1BUT3 ETXOL FENOL CISOL LINOL TERPIN ISOL

a

.969 .949 .934 .932 .921 .881 .820

3

-.292 -.272 -.269 .451 -.448 .908 .865 .783 .781

.488 .413 -.436

.277 .926

Método de extracción: Análisis de componentes principales. 3 componentes extraídos.

que es la matriz de las componentes, o de las saturaciones (o “loadings”) de las variables en las tres componentes principales extraídas. Los valores representan las correlaciones de las variables originales y las 3 componentes principales seleccionadas, y están ordenados por tamaño. Los valores inferiores a 0.25 han sido eliminados para mayor claridad. Las variables hexol, metano, m1but2, propan, benol, m1but3 y etxol están muy correlacionadas positivamente con la primera componente principal. Las variables fenol, cisol, linol y terpin están más correlacionadas positivamente con la segunda componente principal… Gráfico de componentes

fenol

1,0

linol

Componente 2

terpin

cisol

0,5 etxol

m1but2 m1but3

0,0

hexol benol isol

-0,5

metano

propan

-1,0 -1,0

-0,5

0,0

0,5

Compone

nte 1

0,5 1,0 1,0

0,0

-0,5 -1,0

ente mpon

3

Co

que es el gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales.

188

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

El gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales puede modificarse para lograr la representación bidimensional en las 2 primeras componentes, utilizando el Editor de gráficos y la herramienta Edición, Propiedades, y en la ventana correspondiente de Variables: mover la Componente 3 del Eje Z: al cuadrado de Excluidos:, y pulsar Aplicar y Cerrar. También se pueden añadir líneas de referencia para el valor 0 de los ejes, mediante la herramienta Opciones, Línea de referencia del eje X (ó Y), y en el cuadro Posición del eje: colocar el valor 0, pulsar Aplicar y Cerrar. Salir del Editor de gráficos. El nuevo gráfico de dispersión sería el siguiente: Gráfico de componentes 1,0

fenol

cisol

terpin

linol

Componente 2

0,5

etxol 0,0

m1but2

m1but3

isol

hexol

benol propan metano

-0,5

-1,0 -1,0

-0,5

0,0

0,5

1,0

Componente 1

En el Visor de datos se puede observar que se han creado 3 nuevas variables (fac1_1, fac2_1 y fac3_1) con los valores de las puntuaciones de las 8 muestras de vino en las tres nuevas variables (componentes principales) por haber seleccionado la opción de Guardar. El correspondiente gráfico de dispersión para las muestras de vino en el plano definido por las dos primeras componentes principales, se puede obtener con el procedimiento Gráficos, Dispersión/Puntos, Dispersión simple. Colocar la primera componente principal (variable fac1_1) en el cuadro del Eje X, la segunda componente (fac2_1) en el cuadro del Eje Y, y la variable muestra en el cuadro Etiquetar los casos mediante:; y en la ventana Opciones marcar Mostrar el gráfico con las etiquetas de caso, pulse Continuar, y Aceptar.

Prácticas de estadística multivariante

189

El gráfico de dispersión que se obtiene es el siguiente: 2,00000 control

REGR factor score 2 for analysis 1

IV.

control 1,00000 hollso2

0,00000

hollso2

so2 holl

-1,00000

holl

so2

-1,50000

-1,00000

-0,50000

0,00000

0,50000

1,00000

REGR factor score 1 for analysis 1

1,50000

190

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

que puede modificarse mediante el Editor de gráficos (con las herramientas de Opciones, líneas de referencia, cambio de títulos de los ejes, y 2 cifras decimales en Formato de numeración), para lograr:

2,00 control

control 1,00

PC2

hollso2

0,00

hollso2

so2 holl

-1,00

holl

so2

-1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

PC1

A la vista de esta figura se pone de manifiesto que las muestras de vino obtenidas mediante la adición de hollejos al mosto (muestras “holl” y “hollso2”), tienen valores en la primera componente principal mayores que el resto de las muestras, lo que indica también mayores concentraciones en los alcoholes correlacionados positivamente con dicha componente principal, fundamentalmente: 1-hexanol, metanol, 2-metil-1-butanol,1-propanol, bencilalcohol y 3-metil-1-butanol, todos ellos con correlaciones > 0.88. Esta primera componente explica un 54.12% de la varianza total de los datos. La segunda componente principal, que explica un 25.51% del total de la varianza, diferencia entre las muestras control (“control“) y los vinos obtenidos en presencia de SO2 (“so2”). Las muestras control, tendrán concentraciones mayores que las muestras etiquetadas como “so2”, en los alcoholes 2-feniletanol, cis-3-hexen-1-ol, linalol y α-terpineol que tienen correlaciones > 0.78 con esta segunda componente. El factor hollejos tiene, por tanto, una gran influencia sobre las variables analizadas (alcoholes). El efecto del factor SO2 es más notable cuando la fermentación tiene lugar sin la adición de los hollejos. La información proporcionada por el análisis de componentes principales es de tipo exploratorio, pero ayuda a interpretar los datos de una forma rápida. Desde un punto de vista estadístico se puede confirmar lo observado sin más que utilizar el correspondiente ANOVA de dos factores (hollejos y so2) o el ANOVA de un factor (muestra) para una mejor interpretación en caso de que la interacción sea significativa. Los siguientes resultados confirman lo dicho anteriormente:

IV.

Prácticas de estadística multivariante

191

Estadísticos descriptivos MUESTRA control Desv. típ. Media

HEXOL ETXOL CISOL LINOL BENOL METANO PROPAN ISOL M1BUT2 M1BUT3 FENOL TERPIN

1.27 .44 .07 .03 .08 37.00 38.60 41.93 45.71 263.60 63.65 .32

holl Media

.08 .06 .01 .01 .01 11.91 .14 1.20 .36 1.41 2.07 .10

1.75 .69 .05 .02 .29 258.74 61.84 44.00 49.52 300.70 56.55 .08

Desv. típ.

.12 .23 .01 .00 .01 9.71 .65 .85 1.91 .42 .21 .03

hollso2 Desv. Media típ.

Media

1.99 1.57 .06 .03 .50 249.05 56.51 40.25 50.42 284.05 58.75 .11

1.03 .36 .03 .02 .06 33.21 34.78 40.99 39.36 226.45 55.68 .13

.04 .25 .01 .01 .08 .92 1.00 .40 .59 3.61 2.06 .04

so2 Desv. típ.

.20 .02 .01 .01 .01 2.56 4.74 3.97 2.21 19.16 .64 .00

Pruebas de los efectos inter-sujetos

Fuente MUESTRA

Variable dependien te HEXOL ETXOL CISOL LINOL BENOL METANO PROPAN ISOL M1BUT2 M1BUT3 FENOL TERPIN

Suma de cuadrados tipo III 1.142 1.840 .002 .000 .257 95846.254 1054.243 15.861 151.481 6141.390 76.441 .072

gl 3 3 3 3 3 3 3 3 3 3 3 3

Media cuadrática .381 .613 .001 4.583E-05 .086 31948.751 351.414 5.287 50.494 2047.130 25.480 .024

F 24.992 20.557 7.381 1.222 53.950 524.578 58.693 1.167 22.397 21.414 11.306 8.083

Significación .005 .007 .042 .410 .001 .000 .001 .426 .006 .006 .020 .036

que informa de que únicamente no existen diferencias significativas (P>0.05) para las variables linol e isol.

192

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Pruebas post hoc muestra Subconjuntos homogéneos METANO Student-Newman-Keults

PROPAN

a,b,c

Student-Newman-Keuls a,b,c Subconjunto

MUESTRA so2 control hollso2 holl Significación

a b

c

N 2 2 2 2

1 33.2100 36.9950

Subconjunto

2

MUESTRA so2 control hollso2 holl Significación

249.0500 258.7350 .282

.653

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 60.904. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

a b

c

N

1 34.7750 38.6000

2 2 2 2

.193

2

56.5050 61.8400 .095

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 5.987. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

valores medios mayores en los vinos elaborados con hollejos. BENOL Student-Newman-Keuls

HEXOL

a,b,c

Student-Newman-Keuls a,b,c

Subconjunto MUESTRA so2 control holl hollso2 Significación

a b

c

N 2 2 2 2

1 .0550 .0750

2

Subconjunto

3

.2900 .642

1.000

.4950 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .002. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

MUESTRA so2 control holl hollso2 Significación

a b

c

N 2 2 2 2

1 1.0300 1.2650

.130

2

1.7450 1.9850 .124

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .015. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

valores medios mayores en los vinos elaborados con hollejos.

IV.

Prácticas de estadística multivariante

193

M1BUT2

M1BUT3

Student-Newman-Keuls a,b,c

Student-Newman-Keuls a,b,c Subconjunto

Subconjunto MUESTRA so2 control holl hollso2 Significación

a b

c

N

1 39.3650

2 2 2 2

1.000

MUESTRA so2 control hollso2 holl Significación

2 45.7050 49.5200 50.4150 .073

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 2.254. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

a b

c

N

1 2 3 2 226.4500 2 263.6000 2 284.0500 284.0500 2 300.7000 1.000 .105 .164

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 95.598. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

valores medios inferiores en los vinos elaborados únicamente con SO2. ETXOL Student-Newman-Keuls a,b,c Subconjunto MUESTRA so2 control holl hollso2 Significación

N

1 .3550 .4400 .6850

2 2 2 2

.250

2

1.5650 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .030. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

a b

c

valores medios superiores en los vinos elaborados con hollejos y SO2. FENOL

TERPIN

Student-Newman-Keuls a,b,c

Student-Newman-Keuls a,b,c Subconjunto

Subconjunto MUESTRA so2 holl hollso2 control Significación

a b

c

N 2 2 2 2

1 55.6750 56.5500 58.7500 .216

2

63.6450 1.000

MUESTRA holl hollso2 so2 control Significación

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 2.254. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

valores medios superiores en los vinos control.

a b

c

N 2 2 2 2

1 .0800 .1050 .1300 .659

2

.3200 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .003. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

194

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

CISOL Student-Newman-Keuls a,b,c Subconjunto MUESTRA so2 holl hollso2 control Significación

a b

c

N

1 .0250 .0450

2 2 2 2

.099

2 .0450 .0600 .0650 .197

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 8.750E-05. Usa el tamaño muestral de la media armónica = 2.000 Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

valores medios diferentes en los vinos control y elaborados con hollejos y SO2 y los vinos elaborados únicamente con SO2. LINOL

ISOL

Student-Newman-Keuls a,b,c

Student-Newman-Keuls a,b,c Subconjunto

Subconjunto MUESTRA so2 holl control hollso2 Significación

a b

c

N

1 2 2 2 2

.0150 .0200 .0250 .0250 .455

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 3.750E-05. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

MUESTRA hollso2 so2 control holl Significación

a b

c

N 2 2 2 2

1 40.2450 40.9900 41.9300 44.0000 .403

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 4.530. Usa el tamaño muestral de la media armónica = 2.000. Los tamaños de los grupos son distintos. Se empleará la media armónica de los tamaños de los grupos. No se garantizan los niveles de error tipo I. Alfa = .05.

no existen diferencias significativas entre los 4 valores medios de estas dos variables. Para obtener el dendrograma de las muestras de vino habría que utilizar el procedimiento Analizar, Clasificar, Conglomerados jerárquicos, y colocar las 12 variables hexol, etxol, …, terpin en el cuadro de Variables, en Conglomerar elija casos, en Etiquetar casos mediante elija la variable alfabética muestra, y en Mostrar elija Estadísticos y gráficos.

IV.

Prácticas de estadística multivariante

195

En la ventana de Gráficos elija Dendrograma; en Témpanos elija Todos los conglomerados, y en Orientación elija Vertical. En la ventana de Método: en Método de conglomeración elija el Método de Ward; en Medida elija Intervalo y Distancia euclídea al cuadrado, en Transformar valores elija Estandarizar: Puntuaciones Z por variable; Continuar y Aceptar. Los resultados que se obtienen son los siguientes:

Conglomerados jerárquicos Vinculación de Ward Historial de conglomeración

Etapa 1 2 3 4 5 6 7

Conglomerado que se combina Conglom Conglom erado 1 erado 2 5 7 1 3 5 1 1

6 8 2 4 7 3 5

Coeficientes .825 3.564 6.469 12.112 21.505 40.929 84.000

Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 1 3 6

0 0 0 0 2 4 5

Próxima etapa 5 5 6 6 7 7 0

196

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Diagrama de témpanos vertical

X X X X X X X

X X X X X X

X X X X X X X

X X X

X X X X X X X

X X X X X X X

X X X X X X X

X

X X X X X X X

X X X X

X X X X X X X

X X

X X X X X X X

1:control

2:control

3:so2

4:so2

5:holl

6:holl

Número de conglomerados 1 2 3 4 5 6 7

7:hollso2

8:hollso2

Caso

X X X X X

X X X X X X X

Dendrograma

******HIERARCHICAL

CLUSTER

ANALYSIS*****

Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num holl holl hollso2 hollso2 control control so2 so2

0 5 10 15 20 25 +---------+---------+---------+---------+---------+

5 6 7 8 1 2 3 4

--------------------------------------------------------------------------------------------------El dendrograma pone de manifiesto que la mayor diferencia entre las muestras de vino, se debe al factor hollejos, y también, aunque en menor manera, al factor so2. IV.6. EJEMPLO DE APLICACIÓN DEL ANÁLISIS FACTORIAL, DE CONGLOMERADOS Y DISCRIMINANTE En la siguiente tabla se muestran los datos de composición química (mg/l) de cinco alcoholes y del color (absorbancia a 420 nm), de 53 muestras de whisky de 4 marcas comerciales (Martín-Álvarez et al., 1988; Herranz et al., 1989; Martín-Álvarez, 2000):

IV.

Prácticas de estadística multivariante

Muestra

197

Marca

Metanol

Aceta.etilo

Propanol

2met1propa

3met1propa

Absorban

A1

1

12.80

32.50

58.10

60.70

87.90

.34

A2

1

11.60

30.70

57.20

58.30

83.70

.35

A3

1

12.20

29.30

53.70

60.60

80.00

.34

A4

1

10.40

28.80

52.30

56.30

79.20

.35

A5

1

10.90

29.50

53.90

61.80

79.30

.34

A6

1

11.60

30.90

53.90

61.60

81.40

.34

A7

1

10.00

27.60

50.20

50.90

73.20

.34

A8

1

12.00

31.10

57.40

61.10

83.20

.32

A9

1

12.00

28.75

56.00

60.00

85.00

.34

A10

1

12.20

29.90

57.70

63.80

86.20

.33

A11

1

10.95

29.60

50.70

61.40

80.00

.33

A12

1

11.00

29.25

55.00

58.50

94.25

.32

A13

1

11.00

28.50

56.50

58.00

82.50

.32

A14

1

12.10

29.20

57.00

64.70

87.80

.35

A15

1

10.20

31.20

57.40

61.10

83.20

.33

A16

1

11.10

30.50

54.50

65.10

80.10

.33

A17

1

12.10

31.30

55.70

60.90

84.60

.34

A18

1

12.04

31.90

55.10

55.90

83.50

.34

A19

1

11.40

30.60

53.70

53.90

86.00

.33

A20

1

12.10

31.30

54.40

56.00

83.70

.33

B1

2

6.10

25.30

24.40

54.20

97.10

.43

B2

2

5.50

23.90

24.40

46.50

101.30

.43

B3

2

5.30

22.10

23.90

43.10

93.90

.42

B4

2

5.30

22.30

26.70

45.60

97.50

.42

B5

2

5.40

22.60

30.70

52.10

104.30

.38

B6

2

5.10

23.30

28.20

53.40

98.90

.44

B7

2

5.00

23.30

28.90

55.10

94.90

.44

B8

2

5.20

27.30

29.70

55.80

93.80

.49

B9

2

5.20

28.10

30.80

52.40

84.50

.47

B10

2

5.30

25.60

28.70

55.90

82.60

.46

B11

2

5.40

23.20

29.80

55.90

85.20

.46

B12

2

5.80

24.40

33.90

55.60

103.40

.46

C1

3

5.30

24.20

22.10

29.30

85.20

.43

C2

3

6.20

29.00

21.00

38.10

82.00

.39

C3

3

5.20

36.50

18.50

37.90

79.40

.41

C4

3

5.80

31.60

21.10

42.20

89.00

.40

198

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

(Continuación) Muestra

Marca

Metanol

Aceta.etilo

Propanol

2met1propa

3met1propa

Absorban

C5

3

6.60

31.80

25.60

39.20

89.50

.40

C6

3

6.20

29.60

24.00

38.00

87.70

.40

C7

3

6.10

30.80

23.00

37.40

86.80

.41

C8

3

6.10

30.60

23.80

36.90

88.10

.41

C9

3

6.30

32.10

23.50

39.20

87.40

.41

C10

3

5.30

42.00

18.00

41.30

91.50

.39

C11

3

6.50

30.00

20.60

36.70

87.60

.38

C12

3

6.30

31.50

27.80

37.80

91.50

.42

C13

3

6.00

31.70

26.40

37.80

88.00

.40

C14

3

6.30

35.10

20.30

37.20

90.30

.40

C15

3

6.60

31.70

27.80

39.60

95.40

.41

D1

4

4.40

25.70

26.40

36.20

78.20

.27

D2

4

4.70

23.20

29.10

48.50

84.40

.25

D3

4

5.90

26.10

27.70

48.30

79.20

.29

D4

4

4.70

24.00

27.80

53.20

80.60

.26

D5

4

4.60

22.50

26.10

41.30

68.80

.29

D6

4

5.60

23.70

29.80

43.30

73.90

.27

1. Utilizando el programa SPSS, aplicar el análisis factorial (modelo de componentes principales), el análisis de conglomerados y el análisis lineal discriminante a los datos de composición y de color de las 53 muestras de whisky de las 4 marcas comerciales. 2. Identificar e interpretar los resultados. Resultados:

Ejecutar el programa SPSS y crear un fichero (whisky.sav) con las variables: 1) muestra, de tipo cadena, para etiquetar las 53 botellas de whisky; 2) marca, de tipo numérico para indicar la marca de procedencia de la botella; 3) las 6 variables: metanol, acetetil, propanol, met1but2, met1but3, y absorban, para las concentraciones (mg/l) de los 5 alcoholes y la absorbancia a 420nm, todas de tipo numérico. Introducir los correspondientes valores de la tabla de datos. Se tiene así:

IV.

Prácticas de estadística multivariante

199

Con el programa SPSS, hay que utilizar el procedimiento Analizar, Reducción de datos, Análisis factorial, y en la ventana principal del procedimiento, colocar las 6 variables: metanol, acetetil, propanol, met1but2, met1but3, y absorban, en el cuadro de Variables:

200

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En la ventana de Descriptivos…: en Estadísticos elija Univariados y Solución inicial; en Matriz de correlaciones elija Coeficientes y Nivel significación; pulse Continuar. En la ventana de Extracción…: en Método elija Componentes principales, en Analizar matriz de correlaciones, en Extraer autovalores > 1, y en Mostrar Solución factorial sin rotar y Gráfico de sedimentación; pulse Continuar. En la ventana de Rotación…: en Método elija Ninguno, y en Mostrar elija Gráficos de saturaciones; pulse Continuar. En la ventana de Puntuaciones…: señalar Guardar como variables y Método de regresión, pulse Continuar. Por último, en la ventana de Opciones…: en Valores perdidos elija excluir casos según lista, y en Formato visualización de los coeficientes elija Ordenar por tamaño y suprimir valores absolutos menores que 0.25; pulse Continuar; y pulse Aceptar en ventana principal. Los resultados que se obtienen son los siguientes: A. factorial

Estadísticos descriptivos Media METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN

7.8300 28.6264 36.8094 50.1057 86.5406 .3717

Desviación típica 2.94759 4.02518 14.68929 9.78060 7.39927 .05800

N del análisis 53 53 53 53 53 53

que es la tabla con los valores descriptivos (media y desviación típica) de las 6 variables utilizadas en el análisis. Matriz de correlaciones METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN 1.000 .373 .948 .712 -.281 -.433 .373 1.000 .169 -.063 -.130 -.023 .948 .169 1.000 .833 -.291 -.478 MET1BUT2 .712 -.063 .833 1.000 -.078 -.262 MET1BUT3 -.281 -.130 -.291 -.078 1.000 .609 ABSORBAN -.433 -.023 -.478 -.262 .609 1.000 Sig. (Unilateral) METANOL .003 .000 .000 .021 .001 ACETETIL .003 .113 .327 .177 .435 PROPANOL .000 .113 .000 .017 .000 MET1BUT2 .000 .327 .000 .290 .029 MET1BUT3 .021 .177 .017 .290 .000 ABSORBAN .001 .435 .000 .029 .000 Correlación

METANOL ACETETIL PROPANOL

que es la matriz de correlación, con las probabilidades asociadas al contraste de correlación nula.

IV.

Prácticas de estadística multivariante

201

Comunalidades Inicial METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN

Extracción

1.000 1.000 1.000 1.000 1.000 1.000

.947 .979 .974 .903 .840 .813

Método de extracción: Análisis de Componentes principales.

que es la matriz de comunalidades con las varianzas iniciales de las variables y las que se explican con las 3 componentes extraídas. Varianza total explicada

Componente 1 2 3 4 5 6

Autovalores iniciales % de la varianza Total % acumulado 3.118 51.960 51.960 1.267 21.116 73.076 1.072 17.875 90.951 .358 5.966 96.917 .165 2.743 99.660 .020 .340 100.000

Sumas de las saturaciones al cuadrado de la extracción % de la varianza Total % acumulado 3.118 51.960 51.960 1.267 21.116 73.076 1.072 17.875 90.951

Método de extracción: Análisis de Componentes principales.

que muestra el resumen del análisis con los autovalores de cada componente principal, y los porcentajes de la varianza total explicada por cada una de ellas. El número de componentes seleccionadas es 3, que tienen autovalores mayores que 1, y que explican un 90.95% de la varianza total de las 6 variables utilizadas; la primera componente explica un 51.96%, la segunda un 21.12% y la tercera un 17.87% de la varianza total. Gráfico de sedimentación

Autovalor

3

2

1

0 1

2

3

4

5

6

Número de componente

que es el gráfico de sedimentación con los autovalores de las 6 componentes principales.

202

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Matriz de componentesa 1 1

PROPANOL PROPANOL METANOL METANOL MET1BUT2 MET1BUT2 ABSORBAN ABSORBAN MET1BUT3 MET1BUT3 ACETETIL ACETETIL a

.958 .958 .933 .933 .781 .781 -.646 -.646 -.486 -.486 .254

Componente Componente 2 2

3 3

.481 .481 .575 .575 .774 .774

.255 .255 .948

Método de extracción: Análisis de componentes principales. 3 componentes extraídos.

que es la matriz de las componentes, o de las saturaciones de las variables en las tres componentes principales extraídas. Los valores representan las correlaciones de las variables originales y las 3 componentes principales seleccionadas, y están ordenados por tamaño. Los valores inferiores a 0.25 han sido eliminados para mayor claridad. Las variables propanol y metanol están muy correlacionadas con la primera componente principal (“loadings” > 0.9), mientras que la segunda componente principal no queda bien definida, únicamente la variable met1but3 muestra una correlación de 0.77. La variable acetetil contribuye a la definición de la tercera componente principal (“loading” > 0.9). Las variables met1but2, absorban y met1but3, no muestran una clara contribución a una única componente. Convendría realizar la rotación de los 3 factores (componentes principales) para ver si mejora la definición de los mismas, maximizando la contribución de cada variable en un único factor. Gráfico de componentes

absorban

1,0

acetetil met1but3

Componente 2

0,5

metanol

met1but2 0,0

propanol -0,5

-1,0 -1,0

-0,5

Compone

0,0

nte 1

0,5

1,0 1,0

0,5

0,0

-0,5

-1,0

nte 3

pone

Com

que es el gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales.

IV.

Prácticas de estadística multivariante

203

Para proceder a realizar la mencionada rotación, se puede elegir en la ventana de Rotación el Método Varimax, que busca la rotación que maximiza la contribución de cada variable en un único factor,

Los resultados que se obtienen, además de las tablas con los valores descriptivos, correlaciones, y comunalidades y el gráfico de sedimentación, iguales a los anteriores, son los siguientes: Varianza total explicada

Comp onente 1 2 3 4 5 6

Autovalores iniciales % % de la acumula Total varianza do 3.12 1.27 1.07 .36 .16 .02

51.96 21.12 17.87 5.97 2.74 .34

51.96 73.08 90.95 96.92 99.66 100.00

Sumas de las saturaciones al cuadrado de la extracción % % de la acumula Total varianza do 3.12 1.27 1.07

51.96 21.12 17.87

51.96 73.08 90.95

Suma de las saturaciones al cuadrado de la rotación % % de la acumula Total varianza do 2.64 1.68 1.14

43.96 27.96 19.03

43.96 71.92 90.95

Método de extracción: Análisis de Componentes principales.

que muestra el resumen del análisis con los autovalores de cada componente principal, los porcentajes de la varianza total explicada por cada una de las tres componentes seleccionados en la solución inicial sin rotar, iguales a los mostrados anteriormente, y los nuevos porcentajes de la varianza total explicada por los 3 factores rotados con el método ”varimax”. Los tres factores rotados siguen explicando un 90.95% de la varianza total de las 6 variables utilizadas; pero ahora el primero (primera componente) explica un 43.96% (menos que en la solución inicial que era un 51.96%), el segundo explica un 27.96% (antes era un 21.12%) y el tercero explica un 19.03% de la varianza total (antes un 17.87%).

204

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Matriz de componentesa Componente 2

1 PROPANOL METANOL MET1BUT2 ABSORBAN MET1BUT3 ACETETIL a

Matriz de componentes rotadosa 3

.958 .933 .781 -.646 -.486 .254

.481 .575 .774

Componente 2

1

.255 .948

Método de extracción: Análisis de componentes principales. 3 componentes extraídos

PROPANOL MET1BUT2 METANOL MET1BUT3 ABSORBAN ACETETIL

a

.945 .936 .881 -.293

3

-.263 .337 .909 .851 .986

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. La rotación ha convergido en 4 iteraciones.

que son las matrices de las componentes con las saturaciones (“loadings”) de las variables en la solución inicial y en la correspondiente a la rotación con el método “varimax”. Los valores representan las correlaciones de las variables originales y los 3 factores (componentes principales) de la solución inicial y rotada, y están ordenados por tamaño. Los valores inferiores a 0,25 han sido eliminados para mayor claridad. En la nueva matriz de componentes rotados se observa que todas las variables contribuyen de una manera más clara en la definición de un único factor. Ahora, tras la rotación, las variables propanol, met1but2 y metanol están muy correlacionadas con la primera componente principal (“loadings” > 0.88), mientras que las variables met1but3 y absorban están mas correlacionadas con la segunda componente principal rotada (“loadings” > 0.85). La variable acetetil contribuye a la definición de la tercera componente principal rotada (“loading” > 0.98). Matriz de transformación de las componentes Componente 1 2 3

1

2

3

.861 .500 -.092

-.475 .856 .202

.180 -.130 .975

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.

que representa la matriz de transformación para pasar de la matriz inicial de componentes a la rotada.

IV.

Prácticas de estadística multivariante

205

Gráfico de componentes en espacio rotado

absorban

1,0

Componente 2

met1but3 0,5 acetetil

0,0

met1but2

metanol

-0,5

propanol

-1,0 -1,0

-0,5

0,0

Compone

0,5

nte 1

1,0 1,0

0,5

0,0

-0,5

-1,0

te 3 onen

p

Com

que es el gráfico de dispersión tridimensional con los valores de las saturaciones (“loadings”) de las 6 variables en las 3 primeras componentes principales rotadas. El gráfico de dispersión tridimensional con los valores de las saturaciones de las variables en las 3 primeras componentes principales rotadas puede modificarse para lograr la representación bidimensional en las 2 primeras componentes rotadas, utilizando el Editor de gráficos, la herramienta Edición, Propiedades, y en la ventana correspondiente de Variables: mover la Componente 3 del Eje Z: al cuadrado de Excluidos:, y pulsar Aplicar y Cerrar. También se pueden añadir líneas de referencia para el valor 0 de los ejes, mediante la herramienta Opciones, Línea de referencia del eje X (ó Y), y en el cuadro Posición del eje: colocar el valor 0, pulsar Aplicar y Cerrar. Salir del Editor de gráficos. El nuevo gráfico de dispersión sería el siguiente: Gráfico de componentes en espacio rotado 1,0

absorban met1but3

Componente 2

0,5

acetetil

met1but2

0,0

metanol

propanol

-0,5

-1,0 -1,0

-0,5

0,0

Componente 2

0,5

1,0

206

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En el Visor de datos se puede observar que se han creado 3 nuevas variables (fac1_2, fac2_2 y fac3_2) con los valores de las puntuaciones de las 53 muestras de whisky en las tres nuevas variables (componentes principales rotadas) por haber seleccionado la opción de Guardar. El correspondiente gráfico de dispersión para las 53 muestras de whisky en el plano definido por las dos primeras componentes principales rotadas, que explican un 71.92% de la varianza total, se puede obtener con el procedimiento Gráficos, Dispersión/Puntos, Dispersión Simple. Colocar la primera componente principal rotada (variable fac1_2) en el cuadro del Eje X, y la segunda componente rotada (fac2_2) en el cuadro del Eje Y, la variable marca en Establecer marcas por:, y la variable muestra en el cuadro Etiquetar los casos mediante:; en la ventana Opciones marcar Mostrar el gráfico con las etiquetas de caso, pulse Continuar, y Aceptar.

IV.

Prácticas de estadística multivariante

207

El gráfico de dispersión que se obtiene es el siguiente: marca 1 2 3 4

REGR factor score 2 for analysis 3

4,00000

B12 B2 B8

2,00000 C15

C10 C1 C14

C9

0,00000 C11

C3

-2,00000

B10

C13

D6

D5

B3 B4

C5

D3 D1

B6 B7

A12

B11

A17 A19 A2

A1

A20 D2

A14

A13 A11 A16

A7

D4

-4,00000 -2,00000

-1,00000

0,00000

1,00000

2,00000

REGR factor score 1 for analysis 3

que puede modificarse con el Editor de gráficos (seleccionar un marcador, y en la ventana correspondiente cambiar el Tipo, Tamaño, y Color del Borde; seleccionar cada eje de coordenadas y cambiar el n.º de decimales, la escala y los títulos), para lograr: marca 1 2 3 4

4,00

B12 2,00

B2 B6

B8

C15 B3 B4 B7 C8 C13 C1 C14 B9 B11 B10 C9 C11 C3 D3 D2

PCR2

C10

0,00

D1 -2,00

D5

D6

A12 A17

A19

A4

A20

A1 A14 A6 A9 A10

A16

A7

D4

-4,00 -2,00

-1,00

0,00

1,00

2,00

PCR1

A la vista de esta figura se pone de manifiesto que se produce una diferenciación de las 53 botellas de whisky según su marca de procedencia. Las muestras de la marca A tienen valores en la primera componente principal mayores que el resto de las muestras, lo que indica también mayores concentraciones en los alcoholes correlacionados positi-

208

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

vamente con dicha componente principal rotada, propanol, met1but2 y metanol todos ellos con correlaciones > 0.88. La segunda componente diferencia, fundamentalmente, las muestras de la marca D y las de la B. Desde un punto de vista estadístico se puede confirmar lo observado sin más que utilizar el correspondiente ANOVA de un factor (marca). Los siguientes resultados confirman lo dicho anteriormente: Factores inter-sujetos N MARCA

1 2 3 4

20 12 15 6

Pruebas de los efectos inter-sujetos

Fuente MARCA

Suma de cuadrados tipo III

Variable dependiente METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN

Media cuadrática

gl

434.911 547.310 10880.236 4206.277 1552.330 .161

3 3 3 3 3 3

F

144.970 182.437 3626.745 1402.092 517.443 .054

Significaci ón

420.785 30.283 522.571 89.450 19.585 183.420

.000 .000 .000 .000 .000 .000

Pruebas post hoc marca Subconjuntos homogéneos METANOL

MET1BUT2

Student-Newman-Keulsa,b MARCA 4 2 3 1 Significación

a b

N

Student-Newman-Keuls Subconjunto 2

1 6 12 15 20

3

4.9833 5.3833 6.0533 .118

1.000

11.4845 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .345. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.

MARCA 3 4 2 1 Significación

a b

N

a,b

1 15 6 12 20

Subconjunto 2 3

4

37.9067 45.1333 52.1333 1.000

1.000

1.000

59.5300 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 15.675. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.

IV.

Prácticas de estadística multivariante

209

PROPANOL Student-Newman-Keulsa,b MARCA

N

3 4 2 1 Significación

a b

Subconjunto 2

1 15 6 12 20

3

22.9000 27.8167 28.3417 1.000

.644

55.0200 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 6.940. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.

MET1BUT3

ABSORBAN

Student-Newman-Keulsa,b MARCA 4 1 3 2 Significación

a b

N 6 20 15 12

1 77.5167

Student-Newman-Keulsa,b Subconjunto 2 3

4

MARCA 4 1 3 2 Significación

83.2375 87.9600 1.000

1.000

94.7833 1.000 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 26.421. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.

a b

N 6 20 15 12

1 .2717

Subconjunto 2 3

4

.3355 .4040 1.000

1.000

1.000

.4417 1.000

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = .000. Usa el tamaño muestral de la media armónica = 10.909. Alfa = .05.

ACETETIL Student-Newman-Keulsa,b MARCA 4 2 1 3 Significación

a b

Subconjunto 1 2

N 6 12 20 15

24.2000 24.2833

.937

30.1200 31.8800 .100

Se muestran las medias para los grupos en subconjuntos homogéneos. Basado en la suma de cuadrados tipo III. El término error es la Media cuadrática (Error) = 6.024. Usa el tamaño muestral de la media armónica= 10.909. Alfa = .05.

Para obtener el dendrograma de las 53 muestras de whisky habría que utilizar el procedimiento Analizar, Clasificar, Conglomerados jerárquicos, colocar las 6 variables metanol, acetetil, propanol, met1but2, met1but3, y absorban en el cuadro de Variables, elegir: Conglomerar casos, la variable alfabética muestra en Etiquetar casos mediante: y Estadísticos y gráficos en Mostrar.

210

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En la ventana de Gráficos elegir Dendrograma; en Témpanos elegir Todos los conglomerados, y en Orientación elegir Vertical. En la ventana de Método: en Método de conglomeración elegir el Método de Ward; en Medida elegir Intervalo y Distancia euclídea al cuadrado, en Transformar valores elegir Estandarizar: Puntuaciones Z por variable; Continuar y Aceptar. Los resultados que se obtienen son los siguientes:

IV.

Prácticas de estadística multivariante

211

Conglomerados jerárquicos - Vinculación de Ward Historial de conglomeración Etapa en la que el conglomerado aparece por primera vez

Conglomerado que se combina

Etapa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

Conglomer ado 1

Conglomer ado 2

39

40

18

20

Conglomer ado 1

Conglomer ado 2

.019

0

0

6

.047

0

0

11 10

Coeficientes

Próxima etapa

5

11

.092

0

0

37

45

.145

0

0

5

37

41

.215

4

0

15

38

39

.292

0

1

18

8

17

.378

0

0

21

10

14

.482

0

0

26

6

16

.596

0

0

17

3

5

.743

0

3

17

2

18

.895

0

2

19

26

27

1.058

0

0

23

23

24

1.228

0

0

29

44

47

1.406

0

0

33

36

37

1.591

0

5

25

9

13

1.789

0

0

30

3

6

1.990

10

9

27

38

43

2.200

6

0

25

2

19

2.420

11

0

28

30

31

2.663

0

0

31

8

15

2.934

7

0

28

49

51

3.220

0

0

32

21

26

3.542

0

12

35

52

53

3.994

0

0

36

36

38

4.457

15

18

34

1

10

4.947

0

8

37

3

4

5.463

17

0

40

2

8

5.999

19

21

30

22

23

6.558

0

13

39

2

9

7.199

28

16

40

29

30

7.881

0

20

49

49

50

8.671

22

0

44

44

46

9.532

14

0

41

34

36

10.404

0

25

41

21

32

11.287

23

0

38

48

52

12.461

0

24

44

1

12

13.636

26

0

46

21

28

15.043

35

0

45

22

25

16.584

29

0

45

2

3

18.269

30

27

43

34

44

19.980

34

33

47

35

42

22.372

0

0

48

2

7

25.261

40

0

46

48

49

28.477

36

32

51

21

22

31.717

38

39

49

1

2

35.346

37

43

52

33

34

39.511

0

41

48

33

35

47.996

47

42

50

21

29

57.666

45

31

50

21

33

105.257

49

48

51

21

48

160.100

50

44

52

1

21

312.000

46

51

0

X X X X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

24 25 26

27 28

29 30

41 42 43

44 45

46 47

52

50 51

48 49

39 40

37 38

35 36

33 34

31 32

22 23

20 21

18 19

16 17

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X X X X

X X X X X X X X X X X X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X X X X X

X X X X X X

X X X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X X X X X X X X X X X X X X

X X

14 15

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

7 8

5 6

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X X X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X X X X X

X X X X X X

X X X X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X

X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X

12 13

50:D3

X X X X X X

51:D4

X X X X X X X X X X

49:D2

9 10 11

53:D6

X X X X X X

52:D5

X X X X X X X X X X X X X X X X X X X X X X

48:D1

X X X X X X

35:C3

X X X X X X X X X X X X X X X X X X X X X X

42:C10

X X X X X X X X X X X X X X X X X X X X X X X X X X

46:C14

X X X X X X X X X X X X X X X X X X X X X X

47:C15

X X X X X X X X X X X X X X X X X X X X X X X X X X

44:C12

X X X X X X X X X X X X X

40:C8

X X X X X X X X X X X X X X X X X X X X X X X

43:C11

X X X X X X X X X X X X

3 4

1 2

Número de conglomerados 36:C4

37:C5

45:C13

41:C9

38:C6

39:C7

X X X X

X X X X X X

X X

X X X X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X X X X X

X X

X X

X X

X X

X X X X X

X X X X X X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X

X X

X X X

X X

X X

X X

X X X X X X X X X X X X X

X X X X X X X X X X X X X X

X X X X X X X X X X X X X X

X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X

24:B4

25:B5

29:B9

31:B11

34:C2

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X X X X

X X X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X X X X X

X X X X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X X X X X X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X

33:C1

Caso 30:B10

Diagrama de témpanos vertical 26:B6

27:B7

32:B12

28:B8

22:B2

23:B3

X X

X X

X X X

X X

X X

X X X

X X X X

X X X X

X X X X

X X X X

X X X X X X

X X X X

X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X X X X X

X X X X X X X X

X X X X X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X X

X X

X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X

X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X

11:A11

16:A16 6:A6

4:A4

21:B1 7:A7

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X X X

X X X X

X X X X

X X X X

X X X X

X X X X

X X X X

X X X X X X

X X X X

X X X X

X X X X

X X X X

X X X X

X X X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X

X X

X X

X X X

X X

X X

X X X

X X X X X

X X X X X X

X X X X X X

X X X X X X

X X

X X X X

X X X X X X

X X X X

X X X X

X X X X

X X X X

X X X X X X X X X X X

X X X X X X X X X X X X

X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X

X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X X X X X X X X

X X X X X X X X X X X X X

3:A3

5:A5

X X

X X

X X X

X X

X X

X X

X X X

X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X

212 Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

IV.

Prácticas de estadística multivariante

213

Dendrograma * * * * * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * * * *

Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ C7 39 C8

40

C6

38

C11

43

C5

37

C13

45

C9

41

C4

36

C2

34

C12

44

C15

47

C14

46

C1

33

C3

35

C10

42

B10

30

B11

31

B9

29

B6

26

B7

27

B1

21

B12

32

B8

28

B3

23

B4

24

B2

22

B5

25

D2

49

D4

51

D3

50

D5

52

D6

53

D1

48

A10

10

A14

14

A1 A12 A6 A16 A5 A11

1 12 6 16 5 11

A3

3

A4

4

A9

9

A13

13

A18

18

A20

20

A2 A19 A8

2 19 8

A17

17

A15

15

A7

7

-------------------------------------------------------------------------------

214

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

El dendrograma pone de manifiesto el agrupamiento de las muestras de whisky de acuerdo con su marca, lo que indica que las 6 variables son capaces de diferenciar las muestras de estas marcas. Para aplicar el análisis lineal discriminante (Martín-Álvarez, 2000) a las 53 muestras de whisky de las 4 marcas diferentes (A, B, C y D), hay que utilizar el procedimiento Analizar, Clasificar, Discriminante, del programa SPSS, y colocar las 6 variables metanol, acetetil, propanol, met1but2, met1but3, y absorban en el cuadro Independientes:, la variable marca con valores de 1 a 4 (1 para la marcar A, 2 para B, 3 para C y 4 para la D), en el cuadro Variable de agrupación, y seleccionar Introducir independientes juntas, es decir:

IV.

Prácticas de estadística multivariante

215

En la ventana de Estadísticos, en Descriptivos elegimos Medias y ANOVAs univariados; en Coeficientes de la función elegimos de Fisher y no tipificados (que serán las funciones de clasificación), Continuar. En la ventana de Clasificar, en Probabilidades previas elegimos Calcular según tamaño de los grupos; en Usar matriz de covarianzas elegimos Intra-grupos; en Gráficos elegimos Grupos combinados; en Mostrar elegimos resultados para cada caso, Tabla resumen y Clasificación dejando uno fuera; Continuar. En la ventana de Guardar, elegimos Grupo de pertenencia pronosticado, Puntuaciones discriminantes y Probabilidades de pertenencia al grupo, Continuar, y Aceptar.

216

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados que se obtienen son los siguientes: Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos

Casos Totales

Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos

N

Porcentaje 53

100.0

0

.0

0

.0

0

.0

0 53

.0 100.0

IV.

Prácticas de estadística multivariante

217

Estadísticos de grupo

MARCA 1

2

3

4

Total

METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN

Media 11.4845 30.1200 55.0200 59.5300 83.2375 .3355 5.3833 24.2833 28.3417 52.1333 94.7833 .4417 6.0533 31.8800 22.9000 37.9067 87.9600 .4040 4.9833 24.2000 27.8167 45.1333 77.5167 .2717 7.8300 28.6264 36.8094 50.1057 86.5406 .3717

Desv. típ. .76224 1.26983 2.25052 3.59548 4.31023 .00945 .30401 1.93618 3.02158 4.51872 7.29107 .02887 .45961 3.90315 3.08058 2.84767 3.85112 .01242 .61128 1.41704 1.45247 6.07113 5.46348 .01602 2.94759 4.02518 14.68929 9.78060 7.39927 .05800

N válido (según lista) No Ponderados ponderados 20 20.000 20 20.000 20 20.000 20 20.000 20 20.000 20 20.000 12 12.000 12 12.000 12 12.000 12 12.000 12 12.000 12 12.000 15 15.000 15 15.000 15 15.000 15 15.000 15 15.000 15 15.000 6 6.000 6 6.000 6 6.000 6 6.000 6 6.000 6 6.000 53 53.000 53 53.000 53 53.000 53 53.000 53 53.000 53 53.000

218

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Pruebas de igualdad de las medias de los grupos Lambda de Wilks METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN

.037 .350 .030 .154 .455 .082

F

gl1

420.785 30.283 522.571 89.450 19.585 183.420

gl2 3 3 3 3 3 3

Sig. 49 49 49 49 49 49

.000 .000 .000 .000 .000 .000

En estos primeros resultados se muestra: 1. el resumen de los casos utilizados, 2. los estadísticos descriptivos para las variables en los 4 grupos y para el total de las 53 muestras, y 3. el contraste de igualdad de las medias en los grupos, ANOVA de un factor (valores del estadístico F-Snedecor, grados de libertad y probabilidad asociada). Los valores de las probabilidades asociadas ponen de manifiesto que los valores medios de las 6 variables, son diferentes en las cuatro marcas. Las variables propanol, metanol y absorban son las que tienen mayores valores del estadístico FSnedecor, y por tanto, mayor poder de discriminación para los cuatro grupos. Análisis 1 Resumen de las funciones canónicas discriminantes Autovalores Función 1 2 3 a

Autovalor

% de varianza

% acumulado

85.0 9.4 5.6

85.0 94.4 100.0

88.195a 9.772a 5.806a

Correlación canónica .994 .952 .924

Se han empleado las 3 primeras funciones discriminantes canónicas en el análisis.

Lambda de Wilks Contraste de las funciones 1 a la 3 2 a la 3 3

Lambda de Wilks .000 .014 .147

Chi-cuadrado 412.921 201.853 90.135

gl 18 10 4

Sig. .000 .000 .000

IV.

Prácticas de estadística multivariante

219

Coeficientes estandarizados de las funciones discriminantes canónicas 1 METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN

-.436 -.253 -.891 .156 .843 .824

Función 2 .444 -.018 .074 .029 .414 .848

3 .427 .752 -.174 -.838 -.092 .021

Matriz de estructura 1 ABSORBAN METANOL PROPANOL MET1BUT3 MET1BUT2 ACETETIL

.273 -.498 -.563 .086 -.180 -.045

Función 2 .688* .617* .568* .227* .294 .117

3 .021 .168 -.392 -.091 -.554* .515*

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas. Variables ordenadas por el tamaño de la correlación con la función. * Mayor correlación absoluta entre cada variable y cualquier función discriminante.

Coeficientes de las funciones canónicas discriminantes 1 METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN (Constante)

-.743 -.103 -.338 .039 .164 48.255 -12.882

Coeficientes no tipificados.

Función 2 .756 -.007 .028 .007 .081 49.603 -32.530

3 .727 .306 -.066 -.212 -.018 1.217 -.335

220

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Funciones en los centroides de los grupos MARCA 1 2 3 4

1 -10.946 9.937 7.001 -.890

Función 2 1.274 2.093 -.133 -8.099

3 -.069 -3.039 3.219 -1.739

Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

Este apartado de resultados, Análisis 1, Resumen de las funciones canónicas discriminantes, incluye 6 tablas que corresponden a los resultados del análisis canónico de variables y que son: 1. Tabla con los autovalores y porcentajes de la varianza explicados por cada variable canónica, 2. Tabla con los valores de la Λ de Wilks, y su aproximación mediante la Chi-cuadrado, para ver si existen diferencias entre los 4 vectores de medias de las 3 variables canónicas generadas, y que supone aceptar que dichos vectores son diferentes en los cuatro grupos. 3. Tabla con los coeficientes estandarizados de las variables canónicas. 4. Tabla de la matriz de estructura con las correlaciones entre las variables originales y las canónicas. La primera variable canónica esta correlacionada con la variable propanol (– 0.565), mientras que la segunda variable canónica está mas correlacionada con las variables absorban (0.691) y metanol (0.617). 5. Tabla con los coeficientes, no tipificados, para la definición de las variables canónicas. Así, la primera variable canónica queda definida por: Y1 = – 12.882 – 0.743*Metanol – 0.103*Acetetil – 0.338*Propanol + 0.039*Met1but2 + 0.164*met1but3 + 48.255*Absorban. 6. Tabla con las coordenadas de los centroides de los 4 grupos en las variables canónicas (valores de – 10.946, 9.937, 7.001 y – 0.890 para la primera variable canónica en los centros de los grupos 1, 2, 3 y 4, respectivamente. Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos

Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados

53 0 0 53

IV.

Prácticas de estadística multivariante

221

Probabilidades previas para los grupos

MARCA 1 2 3 4 Total

Previas

Casos utilizados en el análisis No ponderados Ponderados

.377 .226 .283 .113 1.000

20 12 15 6 53

20.000 12.000 15.000 6.000 53.000

Coeficientes de la función de clasificación MARCA METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN (Constante)

1

2

3

4

15.361 2.940 1.436 .890 4.495 1612.625 -657.068

-1.693 -.127 -5.409 2.347 8.039 2657.403 -947.724

3.353 2.108 -4.892 .891 7.267 2412.923 -812.874

-.407 1.461 -2.121 1.570 5.419 1630.971 -456.352

Funciones discriminantes lineales de Fisher.

Este apartado de resultados, Estadísticos de clasificación, incluye 3 tablas que corresponden a los resultados de la clasificación de las muestras, y que son: 1. Resumen del proceso de clasificación. 2. Probabilidades a priori para los grupos. 3. Coeficientes de las funciones de clasificación (de Fisher), una para cada grupo, en función de las variables originales, así la función de clasificación para el grupo 2, sería: d2 = – 947.625 – 1.693*metanol – 0.127*acetetil – 5.409*propanol + 2.347* met1but2 + 8.039* met1but3 + 2657.403*absorban.

222

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Funciones discriminantes canónicas 5,0

marca 1 2 3 4

2

2,5 1 3

Función 2

0,0

Centroide de grupo -2,5

-5,0

-7,5

4

-10,0 -15

-10

-5

0

5

10

15

Función 1

Esta figura es la representación gráfica de las 53 muestras en el plano definido por las dos primeras variables canónicas que explicaban un 94.4% de la variación total. Se pone de manifiesto la separación de los 4 grupos, y una mayor proximidad de los grupos 2 y 3. Teniendo en cuenta la matriz de estructura, se puede decir que las muestras del grupo 1 tendrán valores más altos en propanol y las del grupo 4 tendrán los valores más bajos de absorbancia y metanol. Observar que en la gráfica proporcionada por el procedimiento del SPSS se han modificado los marcadores. Resultados de la clasificaciónb,c

Original

Recuento

%

Validación cruzadaa Recuento

%

a b c

MARCA 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

Grupo de pertenencia pronosticado 2 3 4 20 0 0 0 0 12 0 0 0 0 15 0 0 0 0 6 100.0 .0 .0 .0 .0 100.0 .0 .0 .0 .0 100.0 .0 .0 .0 .0 100.0 20 0 0 0 0 12 0 0 0 0 15 0 0 0 0 6 100.0 .0 .0 .0 .0 100.0 .0 .0 .0 .0 100.0 .0 .0 .0 .0 100.0 1

Total 20 12 15 6 100.0 100.0 100.0 100.0 20 12 15 6 100.0 100.0 100.0 100.0

La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. Clasificados correctamente el 100.0% de los casos agrupados originales. Clasificados correctamente el 100.0% de los casos agrupados validados mediante validación cruzada.

IV.

Prácticas de estadística multivariante

223

Esta es la tabla resumen de los resultados de la asignación de las 53 muestras a los grupos (matriz de clasificación) teniendo en cuenta las anteriores funciones de clasificación, que da lugar a un 100% de clasificación correcta de las muestras. También se incluyen los resultados de la asignación mediante el procedimiento de validación cruzada, que calcula las funciones de clasificación sin tener en cuenta la muestra que se quiere clasificar. También con este método, todas las muestras son correctamente asignadas a sus grupos de procedencia. En el Visor de datos se han creado las siguientes variables: 1. dis_1, con el grupo de pertenencia pronosticado, o grupo con una mayor probabilidad posterior (a posteriori), basándose en las puntuaciones discriminantes, o el grupo al cual pertenece el caso, según pronostica el modelo. 2. dis1_1, dis2_1, dis3_1, con las puntuaciones de las muestras en las 3 nuevas variables discriminantes obtenidas, que se obtienen mediante la multiplicación de los coeficientes discriminantes no tipificados por los valores de las variables independientes, sumando todos los productos y añadiendo el valor de la constante. Se guarda una puntuación por cada función discriminante obtenida (número de grupos menos 1). La puntuación media combinando todos los casos es 0 y la varianza intra-grupos combinada es 1, es decir las 3 nuevas variables discriminantes (variables canónicas) tienen media 0 y varianza 1. 3. is1_2, dis2_2, dis3_2, dis4_2, con las probabilidades a posterior de pertenencia a cada uno de los 4 grupos. La primera variable contiene la probabilidad a posterior de pertenencia al primer grupo, la segunda variable contiene la probabilidad de pertenencia al segundo grupo, y así sucesivamente. Si quisiéramos aplicar las funciones lineales discriminantes para comprobar la autenticidad del contenido de otras botellas de la marca A, abiertas y sospechosas de haber podido ser manipuladas, que consideramos forman parte del grupo test, tendríamos que incluir su composición en la tabla de datos, utilizando un código distinto de los anteriores (1 - 4), por ejemplo Marca = 5, y repetir los anteriores pasos del comando Analizar, Clasificar, Discriminante (rango valores de marca = 1 a 4). El grupo de pertenencia pronosticado para estas nuevas muestras del grupo test, se puede ver en las variables creada por el comando guardar, así como los valores de las probabilidades a posterior de pertenencia a cada grupo. En la tabla resumen de la asignación de las muestras (matriz de clasificación), se incluiría una nueva línea, etiquetada como “casos desagrupados”, con el resultado de la asignación de estas nuevas botellas de la marca A. Esta información permitiría comprobar la autenticidad, o no, del contenido de esas botellas de la marca A sospechosas de haber podido ser manipuladas (Martín-Álvarez et al., 1988). Las botellas que fueran asignadas al grupo de la marca A, el correspondiente a su etiqueta, tendrían el contenido propio de su marca (autenticidad), mientras que las botellas que fueran asignadas a uno de los otros grupos, pondrían de manifiesto la no autenticidad de su contenido (su contenido habría sido reemplazado por el correspondiente a las otras marcas B, C o D, de menor precio).

224

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Aceptando que los nuevos valores para 24 botellas abiertas son:

Los resultados de aplicar el procedimiento Analizar, Clasificar, Discriminante (rango valores de marca = 1 a 4). serían los mismos que antes, salvo los siguientes: Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales

N 53

Porcentaje 68.8

24

31.2

0

.0

0

.0

24 77

31.2 100.0

que informa de haber utilizado en el análisis discriminante las 53 muestras del grupo estándar.

IV.

Prácticas de estadística multivariante

225

Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos

77

Código de grupo perdido

0

o fuera de rango Perdida al menos una variable discriminante

0

Usados en los resultados

77

que informa de la existencia de un total de 77 casos en el proceso de clasificación.

20

marca 1 2 3 4

Variable canónica 2

15

Casos no agrupados Centroide de grupo

10

5 2

1 3

0

-5 4

-10 -15

-10

-5

0

5

10

15

Variable canónica 1

que es la representación gráfica de todas las muestras, incluyendo las muestras del grupo test (casos no agrupados), en el plano definido por las dos primeras variables canónicas. Observar que en la gráfica proporcionada por el procedimiento del SPSS se han modificado tanto los marcadores como los títulos de los ejes.

226

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Resultados de la clasificaciónb,c Grupo de pertenencia pronosticado MARCA

Original

Recuento 1 2 3 4 Casos desagrupados % 1 2 3 4 Casos desagrupados Validación cruzadaa Recuento 1 2 3 4 % 1 2 3 4 a b c

1

2

3

4

0 0 0 19 100.0 .0 .0 .0 79.2 20 0 0 0 100.0 .0 .0

0 12 0 0 3 .0 100.0 .0 .0 12.5 0 12 0 0 .0 100.0 .0

0 0 15 0 1 .0 .0 100.0 .0 4.2 0 0 15 0 .0 .0 100.0

0 0 0 6 1 .0 .0 .0 100.0 4.2 0 0 0 6 .0 .0 .0

20 12 15 6 24 100.0 100.0 100.0 100.0 100.0 20 12 15 6 100.0 100.0 100.0

.0

.0

.0

100.0

100.0

20

Total

La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. Clasificados correctamente el 100.0% de los casos agrupados originales. Clasificados correctamente el 100.0% de los casos agrupados validados mediante validación cruzada.

que incluye los resultados de la asignación de las 24 muestras del grupo test (datos desagrupados, marca = 5). De las 24 muestras, 19 son asignadas al grupo 1, 3 al grupo 2, 1 al grupo 3 y 1 al grupo 4. Un 79.2% de las muestras procedentes de botellas abiertas de la marca A, tienen un contenido de acuerdo con su marca, mientras que las otras 5, un 20.8%, son sospechosas de tener alterado su contenido. En el Visor de datos, se puede saber la asignación de estas muestras, observando el valor adjudicado a la variable con el grupo de pertenencia pronosticado (dis_2), y a las 4 variables con las probabilidades a posterior de pertenencia a cada uno de los 4 grupos (dis1_3, dis2_3, dis3_3, dis4_3).

IV.

Prácticas de estadística multivariante

227

Las muestras 54 a 71 y la 77 se asignan al grupo 1 (marca A), con una probabilidad prácticamente de 1. Las muestras 72, 73 y 75 se asignan al grupo 2 (marca B) también con probabilidades prácticamente unitarias. La muestra 76 se asigna al grupo 3 con probabilidad 0.9993 y la muestra 74 se asigna al grupo 4 con probabilidad 1.

228

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

IV.7. EJEMPLO DE APLICACIÓN DEL ANÁLISIS LINEAL DISCRIMINANTE POR PASOS SUCESIVOS Utilizando el programa SPSS, aplicar el análisis lineal discriminante por pasos sucesivos (Martín-Álvarez, 2000) a los datos de las 6 anteriores variables (metanol, acetetil, propanol, met1but2, met1but3, y absorban) en las 53 muestras de whisky de las 4 marcas comerciales, con vistas a ver si es posible la diferenciación con un número menor de variables. Resultados:

Para aplicar el análisis lineal discriminante por pasos sucesivos a las 53 muestras de whisky de las 4 marcas diferentes (A, B, C y D), hay que utilizar el procedimiento Analizar, Clasificar, Discriminante, del programa SPSS, colocar las 6 variables metanol, acetetil, propanol, met1but2, met1but3, y absorban en el cuadro Independientes:, colocar la variable marca con valores de 1 a 4 (1 para la marcar A, 2 para B, 3 para C y 4 para la D) en el cuadro Variable de agrupación, y seleccionar Usar método de inclusión por pasos, es decir:

IV.

Prácticas de estadística multivariante

229

En la ventana Método… elegir Usar valor de F en Criterios, y valores de 4.0 para Entrada y 3.9 para Salida, es decir:

En las demás ventanas, proceder igual que en la práctica anterior, es decir: • En la ventana de Estadísticos, en Descriptivos elegimos Medias y ANOVAs univariados; en Coeficientes de la función elegimos de Fisher y No tipificados (que serán las funciones de clasificación); Continuar. • En la ventana de Clasificar, en Probabilidades previas elegimos calcular Según tamaño de los grupos; en Usar matriz de covarianzas elegimos Intra-grupos; en Gráficos elegimos Grupos combinados; en Mostrar elegimos Resultados para cada caso, Tabla resumen y Clasificación dejando uno fuera, Continuar. • En la ventana de Guardar, elegimos Grupo de pertenencia pronosticado, Puntuaciones discriminantes y Probabilidades de pertenencia al grupo, pulsar Continuar y Aceptar. Los resultados obtenidos serían los mismos que antes, salvo los siguientes:

230

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Análisis 1 Estadísticos por pasos Variables introducidas/eliminadasa,b,c,d Lambda de Wilks

F exacta

Paso

Introducidas

Estadístico

1 2 3 4 5 6

PROPANOL ABSORBAN METANOL MET1BUT3 MET1BUT2 ACETETIL

.030 .003 .001 .000 .000 .000

a b c d

gl1

1 2 3 4 5 6

gl2

3 3 3 3 3 3

gl3

Estadístico

49.00 522.6 49.00 272.3 49.00 49.00 49.00 49.00

gl1

3 6

gl2

49.00 96.00

F aproximada

Sig.

Estadístico

gl1

gl2

209.6 180.2 154.0 148.1

9 12 15 18

114.5 122.0 124.6 124.9

En cada paso se introduce la variable que minimiza la lambda de Wilks global. El número máximo de pasos es 12. La F parcial mínima para entrar es 4. La F parcial máxima para eliminar es 3.9. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.

Variables en el análisis Paso 1 2 3

4

5

6

PROPANOL PROPANOL ABSORBAN PROPANOL ABSORBAN METANOL PROPANOL ABSORBAN METANOL MET1BUT3 PROPANOL ABSORBAN METANOL MET1BUT3 MET1BUT2 PROPANOL ABSORBAN METANOL MET1BUT3 MET1BUT2 ACETETIL

Tolerancia 1.000 .958 .958 .793 .950 .827 .698 .695 .787 .625 .647 .694 .776 .625 .853 .592 .672 .774 .614 .727 .808

Sig.

.000 .000

F para eliminar 522.571 408.868 141.484 46.545 139.041 35.263 53.596 126.352 36.837 18.442 16.648 117.852 24.661 16.915 8.603 13.725 117.775 9.935 16.641 12.148 11.544

Lambda de Wilks .082 .030 .004 .009 .003 .002 .004 .001 .001 .001 .002 .001 .001 .000 .000 .001 .000 .000 .000 .000

.000 .000 .000 .000

IV.

Prácticas de estadística multivariante

231

Variables no incluidas en el análisis Paso 0

1

2

3

4 5

METANOL ACETETIL PROPANOL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL MET1BUT2 MET1BUT3 ABSORBAN METANOL ACETETIL MET1BUT2 MET1BUT3 ACETETIL MET1BUT2 MET1BUT3 ACETETIL MET1BUT2 ACETETIL

Tolerancia 1.000 1.000 1.000 1.000 1.000 1.000 .834 .993 .866 .905 .958 .827 .978 .866 .657 .963 .853 .625 .948 .853 .808

Tolerancia mín. 1.000 1.000 1.000 1.000 1.000 1.000 .834 .993 .866 .905 .958 .793 .943 .838 .657 .776 .729 .625 .616 .625 .592

F para introducir 420.785 30.283 522.571 89.450 19.585 183.420 35.843 28.664 20.518 19.581 141.484 35.263 28.564 17.269 17.305 8.363 9.645 18.442 8.071 8.603 11.544

Lambda de Wilks .037 .350 .030 .154 .455 .082 .009 .011 .013 .014 .003 .001 .001 .001 .001 .001 .001 .000 .000 .000 .000

que muestra información de las variables seleccionadas / eliminadas en cada paso del análisis, junto con los valores de la Λ de Wilks, y su aproximación mediante la Chi-cuadrado, para ver si existen diferencias entre los 4 vectores de medias de las variables seleccionadas en cada paso. En el primer paso la variable seleccionada es propanol con un valor del estadístico F-Snedecor de 522.571 (paso 0), que era el mayor valor de la tabla del contraste de igualdad de las medias en los grupos (ANOVA de un factor). En el segundo paso la variable seleccionada es la absorban, con el mayor valor de la F para entrar (141.484) una vez seleccionada la variable propanol. En tercer lugar se selecciona el metanol que tiene el mayor valor de la F para entrar (35.263) una vez seleccionadas las variables propanol y absorban. En cuarto lugar se selecciona la variable met1but3, luego met1but2 y finalmente la variable acetetil. Los valores de la F para eliminar variables ya seleccionadas, en cada paso, son todos superiores al valor 3.9 fijado, y por tanto, ninguna variable es eliminada. Al final todas las 6 variables son incluidas, y el resto de los resultados coinciden con los anteriormente reseñados. En este ejemplo la tabla con las pruebas de igualdad de las medias de los grupos (ANOVAs univariados), pone de manifiesto que los valores medios de las 6 variables, son diferentes en las cuatro marcas comerciales, y por tanto son consideradas como candidatas para la selección. En otros casos se pueden considerar como candidatas únicamente las variables que tomen valores diferentes en los grupos. Una vez más, indicar que los resultados que proporciona la versión 13.0 para el análisis lineal discriminante, con el procedimiento Analizar, Clasificar, Discriminante, no difieren de los que se obtendrían con la versión 11.5; únicamente existen pequeñas dife-

232

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

rencias en la salida gráfica de las puntuaciones discriminantes de las muestras, así como en las herramientas del correspondiente Editor de gráficos. IV.8. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE A partir de los siguientes datos, y utilizando el programa SPSS, aplicar el análisis de regresión lineal múltiple para modelar los valores de la variable Y a partir de las variables X1, X2, y X3. X1

X2

X3

Y

1.10

1.10

1.10

21.18

2.50

1.10

1.10

23.22

1.10

2.50

1.10

26.67

2.50

2.50

1.10

28.68

1.10

1.10

2.50

25.64

2.50

1.10

2.50

30.84

1.10

2.50

2.50

32.22

2.50

2.50

2.50

33.23

1.80

1.80

1.80

29.11

1.80

1.80

1.80

29.40

Resultados:

Ejecutar el programa SPSS, seleccionar Introducir datos, y pulse Aceptar. En el Visor de variables definir las 4 variables numéricas: x1, x2, x3 e y, y en el Visor de Datos introducir los correspondientes valores.

IV.

Prácticas de estadística multivariante

233

Guardar los datos en un fichero con nombre regrmult.sav (Archivo, Guardar como). Para aplicar la regresión lineal múltiple de la variable y en función de las variables: x1, x2 y x3 hay que utilizar el procedimiento Análisis, Regresión, Lineal.

y en la ventana del procedimiento colocar la variable y en el cuadro Dependiente:, y las variables x1, x2 y x3 en el cuadro de Independientes:.

234

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En la ventana de Estadísticos elegir: en Coeficientes de regresión: Estimaciones, Intervalos de confianza, Ajuste del modelo y Descriptivos; y en Residuos: Diagnósticos por casos: Todos los casos; Continuar. En la ventana de Gráficos elegir gráfico de dispersión con los valores de la variable y (DEPENDNT) como eje X, y los valores de los residuos estandarizados (*ZRESID) como eje Y; y en Gráficos residuos tipificados elegir Gráfico de probabilidad normal; Continuar. En la ventana de Guardar elegir para los Valores pronosticados los No tipificados (yˆ ) y los Corregidos al calcular el modelo sin tener en cuenta la i-ésima observación (yˆ (i) ); en Residuos elegir los No tipificados ( yi – yˆ i ) y los Eliminados (yi – yˆ (i) ); en Distancias elegir la de Cook; y en Intervalos de pronóstico para la Media, Intervalo de confianza al 95%; Continuar. En la ventana de Opciones elegir Incluir constante en la ecuación y en Valores perdidos excluir Casos según lista; Continuar y Aceptar.

IV.

Prácticas de estadística multivariante

235

236

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados obtenidos son los siguientes:

Regresión Estadísticos descriptivos Media

Desviación típ.

28.0190 1.8000 1.8000 1.8000

Y X1 X2 X3

N

3.85252 .65997 .65997 .65997

10 10 10 10

con los valores descriptivos de las 4 variables (valor medio, desviación típica y número de observaciones) Correlaciones Y Correlación de Pearson

Sig. (unilateral)

N

Y X1 X2 X3 Y X1 X2 X3 Y X1 X2 X3

X1

1.000 .314 .609 .679 . .189 .031 .016 10 10 10 10

X2

.314 1.000 .000 .000 .189 . .500 .500 10 10 10 10

.609 .000 1.000 .000 .031 .500 . .500 10 10 10 10

X3 .679 .000 .000 1.000 .016 .500 .500 . 10 10 10 10

la matriz de correlación con el resultado de los contrastes Ho ≡ ρij = 0: que pone de manifiesto que la correlación entre la variable Y y las variables x2 y x3 es significativamente diferente de 0 (p < 0.05) Variables introducidas/eliminadasb Modelo 1 a b

Variables introducidas X3, X2, X1a

Variables eliminadas .

Método Introducir

Todas las variables solicitadas introducidas. Variable dependiente: Y.

que indica las variables introducidas (X1, X2, X3) para definir el modelo de regresión.

IV.

Prácticas de estadística multivariante

237

Resumen del modelob Modelo 1 a b

R .964a

R cuadrado corregida .895

R cuadrado .930

Error típ. de la estimación 1.24658

Variables predictoras: (Constante), X3, X2, X1. Variable dependiente: Y.

el resumen del ajuste de los datos al modelo, con los valores de R2 (0.930), que supone aceptar que un 93% de la variación de los valores de la variable y quedan explicados por el modelo, el coeficiente de correlación múltiple R (0.964), el R2ajus(0.895) y la desviación estándar residual o error típico de la estimación (s = √∑ei2 /(n – 4) = 1.2466), que es la estimación de σ. ANOVAb Suma de cuadrados

Modelo 1

a b

Regresión Residual Total

Media cuadrática

gl

124.253 9.324 133.577

3 6 9

F

41.418 1.554

Sig.

26.653

.001a

Variables predictoras: (Constante), X3, X2, X1. Variable dependiente: Y.

la tabla del Análisis de la Varianza para el modelo ajustado que incluye: la probabilidad para el contraste H0 ≡ β1 = β2 = β3 = 0 (Sig. = P = 0.001) que pone de manifiesto que se debe rechazar la hipótesis nula y aceptar que al menos uno de los coeficientes es distinto de 0, es decir los valores de la variable y no corresponden a un valor constante (Yi ≠ β0 + εi ). Coeficientes

Coeficientes no estandarizados Modelo 1

a

B (Constante) X1 X2 X3

11.189 1.832 3.557 3.961

Error típ. 2.002 .630 .630 .630

a

Coeficien tes estandari zados Beta .314 .609 .679

Intervalo de confianza para B al 95% t 5.588 2.910 5.650 6.291

Sig. .001 .027 .001 .001

Límite inferior 6.290 .292 2.017 2.420

Límite superior 16.088 3.373 5.098 5.501

Variable dependiente: Y.

la información sobre los valores de los coeficientes de regresión: con los valores de los coeficientes b0 = 11.189, b1 = 1.832, b2 = 3.557, b3 = 3.961, sus desviaciones estándar sb0 = 2.002, sb1 = .63, sb2 = .63, sb3 = .63, los valores del estadístico tcal (t) para el contraste de hipótesis H0 ≡ βi = 0, así como los valores de la probabilidad asociada (Sig.), y los intervalos de confianza para los parámetros del modelo teórico (βi). En este ejemplo, todos los 4 coeficientes deben ser considerados significativamente diferentes de cero

238

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

(P < 0.05). El modelo estimado es, por tanto, Yˆ = 11.189 + 1.832X1 + 3.557X2 + 3.961X3. La tabla anterior también incluye los valores de los coeficientes de regresión para el caso de variables predictoras estandarizadas (coeficientes estandarizados Beta), que informan de la mayor o menor contribución de cada una de las variables predictoras en la variable respuesta (la que más influye sería la X3). Diagnósticos por casoa Número de caso 1 2 3 4 5 6 7 8 9 10 a

Residuo tip. -.236 -.657 .173 -.272 -1.106 1.008 .177 -1.070 .875 1.108

Y 21.18 23.22 26.67 28.68 25.64 30.84 32.22 33.23 29.11 29.40

Valor pronosticado 21.4740 24.0390 26.4540 29.0190 27.0190 29.5840 31.9990 34.5640 28.0190 28.0190

Residuo bruto -.2940 -.8190 .2160 -.3390 -1.3790 1.2560 .2210 -1.3340 1.0910 1.3810

Variable dependiente: Y.

que son los diagnósticos por casos: con los valores observados yi de la variable Y, los calculados con el modelo (valor pronosticado: yˆ i = 11.189 + 1.832 · x1 + 3.557 · x2 + 3.961 · x3), las diferencias o residuos ei = yi – yˆ i (Residual), y los residuos tipificados (ei /s). Estadísticos sobre los residuosa

Valor pronosticado Valor pronosticado tip. Error típico del valor pronosticado Valor pronosticado corregido Residuo bruto Residuo tip. Residuo estud. Residuo eliminado Residuo eliminado estud. Dist. de Mahalanobis Distancia de Cook Valor de influencia centrado a

Desviación típ.

Mínimo

Máximo

Media

21.4740 -1.761

34.5640 1.761

28.0190 .000

3.71563 1.000

N 10 10

.39420

.85915

.76616

.19604

10

21.7400

35.7710

28.2152

3.78599

10

-1.3790 -1.106 -1.527 -2.6267 -1.782 .000 .013

1.3810 1.108 1.391 2.3924 1.542 3.375 .527

.0000 .000 -.065 -.1962 -.090 2.700 .179

1.01783 .816 1.044 1.70062 1.142 1.423 .219

10 10 10 10 10 10 10

.000

.375

.300

.158

10

Variable dependiente: Y.

los estadísticos: de los valores pronosticados, de los residuos (brutos, tipificados y eliminados y de las distancias, para facilitar la búsqueda de posible datos anómalos.

IV.

Prácticas de estadística multivariante

239

Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: y 1,0

Prob acum esperada

0,8

0,6

0,4

0,2

0,0 0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

que es el gráfico de normalidad de los residuos tipificados, y Gráfico de dispersión Variable dependiente: y

Regresión Residuo tipificado

1,0

0,5

0,0

-0,5

-1,0

20,00

22,00

24,00

26,00

28,00

30,00

32,00

34,00

y

que es el gráfico de dispersión de los residuos tipificados en función de los valores observados de la variable Y

240

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En el Visor de Datos se han creado las siguientes variables, como consecuencia de la elección correspondiente en la ventana Guardar: pre_1, res_1, dre_1, adj_1, coo_1, lmci_1,

valor calculado con el modelo estimado, valor del residuo, valor del residuo eliminado, valor pronosticado (corregido) en validación, valor de la distancia de Cook, valor inferior del intervalo de confianza al 95% para la respuesta media pronosticada umci_1, valor superior del intervalo de confianza al 95% para la respuesta media pronosticada

Para obtener el gráfico de dispersión con los valores observados de la variable Y, y los calculados mediante el modelo estimado, se puede utilizar el procedimiento: Gráficos, Dispersión/Puntos, Dispersión Simple; y en Definir elija para el Eje Y la variable pre_1, y para el Eje X la variable y. De esta forma se obtiene el siguiente diagrama de dispersión:

Unstandardized Predicted Value

35,00000

32,50000

30,00000

27,50000

25,00000

22,50000

20,00000 20,00

22,00

24,00

26,00

y

28,00

30,00

32,00

34,00

IV.

Prácticas de estadística multivariante

241

Este gráfico se puede editar, mediante el Editor de Gráficos, para modificar los títulos de los ejes, incluir la línea de ajuste (herramienta Elementos, Línea de ajuste total), añadir un cuadro de texto (Opciones, Cuadro de texto) con el modelo estimado y los estadísticos del ajuste (Y = 11.189 + 1.832X1 + 3.557X2 + 3.961X3, R = 0.964 y s = 1.246), modificar tamaño y color de los símbolos, …, hasta lograr el siguiente gráfico, que representa de una manera resumida el ajuste realizado: 35,00000

Y = 11.189+1.833*X1+3.557*X2+3.961*X3 R=0.964 s = 1.246

32,50000

Y - Calculada

30,00000

27,50000

25,00000

22,50000

20,00000 20,00

22,00

24,00

26,00

28,00

30,00

32,00

34,00

Y - observada

IV.9. EJEMPLO DE APLICACIÓN DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE POR PASOS SUCESIVOS A partir de los siguientes datos, y utilizando el programa SPSS, aplicar el análisis de regresión lineal múltiple por pasos sucesivos, para modelar la variable Y con las variables X1 y X2 según el modelo polinómico de segundo grado: Y = b0 + b1X1 + b2X2 + b11X 21 + b12X1X2 + b22X 22 (Martín-Álvarez, 2000): X1

10

10

10

20

20

20

30

30

30

X2

1

5

10

1

5

10

1

5

10

Y

77.56

279.93

530.80

190.05

941.65

1690.13

X1

10

10

10

20

20

20

30

30

30

X2

1

5

10

1

5

10

1

5

10

Y

80.12

280.62

527.61

184.52

940.82

1688.06

590.81 1090.25 339.36

591.59 1092.81 342.13

Resultados:

Ejecutar el programa SPSS, seleccionar Introducir datos, y pulsar Aceptar. En el Visor de variables definir las 3 variables numéricas: x1 (= X1), x2 (= X2) e y (= Y), y en el

242

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Visor de Datos introducir los correspondientes valores de dichas variables. Guardar los datos en un fichero con nombre regrmultpasos.sav.

Para aplicar el análisis de regresión lineal múltiple, por el procedimiento de pasos sucesivos, para ajustar los datos de la variable y al modelo polinómico de segundo grado definido por la ecuación y = b0 + b1x1 + b2x2 + b11x21 + b12x1x2 + b22x22, es preciso crear las tres nuevas variables predictoras del modelo x11 = X 21, x22 = X 22, y x12 = X1 · X2, utilizando el procedimiento Transformar, Calcular, de la barra de menús, y colocar en el cuadro de Variable de destino, el nombre de la nueva variable, por ejemplo x11, y en el cuadro Expresión numérica la correspondiente expresión, utilizando los operadores y funciones necesarias, por ejemplo x1*x1 para la variable x11, y pulse Aceptar, es decir:

IV.

Prácticas de estadística multivariante

243

Una vez creadas las 3 nuevas variables (x11 = X 21, x22 = X 22, y x12 = X1 · X2), se utilizaría el procedimiento Análisis, Regresión, Lineal, de la barra de menús, colocando como variables independientes las variables x1, x2, x11, x12, x22, y como variable dependiente la variable y, y eligiendo Pasos suc. en el cuadro de Método.

244

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

En la ventana de Estadísticos elegir: en Coeficientes de regresión: Estimaciones, Intervalos de confianza, Ajuste del modelo y Descriptivos; en Residuos: Diagnósticos por casos: todos los casos, Continuar. En la ventana de Gráficos elegir gráfico de dispersión con los valores de y (DEPENDNT) como eje X, y los valores de los residuos estandarizados (*ZRESID) como eje Y, Continuar.

En la ventana de Guardar elegimos para los Valores pronosticados los No tipificados y los Corregidos; en Residuos elegimos los No tipificados (yi – yˆi ) y los Eliminados (yi – yˆ (i) ); y en Intervalos de pronóstico: Media e Intervalo de confianza al 95%, Continuar. En la ventana de Opciones elegir: Usar valor de F, para la Entrada 4.0 y para la Salida 3.99, en Criterios del método por pasos:, Incluir constante en la ecuación y Excluir casos según lista en Valores perdidos, pulse Continuar y Aceptar.

IV.

Prácticas de estadística multivariante

245

246

Prácticas de tratamiento estadístico de datos con el programa SPSS para Windows

Los resultados obtenidos son los siguientes:

Regresión

Estadísticos descriptivos Desviación típ.

Media Y X1 X2 X11 X22 X12

636.6020 20.0000 5.3333 466.6667 42.0000 106.6667

502.76916 8.40168 3.78853 339.54988 43.38880 93.30532

N 18 18 18 18 18 18

que son los estadísticos descriptivos para las variables que intervienen en el análisis. Correlaciones Correlación de Pearson

Sig. (unilateral)

N

Y X1 X2 X11 X22 X12 Y X1 X2 X11 X22 X12 Y X1 X2 X11 X22 X12

Y 1.000 .580 .754 .577 .735 .993 . .006 .000 .006 .000 .000 18 18 18 18 18 18

X1 .580 1.000 .000 .990 .000 .480 .006 . .500 .000 .500 .022 18 18 18 18 18 18

X2 .754 .000 1.000 .000 .975 .812 .000 .500 . .500 .000 .000 18 18 18 18 18 18

X11 .577 .990 .000 1.000 .000 .475 .006 .000 .500 . .500 .023 18 18 18 18 18 18

X22 .735 .000 .975 .000 1.000 .792 .000 .500 .000 .500 . .000 18 18 18 18 18 18

X12 .993 .480 .812 .475 .792 1.000 .000 .022 .000 .023 .000 . 18 18 18 18 18 18

que es la matriz de correlaciones con los coeficientes de correlación entre todas las variables.

IV.

Prácticas de estadística multivariante

247

Variables introducidas/eliminadasa Modelo

Variables introducidas

Variables eliminadas

Método

1

X12

.

Por pasos (criterio: F para entrar >= 4.000, F para salir = 4.000, F para salir