293 20 22MB
Spanish Pages [409] Year 2007
Estadística multivariante y no paramétrica con SPSS Aplicación a las ciencias de la salud
ERRNVPHGLFRVRUJ
Rafael Álvarez Cáceres
Estadística multivariante y no paramétrica con SPSS Aplicación a las ciencias de la salud
ERRNVPHGLFRVRUJ
Motivo de cubierta: Concha de Spirula (Cortesía del Dr. Arturo Valledor de Lozoya.)
© Rafael Álvarez Cáceres, 1995
Reservados todos los derechos. «No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright.» Ediciones Díaz de Santos, S.A. Juan Bravo, 3A. 28006 Madrid España
ISBN: 978-84-7978-180-4 Depósito legal: M. 30.116-1994
Fotocomposición: Ángel Gallardo (Madrid) Impresión: Lavel, S.A. Encuademación: Novimar, S.L.
PRESENTACIÓN
El contenido de este libro es fruto de más de 10 años de experiencia docente en el campo de la estadística y de la metodología de la investigación científica en ciencias de la salud Durante los últimos años he dirigido e impartido múltiples cursos de estadística, estadística multivariante y metodología de la investigación en numerosos centros sanitarios, entre los que son destacables la Escuela Nacional de Sanidad y la Consejería de Salud de la Comunidad de Madrid. Dada la falta de bibliografía sobre estos temas y en parte animado por mis alumnos, me he decidido a escribir este libro, que pretende cubrir un hueco en la bibliografía estadística. En los últimos 15 años, la aplicación del método científico a las ciencias de la salud, ha aumentado considerablemente, lo cual ha llevado aparejado, una gran difusión de las técnicas estadísticas. En la mayoría de los trabajos son analizadas de forma simultánea varias variables y resulta necesario para ello emplear técnicas de análisis multivariante; también, en los últimos años hemos asistido a un aumento de la aplicación de la estadística no paramétrica. Este libro analiza los métodos estadísticos multivariantes y no paramétricos más utilizados. Los temas se abordan conceptualmente, pero también con el rigor matemático necesario para interpretar y aplicar estos métodos cada vez más difundidos. La resolución de los ejemplos debe realizarse mediante ordenador y como paquete estadístico he elegido SPSS1, puesto que en nuestro país es el más difundido entre los profesionales de las ciencias de la salud. En muchas ocasiones no se cumplen los supuestos paramétricos 1
SPSS es marca registrada de SPSS Inc CHICAGO U.S.A.
VIII
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
de los métodos estadísticos que se pretende utilizar, lo cual impide aplicarlos si queremos ser rigurosos. En éstos y otros casos debemos aplicar métodos estadísticos no paramétricos, cuya utilización aumenta día a día. A los docentes que quieran utilizar como texto este libro, basándome en mi larga experiencia como docente, les recomiendo dividir su contenido en dos cursos. En el primero se han de incluir las siguientes técnicas estadísticas: ANÁLISIS DE LA VARIANZA ANÁLISIS DE LA COVARIANZA CORRELACIÓN REGRESIÓN REGRESIÓN LOGÍSTICA A los alumnos deben exigírseles conocimientos de estadística básica, con entendimiento claro de la teoría del contraste de hipótesis y de informática a nivel de usuario, teniendo en cuenta que los ejemplos deben resolverse mediante ordenador. El segundo curso debería incluir las materias siguientes: ANÁLISIS DE COMPONENTES PRINCIPALES ANÁLISIS FACTORIAL ANÁLISIS DE CLUSTERS ANÁLISIS DISCRIMINANTE Los asistentes a este curso deben conocer las técnicas estadísticas del primer curso y poseer los conocimientos previos exigidos en el mismo. El segundo curso debe comenzar con una introducción conceptual sobre matrices y vectores. Con objeto de mejorar futuras ediciones, ruego me ayudéis a descubrir erratas. También agradecería sugerencias sobre los temas aquí tratados, para lo cual podéis escribirme a la siguiente dirección: RAFAEL ÁLVAREZ CÁCERES C/ Nieremberg, 23, 5° B 28002 MADRID
ÍNDICE
Presentación....................................................................................
VII
Instrucciones para el manejo de este libro ................................ XVII Capítulo 1. ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY ................................................... Comparación simultánea de varias medias .......................... Tipos de análisis de la varianza .............................................. Fundamentos del análisis de la varianza ............................... La varianza dentro de grupos............................................ La varianza entre grupos .................................................... Detección de diferencias significativas ............................ Modelo matemático............................................................. Suma de cuadrados............................................................. Cuadrados medios ................ ............................................. Hipótesis de Anova............................................................. Disposición de los resultados. Tabla de Anova ............... Comparaciones múltiples................................................... Modelos de Anova de una vía .......................................... Asunciones de Anova......................................................... El subcomando Variables. El procedimiento Oneway ......... El subcomando Statistics.......................................................... Comparaciones múltiples. Los subcomandos Contrast y Ranges ..................................................................................
1 1 3 3 5 6 8 9 10 12 13 15 16 17 19 20 22 26
X
ÍNDICE
El subcomando Contrast .................................................... El subcomando Ranges ...................................................... Modelos polinómicos: el Subcomando Polynomial............... El subcomando Options ........................................................... Tratamiento de valores ausentes (Missing) .................... Opciones de formato .......................................................... Resultados en fichero matricial.......................................... Lectura de datos matriciales.............................................. Otras opciones .....................................................................
26 32 36 37 37 38 38 40 42
Capítulo 2. ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. EL PROCEDIMIENTO ANOVA ......................................................................................
43
Análisis multifactorial de la varianza ...................................... Estructura de los datos ...................................................... Modelo matemático............................................................. Interacción............................................................................ Suma de cuadrados............................................................. Cuadrados medios .............................................................. Hipótesis de Anova ............................................................ Tabla de Anova dos vías ................................................... Asunciones en Anova de dos vías.................................... Anova con más de dos factores ........................................ Análisis de la covarianza ......................................................... El modelo matemático de Ancova.................................... Suma de cuadrados. Cuadrados medios .......................... Hipótesis y asunciones de Ancova ................................... El procedimiento Anova .......................................................... El subcomando variables ................................................... Ancova con SPSS................................................................. El subcomando Statistics .................................................... El subcomando Options......................................................
43 45 45 47 47 49 50 51 52 53 53 55 55 56 57 57 61 63 68
Capítulo 3. MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELACIÓN......................................................
71
Coeficiente de correlación lineal de Pearson ....................... El procedimiento Correlation ..................................................
71 74
ÍNDICE
XI
El subcomando Statistics ......................................................... El subcomando Options...........................................................
77 78
Capítulo 4. REGRESIÓN SIMPLE Y MÚLTIPLE; EL PROCEDIMIENTO REGRESSIÓN ............................................................. Introducción .............................................................................. Tipos de análisis de Regresión............................................... Regresión lineal simple ........................................................... Suma de cuadrados ............................................................ Consistencia de la asociación lineal ................................. Estimaciones en Regresión lineal simple......................... Hipótesis en Regresión lineal simple ............................... Asunciones del análisis de Regresión.............................. Regresión lineal múltiple ......................................................... Variabilidad cuadrática. Suma de cuadrados ................. Consistencia de la Asociación lineal ................................ Hipótesis en regresión lineal múltiple.............................. Asunciones del análisis de Regresión.............................. Interacción ........................................................................... Multicolinealidad................................................................. Correlación parcial ............................................................. Análisis de residuos............................................................ Análisis de Regresión con SPSS ............................................. El subcomando Method ..................................................... El subcomando Criteria...................................................... El subcomando Statistics .................................................... El subcomando Origin ........................................................ El subcomando Select ........................................................ El subcomando Missing ..................................................... El subcomando Width ........................................................ El subcomando Descriptives ............................................. Análisis de residuos con SPSS .......................................... El subcomando Residuals............................................. El subcomando Casewise ............................................. El subcomando Scatterplot .......................................... El subcomando Partialplot............................................ El subcomando Regwgt...................................................... El subcomando Save ..........................................................
81 81 82 83 84 86 88 89 90 91 91 93 94 96 96 97 100 100 102 110 115 117 123 123 126 126 126 129 132 142 146 147 151 151
XII
ÍNDICE
El subcomando Read .......................................................... El subcomando Write .........................................................
152 153
Capítulo 5. REGRESIÓN LOGÍSTICA .......................................... Introducción............................................................................... Tipos de Regresión Logística .................................................. Modelo matemático................................................................... Estimación y significado de los coeficientes......................... Hipótesis en regresión logística simple ................................. Evaluación estadística de b 1 ............................................. Evaluación estadística de Wald......................................... Evaluación del incremento del estadístico de —2LL0 ...... Evaluación de —2LL0 ........................................................... Evaluación del estadístico Z2 ............................................. El modelo múltiple .................................................................... Hipótesis en el modelo múltiple ............................................. Evaluación del incremento del estadístico de —2LL0 ...... Evaluación de —2LL0 .......................................................... Evaluación del estadístico Z2 ............................................. Interacción ................................................................................. Coeficiente de correlación parcial.......................................... Variables Dummy .................................................................... Magnitud del efecto: riesgo relativo y Odds Ratio ............... Riesgo relativo ..................................................................... Razón de predominio (Odds Ratio) .................................. Análisis del riesgo en regresión logística.............................. Regresión logística con SPSS................................................... El subcomando Variables .................................................. El subcomando Categorical ............................................... El subcomando Contrast..................................................... El subcomando Method ...................................................... El subcomando Criteria ...................................................... El subcomando Select ........................................................ El subcomando origin ......................................................... El subcomando Print .......................................................... El subcomando Missing ...................................................... El subcomando External ..................................................... El subcomando Classplot ..................................................
155 155 156 156 157 158 159 161 162 163 164 165 165 166 167 168 169 170 171 171 172 173 175 176 177 183 185 187 188 189 193 193 194 194 194
ÍNDICE
XIII
Análisis de residuos ........................................................... Variables temporales .................................................... El subcomando Casewise............................................. El subcomando Save .......................................................... El subcomando Id ...............................................................
197 197 199 202 202
Capítulo 6. ANÁLISIS DE GRUPOS LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER.................................................. 203 Análisis de Cluster: Clasificación............................................ Proximidades. Distancias y similaridades ............................. Similaridades ...................................................................... Distancias ............................................................................ Métodos de análisis de Cluster.............................................. Métodos jerárquicos ........................................................... Análisis de Clusters con SPSS .............................................. El subcomando Measure .................................................. El subcomando Method .................................................... El subcomando Print ......................................................... El subcomando Plot ............................................................ El subcomando Id .............................................................. El subcomando Save ......................................................... El subcomando Write ......................................................... El subcomando Read ......................................................... El subcomando Missing ..................................................... Ejemplos ................................................................................... Ejemplo 2. Cluster de variables ....................................... Métodos no jerárquicos .......................................................... Métodos en Clusters no jerárquicos ................................ Clusters no jerárquicos con SPSS ..................................... El subcomando Criteria ................................................ El subcomando Initial ................................................... El subcomando Print ..................................................... El subcomando Missing ............................................... El subcomando Save .................................................... El subcomando Write .................................................. Ejemplo de Cluster no jerárquico ..............................
203 204 204 205 207 207 209 209 210 210 211 212 212 212 213 213 214 218 221 221 221 222 222 223 223 224 224 224
XIV
ÍNDICE
Capítulo 7. COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL; EL PROCEDIMIENTO FACTOR ...............................
231
Componentes principales y análisis factorial ....................... Componentes principales ........................................................ Modelo matemático ........................................................... Fases de un análisis de componentes principales ......... Elección de los componentes principales .................. Rotación de los ejes ..................................................... Rotaciones ortogonales .......................................... Rotaciones oblicuas ................................................ Representación gráfica ........................................... Puntuaciones factoriales ......................................... Análisis factorial ........................................................................ Modelo matemático del análisis factorial ........................ Fases en un modelo factorial............................................. Examen de la matriz de correlaciones ...................... Prueba de Barlett...................................................... Índice KMO ............................................................. Correlación Antiimagen .......................................... Medida de adecuación de la muestra ................... Correlación múltiple ............................................... Extracción de los factores comunes............................ Rotación de factores ...................................................... Puntuaciones factoriales ............................................... Bondad del ajuste. Residuos .............................................. Análisis factorial con SPSS ...................................................... El subcomando Extraction ................................................ El subcomando Criteria ..................................................... El subcomando Rotation ..................................................... El subcomando Print .......................................................... El subcomando Plot ........................................................... El subcomando Save .......................................................... El subcomando Diagonal ................................................... El subcomando Write ........................................................ El subcomando Read ......................................................... Ejemplos ..............................................................................
231 232 233 234 234 236 237 238 238 238 239 240 241 241 242 243 244 244 245 245 247 247 248 249 250 250 251 251 252 253 253 253 254 254
ÍNDICE
XV
Ejemplo sobre componentes principales .................. 254 Ejemplo sobre análisis factorial exploratorio ............. 259 Ejemplo sobre análisis factorial confirmativo ............ 263 Capítulo 8. ANÁLISIS DISCRIMINANTE..................................... 267 Introducción............................................................................... Métodos de análisis discriminante ......................................... Función discriminante. Puntuaciones discriminantes ........... Fundamentos matemáticos ..................................................... Análisis discriminante con SPSS. El comando Dscriminant .. Los subcomandos Groups y Variables ............................. El subcomando Analysis .................................................... El subcomando Method ...................................................... El subcomando Maxsteps................................................... Subcomandos de Criterio................................................... El subcomando Functions................................................... El subcomando Select......................................................... El subcomando Options ..................................................... El subcomando Statistics ................................................... El subcomando Priors ......................................................... El subcomando Save...........................................................
267 268 269 270 272 272 277 278 286 286 288 288 289 291 302 302
Capítulo 9. ESTADÍSTICA NO PARAMÉTRICA; EL PROCEDIMIENTO NPAR ......................................................................... 305 Estadística paramétrica y no paramétrica ............................. El procedimiento Npar ............................................................ El subcomando Option ....................................................... El subcomando Statistics .................................................... Pruebas para una sola muestra ............................................... Prueba binomial. El subcomando binomial ...................... Prueba Chi Cuadrado. El subcomando Chi-Square ........ Prueba de Kolmogorov Smirnov. El subcomando K-S ..... Prueba de las Rachas ......................................................... Pruebas para dos variables relacionadas .............................. Prueba de McNemar........................................................... Prueba de los signos para dos variables relacionadas ... Prueba de Wilcoxon para dos variables relacionadas ....
305 306 307 308 309 309 314 316 322 327 328 334 337
XVI
ÍNDICE
Pruebas para K variables relacionadas .................................. Prueba de Friedman ......................................................... Coeficiente de concordancia de Kendall ......................... La prueba de la Q de Cochran ......................................... Pruebas para dos muestras independientes ................................. Prueba de la mediana ............................................................ La prueba de Mann-Whitney................................................. La prueba de Kolmogorov-Smimov para dos variables independientes ................................................................. Prueba de las Rachas para dos variables .............................. La prueba de los valores extremos de Moses ....................... Pruebas no paramétricas para K variables .................................. La prueba de Kruskal-Wallis ................................................ La prueba de la mediana para K variables ............................
342 343 346 354 358 359 361 366 368 372 375 376 380
Apéndice. DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO ....
383
Al Ejemplo Coromar .................................................................. A2 Ejemplo vascular .................................................................. A3 Ejemplo peces ......................................................................
383 386 389
Bibliografía recomendada ................................................................
391
INSTRUCCIONES PARA EL MANEJO DE ESTE LIBRO
Este libro va dirigido a personas con conocimientos estadísticos y de SPSS a nivel básico2, puede ser utilizado, como de aprendizaje o como de consulta, es recomendable para resolver los ejemplos disponer de un ordenador que tenga instalado el paquete SPSS, aunque ello no es imprescindible. Recomendamos al lector estudiar con detenimiento los fundamentos y aplicaciones de las técnicas estadísticas descritas y después trabajar los ejemplos. Este libro incluye la realización de múltiples ejemplos, la mayoría basados en el fichero de datos CORONAR, puesto que este es el fichero básico del curso en el disquete adjunto se incluyen el fichero de sistema CORONAR.SYS el fichero de datos CORONAR.DAT y el fichero de instrucciones CORONAR.SPS, también se incluyen los ficheros VASCULAR.SYS y PECES.SYS. Recomendamos, al lector crear un subdirectorio llamado DATOS, del directorio donde estén los programas de SPSS, las órdenes de los ejemplos suponen que los ficheros de trabajo están en dicho subdirectorio, si están instalados en otro el lector deberá tenerlo en cuenta. Los listados de instrucciones comienzan con el PROMPT de SPSS: SPSS/PC: EL CUAL NO DEBE SER TECLEADO POR EL LECTOR, al resaltarlo en negritas queremos indicar que esto es lo que usted debe ver en la pantalla de su ordenador, si introduce las órdenes desde el prompt, tampoco debe teclear los dos puntos resaltados en negrita, que indican una orden que continúa desde la orden anterior. 2 El libro Estadística básica y procesamiento de datos con SPSS aplicado a las ciencias de la salud. C.S.C.M., Madrid, 1994, cuyo autor es Rafael Álvarez Cáceres, va dirigido a personas sin conocimientos previos de estadística ni de SPSS.
XVIII
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Supongamos que va a desarrollar una sesión de trabajo con SPSS y quiere teclear las siguientes instrucciones: SPSS/PC: GET FILE 'DATOS/CORONAR.SYS'. SPSS/PC: ONEWAY TAD BY CLSO(1,3)/STATISTICS 1 3. SPSS/PC: FINISH. Si trabaja desde el prompt, no debe de teclear lo resaltado en negrita. Si usted desea trabajar desde el editor de textos incluido en SPSS REVIEW, las instrucciones anteriores debe teclearlas en review de la manera siguiente: GET FILE 'DATOS/CORONAR.SYS'. ONEWAY TAD BY CLSO(1,3)/STATISTICS 1 3. FINISH.
Capítulo 1 ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
En este capítulo vamos a estudiar el análisis de la varianza, que es una técnica estadística que nos permite, entre otras cosas, comparar dos o más medias de forma simultánea. Los métodos de comparación de dos medias, que SPSS ejecuta mediante el procedimiento TTEST, sólo eran válidos para comparar de forma simultánea dos medias. El análisis de la varianza plantea el problema como un modelo matemático, en el cual la variable dependiente es la variable cuantitativa, y la variable independiente la variable cualitativa, también llamada factor. En el modelo de una vía sólo hay una variable independiente; si hubiese dos en el modelo, se aplicaría el análisis de la varianza de dos vías, etc. Una posibilidad muy interesante que nos proporciona el procedimiento ONEWAY es el cálculo de intervalos de confianza para la media. COMPARACIÓN SIMULTÁNEA DE VARIAS MEDIAS Supongamos que en un estudio queremos comparar de forma simultánea varias medias. Por ejemplo, en un estudio queremos conocer el comportamiento de la tensión arterial sistólica (TAS) en las distintas clases sociales. Para ello deberíamos hacer una comparación simultánea de TAS entre las clases sociales alta, media y baja y podríamos pensar (de forma equivocada) en realizar las siguientes comparaciones de medias dos a dos mediante TTEST:
2
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Podríamos plantear, en este caso, tres contrastes de dos medias, TAS en clase alta (TAS-A) con TAS en clase media (TAS-M), etc. Cada contraste lo hemos planteado con una probabilidad de cometer error tipo I (α) de 0.05; ésta es la probabilidad de error que admitimos en caso de rechazar la hipótesis nula. Pero esa probabilidad, que es la de encontrar diferencias significativas simplemente por azar, actúa en cada comparación y por lo tanto, al realizar los tres contrastes admitiendo en cada uno de ellos un error del 5%, la probabilidad de que un contraste sea significativo simplemente por azar es mucho mayor que 0.05. Un símil que puede ayudar a comprender esto es el siguiente: si tiramos un dado perfecto, una sola vez, la probabilidad de sacar un número par es 0.5 (50%), pero si tiramos el dado tres veces seguidas, la probabilidad de que al menos en una tirada salga un número par es mayor que 0.5. En un contraste de hipótesis ocurre una cosa parecida; si fijamos un nivel de significación α = 0.05, ésta es la probabilidad que aceptamos de estar equivocados en caso de rechazar la hipótesis nula, que sería cuando encontráramos diferencias significativas. Pero esta es la probabilidad para un solo contraste; ocurre como con el dado, la probabilidad de que sacar par es 0.5, lo que resulta válido para una sola tirada, pero si realizamos varios contrastes la probabilidad de considerar diferencias significativas por azar es mayor. Algunos autores, como Bonferroni, proponen dividir el nivel de significación global para la prueba por el número de comparaciones que realizan. En el ejemplo que estamos analizando, si queremos trabajar con α = 0.05 y dado que hay tres comparaciones, dividiríamos 0.05 entre 3, cuyo resultado es 0.0167. Según esto deberíamos calcular los puntos críticos de la t de Student como si realizáramos un contraste con α = 0.0167, pero consideraríamos el contraste global α = 0.05. Esta técnica tiene el inconveniente de que es muy conservadora; ello quiere decir que para rechazar la hipótesis nula tiene que haber diferencias grandes, y aunque controlamos la probabilidad de cometer error tipo I (α),
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
3
aumentamos la probabilidad de cometer error tipo II (β), que sería la probabilidad de no considerar las diferencias como significativas, cuando realmente lo son. El análisis de la varianza tiene en cuenta estos inconvenientes y nos permite realizar una comparación simultánea de varias medias, de forma bastante eficiente y teniendo en cuenta los problemas analizados en este apartado. TIPOS DE ANÁLISIS DE LA VARIANZA Hemos dicho en la introducción al capítulo que el análisis de la varianza plantea los problemas anteriores según un modelo matemático, en el que la variable dependiente sería la variable cuantitativa, y la independiente la variable cualitativa. Algunos autores llaman factor a la variable independiente y niveles del factor a las categorías (en el caso de la clase social, sería un factor con tres niveles). Siguiendo con el ejemplo de TAS (variable cuantitativa) y clase social (variable cualitativa), al comparar medias lo que estamos analizando es si la TAS depende de la categoría de la variable; si la TAS varía significativamente de una clase social a otra, es que el valor de la TAS depende, en parte, de la categoría de la variable a que pertenezca el individuo. En este caso, tenemos una variable independiente y una sola dependiente, y éste es el modelo básico del análisis de la varianza de una vía, también denominado de un factor, que es la variable independiente. Podríamos plantear un estudio en el que la variable dependiente fuera la TAS y hubiese dos variables independientes, la clase social y el sexo. En este caso, tendríamos un análisis de la varianza de dos factores, con dos variables independientes cualitativas (factores). Si tuviéramos una variable dependiente (cuantitativa) y tres independientes cualitativas (tres factores), podríamos plantear un modelo de análisis de la varianza de tres factores (tres variables independientes), etc. En este capítulo sólo estudiaremos el análisis de la varianza de una vía. FUNDAMENTOS DEL ANÁLISIS DE LA VARIANZA Supongamos que en una población extraemos K muestras representativas (homogéneas y aleatorias) de n elementos cada una.
4
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Las muestras pueden tener tamaños diferentes pero, con objeto de facilitar la comprensión de los conceptos, vamos a plantear inicialmente el problema considerando las K muestras iguales. En cada elemento de la muestra anotamos el valor de una variable cuantitativa X. Tendremos por lo tanto K grupos con n elementos cada uno, con valores de X, que podemos disponer de la siguiente manera:
En la tabla anterior, el primer subíndice indica el grupo (nivel del factor) y el segundo el orden del elemento en el muestreo, dentro del grupo indicado por el primer subíndice. La notación empleada es la más comente; obsérvese que es distinta a la notación matricial, en la que el primer subíndice indica la fila y el segundo la columna. El elemento X2n es el valor de la variable dependiente (cuantitativa) del enésimo elemento del segundo grupo (segundo nivel). X j indica la media muestral del jésimo grupo, Sj2 indica la varianza muestral del jésimo grupo y a la varianza de cada grupo la llamaremos varianza dentro de grupos, porque mide la variabilidad dentro de cada grupo. La media de todos los datos X viene dada por la siguiente expresión:
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
5
El número total de datos es N = k n. Los K grupos anteriores son muestras representativas de la misma población. Por lo tanto, las K medias muéstrales serán estimadores de la media poblacional µ, y las diferencias entre ellas serán únicamente debidas al azar. Las K varianzas muéstrales (varianzas dentro de grupos) serán estimadores de la varianza poblacional σ2 y las diferencias entre ellas serán únicamente debidas al azar.
La varianza dentro de grupos La varianza dentro de grupos mide la variabilidad dentro de cada grupo y cada una de las k varianzas intragrupo es un estimador de la varianza poblacional σ2. La varianza intragrupos viene dada por la siguiente expresión:
Si cada varianza intragrupo es un estimador de la varianza poblacional, también lo será la media ponderada de las k varianzas intragrupo. La ponderación se realiza según el tamaño de cada muestra, como hemos partido del supuesto de que las K muestras tienen el mismo tamaño, la ponderación es la misma para cada muestra y el resultado es la media aritmética de las K varianzas intragrupos, según la siguiente expresión:
6
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Sustituyendo en (1-3) Sj2 por su valor según la expresión (1.2) queda la siguiente expresión:
La expresión (1-4) es la media de las varianzas intragrupos, y es un estimador de la varianza poblacional. A 5d2 la denominaremos varianza dentro de grupos.
La varianza entre grupos Otra estimación de la varianza poblacional podemos realizarla a partir del error estándar de la media (E.E.M.) recuérdese que el error estándar de la media es la desviación típica de la distribución de medias muéstrales. Una estimación del error estándar de la media viene dado por:
El E.E.M. también viene dado por:
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
7
Elevando la expresión anterior al cuadrado:
Sustituyendo en (1-7) el valor del E.E.M. dado por (1-5), sustituyendo la varianza poblacional por su estimador S2 y despejando, tendremos otro estimador de la varianza poblacional, según la siguiente expresión:
En la expresión anterior hemos sustituido la varianza poblacional por un estimador, al ser todos los términos de la expresión (1-8) parámetros muéstrales, al que llamaremos varianza entre grupos. La varianza entre grupos es un estimador de la varianza poblacional, bajo el supuesto de que las K medias muéstrales son estimadores de la misma media poblacional µ. Téngase en cuenta que, al ser las K muestras representativas de la misma población, no debe haber diferencias, más allá de las aleatorias, entre la varianza dentro de grupos y la varianza entre grupos; por tanto, si las comparamos según la prueba de la F de Snedecor, no debe haber diferencias significativas entre ellas salvo por efecto del azar, ya que las dos son estimadores del mismo parámetro, la varianza poblacional σ2. El lector debe intentar comprender bien estos conceptos, porque el análisis de la varianza se basa en ellos. Supongamos ahora que en una población tomamos K muestras representativas para estudiar una determinada variable cuantitativa, pero cada muestra difiere de las otras en que corresponde a una categoría distinta de una variable cualitativa que tiene K categorías distintas. Supongamos que en una población tomamos 3 muestras
8
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
representativas para estudiar la TAS, pero cada una de una clase social distinta; en este caso, la variable cualitativa es la clase social y tiene 3 categorías. Si las medias muéstrales tienen valores significativamente distintos, debido a pertenecer a distintas categorías de la variable (distintos grupos), la varianza dentro de grupos no se modificará significativamente y seguirá siendo un estimador de la varianza poblacional global (que incluye todas las categorías de la variable; en el ejemplo de la TAS y la clase social nos estaríamos refiriendo a la varianza de la TAS de toda la población). Pero la varianza dentro de grupos, que era un estimador de la varianza poblacional, bajo el supuesto de que entre las medias muéstrales no había diferencias significativas, se verá incrementada en un factor proporcional al efecto debido a pertenecer a distintos grupos.
Detección de diferencias significativas El análisis de la varianza se basa en que, si existen diferencias significativas entre las medias de cada grupo, la varianza entre grupos se verá incrementada y por lo tanto será significativamente distinta y mayor que la varianza dentro de grupos; esta diferencia será detectada por la prueba de la F de Snedecor. La varianza entre grupos no puede ser menor que la varianza dentro de grupos (salvo una pequeña probabilidad, debida al azar); por lo tanto, el contraste de hipótesis lo plantearemos de una sola cola, puesto que únicamente contrastaremos la posibilidad de que la varianza entre grupos sea mayor que la varianza dentro de grupos, ya que no tendría sentido contrastar que sea menor. Si la prueba de la F de Snedecor detecta diferencias significativas entre la varianza dentro de grupos y la varianza entre grupos, ello indica que al menos una de las medias es significativamente distinta de las demás (puede ser una o más de una). De ahí el nombre de análisis de la varianza, pues detecta diferencias entre medias analizando diferencias entre varianzas. Al análisis de la varianza se le conoce casi umversalmente por las siglas ANOVA, que corresponden a su nombre en inglés (ANALISYS OF VARIANCE); por lo tanto en el resto del capítulo nos referiremos en ocasiones al análisis de la varianza como ANOVA.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
9
Modelo matemático El modelo matemático de ANOVA se basa en descomponer la diferencia observada entre un elemento y la media global en dos partes: entre grupos, debida al efecto de grupo (si es que lo hay), esta fracción de la variabilidad es la explicada por la variable independiente, y dentro de grupos debida a todas las demás causas, que pueden ser efectos de otras variables no controladas por el modelo. Esto se puede expresar matemáticamente de la siguiente manera:
Xji es el valor de la variable cuantitativa en el iésimo elemento del jésimo grupo, y la diferencia de dicho valor respecto a la media poblacional global será debida al efecto del grupo (µj — µ), más a las diferencias no controladas por el modelo, efecto de otras variables, (Xji — µj). Siguiendo con el ejemplo de la TAS y la clase social, si el pertenecer a una determinada clase social tiene incidencia sobre la TAS (por supuesto nos referimos a efectos medios), la TAS media será significativamente distinta en los grupos seleccionados para el estudio, y la TAS de un individuo cualquiera (iésimo) de una clase social cualquiera (jésima), tendrá una diferencia con la TAS poblacional media µ (la TAS media poblacional sería la de todos los individuos de la población muestreada, sin distinguir clases sociales), a causa de dos factores: uno es la diferencia con respecto a µ debida a pertenecer a una determinada clase social (µj — µ), y otra debida al resto de variables del individuo que no están controladas por el modelo. El que una clase social determinada tenga una TAS media mayor que otra, no implica que muchos individuos de la clase social donde la media es más alta no tengan TAS normales o bajas.
10
ESTADÍSTICA MULTIVARIANTE V NO PARAMÉTRICA CON SPSS
Suma de cuadrados A partir del modelo anterior podemos estudiar la variabilidad cuadrática. Vamos a distinguir tres tipos de variabilidad cuadrática del valor de la variable en la muestra, respecto de la media poblacional. A estos parámetros que miden la variabilidad cuadrática les vamos a llamar suma de cuadrados, SUM SQUARE (SS), según la terminología anglosajona.
La variabilidad cuadrática total es la debida a todas las causas. La descomponemos en dos partes: la variabilidad cuadrática entre grupos SSentre, que es la parte de la variabilidad cuadrática que explica la variable independiente, como consecuencia de que los valores pertenezcan a distintos grupos (ENTRE GRUPOS), y la variabilidad cuadrática consecuencia de las diferencias observadas dentro de cada grupo (SSdentro), debidas al resto de las causas. Las variabilidades cuadráticas se calculan según las siguientes expresiones matemáticas:
La expresión anterior es la suma de las desviaciones cuadráticas de cada valor de la variable, respecto a la media global, que es la media de todos los datos implicados en el análisis. Es un estimador de la suma de las desviaciones cuadráticas, respecto a la media poblacional µ, por todas las causas.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
11
La expresión anterior es la suma de las desviaciones cuadráticas de la media de cada grupo, respecto a la media global de todos los datos. Es un estimador de la suma de las desviaciones cuadráticas de la media de cada grupo, respecto a la media poblacional µ. Representa la variabilidad cuadrática entre grupos.
La expresión anterior es la suma de las desviaciones cuadráticas de cada elemento respecto a la media de su grupo. Es un estimador de la suma de las desviaciones cuadráticas de cada valor de la variable, respecto de la media poblacional de su correspondiente grupo µi. Representa la variabilidad cuadrática dentro de grupos. La suma de cuadrados total la hemos descompuesto en la suma de cuadrados entre y dentro de grupos, y la suma algebraica de los componentes es igual a la total:
Las expresiones anteriores no tienen denominador; por lo tanto, cuanto más grande sea la muestra, más sumandos habrá y más grandes serán sus valores. Para que sean parámetros comparables, necesitamos el valor de la suma de cuadrados medios.
12
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Cuadrados medios La suma de cuadrados representa la suma de las variabilidades cuadráticas, pero para poder ser utilizados en comparaciones, necesitamos tener parámetros que estimen la variabilidad cuadrática media. Para conseguir esto, dividiremos las sumas de cuadrados entre sus correspondientes grados de libertad. Los grados de libertad totales son N — 1, y estos grados de libertad son iguales a la suma de los grados de libertad ENTRE GRUPOS más los grados de libertad DENTRO de GRUPOS. A las desviaciones cuadráticas medias les llamaremos cuadrados medios, MEANS SQUARES (el uso de las siglas anglosajonas es obligado, porque las salidas de la mayoría de los paquetes estadísticos se refieren a los parámetros estadísticos según esta terminología y sus correspondientes siglas); en abreviatura, los cuadrados medios se denominan a menudo por sus siglas en inglés MS. En el análisis de la varianza solamente vamos a utilizar los cuadrados medios entre grupos y dentro de grupos. El cuadrado medio entre grupos, MSENTRE, es igual a la suma de cuadrados entre grupos, dividida por K — 1, que son los grados de libertad, ya que el número de elementos que han intervenido es k, que es el número de grupos. Puesto que la suma de cuadrados entre grupos es la suma de las diferencias cuadráticas de la media de cada grupo respecto a la media global, hay k medias, y los grados de libertad son iguales a K — 1. MSENTRE viene dado por la siguiente expresión:
MSENTRE es un estimador de la varianza entre grupos. La varianza entre grupos es un estimador de la varianza poblacional σ2, si no hay diferencias significativas entre las medias de cada grupo, si hay diferencias significativas entre las medias de los grupos, esta varianza es igual a la varianza poblacional más un sumando proporcional al efecto grupos.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
13
El cuadrado medio dentro de grupos, MSDENTRO, es igual a la suma de cuadrados dentro de grupos dividida por N — K, que son los grados de libertad correspondientes. Los grados de libertad totales son N — 1. Dada la aditividad de los grados de libertad, los grados de libertad entre grupos, más los grados de libertad dentro de grupos, deben ser igual a los grados de libertad totales N — 1, por lo tanto:
El cuadrado medio dentro de grupos viene dado por la siguiente expresión:
MSDENTR0 es un estimador de la varianza poblacional de la variable σ2, haya o no haya diferencias significativas entre los valores por el hecho de pertenecer a distintos grupos.
Hipótesis de Anova Al realizar un análisis de la varianza de una vía, contrastamos las siguientes hipótesis:
La hipótesis nula postula que las medias de todos los grupos en la población son iguales. La hipótesis alternativa postula que al
14
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
menos hay una media µr distinta de otra µs. Si hay una sola media que es significativamente distinta de otra, rechazaremos la hipótesis nula; por supuesto si las diferencias entre medias son muchas, con mayor motivo se rechazará la hipótesis nula. MSENTRE y MSDENTRO son estimadores de la varianza poblacional, si no hay diferencias significativas entre las medias. Si las hay MSDENTRO sigue siendo un estimador de la varianza poblacional, pero MSENTRE detecta esta diferencia significativa entre las medias; será por tanto significativamente mayor que MSDENTRO y, al someter al cociente MSENTRE/MSDENTRO a la prueba de la F de Snedecor, quedará claro que existen diferencias significativas entre los dos cuadrados medios. El contraste de hipótesis que plantear en este caso es de una sola cola, puesto que sólo existe la posibilidad de que el cuadrado medio entre grupos sea mayor o igual que el cuadrado medio dentro de grupos (salvo una pequeña posibilidad debida al azar); por lo tanto, sólo contrastaremos la posibilidad de que el cuadrado medio entre grupos sea mayor que el cuadrado medio dentro de grupos, y plantearemos el contraste de la siguiente manera:
El que en la hipótesis nula figure el signo menor igual no quiere decir que contrastemos la posibilidad de que sea menor; recuérdese que las hipótesis nulas no se demuestran, sino que se rechazan o no. Sin embargo el no poder rechazarla en este caso significaría que no hemos podido demostrar que MSENTRE sea mayor que MSDENTRO.
El análisis de la varianza resuelve el problema de la comparación de medias; compara dos varianzas, de ahí su nombre. Si la diferencia entre las dos varianzas (cuadrados medios) es significativa, indica que existen diferencias significativas entre las medias, por lo que se rechazará la hipótesis nula.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
15
Disposición de los resultados. Tabla de Anova Los resultados de un análisis de la varianza se disponen en una tabla especial, en la que se muestran los parámetros fundamentales en ANOVA. Estas tablas, según los distintos autores, pueden variar en algunos elementos, aunque no en los esenciales. La tabla utilizada por SPSS es la siguiente:
La tabla anterior, que vamos a analizar es la que utiliza SPSS en el análisis de la varianza de una vía. En primer lugar, nos indica el nombre de la variable dependiente y su etiqueta, si la tiene. Debajo nos indica el nombre de la variable independiente y su etiqueta, si la tiene. El cuerpo de la tabla tiene 6 columnas con los siguientes elementos: SOURCE. En esta columna se indica cuál es la fuente de variación de los parámetros que se muestran. BETWEEN GROUPS significa entre grupos; los parámetros de esta fila son los correspondientes a las variaciones entre los grupos. WITHIN GROUPS significa dentro de grupos; los parámetros de esta fila son los correspondientes a la variación dentro de grupos. TOTAL: en esta fila, los parámetros son los correspondientes a las variaciones por todas las causas. D.F. Son los grados de libertad, en esta columna figurarán los grados de libertad de cada fuente de variación. Observe que la
16
ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS
suma de los grados de libertad entre más dentro son igual a los totales. SUM OF SQUARES. En esta columna se mostrará el valor de las sumas cuadráticas correspondientes a cada variación. MEANS SQUARES. En esta columna se mostrarán los cuadrados medios correspondientes a cada fuente de variación. F. RATIO. En esta columna se muestra el valor del cociente entre los cuadrados medios entre y dentro de grupos. Este cociente es la F de Snedecor experimental. Recuérdese que este cociente se distribuye según una F de Snedecor si no hay diferencias significativas entre las medias. F. PROB. En esta columna se indica cuál es la probabilidad de encontrar una F como la observada si no hubiera diferencias significativas. Si esta probabilidad es menor del nivel de significación (α), establecido para resolver el contraste, concluiremos que la probabilidad es demasiado pequeña para considerarla debida al azar y que el cuadrado medio entre grupos es mayor que el cuadrado medio dentro de grupos debido a que entre las medias existen diferencias significativas. Si el nivel de significación lo hemos fijado en 0.05, que es lo habitual, aceptaremos que existen diferencias significativas entre las medias cuando F.PROB sea menor que 0.05. Si el análisis de la varianza no es significativo, no podemos rechazar la hipótesis nula y, por lo tanto, no tenemos evidencia de que existan diferencias entre las medias, con lo cual habremos concluido el estudio. El análisis de la varianza únicamente nos informa de si existen o no diferencias significativas entre las medias, pero no nos dice cuáles son. Si el análisis de la varianza es significativo, debemos proceder a la realización de pruebas de comparación múltiple, a fin de dilucidar entre qué medias existen diferencias significativas.
Comparaciones múltiples Estas pruebas sólo tiene sentido realizarlas si el análisis de la varianza ha sido significativo. El análisis de la varianza lo único que nos dice es si existen diferencias significativas entre las medias, pero no nos dice entre cuáles. Para dilucidar esta cuestión debemos
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
17
proceder a realizar alguna de las muchas pruebas de comparación múltiple existentes SPSS nos permite realizar hasta 7 de estas pruebas, además de las comparaciones a priori. Un planteamiento correcto es realizar una sola prueba de comparación múltiple; es manifiestamente incorrecto realizar varias y escoger los resultados que más nos interesen. En este libro no vamos a entrar en detalles matemáticos respecto a estas pruebas, puesto que es un tema complejo e incluso entre los especialistas existen discrepancias en este punto. Remitimos al lector a la literatura especializada. Las pruebas de comparación múltiple pueden ser de dos tipos. A PRIORI A POSTERIORI. Las pruebas a priori se plantean antes (a priori) de ver los resultados y deben cumplir una serie de requisitos; uno de éstos es que los grados de libertad de las comparaciones planteadas no pueden superar los grados de libertad ENTRE GRUPOS, es decir K — I. Insistimos en que estas pruebas deben planificarse sin ver los resultados y efectuarse una sola vez siguiendo la planificación prevista. Si no se cumplen estas normas, podemos cometer importantes errores estadísticos. Las pruebas a posteriori permiten realizar todas las comparaciones posibles entre las medias. Pero debe elegirse una sola prueba y asumir los resultados obtenidos.
Modelos de análisis de la varianza de una vía En el análisis de la varianza de una vía debemos distinguir dos tipos fundamentales:
18
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En el modelo de efectos fijos, el investigador fija los niveles del factor (categorías de la variable cualitativa), que quiere comparar. Supongamos que queremos comparar el número de días de hospitalización de los pacientes sometidos a una determinada intervención quirúrgica, en tres hospitales determinados, A, B, C. En este caso queremos realizar esta comparación entre los hospitales A, B, C. La variable dependiente, en este caso es el número de días de hospitalización y la variable independiente (FACTOR) el tipo de hospital; en este caso, el factor tiene tres niveles A, B, C. Es un modelo de ANOVA de una vía (una sola variable independiente), de efectos fijos, porque los niveles del factor son fijados por el investigador. En el modelo de efectos aleatorios no se evalúan todos los niveles del factor, sino solamente algunos escogidos al azar entre todos los posibles. Supongamos que en un país pensamos que existen diferencias significativas entre el número de días de hospitalización tras una determinada enfermedad según el hospital donde se realice la intervención. Si el número de hospitales es muy grande, en una primera aproximación podemos realizar un estudio escogiendo un grupo pequeño de hospitales, al azar. Hemos planteado el mismo experimento de dos maneras distintas; en un caso, con efectos fijos, porque nosotros queremos estudiar las diferencias entre tres hospitales concretos (no importa que el número de hospitales hubiera sido mayor); en el segundo caso, nuestro interés no es comparar un grupo de hospitales determinado, sino averiguar si el factor hospital influye en la duración de la hospitalización, pero sin importarnos en principio una comparación entre hospitales concretos. Si encontramos diferencias significativas, deberíamos planteamos un estudio más completo del problema. El tipo de modelo no influye en los planteamientos. En el modelo aleatorio, si el análisis de la varianza es significativo, no tiene sentido en principio realizar pruebas de comparación múltiple, ya que si hemos planteado un modelo aleatorio es para ver si el factor cuyos niveles han sido muestreados influye en la variable dependiente. Si ANOVA es significativo, la conclusión es que los niveles del factor influyen en la variable dependiente, y lo habitual será plantearse otro experimento más completo. Una comparación entre grupos elegidos al azar puede realizarse, pero quizá no tenga sentido. En el modelo de efectos fijos los niveles han sido fijados por el investí-
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
19
gador, debido a que tiene un interés especial en estudiar las posibles diferencias existentes entre esos niveles.
Asunciones del análisis de la varianza El análisis de la varianza es una prueba paramétrica y, para que pueda ser aplicada, deben cumplirse unas condiciones que básicamente son las tres siguientes: REPRESENTATIVIDAD. Las K muestras, que forman los K grupos, que van a intervenir en el análisis, deben ser estadísticamente representativas de la población de referencia. NORMALIDAD. La media muestral de cada grupo, correspondiente a la variable dependiente debe distribuirse normalmente. Esto ocurre siempre si n, el tamaño de la muestra de cada grupo, es mayor que 30 y también si la variable se distribuye normalmente en la población de referencia, aunque n sea menor que 30. Únicamente no podremos garantizar que la media muestral se distribuya normalmente cuando las muestras sean menores que 30 y la variable dependiente no se distribuya normalmente en algún nivel del factor. Si el número de elementos de algún grupo es menor que 30, antes de proceder al análisis de la varianza debemos realizar alguna prueba de normalidad, en este caso la más indicada es la de ShapiroWilks (ver procedimiento EXAMINE). HOMOCEDASTICIDAD. Esta complicada palabra es lo mismo que decir que las varianzas de todos los grupos son homogéneas o que no se detectan diferencias significativas entre las varianzas de los grupos. Recuérdese que la prueba de la F de Snedecor es útil para la comparación de dos varianzas, pero no para comparar varias varianzas simultáneamente. SPSS, en el procedimiento ONEWAY, permite realizar las pruebas de la F de Barltlett-Box la C de Cochran y la F máxima de Hartley; todas ellas nos indicarán si las varianzas de todos los grupos son homogéneas o no. Si no se cumple la primera de las asunciones, la representatividad, no podemos realizar el análisis de la varianza ni ninguna otra prueba paramétrica o no paramétrica, ya que la primera condición que
20
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
debe cumplirse para sacar conclusiones sobre una población es que la muestra sea representativa. Si no se cumplen la segunda y/o la tercera asunción, podemos realizar una transformación de datos (mediante el procedimiento EXAMINE) y, si con la transformación de datos no solucionamos el problema, podemos aplicar la prueba de Kruskall-Wallis; que es una prueba no paramétrica para comparar K medias que sólo exige el cumplimiento de la primera de las condiciones. EL PROCEDIMIENTO ONEWAY. EL SUBCOMANDO VARIABLES El paquete estadístico SPSS permite realizar análisis de la varianza de una vía con dos procedimientos distintos, ONEWAY y ANOVA. En este capítulo sólo vamos a estudiar ONEWAY. El procedimiento ANOVA permite realizar análisis de la varianza de una y de varías vías, así como el análisis de la covarianza, pero en cuanto al análisis de la varianza de una vía ONEWAY tiene más posibilidades que ANOVA. ONEWAY, sin embargo sólo puede realizar análisis de la varianza de una vía. El subcomando VARIABLES, que puede ser omitido, asociado a ONEWAY, indica qué variables van a ser analizadas. En primer lugar debe ir la variable dependiente, antes de la palabra clave BY, y tras BY la variable independiente. ONEWAY sólo realiza análisis de la varianza de una vía; si antes de la palabra clave BY incluimos más de una variable independiente, (pueden incluirse hasta 100), realizará un análisis de la varianza de una vía para cada variable independiente. Supongamos que en un listado de órdenes incluimos la siguiente:
En la instrucción anterior hay una variable independiente, VAR4 y tres variables dependientes VAR1 VAR2 y VAR3, en este caso SPSS realizara 3 análisis de la varianza, siendo en todos ellos la
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
21
variable independiente VAR4, los análisis a realizar son: VARI con VAR4, VAR2 con VAR4 y VAR3 con VAR4. A continuación vamos a ver un ejemplo práctico. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las anteriores instrucciones, mediante el procedimiento ONEWAY, indica a SPSS que debe proceder a realizar un análisis de la varianza de una vía. El subcomando VARIABLES indica que la variable dependiente es TAS y la independiente CLSO; con este estudio pretendemos saber si el valor medio de la TAS es diferente según la clase social, (niveles del factor). En este caso el factor CLSO tiene tres niveles ALTA, MEDIA y BAJA. Es un modelo de efectos fijos. Obsérvese que junto a la variable dependiente, figuran entre paréntesis los valores 1 y 3. Esto quiere decir que los valores de CLSO que deben entrar en el estudio son del 1 al 3, ambos inclusive (en ese caso son todos, puesto que sólo hay tres niveles). Veamos los resultados:
22
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior se nos muestran los resultados del análisis entre TAS y CLSO. En este caso hay tres grupos o, lo que es lo mismo, el factor tiene tres niveles, correspondientes a las tres categorías de la variable independiente CLSO. Como hay tres grupos los grados de libertad ENTRE GRUPOS son K — 1 y K= 3; por lo tanto, hay dos grados de libertad. Los grados de libertad totales son N — 1, los casos válidos analizados son N= 70; por lo tanto, N — 1 = 69. La diferencia entre los grados de libertad totales y entre grupos es 69 — 2 = 67, que son los grados de libertad dentro de grupos, etc. En el subapartado (Disposición de los resultados, página 15) se analizan de forma genérica todos los parámetros de la tabla anterior. Si el lector quiere ampliar su conocimiento sobre alguno de ellos, le remitimos a dicho subapartado. En el análisis de la tabla anterior, vemos que el cociente entre los cuadrados medios entre y dentro de grupos es 0.1676, que es la F experimental, y la probabilidad de encontrar un valor de F mayor que Fes 0.861, que es mayor de 0.05. No podemos rechazar la hipótesis nula, y por lo tanto no tenemos evidencia suficiente para afirmar que la TAS es significativamente distinta en alguna de las clases sociales. Recuérdese que la hipótesis nula es la igualdad de todas las medias. (En este caso las tensiones sistólicas medias de las clases sociales); esto no quiere decir que hayamos demostrado la hipótesis nula, pues las hipótesis nulas no se demuestran nunca. Significa que no hemos podido demostrar que sean distintas. Recuerde que la prueba de la F, en este caso, es de una cola; sólo contrastamos que el cuadrado medio ENTRE sea mayor que el cuadrado medio DENTRO, puesto que teóricamente nunca puede ser significativamente menor, salvo una pequeña probabilidad, por azar. EL SUBCOMANDO STATISTICS Este subcomando permite la ampliación de los datos estadísticos sobre las variables implicadas en el análisis. Las opciones que pueden asociarse a este subcomando son las siguientes: 1. Esta opción asociada al subcomando STATISTICS, muestra una tabla con el número de casos, la media aritmética, la desviación
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
23
típica, el error estándar de la media, el mínimo, el máximo e intervalos de confianza del 95% para cada grupo y para el total de los datos. Destacamos especialmente los intervalos de confianza, que SPSS debería incluir también en el procedimiento MEANS. 2. Esta opción, asociada al subcomando STATISTICS, muestra parámetros que son de interés, algunos para el modelo de efectos fijos FIXED EFFECTS MODEL, y otros para el modelo de efectos aleatorios RANDOM EFFECTS MODEL. Al solicitar esta opción asociada al subcomando STATISTICS se muestran todos los parámetros denominando los correspondientes a cada tipo de modelo. El lector es quien tiene que elegir los adecuados al estudio que está realizando. Los parámetros mostrados y que son útiles en el modelo de efectos fijos son la desviación típica, el error estándar de la media e intervalos de confianza del 95%. Los parámetros mostrados y útiles en el modelo de efectos aleatorios, son una estimación del componente añadido de la varianza entre grupos con un intervalo del 95%. 3. Esta opción, asociada al subcomando STATISTICS, permite que se realice una prueba de homogeneidad de varianzas. Ésta es una de las condiciones de aplicabilidad del análisis de la varianza y recomendamos hacerlo, en todos los casos, ya que si las varianzas de todos los grupos no son homogéneas, podríamos cometer errores al aplicar el análisis de la varianza. Las pruebas de homogeneidad de varianzas que se realizan al solicitar esta opción son: La prueba C de Cochran. La prueba F de Barlett-Box. La prueba F máxima de Hartley. Actualmente una de las pruebas de comparación de varianzas más utilizadas, es la de Barlett-Box. ALL. Esta opción, asociada al subcomando STATISTICS, muestra todos los estadísticos correspondientes a las tres opciones anteriores. Inicie una sesión con SPSS y siga las siguientes instrucciones:
24
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La segunda de las instrucciones anteriores indica que debe realizarse un análisis de la varianza de una vía, considerando como variable dependiente TAD y como variable independiente CLSO. En el análisis deben entrar los niveles del 1 al 3, ambos inclusive, del factor CLSO; en este caso solo hay tres niveles, por lo tanto se incluyen todos los niveles en el análisis, y se solicitan las opciones 1 y 3 del subcomando STATISTICS. Obsérvese que no hemos incluido el subcomando VARIABLES; como ya indicamos en el apartado anterior, este subcomando es opcional. Los resultados obtenidos, como consecuencia de las instrucciones anteriores, son los siguientes:
La tabla anterior es la correspondiente al análisis de la varianza de una vía entre las variables TAD y CLSO. La F experimental obtenida es 1.0654 y la probabilidad de obtener un valor como éste o más extremo es 0.3503. Como esta probabilidad es mayor que 0.05, no podemos rechazar la hipótesis nula y concluimos que no tenemos evidencia de que existan diferencias significativas entre las clases sociales respecto a la tensión arterial diastólica.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
25
La tabla anterior muestra los parámetros estadísticos correspondientes a la opción 1 del subcomando STATISTICS. Los parámetros estadísticos se muestran para cada grupo y para el total de los datos. Han sido incluidos en el análisis trece casos del grupo 1 (clase social alta), la tensión arterial diastólica media para este grupo es 84.7692 y la desviación típica es 11.2484. El error estándar de la media es 3.1197, el intervalo del 95% de confianza para la media es 77.9719 — 91.5665. Esto quiere decir que hay un 95% de probabilidad de que la tensión arterial diastólica media de la clase social alta, en la población muestreada, esté comprendida entre 77.9719 y 91.5665. Sería un gravísimo error interpretar el intervalo de confianza considerando que el 95% de los individuos de clase social alta tienen una tensión arterial diastólica con valores entre 77.9719 y 91.565. El valor mínimo observado de la TAD en la clase social alta (CLSO = 1) es 65 y el máximo valor observado en esta misma clase social es 100. Obsérvese que los valores mínimos y máximos están en la parte inferior de la tabla. La interpretación del intervalo de confianza al 95%, para el total de los datos, es que hay un 95% de probabilidad de que la TAD media de la población muestreada (sin distinción de clases sociales) esté comprendida entre 79.0179 y 84.3821. Dejamos para el lector la interpretación de los parámetros correspondientes al resto de los grupos.
26
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La tabla anterior nos muestra los resultados correspondientes a las pruebas de comparación de varianzas. Tanto los parámetros correspondientes a la prueba de Cochrans como a la de Barlett-Box tienen una probabilidad de 0.244 y 0.248. Como dichos valores son mayores de 0.05, no podemos rechazar la hipótesis nula, y por lo tanto aceptamos que las varianzas son homogéneas; esto es lo mismo que decir que los grupos son homocedásticos y por lo tanto se cumple, una de las condiciones necesarias para aplicar el análisis de la varianza. La hipótesis nula en las pruebas anteriores es que las varianzas de todos los grupos son iguales. La hipótesis alternativa es que al menos una es distinta de las demás. COMPARACIONES MÚLTIPLES. LOS SUBCOMANDOS CONTRAST Y RANGES Como ya hemos comentado en otros apartados, la primera parte del análisis de la varianza, en caso de que la F experimental sea significativa, sólo nos indica si existe alguna media significativamente distinta de las demás, pero sin saber donde se encuentran las diferencias. Para resolver la cuestión, debemos realizar alguna de las pruebas de comparación múltiple, de las muchas existentes. Las pruebas de comparación múltiple pueden ser a priori o a posteriori. SPSS dispone de dos subcomandos asociados a ONEWAY para realizar comparaciones múltiples. El subcomando CONTRAST Este subcomando permite realizar comparaciones de medias entre dos grupos de datos. Los grupos sobre los que se efectúa el contraste pueden ser definidos de múltiples formas, a partir de los datos implicados en el análisis definido por el comando ONEWAY. Los datos correspondientes a cada valor del factor pueden ser agrupados de distintos maneras, marcando cada grupo con un número. Dicho número puede ser positivo o negativo y lo denominaremos marcador. La media correspondiente a cada grupo se multiplicará por el número con que fue marcada.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
27
Las medias de todos los grupos marcadas con un número positivo se multiplicarán por su marcador y se sumarán, con lo que se obtendrá un resultado al que denominaremos media positiva. Las medias de todos los grupos marcadas por un número negativo se multiplicarán por su marcador y se sumarán, con lo que se obtendrá un resultado al que denominaremos media negativa. El contraste de medias, se realizará sobre la diferencia entre la media positiva y la media negativa, mediante la prueba de la T de Student, se evaluará si las diferencias obtenidas son estadísticamente significativas. Si todos los marcadores de todos los grupos son del mismo signo, la media de cada grupo se multiplicará por su marcador, y la media final obtenida será contrastada con respecto a cero, en este caso, pues nuestro interés se centra en ver si la media de los datos marcados es significativamente distinta de cero. En resumen, cuando hay marcadores positivos y negativos, el contraste se realiza entre ellos; si solamente hay marcadores de un signo, el contraste se realiza sobre cero. Al agrupar datos mediante el subcomando CONTRAST, debe tenerse en cuenta que ni la media positiva ni la negativa son medias ponderadas. La media de cada grupo se multiplica por su marcador, independientemente del número de datos que tenga. Esta circunstancia debe tenerse especialmente en cuenta cuando el número de datos de cada grupo sea distinto. Se puede definir un solo contraste por cada subcomando CONTRAST, pero pueden usarse varios subcomandos CONTRAST por cada comando ONEWAY. La sintaxis de este subcomando es compleja, por lo que recomendamos al lector que estudie el próximo ejemplo con la máxima atención. Inicie una sesión con SPSS y siga las siguientes instrucciones:
28
ESTADÍSTICA MULTiVARIANTE Y NO PARAMÉTRICA CON SPSS
En el listado anterior, hay tres instrucciones; la primera carga la información del fichero de sistema CORONAR.SYS para el análisis. La segunda instrucción, que consta de 7 líneas, encabezada por el comando ONEWAY, indica a SPSS que realice un análisis de la varianzá de una vía de la variable TAS, en relación con los tres valores del factor CLSO. Asociados al comando ONEWAY, utilizamos los subcomandos STATISTICS y 6 veces el subcomando CONTRAST, lo que nos va a permitir realizar 6 contrastes de medias distintos. En el primer contraste, tenemos la secuencia de marcadores 1 0 —1. Cada número se refiere a un valor de la clase social: el 1 es el marcador para CLSO = 1, clase social alta, el 0 es el marcador para CLSO = 2, clase social media, y el —1 es el marcador para CLSO = 3, clase social baja. La media de cada grupo será multiplicada por su marcador (al ser 0 el marcador de la clase social media, los datos correspondientes a la clase social media CLSO = 2 no participarán en el contraste) y se comparará la media positiva, con la media negativa. El resultado de este contraste, es una comparación de la tensión arterial sistólica entre los individuos de clase social alta y los de clase social baja. En el segundo contraste, los marcadores son: 1 0 1, aquí quedan eliminados del contraste los casos con CLSO = 2, clase social media, por ser 0 su marcador, los marcadores de la clase social alta y baja son 1 en ambos casos y, al ser los dos positivos, se sumarán las medias de los dos, y la media resultante, será contrastada con cero, El propósito de este contraste es comprobar que la TAS media de las clases ALTA y BAJA, consideradas conjuntamente, son significativamente distintas de cero. En este caso no se comparan entre sí, sino que se consideran los datos de las dos clases sociales de forma conjunta. Desde el punto de vista clínico, este contraste no tiene ningún sentido y se comenta con fines didácticos. En el tercer contraste, los marcadores son: 0.5 0 y —0.5. En este
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
29
caso, al igual que en los dos anteriores, los datos correspondientes a CLSO = 2 quedan excluidos del contraste, al ser 0 su marcador. El marcador de la clase social alta, CLSO = 1, es 0.5 y el de la clase social baja, CLSO = 3, —0.5. La media de la TAS para la clase social alta será multiplicada por 0.5 y la media de la TAS para la clase social baja será multiplicada por 0.5. A continuación se restarán las medias obtenidas, después de multiplicarlas por sus marcadores, y su resultado se contrastará con respecto a cero. Conceptualmente, el contraste anterior realiza una comparación de la TAS media de la clase social alta, dividida por dos, con la TAS media de la clase social baja, dividida por dos. En el cuarto contraste, los marcadores son: 2 0 2. En este caso, los datos correspondientes a la clase social media, CLSO = 2, se excluyen del contraste al ser 0 su marcador. La TAS media de la clase social alta CLSO = 1, se multiplica por dos y se suma a la TAS media de la clase social baja, CLSO = 3, también multiplicada por dos. El resultado de la suma' anterior se contrasta con respecto a cero. Conceptualmente, el contraste anterior compara la suma del doble de las medias de las clases sociales alta y baja con cero. Es evidente que un contraste de este tipo no tiene sentido clínico; se incluye por motivos didácticos. En el quinto contraste, los marcadores son: 1 1 —2 En este caso, los datos correspondientes a todos los valores del factor se incluyen en el contraste. Los marcadores de CLSO = 1 y CLSO = 2 son 1; por lo tanto, las medias de la TAS de estas dos clases sociales se sumarán y este resultado se contrastará con el doble de la TAS media de la clase social baja, CLSO = 3. Recuérdese que la media correspondiente a cada valor del factor se multiplica por su marcador y se suman, de forma independiente, las positivas por un lado y las negativas por otro. En el sexto contraste, los marcadores son: 1 1 2. Todos son positivos, por lo que se sumarán las medias de cada factor, multiplicadas por su marcador, y el resultado se contrastará con 0. En este caso, la TAS media de la clase social alta se multiplicará por 1, la TAS media de la clase social media, se multiplicará por 1 y la TAS media de la clase social baja se multiplicará por 2. A continuación se sumarán y se contrastará el resultado con respecto a 0.
30
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En los resultados aparecen varías tablas que comentaremos de forma separada. Los resultados obtenidos son los siguientes:
En la tabla anterior, se muestran los resultados de un análisis de la varianza de una vía. TAS es la variable dependiente y CLSO el factor. Después de la tabla de ANOVA, que en este caso no detecta diferencias significativas entre las medias de la TAS en las clases sociales, aparece una tabla con parámetros estadísticos referentes a la TAS, para cada grupo y para el total de los datos. Esta tabla es consecuencia de la opción 1 del subcomando STATISTICS.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
31
* Above indicates sum of Coefficients is not zero.
La tabla anterior indica, en primer lugar, los contrastes solicitados y a continuación lista dos tablas con los resultados de cada contraste
32
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
realizados según la prueba de la t de Student, tanto para el caso de varianzas homogéneas como no homogéneas. En la columna VALUE se lista el resultado correspondiente a las operaciones realizadas con las medias, según los marcadores definidos en cada caso. El resultado (VALUE), en el primer contraste, es 5.3407. Este valor es el resultado de multiplicar la TAS media de la clase social alta, que es 141.7692, por 1 y restar la TAS media de la clase social baja, que es 136.4286. En este caso los marcadores son 1 y —1; por lo tanto, al multiplicar no varían los resultados y la diferencia entre las dos medias es 5.3407, que es el valor por contrastar (VALUE). En el segundo contraste, ambos marcadores son positivos; por lo tanto, ambas medias se suman (al multiplicar por 1, no se modifican los resultados). Observe que el resultado (VALUE) es la suma de las TAS medias de CLSO = 1 y CLSO = 3, 141.7692 y 136.4286, respectivamente. En el tercer contraste, los marcadores son 0.5 0 y —0.5. En este caso, al multiplicar por 0.5, dividimos las medias por 2. El resultado, (VALUE) es 2.6703 que como el lector puede comprobar, corresponde a la TAS media de CLSO = 1 dividida por dos, menos la TAS de CLSO = 3 dividida por 2. En el cuarto contraste, los dos marcadores son positivos e iguales a 2. El resultado (VALUE) 556.3956 es la TAS media para CLSO = 1 multiplicada por 2 más la TAS media para CLSO = 3 multiplicada por 2. En el quinto contraste se suman las TAS medias correspondientes a CLSO = 1 y CLSO = 2 y se resta el resultado del doble de la TAS media para CLSO = 3, cuyo marcador es —2. Compruebe que el resultado (VALUE), 9.1121, se obtiene según lo indicado. En el sexto contraste, al ser todos los marcadores positivos, el resultado (VALUE) se obtiene sumando las TAS medias para CLSO = 1 y CLSO = 2 más el doble de la TAS para CLSO = 3; obsérvese que el marcador para CLSO = 3 es 2. El subcomando RANGES Si utilizamos este subcomando, se realizarán todas las comparaciones posibles entre los grupos (sin agrupamientos). Para ello,
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
33
SPSS dispone de 7 pruebas. Recomendamos al lector que, antes de aplicar estas pruebas, estudie, en la literatura especializada, sus propiedades y condiciones óptimas de aplicabilidad. Las pruebas de comparación múltiple disponibles en SPSS son las siguientes: LSD (p). Mínima diferencia significativa, En el lugar del parámetro (p), especificamos el nivel de significación que queremos aplicar en el contraste. Podemos especificar cualquier valor entre 0 y 1, aunque los más habituales son 0.05 y 0.01. DUNCAN (p). Prueba de rango múltiple de Duncan. En lugar de (p), debemos indicar el nivel de significación con el que queremos que se realicen las comparaciones, pero sólo podemos elegir entre 3 valores, 0.05, 0.01 y 0.1. SNK. Prueba de Student-Newman-Keuls. Esta prueba es una de las más utilizadas en la actualidad. No podemos escoger nivel de significación; SPSS realiza esta prueba con una significación de 0.05. BTUKEY. Prueba alternativa de Tukey. Sólo realiza comparaciones con una significación de 0.05. TUKEY. Prueba de Tukey, es otra de las pruebas propuestas por Tukey para la comparación múltiple. Sólo se realiza a un nivel de significación de 0.05. MODLSD (P). LSD modificado. Puede fijarse cualquier nivel de significación entre 0 y 1. SCHEFFE(p). Prueba de Scheffe. Puede fijarse cualquier nivel de significación entre 0 y 1. A continuación veamos un ejemplo. Inicie una sesión con SPSS y siga las siguientes instrucciones:
34
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En el ejemplo anterior, en la segunda instrucción, hemos recodificado los valores de la variable CB mediante el comando RECODE y la hemos convertido en una variable con sólo tres valores; CB = 1 para los casos con colesterol basal menor de 200, CB = 2 para los casos con colesterol basal entre 201 y 250, ambos inclusive, y CB = 3 para los casos con colesterol basal mayor de 250 (esta modificación de la variable CB afecta al fichero activo, pero no al fichero de sistema CORONAR.SYS, a no ser que mediante la orden SAVE grabáramos el nuevo fichero activo en su lugar; por lo tanto en futuros ejemplos los valores de la variable CB serán los originales). La tercera instrucción encabezada por ONEWAY realiza un análisis de la varianza de una vía, siendo la variable dependiente TAD y la variable independiente CB (que ahora sólo tiene tres valores). Queremos estudiar si la TAD sufre modificaciones significativas según los niveles de colesterol. Mediante el subcomando STATISTICS indicamos que debe estudiarse la homogeneidad de varianzas. Mediante el subcomando RANGES, realizaremos las pruebas de comparación múltiple utilizando la prueba de Student-Newman-Keuls. Los resultados obtenidos son los siguientes:
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
35
La primera de las tablas anteriores corresponde a la primera parte del análisis de la varianza; la F experimental es 30.2539 y la probabilidad de obtener una F como ésa o mayor es muy pequeña, menor de 0.0001. Como la probabilidad es menor de 0.05, que es el nivel de significación habitual, rechazamos la hipótesis nula y concluimos que la TAD, en alguno de los grupos es significativamente distinta de las otras. Dónde se encuentran las diferencias lo averiguaremos mediante la prueba de SNK. La segunda tabla nos muestra los resultados de las pruebas de comparación de varianzas, tanto en la de Cochran como la de Barlett, la probabilidad es mayor de 0.05, no podemos rechazar la hipótesis nula, que considera las varianzas iguales, y por lo tanto se cumple la homocedasticidad, que es una de las condiciones de aplicabilidad de ANOVA.
36
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La tabla anterior nos da información acerca de la prueba de SNK, y los puntos críticos que aplicar. La segunda parte, sobre estas líneas, nos muestra en forma de matriz las diferencias significativas encontradas, señalizadas con un asterisco *. La tensión arterial diastólica media del grupo 3 es significativamente distinta de las de los grupos 1 y 2. Obsérvese que los dos asteriscos se encuentran en la fila correspondiente al tercer grupo y corresponden a las columnas de los grupos 2 y 1, lo que indica que entre estos grupos las diferencias son significativas. Puesto que la media de TAD mayor es la del grupo 3, concluimos que la tensión arterial diastólica es significativamente mayor, en los casos con CB = 3, es decir, con colesterol basal mayor de 250, que en los casos con valores de CB igual a 1 o 2, es decir, con niveles de colesterol basal menores de 250. Las diferencias entre los grupos 1 y 2 no son significativas y, por lo tanto no tenemos evidencia para afirmar que los niveles de colesterol menores de 250 influyan en la TAD. MODELOS POLINÓMICOS. EL SUBCOMANDO POLYNOMIAL SPSS permite realizar contrastes polinómicos, que son un tipo particular de los contrastes ortogonales. Los contrastes polinómicos solo son factibles si los valores del factor expresan datos cuantitativos, debidamente escalonados. Supongamos que tenemos tres grupos de pacientes, en los que queremos estudiar el colesterol basal. A los pacientes del primer grupo no se les administra ningún fármaco, a los del segundo grupo se les administran 50 mg de un fármaco y a los del tercer grupo se les administran 100 mg del mismo fármaco. En este ejemplo sí podríamos plantear un análisis polinómico de la varianza, porque el factor refleja datos cuantitativos escalonados, 0 50 y 100. En los contrastes polinómicos, el grado del polinomio debe ser, como máximo, el número de niveles del factor menos 1.
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
37
EL SUBCOMANDO OPTIONS El procedimiento ONEWAY admite varias opciones que afectan al formato, tratamiento de los valores ausentes, lectura de datos en forma matricial, escritura de resultados en forma matricial, etc.
Tratamiento de valores ausentes (MISSING) Los casos con valores ausentes en la variable dependiente o en la variable independiente se excluyen del análisis por defecto. El subcomando OPTIONS permite modificar el tratamiento de los valores ausentes, según las siguientes opciones: 1. Esta opción incluye en el análisis los casos con valores ausentes de usuario. 2. Los casos con valores ausentes en alguna de las variables incluidas en la instrucción encabezada por ONEWAY son excluidos del análisis. Supongamos que en un conjunto de instrucciones incluimos la siguiente:
La instrucción anterior realizará dos análisis de la varianza de una vía, primero con las variables CB y CLSO, y posteriormente con CB y NES; si no especificamos ninguna opción, no se incluirán en ninguno de los dos análisis los casos con valores ausentes en la variable CB. En el análisis correspondiente a las variables CB y CLSO no se incluirán los casos con valores ausentes en la variable CLSO, pero sí los casos con valores ausentes en la variable NES. En el análisis correspondiente a las variables CB y NES, no se incluirán los casos con valores ausentes en la variable NES, pero sí los casos con valores ausentes en la variable CLSO. Si, en lugar de la instrucción anterior, incluimos la siguiente:
38
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la instrucción anterior hemos utilizado la opción 2 del subcomando OPTIONS, la cual excluye de todos los análisis los casos con valores ausentes en cualquiera de las variables CB, CLSO o NES.
Opciones de formato En los formatos de salida de resultados, el procedimiento ONEWAY muestra las etiquetas de las variables, pero no las etiquetas de los valores de los grupos. Esto puede ser modificado mediante las siguientes opciones: 3. Esta opción suprime las etiquetas de las variables en las salidas de resultados. 6. Esta opción incluye, en las salidas de resultados, las etiquetas de los valores correspondientes a los grupos.
Resultados en fichero matricial En muchas circunstancias es útil tener ciertos parámetros estadísticos en un fichero matricial. Hay procedimientos como el análisis factorial, análisis de la varianza, MANOVA, etc., que admiten un fichero matricial para realizar los correspondientes análisis estadísticos. De esta manera, un fichero muy voluminoso puede ser resumido en una matriz. La siguiente opción nos permite realizar esta operación: 4. Esta opción generará, para cada variable dependiente incluida en la instrucción, un fichero matricial con los siguientes vectores: un vector con el número de datos de cada grupo, un vector con las medias de cada grupo y un vector con las desviaciones típicas de cada grupo. El fichero matricial se graba en el directorio en curso,
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
39
en el fichero SPSS.PRC. Podemos elegir el directorio y el nombre del fichero donde queremos grabarlo mediante el comando SET. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda instrucción indica que el resultado matricial debe grabarse en el fichero MATRIZ.PRC. Dicho fichero estará en el directorio en curso, en este caso en el directorio C:\SPSS. Si no hubiéramos usado el comando SET, la matriz se habría grabado en el fichero SPSS.PRC, también en el directorio C:\SPSS. La tercera instrucción indica que se realice un análisis de la varianza de una vía con las variables TAS y CLSO. El subcomando OPTIONS con la opción 4, indica que debe grabarse una matriz con el número de casos las medias y las desviaciones típicas para cada grupo. En la salida de resultados, se genera la tabla de resultados específica del análisis de la varianza, que omitimos mostrar en este caso porque este ejemplo, sin la opción 4, ya se ha estudiado en este mismo capítulo. A continuación mostramos la matriz generada por la opción 4. 13.00 141.769 18.8598
50.00 140.2000 20.7502
7.00 136.428 11.8019
La tabla anterior es la matriz generada en el ejemplo anterior. Los ficheros de salida matricial, al igual que los ficheros de resultados, están en código ASCII; por lo tanto, pueden ser leídos en cualquier procesador de textos. La primera columna incluye el número de casos, la media y la desviación típica del primer grupo CLSO = 1, es decir hay 13 casos con clase social alta, cuya tensión arterial sistólica media es 142.7692
40
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
y con desviación típica 18.8598. La segunda columna incluye los parámetros correspondientes a CLSO = 2, etc. La matriz anterior incluye una columna (vector columna para cada grupo), con los parámetros correspondientes a cada grupo en el siguiente orden: número de casos, media y desviación típica. La primera fila (vector primera fila) incluye el número de casos de cada grupo, la media aritmética para cada grupo y la desviación típica para cada grupo.
Lectura de datos matriciales El procedimiento ONEWAY permite leer los datos necesarios para un análisis de la varianza a partir de datos matriciales, lo cual tiene la ventaja de analizar datos con SPSS sin disponer del fichero de datos original y también poder reducir la información a pequeños ficheros matriciales de fácil manejo. El procedimiento ONEWAY dispone de dos opciones que permiten leer ficheros matriciales de dos tipos. 7. Esta opción lee matrices, con el mismo formato que vimos en el apartado anterior: El vector correspondiente a la primera fila con el número de casos de cada grupo, el vector correspondiente a la segunda fila con la media de cada grupo y el vector correspondiente a la tercera fila con la desviación típica de cada grupo. 8. Esta opción permite la lectura de datos en forma matricial con los siguientes parámetros: un vector de primera fila con el número de casos para cada grupo, un vector de segunda fila, con la media de cada grupo, seguidos del cuadrado medio dentro de grupos y los grados de libertad del cuadrado medio dentro de grupos. Veamos un ejemplo en el que vamos a estudiar si el nivel de GPT es distinto según el tipo de hepatitis (HEPAT). Los tipos de hepatitis son A para HEPAT=1, B para HEPAT=2, y C para HEPAT=3. Inicie una sesión con SPSS y siga las siguientes instrucciones:
ANÁLISIS DE LA VARIANZA DE UNA VÍA. EL PROCEDIMIENTO ONEWAY
41
La primera instrucción indica que se va a proceder a la introducción de datos en formato libre, correspondientes a las variables GPT y HEPAT, y que los datos son componentes de una matriz. La segunda instrucción, mediante BEGIN DATA, indica que se procede a la introducción de los datos. La tercera instrucción, mediante END DATA, indica que se ha finalizado la introducción de datos. La cuarta instrucción indica que se realice un análisis de la varianza con las variables GPT y HEPAT, con la opción 7. Los resultados obtenidos son los siguientes:
En la tabla anterior observamos que la probabilidad de la F experimental es muy pequeña, menor de 0.0001, y por lo tanto rechazamos la hipótesis nula (igualdad de todas las GPT medias) y aceptamos que los niveles medios de GPT son significativamente
42
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
distintos según el tipo de hepatitis. El estudio podríamos completarlo con una prueba de comparación múltiple, la realización de la cual dejamos al lector.
Otras opciones Las opciones 5 y 9 no existen. Hay otra opción, la 10, que es la única que falta y que explicamos a continuación: 10. En las pruebas de comparación múltiple, por defecto, es decir, si no se utiliza esta opción, se usa la media armónica en base a los dos grupos que se estén comparando. Si se usa esta opción, la media armónica se calculará en base a todos los grupos.
Capítulo 2 ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. EL PROCEDIMIENTO ANOVA
En este capítulo estudiaremos la resolución de problemas de análisis de la varianza (ANOVA) con más de un factor, a los que denominaremos análisis multifactorial de la varianza. También analizaremos los métodos, para eliminar la influencia de una variable cuantitativa extraña, en ANOVA, mediante el análisis de la covarianza (ANCOVA). Los problemas anteriores pueden resolverse con SPSS, mediante el procedimiento ANOVA. ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. CONCEPTOS FUNDAMENTALES En el capítulo anterior, vimos el análisis de la varianza de una vía, el cual era aplicable cuando teníamos una variable dependiente cuantitativa y una sola variable independiente cualitativa. Por ejemplo, si queremos estudiar si la clase social (variable independiente) influye en la tensión arterial sistólica (variable dependiente). Supongamos que queremos estudiar simultáneamente la influencia en la tensión arterial sistólica de la clase social y del sexo; en este caso, tenemos una variable dependiente, la tensión arterial, y dos variables independientes (dos factores), la clase social y el sexo. Este es un caso de análisis de la varianza de dos vías. El análisis de la varianza de dos vías es una técnica de análisis multivariante, en la que analizamos la influencia de dos variables
44
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
independientes (cualitativas) sobre una variable dependiente (cuantitativa). En algunos casos, podemos estar interesados en analizar la influencia de tres o más variables independientes (factores) sobre una variable dependiente, si los factores son tres, hablaremos de análisis de la varianza de tres vías, etc. Los análisis de la varianza con más de un factor los denominaremos análisis multifactoriales de la varianza. En el análisis de la varianza de una vía, descomponíamos la variabilidad en dos partes: la debida a estar en grupos distintos, cuadrado medio entre grupos MSE, y la debida a todas las demás causas (variables no controladas en el modelo), cuadrado medio dentro de grupos MSD. En el análisis de la varianza de dos vías, al analizar de forma simultánea el efecto de dos variables, la variabilidad recogida en MSD es menor que si estudiamos la influencia de cada variable independiente sobre la variable dependiente por separado. Siguiendo con el ejemplo de la influencia de la clase social y el sexo sobre la tensión arterial, podríamos plantear dos análisis de la varianza de una vía: En uno, la variable independiente es la clase social. El MSE de este modelo recoge la variabilidad debida a la clase social sobre la tensión arterial, y el MSD de este modelo recogerá la variabilidad debida a todas las demás causas, incluida la influencia del sexo. En el otro modelo, la variable independiente es el sexo. El MSE de este modelo recoge la variabilidad debida al sexo sobre la tensión arterial, y el MSD de este modelo recogerá la variabilidad debida a todas las demás causas, incluida la clase social. En los modelos anteriores, el MSD de cada uno de ellos recoge la influencia de todas las variables no incluidas en cada modelo. Si planteamos un modelo de dos vías, con las variables clase social y sexo, el MSD de dicho modelo recogerá la variabilidad debida a todas las causas, menos la de las variables incluidas en el modelo. De esta manera podremos estudiar la variabilidad debida a cada una de las dos variables, pero con la ventaja de que contrastaremos el MSE de cada una de ellas frente a un MSD en el que se han eliminado las influencias de las dos variables, con lo que aumentará la eficiencia de la prueba.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
45
Si disminuimos la variabilidad no controlada por el modelo MSD, dado que la prueba se resuelve calculando la F experimental, dividiendo cada MSE por MSD, y si disminuimos el denominador, aumentaremos la eficiencia de la prueba, puesto que será más fácil rechazar la hipótesis nula. En el análisis de la varianza, algunos autores llaman factores a las variables independientes y niveles del factor a cada una de las categorías de dichas variables. Si una de las variables independientes es la clase social y esta variable tiene tres categorías, diríamos que la clase social es un factor con tres niveles.
Estructura de los datos En un análisis de la varianza de una vía tenemos tantos grupos como el producto del número de categorías de las variables independientes. Si una variable independiente tiene K categorías y otra r categorías, el número de grupos es el producto Kr. Por ejemplo, si las variables independientes son la clase social, con tres categorías, y el sexo, con dos categorías, el número de grupos es seis. Los grupos pueden tener el mismo número de datos o no. Las técnicas de análisis difieren un poco, en función de que sean iguales o diferentes en cuanto al número de datos.
Modelo matemático El modelo matemático de ANOVA de dos vías se basa en descomponer la diferencia observada entre un elemento y la media global en cuatro partes. La debida a pertenecer a un nivel determinado del factor A, la debida a pertenecer a un nivel determinado del factor B, la debida a la interacción (este importante concepto lo desarrollaremos en un próximo apartado) entre el factor A y el factor B y la debida a otras causas no controladas por el modelo. El modelo es:
46
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El modelo matemático (2-1) descompone la diferencia del valor de cada elemento con respecto a la media poblacional, en cuatro sumandos. En el modelo anterior, el subíndice j se refiere a los niveles del factor A, el subíndice i se refiere a los niveles del factor B y el subíndice w se refiere al orden en el muestreo dentro de cada grupo. Por ejemplo, X123 es el tercer elemento del grupo correspondiente al primer nivel del primer factor y al segundo nivel del factor B. El significado de cada elemento es el siguiente: (Xjiw — µ) expresa matemáticamente la diferencia de un elemento con respecto a la media por todas las causas. A partir de este elemento deduciremos la variabilidad total. (µj — µ) expresa la diferencia de la media del jésimo nivel del factor A respecto a la media poblacional. A partir de este elemento, deduciremos la variabilidad debida al factor A. (µi — µ) expresa la diferencia de la media del jésimo nivel del factor B respecto a la media poblacional. A partir de este elemento, deduciremos la variabilidad debida al factor B. (µji — µj — µi + µ) expresa matemáticamente la influencia que en el valor de un elemento. Tiene la interacción entre los dos factores. A partir de este, elemento deduciremos la variabilidad debida a la interacción. (Xijw — µji) expresa matemáticamente la influencia en el valor de un elemento de la variabilidad debida a todas las causas no controladas por el modelo. A partir de este elemento, deduciremos la variabilidad dentro de grupos. A partir de (2-1), despejamos Xijw y obtenemos un modelo matemático, en el que expresamos los términos que contribuyen al valor de un elemento.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
47
Interacción Este es un concepto fundamental en análisis multivariante. Que exista interacción significa que se da una relación especial entre algún nivel del factor A con algún nivel del factor B. Es sabido que el hábito de fumar y el sedentarismo aumentan la probabilidad de padecer hipertensión arterial HTA. Cuando estos dos factores se presentan conjuntamente, la probabilidad de padecer HTA aumenta más de lo esperado por la simple suma de sus efectos. En este caso hablamos de interacción positiva. La interacción es positiva si el resultado de la acción conjunta de un nivel del factor A con un nivel del factor B es mayor de lo esperado. Por ejemplo, fumar y sedentarismo sobre la tensión arterial. La interacción es negativa si el resultado de la acción conjunta de un nivel del factor A con un nivel del factor B es menor de lo esperado. Por ejemplo, el efecto combinado de la penicilina y tetraciclina en el tratamiento de una enfermedad infecciosa; es conocido que estos dos antibióticos, aplicados simultáneamente, tienen un efecto menor que administrados individualmente.
Suma de cuadrados A partir del modelo anterior, podemos estudiar la variabilidad cuadrática (suma de cuadrados). Vamos a descomponer la variabilidad cuadrática total, en cuatro variabilidades cuadráticas; por lo tanto las variabilidades cuadráticas que vamos a manejar en un análisis de la varianza de dos vías son las siguientes:
48
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La variabilidad cuadrática total es la debida a todas las causas y la descomponemos en cuatro partes: la variabilidad cuadrática debida al factor A SSA, la variabilidad cuadrática debida al factor B SSB, la variabilidad cuadrática debida a la interacción SSAB y la variabilidad cuadrática debida a causas no controladas por el modelo SSENTRO.
La expresión anterior es la suma de las desviaciones cuadráticas de cada valor de la variable respecto a la media global, que es la media de todos los datos implicados en el análisis. Representa la variabilidad cuadrática total. .
La expresión anterior representa la variabilidad cuadrática debida al factor A.
La expresión anterior representa la variabilidad cuadrática debida al factor B.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
49
La expresión anterior representa la variabilidad cuadrática debida a la interacción.
La expresión anterior es la suma de las desviaciones cuadráticas de cada elemento respecto a la media de su grupo. Es un estimador de la suma de las variaciones cuadráticas debidas a causas distintas a los factores A y B. Representa la variabilidad cuadrática dentro de grupos, La suma de cuadrados total la hemos descompuesto en la suma de cuadrados entre niveles del factor A, del factor B, interacción y dentro de grupos o residual. La suma algebraica de los componentes es igual a la total. Cuadrados medios La suma de cuadrados representa la suma de las variabilidades cuadráticas, pero para poder utilizarlas en comparaciones, necesitamos tener parámetros que estimen la variabilidad cuadrática media. Para conseguir esto dividiremos las sumas de cuadrados por sus correspondientes grados de libertad. Tendremos, por tanto, un cuadrado medio por cada suma de cuadrados. Los cuadrados medios que utilizar en ANOVA de dos vías son los siguientes:
50
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Hipótesis de ANOVA Al realizar un análisis de la varianza de dos vías, contrastamos las siguientes hipótesis:
En el contraste anterior, estudiamos si alguno de los niveles del factor A influye de forma significativa en la media de la variable dependiente.
En el contraste anterior, estudiamos si alguno de los niveles del factor B influye de forma significativamente distinta a los otros sobre la variable dependiente.
En el contraste anterior, analizamos si existe interacción entre alguno de los niveles del factor A, con algún nivel del factor B. En el análisis de la varianza de dos vías, realizamos 3 contrastes de hipótesis. El correspondiente a las diferencias entre las medias de los niveles del factor A, lo resolveremos dividiendo MSA entre
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
51
MSDENTRO, que es la primera F experimental; si esta F es mayor que el punto crítico, rechazaremos la hipótesis nula correspondiente al factor A y concluiremos que la media correspondiente a algún nivel del factor A es distinta de las demás. El correspondiente a las diferencias entre las medias de los niveles del factor B, lo resolveremos dividiendo MSB entre MSDENTR0, que es la segunda F experimental; si esta F es mayor que el punto crítico, rechazaremos la hipótesis nula correspondiente al factor B y concluiremos que la media correspondiente a algún nivel del factor B es distinta de las demás. El correspondiente a la interacción lo resolveremos dividiendo MSAB entre MSDENTRO, que es la tercera F experimental; si esta F es mayor que el punto crítico, rechazaremos la hipótesis nula y concluiremos que existe interacción. Si no existe interacción, pero sí existen diferencias significativas entre los niveles de un factor o de los dos, aplicaremos alguna de las pruebas de comparación múltiple, para dilucidar en qué niveles están las diferencias. Las pruebas de comparación múltiple que aplicar son las mismas que las vistas en el análisis de la varianza de una vía. Si existe interacción trataremos con mucha precaución los resultados. No siendo correcto realizar pruebas de comparación múltiple entre los niveles del factor o factores significativos, ya que el comportamiento de los factores está mutuamente distorsionado por el otro. Disposición de los resultados. Tabla de ANOVA dos vías Los resultados de un análisis de la varianza, se disponen en una tabla especial, en la que se muestran los parámetros fundamentales en ANOVA. Estas tablas, según los distintos autores, pueden variar en algunos elementos, aunque no en los esenciales.
52
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior, se muestran los parámetros fundamentales en el análisis de la varianza de dos vías. Cualquier tabla de ANOVA de dos vías debe recoger los elementos anteriores. La tabla de resultados, mostrada por SPSS, incluye los parámetros anteriores y dos filas adicionales, en las que se analizan los efectos principales (MAIN EFFECTS) y efectos explicados (EXPLAINED). En la fila que SPSS denomina MAIN EFFECTS, se recoge el efecto de los factores, sin tener en cuenta la interacción. En la fila que SPSS denomina EXPLAINED, se recoge el efecto de todos los factores y de las interacciones. Esta fila recoge el efecto de los factores por todas las causas. La suma total de cuadrados debe ser igual a la suma de cuadrados explicada por los factores, incluida la interacción (EXPLAINED) más la suma de cuadrados no explicada por el modelo (RESIDUAL); estos efectos sólo hay que tenerlos en cuenta en caso de interacción, y nos informan de si alguna de las medias de los grupos, es significativamente distinta de las demás. Asunciones en ANOVA dos vías Para la correcta aplicación del análisis de la varianza de dos vías, deben cumplirse las siguientes condiciones: 1. Las k r muestras son aleatorias e independientes. 2. La variable dependiente se distribuye normalmente, en cada una de las k r poblaciones. 3. Las K r poblaciones tienen la misma varianza.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
53
ANOVA con más de dos factores Los conceptos anteriores pueden generalizarse a más de dos factores. En el caso de tres factores, ANOVA de tres vías, tendremos una variable dependiente y tres factores, A, B, C. La variabilidad total la descompondremos teniendo en cuenta los efectos de cada factor por separado, la interacción triple entre los tres factores, si existe, las interacciones dobles entre los factores y la variabilidad residual.
En los casos de ANOVA con más de tres vías, tendremos una fuente de variabilidad total, una fuente de variabilidad por cada factor, las fuentes de variabilidad debidas a todas las posibles interacciones entre los factores y la variabilidad dentro de grupos, también llamada residual por otros autores. En el procedimiento ANOVA, SPSS denomina a la variabilidad, cuadrática dentro de grupos RESIDUAL. ANÁLISIS DE LA COVARIANZA El análisis de la covarianza, (ANCOVA) es una técnica de análisis estadístico multivariante, que permite controlar la influencia de va-
54
ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS
riables cuantitativas extrañas. La influencia de variables extrañas debe controlarse mediante adecuadas técnicas de muestreo, pero esto no siempre es posible. A las variables extrañas controladas mediante ANCOVA las llamaremos covariables. ANCOVA nos permite aumentar la eficacia en los planteamientos del análisis de la varianza. El análisis de la covarianza es una técnica que nos permite comprobar las mismas hipótesis que en él análisis de la varianza, mejorando la interpretación de los resultados y eliminando algunas posibles fuentes de error. En el análisis de la covarianza, tenemos una variable cuantitativa dependiente, cuyos valores queremos comprobar si están relacionados con una o más variables dependientes (factores). Los elementos anteriores son los mismos de ANOVA, pero en ANCOVA, además, controlamos el posible efecto de una variable cuantitativa (covariable) sobre la variable dependiente, que de no ser incluida podría alterar los resultados de ANOVA. Al ser ANCOVA una mejora de ANOVA, con los mismos planteamientos, existe un modelo de ANCOVA por cada modelo de ANOVA. Podemos plantear ANCOVA de una vía o multifactoriales. Supongamos que queremos comparar tres métodos educativos distintos, para lo cual seleccionamos al azar tres centros distintos, aplicando en cada uno de ellos uno de los tres métodos. La variable dependiente es la puntuación de los alumnos a final de curso. En este caso, queremos analizar si la puntuación de los alumnos depende del tipo de método educativo. Según hemos planteado el problema, estamos ante un ANOVA de una vía. Pero podría ocurrir que el coeficiente intelectual (CI) de los alumnos fuera significativamente distinto en los centros seleccionados, lo que podría distorsionar los resultados, por la falta de control de esta variable. Podemos plantear el problema anterior, controlando el CI de los alumnos, esta es la variable extraña, (covariable) que podemos controlar mediante un análisis de la covarianza. El planteamiento no varía, nuestro interés se centra sobre la influencia de tres métodos educativos distintos, y sobre la puntuación de los alumnos, pero controlamos el posible efecto de una covariable CI sobre los resultados.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
55
El modelo matemático de ANCOVA En el apartado anterior vimos que por cada modelo de ANOVA, se puede plantear un modelo de ANCOVA. Por lo tanto, hay un modelo matemático de ANCOVA por cada modelo matemático de ANOVA. En este apartado estudiaremos el modelo de ANCOVA de una vía; los conceptos fundamentales de este modelo son extrapolables a los multifactoriales. A la variable dependiente se la suele representar por Y, y a la covariable por X.
En el modelo anterior, está recogida una asociación lineal entre la variable dependiente y la covariable. También se pueden plantear modelos en los que la relación entre la variable dependiente y la covariable sea no lineal. En el modelo anterior, Y]¡ representa el valor de la variable dependiente en el iésimo individuo del jésimo grupo. El valor de la variable dependiente en el iésimo individuo, del jésimo grupo, Yji lo descomponemos en cuatro partes: µ es la media poblacional de la variable dependiente. αj es el efecto debido a estar en el jésimo grupo. β es el coeficiente de regresión lineal, entre la variable dependiente Y y la covariable X. β (Xji — X) es el efecto debido a la covariable. Eji representa la parte del valor de la variable dependiente, no explicada por el modelo. El modelo de ANCOVA se diferencia del modelo de ANOVA en que en aquél recogemos la influencia de una covariable.
Suma de cuadrados. Cuadrados medios A partir del modelo anterior (2-8), deduciríamos las sumas de cuadrados, SS, que en este caso serían las siguientes:
56
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
En ANCOVA, la suma de cuadrados se calcula teniendo en cuenta la influencia de la covariable. A la suma de cuadrados calculada de esta manera, algunos autores la denominan suma de cuadrados corregida. En los modelos multifactoriales de ANCOVA, se incluyen las mismas fuentes de variación que en el correspondiente modelo de ANOVA, más la debida a la covariable. Los cuadrados medios, en análisis de la covarianza, se calculan igual que en ANOVA, dividiendo el correspondiente SS por sus grados de libertad.
Hipótesis y asunciones de ANCOVA Las hipótesis que contrastar en ANCOVA son las mismas que en ANOVA, según el tipo de modelo. Para que el planteamiento de un análisis de la covarianza sea correcto, deben cumplirse las mismas asunciones que en ANOVA y las siguientes condiciones: El valor de la covariable no debe afectarse por los grupos. Las k pendientes, una por cada grupo, deben de ser homogéneas β1 = β2 ..... = βK. Según el modelo de ANOVA sea de una vía o multifactorial, las hipótesis y las asunciones difieren para cada modelo; en ANCOVA ocurre lo mismo, pero teniendo en cuenta que las hipótesis que resolver son las mismas en ambos casos.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
57
EL PROCEDIMIENTO ANOVA El procedimiento ANOVA de SPSS permite el análisis de la varianza y de la covarianza de varias vías. Con este procedimiento pueden plantearse problemas de una vía, pero las posibilidades de análisis para una sola vía son mayores con el procedimiento ONEWAY. El procedimiento ANOVA de SPSS permite plantear problemas de análisis de la varianza hasta con 10 factores, aunque el máximo nivel de interacción que puede analizar es 5. También permite realizar un análisis de covarianza hasta un máximo de 10 variables covariantes. El subcomando variables. ANOVA de dos y tres vías con SPSS El subcomando VARIABLES permite especificar las variables y su significado en el análisis de los datos. Este subcomando puede ser omitido. Las variables anteriores a la palabra clave BY serán consideradas como variables dependientes, y las posteriores a BY como variables independientes o factores. Al subcomando VARIABLES podemos asociarle la palabra clave WITH. Para incluir covariable, las variables posteriores a WITH serán consideradas covariables. Inicie una sesión con SPSS y siga las siguientes instrucciones:
En el ejemplo anterior se realizaría un análisis de la varianza de dos vías siendo la variable dependiente TAS la tensión arterial sistólica, y los factores la clase social (CLSO) y el tabaco (FUMA). En los factores, debe especificarse entre qué valores ha de realizarse el estudio. La clase social tiene tres valores; al especificar (1,3)
58
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
indicamos que en el análisis deben entrar los casos con un valor de CLSO entre 1 y 3, ambos inclusive. Si la clase social tuviera 5 valores y especificáramos (1,3) serían excluidos del estudio los casos con valores de CLSO con valores mayores de 3. Recuérdese que siempre deben especificarse, los valores de los factores que intervienen en el análisis. Los resultados emitidos por SPSS son los siguientes:
70 Cases were processed. 0 Cases (.0 PCT) were missing.
En la tabla anterior, hay 5 columnas en las que se nos muestran la suma de cuadrados (SUM OF SQUARES), grados de libertad DF, cuadrados medios (MEAN SQUARE), valor de la F de Snedecor (F), que es el resultado de dividir el cuadrado medio de la correspondiente fila por el cuadrado medio residual, y la significación de la F. También hay 8 fuentes de variación, cuyo significado es el siguiente: MAIN EFFECTS. Esta fila recoge, de forma conjunta, la influencia de todos los factores sobre la variable dependiente, sin tener en cuenta la interacción. SEXO. Esta fila recoge la influencia del factor SEXO sobre la
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
59
TAS. Dado que el valor de la F es significativo, debemos concluir que los valores de la TAS son significativamente distintos entre hombres y mujeres. CLSO. En esta fila se recoge la influencia del factor CLSO, sobre la TAS. Dado que la F no es significativa, concluimos que no tenemos evidencia de que los valores de la TAS sean significativamente distintos. 2-WAY INTERACTIONS. En esta fila se recoge, de forma conjunta, la influencia de todas las interacciones de orden 2; en este caso sólo hay una. Al haber una sola interacción doble, los valores de esta fila son iguales que los de la siguiente, en la que se recogen los efectos de la interacción entre los dos factores que intervienen en este modelo. SEXO CLSO. En esta fila se recoge la interacción entre estas dos variables. Dado que el valor de la F no es significativo, debemos concluir que no tenemos evidencia de que exista interacción entre estas dos variables. EXPLAINED. En esta fila se recoge la influencia de todos los factores que intervienen en el modelo, incluidas las interacciones. Esta fuente de variación recoge la variabilidad de la variable dependiente, explicada por los factores. RESIDUAL. En esta fila se recoge la variabilidad de la variable dependiente, no explicada por el modelo. TOTAL. En esta fila se recoge la variabilidad observada en la variable dependiente por todas las causas. El subcomando VARIABLES permite solicitar varios análisis de la varianza hasta 5, con una sola instrucción, si incluyéramos la siguiente instrucción en una sesión con SPSS: ANO VA VARIABLES = TAS TAD BY CLSO (1,3) FUMA (1,2). Estaríamos solicitando dos análisis de la varianza de dos vías cada uno de ellos. En el primero, la variable dependiente es TAS y los factores CLSO y FUMA; en el segundo, la variable dependiente es TAD y los factores CLSO y FUMA. Obsérvese que cada variable, antes de la palabra clave BY, se considera como variable dependiente para un análisis de la varianza de tantas vías como variables haya entre BY y otra palabra clave, delimitador o punto fin de instrucción.
60
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
A continuación veremos un ejemplo de análisis de la varianza de tres vías. Inicie una sesión con SPSS y siga las siguientes instrucciones:
70 Cases were processed. 0 Cases (.0 PCT) were missing.
En la tabla anterior, se nos muestran los resultados correspondientes al último grupo de instrucciones, en el que se plantea un
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
61
análisis de la varianza de tres vías. No hay interacciones significativas de segundo orden, ni tampoco triple, Los niveles de TAS son significativamente distintos entre fumadores y no fumadores, con significación de la f menor que 0.05. En el análisis de la varianza de dos vías, examinado en este mismo apartado, en el que la variable dependiente era la TAS y los factores el SEXO y la clase social CLSO, habíamos concluido que entre hombres y mujeres existían diferencias significativas en los valores de la TAS. En el ejemplo de ANO VA de tres vías, en el que la variable dependiente es la TAS y los factores el SEXO, la clase social CLSO y el TABACO, se encuentran diferencias significativas de los valores de la TAS entre fumadores y no fumadores, pero no hemos encontrado diferencias significativas entre hombres y mujeres. Una explicación para esto sería que el factor que influye en la TAS es el tabaco y que entre el tabaco y el sexo existe una asociación que es lo que detectó el ANOVA de dos vías; el tabaco actúa como factor de confusión. La palabra clave WITH. ANCOVA con SPSS Si queremos incluir alguna covariable, con lo cual estaríamos planteando un análisis de la covarianza, debemos hacerlo mediante la palabra clave WITH asociada al subcomando VARIABLES. La variable que vaya tras WITH será considerada como covariable. La estructura de las instrucciones, es igual que en los casos de análisis de la varianza, pero incluyen la palabra clave WITH, seguida de la covariable. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las instrucciones anteriores solicita un análisis de la covarianza de dos vías, en el que la variable dependiente es
62
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
TAS, los factores son el SEXO y la clase social CLSO, y la covariable es la EDAD. Desde el punto de vista conceptual, estamos interesados en estudiar las variaciones de la TAS, en función de los dos factores SEXO y CLSO, al igual que en el ANOVA que planteamos en el apartado anterior, pero en los cálculos vamos a controlar la influencia de la variable EDAD, que es la covariable. Los resultados obtenidos son los siguientes:
70 Cases were processed. 0 Cases (.0 PCT) were missing.
En la tabla anterior, que corresponde al análisis de la covarianza planteado anteriormente, hay dos fuentes de variación nuevas, COVARIATES, que recogen la influencia de todas las covariables de forma conjunta. En este caso, sólo hay una covariable (la EDAD) y por eso los resultados de esta fila y la siguiente, son los mismos. En la fila EDAD se recoge la asociación lineal entre TAS, que es la variable dependiente, y EDAD, que es la covariable. En este caso
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
63
observamos que la F es significativa; por lo tanto, existe una asociación lineal significativa entre TAS y EDAD. La fila EXPLAINED recoge, en este caso, la variabilidad de la TAS, debida los factores y a la covariable. Aquí no encontramos diferencias significativas en los valores de la TAS entre hombres y mujeres, pero cuando planteamos el problema sin incluir la covariable EDAD sí aparecen. Esto podría ocurrir porque la influencia detectada en el factor SEXO se debiera a la EDAD, al estar asociada esta variable con el SEXO. Las sumas de cuadrados se calculan teniendo en cuenta la influencia de la covariable; por esto, los resultados son distintos a los obtenidos con ANOVA.
El subcomando STATISTICS Este subcomando permite tres especificaciones posibles en cuanto a salida de datos estadísticos. Estas especificaciones son las siguientes: 1. Esta especificación nos permite obtener la tabla correspondiente al análisis de clasificación múltiple, que incluye la media de la variable dependiente correspondiente a todos los datos, a la que llamaremos media general, y la desviación, con respecto a la media general de la media de la variable dependiente correspondiente a cada categoría de los factores implicados en el modelo. También incluye los coeficientes ETA, BETA, coeficiente de correlación y de determinación. 2. Esta especificación muestra los coeficientes de regresión entre la variable dependiente y las covariables. 3. Esta especificación muestra una tabla con las medias de la variable dependiente y el número de casos, correspondiente a cada celda implicada en el modelo. ALL. Si asociamos esta especificación al subcomando STATISTICS, obtendremos todos los estadísticos correspondientes a las tres opciones anteriores. Inicie una sesión con SPSS y siga las siguientes instrucciones:
64
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La segunda de las anteriores instrucciones permite un análisis de la varianza de dos vías, siendo la variable dependiente CB y los factores SEXO y CLSO. La especificación 3, asociada al subcomando STATISTICS, permite una salida en tabla, con el colesterol basal medio y el número de casos correspondientes a cada celda implicada en el análisis. Los resultados obtenidos son los siguientes:
En la tabla anterior tenemos los datos del colesterol medio y el número de casos. Para el total de los datos, por cada fila, que en
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
65
este caso corresponde al sexo, el colesterol medio de los hombres es 246.66 y hay 35, hay 35 mujeres y su colesterol medio es 226.89. El colesterol medio de las columnas, que en este caso corresponden a las clases sociales: hay 13 individuos de clase social alta, CLSO = 1, y el colesterol medio de esta clase social es de 238.38; hay 50 individuos de clase social media cuyo colesterol medio es 239.5 y hay 7 individuos de clase social baja cuyo colesterol medio es de 214.29. Por último se indican los valores para las celdas; la primera celda corresponde a individuos con SEXO = 1 y CLSO = 1, hombres de clase social alta; de estos hay 8 y su colesterol medio es 251.5.
70 Cases were processed. 0 Cases (.0 PCT) were missing.
Veamos a continuación un ejemplo en el que obtendremos todos los estadísticos. Inicie una sesión con SPSS y siga las siguientes instrucciones:
66
ESTADÍSTICA MULTIVARIANTE Y NO PARAMETRICA CON SPSS
La segunda de las instrucciones anteriores solicita un análisis de la covarianza, siendo la variable dependiente TAS y los factores CLSO y FUMA; la covariable es la variable EDAD. La especificación ALL, asociada al subcomando STATISTICS, permite el listado de todas los estadísticos.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
70 Cases were processed. 0 Cases (.0 PCT) were missing.
67
68
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El subcomando OPTIONS El subcomando OPTIONS nos permite modificar los formatos de salida de los resultados y modificar el tratamiento de los casos ausentes. Este subcomando debe separarse de otros subcomandos mediante el separador (/). Nos referiremos a las distintas opciones posibles citándolas por su correspondiente número. Las opciones disponibles son las siguientes: OPTION 1. Esta opción incluye en el análisis los casos con valores ausentes de usuario. Los casos con valores ausentes de sistema, en alguna de las variables relacionadas con el subcomando VARIABLES, son excluidos del análisis. Por defecto, en caso de no utilizar esta opción, todos los casos con valores ausentes, de usuario o de sistema, en alguna de las variables relacionadas con el subcomando VARIABLES, se excluyen del análisis. OPTION 2. Esta opción suprime de los resultados las etiquetas de los valores y de las variables. OPTION 3. Suprime en la tabla de resultados todos los términos de interacción. OPTION 4. Suprime en la tabla de resultados el término de interacción triple e interacciones de orden superior. OPTION 5. Suprime en la tabla de resultados los términos de interacción de orden cuarto e interacciones de orden superior. OPTION 6. Suprime en la tabla de resultados el término de interacción quíntuple e interacciones de orden superior. OPTION Z. El cálculo de los parámetros correspondientes a los efectos principales MAIN EFFECTS, se realiza teniendo en cuenta a las covariables. OPTION 8. El cálculo de los parámetros correspondientes a los efectos principales se realiza sin tener en cuenta a las covariables; para el resto de las fuentes de variación, se tiene en cuenta a las covariables.
ANÁLISIS MULTIFACTORIAL DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
69
OPTION 9. Todos los cálculos se realizan teniendo en cuenta, simultáneamente, los efectos de todos los elementos implicados en el modelo. Si la opción 9 se incluye en las instrucciones, dejan de tener efecto las opciones 7 y 8, aunque estén incluidas en las instrucciones. Las especificaciones 1 y 3 del subcomando STATISTICS no se muestran con esta opción. OPTION 10. Aproximación jerárquica. Los efectos principales y el efecto de covariables se calculan de forma jerárquica. En el cálculo de los efectos principales, se tienen en cuenta, únicamente, los factores cuyos efectos se han calculado previamente y, en el cálculo de los efectos de las covariables, se tiene en cuenta el efecto de las covariables evaluadas previamente. Supongamos un ANOVA de tres vías, con los factores FUMA, CLSO y SEXO. En el cálculo de los efectos del primer factor, FUMA, no se tendrán en cuenta los otros factores, en el cálculo de los efectos del segundo factor, CLSO, se tendrá en cuenta el primer factor y, en el cálculo de los efectos del tercer factor, SEXO, se tendrán en cuenta los otros dos. De la misma forma jerárquica se actúa en el cálculo de las fuentes de variación. Para el cálculo de los parámetros estadísticos de una de las fuentes de variación, se tienen en cuenta las fuentes de variación previas según el orden de la tabla. OPTION 11. Estrecha la salida correspondiente a la opción 3 del subcomando STATISTICS.
Capítulo 3 MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION
Es frecuente que nos interese saber si dos variables cuantitativas están asociadas y, en caso de estarlo, cuál es la función matemática que rige su dependencia. De todas las dependencias funcionales posibles, la más estudiada es la lineal. Existe dependencia lineal entre dos variables cuando las medidas de asociación lineal son significativas. Hasta hace pocos años, en la mayoría de los trabajos publicados en los que se describía una relación funcional entre dos variables, ésta era lineal. Ello se debía a la dificultad de estudiar asociaciones no lineales. Actualmente, el uso cotidiano de paquetes estadísticos que permiten realizar complejos cálculos ha permitido que rutinariamente se describan asociaciones no lineales. No obstante, la relación lineal entre dos o más variables sigue teniendo una gran importancia y su uso es muy frecuente.
COERCIENTE DE CORRELACIÓN LINEAL DE PEARSQM Uno de los problemas prácticos que se nos plantean es decidir cuándo podemos considerar que entre dos variables hay una asociación lineal y, en caso de que la asociación lineal exista, cuál es su fuerza. En las observaciones experimentales, es difícil que dos variables tengan una asociación lineal perfecta. En este caso, si representáramos los datos correspondientes a las variables en un
72
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
diagrama de puntos, dibujarían una recta perfecta. Pero esto es excepcional: lo habitual es que esta asociación, aunque exista no sea tan perfecta. El coeficiente de correlación lineal de Pearson permite estudiar la fuerza de la asociación lineal entre dos variables, Este coeficiente, cuando se calcula a partir de datos muéstrales, suele representarse por r, que es un estimador del coeficiente de correlación poblacional ρ. Se considera que no existe asociación lineal entre dos variables si no encontramos evidencia de que ρ es distinto de 0, y aceptaremos que entre dos variables existe asociación lineal si ρ es distinto de cero. El coeficiente de correlación de Pearson muestral (r), es un parámetro que se calcula a partir de datos muéstrales, pero nuestro interés es el parámetro poblacional (como ocurre siempre en estadística analítica). Si en una población el coeficiente de correlación poblacional es cero, por efecto del muestreo, r en la mayoría de las ocasiones será distinto de cero, pero si el valor de r es muy distinto de cero y la probabilidad de obtenerlo por efecto del azar en el muestreo es menor que α, nivel de significación aceptado en el contraste de hipótesis, rechazaremos la hipótesis nula y concluiremos que existe asociación lineal entre las variables. El contraste de hipótesis planteado en este caso es:
En el párrafo anterior, hemos dicho que consideraremos que existe asociación lineal entre dos variables si ρ # 0, pero si existe asociación lineal, ésta puede ser fuerte o débil. Si α es igual a uno o a menos uno, esto indica que la fuerza de la asociación lineal es máxima, el signo no tiene importancia en cuanto a la fuerza de la asociación lineal (indica si las dos variables aumentan simultáneamente, signo positivo, o si al aumentar una disminuye la otra, signo negativo), pues tan fuerte es la asociación lineal entre dos variables si r = 0.7 que si r = —0.7.
MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION
73
El contraste de hipótesis anterior lo resolvemos evaluando el siguiente estadístico:
El estadístico anterior, si ρ = 0, se distribuye como una t de STUDENT con n — 2 grados de libertad; si, al resolverlo para un caso concreto, obtenemos como resultado una t de STUDENT muy poco probable de obtener, con la probabilidad menor que a, rechazaremos la hipótesis nula y aceptaremos que existe asociación lineal entre las variables. El coeficiente de correlación lineal de Pearson, mide la fuerza de la asociación lineal. Dicha fuerza será nula (asociación lineal inexistente) si ρ = 0; la fuerza de la asociación lineal aumenta según el valor del coeficiente se aproxima a uno o a menos uno, y la asociación lineal es máxima si ρ = 1 o = — 1. A algún lector puede haberle extrañado que nos refiramos más a ρ que a r, pero esto se debe a que nuestro interés es saber lo que ocurre en la población, aunque nos ayudaremos de los parámetros muéstrales para ello. El coeficiente de correlación muestral de Pearson se calcula según la siguiente expresión:
En la ecuación anterior, Sx es la desviación típica de la variable X y Sy es la desviación típica de la variable Y; n es el número de puntos, tamaño de que consta la muestra. Si el coeficiente de correlación lineal de Pearson es 0, ello indica
74
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
únicamente que no existe asociación lineal entre las variables sobre las que se han calculado, pero no indica que entre las variables no pueda existir otra forma de asociación no lineal. Dos variables pueden tener una fuerte relación de dependencia o asociación no lineal, y tener una nula asociación lineal. EL PROCEDIMIENTO CORRELATION El cálculo de coeficientes de correlación entre dos variables con SPSS lo haremos mediante el procedimiento CORRELATION, al cual podremos asociarle varios subcomandos que nos permitan adecuar los resultados a nuestras necesidades. El subcomando VARIABLES nos permite indicar en cuál o cuales variables queremos calcular la fuerza de la asociación lineal. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las instrucciones anteriores, calcula el coeficiente de correlación lineal de Pearson entre las variables TAS y CB. El subcomando VARIABLES, aunque se, ha incluido, puede omitirse. Veamos los resultados obtenidos:
La tabla anterior nos muestra en forma de matriz los coeficientes de correlación entre las variables incluidas en la instrucción. El coeficiente de correlación entre TAS y CB es 0,6719 y los dos asteriscos junto a él indican que este valor es significativo con p < 0.001;
MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION
75
por lo tanto, podemos afirmar, con una pequeña probabilidad de error, que existe una moderada asociación lineal entre las variables TAS y CB. Además, como r es positivo, ello indica que valores elevados de una variable se asocian con valores elevados de la otra y valores bajos de una variable se asocian con valores bajos de la otra. En la diagonal principal de la matriz, figuran los coeficientes de correlación de cada variable consigo misma, que evidentemente es 1. Al final del listado de resultados, SPSS indica que imprimirá un punto en caso de no poder calcular el coeficiente de correlación. Esto significa que, si el lugar en que usted espera que aparezca un coeficiente de correlación aparece un punto, ello se debe a que el cálculo no ha podido realizarse. Veamos otro ejemplo. Inicie una sesión con SPSS y siga las siguientes instrucciones:
En la segunda de las instrucciones anteriores, solicitamos un estudio de correlación entre las variables, TAD, CB y TB. En este caso, hemos omitido el subcomando VARIABLES. Si tras CORRELATION, con o sin el subcomando VARIABLES, ponemos una lista de variables, se mostrarán en forma de matriz los coeficientes de correlación lineal de Pearson. Entre todas las variables de la lista tomadas dos a dos, veamos los resultados:
76
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la matriz de correlaciones podemos observar que, entre las variables TAD y CB r = 0.6884 y este coeficiente es significativo con p < 0.001 entre las variables CB y TB r = —0.1184 pero no es significativo, por lo tanto no tenemos evidencia de que exista asociación lineal entre estas dos variables. Lo mismo ocurre con las variables TAD y TB. En el ejemplo anterior, hemos obtenido todos los coeficientes de correlación lineal, combinando dos a dos todas las variables de la lista, pero en ocasiones podemos estar interesados en obtener solamente los coeficientes de correlación lineal entre una variable y una lista de variables, lo cual podemos conseguir utilizando la palabra clave WITH. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las anteriores instrucciones indica que deben calcularse los coeficientes de correlación entre la variable TAS y las variables TAD CB y PESO. Obsérvese que la palabra clave WITH indica que en este caso no queremos obtener todos los coeficientes de correlación posibles, como fue el caso del ejemplo anterior.
En la tabla anterior podemos observar que sólo se han calculado los coeficientes de correlación entre la variable TAS y las otras tres variables. Los tres coeficientes de correlación son significativos y la asociación lineal más fuerte se encuentra entre las variables TAS y TAD.
MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION
77
El subcomando STATISTICS El procedimiento CORRELATION permite la asociación del subcomando STATISTICS, el cual nos va a permitir obtener algunos parámetros estadísticos adicionales a los ya estudiados. Las opciones de este subcomando son las siguientes: 1. Esta opción muestra una tabla que incluye el número de casos válidos, la media y la desviación típica para cada una de las variables incluidas en la instrucción. 2. Esta opción muestra en los resultados los productos cruzados y la covarianza para todas las combinaciones binarias posibles entre las variables listadas. ALL. Esta opción muestra en la tabla de resultados los estadísticos correspondientes a las opciones 1 y 2. Veamos un ejemplo. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las instrucciones anteriores pide los coeficientes de correlación entre las variables CB TAS TAD y PESO. La inclusión ALL del subcomando STATISTICS incluirá en el listado de resultados los estadísticos correspondientes a la opción 1 y a la 2. Los resultados obtenidos son los siguientes.
78
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Como consecuencia de la inclusión del subcomando STATISTICS, con la opción ALL, es decir todos los parámetros disponibles, en primer lugar hemos obtenido una tabla con el número de casos válidos, media y desviación típica de cada variable implicada en la instrucción. A continuación de la tabla anterior se muestra otra tabla con los productos cruzados, número de casos válidos y covarianzas para cada combinación posible entre las variables de la lista tomadas dos a dos. Por ultimo se lista las correlaciones entre todas las variables incluidas en la lista. El subcomando OPTIONS El procedimiento CORRELATION, mediante el subcomando OPTIONS permite realizar algunas especificaciones sobre la salida de los resultados y el tratamiento de los casos con casos ausentes. Las opciones disponibles para este subcomando son las siguientes: 1. Si no especificamos ninguna opción, los casos con valores ausentes en alguna de las variables incluidas en la instrucción no se analizan. Si utilizamos esta opción se incluirán en el análisis los casos con valores ausentes de usuario. 2. Esta opción incluye en el cálculo de cada coeficiente de correlación los casos con valores válidos para las variables que
MEDIDAS DE ASOCIACIÓN LINEAL. EL PROCEDIMIENTO CORRELATION
79
intervengan en el cálculo, aunque tengan valores ausentes en otras variables incluidas en la lista. 3. En los listados de resultados estudiados anteriormente, los contrastes y las probabilidades mostradas correspondían a contrastes de hipótesis de una cola (l.taile signif); si utilizamos esta opción en la matriz de coeficientes de correlación, nos indicará la significación de los coeficientes de correlación, pero sobre un contraste de hipótesis de dos colas también llamado bilateral. 4. Esta opción permite grabar un fichero con los resultados correspondientes a la matriz de correlación y el número de casos empleados para el cálculo de cada coeficiente. Esta opción no se aplicará si hemos usado la palabra clave WITH. 5. Esta opción incluye en los resultados el número de casos utilizados en el calculo de cada coeficiente de correlación y la probabilidad para cada coeficiente. Inicie una sesión con SPSS y siga las siguientes instrucciones:
En la matriz de coeficientes de correlación anterior, al haber utilizado el subcomando OPTIONS con la opción 5 junto a cada coeficiente, se nos muestra el número de casos empleado en su
80
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
cálculo y la probabilidad para un contraste bilateral. En este caso, r = 0.4425 entre las variables PESO y TALLA y la probabilidad es menor de 0.001; como es menor que el nivel de significación, rechazamos la hipótesis nula y aceptamos que existe una moderada relación lineal entre las variables PESO y TALLA.
Capítulo 4 REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
En este capítulo estudiaremos el análisis de regresión lineal simple y múltiple. La regresión lineal es una técnica estadística que analiza si los valores de una variable dependiente pueden predecirse mediante un modelo lineal, en el que hay una o más variables independientes. Las variables implicadas en el modelo deben ser cuantitativas continuas. Como en capítulos anteriores, haremos una introducción teórica y a continuación resolveremos ejemplos utilizando SPSS. Recomendamos al lector estudiar detenidamente el enfoque de la regresión simple, puesto que, conceptualmente, la regresión múltiple es una extensión de la simple, aunque con la inclusión de algunos conceptos nuevos.
INTRODUCCIÓN El análisis de regresión es una técnica estadística de análisis multivariante, que estudia las variaciones de una variable cuantitativa continua, en función de una o más variables cuantitativas continuas. La variable cuya variabilidad queremos estudiar es la variable dependiente o respuesta, y las variables en función de las cuales varía son las variables independientes, también llamadas variables predictoras. El objetivo del análisis de regresión es predecir los valores de la variable respuesta, en función de los valores de las variables independientes.
82
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
TIPOS DE ANÁLISIS DE REGRESIÓN Los análisis de regresión pueden ser de varios tipos, según el número de variables independientes y de la función. Si el número de variables independientes es una, la regresión es simple y si el número de variables independientes es mayor que una la regresión es múltiple. Por ejemplo, si queremos estudiar la dependencia de los valores de la tensión arterial sistólica (variable dependiente), en función de los valores del colesterol (variable independiente), al haber una sola variable independiente, la regresión es simple. Si quisiéramos estudiar la variabilidad de la tensión arterial sistólica, en función de los niveles de colesterol, edad y nivel de ácido úrico, tendríamos una regresión múltiple con tres variables independientes. Atendiendo al número de variables independientes, la regresión puede ser simple o múltiple. Otra característica que debe tenerse en cuenta en la clasificación de la regresión es la función. Si la dependencia funcional de la variable respuesta respecto a las variables independientes es lineal, la regresión es lineal y si la función es no lineal, la regresión es no lineal. Una función lineal está compuesta por una constante más un número de sumandos igual al número de variables independientes; cada sumando está compuesto por la correspondiente variable independiente elevada a la potencia uno multiplicada por un factor constante, que es el coeficiente de regresión correspondiente a esa variable. Todas las relaciones funcionales distintas a la lineal son funciones no lineales. Atendiendo a las dos características utilizadas en la clasificación de la regresión, número de variables y forma funcional la regresión puede ser:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
83
REGRESIÓN LINEAL SIMPLE En este tipo de análisis de regresión hay una sola variable independiente y la dependencia de la variable respuesta respecto a la predictora sigue una función lineal como la siguiente:
En la expresión anterior, Y es la variable dependiente y X es la variable independiente; el término independiente B0 es el valor de la variable dependiente cuando X = 0. También se le suele denominar "ordenada en el origen". B1 es el coeficiente de regresión lineal y es el incremento de la variable dependiente por cada unidad de aumento en la variable independiente. B0 y B1 son parámetros poblacionales, que estimaremos a partir de datos muéstrales. Si existe regresión lineal entre Y y X, el valor de la variable dependiente en un elemento cualquiera de la población viene dado por la siguiente expresión:
El parámetro Ei recoge las diferencias encontradas entre la relación lineal y el valor de la variable, indica la variabilidad de la variable dependiente debida a causas no controladas por el modelo. A Ei también se le denomina residuo; como veremos en un apartado posterior, el análisis de los residuos es una parte muy importante del análisis de regresión. La estimación de los parámetros de regresión lineal simple puede hacerse por varios métodos. El más utilizado es el de mínimos cuadrados, que consiste en calcular una recta tal que la suma de todas las diferencias entre los valores observados y la recta sean los mínimos posibles. El cálculo del estimador del coeficiente de regresión, a partir de los datos muéstrales, viene dado por la siguiente expresión:
84
ESTADÍSTICA MULTWARIANTE Y NO PARAMÉTRICA CON SPSS
El estimador del término independiente (ordenada en el origen), puede calcularse mediante la siguiente expresión:
Mediante las expresiones (3) y (4) calcularemos, a partir de los datos muéstrales, los estimadores de los parámetros de la recta de regresión.
Variabilidad cuadrática. Suma de cuadrados Aunque exista relación lineal significativa entre dos variables, lo habitual es que la variable independiente explique solamente una parte de las variaciones observadas de la variable dependiente. El resto de la variabilidad, se debe a causas no controladas por el modelo. La suma de todas las diferencias de los valores de la variable dependiente respecto a la media, que es la variabilidad por todas las causas, podemos descomponerla en dos partes: la explicada por el modelo de regresión y la debida a otras causas. En las expresiones siguientes, Yi es el valor de la variable dependiente, correspondiente al iésimo elemento. Xi es el valor de la variable independiente, correspondiente al iésimo elemento. B0 representa el factor constante poblacional del modelo lineal. B1 representa el coeficiente de regresión lineal poblacional, correspondiente a la variable independiente. B0 representa el factor constante muestral, del modelo lineal, es un estimador de B0. b1 representa el
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
85
coeficiente de regresión lineal muestral, correspondiente a la variable independiente. En los modelos matemáticos, representamos los parámetros poblacionales, pero los resultados experimentales sólo permiten el cálculo de los estimadores de dichos parámetros. Esto podemos expresarlo matemáticamente de la siguiente manera:
A partir del modelo anterior, vamos a calcular las variabilidades cuadráticas. La variabilidad cuadrática total SSTOTAL la calcularemos a partir de la siguiente expresión:
El término anterior, representa la variabilidad cuadráticas de la variable dependiente, debida a todas las causa, las explicadas por la variable independiente y las no explicadas por el modelo. La variabilidad cuadrática debida a la regresión la calcularemos a partir de la siguiente expresión:
La expresión anterior representa la variabilidad cuadrática de la variable dependiente, explicada por la variable independiente.
86
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La variabilidad cuadrática debida a causas no controladas por el modelo la calcularemos a partir de la siguiente expresión:
La suma de cuadrados cumple la siguiente relación:
La variabilidad total la hemos descompuesto en la explicada por la regresión y la debida a otras causas. Los cuadrados medios MS los calcularemos dividiendo las sumas de cuadrados entre sus correspondientes grados de libertad. Los grados de libertad correspondientes a la regresión son iguales al número de variables independientes incluidas en el modelo (en el caso de la regresión simple, solamente uno). Los grados de libertad totales son- iguales al número de observaciones menos uno. Los grados de libertad correspondientes al SSE son iguales al número de observaciones menos dos. A la suma de cuadrados que hemos denominado como error otros autores la denominan RESIDUAL; SPSS también la denomina RESIDUAL. Por lo tanto, SSERROR es sinónimo de SSRESIDUAL y MSERROR es sinónimo de MSRESIDUAL.
Consistencia de la asociación lineal La asociación lineal entre dos variables, aun siendo significativa, puede ser fuerte o débil. Necesitamos un parámetro que mida la fuerza de la asociación lineal entre dos variables. El más utilizado es el coeficiente de determinación. El coeficiente de determinación R2 nos indica la fuerza de la
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
87
asociación lineal entre dos variables. Este estadístico, puede tomar valores entre 0 y 1. Un valor 0 indica ausencia de relación lineal entre las dos variables y un valor 1 indica una relación lineal perfecta. Este estadístico, multiplicado por cien, indica el porcentaje de las variaciones de la variable dependiente que explica el modelo. El coeficiente de determinación viene dado por la siguiente expresión:
Supongamos que, en un modelo lineal simple, en el que la variable dependiente es el PESO de una persona y la variable independiente la TALLA, un coeficiente de determinación de 0.76, significa que el 76% de las variaciones observadas en el peso son explicables por las variaciones de la talla. El coeficiente de determinación expresa la variabilidad, explicada por el modelo de regresión. A partir de él podemos calcular el coeficiente de alienación. Este coeficiente expresa la proporción de la variabilidad de la variable dependiente no explicada por el modelo y viene dado por la siguiente expresión:
En el ejemplo anterior, en el que el coeficiente de determinación es 0.76, el coeficiente de alienación es 0.24; esto indica que el 24% de las variaciones observadas del peso no son explicables por el modelo (en este caso por las variaciones de la talla).
88
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Estimaciones en regresión lineal simple Uno de los fundamentos del análisis de regresión es estimar valores de la variable dependiente. Supongamos que, en un experimento hemos encontrado una asociación lineal entre la variable dependiente 7 (tensión arterial sistólica) y la variable independiente X (colesterol basal), según la siguiente expresión:
Basándonos en la expresión anterior, queremos estimar el valor de la tensión arterial sistólica en individuos que tienen un colesterol basal de 300 mg/100 mi.
La estimación indica que tendrán una tensión arterial sistólica de 160 mm Hg. El error estándar de y Sy viene dado por la siguiente expresión:
A partir de la expresión anterior, podemos calcular un intervalo de confianza para el valor estimado. El intervalo de confianza para una estimación viene dado por la siguiente expresión:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
89
En la expresión anterior, tα/2, y es el valor de la abscisa, para una distribución t de Student tal que el área bajo la curva para valores mayores sea α/2, y indica los grados de libertad, que son n — 2, y n es el número de observaciones, Ŷ es el valor de la estimación según los datos muéstrales y Sx la variabilidad cuadrática de la variable independiente, que viene dada por la siguiente expresión:
S viene dada por la siguiente expresión:
Hipótesis en regresión lineal simple La hipótesis que queremos contrastar en un modelo de regresión simple es que existe asociación lineal entre la variable dependiente y la variable independiente. Si existe asociación lineal, el coeficiente de regresión lineal debe ser significativamente distinto de cero. Las hipótesis en este caso son las siguientes:
Habitualmente a es igual a 0.05.
90
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El contraste de hipótesis anterior lo podemos resolver de dos maneras: calculando la F de Snedecor experimental correspondiente al cociente entre MSREG y MSRES, si es significativa rechazaremos la hipótesis nula y concluiremos que existe regresión lineal entre las variables analizadas. Otra manera de resolver el contraste de hipótesis anterior, es teniendo en cuenta que si B1 es igual a cero, el cociente de b1 (estimador de B1) por Sb1 (error estándar de b1) sigue una distribución t de STUDENT con n — 2 grados de libertad. SPSS proporciona los datos necesarios, para resolver el contraste de hipótesis por los dos métodos. Los resultados los dispondremos en una tabla similar a la utilizada en el análisis de la varianza.
Si existe regresión estadísticamente significativa, el valor de la F experimental será mayor que el punto crítico del contraste, y la probabilidad de encontrar dicha F, bajo los supuestos de la hipótesis nula, es menor que 0.05. Si la probabilidad es mayor que 0.05, no podremos rechazar la hipótesis nula y concluiremos que no tenemos evidencia de que exista relación lineal entre las variables.
Asunciones del análisis de regresión La aplicabilidad de un modelo de regresión es estadísticamente válida si se cumplen las siguientes condiciones: I) La variable dependiente es aleatoria. Para cada posible valor de x, hay una subpoblación de valores de la variable de-
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
91
pendiente. Con distribución normal, la media de dicha distribución se encuentra en la recta de regresión. II) Las varianzas de todas las subpoblaciones de valores de la variable dependiente, asociadas a cada valor, de la variable independiente (x) tienen la misma varianza. III) Las subpoblaciones de valores de la variable dependiente, asociadas a los valores de x, son independientes entre sí. REGRESIÓN LINEAL MÚLTIPLE Conceptualmente, la única diferencia entre la regresión simple y la múltiple es que el número de variables independientes es mayor que 1, El modelo matemático, en este caso, es el siguiente:
En el modelo anterior, Bi es el coeficiente de regresión correspondiente a la iésima variable; indica el incremento de la variable dependiente, por aumento unitario de la iésima variable independiente, suponiendo fijas el resto de las variables. Variabilidad cuadrática. Suma de cuadrados Aunque exista relación lineal significativa entre la variable dependiente y las variables independientes, lo habitual es que las variables independientes expliquen solamente una parte de las variaciones observadas de la variable dependiente. El resto de la variabilidad, se debe a causas no controladas por el modelo. La suma de todas las diferencias de los valores de la variable dependiente, respecto a la media, que es la variabilidad por todas las causas, podemos descomponerla en dos partes, la explicada por el modelo de regresión y la debida a otras causas. En las expresiones siguientes, Yi es el valor de la variable dependiente, correspondiente al iésimo elemento. Xi es el valor de la
92
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
variable independiente, correspondiente al iésimo elemento. B0 representa el factor constante poblacional del modelo lineal. B1 representa el coeficiente de regresión lineal poblacional, correspondiente a la variable independiente. B0 representa el factor constante muestral del modelo lineal; es un estimador de B0 b1 representa el coeficiente de regresión lineal muestral, correspondiente a la variable independiente. En los modelos matemáticos, representamos los parámetros poblacionales, pero los resultados experimentales sólo permiten el cálculo de los estimadores de dichos parámetros. Esto podemos expresarlo matemáticamente de la siguiente manera:
A partir del modelo anterior, vamos a calcular las variabilidades cuadráticas. La variabilidad cuadrática total SSTOTAL la calcularemos a partir de la siguiente expresión:
El término anterior representa la variabilidad cuadrática de la variable dependiente debida a todas las causas, las explicadas por las variables independientes y las no explicadas por el modelo. La variabilidad cuadrática debida a la regresión la calcularemos a partir de la siguiente expresión:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
93
La expresión anterior representa la variabilidad cuadrática de la variable dependiente, explicada por la variable independiente. La variabilidad cuadrática debida a causas no controladas por el modelo la calcularemos a partir de la siguiente expresión:
La suma de cuadrados, cumple la siguiente relación:
La variabilidad total la hemos descompuesto en la explicada por la regresión y la debida a otras causas. Los cuadrados medios MS los calcularemos dividiendo las sumas de cuadrados entre sus correspondientes grados de libertad, Los grados de libertad correspondientes a la regresión son iguales al número de variables independientes incluidas en el modelo. Los grados de libertad totales son iguales al número de observaciones menos uno. Los grados de libertad correspondientes al SSE son iguales al número de observaciones menos el número de variables independientes menos uno (n — k — 1). A la suma de cuadrados que hemos denominado como error otros autores la denominan RESIDUAL; SPSS también la denomina RESIDUAL. Por lo tanto SSERROR es sinónimo de SSRESIDUAL y MSERROR es sinónimo de MSRESIDUAL.
Consistencia de la asociación lineal La asociación lineal entre una variable dependiente y K variables independientes, aun siendo significativa, puede ser fuerte o débil.
94
ESTADÍSTICA MULT1VARIANTE Y NO PARAMÉTRICA CON SPSS
Necesitamos un parámetro que mida la fuerza de la asociación lineal. Los más utilizados son el coeficiente de correlación de Pearson r (ver capítulo de correlación) y el coeficiente de determinación. El coeficiente de determinación R2 nos indica la fuerza de la asociación lineal en un modelo experimental de regresión múltiple. Este estadístico puede tomar valores entre 0 y 1. Un valor 0 indica ausencia de relación lineal y un valor 1 indica una relación lineal perfecta. Este estadístico, multiplicado por cien, indica el porcentaje de las variaciones de la variable dependiente, que explica el modelo. El coeficiente de determinación viene dado por la siguiente expresión:
El coeficiente de determinación expresa la variabilidad, explicada por el modelo de regresión. A partir de él, podemos calcular el coeficiente de alienación. Este coeficiente expresa la proporción de la variabilidad de la variable dependiente no explicada por el modelo y viene dado por la siguiente expresión:
Hipótesis en regresión lineal múltiple La hipótesis que queremos contrastar en un modelo de regresión múltiple es que existe asociación lineal entre la variable dependiente y las variables independientes. Si existe asociación lineal, los coeficientes de regresión lineal deben ser significativamente distintos de cero.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
95
Las hipótesis, en este caso, son las siguientes:
Habitualmente, α es igual a 0.05. La hipótesis nula, en regresión múltiple, es que todos los coeficientes de regresión son cero, lo cual significa que no existe relación lineal entre la variable dependiente y alguna de las variables independientes. Póngase mucha atención a esta circunstancia, puesto que si rechazamos la hipótesis nula, lo único que significa es que al menos un coeficiente de regresión es significativo. El contraste de hipótesis anterior lo vamos a resolver calculando la F de Snedecor experimental correspondiente al cociente entre MSREG y MSRES. Si es significativa, rechazaremos la hipótesis nula y concluiremos que existe regresión lineal entre la variable dependiente y alguna de las variables independientes. Un modelo de regresión múltiple tiene valor científico si es significativa la F, correspondiente al modelo global, y son significativos todos los coeficientes de regresión de las variables incluidas en el modelo. No es válido un modelo en el que los coeficientes de regresión de una o más variables no son significativos, independientemente de que lo sea la F correspondiente al modelo global. Los resultados los dispondremos en una tabla similar a la utilizada en el análisis de la varianza.
96
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Si existe regresión estadísticamente significativa, el valor de la F experimental será mayor que el punto crítico del contraste, y la probabilidad de encontrar dicha F bajo los supuestos de la hipótesis nula, es menor que 0.05. Si la probabilidad es mayor que 0.05, no podremos rechazar la hipótesis nula, y concluiremos, que no tenemos evidencia de que exista relación lineal entre la variable dependiente y ninguna de las variables independientes.
Asunciones del análisis de regresión La aplicabilidad de un modelo de regresión es estadísticamente válida si se cumplen las siguientes condiciones: I) La variable dependiente es aleatoria. Para cada punto, descrito por una combinación de valores de las variables independientes, hay una subpoblación de valores de la variable dependiente. Con distribución normal, la media de dicha distribución se encuentra en la recta de regresión. II) Las varianzas de todas las subpoblaciones de valores dé la variable dependiente, asociadas a cada punto descrito por las variables independientes, son iguales. III) Las subpoblaciones de valores de la variable dependiente, asociadas a los valores de la variables independientes, son independientes entre sí,
Interacción En los modelos de análisis estadístico en los que intervienen simultáneamente más de dos variables, puede haber interacción. La interacción es una relación no lineal de las variables, además de la lineal. Supongamos que tenemos una variable dependiente (y) y dos variables independientes (X1 X2) cuyos coeficientes de regresión múltiple son b1 y b2 respectivamente. Un modelo de regresión múltiple con interacción sería el siguiente:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
97
En el modelo anterior, además de los dos términos aditivos propios de los modelos lineales, hay un término adicional multiplicativo. Para que exista interacción en el caso anterior, los tres coeficientes de regresión deben ser significativos. En el caso anterior, hay una interacción binaria porque afecta a dos variables. Cuando que en el modelo haya más de dos variables, puede haber interacciones terciarias, cuaternarias, etc. Para una interpretación completa del modelo, deben investigarse las interacciones posibles.
Multicolinealidad Un fenómeno que debe tenerse en cuenta en los modelos múltiples es la multicolinealidad. Esto ocurre cuando las variables independientes implicadas en el modelo llevan una información redundante y la información de una o más variables también la aportan otras. Supongamos que tenemos un modelo con K variables independientes. Si una de las variables independientes, es combinación lineal exacta de las demás, la matriz de datos (X) tendrá rango menor que K. El rango, en este caso, es K — 1, la matriz del producto cruzado (XX’) es singular y el sistema de ecuaciones que determina no tiene solución única. Sin llegar a la situación anterior, en la que la colinealidad es completa, pueden darse situaciones en las cuales un porcentaje importante de la información de una o más variables es aportado también por otras variables. Tendremos entonces multicolinealidad parcial. Cuando existe multicolinealidad, las varianzas de los coeficientes de regresión son grandes y podemos encontrarnos con un efecto paradójico. En un modelo en el que existe multicolinealidad, podemos encontrar una ecuación con un elevado coeficiente de determinación. El nivel de significación del modelo es muy alto (valor de la F de la tabla de ANOVA para la evaluación conjunta del modelo elevada), pero los coeficientes de regresión de las variables, analizados individualmente, pueden no ser significativos. La varianza de los coeficientes de regresión viene dada por la siguiente expresión:
98
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la expresión anterior, S viene dada por (4-14), Ri.. es el coeficiente de correlación múltiple entre Xi y el resto de las variables independientes teniendo en cuenta que la varianza del coeficiente de regresión simple entre la variable dependiente y Xi es:
La ecuación anterior indica cuál es el valor de la varianza del coeficiente de regresión entre la iésima variable independiente y la variable dependiente. Combinando las expresiones (4.24) y (4.25) obtenemos:
La expresión anterior nos explica, analíticamente, los efectos paradójicos de la multicolinealidad: un efecto global (múltiple) muy significativo, un coeficiente de determinación próximo a 1 y un efecto simple pequeño. Un parámetro cada vez más utilizado es el factor de incremento de la varianza de la iésima variable, FIVi cuyo valor es:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
99
Conceptualmente, el FIVi es la proporción de variabilidad de la iésima variable, que explican el resto de las variables independientes. La tolerancia de una variable es la proporción de variabilidad de la variable, que no se explica por el resto de las variables independientes. La tolerancia y el FIV son muy útiles en la construcción de modelos de regresión. Si construimos un modelo paso a paso entrando las variables de una en una, es útil conocer la tolerancia o el FIV de las variables que no han entrado aun en la ecuación, respecto a las variables independientes ya entradas en la ecuación. De esta manera, las variables con mayor tolerancia son las que mayor información aportarán al modelo. Además de la tolerancia y el FIV, debemos estudiar la matriz de correlaciones. Altas correlaciones entre las variables implicadas en el modelo deben considerarse como indicios de colinealidad. Puede ocurrir que, aun siendo pequeñas las correlaciones entre las variables exista colinealidad. Supongamos que tenemos K variables independientes y construimos otra que sea la media de los valores de las otras k variables; en este caso, la colinealidad será completa, pero si K es grande, los coeficientes de correlación serán pequeños. Por lo tanto, el estudio de la matriz de correlaciones no es suficiente. Una técnica que cada vez se utiliza más, aunque resulta algo sofisticada, es el análisis de los autovalores de la matriz de correlaciones o de la matriz del producto cruzado. A partir de los autovalores, podemos calcular el ÍNDICE DE CONDICIONAMIENTO (IC) tanto global del modelo como de cada variable. El índice de condicionamiento viene dado por la siguiente expresión:
El índice de condicionamiento, según (4-28), es la raíz cuadrada del cociente entre el máximo y el mínimo autovalores. Si el IC es
100
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRIC A CON SPSS
mayor que 30, existe colinealidad elevada; si el IC es mayor que 10 y menor que 30, la colinealidad es moderada; si el IC es menor que 10, no existe colinealidad. También es interesante el índice de condicionamiento para cada variable ICi, que es la raíz cuadrada del cociente del máximo autovalor y el iésimo autovalor. La varianza de cada coeficiente de regresión, incluida la constante, puede ser descompuesta como la suma de componentes asociadas a cada uno de los autovalores. Si el porcentaje de la varianza de algunos coeficientes de correlación se asocia con el mismo autovalor, hay evidencia de colinealidad. Correlación parcial Se llama correlación parcial entre dos variables a aquella que elimina la influencia de otra u otras variables. La situación más utilizada es el estudio de la correlación parcial entre la variable dependiente y una de las variables independientes, que elimina la influencia de las demás variables independientes. En la construcción de modelos, SPSS, en los modos FORWARD y STEPWISE, utiliza la correlación parcial entre las variables independientes no incluidas en la ecuación y la variable dependiente, eliminando la influencia de las variables independientes incluidas en la ecuación como criterio de orden en la entrada de variables. La variable con mayor correlación parcial es la primera en entrar. Análisis de residuos Un residuo es la diferencia entre el valor observado y el valor estimado en un modelo de regresión. Supongamos que tenemos el siguiente modelo:
El modelo anterior predice que la variable dependiente tomará el valor 9 si la variable X1 toma el valor 1 y la variable X2 toma el
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
101
valor 2. El valor estimado o predicho, también llamado valor esperado, es 9 en este caso. Si disponemos de una observación en la que la variable X1 es igual a 1, la variable X2 es igual a 2 y la variable dependiente Y vale 10, a este valor le denominaremos valor observado. En este caso, la diferencia entre el valor observado y el esperado es 10 — 9 = 1; diremos que el residuo correspondiente a este punto es igual a 1. A los residuos los representaremos por la letra E. Ei representa al iésimo residuo. El valor estimado o predicho lo representaremos con el símbolo Ŷ, y el valor observado mediante Y. En el ejemplo del párrafo anterior, el valor observado es Y= 10, y el valor esperado es 7=9. El residuo, por tanto, es: E = Y — Ŷ. En los estudios comparativos de residuos, suelen utilizarse los residuos estandarizados Es, Los residuos estandarizados vienen dados por la siguiente expresión:
En la expresión anterior, Esi es el iésimo residuo estandarizado, Ei es el iésimo residuo, Sr es el error estándar residual, y dii es la distancia entre el iésimo punto y el punto medio. En la expresión anterior, el numerador y el denominador no son independientes, puesto que en el cálculo del error estándar residual intervienen todos los residuos. El error estándar residual viene dado por la siguiente expresión:
102
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
A fin de evitar los problemas derivados de la interdependencia entre numerador y denominador de los residuos estandarizados, algunos autores proponen estudiar los residuos estudentizados (Et,). La diferencia entre los residuos estandarizados y estudentizados estriba en que en los estudentizados, al calcular el error estándar residual, no se incluye el iésimo residuo, con lo cual se consigue que el numerador y el denominador sean independientes. Los residuos estudentizados vienen dados por la siguiente expresión:
En la expresión anterior, todos los términos tienen el mismo significado que en los residuos estandarizados con la salvedad ya comentada en el cálculo del error estándar residual. Los tres tipos de residuos aportan valiosa información sobre el modelo de regresión pero en caso de anomalías aportan más información los residuos estandarizados y los estudentizados. El análisis gráfico de los residuos es muy importante para detectar anomalías en los modelos. Los gráficos más utilizados son: Diagrama gráfico de los residuos estandarizados y estudentizados. Diagrama gráfico de los residuos (Ei) junto a las variables independientes. Diagrama gráfico de los residuos junto a las predicciones. En los comentarios sobre las salidas gráficas de SPSS, ampliaremos la información sobre diagramas gráficos de residuos.
Análisis de regresión con SPSS. El procedimiento REGRESSION. Los subcomandos variables y DEPENDENT El procedimiento REGRESSION de SPSS permite realizar análisis de regresión simple y múltiple. El procedimiento de regresión admite
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
103
varios subcomandos que permiten adecuar los resultados a nuestras necesidades. El procedimiento REGRESSION, en su sintaxis mínima, incluye al menos los subcomandos VARIABLES, DEPENDENT y METHOD. El subcomando VARIABLES va seguido de la lista de variables que intervienen en el modelo. El subcomando DEPENDENT especifica cuál de las variables listadas, tras el subcomando VARIABLES, debe ser considerada como variable dependiente. Una vez elegida la variable dependiente, automáticamente el resto de las variables se consideradan como variables independientes. El subcomando METHOD indica a SPSS los criterios que seguir para elaborar el modelo. Las opciones asociadas a este subcomando se estudiarán detenidamente en el subapartado siguiente. En primer lugar, estudiaremos si entre el peso y la talla existe una dependencia lineal simple, mediante un modelo de regresión lineal simple. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las instrucciones anteriores indica a SPSS que se realice un estudio de regresión. El subcomando VARIABLES, indica que las variables implicadas en el análisis son la TALLA y el PESO. El subcomando DEPENDENT indica que la variable dependiente es el PESO y el subcomando METHOD que el método de entrada de variables debe ser ENTER. El subcomando METHOD se analizará con detalle en el próximo apartado. Los resultados obtenidos tienen tres partes: datos concernientes al coeficiente de determinación, tabla de ANOVA para resolver la hipótesis de linealidad (ver subapartado HIPÓTESIS EN REGRESIÓN LINEAL SIMPLE) y tabla con los coeficientes con sus errores estándar y valores asociados de la t de Student.
104
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Aunque el encabezamiento de los resultados ponga en todos los casos MÚLTIPLE REGRESSION, también realiza estudios de regresión simple como en este caso.
El coeficiente de correlación lineal de Pearson es 0.44 y su cuadrado es el coeficiente de determinación (R square), calculado según la expresión (4-10), algunos autores indican que el valor del coeficiente de determinación debe ajustarse según la siguiente expresión:
En la expresión anterior, Ra2 es el coeficiente de determinación ajustado (Adjusted R Square), K es el número de variables independientes (en la regresión lineal simple, K es igual a 1 y n el número de observaciones). En nuestro caso, el coeficiente de de-
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
105
terminación vale 0.19584 y el coeficiente de determinación ajustado 0.18365, lo cual indica que el 18.365 % de las variaciones observadas en la variable dependiente pueden ser explicadas linealmente por la variable TALLA. El error estándar (Standar error), listado anteriormente, es el resultado de aplicar la expresión (4-14).
La tabla anterior nos muestra los resultados obtenidos en el análisis de regresión, expresados según la tabla de ANOVA, En este caso, la F observada es 16.07 y la probabilidad de obtener dicha F, si en la población B1 fuera cero, es 0.0002; como dicha probabilidad es menor que 0.05, que es el nivel de significación fijado habitualmente, rechazamos la hipótesis nula y concluimos que B1es significativamente distinto de cero y, consiguientemente, existe regresión lineal entre el PESO y la TALLA. En regresión múltiple, el significado es un poco distinto, puesto que la hipótesis que se contrasta mediante la prueba de la F de Snedecor es que al menos un coeficiente es distinto de cero (ver subapartado Hipótesis en regresión lineal múltiple).
106
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior, en la columna B, se muestran los coeficientes b1 cuyo valor es 64.604435 y b0, cuyo valor es —37.014839. La ecuación de regresión lineal simple estimada es:
La ecuación anterior es equivalente a la siguiente:
En la columna SE B se muestran los errores estándar de los coeficientes, 16.114476 es el error estándar de b1 y 26.806304 es el error estándar de b0; el error estándar de b1 ha sido calculado según la siguiente expresión:
El error estándar de b0 viene dado por la siguiente expresión:
En las ecuaciones anteriores, Sx viene dado por la expresión (4-13) y S por la (4-14) (ver subapartado Estimaciones en regresión lineal simple). En la columna Beta, se muestra el coeficiente de regresión estandarizado, que viene dado por la siguiente expresión:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
107
En la expresión anterior, Sx viene dado por la expresión (4-13) y Sy por la (4-12A). A continuación veremos un ejemplo de regresión múltiple. Inicie una sesión con SPSS y siga las siguientes instrucciones: En la columna T se listan los valores observados de la TStudent correspondiente a cada coeficiente. Obsérvese que este valor es el correspondiente al cociente entre el correspondiente coeficiente y su error estándar; la t correspondiente a b1 es 4.009, la cual tiene una significatividad de 0.0002 lo que indica que B1 es significativamente distinta de cero y su correspondiente variable en este caso, la TALLA, contribuye significativamente a la regresión. La T correspondiente a b0 es —1.381 y no es significativa, el hecho de que la T correspondiente al término independiente no sea significativamente distinta de cero, indica que la recta puede pasar por el origen de coordenadas, lo cual, por otra parte, no tiene mayor trascendencia. Si alguno de los coeficientes de regresión no fuera significativo, ello indica que la variable correspondiente no contribuye significativamente a la regresión y no debe incluirse en la ecuación. Consideraremos significativa la T si la probabilidad es menor que 0.05.
La segunda instrucción indica a SPSS que se realice un análisis de regresión con las variables CB EDAD y PESO. La variable dependiente en el modelo debe ser CB, lo cual se indica mediante el subcomando DEPENDENT; por lo tanto, el modelo que se quiere
108
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
evaluar es si el colesterol basal CB tiene una relación lineal con las variables PESO y EDAD. El método de elaboración del modelo debe ser ENTER, lo cual se indica mediante el subcomando METHOD con la opción ENTER. Esta opción incluye en el modelo todas las variables listadas, aunque sus coeficientes no sean significativos. Los resultados obtenidos son los siguientes:
En la tabla anterior, en primer lugar se listan el coeficiente de correlación múltiple, el coeficiente de determinación (R Square; en este caso, su valor es 0.38049) y el coeficiente de determinación ajustado, cuyo valor es 0.36143. Esto significa que aproximadamente el 36% de las variaciones observadas en el colesterol se explican por las variables EDAD y PESO. El error estándar (Standard Error) en regresión múltiple se calcula según la siguiente expresión:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
109
La tabla de ANO VA indica que la F observada es 19.96100. Es muy significativa y por lo tanto al menos uno de los coeficientes de regresión múltiple es significativamente distinto de cero. Para ver cuál o cuáles son significativos, tenemos que consultar la tabla siguiente, en la que se listan los coeficientes de regresión, con sus errores estándar y valores de la T de Student asociadas.
El coeficiente de regresión múltiple b1 es el correspondiente a la variable PESO. Su valor es 1.518404; el coeficiente de regresión múltiple b2 correspondiente a la variable EDAD tiene un valor igual a 0.991858, el valor del término independiente B0 es 74.565954. Los dos coeficientes de regresión múltiple son significativamente distintos de cero y por lo tanto, contribuyen significativamente a la ecuación de regresión, puesto que las correspondientes T de Student son significativamente distintas de cero, con una significación de 0.000 en el caso de b1 y de 0.0403 en el caso de b2. La ecuación estimada de regresión múltiple es:
110
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La ecuación anterior es equivalente a:
El subcomando METHOD El procedimiento REGRESSION precisa, en su sintaxis mínima, tres subcomandos. El subcomando VARIABLES indica tras de sí las variables que van a intervenir en el modelo. El subcomando DEPENDENT, es aquel mediante el que indicamos cuál de las variables listadas tras el subcomando VARIABLES debe ser considerada como variable dependiente. El subcomando METHOD indica cómo deben ser introducidas las variables en la ecuación. Es importante destacar que METHOD no se refiere a distintos métodos de cálculo, sino a distintos métodos de construir la ecuación de regresión. El subcomando METHOD admite las siguientes especificaciones: ENTER FORWARD BACKWARD STEPWISE REMOVE TEST ENTER. Esta especificación nos lista los parámetros correspondientes a todas las variables, aunque sus coeficientes de regresión no sean significativos. FORWARD. Esta especificación construye en varios pasos la ecuación de regresión. La primera variable que incluye en la ecuación es la que tiene el mayor coeficiente de correlación, en valor absoluto, con la variable dependiente y cuyo coeficiente de regresión múltiple bi es significativamente distinto de cero, a un nivel de significación menor que 0.05 (PIN = 0.05); éste es el nivel que SPSS aplica por defecto. Si lo deseamos, podemos asignar el nivel de significación que queramos, mediante el subcomando CRITERIA.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
111
En los pasos siguientes, la variable que va a ser introducida es aquella cuyo coeficiente de correlación parcial es mayor. La correlación parcial se calcula entre la variable dependiente y cada una de las independientes aún no incluidas en la ecuación, ajustando la influencia de las variables independientes incluidas en la ecuación. También se tiene en cuenta la TOLERANCIA, parámetro que se analizará en un apartado próximo. El proceso se repite hasta que no haya variables cuyos coeficientes de regresión sean significativos al incluirlos en la ecuación. El modo FORWARD permite realizar un número determinado de pasos, al final de los cuales el proceso se detiene, aunque queden variables cuyos coeficientes de regresión múltiple sean significativos al ser incluidos en la ecuación. Una vez que una variable entre en la ecuación, el método FORWARD no la elimina, aunque su coeficiente de regresión múltiple deje de ser significativo al introducir otras variables. BACKWARD. En este caso, en el primer paso se incluyen todas las variables en la ecuación; a continuación se elimina la variable con una significación mayor, siempre que el nivel de significación sea mayor que el indicado POUT = 0.1, este valor puede ser modificado. Si alguna variable cumple los requisitos de eliminación, se recalcula la ecuación sin dicha variable. A continuación, en el segundo paso y siguientes, se estudia la variable cuya correlación parcial es menor y se elimina si el nivel de significación es menor que 0.1, o el que se hubiera indicado en caso de haberse modificado. El proceso se detiene en cuanto todas las variables tengan un nivel de significación menor que el estipulado. STEPWISE. Este es el método más utilizado. Se trata de una combinación de FORWARD y BACKWARD. El proceso comienza incluyendo como primera variable independiente aquella cuyo coeficiente de correlación en valor absoluto con la variable dependiente sea mayor, siempre y cuando el coeficiente de regresión correspondiente a dicha variable tenga un nivel de significación menor que el indicado, que por defecto es 0.05 (PIN = 0.05). En el segundo paso, se introduce en la ecuación la variable con mayor correlación parcial con la variable dependiente; también se tiene en cuenta la TOLERANCIA, siempre y cuando cumpla el criterio de inclusión, PIN < 0.05.
112
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Si en alguno de los pasos el coeficiente de regresión de alguna de las variables ya introducidas en la ecuación tiene un nivel de significación mayor que 0.1, que suele ser el nivel de exclusión POUT — 0.1, la variable se elimina. Esta es la diferencia con FORWARD. REMO VE. Esta opción debe ir acompañada de una lista de variables, las cuales se eliminarán en un solo paso, permitiendo la elaboración de modelos con el resto de las variables. TEST. Esta opción permite elaborar modelos a partir de la lista de variables asociada, según el criterio del cambio de R2 y otros criterios. Esta opción debe acompañarse de la lista de variables implicadas. Veamos un ejemplo con el método STEPWISE. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las instrucciones anteriores indica a SPSS que se realice un estudio de REGRESIÓN múltiple, en el que la variable dependiente es TAD y el resto de las variables se consideraran independientes. El método de construcción de la ecuación es STEPWISE. Los resultados obtenidos son los siguientes:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
113
114
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En el primer paso, se incluye en la ecuación la variable TAS, por ser la de mayor coeficiente de correlación con la variable dependiente. Una vez incluida TAS en la ecuación, la variable con mayor correlación parcial es CB, la cual se incluye al cumplir el criterio de inclusión con significación menor que 0.05. Una vez incluida CB, la mayor correlación parcial corresponde a la variable EDAD, con 0.181119, pero al no ser la significación de la T menor que 0.05 no puede incluirse y termina el proceso. La ecuación definitiva del modelo anterior, aproximando los coeficientes de regresión a dos decimales, es la siguiente:
La interpretación es que la TAD está relacionada linealmente con la TAS y el CB; por cada mm de Hg de aumento en la TAS, la TAD aumenta en 0.37 mm de Hg, y por cada mg por 100 mi de aumento del CB la TAD aumenta en 0.09 mm de Hg. El coeficiente de determinación ajustado es 0.68717, lo cual indica que el 68.717% de la variabilidad observada de la TAD se explica por la TAS y el CB. Recomendamos al lector que examine detenidamente la construcción de las ecuaciones, puesto que puede haber fenómenos
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
115
como la colinealidad (ver subapartado Multicolinealidad), que la construcción automática de ecuaciones mediante STEPWISE, FORWARD o BACKWARD no controla bien y se puede perder valiosa información. El subcomando CRITERIA Este subcomando es muy interesante para el usuario que desee controlar las probabilidades u otros parámetros que determinen la inclusión o exclusión de las variables independientes en la construcción de los modelos de regresión. Las modificaciones realizadas mediante este subcomando, afectan fundamentalmente a los criterios de inclusión y de exclusión relacionados con el subcomando METHOD y sus especificaciones. La no utilización de este subcomando es equivalente a especificar PIN (0.05), POUT (0.1) y TOLERANCE (0.0001). PIN es la probabilidad de entrada en el modelo. El número entre paréntesis indica la probabilidad de significación, por debajo de la cual debe incluirse la variable en el modelo; no deben incluirse valores superiores. Una variable cuya significación sea 0.07 no se incluirá en el modelo, mientras que una variable con una significación de 0.04 sí se incluirá. POUT es la probabilidad de salida de una variable de un modelo de regresión, al introducir nuevas variables. Una variable puede ser incluida en un modelo de regresión con una significación menor que 0.05 pero, al incluir otras variables en el modelo, la significación puede modificarse; el número asociado a POUT indica la significación por encima de la cual la variable debe ser eliminada del modelo. POUT (0.10) indica que si la significación de una variable se ha situado durante la construcción de un modelo de regresión por encima de 0.10, dicha variable debe ser eliminada del modelo. TOLERANCE (0.0001). La tolerancia es la proporción de la variabilidad de una variable, que no explica un conjunto de variables independientes. En este caso, se refiere a la proporción de la variabilidad de la variable que va a ser introducida en el modelo, y que no se explica por las variables independientes ya incluidas en él. TOLERANCE (0.0001) indica que, si la proporción de la variabilidad
116
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
no explicada por las variables independientes ya incluidas en el modelo de la variable que va a ser incluida en el modelo es menor de 0.0001, ésta no debe incluirse. Las especificaciones que pueden asociarse al subcomando CRITERIA son las siguientes: PIN (pi). Probabilidad del estadístico F, asociado a la ultima variable incluida en el modelo. Si dicha probabilidad es mayor que (pi), la variable no debe incluirse en el modelo (para METHOD = FORWARD o STEPWISE). POUT (po). Probabilidad del estadístico F, asociado a cualquiera de las variables incluidas en el modelo. Si, al construir un modelo de regresión, dicha probabilidad aumenta por encima de (po), la variable debe excluirse del modelo (para METHOD = BACKWARD o STEPWISE). FIN (fi). En lugar de la probabilidad, SPSS nos permite indicar el valor de la F, asociada a la variable que se pretende incluir en el modelo. Las variables con valores de F inferiores a (fi), no se incluirán en el modelo (para METHOD = FORWARD o STEPWISE). No se pueden utilizar de forma simultánea PIN (pi) y FIN (fi). FOUT (fo). Al especificar los criterios de salida, SPSS nos permite especificar la probabilidad máximo o la F mínimo para permanecer en un modelo de regresión lineal, (fo) indica la F mínimo Valores de la F, asociada a una variable incluida en el modelo, menores de (fo), determinan que dicha variable debe ser excluida (para METHOD = BACKWARD o STEPWISE). TOLERANCE (to). Tolerancia mínimo, para que una variable pueda ser incluida en el modelo, variables con una tolerancia inferior a (to) no se incluirán. MAXSTEPS (ma). Máximo número de pasos en la construcción del modelo. Para el método STEPWISE, la opción por defecto es dos veces el número de variables independientes. CIN (c). Porcentaje para los intervalos de confianza. Sólo afecta a las variables temporales MCIN (estimación media) y ICIN (ESTIMACIOzáN). EL SUBCOMANDO CRITERIA DEBE ANTECEDER AL SUBCOMANDO DEPENDENT.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
117
El subcomando STATISTICS Este subcomando nos permite obtener diversos estadísticos asociados al estudio de regresión. Por defecto, en caso de no utilizar este subcomando, SPSS lista los estadísticos R, COEFF, ANOVA y OUTS. En caso de usar el subcomando STATISTICS, hay que especificar todos los estadísticos deseados, puesto que al utilizarlo, los estadísticos por defecto no se listan, a no ser que sean específicamente solicitados. Los estadísticos disponibles son los siguientes: R. Coeficiente de correlación múltiple, de determinación, de determinación ajustado y error típico de la estimación. ANOVA. Tabla de análisis de la varianza, para evaluar el modelo de regresión. CHA. Esta opción especifica el cambio en el coeficiente de determinación obtenido en cada paso en la construcción de un modelo. BCOV. Matriz de varianzas y covarianzas para las variables que intervienen en el modelo. XTX. Matriz de distancias. COLLIN. Esta opción permite realizar estudios de colinealidad entre las variables. Incluye VIF (factor de inflación de la varianza), los valores propios (eigenvalues) de la matriz del producto cruzado, índice de condicionamiento y descomposición proporcional de la varianza. (Ver subapartado multicolinealidad de este apartado). SELECTION. Criterios de selección de las variables. Criterio de información de Akaike (AIK). Criterio de predicción de Amemiya (PC). Criterio condicional del cuadrado medio del error de Mallow (CP). Criterio Bayesiano de Schwarz (SBC). COEFF. Muestra para las variables incluidas en la ecuación los siguientes estadísticos: el coeficiente de regresión β, error estándar de β, coeficiente estandarizado de β, el valor de la t de Student para β y la probabilidad asociada a la t para una prueba de dos colas. OUTS. Muestra para las variables no incluidas en la ecuación, pero si nominadas junto al subcomando VARIABLES, los siguientes estadísticos: el valor que tendría β, si la variable fuera incluida en la ecuación, el valor de la t de Student asociada a β y su correspon-
118
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
diente nivel de significación, coeficiente de correlación parcial con la variable dependiente que elimina el efecto de las variables incluidas en la ecuación y la tolerancia mínima. ZPP. Coeficientes de correlación, correlación parcial y semiparcial, para las variables no incluidas en la ecuación. CI. Lista los intervalos de confianza del 95%, para los coeficientes de regresión no estandarizados (β). SES. Error estándar de los coeficientes de regresión estandarizados. TOL. Muestra la tolerancia y el factor de inflación de la varianza (VIF), para las variables dentro y fuera de la ecuación. F. Muestra el valor de F y su significación, para cada coeficiente de regresión, en lugar de la t de Student, en las opciones COEFF y OUTS. LINE, Muestra un resumen de los resultados para cada paso, en la construcción del modelo. END. Muestra una línea por paso para BACKWARD, FORWARD o STEPWISE y una línea resumen por bloque para ENTER, REMOVE o TEST si cambia la ecuación. HISTORY. Muestra un resumen para cada METHOD (ENTER, REMOVE o TEST si la ecuación cambia) o para cada paso en (FORWARD, BACBCWARD o STEPWISE). Si HISTORY es el único estadístico requerido, COEFF se muestra al final de la ecuación. ALL. Muestra todos los estadísticos disponibles, excepto F, LINE y END. EN CASO DE UTILIZAR EL SUBCOMANDO STATISTICS, ESTE DEBE IR ANTES DEL SUBCOMANDO DEPENDENT. Comience una sesión con SPSS y siga las siguientes instrucciones:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
119
La primera de las anteriores instrucciones carga para su análisis el fichero de sistema CORONAR.SYS. La segunda instrucción permite realizar un análisis de regresión, con las variables CB TB TAS TAD TALLA y PESO. El subcomando STAT1STICS solicita los estadísticos correspondientes a las opciones COEFF OUTS R COLLIN y CI. Obsérvese que el subcomando STATISTICS antecede al subcomando DEPENDENT. Este indica que la variable dependiente del modelo es CB y el método de construcción del modelo debe ser BACKWARD. Los resultados obtenidos son los siguientes:
120
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
121
122
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En primer lugar, se forma un modelo con todas las variables, a continuación se elimina la variable menos significativa (mayor pro-
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
123
habilidad). Para que una variable sea eliminada, la probabilidad de significación debe ser mayor que POUT, que por defecto es 0.10. En nuestro caso, la variable TALLA tiene el valor mayor, con 0.4311, y como este valor es mayor que el valor POUT 0.1, esta variable sale de la ecuación. En el siguiente paso, la variable con mayor probabilidad es TAS, con 0.2152, que también es mayor que 0.10, por lo que la variable TAS se elimina. Una vez eliminadas las variables TALLA y TAS, las probabilidades de significación del resto de las variables son inferiores a 0.10 y lo tanto, quedan en el modelo. El modelo se encuentra definitivamente formado por las variables independientes TAD TB y PESO y, como variable dependiente, el colesterol CB. La opción CI del subcomando STATISTICS permite visualizar los intervalos de confianza para los coeficientes de regresión 0 y la opción COLLIN muestra los valores propios de la matriz producto. El subcomando ORIGIN Este subcomando indica que debe realizarse un cambio de ejes de referencia, de tal manera que la recta de regresión calculada pase por el ORIGEN de coordenadas, y por tanto carece de término independiente. En caso de no especificar nada la recta se calcula de la forma habitual, pudiendo o no pasar por el origen. EN CASO DE SER UTILIZADO EL SUBCOMANDO ORIGIN DEBE ANTECEDER AL SUBCOMANDO DEPENDENT. El subcomando SELECT Esta es una interesante opción, que permite seleccionar un grupo de casos del fichero. Supongamos que queremos estudiar la dependencia de la tensión arterial sistólica TAS, en función del colesterol CB y de la tensión arterial diastólica TAD, pero queremos realizar dicho modelo en HOMBRES. El subcomando SELECT nos permite seleccionar los sujetos que van a intervenir en el modelo, que serán los que cumplan la proposición indicada por SELECT. Los operadores relaciónales que pueden utilizarse son:
124
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La sintaxis de select es: SELECT VARIABLE OPERADOR VALOR Realizaremos el ejemplo indicado en el párrafo anterior. Inicie una sesión con SPSS y siga las siguientes instrucciones: EL SUBCOMANDO SELECT DEBE IR ANTES DEL SUBCOMANDO DEPENDENT.
Los resultados obtenidos son los siguientes:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
125
El modelo anterior se ha construido sólo para los HOMBRES SEXO EO 1 del fichero CORONAR.
126
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El subcomando MISSING Este subcomando permite controlar los casos con valores ausentes. Este subcomando permite las siguientes especificaciones: LISTWISE. Los casos con algún valor ausente, en cualquiera de las variables listadas en el subcomando VARIABLES, se excluirán de los cálculos. PAIRWISE. En los cálculos se excluirán, los casos con valores ausentes en alguna variable implicada. MEANSUBSTITUTION. Los valores ausentes se sustituirán, para los cálculos, por la media de la correspondiente variable. INCLUDE. Los valores ausentes del usuario se considerarán como valores válidos. Los casos con valores ausentes de sistema se excluirán. El subcomando WIDTH Este subcomando permite especificar el ancho de salida de los resultados. En caso de no utilizar este subcomando prevalece lo indicado en el comando SET. El ancho debe estar comprendido entre 72 y 132. El subcomando DESCRIPTIVES Este subcomando nos permite el cálculo de algunos parámetros relacionados con las variables implicadas en el modelo. Las opciones disponibles son las siguientes: DEFAULTS. Si utilizamos el subcomando DESCRIPTIVES, sin ninguna opción, se listan las medias aritméticas, las desviaciones típicas y la matriz de correlaciones. MEAN. Muestra las medias aritméticas. STDDEV. Muestra las desviaciones típicas. VARIANCE. Muestra las varianzas. CORR. Muestra la matriz de correlaciones.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
127
SIG. Muestra el nivel de significación de los coeficientes de correlación. N. Muestra el número de casos utilizados en el cálculo de cada coeficiente de correlación. XPROD. Productos cruzados de desviaciones de la media. BADCORR. Matriz de correlaciones (en el caso de que alguno de los coeficientes no pueda ser utilizado). COV. Matriz de covarianzas. ALL. Proporciona todos los estadísticos disponibles. Inicie una sesión con SPSS y siga las siguientes instrucciones:
En el ejemplo anterior, mediante el subcomando SELECT EQ 2, indicamos que el estudio debe realizarse sólo en mujeres, El modelo pretende estudiar la dependencia de la TAS respecto de las variables TAD y CB y el subcomando DESCRIPTIVES solicita las medias, matriz de correlaciones, nivel de significación de las correlaciones y los productos cruzados. Los resultados obtenidos son los siguientes:
128
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
129
En la salida de resultados anteriores, obsérvese que los estadísticos solicitados mediante el subcomando DESCRIPTIVES se listan en primer lugar. Análisis de residuos con SPSS. Variables temporales SPSS permite un completo abanico de posibilidades en el análisis de residuos, a fin de detectar posibles violaciones de las asunciones de la regresión. Hay cuatro subcomandos (RESIDUALS, CASEWISE, PARTIALPLOT y SCATTERPLOT), que pueden utilizarse en el análisis de residuos. Cualquiera de estos subcomandos puede utilizarse. En caso de emplear algún subcomando para análisis de residuos, éste debe ir inmediatamente después del subcomando METHOD. Los subcomandos implicados en el análisis de residuos realizan siempre un análisis de las variables temporales (PRED, ZPRED, RESID y ZRESID). Todas las variables se estandarizan antes de listarse. Si se requiere una variable no estandarizada, también se lista su forma estandarizada. Además de las variables implicadas en el modelo, SPSS permite la utilización de las siguientes variables temporales: PRED. Valores esperados o predichos no estandarizados. Lo simbolizaremos por % el iésimo valor esperado es Ŷi (Ver subapartado Análisis de residuos). ZPRED. Valores esperados estandarizados. SEPRED. Error estándar de los valores esperados. RESID. Residuos no estandarizados. Diferencia entre valores observados y estimados (Ver subapartado Análisis de residuos). ZRESID. Residuos estandarizados (Ver subapartado Análisis de residuos).
130
ESTADÍSTICA MULTIV ARLANTE Y NO PARAMÉTRICA CON SPSS
SRESID. Residuos estudentizados (Ver subapartado Análisis de residuos). MAHAL. Distancia de Mahalanobis. Esta distancia es útil para detectar, ciertos valores atípicos. La distancia de Mahalanobis para una sola variable independiente, viene dada por la siguiente expresión:
En la expresión anterior, Sx es el error estándar de la variable X. En caso de que haya más de una variable independiente, la ecuación anterior se sustituirá por la correspondiente ecuación matricial. ADJPRED. El valor estimado ajustado es la diferencia entre el iésimo valor estimado y el iésimo valor estimado excluyendo del modelo el iésimo caso. El iésimo valor estimado, excluido el iésimo punto, lo simbolizaremos por Ŷi(i); la i entre paréntesis indica que en los cálculos, se ha excluido el iésimo caso (punto). Este parámetro es muy útil a fin de evaluar la influencia de un punto, puesto que comparamos el valor estimado calculado con la intervención de todos los puntos y excluyendo un punto, lo que determinará el peso específico de dicho punto. DRESID. El residuo calculado, utilizando el valor estimado ajustado Ŷi(i), es el borrado residual DRESID simbolizado por E(i),
El borrado residual es la diferencia entre el valor observado y el valor estimado ajustado. El borrado residual es muy útil en el estudio de la influencia de un punto en el modelo global.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
131
SDRESID. Borrado residual estudentizado. Es el borrado residual dividido por su error estándar. COOK. Distancia de Cook. Esta distancia es muy útil a fin de determinar la influencia de ciertos puntos sobre el modelo global. La distancia de Cook, viene dada por la siguiente expresión:
En la expresión anterior K es el número de variables independientes del modelo y S el error estándar de la estimación, Ŷi es el iésimo valor estimado y Ŷi(i) es el iésimo valor estimado ajustado. LEVER. La regresión produce un cómputo medio de la influencia de todos los datos. El rango de influencia puede ir de — (l/n) a (n — 1)/n, donde n es el número de observaciones. El valor medio de las influencias es K/n, donde K es el número de variables independientes del modelo. Un punto con una influencia de — (l/n) indica una influencia mínima, mientras que un valor de (n — l)/n indica que un solo grado de libertad tiene una gran influencia en el conjunto de datos. Es aconsejable estudiar los puntos con una influencia mayor de 2K/n, el doble del valor medio. DFBETA. Indica el cambio en el coeficiente de regresión, como consecuencia de haber eliminado de los cálculos el iésimo punto. Se computa un DFBETA valor para cada caso. SDBETA. DFBETA estandarizado. Se genera un SDBETA para cada caso y para cada coeficiente de regresión del modelo. DFFIT. Indica el cambio en el valor estimado, como consecuencia de haber eliminado el iésimo caso. Es la diferencia entre el iésimo valor estimado y el iésimo valor estimado ajustado.
132
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
SDFIT. Indica el valor estandarizado de SDFIT. COVRATIO. Indica la razón entre el determinante de la matriz de covarianzas con el iésimo caso excluido y el determinante de la matriz de covarianzas con todos los casos, MCIN. Nivel inferior y superior de un intervalo de confianza del 95% para la estimación media. El nivel de confianza del intervalo puede modificarse mediante la opción CIN del subcomando CRITERIA. ICIN. Niveles superior e inferior de un intervalo de confianza del 95% para las estimaciones singulares. El nivel de confianza puede modificarse mediante la opción CIN del subcomando CRITERIA. El subcomando RESIDUALS El subcomando RESIDUALS es uno de los 4 subcomandos que pueden utilizarse con SPSS en el análisis de residuos. Permite obtener algunos gráficos y estadísticos para el análisis de residuos. Con este subcomando pueden utilizarse las variables temporales descritas en el apartado anterior. En la descripción de las posibilidades de este subcomando L.V.T significa LISTA DE VARIABLES TEMPORALES. Este subcomando dispone de las siguientes opciones: DEFAULTS. Si utilizamos el subcomando RESIDUALS, sin ninguna especificación, SPSS lista los siguientes elementos: HISTOGRAM(ZRESID). NORPROB(ZRESID). OUTLIERS(ZRESID). DURBIN. SIZE(SMALL). HISTOGRAM (L.V.T). Esta opción proporciona un histograma de las variables estandarizadas citadas en la lista. Si no citamos ninguna, los cálculos se realizan para la variable ZRESID. Otras variables temporales que pueden utilizarse son: PRED ZPRED, ADJPRED, RESID, SRESID, DRESID y SDRESID.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
133
NORMPROB (L.V.T). Gráfico de probabilidad normal, de valores estandarizados, para las variables temporales incluidas en la lista. Si no citamos ninguna variable, el gráfico se realiza por defecto para la variable ZRESID. Otras variables temporales que pueden listarse son: PRED, RESID, ZPRED y DRESID. SIZE (OPCION). Como opción puede especificarse SMALL o LARGE. La opción por defecto es LARGE si la salida tiene un ancho de 120 y un largo de 55. OUTLIERS (L.V.T). Esta opción lista los 10 valores más extremos para las variables temporales incluidas en la lista. Las variables temporales que pueden utilizarse en esta opción son: RESID, DRESID, SRESID, SDRESID, MAHAL y COOK. En caso de no especificar ninguna, se listan los 10 valores más extremos para la variable ZRESID. DURBIN. Prueba estadística de Durbin-Watson. Esta prueba sirve para detectar autocorrelación. La autocorrelación es una perturbación, que consiste en que los valores de la variable dependiente están relacionados con el valor anterior de la variable dependiente (Yn está relacionado con Yn - l). Este fenómeno es frecuente observarlo en series temporales. Valores grandes del estadístico de Durbin implican autocorrelación negativa y valores pequeños autocorrelación positiva. El estadístico de Durbin-Watson viene dado por la siguiente expresión:
Los valores de Durbin-Watson están tabulados. ID (VARNAME). Los casos se etiquetan, con los valores de la variable nombrada tras ID. Afecta al subcomando CASEWISE, en caso de ser utilizado. POOLED. En caso de haber empleado el subcomando SELECT, si utilizamos esta opción, los informes y gráficos indicados por las
134
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
opciones del subcomando RESIDUALS, se realizaran con todos los casos del fichero activo. Cuando no se utilice esta opción, los cálculos se realizarán con los casos seleccionados y no seleccionados por separado. Inicie una sesión con SPSS y siga las siguientes instrucciones:
En las instrucciones anteriores, se procede a realizar un estudio de regresión con las variables CB, TB, TAD y PESO del ejemplo CORONAR pero sólo con los hombres, debido al subcomando SELECT, que selecciona sólo aquellos en los que el valor del SEXO es 1, lo que en nuestro caso corresponde a los hombres. La variable dependiente es CB; por lo tanto queremos estudiar la dependencia del colesterol basal CB en función de las otras variables. El modelo debe construirse según el método STEPWISE y se ha solicitado un estudio de residuos para las variables ZRESID (residuos estandarizados) y PRED (predicciones, valores estimados). El estudio de residuos incluye histogramas de las variables temporales citadas y diagramas de probabilidad normal de dichas variables. Los resultados obtenidos son los siguientes:
REGRESIÓN SIMPLE Y MÚLTIPLE EL PROCEDIMIENTO REGRESSION
135
136
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
137
138
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
6 3 4
.64 1.17 1.92
2.00 :XXXX 1.67 :XX 1.33 X:XX
3
2.82
1.00 XX:
3 2
3.72 4.38
.67 XXX. .33 XX
1 1 4
4.63 4.38 3.72
.00 X -.33 X -.67 XXX:
1
2.82
-1.00 X
1 2
1.92 1.17
X. -1.67 :X
0 2
.64 .31
-2.00 -2.33 XX
0 0
.14 .05
—2.67 -3.00
0
.03
Out
Normal Probability (P-P) Plot - Selected Cases Predicted Value
139
140
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Normal Probability (P-P) Plot - Unselected Cases Predicted Value
Normal Probability (P-P) Plot - Selected Cases Standardized Residual
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
141
Normal Probability (P-P) Plot - Unselected Cases Standardized Residual
Los resultados anteriores, además de los estadísticos y tablas habituales en todo estudio de regresión, ya comentados en diversas ocasiones, se nos muestran en dos histogramas para cada variable solicitada: uno para los casos seleccionados mediante SELECT y otro para los casos no seleccionados. Estos histogramas nos permiten visualizar si existen desviaciones respecto a la distribución normal y descubrir los valores atípicos. Los histogramas se listan debido a la opción HISTOGRAM. También se muestran dos diagramas por variable: uno para los casos seleccionados con SELECT y otro para los casos no seleccionados. En estos diagramas, si las variables se comportan normalmente, los casos observados formarán una línea recta en la diagonal principal. En nuestro caso, los valores estimados, PRED y los residuos estandarizados ZRESID se asemejan a valores normales mucho más en los casos seleccionados que en los no seleccionados. Si hubiéramos utilizado la opción POOLED, en los análisis de
142
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
residuos se habría ignorado la selección realizada por SELECT y se habrían realizado los cálculos con todos los casos. Una vez visualizados los histogramas y gráficos de normalidad, en caso de duda se realizará un estudio de normalidad mediante la prueba de KOLMOGOROV o SHAPIRO (Ver PROCEDIMIENTO EXAMINE DE SPSS). En general, en datos de distribución normal se consideran datos atípicos aquellos cuya distancia a la media es mayor que 1.96 desviaciones típicas, pero debe tenerse en cuenta el número de datos. Si disponemos de 100 datos, esperamos que aproximadamente 5 datos (el 5%) se distancien de la media más que 1.96 desviaciones típicas; si nuestro fichero dispone de 1.000 datos, esperamos tener 50 datos atípicos. Por tanto, en cada caso hay que tener en cuenta el número de datos total, antes de considerar que tenemos un número excesivo de valores atípicos. Si algún dato se aleja excesivamente de la media, habrá que estudiarlo de forma individualizada. El subcomando CASEWISE Este subcomando muestra un gráfico de una de las variables temporales, acompañado de un listado de los valores de la variable dependiente y las variables temporales. El gráfico puede realizarse para todos los casos o limitarse a los valores atípicos. Si especificamos el subcomando CASEWISE sin opciones, se listarán los elementos citados en DEFAULTS. DEFAULTS. En caso de no utilizar ninguna opción, se muestran los valores atípicos cuyo valor absoluto estandarizado es mayor que 3 OUTLIERS(3), un gráfico para la variable ZRESID, los valores de la variable dependiente DEPENDENT, los valores estimados PRED y los residuos RESID. OUTLIERS(n). Limita el gráfico a los valores atípicos, que se distancian de la media más de n veces la desviación típica, n puede ser un número decimal por defecto se considera n = 3. ALL. Incluye todos los casos en el gráfico. Produce un gráfico con todos los casos, incluyendo valores atípicos OUTLIERS. La opción OUTLIERS se ignora cuando ALL se incluye en la instrucción.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
143
PLOT(V.T). Esta opción muestra un gráfico de la variable estandarizada (V.T), citada junto a la opción PLOT. La variable por defecto es ZRESID y pueden utilizarse también las siguientes: RESID, DRESID, SRESID y SDRESID. VARLIST. Una lista de valores para cada caso de la variable dependiente y cualquier variable temporal incluida LEVER que se cite en la lista. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
Las instrucciones anteriores indican que se construya un modelo de regresión con las variables CB TAS TAD y PESO. Siendo la variable dependiente CB, el método de construcción del modelo debe ser FORWARD. El subcomando CASEWISE indica que se muestre un gráfico para los casos con valores que se alejen de la media más de una desviación típica, para las variables, ZRESID, RESID, DEPENDENT y PRED. Los resultados obtenidos son los siguientes:
144
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
145
146
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
En los resultados anteriores, además de los resultados habituales de regresión, se muestra un gráfico en el cual se pueden visualizar los residuos estandarizados, que se alejan de la media más de una desviación típica, y los valores de la variable dependiente, valores estimados, residuos y valores estimados estandarizados, para cada caso en el que los residuos estandarizados se alejan de la media más de una desviación típica.
El subcomando SCATTERPLOT Este subcomando permite realizar diagramas de dispersión de variables implicadas en el modelo o de alguna de las variables temporales. Las variables deben citarse por parejas, puesto que para construir el modelo son necesarias dos variables. Las opciones son las siguientes. (VARNAME.VARNAME). Después de SCATTERPLOT, debemos citar una pareja de variables. Las variables que pueden intervenir son cualquiera de las variables citadas junto al subcomando VARIABLES, así como las siguientes variables temporales: PRED, RESID, ZPRED, ZRESID, DRESID, ADJPRED, SRESID, SDRESID, las variables temporales, deben ir precedidas de un asterisco. SIZE(PLOTSIZE). El valor puede ser SMALL o LARGE. Por defecto, es SMALL. La primera variable nombrada dentro del paréntesis se muestra en el eje Y y la segunda en el eje X.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
147
En el próximo subapartado incluiremos un ejemplo de SCATTERPLOT. El subcomando PARTIALPLOT Este subcomando permite la construcción de un diagrama de dispersión parcial de los residuos de la variable dependiente y una variable independiente, incluida en la ecuación de regresión. En caso de no citar ninguna variable, por defecto se construye un diagrama para cada variable incluida en la ecuación. Las opciones que pueden utilizarse son las siguientes: VARLIST. Se construye un diagrama para cada variable incluida en la lista. ALL. Se construye un diagrama para cada variable incluida en la ecuación. Esta opción es la misma que por defecto. SIZE (PLOTSIZE). Puede especificarse como SMALL o LARGE. Por defecto la opción es SMALL. Inicie una sesión con SPSS y siga las siguientes instrucciones:
Las instrucciones anteriores indican a SPSS que construya un modelo de regresión, mediante el método STEPWISE, en el que la variable dependiente sea TAS. Se pide un diagrama de dispersión (SCATTERPLOT) entre las variables PRED y RESID. Obsérvese cómo dichas variables van precedidas de un * y recuérdese que, cuando se citan diagramas de dispersión, las variables temporales deben ir precedidas de un asterisco. Por ultimo, también se solicita un dia-
148
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
grama parcial de dispersión entre la variable dependiente TAS y TAD; recuérdese que estos diagramas se construyen para las variables incluidas en la ecuación. Los resultados obtenidos son los siguientes:
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
149
150
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
151
En los resultados anteriores, además de los habituales en regresión, podemos ver los dos diagramas el de dispersión y el de dispersión parcial, consecuencia de los subcomandos SCATTERPLOT y PARTIALPLOT, respectivamente.
El subcomando REGWGT Este subcomando permite especificar la variable en base a la cual se deben realizar las ponderaciones, en la estimación de la ecuación por mínimos cuadrados ponderados.
El subcomando SAVE Este subcomando permite incorporar al fichero activo todas o parte de las variables temporales. Una vez incluidas en el fichero activo, pueden ser definitivamente grabadas en forma de fichero de sistema mediante el comando SAVE. No confundir el comando SAVE, que permite grabar el fichero activo en forma de fichero de sistema, con el subcomando de REGRESSION SAVE, que permite incorporar al fichero activo variables temporales. El siguiente ejemplo incorporaría al fichero activo las variables temporales PRED y RESID.
El conjunto de instrucciones anterior determina la creación de un modelo de regresión, mediante el método STEPWISE. La variable dependiente es TAS. El subcomando SAVE indica que las variables temporales PRED y RESID deben incluirse como variables del fichero
152
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
activo, con los nombres de VEST y VRES, respectivamente. Obsérvese que mientras no grabemos el fichero activo en fichero de sistema, al acabar la sesión las modificaciones realizadas en el fichero activo no serán permanentes. Recomendamos al lector llevar a cabo el ejemplo indicado anteriormente. Una vez realizado, mediante el comando LIST podrá comprobar que las variables temporales se habrán incorporado al fichero activo. El subcomando READ Este subcomando permite leer matrices y realizar estudios de regresión a partir de matrices grabadas previamente, como resultado de alguno de los procedimientos parciales que lo permiten (correlación, ANOVA, etc), Este subcomando admite las siguientes especificaciones: DEFAULT. En caso de no indicar nada, especificando el subcomando READ sin ninguna opción se entiende que el fichero matricial contiene en primer lugar un vector de medias, seguido de un vector de desviaciones típicas, seguido de la matriz de correlaciones y del número de casos. CORR. Debe utilizarse esta opción cuando el fichero matricial contenga únicamente la matriz de correlación. COV. Esta opción debe utilizarse cuando el fichero matricial contenga únicamente la matriz de covarianzas. Esta opción es incompatible con la opción PAIRWISE del subcomando MISSING. MEAN. Debe utilizarse esta opción cuando la matriz de correlaciones o de covarianzas, vaya precedida de un vector de medias. STDDEV. Esta opción debe ser utilizada, cuando la matriz de correlaciones o de covarianzas, vaya precedida de un vector de desviaciones típicas. VARIANCE. Debe utilizarse esta opción cuando la matriz de correlaciones o de covarianzas, vaya precedida de un vector de varianzas. N. Esta opción debe utilizarse cuando la matriz de correlaciones o de covarianzas preceda a un único número de casos.
REGRESIÓN SIMPLE Y MÚLTIPLE. EL PROCEDIMIENTO REGRESSION
153
El subcomando WRITE Este subcomando permite grabar en forma matricial algunos resultados. En caso de no especificar otra cosa, los resultados se graban en el fichero SPSS.PRC. Por defecto (DEFAULT), en caso de especificar el comando de forma aislada, se graba en el fichero de resultado un vector de medias, seguido de un vector de desviaciones típicas, seguido de la matriz de correlaciones y del número de casos. Otras opciones son las siguientes: MEAN. Esta opción permite grabar en el fichero de resultados el vector de medias. STDDEV. Esta opción permite grabar en el fichero de resultados el vector de desviaciones típicas. CORR. Esta opción graba en el fichero de resultados la matriz de correlaciones. N. Esta opción graba en el fichero de resultados el número de casos utilizados en el cálculo de la matriz de correlaciones. VARIANCE. Esta opción graba en el fichero de resultados el vector de varianzas. COV. Esta opción graba en el fichero de resultados la matriz de covarianzas.
Capítulo 5 REGRESIÓN LOGÍSTICA
INTRODUCCIÓN La regresión logística es una técnica de análisis multivariante, en la que la variable dependiente o variable respuesta es una variable dicotómica y la variable o variables independientes pueden ser cualitativas o cuantitativas. Si en el modelo la variable independiente es cualitativa con H categorías, habrá que generar H — 1 variables DUMMY, a fin de que todas las posibilidades de la variable queden debidamente representadas en el modelo. Una variable dicotómica sólo puede tener dos valores, a los cuales habitualmente nos referimos nominalmente. Por ejemplo, ser o no hipertenso: en este caso, la variable original es cuantitativa, pero hemos decidido reducir esta variable a dicotómica, considerando hipertensos a los que tengan un valor de la tensión arterial sistólica o diastólica mayor que un valor determinado (por ejemplo tensión arterial sistólica mayor que 150 o tensión arterial diastólica mayor que 95) y normotensos a los demás pacientes. Este tipo de modelo en el que queremos estudiar si padecer una determinada enfermedad está influido por uno o más factores (variables independientes). Es uno de los más utilizados en ciencias de la salud, en cualquier caso, con modelos de regresión logística podemos investigar factores causales de una determinada característica de la población y también estudiar qué factores modifican la probabilidad de un suceso determinado.
156
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
TIPOS DE REGRESIÓN LOGÍSTICA Vamos a clasificar la regresión logística en dos tipos, fundamentalmente. Regresión logística simple, si en el modelo hay una sola variable independiente, y regresión logística múltiple, si en el modelo hay varias variables independientes.
Modelo matemático En la regresión logística, la variable dependiente es dicotómica y sus valores habitualmente nominales (enfermo no enfermo, sí-no, hombre-mujer, etc). Para poder construir un modelo matemático, necesitamos valores numéricos, los cuales podemos obtener si consideramos la probabilidad de que se dé un determinado valor de la variable dependiente. Por ejemplo, podemos plantear un modelo matemático que nos permita calcular la probabilidad de que un individuo que presente unas determinadas características padezca una determinada enfermedad. En el primer miembro de la ecuación, consideraremos la probabilidad de que ocurra un suceso determinado P(Y); en el segundo miembro, expresaremos la dependencia de dicha probabilidad en función de una o más variables independientes según un modelo logístico. Simbolizaremos por P(Y), abreviadamente P, la probabilidad de que ocurra un determinado suceso y 1 — P(Y), abreviadamente 1 — P, a l a probabilidad de que no ocurra. El modelo de nuestro interés pretende conocer los factores que aumentan o disminuyen la probabilidad de que ocurra un suceso determinado. En ciencias de la salud, uno de los puntos de máximo interés es conocer los factores que influyen en el desarrollo de una determinada enfermedad, por ejemplo, hipertenso. Por lo tanto, (P) sería en este caso la probabilidad de ser hipertenso (téngase en cuenta que podríamos haber planteado el modelo para conocer los factores que aumentan o disminuyen la probabilidad de no ser hipertenso, en cuyo caso (P) sería la probabilidad de no ser hipertenso). En el primer miembro de la ecuación nos interesa tener a P, y
REGRESIÓN LOGÍSTICA
157
en el segundo miembro una relación funcional en la que intervengan las variables independientes, que son los factores de interés en la cuestión. La probabilidad es un número que puede oscilar entre 0 y 1; por lo tanto la relación funcional del segundo miembro, para que el modelo sea congruente, sólo podrá tomar valores entre 0 y 1, Entre los muchos modelos que cumplen las condiciones anteriores, está el modelo logístico, cuya expresión es la siguiente:
La expresión anterior representa un modelo de regresión logística simple, donde X es la variable independiente y P la probabilidad de que la variable dependiente tome un determinado valor, e representa a la base de los logaritmos neperianos, que es una de las constantes más utilizadas. Su valor es e = 2.71828... (los puntos indican que sigue la secuencia de decimales hasta el infinito). En un modelo de regresión logística, la variable dependiente es la probabilidad de que ocurra un determinado suceso, P(Y) abreviadamente P. B0 y B1 son los coeficientes del modelo; B0, es el término independiente, y puede ser igual a cero; B1 es el coeficiente de regresión logística y debe ser significativamente distinto de cero. En un modelo de regresión logística simple, si el coeficiente B1 no es significativo, ello indica que no tenemos evidencia de que la variable independiente esté relacionada con la variable dependiente según el modelo logístico, y por lo tanto el modelo no tendría sentido. Si el coeficiente de regresión logística es significativo, ello indica que existe relación según el modelo logístico entre la variable dependiente y la variable independiente. ESTIMACIÓN Y SIGNIFICADO DE LOS COEFICIENTES Los estimadores de los coeficientes se calculan mediante el método de la función de máxima verosimilitud. Ésta es una compleja
158
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
técnica de cálculo diferencial, en la que se emplean métodos de cálculo iterativos, hasta que la diferencia con el valor de la función es menor que un valor predeterminado, habitualmente 0.01. El número de iteraciones es fijo, y también ajustable por el experimentador, si la función no converge en el número de iteraciones predeterminado, diremos que no tiene solución. Afortunadamente disponemos de ordenadores que nos resuelven este problema. El signo de los coeficientes tiene un significado importante. Si los coeficientes de las variables son positivos, eso significa que la variable aumenta la probabilidad del suceso que estamos estudiando. Si éste fuera una enfermedad, el factor cuyo coeficiente es positivo aumentaría la probabilidad de padecer la enfermedad y, por lo tanto, dicho factor sería un factor de riesgo. Si el coeficiente es negativo, el factor cuyo coeficiente es negativo disminuye la probabilidad del suceso que estamos estudiando; en caso de que dicho suceso fuera una enfermedad, estaríamos ante un factor de protección. HIPÓTESIS EN REGRESIÓN LOGÍSTICA SIMPLE En regresión logística simple, la hipótesis conceptual que queremos contrastar es si la variable independiente influye significativamente en la probabilidad del suceso en estudio. Las hipótesis conceptuales serían las siguientes: H0. La variable independiente no influye significativamente sobre la variable dependiente P. H1. La variable independiente influye significativamente sobre la variable dependiente P. Las hipótesis anteriores están planteadas conceptualmente, Para poder resolver el contraste, necesitamos plantear las hipótesis operativamente. Esto significa que debemos encontrar parámetros estadísticos que puedan ser evaluados para que, según los valores obtenidos, podamos rechazar o no la hipótesis nula. El modelo de regresión logística simple es válido si b1 es significativamente distinto de cero. b1 es el coeficiente de regresión
REGRESIÓN LOGÍSTICA
159
logística muestral y es un estimador de B1 que es el coeficiente de regresión logística poblacional. El que b1 sea significativamente distinto de cero indica que es muy poco probable que B1 sea cero. Las hipótesis operativas son las siguientes:
En este texto vamos a describir cinco procedimientos distintos que nos van a permitir contrastar, de forma operativa, las hipótesis anteriores. Estos procedimientos son los siguientes: Evaluación estadística del coeficiente de regresión logística, b1. Evaluación estadística del coeficiente de regresión logística al cuadrado, dividido por el error estándar de dicho coeficiente al cuadrado. A este estadístico los anglosajones lo denominan WALD. Evaluación estadística de la razón de verosimilitud L0. Evaluación estadística del cambio del estadístico —2LL0. El estadístico anterior es menos dos veces el logaritmo neperiano (L) de la razón de verosimilitud (L0). Evaluación del estadístico Z2.
Evaluación estadística de b1 El coeficiente de regresión logística b1 debe ser estadísticamente distinto de cero para que exista influencia significativa de la variable dependiente. Basándonos en esto podemos plantear las hipótesis operativas de la siguiente manera:
B1 es el coeficiente de regresión logística poblacional, mientras que b1 es el coeficiente de regresión logística muestral. Aunque el
160
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
coeficiente poblacional sea 0, el coeficiente muestral puede oscilar aleatoriamente alrededor de cero. Para poder rechazar la hipótesis nula, b1 debe ser lo suficientemente distinto de cero como para que la probabilidad de obtener por azar un valor como el observado sea menor que el nivel de significación fijado en el contraste (a). Lo más frecuente es fijar el nivel de significación en 0.05. En este caso, b1 debe tener un valor tal que la probabilidad de obtenerlo por azar sea menor que 0.05. El coeficiente de regresión logística muestral b1 se distribuye normalmente en el muestreo con media B1 y por lo tanto:
En la expresión anterior, el signo de igualdad indica una igualdad estadística y no algebraica. El significado es que el segundo miembro de la ecuación (5-2) se distribuye en el muestreo según una t de Student con γ grados de libertad. Los grados de libertad son iguales al número de elementos de la muestra menos ámenos uno, siendo K el número de variables independientes. Como K = 1 en el caso de la regresión logística simple, los grados de libertad son n — 2:
En (5-2) E.E b1 es el error estándar del coeficiente de regresión logística muestral. En nuestro caso, el contraste se realiza sobre un valor de B1 igual a cero; por lo tanto, la expresión 2 queda:
REGRESIÓN LOGÍSTICA
161
La t experimental la calcularemos según (5-3) y, si la probabilidad de obtener una t como la observada es menor que el nivel de significación fijado, rechazaremos la hipótesis nula, pero no podremos rechazarla en caso contrario. Rechazar la hipótesis nula operativa es equivalente a rechazar la hipótesis nula conceptual. Si b1 es significativamente distinta de cero, la variable independiente influye significativamente en la probabilidad de la característica de la variable dependiente. Si el signo de b1 es positivo, la probabilidad de dicha característica aumentará según aumente el valor de la variable independiente, y disminuirá en caso de que el signo sea negativo. Evaluación estadística de «WALD» Otro estadístico muy utilizado para evaluar la significación estadística del modelo de regresión logística simple es el cociente que resulta de dividir el cuadrado de b1 por el cuadrado del error estándar de b1. A este estadístico los anglosajones lo denominan «WALD», y viene dado por la siguiente expresión:
Las hipótesis operativas que contrastar en este caso son las mismas que en el caso anterior:
Las anteriores hipótesis las resolveremos, en este caso, evaluando el estadístico WALD. Este estadístico se distribuye según una χ2 con un grado de libertad. Si la variable independiente es numérica,
162
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
en caso de que la variable independiente sea cualitativa, los grados de libertad son iguales al número de categorías menos uno; si la variable independiente es la clase social, con tres categorías alta, media y baja, los grados de libertad de WALD son 2. Si el valor experimental de WALD aplicando (5-4) es tal que la probabilidad de obtenerlo por azar, bajo los supuestos de la hipótesis nula, es menor que el nivel de significación fijado en el contraste, rechazaremos la hipótesis nula y concluiremos que la variable independiente influye en la probabilidad de las características de la variable dependiente.
Evaluación del incremento del estadístico —2LL0 El estadístico —2 LL0 es muy importante en regresión logística. L indica logaritmo neperiano y L0 verosimilitud; el valor de la verosimilitud puede oscilar entre 0 y 1, por lo tanto —2 LL0 es el logaritmo neperiano de la verosimilitud. Las hipótesis que contrastar son las mismas que en los casos anteriores. La evaluación comienza conociendo el valor de este estadístico, que se distribuye como una CHI CUADRADO. Para el modelo que contiene sólo la constante los grados de libertad son iguales al número de casos menos 1; a continuación, calculamos el valor cuando hemos incluido en el modelo la variable independiente, los grados de libertad son iguales al número de casos menos el número de variables independientes, menos 1. En el caso de la regresión logística simple, como sólo hay una variable independiente, los grados de libertad son el número de casos menos 2. Calculamos la diferencia entre los dos valores del estadístico, la diferencia es un estadístico que se distribuye como una CHI CUADRADO con grados de libertad igual a la diferencia de grados de libertad entre las dos situaciones, que es igual al número de variables independientes del modelo, uno en el caso simple, el valor de la diferencia es un estadístico que se distribuye como una CHI CUADRADO con un grado de libertad. Supongamos que tenemos un modelo de regresión logística simple, construido a partir de 45 casos n = 45. El valor de —2LL0 para el modelo que incluye solamente la constante es 84. Este estadístico se distribuye como una CHI CUADRADO con 44 grados de libertad
REGRESIÓN LOGÍSTICA
163
n — 1; al incluir la variable independiente, el valor de —2LL0 es 75 y los grados de libertad 43, que corresponden a n = 45 menos el número de variables, 1 en este caso y 1, n — 2 = 43, la diferencia entre los dos valores del estadístico D = 84 — 75 = 9. La diferencia, a su vez, es un estadístico, que se distribuye como una CHI CUADRADO con grados de libertad igual a la diferencia de los grados de libertad de —2LL0 en las dos situaciones 44 — 43 = 1. Obsérvese que los grados de libertad del estadístico diferencia son igual al número de variables que tiene el modelo 1 en este caso; consultando las tablas de la CHI CUADRADO, para una significación de 0.05 y un grado de libertad, el punto crítico es 3.84. Como 9 es mucho mayor, rechazaremos la hipótesis nula y concluiremos que el factor influye en la probabilidad del suceso que estemos estudiando. Evaluación de —2LL0 La verosimilitud L0 es un número menor que 1. En un modelo perfecto, sería igual a 1. Como el logaritmo de 1 es cero, el valor de —2LL0 es cero en un modelo perfecto. Una forma posible de evaluar un modelo es considerar a priori que es perfecto, o lo que es lo mismo, que el valor de la verosimilitud L0 no difiere significativamente de 1. Las hipótesis que contrastar son las siguientes:
—2LL0 es un parámetro estadístico, que nos va a permitir evaluar el modelo de regresión logística simple. Este parámetro se calcula mediante técnicas de cálculo diferencial y se distribuye en el muestreo según una χ2 con n — K— 1 grados de libertad (en el caso de la regresión logística simple, este estadístico tiene n — 2 grados de libertad, en regresión logística múltiple, la razón de verosimilitud tiene n — k — 1 grados de libertad). En este caso, no poder rechazar la hipótesis nula es equivalente
164
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
a decir que el modelo es significativo y, por tanto, que el coeficiente de regresión logística es significativamente distinto de cero. Rechazar la hipótesis nula equivale a decir que el coeficiente de regresión logística no es significativamente distinto de cero y, por tanto, el modelo no es significativo. ANALICE DETENIDAMENTE EL PRESENTE CONTRASTE DE HIPÓTESIS Y COMPÁRELO CON LOS ANTERIORES. OBSERVE QUE RECHAZAR LA HIPÓTESIS NULA EN ESTE CASO SIGNIFICA LO CONTRARIO QUE EN LOS CASOS ANTERIORES.
Evaluación del estadístico Z2 Las hipótesis que contrastar son las mismas que en el caso anterior. El estadístico Z2 denominado por SPSS (GOODNESS OF FIT) en regresión logística simple se distribuye como una CHI CUADRADO con n — 2 grados de libertad; n es el número de casos y K el número de variables independientes, en el modelo simple K= 1. Este estadístico viene dado por la siguiente expresión.
En la expresión anterior Ei es el iésimo residuo, esto, es la diferencia entre la probabilidad observada y la probabilidad estimada en el iésimo caso. Pi es la probabilidad estimada para el iésimo caso. En este caso, no poder rechazar la hipótesis nula es equivalente a decir que el modelo es significativo y, por tanto, que el coeficiente de regresión logística es significativamente distinto de cero. Rechazar la hipótesis nula equivale a decir que el coeficiente de regresión logística no es significativamente distinto de cero y por tanto el modelo no es significativo.
REGRESIÓN LOGÍSTICA
165
EL MODELO MÚLTIPLE El modelo de regresión logística múltiple relaciona la probabilidad de que ocurra un determinado suceso en función de varias variables. La expresión matemática del modelo logístico múltiple es la siguiente:
Las variables independientes en el modelo múltiple pueden ser cualitativas o cuantitativas. Al igual que en el modelo simple, hay que convertir las variables cualitativas en variables DUMMY. Si una variable cualitativa tiene K categorías, habrá que generar K — 1 variables DUMMY, a fin de que todas las posibilidades queden debidamente representadas. En un modelo múltiple, el efecto de cada variable sobre P puede ser distinto cuantitativa y cualitativamente. Si el coeficiente de regresión logística de una variable es positivo, dicha variable aumentará la probabilidad del suceso que estemos evaluando; por el contrario, si el coeficiente es negativo, la variable actuará disminuyendo la probabilidad del suceso en cuestión. HIPÓTESIS EN EL MODELO MÚLTIPLE En el modelo múltiple, las hipótesis operativas son las siguientes:
En el modelo múltiple, los autores usan diversos estadísticos para contrastar las hipótesis anteriores.
166
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Evaluación del incremento del estadístico —2LL0 Las hipótesis que contrastar son las anteriores. La evaluación comienza conociendo el valor de este estadístico, que se distribuye como una CHI CUADRADO, para el modelo que contiene sólo la constante. En este caso, los grados de libertad son iguales al número de casos n menos 1. A continuación calculamos el valor y, cuando hemos incluido en el modelo todas las variables independientes, los grados de libertad son iguales al número de casos n menos el número de variables independientes ámenos 1, n — K— 1. Calculamos la diferencia entre los dos valores del estadístico: la diferencia es un estadístico que se distribuye como una CHI CUADRADO con grados de libertad igual a la diferencia de grados de libertad entre las dos situaciones, que es igual al número de variables independientes del modelo K. Supongamos que tenemos un modelo de regresión logística múltiple con 5 variables independientes, construido a partir de 75 casos n = 75. El valor de —2LL0 para el modelo que incluye solamente la constante es 88. Este estadístico se distribuye como una CHI CUADRADO con 74 grados de libertad n — 1. Al incluir las 5 variables independientes, el valor de —2LL0 es 58 y los grados de libertad 69, que corresponden a n = 75 menos el número de variables, 5 en este caso, menos 1, 69 y n — K— 1 = 69. La diferencia entre los dos valores del estadístico, D = 88 — 58 = 30, es, a su vez, un estadístico, que se distribuye como una CHI CUADRADO con grados de libertad igual a la diferencia de los grados de libertad de —2LL0 en las dos situaciones 74 — 69 — 5. Obsérvese que los grados de libertad del estadístico diferencia es igual al número de variables que tiene el modelo, 5 en este caso. Consultando las tablas de la CHI CUADRADO, para una significación de 0.05 y cinco grados de libertad, el punto crítico es 11.1. Como 30 es mucho mayor, rechazaremos la hipótesis nula y concluiremos que al menos uno de los coeficientes es significativamente distinto de 0, y la correspondiente variable influye en la probabilidad del suceso que estemos estudiando. Una vez rechazada la hipótesis nula en el caso anterior, evaluaremos mediante el estadístico WALD o mediante la prueba de la t de Student, todos los coeficientes de regresión logística y construí-
REGRESIÓN LOGÍSTICA
167
remos un modelo, mediante alguna de las técnicas habituales en análisis multivariante, en el que todos los coeficientes sean estadísticamente significativos. No rechazar la hipótesis nula, significa que no tenemos evidencia de que algún coeficiente sea significativamente distinto de cero. Si no hay ningún coeficiente significativamente distinto de cero, no hay modelo logístico. SPSS dispone de métodos que permiten la construcción automática de modelos multivariantes, atendiendo a los criterios que especifiquemos. Evaluación de —2LL 0 La verosimilitud L0 es un número menor que 1; en un modelo perfecto, sería igual a 1 y, como el logaritmo de 1 es cero, el valor de —2LL0 es cero en un modelo perfecto. Una forma posible de evaluar un modelo es considerar a priori que es perfecto, o lo que es lo mismo, que el valor de la verosimilitud Lo no difiere significativamente de 1. Las hipótesis que contrastar son las siguientes:
—2LL0 es un parámetro estadístico que nos va a permitir evaluar el modelo de regresión logística múltiple. Este parámetro se calcula mediante técnicas de calculo diferencial y se distribuye en el muestreo según una χ2 con n — K — 1 grados de libertad. K es el número de variables independientes que tiene el modelo En este caso, no poder rechazar la hipótesis nula es equivalente a decir que el modelo es significativo y, por tanto, que el coeficiente de regresión logística es significativamente distinto de cero. Rechazar la hipótesis nula equivale a decir que el coeficiente de regresión logística no es significativamente distinto de cero y, por tanto, el modelo no es significativo.
168
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANALICE DETENIDAMENTE EL PRESENTE CONTRASTE DE HIPÓTESIS Y COMPÁRELO CON LOS ANTERIORES. OBSERVE QUE RECHAZAR LA HIPÓTESIS NULA EN ESTE CASO SIGNIFICA QUE NO TENEMOS EVIDENCIA DE QUE LAS VARIABLES INDEPENDIENTES INFLUYAN SIGNIFICATIVAMENTE EN LA PROBABILIDAD DE LA VARIABLE DEPENDIENTE.
En caso de no poder rechazar la hipótesis nula, habrá que comprobar mediante WALD, o la t de Student, la significatividad de los coeficientes de regresión logística, a fin de determinar cuál o cuáles deben entrar en el modelo. Recuérdese que en el modelo final todos los coeficientes deben ser significativos.
Evaluación del estadístico Z2 Las hipótesis que contrastar son las mismas que en el caso anterior. El estadístico Z2, denominado por SPSS (GOODNESS OF FIT), se distribuye como una CHI CUADRADO con n — K— 1 grados de libertad, siendo n el número de casos y K el número de variables independientes. Este estadístico viene dado por la siguiente expresión:
En la expresión anterior, Ei es el iésimo residuo, esto es, la diferencia entre la probabilidad observada y la probabilidad estimada en el iésimo caso. Pi es la probabilidad estimada para el iésimo caso. En este caso, no poder rechazar la hipótesis nula es equivalente a decir que el modelo es significativo y, por tanto, que el coeficiente de regresión logística es significativamente distinto de cero. Rechazar la hipótesis nula equivale a decir que el coeficiente de regresión logística no es significativamente distinto de cero y, por tanto, el modelo no es significativo. En caso de no poder rechazar la hipótesis nula, habrá que com-
REGRESIÓN LOGÍSTICA
169
probar mediante WALD, o la t de Student, la significatividad de los coeficientes de regresión logística, a fin de determinar cuál o cuáles deben entrar en el modelo. Recuérdese que en el modelo final todos los coeficientes deben ser significativos.
INTERACCIÓN En los modelos múltiples, es preciso comprobar la existencia de interacción, la cual es un fenómeno que implica un efecto no lineal entre dos o más de las variables incluidas en el modelo. El modelo logístico múltiple viene expresado por:
En la expresión anterior, Zes una función lineal. En cada sumando hay una sola variable. Supongamos un modelo LINEAL con dos variables independientes.
El modelo anterior es un modelo lineal sin interacción. Veamos a continuación un modelo con dos variables independientes con interacción:
Obsérvese que, en el modelo anterior, hay un término no lineal en el que las dos variables independientes están relacionadas de
170
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
forma distinta a la simple suma; en este caso, se dice que existe interacción. Veamos a continuación un modelo con tres variables independientes sin interacción:
El modelo siguiente es un modelo con una interacción binaria y otra terciaria:
En el modelo anterior, hay dos términos no lineales: uno binario, en el que están implicados la variable 1 y 3, y otro término en el que están implicadas las tres variables. En el modelo anterior hay interacción triple o doble. Si sustituimos alguna de las funciones anteriores (Z), en las que hay interacción, por la (Z) de la ecuación (8), tendremos un modelo de regresión logística con interacción. COEFICIENTE DE CORRELACIÓN PARCIAL La contribución particular de cada variable es difícil de calcular, puesto que su influencia depende del resto de las variables. Un estadístico que puede utilizarse, para conocer aproximadamente la contribución parcial de cada variable es R, el cual viene dado por la siguiente expresión:
REGRESIÓN LOGÍSTICA
171
En la expresión anterior, —2LL0 es un estadístico calculado en cada ocasión con la variable que está siendo evaluada. En valor absoluto R puede oscilar entre 0 y 1. Si el valor es próximo a 0, ello indica que la contribución al modelo es pequeña. VARIABLES DUMMY En el modelo pueden incluirse variables cualitativas, siempre y cuando dichas variables estén codificadas de forma numérica. Por cada variable hay que generar tantas variables DUMMY como categorías tenga la variable menos una. Si una variable tiene tres categorías, para que todas sus características queden perfectamente determinadas, serán necesarias 3 — 1= 2 variables DUMMY. Las variables dicotómicas sólo precisan una variable por cada una. Si tenemos una variable, clase social (CLSO), con tres categorías, tendremos que generar dos variables DUMMY, X1 y X2, para codificar correctamente sus categorías. Los individuos con clase social alta les codificaremos dando el valor 1 a las dos variables; a los de clase media les codificaremos con un 1 X1 y con un 0 X2, a los individuos de clase baja les codificaremos con un 0 en la variable X1 y con un 1 la variable X2.
MAGNITUD DEL EFECTO. RIESGO RELATIVO Y ODDS RATIO En el capítulo anterior, hemos visto los procedimientos necesarios para analizar si un determinado modelo de regresión logística simple es significativo, pero la significación estadística es solamente el
172
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
primer paso de un análisis estadístico. Si hay significación estadística, en un segundo paso hay que estudiar la fuerza de la asociación estadística. Para estudiar la fuerza de la asociación estadística existen muchos parámetros que pueden ser utilizados, pero en ciencias de la salud los que más se emplean son el riesgo relativo (RR) y el ODDS RATIO, también llamado razón de predominio (OR). Los dos pueden calcularse mediante derivaciones del modelo de regresión logística, aunque el más utilizado en regresión logística es el OR por su facilidad de cálculo. No siempre es correcto utilizar indistintamente RR y OR; esto depende de los diseños experimentales. En los estudios prospectivos, en los que la muestra se ha extraído aleatoriamente de la población, pueden utilizarse los dos. En los estudios de casos y controles, y en otros caso en los que la muestra no es un reflejo estadísticamente representativo de la población, sólo es correcto el uso del OR. Recuérdese que, desde el punto de vista estadístico, es posible el cálculo tanto de RR como de OR, pero el que esto sea o no correcto depende del diseño experimental.
Riesgo relativo (RR) En ciencias de la salud se considera factor de riesgo a una característica que aumenta la probabilidad de padecer una determinada enfermedad. Factor de protección es una característica que disminuye la probabilidad de padecer una determinada enfermedad. El concepto de factor de riesgo podemos generalizarlo a otros casos en los que la variable dependiente no sea una variable cuyas categorías sean padecer o no una determinada enfermedad. Los factores que aumenten la probabilidad de que ocurra un determinado suceso, sean éstos de la naturaleza que sean, podemos denominarlos factores favorecedores y, a los que disminuyan la probabilidad, factores entorpecedores. Las medidas de riesgo más utilizadas en ciencias de la salud son el riesgo relativo (RR), el predominio (ODDS) y la razón de predominio (OR). Sus significados son distintos.
REGRESIÓN LOGÍSTICA
173
El RR es la razón entre la probabilidad de padecer la enfermedad en presencia del factor y la probabilidad de padecer la enfermedad en ausencia del factor. La expresión matemática del RR es la siguiente:
_En la expresión anterior, E significa enfermedad, F factor presente y F factor ausente. El RR nos indica cuántas veces es más probable contraer la enfermedad en presencia del factor que en ausencia del factor. Si no existe ninguna relación entre la enfermedad y el factor, el valor de RR es 1, un número significativamente mayor que 1; indica que el factor que estamos evaluando es un factor de riesgo y un número menor que 1 indica que el factor es de protección. No es correcto el cálculo del RR en todos los tipos de diseño; debe utilizarse cuando tengamos una muestra estadísticamente representativa de una población y la seguridad de que el factor que queremos evaluar es anterior a la enfermedad en estudio. Estas condiciones se cumplen en estudios de cohortes y en algunos estudios transversales; sin embargo, no se cumplen en estudios de casos y controles.
Razón de predominio (OR) El predominio (PR), es una relación entre dos probabilidades. Hay un predominio en presencia del factor (PRF) y un predominio en ausencia del factor (PRN). El predominio en presencia del factor (PRF) es la razón entre la probabilidad de padecer la enfermedad en presencia del factor y la probabilidad de no padecer la enfermedad en presencia del factor. PRF viene dado por la siguiente expresión:
174
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la expresión anterior, (E) indica padecer la enfermedad, (F) presencia del factor y E ausencia de la enfermedad. Conceptualmente, (PRF) indica cuántas veces es más probable padecer la enfermedad que no padecerla cuando se está expuesto al factor. El (PRN) es la razón entre la probabilidad de padecer la enfermedad en ausencia del factor y la probabilidad de no padecer la enfermedad en presencia del factor, {PRN) viene dado por la siguiente expresión:
En la expresión anterior E, indica enfermedad, £"no enfermedad, F presencia del factor y F ausencia del factor. Conceptualmente, (PRN) indica cuántas veces es más probable padecer la enfermedad en ausencia del factor que no padecerla en ausencia del factor. La razón entre los dos predominios, más conocida por ODDS RATIO (OR), es una medida de riesgo muy utilizada. Matemáticamente, el (OR) viene dado por la siguiente expresión:
REGRESIÓN LOGÍSTICA
175
En la expresión anterior, los elementos que la conforman tienen el mismo significado que los descritos anteriormente en el caso de los predominios (PRE) y (PRN). Si no existe relación entre el factor y la enfermedad, el valor del OR es estadísticamente igual a 1; si el factor es de riesgo, el OR es mayor que 1 y, si el factor es de protección, el OR es significativamente menor que 1. En estudios de casos y controles, el OR, es la medida de riesgo más utilizada. Obsérvese que el significado conceptual del RR y del OR es distinto. En regresión logística la medida de asociación más empleada es el OR, debido a que el número e (base de los logaritmos neperianos), elevado al coeficiente de regresión logística del factor, es el OR que supone el aumento unitario del factor; si el OR es significativamente mayor que 1, ello indica que el factor es de riesgo o favorecedor. ANÁLISIS DEL RIESGO EN REGRESIÓN LOGÍSTICA En regresión logística, la medida de asociación más utilizada es el OR por su sencillez de cálculo. Si tenemos un modelo de regresión logística significativo, en el que una de las variables independientes es dicotómica, con valores 0 o 1, el número e elevado al coeficiente de regresión logística es el OR, correspondiente al riesgo o protección que implica un aumento unitario de la variable independiente:
Supongamos que queremos evaluar si fumar es un factor de riesgo y cuantificarlo en el caso de la bronquitis crónica. En este caso, no fumar lo codificamos con 0 y fumar con 1; de esta manera, el incremento unitario en la variable indica la diferencia entre fumar y no fumar. El OR particularizado para esta variable se calculará según (5-14).
176
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En el caso de una variable cuantitativa, cuando queramos estudiar si la probabilidad de padecer una cardiopatia aumenta al aumentar el nivel de colesterol (NC), e elevado a bx es el número de veces que aumenta la probabilidad de padecer una cardiopatia por cada mg de aumento del colesterol. Evidentemente, esta probabilidad debe de ser pequeña. En el caso de variables cuantitativas, suele estudiarse el OR correspondiente al aumento de un determinado número de unidades. Siguiendo con el ejemplo del colesterol, podemos estudiar el OR que supone el aumento de 100 mg de colesterol o, dicho de otra manera, cuántas veces es más probable que padezca una cardiopatia una persona que tiene un nivel de colesterol 100 mg mayor que otra, en este caso:
El subíndice 100 del OR indica que es el OR correspondiente al aumento de la variable independiente en 100 unidades. En regresión logística, el RR puede obtenerse, calculando primero la probabilidad de padecer la enfermedad en presencia del factor P(Y)F y la probabilidad de padecer la enfermedad en ausencia del factor P(Y)NF. A continuación se calcula la razón entre ambas. Esto es relativamente sencillo y consiste en dar el valor 1 a la variable en presencia del factor y el valor 0 en ausencia del factor, calculando las probabilidades en ambos casos. REGRESIÓN LOGÍSTICA CON SPSS El modulo de estadística avanzada de SPSS incluye el procedimiento LOGISTIC REGRESSION, que permite realizar modelos de regresión logística. Al procedimiento LOGISTIC REGRESSION pueden asociársele varios subcomandos, que iremos analizando en los próximos subapartados.
REGRESIÓN LOGÍSTICA
177
El subcomando VARIABLES El subcomando VARIABLES permite definir las variables que van a intervenir en el modelo, el cálculo para la variable dependiente se realiza sobre la variable nominada antes de la palabra clave WITH. Puede realizarse un estudio de interacción con las variables que se citen en un renglón aparte después de VARIABLES y estén relacionadas mediante la palabra clave BY. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La primera de las instrucciones anteriores carga para su análisis el FICHERO VASCULAR.SYS. Este es un fichero que contiene una serie de factores en relación con la enfermedad coronaria EC y la hipertensión arterial HTA. Recomendamos al lector que examine las variables y características de este fichero mediante el comando DISPLAY ALL. La segunda instrucción, mediante el comando LOGISTIC REGRESSION y el subcomando VARIABLES, indica a SPSS que realice un estudio sobre la influencia que puede tener fumar sobre padecer o no una enfermedad coronaria EC. Recuérdese que la variable antes de WITH es la variable que se toma de base para el cálculo de la variable dependiente y la o las variables después de WITH son las variables independientes, en regresión logística la variable dependiente es la probabilidad de que ocurra un suceso, en este caso la probabilidad de padecer enfermedad coronaria. Los resultados obtenidos son los siguientes:
178
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Los resultados anteriores nos indican el número de iteraciones, 4 en este caso, como ya indicamos anteriormente (Ver apartado Estimación y significado de los coeficientes); en segundo lugar se
REGRESIÓN LOGÍSTICA
179
nos muestran varios estadísticos para validar el modelo (Ver apartados El modelo múltiple e hipótesis en el modelo múltiple). Los estadísticos que se muestran son: —2LL0 (menos dos veces el logaritmo de la verosimilitud). Model chi square (evaluación de la razón de verosimilitud). Improvement, evaluación de la razón de verosimilitud en cada paso de la construcción del modelo. En este caso, la construcción del modelo sólo requiere un paso; por eso el valor de improvement es igual al del «model chi square». GOODNESS OF FIT. evaluación del estadístico Z2. En este caso, observamos que todos los estadísticos expresan que el modelo es significativo, recordamos al lector que el estadístico —2LL0 y GOODNESS OF FIT contrastan, como hipótesis nula, que el modelo es perfecto y, como hipótesis alternativa, que el modelo no es significativo. Por lo tanto, diremos que el modelo no es significativo cuando la significación sea menor que 0.05: como en este caso es mayor que 0.05, aceptamos que el modelo no difiere de forma significativa de un modelo perfecto, o lo que es lo mismo, el modelo logístico es significativo. Por el contrario, MODEL CHI SQUARE y GOODNESS OF FIT contrastan, como hipótesis nula, que el modelo no es significativo y, como hipótesis alternativa, que el modelo es significativo; por lo tanto, diremos que el modelo es significativo cuando la significación sea menor que 0.05. No rechazar la hipótesis nula en los contrastes con —2LL0 y GOODNESS OF FIT es lo mismo que rechazarla con los estadísticos MODEL CHI SQUARE e IMPROVEMENT. Observe que los 4 estadísticos evalúan lo mismo, pero con métodos distintos. Si tiene alguna duda, repase los apartados Hipótesis en regresión logística simple y múltiple de este capítulo, donde se describen estos estadísticos. A continuación de los estadísticos de contraste, se nos muestra una tabla 2 X2. En dicha tabla se muestran los casos observados de enfermedad coronaria frente a los casos estimados de enfermedad coronaria. Se considera un caso observado de enfermedad cuando la variable EC tiene el valor 1, que es el equivalente a EC = si, y valor estimado de enfermedad «SI» cuando la probabilidad, calculada mediante el modelo, es mayor o igual que 0.5. Si la probabilidad
180
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
es menor que 0.5, el valor estimado de enfermedad se considera como «NO». En la tabla se enfrentan los valores estimados y observados de enfermedad, calculando el porcentaje de coincidencias. En el presente ejemplo hay un 72.31% de coincidencias. Por último en una tabla se nos muestran los parámetros del modelo, b0 = —22336, bi = 1.9972, los errores estándar de ambos coeficientes, el estadístico WALD y la significación de los coeficientes, En el modelo simple, si el coeficiente de la única variable independiente, es significativo; los estadísticos de contraste son significativos. En el modelo múltiple, veremos que los estadísticos del modelo pueden ser significativos y algún coeficiente puede no serlo; por último, se muestran los valores correspondientes al coeficiente de correlación parcial y el valor de e19972 que es el OR, riesgo entre fumadores respecto no fumadores (recuérdese que las medidas de riesgo son entre dos situaciones concretas). En este caso, el valor del OR es 7.3683, lo cual indica que fumar ofrece un riesgo 7.36... veces mayor que no fumar respecto a la enfermedad coronaria. El modelo logístico calculado para evaluar la relación entre la enfermedad coronaria EC y la variable independiente FUMA, es el siguiente:
En el modelo anterior, la variable X tomará el valor 0, en el caso de los no fumadores, y el valor 1, en el caso de los fumadores. A continuación, veamos un ejemplo de regresión logística múltiple, con un estudio de interacción. Inicie una sesión de trabajo con SPSS y teclee las siguientes instrucciones:
REGRESIÓN LOGÍSTICA
181
Las instrucciones anteriores indican que se proceda a la construcción de un modelo de regresión logística en el que la variable dependiente sea la probabilidad de padecer enfermedad coronaria y las variables independientes BEBE y CB (colesterol basal). Se solicita un estudio de posible interacción con las variables CB y BEBE. Obsérvese que, con el subcomando VARIABLES, se listan las variables que intervienen en el modelo y aparte aquellas cuya posible interacción se quiere estudiar. Los estudios de interacción pueden realizarse con todas o parte de las variables que intervienen en el modelo. Los resultados obtenidos son los siguientes:
182
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La construcción del modelo ha precisado 13 iteraciones. El valor del estadístico —2LL0, con sólo la constante, es 76.703087. Los estadísticos de contraste son significativos. Recuérdese que, en un modelo múltiple, el que los estadísticos de contraste sean significativos implica que al menos uno de los coeficientes de regresión logística es significativo (salvo en casos de colinealidad); por tanto esto no es más que un primer paso. El siguiente es ver cuál o cuáles de los coeficientes son significativos. Aquí es significativa la variable CB, cuyo OR es 1.08; esto quiere decir que el riesgo, entre una persona que tenga 1 mg de colesterol más que otra, es de 1.08. Es lógico que el OR sea pequeño, puesto que el riesgo por un mg de diferencia es pequeño. Podemos calcular el OR para 50 o 100 mg de diferencia, el cual, evidentemente, será mucho mayor. En la tabla de predicciones hay un 98.46 de predicciones correctas. La construcción del modelo no debe terminar aquí, puesto que ha de procederse a la construcción de uno nuevo que, incluya sólo la variable o variables cuyos sus coeficientes sean significativos. En
REGRESIÓN LOGÍSTICA
183
el modelo final, los coeficientes de todas las variables incluidas deben ser significativos. En un próximo subapartado, evaluaremos el subcomando METHOD, mediante el cual podremos construir modelos finales en base a las especificaciones indicadas. El subcomando CATEGORICAL Este subcomando permite evaluar variables cualitativas con más de dos categorías. Para que todos los valores de una variable cualitativa queden debidamente representados, es necesario generar tantas variables como el número de categorías menos 1. A estas variables se las conoce con el nombre de variables 'DUMMY' ficticias. Este subcomando genera automáticamente el número de variables 'DUMMY' necesarias y el valor que debe tomar cada una de ellas para codificar cada categoría. Inicie una sesión con SPSS y siga las siguientes instrucciones:
Las instrucciones anteriores indican que debe precederse a la construcción de un modelo de regresión logística, cuya variable dependiente sea la probabilidad de padecer enfermedad coronaria y las variables independientes CB y CLSO; esta última es una variable cualitativa con tres valores, y por esto pedimos a SPSS, mediante el subcomando CATEGORICAL, que construya las correspondientes variables 'DUMMY'. Como CLSO tiene tres categorías, serán necesarias 2 variables 'DUMMY'. Los resultados obtenidos son los siguientes:
184
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN LOGÍSTICA
185
SPSS genera dos variables, CLSO1 y CLSO2, a fin de codificar los valores de la clase social; para el valor clase ALTA, la variable CLSO1 toma el valor 1 y la variable CLSO2 el valor 0. Para el valor clase MEDIA, la variable CLSO1 toma el valor 0 y CLSO2 el valor 1, y para el valor clase BAJA, CLSO1 toma el valor —1 y CLSO2 el valor —1. En la tabla de predicciones hay un 93% de predicciones correctas. Los estadísticos de contraste del modelo son significativos, lo que implica que al menos un coeficiente es significativo. En la tabla de parámetros del modelo, podemos observar que el único coeficiente significativo es el correspondiente a TAS. Además de la constante, recordamos que para un modelo final deberíamos ahora plantear un modelo simple sólo con la variable TAS. El subcomando CONTRAST Al utilizar el subcomando CATEGORICAL, relacionado con una variable con n categorías, SPSS genera n — 1 variables, (variables DUMMY). Este subcomando muestra una tabla, en la que se reflejan los valores asignados a las variables DUMMY, para cada categoría de la variable original. El cálculo de los valores puede hacerse de distintas maneras, según los distintos contrastes de los parámetros. El tipo de contraste no afecta a la variable, tomada de forma global, pero sí a los coeficientes y a su nivel de significación, considerados individualmente. En las opciones siguientes, las variables categóricas se refieren a las nominadas junto al subcomando CATEGORICAL. O procedimiento LOGISTIC REGRESSION usa por defecto el contraste DEVIATION. En caso de preferir otro tipo de contraste, utilizar
186
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
el subcomando COÑTRAST, con alguna de las siguientes especificaciones: DEVIATION (categoría). El efecto para categoría de la variable independiente, excepto una, es comparado con el efecto global. La variable referencia, puede ser especificada después de DEVIATION, en lugar de (categoría), indicando el número secuencial de categoría. En caso de no especificar ninguna, será considerada como variable referencia la última. INDICADOR (categoría). La última variable se codificará con ceros en todos los valores de las variables de nueva generación. El resto de las categorías tendrán un valor 1 en una de las nuevas variables y cero en las restantes. La variable codificada con ceros puede ser distinta de la última, e indicará, en lugar de (categoría), el número secuencial de la categoría que queremos que sirva de referencia. SIMPLE (categoría). Cada categoría de la variable se compara con la última categoría, excepto la última. Puede utilizarse otra categoría de referencia, especificando el número secuencial en lugar de (categoría). DIFFERENCE. El efecto de cada categoría, excepto la primera, se comparará con el efecto medio de las categorías precedentes. HELMERT. El efecto de cada categoría, excepto la última, se compara con el efecto medio de las categorías siguientes. POLINOMIAL (METRIC). Si una variable tiene K categorías, el primer grado de libertad contiene el efecto lineal, el segundo el efecto cuadrático y así hasta el késimo. Puede modificarse la métrica sustituyendo en lugar de (metric), una secuencia de números enteros que indiquen la relación entre las categorías por ejemplo, en la variable CLSO (clase social) del ejemplo VASCULAR, poner en lugar de (metric) (1, 2, 4) indica que la primera categoría, ALTA, debe considerarse como 1, MEDIA como 2 y BAJA como 4. La métrica habitual es suponer que todas las categorías están igualmente espaciadas según la métrica (1, 2, ... K). REPEATED. Cada categoría, excepto la primera, se compara con el efecto de la categoría anterior. SPECIAL (MATRIX). Contraste definido por el usuario. Si la variable tiene £" categorías, la matriz debe tener K— 1 filas y K columnas.
REGRESIÓN LOGÍSTICA
187
El subcomando METHOD El subcomando METHOD indica el método que utilizar en la construcción del modelo. Por defecto, en caso de no utilizar este subcomando, es lo mismo que utilizarlo con la opción ENTER, la cual incluye en el modelo todas las variables nominadas con el subcomando VARIABLES, sean o no sean significativas. Obsérvese cómo, en los ejemplos anteriores, no hemos utilizado el subcomando METHOD, y todas las variables nominadas junto a VARIABLES, se incluyen en la lista de parámetros. Este subcomando admite las siguientes especificaciones: ENTER. Esta opción se ha citado anteriormente. Incluye en el modelo final a todas las variables, independientemente de que sean o no significativas. Utilizar el subcomando METHOD con esta opción tiene el mismo efecto que no utilizar el subcomando METHOD. FSTEP. Esta especificación construye en varios pasos la ecuación de regresión logística. Las variables independientes se incluyen en la ecuación una a una y solamente permanecen aquellas que, al entrar, su correspondiente coeficiente tenga una significación menor que la indicada por PIN (probabilidad de entrada, cuyo valor por defecto es 0.05, valor que puede ser modificado por el usuario). La primera variable que se incluye en la ecuación es la que tiene la menor probabilidad del estadístico WALD, es decir, la más significativa. De manera sucesiva, van siendo incluidas las variables en la ecuación, sobre la base de la significación del estadístico WALD. Si el usuario desea utilizar el criterio de la razón de verosimilitud, puede hacerlo añadiendo LR a la opción FSTEP. El criterio de salida viene especificado por POUT; si una variable una vez introducida en la ecuación, tiene un coeficiente cuya significación es mayor que el nivel asignado a POUT, dicha variable se excluye de la ecuación. Por defecto, el valor de POUT es 0.1. El subcomando CRITERIA permite modificar los criterios de inclusión y de exclusión. BSTEP. Este método incluye todas las variables en el modelo y elimina a continuación las variables cuyo nivel de significación sea menor que el indicado por POUT. En caso de preferir el criterio de la razón de verosimilitud, incluir LR tras la opción BSTEP. El
188
ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS
siguiente subcomando, CRITERIA, permite modificar los criterios de inclusión y de exclusión de variables. El subcomando CRITERIA Este subcomando permite modificar los criterios de inclusión y de exclusión de variables. También permite decidir el número máximo de iteraciones en la construcción de la ecuación. Las opciones de este subcomando son las siguientes: BCON (VALUE). El proceso de iteración terminará cuando la diferencia entre dos estimaciones consecutivas sea menor que el valor indicado en lugar de (VALUÉ) o del indicado en LCON. Por defecto, el valor es 0.001. ITERATE (VALUE). En lugar de (VALUÉ), puede indicarse el número máximo que iteraciones a realizar en la construcción del modelo. En caso de no indicar nada, el número máximo de iteraciones a realizar es de 20. LCON (VALUE). En el lugar de (VALUÉ), puede indicarse el porcentaje de cambio en el logaritmo de la razón de verosimilitud, tomado como criterio para detener el proceso de iteración. Los criterios de finalización de las iteraciones son 3 BCON, ITÉRATE y LCON. El valor por defecto es 0.00001. PIN (VALUE). Nivel de significación (VALUÉ) de entrada en el modelo. Una variable se incluirá en el modelo si el nivel de significación es menor que (VALUÉ) mediante la opción FSTEP de METHOD. El valor por defecto es 0.05. POUT (VALUE). Indica el nivel de significación de WALD o de la razón de verosimilitud, que sirva como criterio para eliminar una variable de un modelo. Una vez que se ha incluido en el mismo. Por defecto es 0.1. Esto indica que, si después de haber incluido una variable en un modelo, su nivel de significación se modifica y supera 0.1, dicha variable se eliminará del modelo. EPS (VALUE). Valor de épsilon para chequeo de redundancias, Este valor debe estar comprendido entre 0.05 y 10-12. Si, en un paso del proceso de selección de las variables, el valor de la medida de redundancia es menor que (VALUÉ) para todas las variables
REGRESIÓN LOGÍSTICA
189
seleccionadas, en el siguiente paso no se eliminará ninguna. El valor por defecto es 0.00000001. El subcomando SELECT Ésta es una interesante opción que permite seleccionar un grupo de casos del fichero. Supongamos que queremos estudiar la dependencia de la enfermedad coronaria EC, en función de la tensión arterial sistólica TAS, en función del colesterol CB y de la tensión arterial diastolica TAD, pero dicho modelo queremos realizarlo en HOMBRES. El subcomando SELECT nos permite seleccionar los sujetos que van a intervenir en el modelo, que serán los que cumplan la proposición indicada por SELECT. Los operadores relaciónales que pueden utilizarse son:
La sintaxis de select es: SELECT VARIABLE OPERADOR VALOR Inicie una sesión con SPSS y siga las siguientes instrucciones:
190
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La segunda de las instrucciones anteriores indica a SPSS que construya un modelo logístico EN HOMBRES SELECT EQ 1, siendo EC la variable dependiente y FUMA, BEBE y TAS las variables independientes. Analizando la interacción entre las variables BEBE y FUMA, el método de construcción debe SER FSTEP. Los resultados obtenidos son los siguientes:
REGRESIÓN LOGÍSTICA
191
192
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN LOGÍSTICA
193
El modelo anterior se ha construido sólo para los casos seleccionados SEXO EO 1, hombres. El método de construcción se ha realizado según el método FSTEP, paso a paso, incluyendo en la ecuación únicamente las variables que cumplen los criterios de inclusión (ver subcomando METHOD). Al final, la única variable con efecto significativo es TAS. El subcomando ORIGIN El modelo logístico contiene un término constante b0. La inclusión del subcomando ORIGIN determina que el valor de la constante sea 0. ORIGIN no tiene especificaciones. El subcomando PRINT Este subcomando permite aumentar o reducir los listados de resultados. Las especificaciones disponibles son las siguientes: DEFAULT. En caso de no utilizar el subcomando PRINT, se muestran tablas de resultados e información, sobre las variables incluidas y excluidas de la ecuación en cada paso de la construcción del modelo. SUMMARY. Esta opción permite reducir la salida de resultados, y muestra tablas y estadísticos para las variables incluidas y excluidas de la ecuación, pero sólo para el modelo final.
194
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
CORR. Esta opción permite incluir la matriz de correlación para los parámetros incorporados al modelo. ITER(n). Esta opción permite incorporar a los resultados información sobre las estimaciones y sobre los estadísticos en cada iteración. Si en lugar de (n) indicamos un número, las estimaciones se mostrarán cada n iteraciones. ALL. Esta opción permite incluir todas las salidas de resultados disponibles. El subcomando MISSING Este subcomando permite controlar la utilización de casos con valores ausentes. Las especificaciones disponibles son las siguientes: EXCLUDE. Excluye casos con valores ausentes de sistema o de usuario en cualquiera de las variables implicadas en el análisis. Ésta es la opción por defecto. INCLUDE. Esta opción incluye en el análisis casos con valores ausentes de usuario. Los casos con valores ausentes de sistema se excluyen del análisis. El subcomando EXTERNAL Este subcomando permite que, durante el período de cálculo, los resultados se graben en un fichero temporal, para almacenar reservas de memoria. El tiempo de procesamiento se alargará, pero aun así es recomendable cuando se trabaje con ficheros voluminosos o se requieran cálculos complejos. El subcomando EXTERNAL carece de subcomandos adicionales. El subcomando CLASSPLOT Este subcomando genera un gráfico en el que pueden observarse los casos con probabilidad observada y estimada 0 o 1. Los casos en los que la probabilidad estimada sea mayor que 0.5 se conside-
REGRESIÓN LOGÍSTICA
195
rarán como sucesos estimados (1); los casos con probabilidad menor que 0.5 se considerarán como sucesos no observados (o); los casos con probabilidad observada mayor que 0.5 se considerarán (1) y los casos con probabilidad menor que 0.5 se considerarán (0). De esta manera, en la gráfica podrán compararse las diferencias entre sucesos observados y estimados. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las instrucciones anteriores indica a SPSS que proceda a la construcción de un modelo de regresión logística, en el que la variable dependiente sea HTA y las variables independientes sean FUMA y CB. Se debe construir un gráfico para comparar sucesos observados y estimados (CLASSPLOT), y en las salidas de resultados debe incluirse la matriz de correlaciones. Los resultados obtenidos son los siguientes:
196
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
REGRESIÓN LOGÍSTICA
197
En los resultados anteriores, se han incluido todas las variables en el modelo final, al no haberse indicado ningún método de construcción con criterios de significación predeterminados (Ver Subcomando METHOD). En la gráfica podemos observar las diferencias entre sucesos estimados y observados. Análisis de residuos. El subcomando CASEWISE En regresión logística, llamamos residuo a la diferencia entre la probabilidad observada (PO) y la probabilidad estimada (PE), también llamada probabilidad predicha. Variables temporales
SPSS genera variables temporales, que nos van a ser muy útiles para analizar residuos y así estudiar si el modelo se ajusta bien a nuestros datos. Las variables temporales que genera SPSS son las siguientes:
198
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
PRED. Probabilidad estimada (PE). Esta variable contiene el valor de la probabilidad estimada, según el modelo de regresión logística construido. PGROUP. Probabilidad estimada de grupo. RESID. Diferencia entre probabilidad observada y probabilidad estimada. DEV. Valores del estadístico lejanía, llamado DEVIANCE por SPSS. LRESID. Logit residual. Es el residuo para el modelo, si la predicción se hace sobre la escala residual. SRESID. Residuos estudentizados. Residuo estudentizado para un caso es el cambio en el estadístico LEJANÍA, si el caso se excluye. ZRESID. Residuos estandarizados. El iésimo residuo estandarizado es igual al iésimo residuo, dividido por el error estándar residual. Los residuos estandarizados vienen dados por la siguiente expresión:
En la expresión anterior, Ri es el iésimo residuo y (PEi) es la iésima probabilidad estimada. LEVER. Valor de las influencias. Este estadístico permite evaluar aproximadamente la influencia de cada punto en la construcción del modelo. El valor de este estadístico puede oscilar entre 0 y 1. Su valor medio es K/n, siendo K el número de parámetros del modelo, incluidos la constante y n, el tamaño de la muestra. COOK. Valor del estadístico distancia de Cook. Este estadístico sirve para estudiar la influencia de un caso en el modelo. La distancia de Cook para el iésimo viene dada por la siguiente expresión:
REGRESIÓN LOGÍSTICA
199
En la expresión anterior, Zi2 es el iésimo residuo estandarizado elevado al cuadrado y hi es el valor del estadístico LEVER para el iésimo caso. DFBETA. Un estadístico muy útil en el análisis de casos específicos es el cambio observado en los coeficientes de regresión logística, cuando eliminamos un caso. Un valor para DFBETA, se produce para cada coeficiente del modelo, incluida la constante. El valor de DFBETA, para el primer coeficiente, cuando el iésimo caso se ha excluido es:
En la expresión anterior, B1 es el valor del primer coeficiente, con todos los casos incluidos, B1(i) es el valor del primer coeficiente cuando el iésimo caso se ha sido excluido. El subcomando CASEWISE Este subcomando permite obtener resultados de las variables temporales referidas en el subapartado anterior. El subcomando CASEWISE genera, para cada caso, el valor de las variables temporales listadas detrás de él. Este subcomando permite la especificación OUTLIER(VALOR), la cual limita los casos mostrados sólo a aquellos cuyos residuos estudentizados son mayores que el número indicado en el lugar de (VALOR). Inicie una sesión con SPSS y siga las siguientes instrucciones:
200
ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS
La segunda de las instrucciones anteriores indica a SPSS que proceda a la construcción de un modelo de regresión logística, tomando como variable dependiente HTA y como variables independientes ACF (antecedentes cardíacos familiares), SEXO y CB (colesterol basal). El método de construcción del modelo debe ser FSTEP, y el subcomando PRINT=SUMMARY indica que en lugar de mostrar los estadísticos en cada paso de la construcción del modelo, lo haga al final de la construcción. El subcomando CASEWISE indica que se muestren los valores correspondientes a las variables temporales PRED y RESID, pero sólo para los casos en los que su residuo estudentizado sea mayor que 1.5. En caso de no haber incluido la especificación OUTLIER(1.5), se habrían listado los valores de PRED y RESID para todos los casos. Los resultados obtenidos son los siguientes:
REGRESIÓN LOGÍSTICA
201
202
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
En el caso anterior, sólo la variable CB ha entrado en el modelo, pues las otras no son significativas. Se han listado los valores de las probabilidades estimadas de tres casos, 22, 33 y 61, que son los únicos cuyo residuos estudentizados son mayores que 1.5. El subcomando SAVE Este subcomando permite incluir en el fichero activo una o más variables temporales. El nombre con el que se incluirán será el que pongamos, entre paréntesis, detrás de la variable temporal. Para la variable DFBETA, se generará una variable para cada coeficiente existente.
La línea anterior, incluida en una instrucción del procedimiento LOGISTIC REGRESSION, incluirá en el fichero activo la probabilidad estimada y la probabilidad residual, con los nombres de ESTIMADA y RESIDUO respectivamente. El subcomando ID Este subcomando permite que los casos listados con el comando CASEWISE se identifiquen por una variable distinta del número de casos. La variable por la que se identificarán, será aquella que siga al subcomando ID. Si dicha variable tiene etiqueta, se mostrarán los 8 primeros caracteres de la misma.
Capítulo 6 ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
ANÁLISIS DE CLUSTER. CLASIFICACIÓN Los métodos de análisis de grupos clasifican grupos de casos o elementos, en base a criterios cualitativos o cuantitativos (distancias o similaridades). A veces, en lugar de los casos, se forman grupos con las variables. En la sección de ejemplos veremos uno de agrupamiento de variables. Entre los métodos estadísticos, que tratan de analizar la pertenencia de casos a diversos grupos, podemos distinguir fundamentalmente tres: ANÁLISIS DE CLUSTER, ANÁLISIS DE SEGMENTACIONES y ANÁLISIS DISCRIMINANTE. En el análisis de grupos (cluster), no tenemos grupos predefinidos; éstos se definen mediante el cálculo de distancias o similaridades, a partir de los valores de algunas variables que se consideran adecuadas para ello. Por ejemplo, podemos formar grupos de usuarios de servicios de salud, teniendo en cuenta la edad, la tensión arterial sistólica, nivel de colesterol, etc. En el análisis de grupos, todas las variables incluidas en el análisis, contribuyen a la formación de los mismos en igualdad de condiciones. El análisis de segmentaciones también pretende definir grupos a partir de varias variables. La diferencia con respecto al análisis de cluster es que, en el análisis de segmentaciones, una de las variables indica el criterio, y el resto definen los grupos. En ciencias de la salud, la aplicación de estos métodos es de suma utilidad en multitud de problemas. Por ejemplo, en la gestión hospitalaria es muy im-
204
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
portante la estancia de los pacientes, independientemente de su diagnóstico. De esta manera, podemos formar grupos de pacientes atendiendo a este criterio. En el análisis discriminante, los grupos son conocidos a príorí, y esta técnica explica la pertenencia de un elemento a uno u otro grupo, en base a los valores de un grupo de casos. Por ejemplo, en trasplante de órganos, podemos definir dos grupos: éxito y fracaso. El interés del análisis es explicar la pertenencia a uno u otro grupo, en base a un grupo de variables. En un segundo paso, el análisis discriminante pretende predecir si un individuo, en caso de ser trasplantado, pertenecerá a uno u otro grupo. PROXIMIDADES: DISTANCIAS Y SIMILARIDADES Se conoce con el nombre genérico de proximidades a un conjunto de medidas que nos indican si dos o más elementos son cercanos o lejanos según una o más variables. Las similaridades y las distancias se calculan según el valor de una o más variables. Dos casos pueden ser muy cercanos según algunas variables y lejanos según otras. Por ejemplo, dos individuos hipertensos, serán cercanos en cuanto a los valores de la tensión arterial y pueden ser muy lejanos en cuanto a su nivel económico. Similaridades Las similaridades miden la proximidad entre casos respecto a algún parámetro predeterminado. Tienen el máximo valor, si los elementos son cercanos, y disminuyen si son lejanos. Las principales medidas de similaridad utilizadas en estadística son: 1. Coseno de dos vectores. Si le Y son dos vectores de valores, cuyas componentes denotaremos por x¡ e yit respectivamente.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
205
COSx, y es mayor si los valores de las pendientes de los vectores son similares que si son distintos. 2. Coeficiente de correlación de Pearson. Este coeficiente es 1 para variables muy correlacionadas y 0 entre variables incorrelacionadas.
Distancias La distancia mide la proximidad entre casos o grupos de casos. Sus valores crecen en función de la distancia, alcanzan valores mínimos para casos cercanos y valores grandes para casos lejanos. Desde el punto de vista matemático, una distancia debe de verificar las siguientes condiciones:
Las distancias más utilizadas en estadística son las siguientes: 1. Distancia euclidea. Es una de las más utilizadas. Sus valores se calculan según la siguiente expresión:
En la expresión anterior, x¡ e yx representan las coordenadas de los vectores x e y. 2. Distancia euclidea al cuadrado. Es el cuadrado de la distancia euclidea. Sus valores se calculan según la siguiente expresión:
206
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
3. Distancia métrica de Chebychev. Su valor es la máxima diferencia, en valor absoluto, entre las componentes de los vectores de valores. Sus valores se calculan según la siguiente expresión:
4. Distancia de Manhattan. Esta distancia es la suma de todas las diferencias, en valor absoluto, entre las componentes de los vectores de valores. Esta distancia viene dada por la siguiente expresión:
5. Distancia en un poder métrico absoluto. Esta distancia viene dada por la siguiente expresión:
6. Distancia CHI-CUADRADO. Esta distancia es muy utilizada cuando los datos disponibles son frecuencias, lo que permite calcular distancias entre variables cualitativas. Es la distancia básica del análisis de correspondencias. Sus valores se calculan según la siguiente expresión:
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y OUICK CLUSTER
207
En la expresión anterior, A y B son dos variables cualitativas. Ai representa las frecuencias observadas de la iésima categoría de la variable A y E (Ai) representa el valor esperado de las frecuencias de la iésima categoría de la variable A. Lo mismo es aplicable para B. MÉTODOS DE ANÁLISIS DE CLUSTER Hay dos grandes grupos de análisis de grupo, los JERÁRQUICOS y los NO JERÁRQUICOS. Los métodos jerárquicos forman los grupos en pasos sucesivos y pueden analizar en cada paso las distancias entre los grupos formados. Los métodos no jerárquicos realizan una sola partición de los casos iniciales, en M grupos. Este número M de grupos se determina a priori. Los métodos no jerárquicos los analizaremos en el apartado Métodos no jerárquicos, referente a QUICK CLUSTER. Métodos jerárquicos Dentro de los métodos jerárquicos, podemos distinguir entre métodos AGLOMERATIVOS y MÉTODOS DISOCIATIVOS. 1. LOS MÉTODOS AGLOMERATIVOS. Estos métodos comienzan el análisis con tantos grupos como casos y van formando grupos en pasos sucesivos. En el primer paso, se agrupan los dos casos más cercanos; en el paso siguiente, los casos agrupados en el primer paso se consideran como un grupo más; se vuelven a calcular las distancias o similaridades entre los grupos, agrupando los dos más próximos, y así sucesivamente, hasta conformar un solo grupo. Los criterios más utilizados en la formación de grupos son los siguientes: — MÉTODO DEL PROMEDIO ENTRE GRUPOS (UPGMA). Este método calcula el promedio de distancias entre todos los casos de los dos grupos. La distancia que utilizar es elegida por el usuario.
208
ESTADÍSTICA MULTIV ARLANTE Y NO PARAMÉTRICA CON SPSS
Las más utilizadas se han definido en el apartado Proximidades de este capítulo. Una vez definida la distancia que utilizar, se calcula la distancia de cada caso de un grupo con todos los casos del otro grupo y se calcula el promedio entre todas ellas, esta operación se realiza con todos los grupos, asociando en el paso siguiente a los dos grupos con un valor promedio menor. — MÉTODO DEL PROMEDIO DENTRO DE GRUPOS. En este caso, se agrupan de dos en dos los grupos previos, calculando a continuación (según la distancia predefinida) el promedio de las distancias de todos los miembros del grupo. Así se agrupan en ese paso, de forma definitiva, los dos grupos cuya unión tenga el promedio menor. — MÉTODO DE LAS DISTANCIAS MÍNIMAS. Este método, también conocido como el vecino más próximo, considera la distancia entre dos grupos la de los miembros más próximos. — MÉTODO DE LAS DISTANCIAS MÁXIMAS. Este método también es conocido como el vecino más lejano; considera la distancia entre dos grupos como la distancia entre los dos casos más lejanos. — MÉTODO CENTROIDE. Considera la distancia entre dos grupos como la distancia entre los centroides. — MÉTODO DE LA MEDIANA. Este método considera la distancia entre dos grupos la existente entre las medianas de los dos grupos, considerando todas las variables de forma conjunta. — MÉTODO DE WARD. Al unir dos grupos, la varianza aumenta. El método de Ward calcula cuál sería la varianza de dos grupos, en caso de unirlos, uniendo en el paso siguiente aquellos grupos cuya varianza sea mínima. En caso de tener en cuenta más de una variable en lugar de la varianza, se unen los grupos cuya inercia (suma de la diagonal principal de la matriz de varianzas y covarianzas) sea mínima. 2. MÉTODOS DISOCIATIVOS. Estos métodos comienzan el análisis con un solo grupo, formado por todos los casos. En pasos sucesivos, se van formando grupos hasta terminar en tantos grupos como casos. Los siete métodos descritos son los métodos aglomerativos. Pueden aplicarse a los métodos disociativos, teniendo en cuenta que, en estos últimos, en el paso siguiente se genera un grupo nuevo formado con los casos en los que las distancias son mayores.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
209
ANÁLISIS DE GRUPOS CON SPSS. EL PROCEDIMIENTO CLUSTER El procedimiento CLUSTER permite realizar análisis de grupos jerárquicos. Los grupos no jerárquicos los analizaremos en el capítulo siguiente, con el procedimiento QUICK CLUSTER. Las variables que deben intervenir en un análisis de grupos se citan en lista tras el procedimiento CLUSTER. Este procedimiento no tiene un subcomando VARIABLES. Los subcomandos que pueden utilizarse con CLUSTER son los siguientes: MEASURE. METHOD. PRINT. PLOT. ID. SAVE. WRITE. READ. MISSING.
El subcomando MEASURE Este subcomando permite elegir la medida de proximidad que debe ser utilizada. En el apartado PROXIMIDADES de este capítulo, se describen las medidas de proximidad. Las proximidades disponibles son las siguientes: SEUCLID. Distancia euclidea al cuadrado. Esta distancia es la medida de proximidad más utilizada. Es también la opción por defecto. En caso de no utilizar el subcomando MEASURE, SPSS calcula los grupos utilizando como medida de proximidad esta distancia. EUCLID. Esta palabra clave, unida al subcomando MEASURE, indica que la medida de proximidad que debe ser utilizada en el cálculo de grupos es la distancia euclidea. COSINE. La medida de proximidad que utilizar para el cálculo de los grupos, es el coseno de los vectores de datos. Es una medida de similaridad.
210
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
BLOCK. La medida de proximidad que utilizar es la distancia de Manhattan. CHEBYCHEV. La medida de proximidad que utilizar es la distancia de Chebychev. POWER(p.r). La medida de proximidad que utilizar es la distancia en un espacio métrico absoluto. El subcomando METHOD Este subcomando indica a SPSS el método que utilizar en el análisis de grupos. En caso de no utilizar este subcomando por defecto, se usa como método el promedio entre grupos. En el apartado Métodos de análisis de clusters de este capítulo se describen los principales métodos utilizados en el análisis de grupos. Las opciones disponibles son las siguientes: BAVERAGE. Promedio entre grupos (UPGMA). Esta es la opción por defecto. WAVERAGE. Promedio dentro de grupos. SINGLE. Método de la mínima distancia. COMPLETE. Método de la máxima distancia. CENTROID. Distancia entre centroides. Con este método sólo es posible utilizar la distancia euclidea al cuadrado. MEDIAN. Distancia entre las medianas. Con esta opción sólo es posible utilizar la distancia euclidea al cuadrado. El subcomando PRINT Este subcomando permite controlar la salida de resultados, excepto los gráficos. En caso de no utilizar este subcomando, muestra una tabla en la que se contempla un sumario de los pasos utilizados en la construcción de los grupos, indicando los que están unidos en cada paso. Las opciones disponibles son las siguientes: SCHEDULE. Esta es la opción por defecto. Muestra una tabla con el sumario de los pasos empleados en la construcción de los grupos.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
211
CLUSTER (min, max). Esta opción muestra una tabla, en la que se indica el grupo al que pertenece cada caso, según los grupos formados. CLUSTER (3 6) indica que la tabla debe ser para cuando existen entre 3 y 6 grupos formados. DISTANCE. Esta opción muestra la matriz de distancias o similaridades entre casos, en base al tipo de medida de proximidad seleccionada con el subcomando MEASURE. NONE. Esta opción indica que no debe mostrarse ninguna de las salidas asociadas al subcomando PRINT. El subcomando PLOT Este subcomando controla las salidas gráficas del procedimiento CLUSTER. En caso de no utilizar esta opción, se muestra un gráfico de «CARÁMBANOS» vertical. Las opciones disponibles son las siguientes: VICICLE (min, max, inc). Esta es la opción por defecto. Muestra un gráfico de «CARÁMBANOS» vertical. Este gráfico muestra gráficamente el proceso de formación de los grupos. En caso de utilizar min y max, en su lugar debe ir un número entero. Min indica en qué grupo debe comenzar el análisis y max en cuál debe terminar; inc indica cada cuántos pasos debe indicarse en el gráfico. Por ejemplo, VICICLE (2,8,2) indica que el gráfico debe comenzar en 2 (min); el último grupo a considerar debe ser el 8 (max) y los grupos deben mostrarse de dos en dos (inc). HICICLE (min, max, inc). Esta opción indica que el gráfico de «CARÁMBANOS» debe ser horizontal. Todas las especificaciones comentadas para VICICLE tienen el mismo significado. DENDROGRAM. Esta opción muestra un gráfico llamado Dendrograma. Este gráfico muestra el proceso de formación de los grupos, indicando la distancia a la que se han producido las uniones y los casos implicados en cada paso. NONE. Esta opción indica que no deben producirse salidas gráficas.
212
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El subcomando ID Este subcomando permite indicar una variable alfanumérica (STRING), la cual se utilizará para identificar en tablas y gráficos a los casos implicados. De no utilizar este subcomando, la identificación se produce por el número de caso.
El subcomando SAVE Este subcomando permite incluir como nuevas variables en el fichero activo los grupos a los que pertenecen los casos en cada paso. Cuando se emplee el subcomando SAVE, es obligatorio utilizar el subcomando METHOD, indicando una raíz para las variables donde se indicará la pertenencia a los grupos formados en cada paso. Por ejemplo:
Las instrucciones anteriores indican que se realice un análisis de grupo con las variables VARI a VAR9. El método que utilizar debe ser el de promedio entre grupos. La raíz entre paréntesis GRUP indica que las variables incorporadas al fichero activo deben ser GRUP1, GRUP2, GRUP3, GRUP4, GRUP5 y GRUP6. En la variable GRUP1 se indica a qué grupo pertenece cada caso. Cuando sólo hay un grupo, y por lo tanto todos los casos pertenecen al mismo grupo. La variable GRUP5 indica el grupo a que pertenece cada grupo cuando hay 5 grupos, etc.
El subcomando WRITE Esta opción permite grabar en un fichero la matriz de distancias o similaridades, según la medida de proximidad elegida. En caso de no indicar nada, dicha matriz se grabará en el fichero SPSS.PRC.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
213
Podemos indicar que se grabe en otro fichero utilizando el comando SET con el subcomando RESULTS. La sintaxis de este subcomando es /WRITE =DISTANCE. El subcomando READ Este subcomando permite realizar un análisis de grupos a partir de información procedente de una matriz. Por defecto SPSS, considera que es una matriz de proximidades, aunque también puede utilizar otros tipos de matrices, como matrices de correlaciones. Las opciones disponibles son las siguientes: SIMILAR. Esta opción indica que la matriz es de proximidades. TRIANGLE. Esta opción incorpora para el análisis la diagonal principal y los elementos subdiagonales de la matriz. Se asume que la matriz es cuadrada. LOWER. Esta opción permite leer los elementos subdiagonales de una matriz, la cual se asume como cuadrada. Esta opción se diferencia de la anterior en que no se leen los elementos de la diagonal principal. El subcomando MISSING Este subcomando permite adaptar a las necesidades del usuario la utilización de los casos con valores desaparecidos. Las opciones disponibles son las siguientes: LISTWISE. Esta es la opción por defecto. Incluye para el análisis a todos los casos sin valores ausentes en las variables listadas con el procedimiento CLUSTER. INCLUDE. Esta opción indica a SPSS que los casos con valores ausentes de usuario deben ser incluidos en el análisis. Solamente quedan excluidos del análisis los casos, con valores ausentes de sistema.
214
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
EJEMPLOS El primer ejemplo que vamos a analizar se refiere a 10 hospitales, sobre los que tenemos datos de las actividades asistenciales, realizadas en el año 1992. Los datos son los siguientes:
En la tabla anterior las abreviaturas tienen el siguiente significado:
Respecto a las variables anteriores, interesa realizar un análisis de grupo, a fin de conocer la proximidad entre los hospitales anteriores. Los datos correspondientes al ejemplo anterior están en el fichero de sistema HOSPITAL.SYS. Inicie una sesión con SPSS y siga las siguientes instrucciones:
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
215
La primera de las instrucciones anteriores, encabezada por DATA LIST, indica a SPSS que se va a proceder a la introducción de datos de forma directa. La instrucción encabezada por CLUSTER indica que se realice un análisis de Grupos con las variables listadas. El subcomando PLOT indica que se construya un gráfico de «carámbanos» vertical (VICICLE) y un Dendrograma. El subcomando ID indica que la identificación de cada caso se realice mediante el HOSPITAL. En caso de no utilizar este subcomando, la identificación se realizaría mediante el número de caso. Los resultados obtenidos son los siguientes: La salida de resultados consta de tres partes: una tabla sumario de los pasos dados en la construcción de los grupos, un gráfico vertical y el gráfico dendrograma. A continuación comentaremos estos tres elementos por separado.
216
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La tabla anterior recoge un sumario de los pasos realizados en la construcción de los grupos. Esta tabla llamada SCHEDULE por SPSS. El número de pasos es igual al número de casos menos 1. La primera columna indica el número de paso, la segunda y la tercera los casos implicados en la unión. La columna encabezada por COEFFICIENT indica el valor de la medida de proximidad empleada; en este caso, el valor indicado corresponde a la distancia euclidea al cuadrado. La quinta y sexta columnas indican en qué pasos previos se vieron involucrados los casos implicados en cada paso. La séptima y última columna indica el paso en el que volverán a participar los grupos que han participado en cada paso. En la primera fila se recogen los datos correspondientes al primer paso. Los casos implicados son el 4 y el 10, que son los más próximos. En las columnas 5.a y 6.a se nos indican los pasos previos en que han participado estos casos; puesto que no hay pasos previos se indica con 0, lo cual quiere decir que es la primera vez que estos casos participan en la formación de un grupo. La séptima
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
217
columna indica que en el segundo paso volverá a participar el grupo formado por la unión de los casos 4 y 10, que a partir de este momento será considerado como un solo grupo; el grupo será nominado con el número menor de los casos que lo forman (en este caso el 4). En la segunda fila se indica que los grupos implicados son el 1 y el 4 (formado por el caso 4 más el 10). En la 5.a columna, el 0 indica que el caso 4 es la primera vez que participa en la formación de grupos. En la sexta se indica que el grupo 4 participó en el primer paso, en la séptima columna se informa de que este grupo, formado por los casos 1, 4 y 10 volverá a participar en la formación de un grupo en el paso 3; a partir del segundo paso el grupo formado por los casos 1, 4 y 10 será nominado con el número 1, por ser éste el caso menor del grupo. El resto de las filas informa de los pasos hasta que al final, se forma un solo grupo con todos los casos.
El gráfico anterior es el que hemos denominado de «carámbanos». Informa de manera gráfica del proceso de formación de los grupos. La parte de abajo comienza con la primera unión entre los casos 10
218
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
y 4, los números a la izquierda indican el número de grupos que existen; el 9 indica que al unir el caso 4 con el 10, quedan 9 grupos. Según ascendemos, el número de grupos disminuye hasta llegar a 1. La parte inferior del gráfico indica el comienzo, inmediatamente después de la formación del primer grupo, la parte superior del gráfico representa el final del proceso de formación de los grupos.
El gráfico anterior se denomina dendrograma y representa, en forma de árbol lógico, el proceso de formación de los grupos. El dendrograma también indica la distancia a la que se ha producido la unión; la distancia está dimensionada según la distancia máxima. En este caso, la distancia máxima es 237091200. El 25 de la escala corresponde a 250 millones, el 5 a 50 millones la distancia mínima entre el caso 4 y el 10 es de algo más de 7 millones.
Ejemplo 2. Cluster de variables En esta ocasión, en lugar de agrupar casos, vamos a proceder a agrupar variables. En el ejemplo CORONAR vamos a realizar un estudio de agrupamiento de variables, con las variables CB, TB, TAS, TAD, TALLA, PESO y EDAD. El análisis parte de la matriz de
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
219
correlaciones de estas variables, la cual puede generarse a partir de varios procedimientos como REGRESSION, CORRELATION, etc. Dicha matriz está en el fichero COMATPRC en el subdirectorio de SPSS datos. En la matriz deben figurar las correlaciones entre las variables únicamente; los coeficientes de correlación serán considerados como medidas de proximidad. Inicie una sesión con SPSS y siga las siguientes instrucciones:
Las instrucciones anteriores indican que debe procederse a un análisis de CLUSTER con las variables listadas a partir de la matriz de correlaciones, que se encuentra en el fichero COMATPRC en el subdirectorio de SPSS DATOS. El subcomando READ con la opción SIMILAR indica que la matriz es de proximidades. En este caso, consideramos como medida de proximidad el coeficiente de correlación. El subcomando Plot indica que los gráficos deben ser el Dendrograma y el gráfico de «CARÁMBANOS» vertical. Los resultados obtenidos son los siguientes:
220
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla y gráficos anteriores observamos que las variables más cercanas son TAS y TAD, y con ellas se forma el primer grupo; a continuación, el grupo formado por estas dos variables se une a la variable CB, y así sucesivamente.
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
221
MÉTODOS NO JERÁRQUICOS En los apartados anteriores, vimos la formación de grupos por métodos jerárquicos. Partíamos de tantos grupos como casos o variables y, paso a paso, los agrupábamos hasta formar un solo grupo. La principal diferencia de los métodos no jerárquicos es que el usuario indica, a priori, el número de grupos que deben formarse. El número de grupos indicado se forma en un solo paso. Los métodos no jerárquicos forman el número de grupos indicado por el usuario, de tal manera que la varianza dentro de cada grupo sea mínima. Hay dos métodos fundamentales, el de las K medias y el de los centroides iniciales. Métodos en Clusters no jerárquicos El método de las K medias busca los casos más alejados entre sí, tantos como número de grupos deban formarse. Considera las coordenadas de los centroides iniciales; el resto de los casos se consideran pertenecientes al grupo de cuyo centroide están más cercanos. Posteriormente, se calcula el centroide de los grupos formados, volviendo a reconsiderar la pertenencia de cada caso a cada grupo. El procedimiento continúa hasta que la varianza dentro de los grupos es la mínima posible. En el método de los centroides iniciales, el usuario determina las coordenadas de los centroides iniciales; partiendo de ellos, se sigue un procedimiento similar al anterior y finaliza el proceso cuando la varianza dentro de los grupos formados es la mínima posible. La distancia que suele utilizarse en la formación de CLUSTER no jerárquicos es la euclidea. En caso de que las unidades de las variables sean distintas, suelen utilizarse los valores tipificados, a fin de que puedan compararse. Clusters no jerárquicos con SPSS. El procedimiento Quick Clusters El procedimiento QUICK CLUSTERS de SPSS permite la formación de grupos no jerárquicos. Las variables que deben participar en el
222
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
proceso se listan tras QUICK CLUSTER. Este procedimiento admite los siguientes subcomandos: CRITERIA. INITIAL. PRINT. MISSING. SAVE. WRITE.
El subcomando CRITERIA
Este subcomando permite especificar el número de grupos que deben formarse y el método que utilizar en su formación. Este subcomando admite las siguientes especificaciones: CLUSTERS (K). El número indicado en lugar de K denota el número de grupos que deben formarse; en caso de no utilizar el subcomando CRITERIA, el número de grupos que se formaran serán dos. NOUPDATE. Esta especificación debe utilizarse cuando los centroides iniciales, fijados por el usuario, deben permanecer fijos sin actualizar. Esta especificación se utiliza en caso de emplear el subcomando INITIAL con las coordenadas de los centroides. El subcomando INITIAL
Este subcomando permite fijar las coordenadas de los centroides iniciales y admite las siguientes especificaciones: SELECT. Esta especificación indica que los centroides iniciales sean calculados a partir de las coordenadas de los casos más alejados. FIRST. Los primeros K casos del fichero se utilizan como referencia para el cálculo de los centroides. (var lista). En lugar de la lista, se indican las coordenadas de
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y OUICK CLUSTER
223
los centroides. Si utilizamos la opción NOUPDATE del subcomando CRITERIA, los centroides serán fijos y se calcularán los grupos en base a estos centroides. Si no se emplea NOUPDATE, los centroides descritos se utilizarán como punto de partida y podrán modificarse durante el proceso. El subcomando PRINT El procedimiento QUICK CLUSTERS, sin utilizar el subcomando PRINT, muestra los valores iniciales de los centroides, los centros utilizados para la clasificación y, cuando la formación de los centros se ha completado, también muestra las medias de las variables en cada cluster y el número de casos perteneciente a cada grupo. El subcomando PRINT permite obtener información adicional. Las especificaciones que admite PRINT son las siguientes: CLUSTER. Esta opción muestra para cada caso un número identificativo, el número del grupo a que ha sido asignado, y la distancia euclidea al centro del grupo. ID (var nombre). Esta opción permite que los casos se identifiquen, según la variable indicada, en lugar de (var nombre). En caso de no utilizar esta opción, cada caso se identificará según el número de orden en el fichero de datos. DISTANCE. Esta opción muestra la distancia euclidea entre cada centroide con los otros, al final del proceso. ANOVA. Esta opción muestra la tabla de ANOVA, correspondiente a una comparación realizada entre las medias de todas las variables, entre los grupos incluidos en el proceso. Este ANOVA nos indicará entre qué variables hay diferencias significativas. Dichas variables son las que indican las diferencias entre los grupos formados. El subcomando MISSING
Este subcomando permite regular la inclusión de los casos con valores ausentes. Por defecto, SPSS elimina del análisis los casos
224
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
con valores ausentes de usuario o de sistema en alguna de las variables implicadas en el proceso. Este subcomando admite las siguientes especificaciones: LISTWISE. Esta es la opción por defecto; elimina del análisis los casos con valores ausentes de usuario o de sistema en alguna de las variables implicadas en el proceso. PAIRWISE. Excluye del análisis los casos con valores ausentes en todas las variables implicadas en el análisis. INCLUDE. Esta opción incluye en el análisis los casos con valores ausentes de usuario. El subcomando SAVE
Este subcomando permite incluir en el fichero de datos como nuevas variables, para cada caso, el grupo en que ha sido clasificado y la distancia euclidea al centroide de su grupo, según las siguientes especificaciones: CLUSTER(variable). Esta opción crea una nueva variable con el nombre especificado en lugar de (variable) y la incorpora al fichero activo. Dicha variable contiene, para cada caso, el número del grupo en que ha sido clasificado. DISTANCE(variable). Esta opción crea una nueva variable con el nombre especificado en lugar de (variable) y la incorpora al fichero activo. Dicha variable contiene, para cada caso, la distancia euclidea al centroide del grupo en que ha sido clasificado. El subcomando WRITE
Esta opción permite que se cree un fichero con las coordenadas de los centroides finales. El fichero en el que se grabará dicha información será SPSS.PRC Se puede especificar otro nombre para este fichero utilizando el comando SET. Ejemplo de Cluster no jerárquico
Volviendo a considerar el ejemplo con datos sobre la actividad de centros hospitalarios, utilizado en el apartado Ejemplo jerárquico
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
225
de este mismo capítulo, vamos a realizar una clasificación en tres grupos. Repetimos el proceso de introducción de datos completo. Inicie una sesión con SPSS y siga las siguientes instrucciones:
226
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El comando DESCRIPTIVES nos proporcionará la media aritmética, desviación típica, mínimo, máximo, etiqueta y número de casos, para cada una de las variables implicadas en el proceso. OPTION 3 incorporará al fichero activo una nueva variable por cada una de las variables listadas. Esta nueva variable se denominará igual que las variables originales, anteponiendo la letra Z al nombre original. Los valores de estas variables son los valores tipificados; el resultado se obtiene restando el valor de la correspondiente variable del valor medio de la misma, y dividiendo el resultado por la desviación típica correspondiente. Este paso previo es conveniente realizarlo cuando los valores de las variables utilizadas están dados en unidades distintas. El conjunto de instrucciones anterior indica que se realice un proceso de clasificación no jerárquico en grupos con las variables ZPEX, ZPEN, ZURG, ZINTQ, ZEXAT y ZEM. El subcomando CRITERIA, con la opción CLUSTER (3), indica que el número de grupos que deben formarse son 3. El subcomando PRINT indica que deben mostrarse las coordenadas de los centroides iniciales (INITIAL), grupo de asignación y distancia al centroide del grupo asignado en cada caso (CLUSTER), La variable identificativa de cada caso debe ser hospital (ID), distancia de cada centroide a los demás (DISTANCE) y ANOVA, a fin de determinar las variables que intervienen de forma significativa en la formación de los grupos. El subcomando SAVE indica que se incorporen al fichero activo dos nuevas variables, GRUPO y DISTAN; la variable GRUPO contendrá para cada caso el número del grupo en que se ha clasificado, y la variable DISTAN la distancia de cada caso al centroide del grupo en el que se ha clasificado. El comando LIST permitirá un listado de los casos en los que estarán incluidos los valores de las nuevas variables. Al no utilizar el subcomando INITIAL, el método que emplear será el de las K medias más alejadas, procediendo de forma iterativa hasta determinar los 3 grupos cuyas varianzas intragrupos sean mínimas. Los resultados obtenidos son los siguientes:
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
227
Los resultados anteriores son consecuencia del comando DESCRIPTIVES. Para cada variable se muestra una lista con parámetros estadísticos; a continuación de esa lista, se muestra una tabla con el nombre de las nuevas variables que contendrán los valores tipificados.
228
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En las tablas anteriores, se muestran las coordenadas de los centroides iniciales, de un paso intermedio y los centroides finales, en función de las coordenadas de las variables. También se nos
ANÁLISIS DE GRUPOS. LOS PROCEDIMIENTOS CLUSTER Y QUICK CLUSTER
229
muestra una tabla en la que se contempla la clasificación de cada hospital. El grupo 1 lo forma un solo'hospital, el 7; observe que, al figurar un solo caso en el grupo, la distancia al centroide es cero. El grupo dos lo forman los hospitales 5, 9 y 10; el grupo 3 está formado por los hospitales 1, 2, 3, 4, 6 y 8.
En las tablas anteriores se muestran las distancias entre los centroides ANOVA y una tabla con el número de casos de cada grupo. La tabla de ANOVA indica que la única variable que muestra diferencias significativas es ZPEN (valores tipificados) del número de pacientes encamados atendidos en cada hospital. Las variables ZPEX y ZEM, aunque no muestran diferencias significativas, se aproximan bastante P < 0.08. Teniendo en cuenta que el número de casos es pequeño, podemos considerar que, de todas las variables
230
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
implicadas, las que contribuyen más a marcar diferencias entre los grupos son el número de pacientes encamados atendidos ZPEN, el número de pacientes atendidos en consultas externas ZPEX y la estancia media ZEM. Recordamos que la Z, delante del nombre, indica que los valores de cada variable son los tipificados. La tabla siguiente muestra, para cada caso, el nombre del hospital, el grupo en el que se ha clasificado (GRUPO) y la distancia de cada hospital al centroide de su grupo (DISTAN). La tabla es consecuencia de la ejecución del comando LIST seguido de las variables HOSPITAL, GRUPO y DISTAN.
Capítulo 7 COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL. EL PROCEDIMIENTO FACTOR
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL En muchas ocasiones, el investigador dispone de una matriz de información en la que podríamos prescindir de algunas variables, sin que la información global disminuya de forma significativa. El método de los componentes principales (CP) y el análisis factorial AF son métodos que permiten explicar, con un número reducido de nuevas variables a las que llamaremos factores, la información recogida en un determinado experimento. Son por tanto técnicas estadísticas, que intentan explicar la información recogida en una matriz de datos con n individuos y K variables, a partir de W factores, siendo W< K. El análisis de componentes principales y el análisis factorial son dos técnicas conceptualmente distintas, aunque el procedimiento matemático es similar en ambas. Los grandes paquetes estadísticos, como SPSS y BMDP, incluyen en el mismo procedimiento (FACTOR, en el caso de SPSS) las técnicas necesarias para realizar ambos análisis. Actualmente, la utilización de estas técnicas estadísticas ha sufrido un fuerte impulso gracias a los ordenadores. Anteriormente a la difusión de la informática, estas técnicas eran poco utilizadas, debido a la gran complejidad de los cálculos necesarios para su resolución.
232
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
COMPONENTES PRINCIPALES Esta técnica es uno de los primeros métodos multivariantes que se utilizó. Consiste en condensar la información aportada por un conjunto de K variables en un conjunto W de componentes, también llamados factores, siendo W < K. Cada uno de los W factores es combinación lineal de las K variables. En el análisis de CP no tenemos ninguna hipótesis previa, pero sabemos que el 100% de la variabilidad de las K variables se explica por K factores, cada uno de los cuales es combinación lineal de las variables originales. Evidentemente, no pretendemos sustituir las K variables por K factores, a veces de difícil interpretación, pero los factores recogen la variabilidad de las variables originales de forma desigual. En muchas ocasiones, pocos factores recogen un porcentaje de variabilidad alto; por lo tanto, podríamos explicar la mayor parte de la variabilidad original a partir de ellos. A partir de la matriz de varianzas covarianzas o de la matriz de correlaciones, (es preferible el cálculo a partir de la matriz de correlaciones, debido a que sus elementos son coeficientes estandarizados), calculamos los autovalores de la matriz. A partir de estos autovalores, calculamos los correspondientes autovectores. Si tenemos K variables iniciales, la matriz de varianzas covarianzas y la matriz de correlaciones tienen dimensión K X K, y a partir de ellas extraeremos K autovalores, los cuales darán origen a K autovectores. Cada autovector define un eje correspondiente a un factor. Los K ejes definidos corresponden a K factores ortogonales. La variabilidad total de la información original, está recogida en estos K factores. El porcentaje de variabilidad que recoge cada factor suele ser muy distinto, de tal forma que unos pocos factores (COMPONENTES PRINCIPALES) explican gran parte de la variabilidad total. El objetivo del análisis de componentes principales es a partir de unos pocos factores, explicar la variabilidad total observada en la matriz de información. Las características de los factores vienen condicionadas por la matriz de correlaciones, si hay muchas correlaciones altas entre las variables, es indicativo de información redundante y pocos factores explicarán gran parte de la variabilidad total. Por el contrario, correlaciones pequeñas entre las variables son indicativas de poca
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
233
información redundante y, por lo tanto, necesitaremos muchos factores para explicar una parte sustancial de la variabilidad. En el ejemplo CORONAR, las variables TAS, TAD, CB, TB, PESO, TALLA, EDAD, tienen altas correlaciones entre sí. Este parece un caso en el que unos pocos componentes nos permitirán explicar la información total. Modelo matemático En CP no tenemos a priori ninguna hipótesis acerca de la cualidad de los factores. El valor que toma una variable en un determinado caso se explica en un 100% por los £ factores. El modelo matemático es el siguiente:
El modelo anterior parte de la base de que tenemos invariables inicialmente y, a partir de ellas, hemos calculado K factores linealmente independientes y ortogonales. Xij es el valor de la jésima variable que tiene el iésimo caso; este valor viene determinado por el producto de los coeficientes factoriales de la jésima variable con cada uno de los factores; el valor que tiene cada caso en cada uno de las factores, por ejemplo a2j, es el coeficiente factorial de la jésima variable con el segundo factor y Fi2 es el valor del segundo factor correspondiente al iésimo caso. Conceptualmente, el modelo anterior indica que el 100% de la información de la variable se explica por los K factores. Llamaremos COMUNALIDAD a la proporción de la variabilidad de cada variable explicada por los factores; ésta es la razón (como veremos más adelante) de que en CP la comunalidad inicial de todas las variables sea 1. La comunalidad final de cada variable indica la proporción de variabilidad correspondiente a cada variable que explican los componentes principales seleccionados.
234
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Tanto el modelo matemático anterior como las COMUNALIDADES iniciales constituyen la diferencia fundamental con el análisis factorial, como veremos en el apartado referente a éste. Fases de un análisis de componentes principales Un análisis de componentes principales consta de las siguientes fases: ELECCIÓN DE LOS COMPONENTES PRINCIPALES. ROTACIÓN DE LOS EJES. REPRESENTACIONES GRÁFICAS. CÁLCULO DE LAS PUNTUACIONES FACTORIALES.
Elección de los componentes principales
La elección de los ejes factoriales se realiza de tal manera que el primer factor recoja la máxima proporción posible de la variabilidad de la nube de puntos original. La variabilidad de la proyección de la nube de puntos sobre el eje definido por el factor debe ser la máxima posible. El segundo factor debe recoger la máxima variabilidad posible no recogida por el primer factor y así sucesivamente, hasta la selección de los K factores. De los K factores posibles, elegiremos aquellos que recojan el porcentaje de variabilidad que estimemos suficiente. A los factores elegidos les llamaremos COMPONENTES PRINCIPALES. EJEMPLO Supongamos que tenemos datos sobre el peso y la talla de 10 individuos:
En el siguiente gráfico, podemos ver la nube de puntos y dos ejes sobre los que podemos proyectar la nube de puntos. El eje A recoge la mayor parte de la variabilidad total y el eje B recoge la variabilidad no recogida por el eje A.
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
235
En este caso hay dos variables y solamente dos factores. Si tuviéramos tres variables, la nube de puntos sería tridimensional, configuraría un elipsoide y tendríamos tres ejes; y así sucesivamente. Como hemos visto en apartados anteriores, hay tantos factores como variables; al investigador corresponde elegir el n.° de componentes suficiente para contener el mínimo indispensable de la información original. Los criterios de selección pueden ser diversos, los más importantes son los siguientes: La técnica de extracción de componentes más utilizada consiste en seleccionar, en primer lugar, el que explica más variabilidad; a continuación, el que explica más variabilidad de la no explicada por el primer factor, y así sucesivamente hasta cubrir el porcentaje de variabilidad que se había previsto. Por ejemplo, si tenemos una matriz de datos con 12 variables, nos podemos plantear extraer el número de componentes necesarios para explicar el 90% de la variabilidad que aporta la matriz de datos, En este caso, extraeremos factores hasta cubrir el porcentaje de información predeterminado. Otro método consiste en extraer un número determinado de componentes, independientemente del porcentaje de variabilidad
236
ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS
que contengan. Por ejemplo, en el caso anterior, donde teníamos 12 variables, podemos extraer los 4 componentes que expliquen una mayor variabilidad. Otra técnica de selección de factores consiste en extraer todos los componentes que expliquen, cada uno de ellos, al menos un porcentaje determinado de la información. Por ejemplo, podemos seleccionar todos los factores que expliquen, cada uno de ellos, un 5% o más de la variabilidad recogida en la matriz de datos. Otra técnica de selección consiste en extraer los factores mayores que 1. Esta es la técnica que utiliza el paquete estadístico SPSS: en caso de que no le indiquemos otra cosa, extrae los factores cuyo valor propio sea mayor que uno. El 100% de la información que se obtiene a partir de componentes sólo podría conseguirse extrayendo tantos componentes como variables hay en el fichero original. MATRIZ FACTORIAL. Una vez seleccionados los componentes principales, se representan en forma de matriz los CP y las variables. Habitualmente, en las columnas se suelen representar los factores y en las filas las variables. Cada elemento de la matriz representa los coeficientes factoriales de las variables, los cuales nos permiten calcular las puntuaciones de los individuos y de las variables según los casos. La matriz factorial tiene tantas columnas como componentes principales y tantas filas como variables. Los coeficientes de la matriz aij son las correlaciones entre las variables y los componentes principales. La suma de todos los coeficientes, al cuadrado, de cada componente, es igual al valor propio de la matriz de correlaciones (o de la matriz de varianzas covarianzas) correspondiente a dicho componente. Rotación de los ejes
Las características ideales que deben tener los factores, para que sean fácilmente interpretables, son las siguientes: 1) Las cargas factoriales de un factor con las variables deben ser próximas a 1 o próximas a cero. Las variables con cargas Proxy-
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
237
mas a 1 se explican en gran parte por el factor; las que tengan cargas próximas a cero no se explican por el factor. Recordamos que, si los factores son ortogonales, las cargas factoriales son los coeficientes de correlación entre la variable y los factores. 2) Una variable debe tener cargas factoriales elevadas con un solo factor. Ha de intentarse que la mayor parte de la variabilidad de una variable sea explicada por un solo factor. 3) No deben existir factores con cargas factoriales similares. Si dos o más factores tienen cargas factoriales altas o bajas con las mismas variables, en realidad explican lo mismo y serían redundantes, lo cual sería un contrasentido puesto que el análisis factorial intenta eliminar la redundancia. Las tres características anteriores son difíciles de cumplir por los factores originales, pero podemos conseguirlo rotando los factores. Las rotaciones pueden ser ortogonales u oblicuas. Rotaciones ortogonales
Particularmente importantes son las rotaciones ortogonales, entre otras razones porque las comunalidades de cada variable se conservan, aunque cambian las cargas factoriales, puesto que los ejes son distintos al ser rotados, pero la variabilidad explicada de cada variable permanece inalterada. Las rotaciones ortogonales más importantes son la rotación VARIMAX y la rotación CUARTIMAX. ROTACIÓN VARIMAX. Este método maximiza la varianza de los factores. Cada columna de la matriz factorial rotada tendrá cargas factoriales altas con algunas variables y bajas con otras, lo cual facilitará la interpretación. La rotación VARIMAX es la que realiza SPSS por defecto, aunque puede realizar otras rotaciones si se le indica. ROTACIÓN CUARTIMAX. Trata de simplificar las filas de la matriz factorial, de esta manera, cada variable tendrá una correlación
238
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
alta con pocos factores y baja con los demás, lo cual facilitará la interpretación. Rotaciones oblicuas
Las rotaciones oblicuas pretenden los mismos objetivos que las ortogonales. En general, sólo se realizan cuando las rotaciones ortogonales no logran su objetivo. En una rotación oblicua, las comunalidades no se mantienen y la interpretación es bastante más compleja que en las rotaciones ortogonales. Representación gráfica
El fin de un análisis de componentes principales es conseguir reducir las variables explicativas, obtener un número de componentes menor que el de variables y dar una interpretación práctica de los mismos. A fin de conseguir una buena interpretación de los factores, una de las fases fundamentales del análisis factorial es la representación gráfica. La representación se hace tomando factores dos a dos y proyectando las variables sobre los planos determinados por cada par de ejes factoriales. Las coordenadas de las variables, en el espacio definido por los componentes principales, son los coeficientes factoriales de la matriz rotada, en caso de que los ejes hayan sido rotados. En algunos casos, en lugar de las variables nos interesa proyectar los individuos sobre los planos. Entonces las coordenadas de cada individuo las conforman las puntuaciones factoriales individuales, cuyo cálculo comentaremos en el próximo subapartado. Puntuaciones factoriales individuales
En ocasiones, puede ser interesante conocer las puntuaciones que tienen los CP para cada caso, lo cual nos permitirá entre otras cosas representar los casos en el espacio de los CP. Las puntuacio-
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
239
nes factoriales para cada caso de la muestra pueden calcularse según la siguiente expresión:
En la expresión anterior, Fij representa la puntuación del iésimo componente, correspondiente a el jésimo caso de la muestra, K indica el número de variables, ais representa la puntuación factorial correspondiente a la esésima variable y al iésimo componente y Zsj representa el valor estandarizado de la esésima variable correspondiente al jésimo caso. ANÁLISIS FACTORIAL Aunque la técnica matemática del análisis factorial es similar al análisis de componentes principales, los fundamentos teóricos son distintos. El análisis factorial supone que hay una parte común, COMUNALIDAD, de la variabilidad de las variables, explicada por factores comunes no observables. Cada variable tiene una parte de su variabilidad no común propia de cada variable; a esta variabilidad no común la llamaremos factor único. Se asume que los factores únicos correspondientes a las variables son independientes entre sí. En el análisis factorial distinguimos dos tipos: análisis factorial exploratorio AFE y análisis factorial confirmativo AFC. En el análisis factorial exploratorio, el investigador no tiene a priori una hipótesis acerca del número de factores comunes; éstos se seleccionan durante el análisis. En el AFC, el investigador parte de la hipótesis de que existe un número determinado de factores, los cuales tienen un significado determinado. Un ejemplo clásico de AFC es el estudio de Spearman sobre los factores que conforman la inteligencia. Partía de la hipótesis de que la inteligencia la componen un factor general C y otros
240
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
factores: capacidad de análisis verbal, capacidad de análisis matemático y capacidad de integración espacial. Otro modelo clásico es el que considera que los factores antropométricos e intelectuales de un individuo se deben a dos factores principales, uno genético y otro sociocultural.
Modelo matemático del análisis factorial Las ideas expresadas en el apartado anterior se resumen en el siguiente modelo:
En la expresión anterior, Xij es el valor de la jésima variable correspondiente al iésimo caso, Fij son los coeficientes factoriales correspondientes al iésimo caso y aij las puntuaciones factoriales, Uj es el factor único correspondiente a la jésima variable. La diferencia del modelo del análisis factorial respecto al de componentes principales es que el análisis factorial supone que la variabilidad de cada variable tiene una parte explicable por factores comunes y otra independiente de las demás variables. En un modelo factorial, partimos de la base de que sólo una parte de la variabilidad de cada variable depende de factores comunes y, por lo tanto, debemos buscar una comunalidad inicial para cada variable. Inicialmente construimos un modelo de regresión múltiple para cada variable. En cada uno de los modelos figura una variable distinta como variable dependiente y el resto como variables independientes. El coeficiente de determinación del modelo en que cada variable figura como variable dependiente se considera como comunalidad inicial. Por ejemplo supongamos que en un fichero de datos disponemos de las variables PESO, TALLA y EDAD; construiremos un modelo de regresión múltiple en el que la variable dependiente sea el PESO, y la EDAD y la TALLA las variables independientes de dicho modelo. A continuación, construimos otro
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
241
modelo efe regresión múltiple, en el que la variable dependiente sea la EDAD y el PESO y la TALLA las variables independientes. Por último, construimos un tercer modelo en el que la variable dependiente sea la TALLA y el PESO y la EDAD las variables independientes. Supongamos que los coeficientes de determinación de los tres modelos han sido 0.7 para el PESO, 0.57 para la EDAD y 0.64 para la TALLA. Dichos coeficientes de determinación se considerarán como COMUNALIDADES iniciales en los modelos factoriales.
Fases en un modelo factorial Un análisis factorial tiene las siguientes fases: A) Examen de la matriz de correlaciones de todas las variables que constituyen los datos originales. B) Extracción de los factores comunes. C) Rotación de los factores con objeto de facilitar su interpretación. D) Representaciones gráficas. E) Cálculo de las puntuaciones factoriales para cada individuo. Examen de la matriz de correlaciones El primer paso en un análisis factorial consiste en el examen de la matriz de correlaciones, construida a partir de todas las variables cuantitativas que entran en el análisis. Un análisis factorial tiene sentido si existen altas correlaciones entre las variables; esto es indicativo de información redundante o, lo que es lo mismo, que algunas variables aportan información que en gran parte llevan también otras variables, y ello es indicativo de la existencia de factores comunes. En el análisis de componentes principales, no tiene sentido el examen de la matriz de correlaciones, ya que no tenemos la hipótesis de la existencia de factores comunes. La comprobación analítica del grado de intercorrelación entre
242
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
las variables puede realizarse por varios métodos; los más utilizados son los siguientes:
Prueba de esfericidad de Barlett
Esta prueba contrasta las siguientes hipótesis:
La hipótesis nula postula que la matriz de correlaciones es una matriz identidad; esto significa que las correlaciones entre las variables son todas igual a cero, puesto que en una matriz identidad la diagonal principal son todos unos y, por lo tanto, el valor del determinante es igual a 1. La hipótesis alternativa asume que la matriz de correlaciones es distinta de una matriz identidad o, lo que es lo mismo, que el determinante de la matriz de correlaciones es significativamente distinto de uno. El determinante de una matriz de correlaciones es un índice de la varianza generalizada de dicha matriz; un determinante próximo a cero indica que una o más variables pueden ser expresadas como una combinación lineal de las otras variables. Tiene sentido un análisis factorial si podemos rechazar la hipótesis nula, lo cual sería indicativo de que existen correlaciones entre las variables. En caso de no poder rechazar la hipótesis nula, no tendría sentido un análisis factorial, puesto que esto indicaría que existe poca información redundante y, por tanto, el número de factores
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
243
necesario para explicar un alto porcentaje de información sería próximo al de variables originales. El determinante de la matriz de correlaciones muestral es un estimador del determinante de la matriz de correlaciones poblacional. A partir del valor del determinante muestral, se puede calcular un estadístico, que se distribuye según una CHI CUADRADO con grados de libertad igual a 1/2 (K2 — K); K es el número de variables de la matriz de correlaciones. El valor del estadístico que va a servir para contrastar las hipótesis de la prueba de Barlett es:
La condición de aplicabilidad de la prueba de BARLETT, es que las variables procedan de una población con una distribución normal multivariable. Índice KMO (Kaiser-Meyer-Olkin) Este índice permite comparar las magnitudes de los coeficientes de correlación observados con las magnitudes de los coeficientes de correlación parcial. El índice KMO se calcula según la siguiente expresión:
En la expresión anterior, rij es el coeficiente de correlación entre las variables iésima y jésima; se excluyen de los sumatorios los
244
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
coeficientes de correlación de una variable consigo, por lo tanto, el campo de aplicación de los sumatorios no es aplicable en los casos i = j, Sij y es el coeficiente de correlación parcial entre las variables iésima y jésima. También se excluyen los casos i = j. Un índice KMO bajo indica que la intercorrelación entre las variables no es grande y, por lo tanto, el análisis factorial no sería práctico, ya que necesitaríamos casi tantos factores como variables para incluir un porcentaje de la información aceptable. KAISER indica que un KMO mayor que 0.7 es indicativo de alta intercorrelación y, por tanto, indicativo de que el AF es una técnica útil. Entre 0.5 y 0.6 el grado de intercorrelación es medio y el AF sería menos útil que en el caso anterior, pero aplicable; un KMO < 0.5 indicaría que el AF no resultaría una técnica útil. Correlación antiimagen AIC El coeficiente de correlación parcial es un indicador de la fuerza de la asociación entre dos variables que elimina la influencia de las otras variables. Si existen factores comunes, esperamos que los coeficientes de correlación parcial sean pequeños. El coeficiente de correlación antiimagen es el negativo del coeficiente de correlación parcial entre dos variables. Es aplicable el análisis factorial si en la matriz de correlaciones antiimagen hay muchos coeficientes con valores pequeños. Medida de adecuación de la muestra (MSA) Este índice se calcula para cada variable, de forma similar al índice KMO. El índice MSA viene dado por la siguiente expresión:
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
245
La expresión anterior indica cómo calcular el índice MSA. Para la iésima variable, el significado de los coeficientes es el mismo que en el índice KMO y, en este caso también se excluyen del sumatorio los casos i = j. Si el índice MSA es pequeño, no se aconseja un AF. En las salidas del paquete SPSS, el índice MSA de cada variable figura en la diagonal principal de la matriz antiimagen. En caso de realizar un AF, podría estudiarse eliminar las variables con MSA bajo. Correlación múltiple Este coeficiente indica el grado de asociación entre una variable y todas las otras que intervienen en el análisis. Si hay muchas variables con un coeficiente de correlación múltiple alto, el AF puede utilizarse. Las variables con un coeficiente de correlación múltiple bajo podrían eliminarse del análisis factorial. Extracción de los factores comunes En los modelos de análisis factorial, la selección de los ejes tiene fundamentos matemáticos distintos si es un AFE o un AFC. A lo largo de la historia, se han utilizado diversos métodos matemáticos para calcular los factores. Algunos de ellos se han empleado mucho, por ser más fáciles de calcular, y otros no se han utilizado apenas por sus dificultades en cuanto al cálculo. La aparición y difusión de la informática ha permitido que actualmente se utilicen los métodos más rigurosos, independientemente de su dificultad de cálculo. Los métodos más utilizados y que incluyen los principales paquetes estadísticos como SPSS son: MÁXIMA VEROSIMILITUD. FACTORIZACIÓN DE EJES PRINCIPALES. FACTORIZACIÓN ALFA. FACTORIZACIÓN DE IMAGEN. MÍNIMOS CUADRADOS NO PONDERADOS. MÍNIMOS CUADRADOS GENERALIZADOS.
246
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Comentaremos brevemente los dos primeros, que son los más utilizados. MÁXIMA VEROSIMILITUD. Este método exige la especificación previa del modelo, incluido el número de factores, es por tanto un método adecuado para el análisis factorial confirmativo, aunque en algunas ocasiones también puede aplicarse al análisis factorial exploratorio. El método calcula la matriz factorial y de varianzas residuales, de forma que sea máxima la probabilidad (verosimilitud) de la matriz de varianzas de los datos. Los coeficientes de determinación de los modelos de regresión múltiple, suelen considerarse, habitualmente, como las comunalidades iniciales. FACTORIZACIÓN DE EJES PRINCIPALES. En este método
se suelen considerar como comunalidades iniciales los coeficientes de determinación de los modelos de regresión comentados en el apartado Modelo matemático del análisis factorial (se ha demostrado matemáticamente que las comunalidades finales son iguales o menores que los coeficientes de determinación). En principio, se elige el eje sobre el que la variabilidad de las proyecciones de los datos es máxima; a continuación se elige el eje sobre el que la variabilidad restante de la proyección es máxima y así sucesivamente. El investigador debe elegir el número de factores que expliquen mejor las variables iniciales. MATRIZ FACTORIAL. Una vez seleccionados los factores comunes, calculamos la matriz factorial. Se representan en forma de matriz los factores comunes y las variables; habitualmente, en las columnas se suelen representar los factores y en las filas las variables. Cada elemento de la matriz representa los coeficientes factoriales de las variables, los cuales nos permiten calcular las puntuaciones de los individuos y de las variables, según los casos. La matriz factorial tiene tantas columnas como factores comunes y tantas filas como variables. Los coeficientes de la matriz aij son las correlaciones entre las variables y los factores comunes. La suma de todos los coeficientes al cuadrado de cada factor es igual al valor propio de la matriz de
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
247
correlaciones (o de la matriz de varianzas covarianzas) correspondiente a dicho factor. COMUNALIDADES FINALES. Se denomina comunalidad final a la proporción de variabilidad de cada variable explicada por los factores comunes. La comunalidad de una variable es igual a la suma de los coeficientes factoriales al cuadrado de cada variable con todos los factores. La comunalidad puede oscilar entre 0 y 1; 0 indica que los factores no explican nada de la variable, y 1 que explican el 100% de la variabilidad de la variable. La variabilidad total de una variable es igual a: 1 = h2 + U2 En la expresión anterior, h2 es la comunalidad y U el factor único; de esta manera, el factor único al cuadrado indica la variabilidad de una variable, no explicada por los factores. Rotación de factores y representación gráfica Tanto en la rotación de factores como en la representación gráfica, es válido todo lo dicho respecto a estos mismos temas en componentes principales. Los métodos utilizables y el significado son los mismos en componentes principales que en análisis factorial. Puntuaciones factoriales Las puntuaciones factoriales para cada caso de la muestra pueden calcularse según la siguiente expresión:
248
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTR1CA CON SPSS
En la expresión anterior, Fij representa la puntuación del iésimo factor común, correspondiente al jésimo caso de la muestra; Kindica el número de variables, ais representa la puntuación factorial correspondiente a la esésima variable y al iésimo factor y Zsj representa el valor estandarizado de la esésima variable correspondiente al jésimo caso.
Bondad del ajuste. Residuos Si los factores comunes son ortogonales, las intercorrelaciones entre las variables pueden estimarse según la siguiente expresión:
En la expresión anterior, rij es el coeficiente de correlación entre la iésima y la jésima variables, rfi es la correlación entre el fésimo factor y la iésima variable. La expresión anterior indica cuál es el coeficiente de correlación estimado entre la iésima y la jésima variable. El residuo lo calcularemos restando el valor estimado del coeficiente de correlación entre dos variables del resultado observado, consultando en la matriz de correlación. La diferencia obtenida es el residuo. Si el modelo es bueno, la mayoría de los residuos serán pequeños.
No existe un método analítico para decidir qué número de residuos grandes es indicativo de que el modelo resulta adecuado.
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
249
ANÁLISIS FACTORIAL CON SPSS. EL PROCEDIMIENTO FACTOR El procedimiento FACTOR permite realizar análisis factorial con SPSS. La forma básica consta al menos del subcomando VARIABLES, por ejemplo: FACTOR VARIABLES = VARI VAR2 VAR3 VAR4 VAR5. La instrucción anterior indica a SPSS que realice un análisis factorial con las cinco variables indicadas. Puesto que no se indica método de extracción de factores ni tipo de rotación, SPSS, por defecto, utiliza como método de extracción de factores la técnica de componentes principales y como tipo de rotación VARIMAX. El procedimiento FACTOR admite los subcomandos siguientes: VARIABLES. MISSING. EXTRACTION. CRITERIA. ROTATION. PRINT. PLOT. SAVE. DIAGONAL. WRITE. READ. El subcomando VARIABLES permite especificar las variables que deben intervenir en el análisis factorial. El subcomando Missing permite controlar la inclusión y/o exclusión del análisis de casos con valores ausentes. A continuación comentaremos las posibilidades del resto de los subcomandos listados.
250
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El subcomando EXTRACTION Este subcomando permite elegir el método de extracción de factores; en caso de no utilizar este subcomando, SPSS utiliza el método de componentes principales. Los métodos disponibles son las siguientes: PC. Componentes principales; es la opción por defecto. PAF. Factorización de ejes principales. ML. Máxima verosimilitud. ALPHA. Factorización alpha. IMAGE. Factorización de imagen. ULS. Mínimos cuadrados no ponderados. GLS. Mínimos cuadrados generalizados. El subcomando CRITERIA Este subcomando admite las opciones siguientes: FACTORS (nf). Número de factores que deben ser extraídos; por defecto, el número de factores será el indicado por la opción MINEIGEN. Si se desea un número fijo, debe indicarse en lugar de (nf). MINEIGEN (eg). Esta opción indica el valor mínimo de un autovalor; para que el correspondiente factor sea incluido, por defecto se incluyen todos los auto valores iguales o mayores que 1. En caso de querer especificar otro valor límite, hacerlo en lugar de (eg). ITERATE (ni). Esta opción permite indicar el número de iteraciones empleado en el cálculo del factor. Por defecto se emplean 25 iteraciones. En caso de precisar un número de iteraciones distinto de 25, hacerlo en lugar de (ni). ECONVERGE (el). Esta opción permite especificar el criterio de convergencia para la extracción de factores; por defecto, el criterio es 0.001. Si se desea un criterio de convergencia distinto, especificarlo en lugar de (el). RCONVERGE (e2). Esta opción permite especificar el criterio de convergencia para la rotación; por defecto, el criterio es 0.0001.
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
251
Si se desea un criterio de convergencia distinto, especificarlo en lugar de (e2). KAISER. Esta opción realiza la normalización de KAISER en la rotación. Es la opción por defecto. NOKAISER. Esta opción indica a SPSS que no utilice la normalización de KAISER en la rotación. DELTA (d). Esta opción permite indicar delta para rotaciones oblicuas. En caso de utilizar el subcomando CRITERIA, debe utilizarse antes que el subcomando EXTRACTION.
El subcomando ROTATION Este subcomando permite especificar el tipo de rotación que emplear; si este subcomando no se utiliza, SPSS realiza la rotación VARIMAX. Las opciones disponibles son las siguientes: VARIMAX. Esta opción selecciona como tipo de rotación VARIMAX; ésta es la opción por defecto. EQUAMAX. Esta opción indica a SPSS que el tipo de rotación que debe utilizarse es EQUAMAX. QUARTIMAX. Esta opción indica a SPSS que el tipo de rotación que debe utilizarse es QUARTIMAX. OBLIMIN. Esta opción indica a SPSS que el tipo de rotación que debe utilizarse es oblicua. Por defecto, usa como valor de delta 0. Emplear el subcomando CRITERIA, a fin de modificar este valor, si ello fuera preciso. NOROTATE. Esta opción indica a SPSS que los factores no deben ser rotados. Si utilizamos el subcomando EXTRACTION, pero no el subcomando ROTATION, no se rotan los factores.
El subcomando PRINT Este subcomando permite obtener salidas adicionales de parámetros estadísticos. Las opciones disponibles son las siguientes:
252
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
UNIVARIATE. Esta opción lista el número de observaciones válidas, la media y la desviación típica de las variables que intervienen en el análisis. INITIAL. Esta opción lista una tabla con las comunalidades iniciales, los valores propios y el porcentaje de varianza explicada. CORRELATION. Esta opción lista la matriz de correlaciones, correspondiente a las variables que intervienen en el análisis. SIG. Esta opción muestra la significación de las correlaciones. DET. Esta opción muestra el determinante de la matriz de correlaciones. INV. Esta opción muestra la inversa de la matriz de correlaciones. KMO. Esta opción muestra el índice de KMO, la medida de adecuación de la muestra y la prueba de esfericidad de Barlett. EXTRACTION. Esta opción muestra las comunalidades, los valores propios y los factores rotados. REPR. Esta opción muestra las correlaciones y los correspondientes residuos. ROTATION. Esta opción muestra los factores rotados parámetros y su correspondiente matriz, matriz de transformación y matriz de correlaciones entre factores y variables. FSCORE. Esta opción muestra la matriz de cargas factoriales. DEFAULT. Por defecto, en caso de no utilizar el subcomando PRINT, se muestran los estadísticos correspondientes a las opciones INITIAL, EXTRACTION y ROTATION. Si utilizamos el subcomando EXTRACTION sin el subcomando ROTATION, solamente se mostrarán los estadísticos correspondientes a las opciones INITIAL y EXTRACTIONS.
El subcomando PLOT Esta opción permite la salida de los siguientes diagramas: EIGEN. Esta opción muestra un gráfico de los valores propios en orden descendente. ROTATION (nl n2). Esta opción permite visualizar ejes de coordenadas, en los que el eje de abscisas es el factor indicado en ni y
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
253
el de ordenadas el indicado en n2. En una misma orden pueden indicarse varios ejes coordenados. Por ejemplo (1,2), (2,3), (1,3), (1,4), etc. El subcomando SAVE Este subcomando permite incorporar al fichero activo las puntuaciones factoriales para cada caso. Las opciones disponibles son las siguientes: REG. Puntuaciones calculadas mediante el método de regresión. BAR. Puntuaciones calculadas mediante el método de Barlett. AR. Puntuaciones calculadas mediante el método de AndersonRubin. (n,raíz). Las puntuaciones de los n primeros factores se almacenarán en las variables raíz1, raíz2.....raízn. El subcomando DIAGONAL Este subcomando permite especificar los valores iniciales de la diagonal principal de la matriz de correlaciones. Por defecto, los valores de esta diagonal, contiene las comunidades iniciales. La opción es la siguiente: Dl,D2,...Dn. Lista de valores iniciales. Esta opción sólo está disponible para los métodos PAF y PA2. El subcomando WRITE Este subcomando permite escribir en el fichero SPSS.PRC, salvo que el usuario haya indicado otro fichero mediante el comando SET RESULTS, los siguientes resultados. CORRELATION. Esta es la opción por defecto y graba la matriz de correlaciones. FACTOR. Esta opción graba la o las matrices factoriales.
254
ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS
El subcomando READ Esta opción permite realizar un análisis de componentes principales o factorial, a partir de datos matriciales. Las opciones disponibles son las siguientes: CORRELATION. Esta es la opción por defecto, indica que la matriz es de correlaciones cuadrada. CORRELATION TRIANGLE. Esta opción indica que la matriz de correlaciones es triangular. Ejemplos Dedicaremos un apartado a los ejemplos correspondientes a este capítulo. En primer lugar, comentaremos un ejemplo sobre componentes principales y dos sobre análisis factorial. Ejemplo sobre componentes principales
A continuación, realizaremos un ejemplo con el fichero HOSPITAL, mediante la técnica de componentes principales. El fichero HOSPITAL, contiene datos asistenciales de 10 hospitales; los datos que tenemos de cada hospital son: PEX (consultas externas), PEN (estancias totales), URG (urgencias), INTO (intervenciones quirúrgicas), EXAT (exploraciones de alta tecnología) y EM (estancia media). Nuestro interés se centra en calcular componentes principales, que nos permitan explicar la información del fichero con el mínimo número de variables posible. Comience una sesión con SPSS y siga las siguientes instrucciones:
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
255
La utilización del procedimiento FACTOR, sin el subcomando EXTRACTION, indica a SPSS que los ejes deben seleccionarse mediante la técnica de componentes principales. Al no utilizar el subcomando ROTATION, SPSS realiza de forma automática la rotación VARIMAX. SPSS seleccionará todos los componentes principales mayores que 1. En caso de que quisiéramos seleccionar un número determinado de componentes principales, deberíamos utilizar el subcomando CRITERIA, con la extensión FACTORS(n). Los resultados obtenidos son los siguientes:
La tabla anterior muestra las comunalidades iniciales y los autovalores (eigenvalue) de la matriz de correlaciones. Como se explicó en el apartado correspondiente a componentes principales, las comunalidades iniciales en esta técnica son iguales a 1, puesto que la variabilidad total puede explicarse a partir de los 6 componentes. El primer factor tiene un valor de 2.44785, y él solo es capaz de explicar el 41.3% de la variabilidad total (Pct of Var). El segundo factor tiene un valor igual a 1.38925, y él solo explica el 23.2% de la variabilidad; entre los dos primeros factores explican el 64.5% de la variabilidad Cum Pct. Sólo hay tres factores con valores mayores que 1; por lo tanto, éstos son los componentes principales. Recordamos al lector que hay diversos criterios para seleccionar el número adecuado de componentes principales (ver Componentes princi-
256
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
pales), pero SPSS, por defecto, selecciona los que tienen valores superiores a 1. Mediante el subcomando CRITERIA con la extensión FACTORS(n), puede seleccionarse el número de factores que el lector estime necesario. En la gráfica siguiente, se representa de forma gráfica el valor de los factores; el gráfico es consecuencia de la extensión EIGEN del subcomando PLOT.
La tabla anterior expresa la matriz factorial, cuyos elementos son las puntuaciones factoriales aij; la suma de las puntuaciones al
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
257
cuadrado correspondientes a un factor, es igual al autovalor correspondiente a dicho factor. Por ejemplo, el autovalor correspondiente al primer factor es igual a la suma al cuadrado de las puntuaciones factoriales de dicho factor, con las variables originales: 2.47785 = (0.87402)2 + (0.63745)2 + ....... + (0.65242)2
Las puntuaciones factoriales también pueden considerarse como los coeficientes de correlación lineal de Pearson del factor y la variable implicados. Por ejemplo, 0.87402 es la puntuación factorial correspondiente a la variable PEX y el primer factor, y también el coeficiente de correlación entre el primer factor y la variable PEX. En la tabla siguiente se muestran las comunalidades finales, explicadas por los componentes seleccionados. En este caso, hay tres componentes principales, los cuales explican una proporción de variabilidad de 0.88792 de la variable PEX, 0.43078 de la variable PEN, 0.9731 de la variable URG, y así sucesivamente. En dicha tabla también se muestran los valores de los componentes seleccionados y la variabilidad total que explican juntos y separados. La comunalidad final de una variable es igual a la suma al cuadrado de las puntuaciones factoriales de dicha variable. Por ejemplo, la comunalidad final de la variable PEX es igual a: CFPEX= (0.87402)2 + (0.24522)2 = (.25273)2 = 0.8879.
258
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
259
La matriz factorial, rotada, muestra las puntuaciones factoriales correspondientes a las variables y a los factores rotados. Las comunalidades finales no cambian. Por ejemplo, la comunalidad final de la variable PEX es la suma al cuadrado de las puntuaciones factoriales de la matriz factorial rotada, correspondientes a la variable PEX:
Compare el resultado obtenido a partir de las puntuaciones factoriales de la matriz factorial no rotada con la matriz factorial rotada; los resultados son idénticos. El gráfico anterior, consecuencia del subcomando PLOT con la extensión ROTATION (12), muestra las variables en el plano definido por los dos componentes principales. El primer factor tiene una alta correlación con las variables PEX y EM y el segundo con las variables INTQ y EXAT. Podríamos decir que el primer factor está más relacionado con los pacientes ambulatorios y el segundo con los pacientes ingresados que precisan pruebas especiales. Ejemplo sobre análisis factorial exploratorio El fundamento de esta técnica es que el investigador cree que existen factores comunes asociados a las variables originales. En este estadio el investigador no sabe cuántos son los factores comunes; el número de factores se determinará explorando los autovalores de la matriz de correlaciones y los factores posibles, de ahí el nombre de AFE. A continuación, realizaremos un ejemplo con los datos del fichero CORONAR. En principio, tenemos la hipótesis de que existen factores comunes que pueden resumir la variabilidad de las variables CB (COLESTEROL BASAL), TB (TRIGLICERIDOS BÁSALES), TAS (TENSIÓN ARTERIAL SISTOLICA), TAD (TENSIÓN ARTERIAL DIASTOLICA), PESO y TALLA. Inicie una sesión con SPSS y siga las siguientes instrucciones:
260
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Las instrucciones anteriores indican a SPSS que se proceda a un análisis factorial. Los factores deben calcularse mediante la técnica de los ejes principales (EXTRACTION PAF). Los ejes deben rotarse mediante la técnica VARIMAX (al utilizar el subcomando EXTRACTION, la rotación de los ejes solamente se hace si se solicita expresamente mediante el subcomando ROTATION). No indicamos un número determinado de factores; por lo tanto, se trata de un AFE. Los resultados obtenidos son los siguientes:
En la tabla anterior se muestran las comunalidades iniciales, los autovalores correspondientes a los factores y la variabilidad que explican. Las comunalidades iniciales son distintas de 1. La comunalidad correspondiente a CB es 0.58111 y esto significa que sí construimos un modelo de REGRESIÓN MÚLTIPLE, en el crue la variable CB es la variable dependiente v las demás las
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
261
variables independientes. El coeficiente de determinación de dicho modelo es 0.58111, o, lo que es lo mismo, que las variables independientes explican un 58.111% de la variabilidad correspondiente al COLESTEROL BASAL, CB. Las comunalidades iniciales son un punto de partida en el proceso del análisis factorial. En el gráfico siguiente se muestran gráficamente los autovalores.
262
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior se expresan las comunalidades finales explicadas por los tres factores seleccionados. Los tres factores seleccionados explican un 70.497 % de la variabilidad de la variable CB, un 20.373 % de la variabilidad de la variable TB, y así sucesivamente. Los autovalores correspondientes a los factores comunes y la variabilidad que explican también está incluida en la tabla anterior.
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
263
En las tablas anteriores se muestran la matriz factorial rotada y la matriz de transformación. El primer factor tiene altas correlaciones con las variables TAS, TAD y CB. El segundo factor tiene altas correlaciones con las variables PESO y TALLA. El tercer factor solamente parece estar relacionado con la variable TB. Ejemplo sobre análisis factorial confirmatorio
En el análisis factorial confirmatorio, el investigador no sólo tiene una hipótesis previa sobre la existencia de factores comunes, también tiene una hipótesis previa sobre el número de factores. Siguiendo con el ejemplo CORONAR, supongamos que un investigador tiene la hipótesis de que la mayor parte de la variabilidad de las variables TAS, TAD, CB, TB, PESO y TALLA puede ser explicada por dos factores comunes. Para confirmar dicha hipótesis, debemos realizar un análisis factorial confirmatorio. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
En el conjunto de instrucciones anterior, el subcomando CRITERIA con la extensión FACTORS (2) indica que se extraigan dos factores; el subcomando EXTRACTION, con la extensión ML, indica que la selección de los ejes se realice mediante la técnica de máxima verosimilitud. Ésta es la técnica habitualmente empleada en el análisis factorial confirmatorio. Al igual que ocurría en el caso del análisis factorial exploratorio, el subcomando ROTATION debe emplearse si se desea que los factores sean rotados. Los resultados obtenidos son los siguientes:
264
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El contrate de hipótesis anterior evalúa si el número de factores elegidos es correcto. La hipótesis nula considera que dicho número es correcto; por tanto, si la significación es menor que 0.05 deberemos considerar otro número de factores. En este caso como la significación es mayor de 0.05, no rechazamos la hipótesis nula y,
COMPONENTES PRINCIPALES. ANÁLISIS FACTORIAL
265
por tanto, podemos considerar el número supuesto de factores correcto. El estadístico de contraste se basa en una complicada formula matricial. Dicho estadístico se distribuye según una distribución CHI CUADRADO con GL grados de libertad. Los grados de libertad se calculan según la siguiente expresión:
En la expresión anterior, K es el número de variables y m el número de factores. En nuestro ejemplo las variables son 6 y los factores 2; aplicando la expresión anterior, GL = 4.
266
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Las tablas y gráneos anteriores tienen el mismo significado que el descrito en el ejemplo de Componentes principales y análisis factorial exploratorio.
Capítulo 8 ANÁLISIS DISCRIMINANTE
INTRODUCCIÓN En muchas circunstancias disponemos de dos o más grupos de elementos, de los cuales conocemos datos correspondientes a varias variables numéricas. Ante esta situación, se nos plantean los dos problemas siguientes: A) Explicar la pertenencia de un elemento a un grupo determinado, en función de los valores de las variables disponibles ¿Qué variables explican la clasificación en grupos distintos? ¿Cuáles de estas variables son más importantes en la discriminación? B) Predecir a qué grupo pertenece o pertenecerá un elemento del que se conocen los valores de una serie de variables. Las disciplinas en que es útil el análisis discriminante son múltiples. En las ciencias de la salud es una técnica estadística cada vez más utilizada, debido a la difusión creciente de la informática. Algunos ejemplos, en los que la utilización del análisis discriminante es útil, son los siguientes. Supongamos que disponemos de dos grupos de individuos, de los que conocemos una serie de parámetros biológicos y sociales. Uno de los grupos de individuos padece una determinada enfermedad y el otro no la padece. Desde el punto de vista clínico, es importante conocer las variables capaces de discriminar de forma significativa entre enfermos y sanos; por otra parte, ante un nuevo
268
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
paciente es importante calcular la probabilidad de contraer una determinada enfermedad, conocidas una serie de variables. Ante un grupo de pacientes a los que hay que someter a una determinada técnica quirúrgica, es importante conocer las variables que pueden influir en el éxito o fracaso de la intervención. Ante un paciente susceptible de ser intervenido, sería importante calcular la probabilidad de éxito o de fracaso. En administración sanitaria también es útil el análisis discriminante. Podemos estudiar las variables que discriminen entre centros con buenos indicadores y malos indicadores, etc. La diferencia fundamental del análisis discriminante con los métodos de agrupamiento (CLUSTERS) es que, en el análisis discriminante, los grupos están definidos, mientras que en el análisis de CLUSTER se trata de definir los grupos ante un conjunto de individuos. En muchas ocasiones, el análisis de Cluster es un paso previo en el análisis discriminante: primero formamos los grupos y después detectamos qué variables influyen en la diferenciación en grupos. MÉTODOS DE ANÁLISIS DISCRIMINANTE En los ejemplos anteriores, hemos visto que en algunas ocasiones nos interesa explicar qué variables contribuyen de forma significativa a la diferenciación en dos o más grupos. En otras ocasiones, nos interesa calcular la probabilidad de que un individuo pertenezca a un determinado grupo. Según cual sea nuestro interés, utilizaremos uno de los dos métodos siguientes: I) ANÁLISIS FACTORIAL DISCRIMINANTE (ÁFD), el cual tiene como objetivo primordial explicar la pertenencia de un individuo a un determinado grupo. Este método también permite realizar predicciones, asignando a cada individuo al grupo más cercano a su puntuación factorial, pero el método de las funciones discriminantes es más potente en cuanto a predicciones. II) FUNCIONES DISCRIMINANTES. Este método pretende predecir la pertenencia de un individuo a un determinado grupo, en base a la probabilidad calculada, conocidos una serie de datos. El método de las funciones discriminantes calcula las probabili-
ANÁLISIS DISCRIMINANTE
269
dades de pertenecer a un determinado grupo según técnicas de decisión BAYESIANAS.
En la expresión anterior, D representa una determinada puntuación factorial y Gi el iésimo grupo. El primer miembro de la ecuación indica la probabilidad de que un individuo pertenezca al iésimo grupo sabiendo que tiene una puntuación factorial D. Dicha probabilidad se calcula a partir del teorema de Bayes, representado en el segundo miembro de la ecuación. En muchos casos prácticos utilizamos los dos métodos. Primero el AFD, a fin de determinar las variables explicativas, y después el método de las funciones discriminantes, a fin de calcular las probabilidades de pertenecer a un grupo, según los valores de una serie de variables. FUNCIÓN DISCRIMINANTE. PUNTUACIONES DISCRIMINANTES Supongamos que conocemos datos del colesterol basal (CB) y de la tensión arterial sistólica de un conjunto de individuos, entre los cuales podemos distinguir dos grupos, los afectados de cardiopatía isquémica y los no afectados de cardiopatía isquémica. Ni el valor del CB, ni el de la tensión arterial sistólica TAS son suficientes por sí solos para explicar por qué unos individuos están enfermos y otros no. Pero podemos tratar de obtener una variable discriminante, combinación lineal de las anteriores, que explique la pertenencia de un individuo a uno u otro grupo.
270
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
D es una función discriminante, combinación lineal de las variables discriminantes CB y TAS, en este caso. Ay B son los coeficientes discriminantes no estandarizados y C una constante. El valor de la función discriminante para un individuo determinado se calcula sustituyendo los valores de las variables en la función discriminante. Al valor obtenido se le denomina puntuación discriminante. En la función anterior, supongamos que C = 12, A = 1.5 y B = 0.9; el iésimo individuo tiene un CB de 250 y una TAS de 140 su puntuación discriminante es:
Calculamos el valor de D para todos los individuos enfermos y calculamos su media; a continuación, calcularemos las puntuaciones para los individuos no enfermos y también calcularemos su media. Asignamos un individuo al grupo cuyo centro esté más próximo. En el ejemplo anterior, supongamos que el grupo de enfermos tiene una puntuación media de 627 y el grupo de sanos de 400. La puntuación del individuo del ejemplo anterior está más próxima al valor medio del grupo de sanos que del valor medio del grupo de enfermos. Asignaremos a este individuo al grupo de sanos. Una vez concluida la asignación de todos los individuos, podemos estimar la capacidad explicativa del modelo, calculando el porcentaje de asignaciones correctas. El número máximo de funciones discriminantes es el valor mínimo entre el número de grupos menos 1 y el número de variables. En el caso de que las funciones discriminantes sean dos, definen un plano y habrá que calcular los límites de asignación de cada individuo a los grupos; si las variables son 3, definen un espacio tridimensional, etc. FUNDAMENTOS MATEMÁTICOS La variabilidad total podemos descomponerla en variabilidad dentro de los grupos y variabilidad entre grupos. En análisis discriminante nos interesa encontrar la función o funciones que maximicen
ANÁLISIS DISCRIMINANTE
271
el cociente entre la variabilidad entre grupos y la variabilidad dentro de grupos. De esta manera, la función debe tener el máximo poder posible de discriminación de los grupos.
En el gráfico anterior podemos observar que hay valores de las variables X e Y que pueden darse tanto en elementos del grupo A como del B; por tanto, dichas variables, por sí solas, no pueden discriminar los dos grupos. Proyectando ambos grupos sobre el eje Z, podemos discriminar los elementos pertenecientes a los grupos A y B. Por lo tanto, debemos calcular una función discriminante D, combinación lineal de X e Y definida sobre el eje Z. El caso anterior es un caso ideal de discriminación, en la mayoría de los casos prácticos, el poder de discriminación no es total. Las puntuaciones factoriales dependen de las unidades de medida; si queremos comparar el poder discriminante de cada variable, podemos hacerlo calculando las funciones discriminantes en función de las variables estandarizadas. El máximo poder discriminante corresponderá a la variable con mayor coeficiente en las funciones discriminantes estandarizadas.
272
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE CON SPSS. EL COMANDO DSCRIMINANT El comando DSCRIMINANT (NO HAY ERROR, LA PRIMERA I DE DISCRIMINANTE NO DEBE IR EN EL COMANDO), permite realizar análisis discriminante con el paquete estadístico SPSS. Este comando admite los siguientes subcomandos: GROUPS. VARIABLES. ANALYSIS. METHOD. MAXSTEPS. TOLERANCE. FIN. FOUT. PIN: POUT. VIN. FUNCTIONS. SELECT. PRIORS. SAVE. OPTIONS. STATISTICS.
Sintaxis mínima. Los subcomandos GROUPS y VARIABLES En un análisis discriminante con SPSS, deben figurar al menos los subcomandos GROUPS y VARIABLES. GROUPS permite definir cuáles son los grupos sobre los que queremos realizar el análisis y VARIABLES especifica las variables cuyo poder discriminante sobre los grupos definidos por GROUPS queremos estudiar. A continuación veremos un ejemplo. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
ANÁLISIS DISCRIMINANTE
273
La segunda orden indica a SPSS que proceda a realizar un análisis discriminante sobre los grupos definidos por la variable EC = 1 (ENFERMOS CORONARIOS) y EC = 2 (NO ENFERMOS). Nuestro interés se centra en estudiar el poder discriminante de las variables TAS, CB y EDAD sobre enfermos y sanos. Los resultados obtenidos son los siguientes:
274
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Los resultados anteriores constan de varias partes, que pasamos a describir. En primer lugar, se nos informa del número de casos incluidos en el análisis y el número de casos excluidos. En este caso se han incluido 70 casos y no se ha excluido ninguno. En segundo lugar, se nos muestra una tabla que indica los casos ponderados y no ponderados; en este ejemplo, no hay casos ponderados. En tercer lugar, se nos informa de los criterios de trabajo utiliza-
ANÁLISIS DISCRIMINANTE
275
dos, TOLERANCIA1 0.001, Número MÁXIMO DE FUNCIONES DISCRIMINANTES2 1, PORCENTAJE CUMULATIVO MÍNIMO DE LA VARIANZA 100, MÁXIMA SIGNIFICACIÓN DE LA LAMBDA DE WILKS 1.00 Y PROBABILIDAD A PRIORI3 0.5 (PRIOR PROBABILITY). En cuarto lugar, aparecen las funciones discriminantes canónicas y una serie de parámetros que nos indican si los factores discriminantes (en este caso sólo uno) contribuyen a diferenciar los grupos de forma significativa. El programa nos muestra el valor del LAMBDA de WILKS, y del siguiente estadístico:
En la expresión anterior, n es el número de casos, K el número de variables discriminantes, G el número de grupos y LW el valor del parámetro LAMBDA DE WILKS, cuyo significado describiremos en este mismo capítulo. El estadístico anterior se distribuye como una CHI cuadrado con K (G-l) grados de libertad; K es el número de variables discriminantes y G el número de grupos. En el ejemplo anterior, K= 3 y G = 2; por lo tanto, los grados de libertad son: 3 (2-1) = 3. Aplicando la expresión anterior a los datos del ejemplo anterior:
1
La tolerancia en este caso, es el porcentaje de la variabilidad de una variable, que no explican las otras variables discriminantes. Si la tolerancia es menor que 0.001, no se incluirá aunque cumpla otros criterios de selección. Este valor puede ser modificado por el usuario. 2 Recuérdese que el número máximo de funciones discriminantes es el mínimo entre el número de grupos menos 1 y el número de variables discriminantes; en este caso, el número de grupos menos 1 es 2— 1 = 1, y el número de variables discriminantes es 3; el mínimo entre 1 y 3 es 1 y éste es el número máximo de funciones discriminantes. 3 La probabilidad a priori tiene una gran influencia en las predicciones. MÉTODO DE LAS FUNCIONES DISCRIMINANTES: esta probabilidad es modificable por el usuario mediante el subcomando PRIORS, como veremos en este mismo capítulo.
276
ESTADÍSTICA MLJLTIVARLANTE Y NO PARAMÉTRICA CON SPSS
La interpretación es que la función discriminante diferencia los grupos de forma significativa. También nos indica para cada función discriminante el correspondiente autovalor (EIGENVALUE) al único factor de la función discriminante que recoge mayor variabilidad (en este caso, sólo hay una función discriminante); si hubiera más factores discriminantes, tendríamos un autovalor por cada factor. El porcentaje de varianza que explica cada función discriminante y la varianza explicada acumulada (cumulative percent) por la función actualmente en descripción y la suma de las anteriores. (En nuestro caso, al haber sólo una función, coinciden la varianza explicada y la acumulada.) La correlación canónica es el coeficiente de correlación de Pearson, entre la puntuación discriminante y los grupos, es equivalente al coeficiente ETA en el análisis de la varianza. En quinto lugar se muestran los coeficientes factoriales estandarizados correspondientes a cada variable para cada función discriminante. Si los coeficientes son estandarizados, el mayor indica que su correspondiente variable es la que más influye en la discriminación; en nuestro caso, el coeficiente mayor corresponde a CB (COLESTEROL BASAL), 0.71749. Si los coeficientes no están estandarizados, el valor de cada coeficiente depende de las unidades de medida y no son comparables. Las puntuaciones discriminantes se calculan a partir de los coeficientes no estandarizados. Mediante el subcomando STATISTIC, podremos obtener los coeficientes no estandarizados, lo cual veremos en el último ejemplo de este capítulo, (ver subapartado «El subcomando STATISTICS»). En sexto lugar se nos muestran los coeficientes de correlación entre las variables discriminantes y la función discriminante (POOLED WITHIN GROUPS...). Coeficientes cercanos a 1 indican una alta asociación entre la variable y la función; correlaciones próximas a cero indican escasa o nula asociación. En este caso, el orden de asociación entre las variables y la función es CB = 0.75547, TAS = 0.66759 y EDAD =0.21508. En séptimo lugar se muestran los valores medios de los grupos de enfermos (EC = 1) y sanos (EC = 2), cuyos valores son 3.13170 para enfermos y —1.16671 para sanos.
ANÁLISIS DISCRIMINANTE
277
El subcomando ANALYSIS Este subcomando permite seleccionar diversos análisis discriminantes con las variables indicadas en el subcomando VARIABLES, con los mismos grupos. En el siguiente grupo de órdenes:
En el ejemplo anterior estamos interesados en un análisis discriminante con los dos grupos definidos por el subcomando GROUPS y la variable VARG (1,2). Las 7 variables discriminantes, de VARI A VAR7, van a incluirse en tres análisis distintos, lo cual es posible mediante el subcomando ANALYSIS. En el primero, sólo van a intervenir como variables discriminantes VAR1, VAR2 y VAR3; en el segundo intervienen VAR2, VAR3, VAR5 y VAR6; en el último intervienen todas las variables. El subcomando ANALYSIS permite controlar el orden de entrada en el modelo. A las variables podemos asignarles un nivel (LEVEL), con un número del 1 al 99; las variables con un nivel mayor entran primero en el modelo. Si cumplen los requisitos de entrada, las variables con igual nivel se consideran para entrar en el modelo a la vez; las variables con un nivel mayor que uno, una vez incluidas en el modelo, no pueden eliminarse.
278
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
En el ejemplo anterior se ha asignado nivel 2 a las variables VAR5 y VAR6, y nivel 1 al resto; el nivel por defecto es el 1. El subcomando METHOD Este subcomando permite indicar el método de selección de variables. En general, nos interesa incluir en la función discriminante sólo las variables que contribuyan de forma significativa a diferenciar los grupos. Todas las opciones disponibles con SPSS, menos la primera, son hacia adelante e incorporan a la función discriminante variables de una en una; si cumplen los criterios de entrada. (Por defecto, el criterio de entrada F > 1 Y TOLERANCIA < 0.001), las variables se incorporan. Una variable que se ha incorporado puede salir de la ecuación si en un paso posterior, al incorporar otra variable, el valor de F disminuye por debajo de 1. Los criterios de entrada y de salida son modificables por el usuario (Ver subcomandos de criterio). El método anterior, en el que las variables se incorporan paso a paso y pueden eliminarse en un paso posterior a su entrada, se denomina STEPWISE. Las opciones disponibles usan como método de selección el STEPWISE. Podemos seleccionar el criterio de incorporación de variables. Las opciones disponibles son las siguientes: DIRECT. Ésta es la opción por defecto. Cuando no usamos el subcomando METHOD, incorpora todas las variables a la función discriminante, sin selección previa en cuanto a su significación. WILKS. Es un método STEPWISE. Esta opción incorpora la función discriminante a la variable cuyo valor de LAMBDA de WILKS es menor, entre todas las que cumplen el criterio de entrada PIN. El parámetro LAMBDA de WILKS es el cociente entre el determinante de la matriz de variabilidad dentro de grupos y el determinante de la variabilidad total; si es próximo a cero, indica que la mayor parte de la variabilidad es entre los grupos y, por tanto, su correspondiente variable influye en la diferenciación de los grupos. Por el contrario, si su valor es próximo a 1, indica que la mayor parte de la variabilidad es dentro de grupos y que la variable no influye de forma
ANÁLISIS DISCRIMINANTE
279
importante en la diferenciación entre grupos. La variabilidad total es igual a la variabilidad entre grupos más la variabilidad dentro de grupos. RAO. Es un método STEPWISE. Esta opción incorpora la función discriminante la variable cuya V de RAO es máxima entre todas las que cumplen el criterio de entrada PIN. La V de RAO es un parámetro estadístico, que viene dado por la siguiente expresión:
En la expresión anterior, n es el número de casos procesados, G el número de grupos, k el número de variables independientes, Cij es un elemento de la matriz inversa de varianzas covarianzas dentro de grupos, ns es el número de casos correspondientes al esésimo grupo, Xis es la media de la iésima variable en el esésimo grupo, Xi es la media de la iésima variable en el total de los grupos. Una V de RAO grande indica que la variable implicada diferencia los grupos más que otra variable con una V de RAO menor. MAHAL. Es un método STEPWISE. Esta opción incorpora a la función discriminante la variable cuyo valor de la distancia de Mahalanobis es mayor entre todas las que cumplen el criterio de entrada PIN. La distancia de Mahalanobis, es una medida de distancia entre dos grupos, muy útil en la diferenciación entre grupos; entre dos variables, influye más en la diferenciación entre dos grupos la que tiene mayor distancia de Mahalanobis. La distancia de Mahalanobis viene dada por la siguiente expresión:
280
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la expresión anterior, n es el número de casos procesados, G el número de grupos, k el número de variables independientes, cij es un elemento de la matriz inversa de varianzas covarianzas dentro de grupos y Xia es la media de la iésima variable en el grupo a. Una distancia de Mahalanobis grande indica que la variable implicada diferencia los grupos más que otra variable con una V de RAO menor. MAXMINF. Es un método STEPWISE. Esta opción selecciona la variable que maximiza la menor F entre pares de grupos. Un contraste de hipótesis para la igualdad de medias en dos poblaciones, se basa en el siguiente estadístico:
Bajo la hipótesis nula de igualdad de medias, el estadístico anterior se distribuye como una F de Snedecor. En la expresión anterior, n es el tamaño muestral, nA es el tamaño de la muestra correspondiente al grupo A, nB es el tamaño de la muestra correspondiente al grupo B, K es el número de variables discriminantes y D2AB es la distancia de Mahalanobis entre los grupos A y B. El método, en cada caso, selecciona la variable, que hace máxima la menor F entre cada dos grupos. Si tenemos tres grupos A, B y C, para cada variable que incluir en el modelo se calcula el valor de las F según la expresión anterior, entre todos los pares de grupos posibles; en nuestro caso, AB, AC y BC, anotando el valor menor de las 3 F (en este caso) para cada variable. La variable seleccionada para entrar en el modelo es aquella cuya F anotada es la mayor de todas. En el caso de dos grupos, se incluye en el modelo la variable cuya F sea máxima, ya que para cada variable sólo hay una posible F, al haber sólo dos grupos. Para que una variable se incluya en el modelo, además del criterio anterior, debe cumplir el criterio de entrada PIN. MINRESID. Es un método STEPWISE, selecciona la variable que minimiza la suma de la variación no explicada entre grupos.
ANÁLISIS DISCRIMINANTE
281
Podemos considerar un análisis discriminante para cada dos grupos como una regresión múltiple, en la que la variable dependiente toma valores 0 ó l , 0 para el grupo A y 1 para el grupo B. De hecho, la distancia de Mahalanobis y el coeficiente de determinación son proporcionales:
En la expresión anterior, c es una constante que determinar en cada caso. Para cada par de grupos, la variabilidad no explicada por el modelo es: 1 — R2AB. La suma de la variabilidad no explicada para cada par de grupos puede utilizarse como criterio de selección. La variable que incluir en el modelo es aquella que minimiza la suma de las variabilidades no explicadas, tomando los grupos dos a dos. En el caso de que haya sólo dos grupos, la variable seleccionada es aquella que minimiza 1 — R2AB. A continuación veremos un ejemplo con el fichero VASCULAR, basado en el criterio del LAMBDA de Wilks. Inicie una sesión con SPSS y siga las siguientes instrucciones:
En el grupo de instrucciones anteriores, se indica a SPSS que realice un análisis discriminante con las variables CB, EDAD, PESO y TALLA, a fin de determinar a cuáles diferencian mejor los grupos HTA = 0 (no hipertensos) y HTA = 1 (hipertensos). Los resultados obtenidos son los siguientes:
282
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE
283
284
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Canonical Discriminant Functions evaluated at Group Means (Group Centroids)
ANÁLISIS DISCRIMINANTE
285
Los resultados anteriores nos muestran en primer lugar las informaciones ya comentadas en el primer ejemplo. A continuación de prior probability 0.500, hay una tabla con todas las variables discriminantes en la que se indican la tolerancia4, el valor de la F y el valor del LAMBDA de Wilks (LW). El criterio de entrada seleccionado por nosotros es el del LW; entrando en el modelo la variable cuyo LW sea menor, siempre y cuando la correspondiente F sea significativa, el valor menor corresponde al CB, con un valor de 0.43088; como su correspondiente F es significativa, ésta es la primera variable discriminante incorporada. Después de la tabla descrita anteriormente, se muestra la tabla titulada: VARIABLES NOT IN THE ECUACIÓN AFTER STEP 1, variables no incluidas después del primer paso. En esta tabla aparecen la tolerancia respecto a las variables incluidas, CB en este caso, el valor de la F y del LW; la variable que se incorporará en el próximo paso es aquella cuyo LW sea el menor, siempre y cuando sea significativa su contribución a diferenciar los grupos. En este caso, el valor mínimo del LW es 0.41084 y corresponde a la variable PESO, la cual se incorpora al modelo. Después de la incorporación de esta variable no se incorpora ninguna más, puesto que ni la edad ni la talla diferencian de forma significativa ambos grupos. Una vez incorporadas las variables que contribuyen significativamente a la discriminación, aparecen los coeficientes estandarizados de las dos variables incluidas, puesto que los coeficientes son estandarizados, son comparables y su valor está relacionado con la importancia que tienen en la discriminación, la variable CB, con un coeficiente de 0,8785, es la más discriminante. A continuación de esta información se muestran los coeficientes de correlación simple 4
En este caso, la tolerancia se considera la variabilidad de cada variable, no explicada por las variables incluidas en el modelo; puesto que hasta el momento no hay ninguna variable, la tolerancia es 1 para todas, ya que al no haber ninguna variable la variabilidad no explicada es el 100%.
286
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
de Pearson, entre todas las variables discriminantes significativas y no significativas con la función discriminante. Por último aparecen las coordenadas de la proyección del centroide de cada grupo sobre la función discriminante; en este caso, las coordenadas en la función discriminante para los no hipertensos, UTA = 0, es —0.65872 y 2.10789 para los hipertensos HTA = 1. El subcomando MAXSTEPS Este subcomando permite modificar el máximo número de pasos en la selección de las variables, cuando empleamos un método paso a paso (STEPWISE). El máximo número posible es el doble del de variables discriminantes en el caso de no utilizar el subcomando ANALYSIS. Si utilizamos el subcomando ANALYSIS, el máximo número posible es el doble de variables con nivel 1, más el número de variables con nivel mayor que 1. Este subcomando se aplica únicamente al último ANALYSIS subcomando utilizado. MAXSTEPS = m indica que el máximo número de pasos debe ser m, siempre que m sea menor que el máximo número de pasos posible. En caso de utilizar el subcomando MAXSTEP, debe ir inmediatamente detrás del subcomando METHOD. Subcomandos de CRITERIO Al comando DSCRIMINANT pueden asociársele varios subcomandos, a fin de regular por parte del usuario los criterios de entrada y de salida de las variables en el modelo. En caso de utilizar uno o más de los subcomandos siguientes, deben especificarse inmediatamente después del subcomando METHOD. A diferencia de otros comandos de SPSS, en los que existe un subcomando CRITERIA con varias opciones, en este caso cada una de las opciones que se analizan a continuación son SUBCOMANDOS y, por tanto, al utilizar cualquiera de ellos debe ir precedido del separador habitual entre subcomandos (/). TOLERANCE n. Este subcomando permite regular el nivel mínimo de tolerancia de una variable; por defecto, el nivel de tole-
ANÁLISIS DISCRIMINANTE
287
rancia es 0.001, pero el usuario puede especificar cualquier valor de la tolerancia entre 0 y 1, sustituyendo el valor deseado en el lugar de n. Por ejemplo, TOLERANCE=0.01 significa que el usuario desea que se considere como nivel mínimo de tolerancia 0.01. FIN=n. Este subcomando permite especificar el valor mínimo de la F correspondiente a una variable para entrar en el modelo. El comando DSCRIMINANT utiliza como criterio de entrada el valor de la F; por defecto, el valor mínimo es 1. El usuario puede especificar cualquier valor en lugar de n. Por ejemplo, FIN=4 indica sólo pueden incorporarse al modelo aquellas variables cuya F sea mayor de 4. Puede especificarse cualquier número positivo. FOUT=n. Este subcomando permite especificar el mínimo valor de la F, correspondiente a una variable para que permanezca en el modelo; en ocasiones, al incorporar una variable a un modelo discriminante, otra variable que había sido incorporada en un paso anterior puede disminuir el valor de su correspondiente F FOUT permite que el usuario determine el mínimo valor que debe tener para que permanezca en el modelo. Por ejemplo, FOUT =1.4 indica qué variables cuya correspondiente F sea menor que 1.4 deben ser eliminadas del modelo (salvo algunas excepciones, como haber asignado un nivel mayor que 1 a la variable cuya F es menor que el valor indicado por FOUT) mediante el subcomando ANALYSIS. El valor por defecto es 1.0. PIN=n. Con el comando DSCRIMINANT, el criterio por defecto que utilizar no es el nivel de significación PIN, sino FIN. Si el usuario quiere utilizar este criterio como entrada de las variables en el modelo, puede especificar el valor deseado entre 0 y 1 con el subcomando PIN, poniendo el valor requerido en el lugar de n. Por ejemplo, PIN=0.05 indica que, para que una variable entre en el modelo, su nivel de significación debe ser igual o menor que 0.05. POUT=n. Este subcomando permite considerar como criterio de salida de una variable del modelo el nivel de significación. El comando DSCRIMINANT utiliza como criterio de salida el valor de la F, el cual puede ser regulado por FOUT. Si el usuario lo prefiere, puede utilizar el subcomando POUT para que el criterio de salida sea la significación. El nivel de significación puede ser cualquier número entre 0 y 1. Por ejemplo, POUT=0.1 indica que para que
288
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
una variable se elimine de un modelo una vez introducida en un paso anterior, su nivel de significación debe ser mayor que 0.1. VIN=n. Este subcomando permite definir como criterio de entrada el valor de la V de RAO; el valor por defecto es 0. Número de funciones discriminantes. El subcomando FUNCTIONS Este subcomando permite controlar el número de funciones discriminantes. El número máximo de funciones discriminantes es el valor mínimo entre el número de grupos menos 1 y el número de variables discriminantes; si sólo hay dos grupos, el número máximo de funciones discriminantes es 1. Independientemente del número de variables discriminantes, si el número de grupos es 4 y el de variables discriminantes 2, el máximo número de funciones discriminantes es 2, porque el número de grupos menos 1 es 3 y el de variables discriminantes 2. Como hay que tomar como máximo el número menor que los anteriores, en este caso el número máximo de funciones discriminantes sería dos. El subcomando FUNCTIONS permite designar un número de funciones discriminantes menor que el máximo posible según los criterios expuestos en el párrafo anterior. Por ejemplo, si en un caso fuera posible calcular 3 funciones discriminantes, FUNCTIONS=2 indicaría a SPSS que sólo deben calcularse dos funciones discriminantes de las tres posibles. El subcomando SELECT Esta es una interesante opción, que permite seleccionar un grupo de casos del fichero. Supongamos que queremos estudiar la dependencia de la enfermedad coronaria EC, en función de la tensión arterial sistólica TAS, en función del colesterol CB y de la tensión arterial diastólica TAD, pero dicho modelo queremos realizarlo en HOMBRES. El subcomando SELECT nos permite seleccionar los sujetos que van a intervenir en el modelo, que serán los que cumplan la proposición indicada por SELECT.
ANÁLISIS DISCRIMINANTE
289
La sintaxis del subcomando SELECT, en el caso del comando DSCRIMINANT, es distinta a otros subcomandos SELECT analizados para otros subcomandos. En este caso, la sintaxis es la siguiente: /SELECT= VAR (NE) los casos seleccionadas para el análisis son aquellos que en la variable asociada a SELECT tengan el valor indicado en lugar de NE. NE debe ser un número entero. Por ejemplo, /SELECT= FUMA (l) selecciona para el análisis a los individuos fumadores. Este subcomando sólo se aplica durante el análisis en curso sin afectar al fichero activo. Una vez terminado el análisis discriminante, el fichero activo será el existente antes de realizarlo. En caso de utilizar el subcomando SELECT, debe preceder al primer subcomando ANALYSIS cuando dicho subcomando se haya utilizado. El subcomando OPTIONS Este subcomando permite al usuario especificar algunas características de las salidas de resultados y también el tratamiento de valores ausentes. Las opciones disponibles son las siguientes: TRATAMIENTO DE LOS VALORES AUSENTES (MISSING)
OPTION 1. Esta opción incluye en el análisis como casos válidos, los valores ausentes (MISSING) definidos por el usuario, los valores ausentes de sistema seguirán siendo considerados como tales. OPTION 8. Esta opción sustituye, durante la clasificación, los valores ausentes por las medias aritméticas. Durante el análisis, los valores ausentes no se procesan; esta opción sólo afecta al proceso de clasificación 5. 5 Clasificación: Una vez calculadas las funciones discriminantes, se clasifica cada caso en el grupo cuya probabilidad es mayor (ver apartado 5.9, subcomando STATISTICS 13 y 14).
290
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
OPCIONES QUE AFECTAN A LAS SALIDAS DE RESULTADOS
OPTION 4. Esta opción suprime la salida de los resultados paso a paso, en el caso de utilizar un método STEPWISE. OPTION 5. Esta opción suprime la tabla sumario de los resultados. OTRAS OPCIONES
OPTION 6. Esta opción permite la rotación VARIMAX de la matriz de coeficientes de la función discriminante. OPTION 7. Esta opción permite la rotación VARIMAX de la matriz de estructura. OPTION 9. En caso de utilizar el subcomando SELECT, el proceso de clasificación se realiza para los individuos seleccionados y no seleccionados. Utilizar esta opción elimina la clasificación de los individuos no seleccionados. OPTION 10. El subcomando GROUPS define los valores de la variable que van a determinar los grupos. Por ejemplo: GROUPS var (1,3) indica que los grupos son tres, según el valor de VAR sea 1, 2 ó 3, pero esta variable puede tener más valores, supongamos que VAR toma valores enteros del 1 al 5: los individuos con valores 4 ó 5, quedan excluidos del análisis. Esta opción permite que la clasificación se realice únicamente con los individuos excluidos de los grupos. En el ejemplo anterior, utilizar la opción 10 significaría clasificar únicamente a los individuos con valores de VAR 4 ó 5. OPTION 11. En el proceso de clasificación interviene la matriz de varianzas covarianzas intragrupo conjunta. Esta opción determina que en la clasificación se realice a partir de las matrices de varianzas covarianzas intragrupo separadas. Las opciones 2 y 3 no existen. / OPTION 1 6 9 La línea anterior incluida en un comando DSCRIMINANT, especifica que se utilicen las opciones 1, 6 y 9.
ANÁLISIS DISCRIMINANTE
291
El subcomando STATISTICS Este subcomando permite obtener diversos resultados estadísticos como consecuencia del análisis. STATISTIC 1. En la salida de resultados, se muestran las medias de todas las variables discriminantes para el total de los datos y para cada grupo definido mediante el subcomando GROUP. STATISTIC 2. En la salida de resultados, se muestran las desviaciones típicas de todas las variables discriminantes, para el total de los datos y para cada grupo definido mediante el subcomando GROUP. STATISTIC 3. En la salida de resultados, se muestra la matriz de varianzas covarianzas intragrupos conjunta. STATISTIC 4. Matriz de correlaciones dentro de grupos. STATISTIC 5. Muestra los valores de las F para cada par de grupos correspondientes a la significación de la distancia de Mahalanobis. Aplicable a métodos STEPWISE. STATISTIC 6. Realiza un análisis de la varianza de una vía, con cada una de las variables discriminantes, en relación con los grupos definidos por GROUPS. STATISTIC 7. Realiza la prueba M de BOX para la igualdad de matrices de covarianzas entre los grupos definidos por GROUPS. STATISTIC 8. Muestra, para cada grupo definido mediante GROUPS, la matriz de covarianzas. STATISTIC 9. Matriz de varianzas covarianzas para el total, sin tener en cuenta los grupos. STATISTIC 10. Muestra un gráfico para el mapa territorial, que define los límites de los grupos, según los resultados del análisis discriminante. Si hay una función discriminante, el mapa se realiza sobre una recta; si hay dos funciones discriminantes, sobre un plano, y así sucesivamente. STATISTIC 11. Coeficientes no estandarizados de las funciones discriminantes. STATISTIC 12. Coeficientes de las funciones para la clasificación. STATISTIC 13. Tabla con el resumen de resultados de la clasificación.
292
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
STATISTIC 14. Tabla que incluye la puntuación discriminante y el grupo en que ha sido clasificado cada caso. STATISTIC 15. Muestra un gráfico de las puntuaciones discriminantes para todos los grupos de forma conjunta. El tipo de gráfico varía en función del número de funciones discriminantes. STATISTIC 16. Muestra un gráfico para cada grupo con las puntuaciones discriminantes. Al igual que en el caso anterior, el gráfico varía según el número de funciones discriminantes. A continuación veremos un ejemplo, en el que destacaremos algunas de las opciones más importantes del subcomando STATISTICS y algunos de criterio. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
El conjunto de instrucciones anterior permite realizar un análisis discriminante con las variables EDAD, CB, TALLA y PESO en relación con los grupos definidos por EC = 0 (no enfermos) y EC = 1 (enfermos coronarios). El método del análisis es STEPWISE, y usa como parámetro el lambda de Wilks. Los criterios de entrada y salida se han modificado (el criterio por defecto es el valor de la F), mediante PIN y POUT, respectivamente; entrarán a formar parte del modelo aquellas variables cuya F tenga un nivel de significación igual o menor que 0.05 y saldrán de la ecuación las variables ya incluidas en el modelo que, en algún paso posterior, tengan un nivel de significación mayor que 0.1. El subcomando STATISTICS solicita los estadísticos 1, 6, 10, 11, 12, 13, 14, 15 y 16. Los resultados obtenidos son los siguientes:
ANÁLISIS DISCRIMINANTE
293
La primera de las dos tablas anteriores, muestra las medias por grupos y para el total de los datos de todas las variables discrimi-
294
ESTADÍSTICA MULTIV ARLANTE Y NO PARAMÉTRICA CON SPSS
nantes; es consecuencia de STATISTIC 1. La segunda tabla nos muestra los resultados obtenidos al realizar una comparación de medias entre los dos grupos definidos mediante GROUPS, EC = 0 y EC — 1, con todas las variables discriminantes. Se han detectado diferencias significativas en todas las variables, excepto la TALLA. La prueba anterior se ha realizado mediante el análisis de la varianza de una vía. El que las diferencias sean significativas al comparar las variables una a una, no quiere decir que al considerarlas todas de forma conjunta sigan siendo significativas, puesto que puede haber fenómenos de confusión o de modificación del efecto. La tabla anterior es consecuencia del STATISTIC 6.
ANÁLISIS DISCRIMINANTE
295
296
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE
297
La tabla anterior, CONSECUENCIA DE statistic 11, muestra los coeficientes no estandarizados correspondientes a las variables incluidas en el modelo. La función discriminante, por tanto, es:
298
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE
299
La tabla anterior, consecuencia de STATISTIC 14, muestra para cada caso el grupo al que pertenece y la probabilidad de que pertenezca a cada uno de los grupos en base a los valores de las variables. El método utilizado es el de las funciones discriminantes, basado en el cálculo de probabilidades según técnicas BAYESIANAS. Por ejemplo, el caso uno pertenece al grupo 1 (enfermos); el grupo al que se predice su pertenencia es al 1. La probabilidad de tener unos valores de la función discriminante como el que se observa perteneciente al grupo 1 es: P (D/G) = 0.4938. La probabilidad de pertenecer al grupo 1 con un valor de la función discriminante como el observado es: P (G/D) = 1.00; seguidamente, nos indica la probabilidad de pertenecer al grupo 2, con un valor de la función discriminante como el observado, es 0.00. La suma de todas las P (G/D), para cada caso, debe ser igual a 1. Por último, la tabla nos muestra la puntuación factorial (SCORE) para cada caso. El caso 7 es el único en el que difieren los grupos observado y clasificado; dicho caso pertenece al grupo 1, pero el programa lo clasifica en el grupo 0, según el valor de su función" discriminante. La probabilidad a priori tiene una gran influencia en los procesos de clasificación; esta probabilidad puede ser modificada por el usuario mediante el subcomando PRIOR, (Ver subapartado «El subcomando PRIOR»).
300
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
ANÁLISIS DISCRIMINANTE
301
Classification Processing Summary 65 Cases were processed. 0 Cases were excluded for missing or out-of-range group codes. 0 Cases had at least one missing discriminating variable. 65 Cases were used for printed.output.
De los tres gráficos anteriores, los dos primeros consecuencia del STATISTIC 16 nos muestran los casos para cada grupo en función del valor de la función discriminante para cada caso. El tercer gráfico consecuencia de STATISTICS 15 nos muestra, en un mismo gráfico, los valores de las puntuaciones discriminantes para los dos grupos. La última tabla consecuencia de STATISTIC 13 muestra un resu-
302
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
men de la clasificación observada y estimada; en este caso, la concordancia entre las observaciones y el análisis es del 98.46 %. El subcomando PRIORS La probabilidad a priori se establece por defecto igualmente para todos los grupos. La probabilidad a priori influye de forma decisiva en los procesos de clasificación que se realizan según reglas BAYESIANAS. Las opciones disponibles son las siguientes: EQUAL. Esta es la opción por defecto. Aplica a todos los grupos la misma probabilidad; si hay dos grupos 50%, si hay tres grupos, 33.33%, etc. SIZE. Calcula la probabilidad a priori, en base al fichero de trabajo. Supongamos que, en un análisis discriminante, tenemos un 30% de enfermos, en caso de utilizar el subcomando PRIORS con la opción SIZE, SPSS utiliza como probabilidad a priori en los procesos de clasificación 30%. LISTA. Asigna a cada grupo el valor de la probabilidad definido en la lista. Por ejemplo, supongamos que la siguiente línea forma parte de un comando DSCRIMINANT en el que se han definido tres grupos: / PRIORS= 0.3 0.6 0.1 La línea anterior determina que se aplique como probabilidad a priori para el primer grupo 0.3, 0.6 para el segundo y 0.1 para el tercero, independientemente de las proporciones de cada grupo existentes en el fichero original. El subcomando SAVE Este subcomando permite incorporar al fichero activo variables que contienen información sobre el análisis discriminante realizado. Las opciones disponibles son las siguientes: CLASS NV. Incorpora al fichero activo una nueva variable, cuyo nombre es el especificado en lugar de NV y cuyo valor para cada caso es el grupo en que ha sido clasificado.
ANÁLISIS DISCRIMINANTE
303
PROBS NV. Incorpora al fichero activo tantas variables como grupos definidos por GROUPS. El nombre de las variables comienza por el especificado, en lugar de NV, y se añade un número correlativo 1 para el primer grupo, 2 para el segundo, etc. El valor de cada variable para cada caso es la probabilidad calculada de que cada caso pertenezca a cada uno de los grupos. SCORES NV. Incorpora al fichero activo tantas variables como funciones discriminantes. El nombre de cada una es el especificado en lugar de NV, con un número correlativo 1 para la primera función discriminante, 2 para la segunda, etc. El valor de la variable en cada caso es el valor de la puntuación discriminante para cada función.
Capítulo 9 ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
En este capítulo, vamos a estudiar un conjunto amplio de pruebas estadísticas, agrupadas bajo el epígrafe de estadística no paramétnca o métodos de distribución libre. Estas pruebas se realizan con el paquete estadístico SPSS, mediante el procedimiento NPAR, asociándole el subcomando correspondiente a la prueba que queramos ejecutar. ESTADÍSTICA PARAMÉTRICA Y NO PARAMÉTRICA La mayoría de las pruebas estadísticas analizadas en capítulos anteriores se basaban en que la variable estadística, o media aritmética muestral, se distribuía en la población según una distribución normal. Las pruebas estadísticas que en su ejecución implicaba que un estadístico siga la distribución t de Student, F de Snedecor o CHICUADRADO asumían ciertas hipótesis previas; la más general es que la media muestral siga una distribución normal. En otras ocasiones, para la correcta aplicación de la prueba se exigía la homogeneidad de varianzas, etc. A las pruebas anteriores se las denomina pruebas PARAMÉTRICAS, y el uso de estas pruebas en casos en que no se cumplan las condiciones exigidas puede llevar a cometer importantes errores estadísticos. Las pruebas de comparación de medias, el análisis de la varianza, análisis de regresión, etc, exigen, para su correcta aplicación, la distribución normal de
306
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
alguno de los estadísticos utilizados y/o homogeneidad de las varianzas. El incumplimiento de las exigencias de las pruebas paramétricas (sobre todo la normalidad), es más fácil que ocurra en muestras pequeñas (menores de 30 casos). Por otra parte, las pruebas paramétricas aumentan su potencia estadística en relación con las no paramétricas según aumenta el tamaño de la muestra. En muestras menores de 11 casos, la potencia estadística de las pruebas paramétricas y no paramétricas es equivalente, teniendo en cuenta que las exigencias para las pruebas no paramétricas son menores y que detectar violaciones de las condiciones de aplicabilidad en las pruebas paramétricas es más difícil. Ello hace aconsejable utilizar pruebas estadísticas no paramétricas cuando tengamos muestras menores de 11 casos. Las pruebas no paramétricas deben aplicarse cuando el tamaño de la muestra sea menor de 11 casos y cuando el tamaño de la muestra sea mayor de 11 casos, pero no se cumplan las condiciones de aplicabilidad de las pruebas paramétricas. Otra circunstancia que influye en la popularidad creciente de estas pruebas es que los conocimientos estadísticos para comprenderlas son mínimos, mientras que los conocimientos estadísticos necesarios para comprender las pruebas paramétricas son mucho más extensos. Las pruebas no paramétricas se denominan también pruebas de distribución libre, debido a que en la mayoría de ellas no es importante cómo se distribuyan los datos. Las pruebas no paramétricas pueden aplicarse a datos que sigan distribuciones normales o no, lo cual implica que estas pruebas pueden realizarse incluso en casos en los que se cumplan las condiciones de aplicabilidad de las pruebas paramétricas. Resumiendo, podríamos decir que las pruebas no paramétricas son aplicables en casi todos los casos, mientras que las pruebas paramétricas sólo son aplicables bajo ciertas condiciones. EL PROCEDIMIENTO NPAR Este procedimiento permite realizar 17 pruebas no paramétricas, indicando cuál queremos realizar en cada caso mediante el corres-
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
307
pondiente subcomando. Además de los 16 comandos específicos para cada prueba, NPAR admite también los subcomandos OPTIONS y STATISTICS, que pueden utilizarse opcionalmente en todas las pruebas no paramétricas disponibles. Clasificaremos a las pruebas no paramétricas, para su estudio, según el número de muestras, y la relación existente entre ellas de la siguiente manera:
En base a la clasificación anterior, desarrollaremos el contenido de este capítulo. Al comando NPAR le podemos asociar 19 subcomandos; 17 son los correspondientes a las 17 pruebas no paramétricas disponibles, los cuales veremos uno a uno junto a cada prueba; los otros dos STATISTICS y OPTIONS, son aplicables en todas las pruebas.
El subcomando OPTIONS Este subcomando, aplicable en todas las pruebas, tiene las siguientes opciones: 1) Incluye en el análisis los casos con valores ausentes de usuario. Por defecto, SPSS excluye de cada análisis los casos con valores ausentes en las variables implicadas en dicho análisis. 2) Excluye los casos con valores ausentes en alguna de las variables incluida en los análisis. Por ejemplo, si mediante el comando NPAR realizamos varias pruebas, esta opción excluye del análisis en todas las pruebas a cualquier variable que participe en el análisis, y que tenga valores ausentes. 3) Esta opción es aplicable solamente con las pruebas de Mcne-
308
ESTADÍSTICA MULTIVAMANTE Y NO PARAMÉTRICA CON SPSS
mar, de los signos y de Wilcoxon, y es útil cuando queramos realizar la misma prueba con varias variables.
La instrucción anterior, sin ninguna opción, realiza la prueba de Wilcoxon en dos ocasiones; en primer lugar, con las variables VARI y VAR3, y a continuación con las variables VAR2 y VAR4. Si incluimos la siguiente instrucción:
La instrucción anterior incluye las mismas variables pero con la opción 3; en este caso, la prueba de Wilcoxon se realiza entre las variables VARÍ y VAR3, VARI Y VAR4, VAR2 Y VAR3, Y VAR2 Y VAR4. 4) Esta opción realiza los cálculos con una muestra aleatoria de los datos, si no hay espacio suficiente en memoria para realizar los cálculos con todos los datos. El tamaño de la muestra lo calcula de acuerdo con la memoria disponible.
El subcomando STATISTICS Este subcomando permite dos especificaciones. 1) ESTADÍSTICA UMVARIANTE. Esta especificación permite que se liste una tabla con la media, máximo, mínimo, desviación típica y número de casos para cada variable implicada en el análisis. 2) Esta especificación permite que se liste una tabla con los percentiles 25, 50 y 75, correspondientes a todas las variables implicadas en el análisis.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
309
PRUEBAS PARA UNA SOLA MUESTRA En este apartado estudiaremos las pruebas no paramétricas aplicables a una sola muestra. En este caso, podemos contrastar hipótesis sobre la posibilidad de que los datos procedan de una población con unas determinadas características. Las pruebas de que dispone SPSS para comprobar hipótesis con una sola muestra son:
Prueba binomial. El subcomando binomial En muchas circunstancias trabajamos con variables dicotómicas, las cuales tienen dos valores posibles. Por ejemplo, HOMBRE y MUJER, ENFERMO y NO ENFERMO, SI y NO, etc. La prueba binomial nos va a permitir comprobar hipótesis sobre la proporción de casos que hay en una población con un determinada característica. Por ejemplo, comprobar si la proporción de mujeres en una población es distinta del 50%, o si la proporción de personas que han padecido de catarro común en los últimos 6 meses es mayor que el 40%, si la proporción de individuos con colesterol basal mayor que 225 mg/100 mi es mayor que el 50%, etc. Si tomamos una muestra estadísticamente representativa, de tamaño n, de una población y estudiamos una variable dicotómica, con valores posibles A o B, la probabilidad de obtener K casos con valor A viene dada por la siguiente expresión:
310
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la expresión anterior, P(K) es la probabilidad de que en n casos K tengan el valor A; evidentemente, K< n, p es la proporción de casos en la población con valor A y q es la proporción de casos en la población con valor distinto de A. En este caso, q es por lo tanto la proporción de casos con valor B. La expresión anterior, según la mayoría de los autores, es aplicable si p > 0.05 y q < 0.95; en probabilidades pequeñas, la distribución de probabilidad aplicable es la distribución de Poisson. Veamos un ejemplo. Supongamos que tenemos una moneda perfecta y la tiramos 6 veces al aire. ¿Cuál es la probabilidad de sacar 2 caras? El resultado de tirar una moneda al aire puede ser cara o cruz (variable dicotómica); si la moneda es perfecta; la probabilidad de sacar cara (p) es 0.5 y la probabilidad de sacar cruz (g) también es 0.5. La probabilidad de sacar exactamente 2 caras (observe que la probabilidad que nos interesa no es sacar 2 o más caras) es:
Si el tamaño de la muestra n es mayor que 25, podemos aproximar la distribución de probabilidad a una distribución normal, con n — np y σ2 = npq. Con estos parámetros, la abscisa normal tipificada z es:
Una vez obtenida z, en base a los datos experimentales, calcularemos su probabilidad consultando las correspondientes tablas de la distribución normal tipificada. El sumar o restar 0.5 a x es una corrección por continuidad; sumaremos 0.5 a x cuando x sea menor que (np) y restaremos 0.5 a x cuando x sea mayor que (np).
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
311
SPSS realizará los cálculos en base a la expresión (9-1) si n < 25 y según la expresión (9-2) si n > 25. Las hipótesis sobre la proporción poblacional de un determinado valor pueden ser de dos colas o de una cola. CONTRASTE DE DOS COLAS
Si tenemos la hipótesis de que en una población la proporción de mujeres es distinta de 0.5, plantearíamos un contraste de hipótesis de dos colas de la siguiente manera:
El contraste de hipótesis anterior es de dos colas y rechazaremos la hipótesis nula, tanto si p es significativamente mayor que 0.5 como si es significativamente menor. CONTRASTES DE UNA COLA
Si tenemos la hipótesis de que en una población la proporción de hipertensos es menor que 0.12, plantearemos un contraste de hipótesis de la siguiente manera:
312
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En el caso anterior, sólo consideramos la posibilidad de que p sea mayor que 0.12. En los resultados listados por SPSS, para esta prueba muestra la probabilidad según un contraste de dos colas; si queremos resolver un contraste de una cola, dividiremos por dos la probabilidad del contraste de dos colas. Por ejemplo, si la probabilidad mostrada es 0.06, dividiremos por dos y quedará una probabilidad igual a 0.03 para un contraste de una cola. La ejecución de la prueba binomial con SPSS se consigue mediante la utilización del subcomando BINOMIAL. Veamos un ejemplo. Inicie una sesión con SPSS y siga las siguientes instrucciones,
La primera de las instrucciones anteriores indica que se van a introducir datos en formato libre. La instrucción NPAR BINOMIAL(0.4) = CATARRO indica que se contraste la hipótesis de que en la población la proporción de afectados de catarro es mayor que 0.4 (ésta es la hipótesis alternativa: en este caso, la hipótesis nula es que la proporción de personas afectadas de catarro en los últimos 6 meses es menor o igual que el 40%). Los resultados obtenidos son los siguientes:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
313
La tabla anterior nos indica que hay 15 casos en los que la variable CATARRO toma el valor 1; recuérdese que este valor es 15 con SI y 9 con NO. El total de casos válidos es 24. Test Prop. = 0.4 es la proporción que se contrasta, Obs. Pop. = 0.625 es la proporción observada o, lo que es lo mismo, la proporción muestral 15/24. La probabilidad de obtener 15 casos de catarro tomando una muestra de 24 individuos al azar, de una población en la que la proporción de afectados es 0.4, es menor que 0.05 (en este caso, la probabilidad es 0.02165; ésta es la probabilidad 0.0433 dividida por 2, puesto que en este ejercicio hemos planteado conceptualmente una prueba de una cola y SPSS nos muestra la correspondiente a una prueba de dos colas). Puesto que la probabilidad es menor que el nivel de significación, rechazamos la hipótesis nula y concluimos que, en la población muestreada, la proporción de personas que han padecido catarro en los últimos 6 meses es mayor de 0.4. En el caso anterior, el tamaño de la muestra n es 24; como es menor que 26, la probabilidad se ha calculado, aplicando la expresión (9.1) para p = 0.4 q = 0.6 reiteradamente para k = 15 hasta k = 20. Si el tamaño de la muestra es 26 o mayor, SPSS realiza los cálculos según la expresión (19-2): veamos un ejemplo. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
La segunda de las instrucciones anteriores contrasta la hipótesis de que la proporción de individuos sedentarios en la población muestreada es distinta de 0.5 (contraste de dos colas) Rechazaremos la hipótesis nula, tanto si la proporción de sedentarios es significativamente mayor o menor que 0.5. Los resultados obtenidos son los siguientes:
314
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior observamos que en la muestra hay 30 individuos sedentarios y 40 no sedentarios. La proporción que contrastar es 0.5; la proporción observada es 0.4286, y la probabilidad de que la muestra proceda de una población en la que la proporción de sedentarios es 0.5 es 0.281; puesto que esta probabilidad es mayor que 0.05, no rechazamos la hipótesis nula y concluimos que no tenemos evidencia suficiente para afirmar que la proporción de sedentarios en la población es distinta de 0.5. En este caso, como n es mayor que 25, la probabilidad se ha calculado, por aproximación a la normal según (9.2). Como x = 30, en este caso, es menor que (np), que es 35, la corrección por continuidad la efectuaremos sumando 0.5 a 30. Recuerde que la probabilidad listada es la correspondiente a un contraste de dos colas. Prueba de CHI CUADRADO. El subcomando CHI-SQUARE La prueba CHI CUADRADO se emplea, para comparar un grupo de frecuencias observadas, con una frecuencia esperada, y decidir si existen diferencias significativas. Si tomamos una muestra de una población, la diferencia entre las frecuencias observadas (muéstrales) y esperadas (poblacionales) al cuadrado, y dividimos el resultado por las frecuencias esperadas, este estadístico se distribuye según la distribución CHI CUADRADO con grados de libertad. Los grados de libertad son iguales al número de categorías menos 1. El estadístico viene dado por la siguiente expresión:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
315
En la expresión anterior, Oi representa a las frecuencias relativas observadas y Ei a las frecuencias relativas esperadas. La sintaxis del subcomando CHISQUARE es la siguiente:
En la instrucción anterior, VAR indica el nombre de la variable que queremos evaluar; la palabra clave EXPECTED (que significa esperadas) debe ir seguida de las frecuencias esperadas, tantas como categorías tenga la variable. Supongamos que, en el ejemplo CORONAR, tenemos la hipótesis de que las clases sociales se encuentran en la proporción 1-2-1 en la población muestreada, esto es, 25% de clase alta, 50% de clase media y 25% de clase baja. Obsérvese la notación 1-2-1, que indica proporción doble de clase media, CLSO = 2, que de clase alta, CLSO = 1, y de clase baja, CLSO — 3. Vamos a resolver este ejemplo mediante el subcomando CHI-SQUARE. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
La tabla siguiente muestra los valores observados, los valores esperados siguiendo las proporciones 1-2-1 y las diferencias entre las frecuencias observadas y esperadas, que son los residuos. Debajo de estos datos aparece el valor de la CHI CUADRADO experimental, calculada según la expresión (9-3), que en este caso es 13.886. Los
316
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
grados de libertad D.F son 2, puesto que el número de categorías es 3, y los grados de libertad son iguales al número de categorías menos 1. La probabilidad de que unos valores como los observados procedan de una población en la que la relación proporcional entre las tres clases sociales siga la regla 1-2-1 es menor que 0.001 y, como esta probabilidad es menor que 0.05, que es el nivel de significación habitual, rechazamos la hipótesis nula y concluimos que, en la población muestreada, las clases sociales no siguen una regla proporcional 12 1.
La prueba CHI-CUADRADO no es aplicable si más del 25% de las frecuencias esperadas son menores que 5. Prueba de Kolmogorov-Smirnov. El subcomando K-S La prueba de Kolmogorov-Smirnov se utiliza para comprobar el ajuste de datos muéstrales con una distribución teórica. SPSS permite comprobar la bondad del ajuste de un conjunto de datos muéstrales mediante la prueba de Kolmogorov-Smirnov con tres distribuciones teóricas: UNIFORME, NORMAL y POISSON. El estudio del ajuste de datos muéstrales en una distribución normal puede realizarse analítica y gráficamente con SPSS mediante el procedimiento EXAMINE. Las pruebas analíticas utilizadas por el comando EXAMINE, son las de Kolmogorov-Smirnov con la modificación de Lilliefors y la prueba de Shapiro-Wilks. Recomendamos al lector, que emplee las pruebas de ajuste a la
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
317
distribución normal utilizadas por el comando EXAMINE, por ser éstas más modernas que la incluida en el comando NPAR. La prueba de Kolmogorov-Smirnov se basa en calcular el valor absoluto de la diferencia entre la frecuencia relativa acumulativa teórica (Ft) y la frecuencia relativa acumulativa observada (Fo). A esta diferencia la llamaremos D:
Ft es la frecuencia esperada, en el supuesto de que los datos procedan de una población, cuyos datos sigan la distribución teórica que se esté evaluando. Fo es la frecuencia observada. Entre estas dos frecuencias se permiten pequeñas diferencias explicables por el azar. Si obtenemos una diferencia cuya probabilidad, bajo el supuesto de que en la población la variable siga la distribución teórica, que se esté evaluando sea menor que el límite prefijado en el contraste de hipótesis (habitualmente este límite es 0.05), rechazaremos la hipótesis nula y por lo tanto rechazaremos que en la población la variable siga la distribución evaluada. Las máximas diferencias aceptables están tabuladas; éstas dependen del tamaño de la muestra y del nivel de significación aceptado en el contraste. Si D es mayor que el máximo valor aceptable, al que llamaremos valor crítico Vc, el cual está tabulado, rechazaremos la hipótesis nula y concluiremos que en la población la variable no sigue la distribución teórica evaluada. Las hipótesis en la prueba de Kolmogorov-Smirnov son:
La hipótesis nula desde el punto conceptual es que la variable sigue en la población la distribución teórica evaluada. Esta hipótesis se rechazará si D es mayor que Vc. El que D sea mayor que el máximo valor aceptable, para el
318
ESTADÍSTICA MULTIVARLANTE Y NO PARAMÉTRICA CON SPSS
nivel de significación del contraste y para el tamaño de la muestra que tenemos, es equivalente a decir que la probabilidad de obtener una diferencia entre las frecuencias teórica y observada es menor que el valor indicado en el contraste a; habitualmente, esta probabilidad se fija en 0.05. Con el programa SPSS, mediante la prueba de Kolmogorov- Smirnov, podemos evaluar el ajuste de datos muéstrales en tres tipos de distribuciones teóricas: la normal, la uniforme y la de Poisson. La sintaxis para realizar la prueba de Kolmogorov-Smirnov es la siguiente:
El subcomando K-S va seguido de la palabra DIS entre paréntesis; en el lugar de DIS, debemos poner UNIFORM, NORMAL o POISSON, según de cuál sea la distribución teórica a la que queremos ajustar nuestros datos. Después de la distribución, en el lugar de PAR indicaremos los parámetros que deben tenerse en cuenta para ajustar los datos; esta parte es opcional. VARL es la variable cuyos datos deben ser ajustados. UNIFORM. Si se usa esta distribución para ajustar los datos, podemos incluir como parámetros los valores mínimo y máximo, por este orden. Si no introducimos los parámetros, SPSS realizará la prueba utilizando los valores mínimo y máximo de la variable que estemos evaluando. NORMAL. Si utilizamos esta distribución, podemos emplear como parámetros la media aritmética y la desviación típica. Si introducimos los parámetros, el ajuste se efectuará en una distribución normal, con la media y desviación típica introducidas, si no introducimos estos parámetros, SPSS utilizará la media y la desviación típica de los datos, cuyo ajuste estamos evaluando. Supongamos que tenemos unos datos correspondientes a la TALLA de un grupo de individuos, cuya media es 170 cm y su desviación típica 8 cm. En estas circunstancias, podemos estar interesados en estudiar si estos datos proceden de una población en la que la
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
319
variable TALLA se distribuye normalmente; en este caso, no introduciremos parámetros y SPSS, utilizará como media 170 y como desviación típica 8, para el ajuste. La instrucción en este caso sería:
En el caso anterior, podríamos estar interesados en saber si proceden de una población en la que la variable TALLA se distribuye normalmente con media 169 y desviación típica 7. La instrucción necesaria en este caso es:
Obsérvense detenidamente los dos planteamientos: en el primero, nuestro interés es estudiar el ajuste a una distribución normal, cuyos parámetros son los muéstrales. En el segundo caso, el ajuste se realiza sobre una distribución normal con parámetros predefinidos. POISSON. En este caso podemos utilizar como parámetro opcional la media. En caso de no introducir una media sobre la que se realice el ajuste, SPSS utilizará la media de los datos correspondientes a la variable que estamos evaluando. El planteamiento es similar al de los casos anteriores: podemos realizar el ajuste sobre parámetros predefinidos o, por defecto, SPSS utilizará los parámetros correspondientes a los datos evaluados como referencia. Un detalle que debe tenerse en cuenta es que, si la media es mayor de 100000, SPSS efectúa una aproximación a la normal para realizar el ajuste. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
320
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La segunda de las instrucciones anteriores indica que se realice un ajuste a una distribución normal de la variable CB, usando como media y desviación típica los de la variable. Los resultados obtenidos son los siguientes:
En la tabla anterior, SPSS nos muestra en primer lugar los parámetros utilizados para el ajuste, que en este caso son la media y desviación típica de la variable CB. Obsérvese que no hemos indicado parámetros; por lo tanto, SPSS utiliza los de la muestra. A continuación exhibe las diferencias máximas observadas absoluta, positiva y negativa. Recuérdese que la mayoría de las tablas referentes a esta prueba evalúan la máxima diferencia observada absoluta. También nos muestra la Z de Kolmogorov- Smirnov y la probabilidad de que estos datos procedan de una población en la que la variable CB se distribuya normalmente con media 236.77 y desviación típica 34.6. Dado que esta probabilidad es mayor que 0.05, no rechazaremos la hipótesis nula y aceptaremos que los datos de la variable CB pueden proceder de una población en la que dicha variable se distribuye normalmente, con media 236.77 y desviación típica 38. Si la probabilidad fuera menor que 0.05, rechazaríamos la hipótesis nula y por lo tanto concluiríamos que la variable no se distribuye según una distribución normal con los parámetros sobre los que se realizó el ajuste. A continuación vamos a evaluar un ajuste a una distribución normal de la variable CB, pero con parámetros predefinidos, media 241 y desviación típica 38; en este caso, no utilizamos como parámetros de la distribución los de los datos. Nuestro planteamiento es si los datos correspondientes a la variable CB pueden proceder de
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
321
una población en la que la variable se distribuye según una normal de media 241 y desviación típica 38. Teclee la siguiente instrucción (si terminó la sesión, cargue previamente el fichero de sistema CORONAR.SYS):
Los resultados obtenidos son los siguientes:
En la tabla anterior, observamos que la probabilidad de que estos datos se hayan muestreado en una población, en la que la media sea 241 y la desviación típica 38, es 0.034. Puesto que esta probabilidad es menor que 0.05, rechazamos la hipótesis nula y concluimos que nuestros datos no proceden de una población en la que la variable se distribuya normalmente con los parámetros predefinidos. En este caso no' descartamos que los datos se distribuyan normalmente con otros parámetros; de hecho, ajustando con los parámetros propios de la variable, no podemos rechazar la hipótesis de normalidad, como vimos en el ejemplo anterior a éste. Aconsejamos al lector que estudie detenidamente estos ejemplos y la diferencia en las conclusiones correspondientes a cada caso. En algunos casos de ajuste de datos experimentales a distribuciones teóricas es posible utilizar la prueba de la CHI CUADRADO
322
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
de Pearson o la prueba de Kolmogrov-Smirnov. En estas circunstancias debe tenerse en cuenta que la prueba de KolmogorovSmimov es más potente que la prueba de CHI-CUADRADO de Pearson; además ésta no resulta aplicable cuando las muestras son pequeñas. Pruebas de aleatoriedad. Prueba de las rachas Las tres pruebas analizadas hasta ahora son pruebas que miden la bondad del ajuste de un conjunto de datos a distribuciones teóricas y tienen en cuenta si las frecuencias observadas difieren significativamente de las frecuencias esperadas, en el supuesto de que la variable siga, en la población, la distribución sobre la que se realiza la prueba de ajuste. La prueba de las rachas no compara frecuencias; podría ocurrir que de 20 observaciones tuviéramos 10 de un valor y 10 de otro, pero su orden de observación no fuera el adecuado para considerar la aleatoriedad del muestreo. Esta prueba comprueba si los datos se han extraído de forma aleatoria. Para poder realizar esta prueba, debemos conservar los datos por el orden de observación. Si hemos alterado este orden, por haber clasificado los datos en base a otros criterios, como de menor a mayor o por cualquier otro, la prueba no tendrá valor. Recuerde que las pruebas de aleatoriedad sólo son válidas si se aplican sobre los datos según el orden de observación. Existen varias pruebas de aleatoriedad; la más utilizada actualmente es la de las rachas (RUNS en inglés). Denominamos racha a una sucesión de observaciones con el mismo valor. Para aplicar la prueba, debemos convertir en dicotomica la variable sobre la que queremos realizar la prueba. Por ejemplo, la variable SEXO es dicotómica, pero la variable TAS (tensión arterial sistólica) no lo es; en este caso, consideraremos como punto de corte de la variable a la mediana, puesto que la mediana, por definición, es el valor que divide los datos en dos partes iguales en cuanto al número. La mitad de los valores de TAS serán menores que la mediana y la otra mitad mayores. Señalaremos con un signo — a los datos con un valor de la variable menor que la mediana, y con un signo + a los datos con un valor de la variable mayor que la mediana. De esta
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
323
manera, hemos convertido una variable continua en dicotómica y podremos aplicar la prueba de las rachas a la variable TAS, a pesar de no ser originalmente dicotómica. Consideraremos racha a una sucesión de valores idénticos. Supongamos que hemos tirado una moneda al aire 15 veces. Identificamos cara por C y cruz por S. Se obtiene la siguiente secuencia, por orden de observación.
Las dos primeras observaciones, C C, constituyen una racha, puesto que son dos observaciones idénticas; la tercera observación es 5, que es otra racha, la cuarta observación, C, constituye otra racha, la quinta observación, S, constituye otra racha, la sexta observación, C, constituye otra racha, la séptima, octava, novena y décima observaciones, S S S S, constituyen otra racha, y las cinco ultimas observaciones, C C C C C, constituyen otra racha. Por lo tanto, la secuencia anterior consta de 7 rachas. Una racha comienza a contarse cuando cambia el valor de la observación y se considera hasta que vuelve a haber un cambio en el valor de la variable. Independientemente del número de valores repetidos que salgan, se considera racha tanto una sucesión de un sólo valor como una sucesión de 10 valores: en ambos casos contabilizaremos una racha. Las hipótesis en este caso son:
La prueba se basa, tanto si hay pocas rachas como si hay muchas (lo que podría indicar dependencia entre las observaciones) en que con pocas rachas, podríamos pensar que el que se observe un determinado valor favorece que éste se repita, o viceversa; si sale un valor, disminuye la probabilidad de que éste se repita. El máximo y el mínimo número de rachas permitido para aceptar la aleatonedad
324
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
está tabulado y dependiendo de n1 y n2, que representan el número de veces que se ha observado cada valor de la variable. Recuérdese que la prueba de las rachas se aplica sobre variables dicotómicas. En el ejemplo anterior, estos valores son 9 y 6, puesto que hemos observado 9 caras y seis cruces. Al número de rachas máximo y mínimo permitido en cada caso les llamaremos valores críticos Vc. Si el número de rachas es menor o mayor, que los valores críticos de la tabla, rechazaremos la hipótesis nula y concluiremos que las observaciones no se han realizado de manera aleatoria y, por tanto, existe algún grado de dependencia entre los valores de la variable. Las tablas para la prueba de las rachas están realizadas para valores relativamente pequeños. Es difícil encontrar tablas con valores para n1 o n2 mayores que 20. Pero en este caso podemos emplear un estadístico de contraste que se distribuye normalmente, Los parámetros de este estadístico, media y desviación típica se calculan según las siguientes expresiones:
Basándonos en los parámetros anteriores, calcularemos Z, distribución normal tipificada, restando a la variable r (número de rachas) el valor medio de rachas esperado bajo el supuesto de independencia, que viene dado por la expresión (9-5) y dividiendo la diferencia anterior por la desviación típica de r, que viene dada por (9-6). Z viene dado por la siguiente expresión:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
325
En las expresiones anteriores, n1 y n2 indican el número de observaciones de cada valor de la variable, y r el número de rachas observadas. La media y desviación típica anteriores, representan el número medio de rachas y la desviación típica que esperamos obtener, bajo el supuesto de que los valores de la variable son independientes. Se admiten diferencias respecto a estos valores que explique el azar y, por tanto, que la probabilidad de obtenerlos no sea demasiado pequeña; si la probabilidad es menor que 0.05, rechazaremos la hipótesis nula y concluiremos que las observaciones no son aleatorias. Evaluaremos el contraste en función de los valores de Z obtenidos según la expresión (9-7), Para un contraste bilateral con 0.05, rechazaremos la hipótesis nula si Z es mayor o menor de 1.96. La prueba de las rachas con SPSS se realiza mediante el subcomando RUNS, según la siguiente sintaxis:
En la instrucción anterior, indicaremos un valor que nos convierta la variable en dicotómica, considerando un valor de la variable los valores menores que el punto de corte y como otro valor los valores iguales o mayores que el punto de corte. Suponiendo que el orden de los datos del ejemplo CORONAR fuera el de observación, vamos a comprobar si la observación de hombres y mujeres es aleatoria. Inicie una sesión con SPSS y siga las siguientes instrucciones:
326
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La segunda de las instrucciones anteriores indica que se realice la prueba de las rachas con la variable sexo. Obsérvese que, como punto de corte, en este caso hemos utilizado el 2, puesto que divide los valores de la variable en dos partes: los valores menores que dos, en este caso hombres, puesto que valores menores que 2 sólo hay el 1, y este valor en la variable SEXO, equivale a los hombres, y por otra parte los valores mayores o iguales que 2, las mujeres. Los resultados obtenidos son los siguientes:
En la tabla anterior, se muestran los resultados de la prueba de las rachas correspondientes a la variable sexo. Las rachas observadas han sido 44 (RUNS: 44), el punto de corte 2 (Test Valué = 2), hay 35 casos con valor menor que 2 (Lt 2) y 35 casos con valor igual o mayor que 2 (Ge 2). La Z calculada según la expresión (9-7) es 1.9264, que corresponde a una probabilidad P = 0.0541; puesto que esta probabilidad es mayor que 0.05, (aunque muy poco), no podemos rechazar la hipótesis nula y aceptamos que los datos se han elegido aleatoriamente. Recuérdese que el punto crítico de la Z, para rechazar la hipótesis nula, es 1.96. Veamos un ejemplo a partir de una variable continua como el colesterol. En este caso calculamos la mediana, que es 230; la mitad de los datos deben tener un colesterol menor que 230 y la otra mitad deben tener un colesterol mayor que 230 (salvo pequeñas diferencias dependientes de la estructura de los datos). Si los valores del colesterol se han elegido aleatoriamente, la observación de los
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
327
datos alrededor de la mediana debe cumplir las reglas para datos cuya observación es aleatoria vistas en este subapartado. Teclee la siguiente instrucción:
Los resultados obtenidos son los siguientes:
En la tabla anterior, podemos ver que hay 38 rachas, que el punto de corte es 230, hay 33 casos con colesterol basal menor que 230 y 37 con valores de colesterol basal mayores que 230. El valor de Z para estos datos es 0.5108, al que le corresponde una probabilidad de 0.6095, puesto que esta probabilidad es mayor que 0.05. No rechazamos la hipótesis nula y aceptamos que las observaciones del colesterol basal se han comportado aleatoriamente respecto a la mediana. PRUEBAS PARA DOS VARIABLES RELACIONADAS En muchos trabajos científicos, interesa comparar los resultados de una variable en dos muestras distintas. Los ejemplos sobre este tema son múltiples. Por ejemplo, si ha desaparecido el dolor después de un determinado tratamiento, si ha disminuido la TAS después de un determinado tratamiento, si las calificaciones de dos grupos de alumnos son distintas, si la opinión sobre un tema se ha modificado después de un discurso, si la talla media de dos poblaciones es distinta, etc. En algunos de los casos anteriores, podemos plantear
328
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
el problema con dos grupos de elementos independientes o con dos grupos de datos dependientes. Consideraremos dos grupos de datos independientes: cuando los elementos de cada grupo son distintos, y dependientes o relacionados, cuando los elementos son los mismos en distintas situaciones, casi siempre en circunstancias temporales distintas, de tal forma que compararemos los resultados de una variable antes y después de una situación que puede modificar los resultados. Si queremos estudiar si un fármaco alivia el dolor, podemos seleccionar dos muestras aleatorias de una población de pacientes, aplicar a un grupo el tratamiento y al otro grupo no, y comparar después los resultados. En este caso tenemos dos grupos independientes. El mismo tratamiento podemos aplicarlo a un grupo de pacientes y evaluar después de transcurrido un tiempo si han mejorado los síntomas. En este caso tenemos dos muestras relacionadas, pues los individuos de las dos muestras son los mismos. El planteamiento de estudios sobre muestras relacionadas tiene la ventaja de poder eliminar la influencia de variables extrañas, al ser cada individuo el control de sí mismo, aunque en función del estudio, hay que evaluar convenientemente las condiciones ambientales y asegurarnos de que algunos cambios no son producto del transcurrir del tiempo, sobre todo si entre el antes y el después el tiempo es largo. Las pruebas no paramétricas de que dispone SPSS para aplicar a dos muestras relacionadas, son las siguientes:
Prueba de McNemar Esta prueba es adecuada para evaluar las variaciones en una variable dicotómica antes y después de una determinada circunstancia. Por ejemplo, si tenemos un grupo de pacientes, algunos de
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
329
ellos con dolor, podemos evaluar al principio la variable dolor con dos posibles respuestas, sí y no; después de aplicar un tratamiento, podemos volver a evaluar el dolor y estudiar si las diferencias observadas son significativas. Otra circunstancia interesante para aplicar esta prueba es estudiar si la opinión de un grupo de individuos sobre un determinado tema cambia después de un discurso, cursillo lectura de un folleto, etc. La disposición habitual de los datos en la prueba de Mcnemar es en forma de tabla dos x dos, de la siguiente manera:
En la tabla anterior, en las filas disponemos los valores de la variable antes y, en las columnas, después de la circunstancia que creemos puede modificar los valores de la variable. Es muy importante destacar que las letras son frecuencias. La primera casilla indica que A individuos han pasado del NO al SÍ; la segunda casilla indica que B individuos no han modificado el valor NO; la tercera casilla indica que C individuos no han modificado el valor NO y la casilla D indica que D individuos han pasado de SÍ a NO. En este caso, hemos considerado los valores de la variable, como SÍ y NO, pero pueden ser otros valores, siempre que sea posible evaluarlos dicotómicamente. Nuestro problema es estudiar si los cambios observados son lo suficientemente grandes para pensar que la circunstancia diferenciadora entre el antes y el después, el tratamiento, discurso, etc., ha originado cambios significativos.
330
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Las casillas de interés son la A y la D, puesto que en ellas se reflejan los cambios ocurridos. Las hipótesis son:
Conceptualmente, la hipótesis nula indica que los cambios en ambos sentidos son iguales y, por lo tanto, no podemos decir que la circunstancia diferenciadora origine cambios en un determinado sentido. La hipótesis alternativa indica que los cambios observados son significativamente distintos en un sentido que en otro, y concluiremos que observamos diferencias significativas entre ANTES y DESPUÉS. El estadístico que utilizaremos para resolver el contraste está basado en los cambios observados en las casillas A y D. Dicho estadístico sigue una distribución CHI-CUADRADO con un grado de libertad y viene dado por la siguiente expresión:
La mayoría de los autores indican que, si la muestra es menor que 200, debe realizarse la corrección por continuidad, también conocida por corrección de Yates. En este caso, el estadístico de contraste viene dado por la siguiente expresión:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
331
No confundir este estadístico con otros, que aunque siguen una distribución CHI CUADRADO, están basados en fundamentos distintos. Supongamos que queremos probar un analgésico en un grupo de pacientes reumáticos, para lo cual tomamos una muestra de 20 pacientes y evaluamos antes y después del tratamiento si tienen dolor; los valores de la variable son SÍ o NO. Los resultados obtenidos son los siguientes:
En los datos anteriores, los individuos son los mismos y están en el mismo orden, En el primero ha desaparecido el dolor, el segundo no tenía dolor ni antes ni después, en el tercero ha desaparecido el dolor, en el cuarto el dolor no ha mejorado, en el quinto el dolor ha desaparecido, etc. Los resultados anteriores los podemos disponer según la tabla descrita anteriormente, cuyos resultados son los siguientes:
La aplicación de estadísticos cuya distribución sigue una CHICUADRADO requiere ciertas condiciones, como que no puede haber más del 25% de las casillas teóricas con frecuencias menores que 5.
332
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Cuando esto ocurre resolvemos el problema mediante la distribución binomial. La prueba de Mcnemar podemos realizarla con SPSS, mediante el subcomando Mcnemar, y su sintaxis es la siguiente:
La instrucción anterior indica a SPSS que se realice la prueba de Mcnemar, con las variables VARI y VAR2, las cuales deberán cumplir las condiciones descritas en este apartado. A continuación vamos a resolver con SPSS un ejemplo. En un grupo de pacientes traumatizados, se prueba un nuevo analgésico, para lo cual se selecciona a 55 pacientes y se evalúa si tienen o no dolor, antes y después del tratamiento. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
En la primera instrucción, se indica que se va a proceder a la introducción de datos de forma directa, correspondientes a las variables antes y después. El 1 significa SÍ y el 2 NO; los datos de cada individuo se introducen de forma consecutiva. En la primera fila, los dos primeros datos son 1, 2; esto significa que el primer individuo tenía dolor antes y no tenía dolor después. Los dos datos
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
333
siguientes corresponden al segundo individuo, 2 2; este individuo no tenía dolor ni antes ni después, y así sucesivamente. La quinta instrucción, encabezada por el comando NPAR, indica que se realice la prueba de Mcnemar con las variables ANTES y DESPUÉS. Los resultados obtenidos son los siguientes:
En la tabla anterior se nos indica que se ha evaluado a 55 individuos. El valor de la CHI-CUADRADO experimental es 16.5313 (el cálculo se ha realizado aplicando la corrección de Yates); la significación estadística es 0.0000, pero esto no significa que sea cero, pues la probabilidad siempre es mayor que cero. Esto indica que esta probabilidad es menor de 0.0001, puesto que SPSS utiliza 4 decimales en esta salida de resultados. La tabla 2 x 2 indica que 28 pacientes han pasado de 1 a 2, es decir, de dolor a no dolor; 11 que tenían dolor no han mejorado, 12 que no tenían dolor siguen sin tenerlo, y 4 que no tenían dolor sí lo tienen después. Teniendo en cuenta los resultados anteriores, como el valor del estadístico es mayor que el punto critico, que para una CHI CUADRADO con un grado de libertad es 3.84, rechazamos la hipótesis nula y concluimos que el tratamiento disminuye el dolor de forma significativa. Cuando la muestra es pequeña, SPSS resuelve el problema aplicando la distribución binomial indicándolo en la salida de resultados.
334
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Prueba de los signos para dos variables relacionadas
Esta prueba es aplicable a variables continuas. Cuando, después de una circunstancia diferenciadora, evaluamos el resultado con un signo más (+) o con un signo menos (—). Por ejemplo, si tenemos un grupo de estudiantes con una determinada puntuación en matemáticas a los cuales sometemos a un curso extra, evaluaremos después si han mejorado o no sus puntuaciones indicando con un signo + que ha aumentado la nota, y con un signo — que la nota ha disminuido. Evaluaremos con cero los casos en los que no haya cambio. En este ejemplo, si un alumno pasa de un 3 a un 8, y otro de 4 a 5, a los dos les puntuaremos con +, puesto que la nota ha subido, pero sin tener en cuenta cuánto ha subido. En caso de que la circunstancia diferenciadora no tenga efecto, esperamos encontrar una proporción de (+) y (—) iguales y de 0.5, salvo las diferencias debidas al azar. Si la diferencia entre la proporción de signos es estadísticamente significativa, concluiremos que la circunstancia diferenciadora ha tenido un efecto significativo. Las hipótesis son las siguientes:
BAJO LA HIPÓTESIS NULA, P(+) = P(—) = 0.5; si no hay efecto, esperamos encontrar un 50% de signos + y un 50% de signos —. Si la muestra es pequeña (menos de 25 casos) resolveremos el contraste anterior mediante la distribución binomial y, si la muestra es mayor que 25, se realiza una aproximación a la normal. La aproximación a la normal se realiza con la media y la desviación típica, calculadas según las siguientes expresiones:
En la expresión anterior, n es el número de casos y p la probabilidad de obtener signo +, como bajo la hipótesis nula p = 0.5, sustituimos p por su valor.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
335
En la expresión anterior, p es la proporción de signos más y q la de signos menos, bajo la hipótesis nula, tanto p como q son iguales a 0.5. A partir de los parámetros anteriores, calculamos el valor de Z, que es la abscisa para una curva normal tipificada y viene dada por la siguiente expresión:
En la expresión anterior, X representa el número de signos + observado. La mayoría de los autores indican que debe efectuarse una corrección de continuidad, sumando o restando, según los casos; en la expresión anterior, 0.5 a X, número de signos + observados. Aplicando esta corrección:
En la expresión anterior, sumaremos 0.5 cuando X sea menor que 0.5 n y restaremos 0.5 cuando X sea mayor que 0.5 n, SPSS utiliza la distribución binomial si n < 25 y la aproximación normal si n > 25. A continuación, veamos un ejemplo: supongamos que tenemos 15 alumnos cuyas puntuaciones en estadística conocemos; después de realizar un curso especial, volvemos a puntuarles y los resultados son los siguientes:
336
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En el ejemplo anterior, observamos que 9 mejoran, los evaluados con el signo +, 4 empeoran la nota, evaluados con el signo — y hay 2 repeticiones. Aplicando la distribución binomial, puesto que n < 25, bajo los supuestos de que p y q son iguales a 0.5, calcularemos la probabilidad de que bajo los supuestos de la hipótesis nula, p = q = 0.5, tengamos 4 o menos signos positivos por un lado y 9 o más signos positivos por otro; a continuación sumaremos ambas probabilidades. La probabilidad total es 0.267; dado que esta probabilidad es mayor que 0.05, no rechazamos la hipótesis nula, y concluimos que no tenemos evidencia de que el curso haya servido para mejorar la nota. A continuación, resolveremos el ejemplo anterior mediante SPSS. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
En las instrucciones anteriores, hemos definido dos variables, ANTES Y DESPUÉS. Las puntuaciones de cada individuo se han introducido de forma consecutiva, los dos primeros números, 5 y 6, son las puntuaciones del primer alumno antes y después del curso y así sucesivamente. La quinta instrucción, encabezada por el comando NPAR y mediante el subcomando SIGN, indica a SPSS que realice la prueba de los signos.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
337
La cuarta instrucción graba los datos anteriores en forma de fichero de sistema, con el nombre de SIGNOS.SYS. Los resultados obtenidos son los siguientes:
En los resultados anteriores, SPSS nos indica que hay 4 individuos que han disminuido la puntuación y que han sido evaluados con el signo —, 9 individuos que han aumentado la puntuación y que han sido evaluados con el signo + y 2 individuos que han repetido la puntuación, a los que denomina TIES. También nos informa que ha resuelto el problema mediante la distribución binomial y que la probabilidad calculada es 0.2668; puesto que es mayor que 0.05, no podemos rechazar la hipótesis nula y, por tanto, no tenemos evidencia de que el curso sea efectivo. Cuando SPSS calcula la probabilidad mediante la aproximación a la normal, lo indica en la tabla de resultados. Prueba de Wilcoxon para dos variables relacionadas La prueba de Wilcoxon es aplicable en los mismos supuestos que en el caso anterior, para variables continuas relacionadas. Esta prueba es más potente que la de los signos, pues tiene en cuenta el signo, el aumento o disminución de la variable y la magnitud del cambio. La técnica, consiste en calcular las diferencias entre las variables de cada elemento y ordenarlas por valor absoluto, de menor a mayor; esto significa que una diferencia negativa de 5 puntos se ordena posteriormente a una diferencia positiva de 4 puntos. Una vez ordenadas las diferencias, las numeramos de 1 a n, siendo n el número de individuos de la muestra; a este número le llamaremos
338
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
rango, El rango 1 lo asignaremos a la mínima diferencia observada en valor absoluto, y así sucesivamente hasta n, cuyo rango corresponderá a la máxima diferencia. Si hay empate, se asigna a cada diferencia empatada la media de los rangos implicados en el empate; por ejemplo, si hay 3 elementos empatados a los que les corresponderían los rangos 4, 5 y 6, se asigna a los tres el rango medio que, en este caso, es la suma de los tres, que es 15, dividida por 3; por lo tanto, asignaríamos a los tres el rango 5 y al siguiente elemento le asignaríamos el rango 7. Una vez ordenados los datos, sumamos los rangos de las diferencias positivas (W+) también sumamos los rangos de las diferencias negativas (W—) y elegimos el menor de los dos. En la mayoría de las tablas y estadísticos, se usa la suma de rangos menor. Los casos en los que la diferencia sea cero se ignorarán. La prueba se basa en que, si no hay efecto entre las dos variables relacionadas, los rangos estarán repartidos de forma homogénea, y tan probable será encontrar un rango grande positivo como negativo. Por lo tanto, si sumamos los rangos correspondientes a diferencias positivas (W+) y los rangos correspondientes a diferencias negativas (W—), deben ser similares y se encontrará entre ellos pequeñas diferencias debidas al azar. Si las diferencias entre la suma de rangos, son significativamente mayores en un sentido, rechazaremos la hipótesis nula y concluiremos que el efecto de la causa diferenciadora es significativo. Las hipótesis son:
El contraste se resuelve, para muestras pequeñas, consultando las tablas de Wilcoxon, en las que se representan las máximas o mínimas sumas de rangos consideradas aceptables y se rechaza la hipótesis nula, en caso de que la suma de rangos observada sea superior o inferior a estos valores. Para muestras grandes, podemos hacer una aproximación a la normal, con la media y desviación típica definidas por las siguientes expresiones:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
339
En la expresión anterior, n es el tamaño de la muestra.
A partir de las expresiones (9-14) y (9-15), deducimos la expresión para Z curva normal tipificada para esta prueba y que viene dada por la siguiente expresión:
En la expresión anterior, W es la mínima suma de rangos entre la suma de rangos de las diferencias positivas y la suma de rangos de las diferencias negativas. A continuación, resolveremos mediante la prueba de Wilcoxon, el ejercicio sobre las puntuaciones de alumnos que vimos en el subapartado anterior, en la prueba de los signos. En la tabla siguiente, las diferencias entre las variables antes y después están calculadas en valor absoluto. En la columna RANGOS, se han ordenado las diferencias según los siguientes criterios: hay dos diferencias iguales a cero, las cuales se han ignorado; como veremos, a todos los efectos trataremos los datos anteriores como si hubiera 13 datos en lugar de 15, la diferencia mínima observada
340
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
en valor absoluto, pero hay 8. Por lo tanto, a este grupo de diferencias le corresponderían los rangos del 1 al 8. Lo que hacemos es asignar el rango medio de estos 8 a todos ellos; el rango medio es 4.5, a continuación hay tres diferencias con valor 2, a las que corresponderían los rangos 9, 10 y 11. Asignamos el rango medio de las tres a cada una de ellas, que es 10, y, por último tenemos dos diferencias iguales a tres, a las que corresponderían los rangos 12 y 13; asignamos a cada uno de ellos el rango medio, que es 12.5. En la columna rangos con signo, asignamos el signo menos a las diferencias negativas y el signo más a las diferencias positivas. El signo (—), en este caso, significa que la puntuación ha aumentado, puesto que al restar ANTES-DESPUÉS las puntuaciones que han aumentado tienen diferencia negativa. El signo en esta prueba es un símbolo diferenciador y debe tenerse cuidado con su interpretación. Sumamos los rangos con signo positivo W+ = 23.5 y los negativos W— = 67.5. Aplicando la expresión (9.16):
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
341
Puesto que Zestá comprendido entre —1.96 y 1.96, que son los puntos críticos, para un estadístico que se distribuye normalmente, con un nivel de significación de 0.05, no podemos rechazar la hipótesis nula y no tenemos evidencia que el curso mejore las puntuaciones de estadística. A continuación, resolveremos el ejemplo anterior mediante SPSS. Inicie una sesión de trabajo con SPSS y teclee las siguientes instrucciones:
Cuando realizamos el ejemplo de las puntuaciones, en el subapartado anterior (prueba de los signos), grabamos los datos en el fichero de sistema SIGNOS.SYS; no obstante, dicho fichero está en el disquete de ejemplos. La segunda de las instrucciones anteriores indica a SPSS que se realice la prueba de Wilcoxon, mediante el subcomando del mismo nombre. Los resultados obtenidos son los siguientes:
342
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior, SPSS nos indica que hay 4 casos con valores menores que antes. (En este caso, las puntuaciones han disminuido); 9 con valores mayores después que antes (en este caso, las puntuaciones han aumentado) y 2 (TIES) que permanecen iguales. La Z = —1.5375 coincide exactamente con la calculada por nosotros (lo cual es lógico, puesto que utiliza el mismo método de cálculo), la probabilidad correspondiente a la Z como es mayor de 0.05, no podemos rechazar la hipótesis nula. Obsérvese que, aunque SPSS ha considerado con signo menos las puntuaciones que han disminuido y con más las que han aumentado, porque ha realizado la diferencia en el sentido DESPUÉS-ANTES, esto es irrelevante de cara el resultado, que coincide hasta en el cuarto decimal, ya que el signo no es más que un símbolo diferenciador. En esta prueba, y trabajando correctamente, es igual realizar las diferencias en el sentido DESPUÉS-ANTES, que ANTESDESPUÉS. PRUEBAS PARA K VARIABLES RELACIONADAS En el apartado anterior, estudiamos las pruebas no paramétricas más importantes para comparar dos variables relacionadas. En este apartado estudiaremos las pruebas para comparar más de dos variables relacionadas. Los ejemplos de este tipo de variables son múltiples. Supongamos que queremos estudiar la concentración de un tóxico en distintos órganos (cerebro, corazón y sangre) de peces, con objeto de evaluar el alcance de la contaminación de un río así como los órganos más afectados. Para llevar a cabo este experimento, podríamos extraer tres muestras de peces y, en cada una de ellas, estudiar la concentración de tóxico en un órgano determinado; pero, debido a la posible dispersión del hábitat, podríamos cometer errores, ya que uno de los objetivos es comparar la concentración del tóxico en tres órganos distintos. Un experimento más perfecto sería extraer una sola muestra de peces y estudiar en cada pez la concentración de tóxico en cada órgano. De esta manera, tendremos tres variables, cada una de ellas correspondiente a la concentración de tóxico en un órgano. Las tres variables están relacionadas.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
343
Las pruebas disponibles en SPSS para comparar variables correspondientes a invariables relacionadas son:
Prueba de Friedman Esta prueba nos permite comparar K variables continuas relacionadas. Tenemos invariables, las cuales dispondremos en las columnas, correspondientes a n elementos, los cuales dispondremos en filas, de tal manera que en cada columna tendremos los datos correspondientes a la misma variable y en cada fila los correspondientes a cada elemento. A la prueba de Wilcoxon algunos autores la denominan análisis de la varianza de bloques no paramétrico, porque puede aplicarse en los supuestos de ANOVA bloques cuando no se cumplen las condiciones paramétricas. En algunos textos, puede leerse que los grupos se disponen en las filas y los elementos en las columnas, lo cual es irrelevante si se tiene en cuenta. Las filas, en ciertas ocasiones, pueden representar grupos de elementos. Algunos autores llaman bloques a los datos de fila. A los valores de cada fila les asignaremos un número del 1 a K, según el orden de magnitud de menor a mayor; a este número le llamaremos rango. Si no hay diferencia entre las variables, debemos esperar que los rangos estén repartidos en cada columna de manera uniforme y sólo encontraremos entre ellas pequeñas diferencias debidas al azar; si las diferencias son demasiado grandes, rechazaremos la hipótesis nula y concluiremos que existen diferencias significativas entre las variables. Las hipótesis son:
344
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Ri representa la suma de rangos correspondientes a la iésima variable; según la disposición de los datos indicada por nosotros, representa la suma de rangos correspondientes a una columna. La hipótesis nula indica que las sumas de rangos, de todas las variables son iguales, salvo diferencias explicables por el azar. La hipótesis alternativa indica que, al menos, la suma de rangos de una variable es significativamente distinta de alguna de las otras. Para resolver el contraste de hipótesis anterior, usamos un estadístico propuesto por Friedman, el cual se distribuye como una CHI CUADRADO con K— 1 grados de libertad, siendo K el número de variables relacionadas. El estadístico de contraste viene dado por la siguiente expresión:
En la expresión anterior, n representa el número de elementos o de bloques, K el número de variables relacionadas y Ri representa la suma de rangos de la iésima variable. A continuación, veamos un ejemplo: Con objeto de estudiar la diferencia de concentración de un tóxico en distintos órganos, se extrae una muestra de peces de un río y se estudia en cada uno de ellos la concentración del tóxico en cerebro corazón y sangre. El objetivo del estudio, es ver si la concentración del tóxico en los tres órganos es igual o distinta. Los resultados obtenidos son los siguientes:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
345
Los datos anteriores están grabados en el fichero de sistema, PECES.SYS. El número que figura entre paréntesis es el rango de cada valor correspondiente a la fila. Por ejemplo, 164 es el valor más alto de su fila y le corresponde el rango 3, 96 es el segundo valor en magnitud de su fila y le corresponde el rango 2 y 51 es el valor más pequeño de la fila y le corresponde el rango 1, en la segunda fila el valor mayor es 115 y le corresponde el rango 3, el siguiente es 105 y le corresponde el rango 2, etc. La sumas de rangos son las siguientes:
Aplicando el estadístico de contraste, definido en la expresión (9-17), estos datos, obtenemos un valor del estadístico:
El punto critico para una CHI CUADRADO con dos grados de libertad (los grados de libertad son el número de variables [K] menos uno) es 5.99; como el valor experimental, 15.17, es mayor, rechazamos la hipótesis nula y concluimos que la concentración de tóxico es distinta en los órganos estudiados.
346
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
A continuación realizaremos el ejemplo anterior mediante SPSS. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
La primera instrucción carga el fichero de sistema PECES.SYS este fichero, que le ha sido suministrado con el disquete de ejemplos, contiene los datos correspondientes al ejemplo realizado en este subapartado sobre la concentración de tóxico en peces. La segunda instrucción indica a SPSS que realice la prueba de Friedman, con las variables CEREBRO, CORAZÓN Y SANGRE. Los resultados obtenidos son los siguientes:
En la tabla anterior se nos indican los rangos medios de cada grupo, el número de casos, 12, y el valor del estadístico de contraste, calculado mediante la expresión (9-17). La probabilidad correspondiente a este valor es mucho menor que 0.05; por lo tanto, podemos rechazar la hipótesis nula, y concluir que la concentración de tóxicos en los órganos estudiados es distinta.
Coeficiente de concordancia de Kendall El coeficiente de concordancia de Kendall, al que la mayoría de los autores simboliza por la letra W, es una técnica de análisis estadístico muy utilizada en ciencias de la salud y en sociología.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
347
Mide el grado de concordancia entre un grupo de elementos y un grupo de características. Si la concordancia es la máxima posible, W = 1, el máximo valor que puede tener el coeficiente W es la unidad; por el contrario, si la concordancia es la mínima posible, W = 0. Por lo tanto, el coeficiente puede oscilar entre 0 y 1. Los campos más frecuentes de aplicación son los siguientes: CAMPOS DE APLICACIÓN
A) Conocer el grado de homogeneidad de un grupo de elementos respecto a un grupo de circunstancias. Supongamos que queremos comprobar si los alumnos universitarios formados en un mismo centro tienen un grado de formación homogéneo respecto a varias disciplinas o, por el contrario, si hay disciplinas en las que los alumnos, en general, destacan y otras en las que la preparación de la mayoría es deficiente. La comprobación anterior podemos llevarla a cabo seleccionando una muestra de K alumnos, evaluando la aptitud de cada uno de ellos sobre cada una de las n disciplinas seleccionadas, clasificando en cada alumno el orden de aptitud de las n disciplinas de 1 a n; si un alumno tiene la mejor nota en Matemáticas, asignaremos el número 1 a esta disciplina en la fila correspondiente a ese alumno (si la nota siguiente corresponde a Anatomía, asignaremos el número 2 a esta disciplina y así hasta K, número que le corresponderá a la disciplina en que ese alumno tenga peor nota); esta clasificación la llevaremos a cabo con cada uno de los alumnos seleccionados. Veamos un ejemplo: Seleccionamos 6 alumnos y 4 disciplinas.
348
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El primer alumno de las 4 disciplinas ha obtenido la mejor calificación en Matemáticas, la segunda mejor nota la obtuvo en Anatomía, la tercera en Biología y la cuarta en Física. Las puntuaciones anteriores no son las notas; en Matemáticas, el primer alumno no ha obtenido un 1. Por otra parte, cuando decimos que el primer alumno ha obtenido la mejor nota en Matemáticas, no nos referimos a todos los alumnos, sino a la clasificación de las disciplinas en cada alumno. Si en el ejemplo anterior hubiera concordancia entre la preparación de los alumnos, como parece que la hay, puesto que la mayoría sacan las calificaciones más altas en Anatomía y Biología, esperamos que la suma de las columnas sea distinta. Un ejemplo de concordancia máxima sería el siguiente:
En la tabla anterior, todos los alumnos tienen la mejor preparación en Anatomía y la peor preparación en Matemáticas; el valor del coeficiente W debe de ser igual a 1, como luego comprobaremos. Cuando la concordancia es máxima, la suma de ordenaciones en la columna correspondiente a la disciplina clasificada en primer lugar es igual a k; 6 en este caso, puesto que le corresponde un punto por alumno. El total de la columna correspondiente a la disciplina clasificada en segundo lugar es 2k; 12, en nuestro caso. La tercera 3k; 18, en nuestro caso, y la cuarta 4k, 24 en nuestro caso. Si la concordancia fuera cero, las ordenaciones de las disciplinas estarían repartidas aleatoriamente, y en este caso esperaríamos que la suma de las columnas fuese aproximadamente igual en todas ellas y de un valor aproximado a 15 en nuestro ejemplo, ya que la
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
349
suma total de todas las columnas es 60 siempre y el valor medio que le correspondería a cada columna sería 15. En el ejemplo anterior, la concordancia indica que la preparación de los alumnos está desnivelada. En general, los alumnos están mejor preparados en unas disciplinas que en otras, lo cual puede ser por un deficiente funcionamiento de las disciplinas en las que la aptitud es menor, o bien porque el grado de interés de los alumnos en general se centra en unas disciplinas determinadas. B) Otro campo de aplicación muy importante es estudiar el grado de acuerdo de un grupo de expertos (médicos, psicólogos, jueces, etc.), sobre un conjunto de temas. Por ejemplo, podríamos plantear a un grupo de de k médicos, que clasifique en orden de importancia un conjunto de n síntomas, colocando primero el que considere el más importante, al que asignaremos el número 1, y por último el que considere el menos importante, al que puntuaremos con n. Al igual que en el ejemplo anterior, la clasificación de la valoración de importancia de los síntomas se hace para cada médico de forma independiente de los demás. Si hay acuerdo entre la valoración de los síntomas, esperamos encontrar un desequilibrio en la suma de las puntuaciones de cada síntoma. Esta suma será menor para el síntoma más importante y mayor para el menos importante. Se selecciona un grupo de 5 médicos para que evalúe, en orden de importancia para el diagnóstico de una enfermedad, 4 síntomas, Los resultados obtenidos son los siguientes:
350
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
PLANTEAMIENTO ESTADÍSTICO
En los ejemplos anteriores, hemos visto de forma conceptual que, si existe concordancia, el valor de W se aproximará a uno, y la suma de las columnas correspondientes a las características evaluadas (disciplinas y síntomas en los ejemplos anteriores) estará desequilibrada. Pero como en todo estudio estadístico necesitamos un planteamiento matemático, que nos permita decir si las diferencias observadas son o no significativas, sólo si las diferencias son significativas evaluaremos el grado de concordancia mediante el coeficiente W. Téngase en cuenta que, si W es grande, próximo a 1, pero las diferencias no son significativas, no tiene sentido estadístico decir que hay concordancia. El coeficiente W de Kendall, viene definido en la siguiente expresión:
En la expresión anterior, n es el número de características que evaluar, K es el número de elementos que intervienen en el estudio, S es la suma de las puntuaciones de cada característica evaluada, que correspondería a la suma de las columnas; según la disposición de los datos realizada en los ejemplos anteriores, el máximo valor posible para W es 1, máxima concordancia, y el mínimo cero, para una falta total de concordancia. Calculando W en los ejemplos anteriores mediante la expresión anterior, para el ejemplo de los alumnos, W = 0.378. En el mismo ejemplo de los alumnos, compruébese que en la tabla que pusimos para la máxima concordancia, W = 1. En el ejemplo de los médicos, W = 0.152. En los ejemplos descritos, no hemos planteado la posibilidad de empates; por ejemplo, que un alumno hubiera sacado las mismas calificaciones en dos disciplinas o que algún médico hubiera clasificado dos síntomas en el mismo orden de importancia. Si esto
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
351
ocurre, para el cálculo de W no es válida la expresión (9-18); en caso de empate, la expresión para el cálculo de W es la siguiente:
En la expresión anterior, ti es el número de observaciones empatadas con el mismo rango; puede tomar valores entre 2 y n. El valor n lo tomaría si un evaluador diera a todas las características el mismo rango. Obsérvese que, si no hay empate, el valor de ti es 1; uno al cubo es uno y, al restarle uno, queda cero. Por eso, este término no interviene en la expresión (9-18), válida cuando no hay empates, pero con las consideraciones realizadas, la expresión general para el cálculo del coeficiente de concordancia de Kendall, es la (9-19). La evaluación de W no tiene sentido si previamente no hemos comprobado que las diferencias observadas son significativas, para lo cual debemos resolver el siguiente contraste de hipótesis:
El estadístico que utilizaremos para resolver el contraste de hipótesis anterior es el siguiente:
El estadístico anterior sigue una distribución CHI CUADRADO, con n — 1 grados de libertad.
352
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En este tipo de problemas, debemos resolver en primer lugar el contraste de hipótesis y, sólo si las diferencias son significativas, interpretar el coeficiente de concordancia. Decir que no podemos rechazar la hipótesis nula es equivalente a decir que no tenemos evidencia de que W sea significativamente distinto de cero; téngase en cuenta que puede ocurrir que W sea grande, pero no significativo, en cuyo caso nuestra conclusión sería en el sentido de no poder rechazar la hipótesis de no concordancia. El valor del estadístico de contraste, en el caso de los alumnos, es 6.804 y en el de los médicos 2.28; los grados de libertad n — 1 son en ambos casos 3; el punto crítico de una CHI CUADRADO con 3 grados de libertad es 7.81; como ambos valores son menores que el punto crítico, no podemos rechazar la hipótesis nula y nuestra conclusión, en ambos casos, es que no tenemos evidencia de que exista concordancia. Recuérdese que no poder rechazar la hipótesis nula puede ser por falta de potencia en la prueba (porque la muestra sea pequeña), lo cual podemos solventar aumentando el tamaño de la muestra. CÁLCULO DEL COEFICIENTE DE CONCORDANCIA CON SPSS El cálculo del coeficiente de concordancia con SPSS, lo podemos realizar mediante el subcomando Kendall. A continuación, resolveremos los problemas anteriores mediante SPSS. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
353
La última de las instrucciones anteriores, mediante el subcomando KENDALL, indica a SPSS que calcule W y resuelva el contraste de hipótesis con los datos anteriores, que son los correspondientes al ejemplo de los alumnos. Los resultados obtenidos son los siguientes:
En la tabla anterior, SPSS lista el rango medio de cada disciplina, el número de casos, el valor de W, del estadístico de contraste y la significación. Obsérvese la coincidencia con los cálculos realizados aplicando las expresiones vistas en este subapartado; la probabilidad es mayor que 0.05, y por lo tanto no podemos rechazar la hipótesis nula, que es la conclusión a la que llegamos anteriormente. A continuación procedemos a realizar el otro ejemplo. Teclee las siguientes instrucciones:
354
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La última de las instrucciones anteriores, mediante el subcomando KENDALL, indica a SPSS que calcule W y resuelva el contraste de hipótesis con los datos anteriores, que son los correspondientes al ejemplo de los alumnos. Los resultados obtenidos son los siguientes:
En la tabla anterior, podemos comprobar que los resultados no son significativos. La probabilidad es mayor que 0.05 y, por lo tanto, no tenemos evidencia de que haya acuerdo entre los médicos. Obsérvese el valor del estadístico en este caso y en el anterior: en el caso de los alumnos, aunque no hay significación estadística, ésta era 0.0786, mayor de 0.05 pero próxima a ella; quizá en ese caso se debería replantear el problema con más alumnos, pero en el caso de los médicos la significación es 0.514 y parece que el desacuerdo es evidente. La prueba de la Q de Cochran Esta prueba es válida para evaluar si la respuesta de un grupo de elementos ante un conjunto de características, sobre las que se tienen datos para todos los elementos, es homogénea o por el contrario existen diferencias significativas entre los elementos estudiados. La respuesta es dicotómica: sólo puede tener dos valores, éxito o fracaso, si o no, etc. Los campos de aplicación de esta prueba son múltiples. Por ejemplo, n individuos son sometidos a k pruebas. Cada una de ellas sólo puede evaluarse con éxito o fracaso. La prueba de la Q nos
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
355
servirá para evaluar si las diferencias entre los individuos son significativas. Un grupo de n individuos debe opinar sobre un grupo de k presentadores. La respuesta puede ser bueno o malo. La prueba de la Q nos servirá para concluir si la impresión causada por los presentadores es homogénea o si hay diferencias entre ellos. En las respuestas, no hay restricciones en cuanto a las evaluaciones; cada evaluación es independiente de las demás y un individuo puede catalogar a todos los presentadores como buenos o como malos, a la mayoría como buenos o como malos. A un grupo de 10 expertos se les pide que lean 4 artículos científicos, A, B, C y D, cada uno de los cuales deben evaluar como bueno (1) o como malo (0). Los resultados obtenidos son los siguientes:
En la tabla anterior, Ti representa el total de las puntuaciones de cada artículo, y Si representa el total de las puntuaciones otorgadas por cada experto. Si hay acuerdo entre los expertos, esperamos que las sumas de las puntuaciones de cada artículo, sean significativamente distintas; por el contrario si no hay acuerdo, esperamos que entre la suma de las columnas, y por tanto de las filas, existan pequeñas diferencias explicables por el azar.
356
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Las hipótesis en este caso son:
El estadístico utilizado para resolver el contraste anterior es:
La expresión anterior, representa la Q de Cochran. K es el número de pruebas, n es el número de evaluadores, Sj, es la suma de las puntuaciones otorgadas por cada evaluador y Ti es la suma de las puntuaciones de cada prueba. El estadístico Q sigue una distribución CHI CUADRADO, con K— 1 grados de libertad. En el ejemplo anterior, Q es igual a 9.69; el punto crítico para una distribución CHI CUADRADO con 3 grados de libertad y una significación de 0.05 es 7.81; como el valor de la Q es mayor que el punto crítico, rechazamos la hipótesis nula y aceptamos que, según los expertos, el valor de los artículos es distinto. Una conclusión general, en caso de rechazar la hipótesis nula en la prueba de la Q es que la respuesta a las pruebas de los individuos seleccionados es significativamente distinta. SPSS resuelve la prueba de la Q mediante el subcomando COCHRAN. A continuación, resolveremos el ejemplo anterior mediante SPSS. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
357
Los resultados obtenidos son los siguientes:
En la tabla anterior, se nos indica el número de puntuaciones 0 y 1 que obtuvo cada revista, el número de casos de que constaba la prueba, el valor de la Q, los grados de libertad y la significación; como la significación es menor que 0.05, rechazamos la hipótesis nula y concluimos que, según los expertos, los artículos evaluados tienen distinto valor científico.
358
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES En los dos apartados anteriores, hemos analizado las pruebas no paramétricas disponibles en SPSS para comparar 2 o más variables relacionadas. En este apartado, estudiaremos las pruebas disponibles para analizar casos en los que tenemos dos variables independientes. Básicamente, consideraremos que las variables son independientes cuando los valores de cada variable procedan de sujetos distintos, con características distintas; nuestro interés es analizar si estas características distintas influyen en el valor de la variable. Los campos de aplicación son múltiples. Por ejemplo, si queremos comprobar si dos tratamientos antihipertensivos son diferentes podemos aplicar un tratamiento a un grupo de pacientes y el otro tratamiento a otro grupo de pacientes y, a continuación, comparar las tensiones arteriales en ambos grupos, a fin de determinar si hay diferencias significativas. Los dos grupos anteriores deben seleccionarse mediante las técnicas de muestreo adecuadas. En el caso anterior, las variables que comparar son: tensión arterial en el grupo al que se ha aplicado el tratamiento A y tensión arterial en el grupo al que se ha aplicado el tratamiento B. Las variables son independientes, puesto que proceden de individuos distintos. Las pruebas disponibles en SPSS para comparar dos variables independientes son las siguientes:
Analizaremos las pruebas anteriores en los siguientes subapartados.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
359
Prueba de la mediana para dos muestras independientes Esta prueba es adecuada para comparar dos variables continuas. Los tamaños de las dos poblaciones pueden ser distintos. Los denominaremos n1 y n2. La prueba se fundamenta en analizar si las medianas de las dos poblaciones son distintas o diferentes. En primer lugar, calcularemos la mediana para todos los datos. Disponemos todos los datos en un mismo grupo y calculamos la mediana global. A continuación, en una tabla dos por dos, disponemos el número de casos de cada muestra, que son mayores o menores que la mediana global. Si las medianas poblacionales son iguales, la proporción de casos de cada muestra que son menores o mayores que la mediana global deben ser similares, salvo diferencias debidas al azar; por el contrario, si las medianas son diferentes, la proporción de casos por encima o debajo de la mediana global serán significativamente distintos en ambas muestras. Las hipótesis son:
La hipótesis nula admite que las medianas poblacionales son iguales y la alternativa que son distintas. También pueden plantearse contrastes unilaterales. Si el número total de casos suma de las dos muestras es mayor que 20 y ninguna frecuencia teórica es menor que 5, aplicaremos la prueba de la CHI CUADRADO de Pearson con la corrección de Yates. Si el número total de casos es menor que 20, o alguna frecuencia teórica es menor de 5, aplicaremos la prueba de Fisher. SPSS indica cómo ha realizado los cálculos: si aplica la prueba de FISHER, en los resultados aparece EXACT PROBABILITY, y si aplica la prueba de la CHI CUADRADO de Pearson aparece CHISQUARE.
360
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
El subcomando adecuado para realizar la prueba de la mediana con SPSS es MEDIAN. A continuación compararemos, mediante la prueba de la mediana, la tensión arterial diastólica en hombres y mujeres, utilizando los datos del ejemplo CORONAR. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
;La
segunda de las instrucciones anteriores indica a SPSS que realice la prueba de la mediana sobre los datos de la TAD, entre los individuos con SEXO = 1, hombres, y SEXO = 2, mujeres; obsérvese que la segunda variable define los grupos. Si hubiéramos puesto CLSO(1,3), las comparaciones se realizarían entre los individuos con CLSO = 1 y CLSO = 3. Los resultados obtenidos son los siguientes:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
361
En los resultados, SPSS nos muestra en primer lugar la tabla dos por dos, en la que representa el número de casos de cada muestra por encima y por debajo de la mediana global. Hay 18 hombres y 17 mujeres, con TAD mayor que la mediana; 11 hombres y 24 mujeres con valores de TAD menor que la mediana. La mediana global es 80, el valor de la CHI CUADRADO de Pearson es 2.1194, el cual no es significativo, puesto que la significación 0.1454 es mayor que 0.05. Por tanto, no podemos rechazar la hipótesis nula y no tenemos evidencia de que las medianas sean significativamente distintas.
La prueba de Mann-Whitney Esta prueba es aplicable para comparar dos variables continuas independientes. Las dos muestras pueden tener tamaños distintos. Es la prueba no paramétrica considerada más potente para comparar dos variables continuas independientes. El procedimiento es el siguiente: agrupamos los datos de las dos muestras en un sólo grupo y ordenamos los datos de menor a mayor, asignándole a cada dato el rango correspondiente a su orden de magnitud; si no hay diferencias significativas entre las dos variables, esperamos que los rangos estén uniformemente repartidos entre los dos grupos. Por el contrario, si hay diferencias significativas entre las dos variables, esperamos que los rangos menores se asocien con un grupo y los mayores con el otro grupo. Las hipótesis son:
Si existen desequilibrios significativos, los detectará la prueba propuesta por Mann-Whitney, basada en la suma de los rangos para grupo. Supongamos que tenemos dos grupos de datos, con tamaños n1 y n2; la suma de los rangos correspondientes a cada grupo, son R1 y R2. A partir de estos datos, calculamos los estadísticos U1 y U2 según las siguientes expresiones:
362
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Una vez calculados los parámetros anteriores, elegimos el menor; a este valor lo denominaremos U y, mediante la correspondiente tabla, comprobaremos si las diferencias son significativas. Cuando las muestras son grandes, se consigue una buena aproximación a una distribución normal con media y desviación típica definidas según las siguientes expresiones:
A partir de la media y desviación típica definidas en las expresiones anteriores, calculamos Z, valor normal tipificado, según la siguiente expresión:
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
363
En la expresión anterior U, es el menor entre U1 y U2. Veamos un ejemplo. Para probar dos tratamientos 1 y 2 contra el colesterol, seleccionamos dos muestras de pacientes hipercolesterolémicos. Se administra un tratamiento a cada muestra durante 3 meses, al cabo de los cuales medimos el colesterol basal en ambos grupos y comparamos sus resultados, a fin de determinar si las diferencias observadas son significativas. Los resultados obtenidos son los siguientes:
Los tamaños muéstrales son distintos, n1 — 7 y n2 = 6. Aplicamos la prueba de Mann-Whitney, para lo cual agrupamos a todos los valores en un sólo conjunto y los ordenamos de menor a mayor:
La suma de rangos para el grupo 1, R1 = 24. La suma de rangos para el grupo 2, R2 = 67. A partir de los datos anteriores, calculamos U1 y U2 mediante las expresiones (9-22) y (9-23).
El menor de los dos es U1 = 3, y este valor es el que asignaremos al parámetro W = 3. Consultando en la tablas correspondientes, encontramos que la
364
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
significación para los valores anteriores es 0.008; por lo tanto, rechazamos la hipótesis nula y concluimos que los tratamientos son distintos. El 2 es el mejor de los dos, puesto que los valores de colesterol son significativamente menores en los pacientes que lo han seguido. SPSS calcula la prueba de Mann-Whitney mediante el subcomando M-W. A continuación realizaremos el ejemplo anterior mediante SPSS. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
La última instrucción indica a SPSS que realice la prueba de Mann-Whitney, entre los colesteroles básales del grupo 1 y 2. Los resultados obtenidos son los siguientes:
En la tabla anterior, lista en primer lugar el rango medio para cada grupo, y a continuación el parámetro U, que es el menor entre
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
365
U1 y U2. El parámetro W es debido a Wilcoxon, el cual ha ideado una prueba para comparar dos muestras independientes, y en este caso es la suma de rangos menor de las dos. A continuación lista la probabilidad exacta y la calculada mediante aproximación a la normal. La aproximación a la normal mejora según aumenta el tamaño de la muestra. CORRECTED FOR TIES indica que los valores se calculan corrigiendo las distorsiones por empates, aunque en este caso no ha habido ninguno, un empate sería que hubiera valores iguales en ambos grupos. Por ejemplo que hubiera un colesterol de 240 en los dos grupos. A continuación realizaremos otro ejercicio, a partir del ejemplo CORONAR. Teclee las siguientes instrucciones:
La segunda instrucción indica a SPSS que realice la prueba de Mann-Whitney comparando los valores del colesterol basal (CB) entre individuos sedentarios y no sedentarios. Los resultados obtenidos son los siguientes:
366
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior, no se lista la probabilidad exacta, debido a que las muestras son grandes. La probabilidad se ha calculado mediante la aproximación a la normal. La significación es 0.0007, mucho menor que 0.05; por lo tanto, rechazamos la hipótesis nula y concluimos que el CB es distinto en los dos grupos, y menor en individuos no sedentarios, que es el grupo al que corresponde el menor rango medio. La prueba de Kolmogorov-Smirnov para dos variables independientes Además de la prueba no paramétrica, vista en este mismo capítulo, Kolmogorov-Smimov idearon otra prueba, válida para comparar dos variables independientes. Las variables que comparar deben ser numéricas. Los fundamentos de esta prueba son similares a los de la prueba aplicable para una sola muestra. En el caso de dos variables independientes, la prueba pretende comprobar si las distribuciones poblacionales de las dos variables son iguales o distintas. La prueba de dos colas es sensible a diferencias en tendencia central, dispersión y colocación. Las hipótesis son:
El estadístico de contraste es D, que es la máxima diferencia entre las proporciones escalonadas calculadas para cada valor. El parámetro D viene definido según la siguiente expresión:
En la expresión anterior, S1 es la proporción de valores de la primera muestra, que son iguales o menores que x, S2 es la propor-
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
367
ción de valores de la segunda muestra que son iguales o menores que x. La diferencia anterior se calcula para todos los valores y el valor de la diferencia máxima es el parámetro D. El parámetro D está tabulado y, consultando las correspondientes tablas, podremos comprobar si las diferencias son o no significativas. Cuando las dos muestras son mayores que 40 casos, podemos utilizar el siguiente estadístico para resolver el contraste de hipótesis:
El estadístico anterior sigue una distribución CHI CUADRADO con 2 grados de libertad. Esta prueba puede realizarse con SPSS mediante el subcomando K-S. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las instrucciones anteriores indica a SPSS que realice la prueba de Kolmogorov-Smirnov para dos muestras independientes, a fin de comparar las distribuciones de los triglicéridos básales entre individuos sedentarios y no sedentarios. Los resultados obtenidos son los siguientes:
368
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior, SPSS lista en primer lugar el número de casos de cada muestra; a continuación, las máximas diferencias observadas en valor absoluto y con su correspondiente signo. También lista la z de Kolmogorov-Smirnov y la probabilidad, que en este caso es mayor que 0.05, y por lo tanto no rechazaremos la hipótesis nula. Nuestra conclusión es que no tenemos evidencia de que la distribución de los triglicéridos en individuos sedentarios y no sedentarios sea distinta. En el listado de resultados, aparece un mensaje de prevención (WARNING), en el que avisa de que el tamaño de la muestra es pequeño y por ello deben comprobarse los resultados, consultando la tabla de Kolmogorov-Smirnov, para dos muestras, La prueba de las rachas de Wald-Wolfowitz para dos variables independientes Esta prueba analiza las distribuciones de dos variables independientes y puede detectar diferencias en la tendencia central, dispersión u oblicuidad. Los datos de las dos variables se agrupan en un solo conjunto de datos, ordenándolos de menor a mayor y contando a continuación las rachas referidas a los grupos. Si el primer dato es del grupo 1, se cuenta una racha; si los datos segundo y tercero pertenecen al grupo 2, se cuenta otra racha, etc. Cada sucesión de datos correspondiente a un grupo se cuenta como una racha. La prueba se basa en que, si las distribuciones de los datos son iguales, las rachas estarán uniformemente repartidas; por el contrario, si hay diferencias entre ellas, las rachas de cada grupo se encontrarán repartidas de forma desequilibrada.
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
369
En un experimento sobre el valor de los triglicéridos básales en dos grupos de individuos, obtenemos los siguientes resultados:
Para realizar esta prueba dispondríamos los datos de la siguiente manera:
Las rachas las contabilizamos con los grupos, no con los valores; en el caso anterior hay 4 rachas. Las hipótesis son:
El contraste anterior se resuelve para muestras pequeñas (menores que 20) consultando las rachas obtenidas en la correspondiente tabla. Para muestras grandes, se puede realizar una aproximación a la normal, con media y desviación típica definidas en las siguientes expresiones:
370
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
A partir de las expresiones para la media y la desviación típica anteriores, deducimos la expresión para Z, abscisa normal tpiñcada, según la siguiente expresión:
En la expresión anterior, r es el número de rachas observado. Algunos autores indican que en la expresión anterior debe realizarse una corrección de continuidad para mejorar la aproximación. La corrección por continuidad consiste en restar 0.5 al valor absoluto del numerador en la expresión anterior, que queda de la siguiente manera:
Si se producen empates, se plantean problemas difíciles de resolver. Supongamos que tenemos tres valores del colesterol basal, iguales a 234, 2 de los cuales pertenecen al grupo 1 y 1 al grupo 2. Según la disposición de los grupos, el número de rachas puede
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
371
modificarse. SPSS nos indica el número de empates (TIES) mediante un mensaje de prevención (WARNING) y el número mínimo y máximo de rachas que pueden obtenerse, según cómo se resuelvan los empates. Esta prueba podemos realizarla con SPSS mediante el subcomando W-W, Inicie una sesión con SPSS y teclee las siguientes instrucciones:
La segunda de las instrucciones anteriores indica a SPSS que, mediante la prueba de Wald-Wolfowitz, evalúe las distribuciones del colesterol en fumadores y no fumadores. Los resultados obtenidos son los siguientes:
En la tabla anterior, se indica el número de casos de cada grupo y los valores extremos de las rachas. Cuando dice máximo posible 34, significa que los empates se han resuelto, obteniendo el máximo posible de rachas; el mínimo posible 27 quiere decir que
372
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
los empates se han resuelto obteniendo el número mínimo posible de rachas. Las probabilidades asociadas a cada situación se han calculado, mediante la aproximación a la normal. Obsérvese la influencia de los empates: si resolvemos los empates obteniendo el mínimo posible de rachas, el resultado de la prueba es significativo; si resolvemos los empates obteniendo el máximo posible de rachas, el resultado no es significativo. En este caso, el resultado es incierto y sería recomendable realizar otra prueba de comparación. Si el resultado de las dos situaciones, mínimo y máximo, fuera significativo, concluiríamos que las distribuciones son distintas. Si el resultado de las dos situaciones fuera no significativo, aceptaríamos que no tenemos evidencia de que las distribuciones sean distintas, pero cuando ocurre que una es significativa y otra no, debemos realizar otra prueba. SPSS advierte mediante el aviso (WARNING) de que existen 8 empates que afectan a 21 casos. La prueba de los valores extremos de Moses La prueba de Moses trata de determinar si el comportamiento en los valores extremos, mayores y menores, de dos variables es igual o distinto. A uno de los grupos lo denominaremos grupo experimental, y al otro control. La prueba se basa en agrupar en un solo conjunto los datos y ordenarlos de menor a mayor, asignándoles los rangos correspondientes y evaluando el parámetro S, que es el número más pequeño de posiciones que incluye todos los valores del grupo control; viene dado por la siguiente expresión:
En la expresión anterior, RM es el máximo rango obtenido por los valores del grupo control y Rm es el mínimo rango obtenido por los valores del grupo control. Si no hay diferencias significativas entre los valores extremos,
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
373
esperamos que los rangos mayores y menores estén repartidos equitativamente entre los dos grupos; en caso contrario, habrá diferencias que podrán ser detectadas por la prueba de Moses. Supongamos que disponemos de los siguientes datos, correspondientes a la glucosa basal de dos grupos de individuos; el grupo E, tratado con insulina, y el grupo C, grupo control.
Los valores anteriores los disponemos en un solo grupo y les asignamos el correspondiente rango.
El máximo rango obtenido por los valores del grupo control es 6, que es el correspondiente al valor 110, y el mínimo 1, que es el correspondiente a 80. Por tanto, S’= 6 — 1 + 1 = 6 ; esto indica que el número más pequeño de posiciones que incluye a todos los valores es 6. Moses, propuso que para el calculo de S’, previamente se descontara un número pequeño de los valores extremos al número de valores descartados; lo simbolizaremos por h. Supongamos, en el ejemplo anterior, que h = 1; por tanto, debemos eliminar el mayor y el menor rango del grupo control. Entonces, el rango máximo es 5 y el menor 4, en este caso S’ = 5 — 4 + 1 = 2. Las hipótesis son:
374
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
SPSS resuelve la prueba de Moses, mediante el subcomando MOSES. Inicie una sesión con SPSS y siga las siguientes instrucciones:
La segunda de las instrucciones anteriores indica a SPSS que realice una prueba de Moses de los valores del colesterol entre fumadores y no fumadores. Los valores de FUMA=1 corresponden a fumadores y FUMA=2 a no fumadores. Como queremos que el grupo control sean los no fumadores, FUMA=2, hemos indicado esto mediante FUMA(2,1). SPSS hubiera entendido que el grupo control son los fumadores si en la instrucción figurara FUMA(1,2); por tanto, considera como grupo control el primer valor asociado al factor, variable posterior a BY. Los resultados obtenidos son los siguientes:
En la tabla anterior, se indica el número de sujetos de cada grupo y la probabilidad calculada, para el caso de no eliminar los rangos extremos del grupo control. S’ , en ese caso (SPAN OF CONTROL GROUP), es 68 y le corresponde una probabilidad de 0.5, que no es significativa. Eliminando el rango mayor y menor, h — 1 (AFTER
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
375
REMOVING 1 OUTLIER(S) FROM EACH END), S’= 53 y la probabilidad es 0.001 menor que 0.05, y por tanto, es significativa; por tanto, concluimos que el CB tiene un comportamiento distinto en cuanto a los valores extremos en fumadores que en no fumadores. En la prueba de Moses, habitualmente aceptamos la probabilidad calculada eliminando los rangos extremos. SPSS, si no se le indica otra cosa, elimina un 5% de los rangos menores y mayores. Si queremos eliminar un número determinado, podemos indicarlo junto al subcomando MOSES. Si quisiéramos eliminar los 3 rangos mayores y menores del grupo control, lo indicaríamos de la siguiente manera:
PRUEBAS NO PARAMÉTRICAS PARA K VARIABLES En el apartado anterior, hemos estudiado varias pruebas que nos permitían contrastar hipótesis sobre el comportamiento de dos variables independientes. En este apartado, analizaremos las pruebas disponibles en SPSS para comparar K muestras. Los campos de aplicación son múltiples. Por ejemplo, supongamos que queremos comparar simultáneamente el colesterol basal en tres grupos: no fumadores, fumadores de menos de 10 cigarrillos y fumadores de más de 10 cigarrillos. Alguien podría pensar que, aplicando de forma sucesiva las pruebas para dos muestras, podría resolver el problema, lo cual es un error, pues la probabilidad de cometer error tipo I sería muy grande. Las pruebas disponibles en SPSS para evaluar K muestras independientes son:
376
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
La prueba de Kruskall Wallis Esta prueba es válida para comparar simultáneamente invariables continuas. También se denomina, análisis de la varianza no paramétrico de una vía. Las hipótesis son:
La prueba se basa en agrupar los datos de las K variables en un solo grupo, ordenado de menor a mayor, asignando a cada dato el correspondiente rango. Si las distribuciones son iguales, los datos de las K variables se repartirán de manera homogénea en el grupo común ordenado, y la suma de los rangos asignadas a cada grupo tendrá valores próximos. Por el contrario, si las distribuciones son distintas, son de esperar diferencias entre las sumas de rangos más grandes que las explicables por el azar. El estadístico de contraste, que recoge los conceptos expresados anteriormente, viene dado por la siguiente expresión:
En la expresión anterior, K es el número de los K grupos correspondientes a las K variables, ni es el número de casos del iésimo grupo, Ri es la suma de rangos del iésimo grupo y N es el número total de sujetos que intervienen en la prueba. Para muestras pequeñas, la significación de los valores de H está tabulada. Según aumenta el tamaño de la muestra, H se aproxima a una distribución CHI CUADRADO con K — 1 grados de libertad. Cuando hay empates (dos o más datos tienen los mismos valo-
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
377
res), resolveremos cada empate que se produzca asignando a cada dato implicado en el empate el rango medio correspondiente a todos los rangos implicados en dicho empate. La mayoría de los autores indican que en caso de empates, el estadístico H debe ser corregido, calculando H según la siguiente expresión:
En la expresión anterior, s indica el esésimo empate (téngase en cuenta que puede haber varios empates), y r el número total de empates; ts es el número de sujetos empatados en el esésimo empate. A continuación, veamos un ejemplo. Para comparar tres tratamientos antihipertensivos 1, 2 y 3, se seleccionan tres muestras de pacientes hipertensos, a cada una de las cuales se asigna un tratamiento distinto durante tres meses. Al cabo de ese tiempo medimos la TAS (tensión arterial sistólica) a todos los pacientes. Los resultados obtenidos son los siguientes:
Los datos anteriores los agruparemos en un solo grupo ordenado de menor a mayor, asignándoles los correspondientes rangos. En caso de empates, asignaremos a los datos empatados el mismo valor, el rango medio correspondiente a todos los datos implicados en cada empate.
378
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la siguiente tabla se muestran los resultados, según los conceptos expresados anteriormente.
En la tabla anterior se observan varios empates; el primer empate lo forman dos valores 130, uno del grupo 1 y otro del grupo 3; a estos datos les corresponden los rangos 4 y 5, asignándoles a cada uno el rango medio de los rangos empatados 4.5. El resto de los empates se resuelven de la misma manera. En el ejemplo anterior, tenemos 18 casos. El grupo 1 tiene 6 casos, el grupo 2 tiene 5 casos y el grupo 3 tiene 7 casos. La suma de rangos del primer grupo es 36.5, la suma de rangos del segundo grupo es 55 y la suma de rangos del tercer grupo es 79.5. El valor de H sin corregir por empates es 3.69 y el valor de H corregido por empates es 3.714. El punto crítico para una distribución CHI CUADRADO con 2 grados de libertad es 5.99; dado que el
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
379
valor observado es menor que el punto crítico, no podemos rechazar la hipótesis nula y concluimos que no tenemos evidencia estadística de que la distribución de la TAS en los tres grupos sea distinta. No podemos afirmar que haya diferencias significativas entre los tratamientos. La prueba de Kruskal-Wallis puede resolverse con SPSS mediante el subcomando K-W. A continuación vamos a resolver el ejemplo anterior mediante SPSS. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
La última de las instrucciones anteriores indica a SPSS, mediante el subcomando K-W indica a SPSS que realice la prueba de KruskalWallis con los datos anteriores. Los resultados obtenidos son los siguientes:
380
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior, podemos observar los resultados, que coinciden plenamente con los calculados anteriormente, dado que la significación es mayor que 0.05; no podemos rechazar la hipótesis nula.
La prueba de la mediana para K variables La prueba de la mediana para invariables es una ampliación de la prueba de la mediana para dos variables; los conceptos fundamentales de ambas coinciden. Esta prueba es adecuada para comparar si K variables continuas tienen la misma mediana. Los tamaños de las K poblaciones pueden ser distintos. Los denominaremos n1...nk. La prueba se fundamenta en analizar si las medianas de las K poblaciones son distintas o diferentes. En primer lugar, calcularemos la mediana para todos los datos. Disponemos todos los datos en un mismo grupo y calculamos la mediana global. A continuación, en una tabla dos por K, disponemos el número de casos de cada muestra, que son mayores o menores que la mediana global. Si las medianas poblacionales son iguales, la proporción de casos de cada muestra que son menores o mayores que la mediana global deben ser similares, salvo diferencias debidas al azar; por el contrario, si las medianas son diferentes, la proporción de casos por encima o debajo de la mediana global será significativamente distinta, para cada variable. Las hipótesis son:
La hipótesis nula admite que las medianas poblacionales son iguales, y la alternativa que, al menos la mediana de una de las variables es distinta de las demás. También pueden plantearse contrastes unilaterales. El contraste de hipótesis anterior, se resuelve aplicando la clásica
ESTADÍSTICA NO PARAMÉTRICA. EL PROCEDIMIENTO NPAR
381
prueba de la CHI CUADRADO de Pearson, teniendo en cuenta que para la correcta aplicación de la prueba, no debe haber más del 25 % de las casillas con valores esperados menores que 5. En caso de que haya más del 25 % de las casillas con valores menores de 5, la prueba no es aplicable y debemos emplear otra. SPSS avisa si no se cumplen las condiciones anteriores. Inicie una sesión con SPSS y teclee las siguientes instrucciones:
La penúltima de las instrucciones anteriores, mediante el subcomando MEDIAN, indica a SPSS que realice la prueba de la mediana, a fin de comprobar si la tendencia central es la misma en los valores de la TAD en las tres clases sociales.
382
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla anterior, se nos presentan los resultados, que tienen la misma interpretación que en el caso de dos muestras. Obsérvese que SPSS emite un mensaje de aviso en el que nos indica que hay 2 casillas teóricas con menos de 5 casos, por lo que la prueba podría no ser válida en este caso.
Apéndice DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO
A1 EJEMPLO CORONAR En una ciudad se decide llevar a cabo un trabajo sobre la influencia de diversos factores de riesgo en las enfermedades cardíacas, para lo cual se extrae una muestra estadísticamente representativa de 70 individuos entre 40 y 70 años. El ejemplo es ficticio construido con fines didácticos. En cada individuo seleccionado en la muestra se decide la recogida de las siguientes características (variables):
384
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
Los datos correspondientes a las variables anteriores son los siguientes:
DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO
385
386
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
En la tabla de datos anterior, cada línea recoge los resultados de un caso por el mismo orden que el listado de variables previo a los datos. En la tabla de variables quedan reflejadas las equivalencias de valores de las variables cualitativas. El fichero de sistema CORONAR.SYS contiene los datos y su definición, según formato SPSS descritos anteriormente. A2 EJEMPLO VASCULAR Los datos del fichero vascular corresponden a 65 individuos ficticios, los cuales constituyen una muestra representativa de una hipotética población. Las variables representadas son las siguientes:
DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO
387
En la tabla de datos anterior, cada línea recoge los resultados de un caso, por el mismo orden que el listado de variables previo a los datos. En la tabla de variables quedan reflejados la equivalencia de valores de las variables cualitativas.
388
ESTADÍSTICA MULTIVARIANTE Y NO PARAMÉTRICA CON SPSS
DESCRIPCIÓN DE LOS FICHEROS DE EJEMPLO
389
Los datos anteriores y su definición, según formato SPSS, están incluidos en el fichero de sistema VASCULAR.SYS. A3 EJEMPLO PECES Los datos del ejemplo peces, corresponden a la concentración de un tóxico en el cerebro, corazón y sangre de 12 peces. Los datos son los siguientes: CONCENTRACIÓN DE TÓXICO EN mg/1000 gr CEREBRO
CORAZÓN
SANGRE
El fichero PECES.SPS contiene los datos y las instrucciones necesarias para que SPSS lea los datos. El fichero PECES.SYS es un fichero de sistema SPSS, a partir del cual pueden realizarse los análisis estadísticos de forma directa. En el libro hay otros ejemplos que se describen en el texto.
BIBLIOGRAFÍA RECOMENDADA
Marija, J.: Norusi SPSS/PC+ Advanced Statistics 4.0 SPSS Inc. Chicago, U.S.A Marija J.: Norusi SSPSS/PC+ Statistics 4.0 SPSS Inc. Chicago U.S.A. Marija, J.: Norusi SSPSS/PC+ Advanced Statistics 5.0 SPSS Inc. Chicago, U.S.A. Marija, J.: Norusi SSPSS/PC+ Profesional Statistics 5.0 SPSS Inc. Chicago U.SA. Bisquerra, R.: Análisis multivariable. Editorial PPU, Barcelona, 1989. González López-Valcárcel, R.: Análisis multivariante aplicación al ámbito sanitario. SG Editores, Barcelona, 1991. Álvarez Cáceres, R.: Estadística básica y procesamiento de datos con SPSS aplicado a las ciencias de la salud. C.S.C.M., Madrid, 1994.