280 59 2MB
Spanish Pages 168 [166] Year 2006
Cuadernos Metodológicos 38
Fabrizio Bernardi (Bologna, 1970) es profesor de Estructura Social Contemporánea en el Departamento de Sociología II de la UNED. Doctor en Sociología e Investigación Social por la Universidad de Trento en 1998, ha sido profesor de Sociología en la Universidad de Bielefeld y de Métodos de Investigación en Ciencias Sociales en la Universidad de Bologna. Ha publicado diversos artículos en revistas extranjeras y nacionales, así como capítulos en libros sobre la desigualdad social y las dinámicas familiares y laborales.
38
Análisis de la Historia de Acontecimientos
Análisis de la historia de Acontecimientos
Fabrizio Bernardi
Centro de Investigaciones Sociológicas
Centro de Investigaciones Sociológicas
El análisis de la historia de acontecimientos permite estudiar de forma dinámica las pautas según las cuales sucede un acontecimiento dado. En este libro se presentan sus fundamentos estadísticos y se discuten ejemplos concretos de su aplicación. Los ejemplos abarcan todas las fases de un análisis de la historia de acontecimientos, desde la organización de los ficheros de datos y la definición de las variables que se modifican en el tiempo, hasta la estimación de modelos multivariados y la interpretación de sus resultados. El programa estadístico que se utiliza en las aplicaciones presentadas en el texto es Stata. Todos los ficheros con los datos y comandos del programa estadístico, así como las soluciones para los ejercicios propuestos al final de cada capítulo, se encuentran en el CD adjunto. El lector podrá, por lo tanto, reproducir los ejemplos concretos de investigación empírica desarrollados en el texto y aprender, paso a paso, cómo realizar un análisis de la historia de acontecimientos.
Cuadernos Metodológicos
38
Análisis de la Historia de Acontecimientos Fabrizio Bernardi Departamento de Sociología II (UNED)
Centro de Investigaciones Sociológicas
Todos los derechos reservados. Prohibida la reproducción total o parcial de esta obra por cualquier procedimiento (ya sea gráfico, electrónico, óptico, químico, mecánico, fotocopia, etc.) y el almacenamiento o transmisión de sus contenidos en soportes magnéticos, sonoros, visuales o de cualquier otro tipo sin permiso expreso del editor.
COLECCIÓN «CUADERNOS METODOLÓGICOS», NÚM. 38
Primera edición, febrero de 2006 © CENTRO DE INVESTIGACIONES SOCIOLÓGICAS Montalbán, 8. 28014 Madrid DERECHOS RESERVADOS CONFORME A LA LEY
Impreso y hecho en España Printed and made in Spain NIPO:
004-06-005-4 84-7476-399-1 Depósito legal: M.4047-2006 ISBN:
Imprenta Nacional del Boletín Oficial del Estado Avenida de Manoteras, 54. 28050 Madrid
Ad Anna Maria e Pasquale
Índice PREFACIO ....................................................................................................
7
1. LOS FUNDAMENTOS DEL ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS ............................................................................................
13
1.1. El objeto de estudio del AHA ....................................................... 1.2. El «por qué» del AHA .....................................................................
13 18
1.2.1. 1.2.2. 1.2.3. 1.2.4.
Duraciones censuradas ....................................................... Variables que se modifican en el tiempo ........................... La distribución estadística de las duraciones ..................... La necesidad de las técnicas de análisis de la historia de acontecimientos ..................................................................
20 24 26
1.3. El «cómo» del AHA: los fundamentos estadísticos ........................
29
2. LA ESTRUCTURA DE LOS DATOS RELATIVOS A LA HISTORIA DE ACONTECIMIENTOS .............................................................................
35
27
2.1. Los ficheros de datos .................................................................... 2.2. Los comandos en Stata para definir los datos como historia de acontecimientos .............................................................................
35
Ejercicios del capítulo 2 ........................................................................
51
3. MÉTODOS DESCRIPTIVOS NO PARAMÉTRICOS ................................
53
3.1. 3.2. 3.3. 3.4. 3.5.
43
El estimador de Kaplan y Meier ................................................... El estimador de Kaplan y Meier con Stata ................................... Comparación de funciones de supervivencia............................... ¿Efecto tiempo o efecto probabilidad? .......................................... Conclusiones .................................................................................
53 56 58 61 64
Ejercicios del capítulo 3 ........................................................................
66
4. MODELOS DE LA TASA DE TRANSICIÓN CON TIEMPO CONTINUO .
67
4.1. Modelos paramétricos de la tasa de transición con tiempo continuo ................................................................................................. 4.2. Aplicación de los modelos de la tasa de transición: el modelo exponencial ................................................................................... 4.3. Los modelos Gompertz, Weibull y log-logístico ...........................
67 75 80
6
ÍNDICE
4.4. El modelo Cox ............................................................................... 4.5. El test del supuesto de proporcionalidad ..................................... 4.6. Los modelos de riesgos competitivos ...........................................
87 88 91
Ejercicios del capítulo 4 ........................................................................
96
5. VARIABLES QUE SE MODIFICAN EN EL TIEMPO Y EL MÉTODO DE PARTICIÓN DEL EPISODIO ..................................................................
97
5.1. El procedimiento de partición del episodio ................................. 5.2. El procedimiento de partición del episodio y las variables que se modifican en el tiempo con Stata ................................................. 5.3. El modelo exponencial constante a intervalos ............................. 5.4. El test de proporcionalidad para el modelo exponencial constante a intervalos: el modelo exponencial constante a intervalos con efecto periodo ........................................................................
111
Ejercicios del capítulo 5 ........................................................................
118
6. VARIABLES QUE SE MODIFICAN EN EL TIEMPO: PROBLEMAS Y SOLUCIONES PRÁCTICAS .........................................................................
119
6.1. Variable dicotómica que se modifica en el tiempo ...................... 6.2. Variable numérica que se modifica en el tiempo ......................... 6.3. Variable categórica que se modifica en el tiempo .......................
119 123 128
Ejercicios del capítulo 6 ........................................................................
134
7. MODELOS DE LA TASA DE TRANSICIÓN CON TIEMPO DISCRETO .
135
7.1. Modelos con tiempo discreto........................................................ 7.2. Los ficheros de datos con duraciones discretas ........................... 7.3. Modelos de AHA con tiempo discreto en Stata ............................
136 138 141
Ejercicios del capítulo 7 ........................................................................
153
Apéndice I: Ejemplo de preparación de un fichero de datos para el AHA ..
155
Apéndice II: Método de la máxima verosimilitud ......................................
161
Apéndice III: Ejemplo de la lógica de estimación con verosimilitud parcial ..
163
Referencias ...................................................................................................
165
97 100 107
Prefacio En 1984 se publicaron dos libros que marcaron el inicio de la difusión en las ciencias sociales del análisis de la historia de acontecimientos (event history analysis en inglés). Se trata del libro introductorio de Allison (1984) para la colección Sage, y de la obra más avanzada desde el punto de vista matemático de Tuma y Hannan (1984). Este último también presentaba el primer programa informático para estimar los modelos estadísticos del análisis de la historia de acontecimientos (de ahora en adelante AHA). En los veinte años que nos separan de la publicación de estos dos textos clásicos, las aplicaciones del AHA en los estudios de sociología y de ciencia política se han desarrollado de forma muy significativa. Entre los procesos sociales que se han estudiado utilizando el AHA destacan las transiciones en el mercado de trabajo entre las condiciones de parado, ocupado e inactivo, así como los cambios de tipo de contrato (de temporal a indefinido) y de jornada laboral (de tiempo completo a tiempo parcial). El AHA ha sido también empleado en los estudios sobre desigualdad social para investigar la movilidad de una ocupación y clase social a otras y en la sociología de la familia para explicar algunos eventos demográficos, tales como la fecundidad, el matrimonio, el divorcio y la inmigración. En los estudios de sociología de las organizaciones se ha utilizado el AHA para estudiar las fundaciones y quiebras de empresas, organizaciones y asociaciones; en el análisis de los eventos de acción colectiva para las protestas, revueltas y los episodios de confrontación racial; en los estudios de cambios políticos para investigar la caída de los gobiernos, la transición de un régimen político a otro o las duraciones de las guerras civiles. Paralelamente se han publicado artículos y manuales de nivel más o menos avanzado de introducción al AHA (Yamaguchi, 1991; Strang, 1994; Petersen, 1995; Vermunt, 1997; Blossfeld, Rohwer, 2001). La propia colección de Cuadernos Metodológicos cuenta con una contribución que, aun parcialmente y en el marco más general del análisis de tipo dinámico, trata el AHA (Castilla, 1998). Por lo tanto, el objetivo del presente Cuaderno Metodológico no es añadir un título más, aunque en castellano, a la lista de libros de introducción al AHA, ni proporcionar un compendio o
8
CUADERNOS METODOLÓGICOS 38
resumen de otros textos en lengua inglesa. Más bien el propósito de este libro es explicar cuándo y cómo se puede emplear el AHA en problemas reales de investigación. Dado que se han publicado varios libros que tratan en detalle las bases estadísticas del AHA, el presente texto adopta una perspectiva esencialmente aplicada. Su principal intención, pues, es la de colmar la laguna que existe entre la teoría y la práctica del AHA. Comprender los fundamentos estadísticos y la lógica del AHA resulta relativamente fácil para un investigador con un buen conocimiento de las técnicas de análisis estadístico multivariado. Mi experiencia personal, primero como estudiante interesado en utilizar el AHA y después como profesor de dicha técnica, me sugiere que los verdaderos problemas surgen a la hora de aplicarla. Por esta razón, en este libro dedicaré mucho más espacio a la presentación de ejemplos concretos de organización de los datos, a la ilustración de cómo es posible definir variables que se modifican en el tiempo y a la interpretación de los resultados de los modelos multivariados que a los fundamentos estadísticos del AHA. Sin embargo, aun primando el aspecto aplicado del AHA, el presente texto busca un equilibrio entre el rigor metodológico y las cuestiones prácticas y sustantivas. Por lo tanto, los interesados en los detalles formales encontrarán referencias a otros textos que desarrollan más los aspectos estadísticos del AHA. En definitiva, este texto se ha escrito teniendo como referencia a dos tipos de lectores. El primero de ellos sólo quiere comprender cómo funciona el AHA y cuándo es posible y apropiado utilizarlo. Dicho de otra manera: este lector está interesado en «hacerse una idea general» del AHA. Para él será suficiente leer el primer, el cuarto y el séptimo capítulo. Esto bastará para comprender la lógica esencial del AHA. Este tipo de lector podrá así considerar la conveniencia de aplicar algunas técnicas del AHA en sus investigaciones y será capaz de evaluar con más precisión los libros y artículos en las revistas especializadas que las utilizan. Sin embargo, es el segundo tipo de lector el que puede extraer mayores beneficios de este Cuaderno Metodológico. Este lector está interesado en aplicar el AHA en sus investigaciones, probablemente conoce ya su lógica general por tener referencias de algunas aplicaciones, y quizá haya consultado otros textos de introducción. Por lo tanto, mi intención es que en el presente Cuaderno este tipo de lector encuentre un puente para superar la laguna, antes mencionada, entre la teoría y la práctica. Es decir, que este texto pueda servir, una vez aclarados los fundamentos conceptuales y estadísticos del AHA, como una guía de referencia desde las primeras fases de organización de los ficheros de datos, hasta la
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
9
interpretación sustantiva de los resultados, pasando por la elección y especificación de los modelos estadísticos más adecuados. Para completar este camino, el lector necesitará paciencia y seguir paso a paso los ejemplos, reproducirlos con su ordenador y realizar los ejercicios propuestos al final de cada capítulo. En efecto, la única manera para aprender el AHA es aplicándolo. En particular, no existen procedimientos estándar para organizar el propio fichero de datos en un formato adecuado para el AHA1. Precisamente para ayudar al lector en su trabajo «artesanal» de análisis de los datos, he decidido presentar un abanico de ejemplos muy variados. Entre estos diferentes ejemplos, confío en que el lector podrá encontrar similitudes con el problema y la estructura de los datos que quiera analizar. Todos los ficheros de datos y los ficheros con los comandos del programa estadístico Stata relativos a los ejemplos presentados en este libro, así como los ficheros que contienen los comandos con las soluciones para los ejercicios propuestos al final de cada capítulo, se encuentran en el CD adjunto. Los ficheros de comandos están nombrados con un número correspondiente con el capítulo al que se refieren. Así, por ejemplo, «cap2.do» es el fichero de comandos relativo al capítulo 2, y «ejercicio5.do» es el fichero con los comandos para solucionar los ejercicios del capítulo 5. Para la realización de los ejemplos prácticos se ha elegido utilizar el programa estadístico Stata porque ofrece una gama de comandos específicos para el AHA más completa que otros programas estadísticos más comunes como SPSS y SAS, sobre todo en lo que respecta a la definición de variables que se modifican en el tiempo. Además, Stata también puede ser utilizado para realizar otros tipos de análisis. Una alternativa a Stata es el programa TDA (Transition Data Analysis). La ventaja principal de TDA sobre Stata es que, además de haber sido específicamente concebido para AHA, es un software que se puede descargar gratuitamente de la página web de sus creadores G. Rohwer y U. Pötter2. Su desventaja principal es que su lenguaje no es muy sencillo y la posibilidad de utilizarlo más allá del AHA es bastante limitada. Por eso es más probable que el lector esté más familiarizado con Stata que con TDA. En el caso de que 1 En términos más específicos no hay procedimientos estándar para definir todos los tipos de variables independientes que se modifican en el tiempo. En el próximo capítulo se explicará qué se entiende por variable independiente que se modifica en el tiempo. 2 La dirección de la página web para descargar TDA es: http://steinhaus.stat.ruhruni-bochum.de/.
10
CUADERNOS METODOLÓGICOS 38
no lo esté con ninguno de los dos, familiarizarse con el primero resultará más fácil y rentable, ya que su posibilidad de uso es mayor. El libro se divide en 7 capítulos. El primero de ellos es una introducción a los fundamentos del AHA. Este capítulo proporciona un sintético compendio sobre qué es el AHA, por qué es necesario para investigar datos de tipo dinámico y cómo funciona. En el segundo capítulo se describen los ficheros que serán utilizados en los ejemplos y se presentan los primeros comandos de Stata para el AHA. El tercer capítulo se centra en las técnicas no paramétricas de análisis descriptivo. Se explica cómo se puede calcular una función de supervivencia y cómo comparar funciones de supervivencia entre diferentes grupos. El cuarto capítulo describe los modelos estadísticos paramétricos para el análisis multivariado de la tasa de transición con tiempo continuo. Los capítulos quinto y sexto explican y proporcionan varios ejemplos del procedimiento para definir variables que se modifican en el tiempo. El último capítulo presenta los modelos de AHA cuando el tiempo es de tipo discreto. En el apéndice se presenta un ejemplo complejo de preparación de los datos para el AHA y se ilustra el funcionamiento del método de estimación de máxima verosimilitud y de verosimilitud parcial. Por lo que se refiere a las notaciones y los estilos utilizados a lo largo del texto, los comandos del programa Stata están resaltados en negrita y los nombres de las variables tienen formato en cursiva. En los cuadros que presentan los resultados de la aplicación del programa Stata, se resalta en negrita la información que se comenta en el texto. Quedan por último los agradecimientos. El presente libro tiene su origen en los apuntes que he utilizado para impartir cursos de análisis de historia de acontecimientos en las universidades de Milán, Bielefeld, Oxford y Pompeu Fabra, en la UNED y en el Centro de Estudios Avanzados en Ciencias Sociales de la Fundación Juan March. Quiero agradecer a dichas instituciones la invitación a impartir los cursos por la oportunidad concedida para sistematizar mis conocimientos sobre el tema, y a los participantes por sus preguntas y sugerencias que me han ayudado a mejorar un material que he ido modificando a lo largo del tiempo. Además, quiero dar las gracias a Antonio Cobalti, mi director de tesis doctoral en Trento, que fue el primero a impulsarme a estudiar el AHA y que siempre me ha apoyado en mis aparentemente arriesgadas decisiones académicas. Lo que he aprendido sobre el AHA lo debo en buena medida a Hans-Peter Blossfeld que me ha trasmitido su entusiasmo por las potencialidades de esta técnica de análisis a la hora de traducir al terreno empírico las hipótesis teóricas más complejas. A Hans-Peter Blossfeld
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
11
he de agradecerle también la oportunidad que me ha dado de trabajar con él en la Facultad de Sociología de la Universidad de Bielefeld. En Alemania he aprendido mucho de las largas y acaloradas discusiones sobre los problemas del AHA asociados a nuestras investigaciones con Beate Ernicke, Sonja Drobnicˆ y, sobre todo, Karin Kurz. En el Departamento de Sociología II (Estructura Social) de la UNED he encontrado un ambiente ideal para escribir el presente libro, tanto por lo que se refiere a las relaciones entre colegas, como a los medios de investigación disponibles. Agradezco por lo tanto a Luis Garrido, como director del Departamento, todo el apoyo institucional que he recibido. He discutido distintos problemas y dudas que han surgido mientras escribía el libro con Miguel Requena que, como siempre, me ha ayudado a solucionarlos en la medida de lo posible. Juan Ignacio Martínez Pastor ha revisado una primera versión (en itañolo) del manuscrito y Marta Fraile una segunda versión. Sus sugerencias y sus detallados comentarios han sido fundamentales para mejorar el texto y hacerlo más legible. Finalmente, Amparo González ha sido tan amable de revisar la última versión del manuscrito. A todos ellos va mi más sincero agradecimiento. Por último, todos los fallos que el lector pueda encontrar en este libro son solamente responsabilidad mía.
1 Los fundamentos del análisis de la historia de acontecimientos
El objetivo de este capítulo es proporcionar una introducción a los fundamentos del AHA. En primer lugar, veremos qué tipo de procesos se pueden estudiar con las técnicas de AHA y definiremos algunas nociones claves. En segundo lugar, se explica por qué resultan necesarias técnicas específicas para estudiar la historia de acontecimientos o, dicho de otro modo, por qué las técnicas más comunes de análisis estadístico resultan inadecuadas para analizar la historia de acontecimientos. Finalmente, se presentará la lógica general y los fundamentos estadísticos del AHA. En resumen, este capítulo trata de exponer, de una forma intuitiva, sencilla y sintética, qué es el AHA, por qué es necesario y cómo funciona.
1.1. El objeto de estudio del AHA En términos generales el AHA permite investigar procesos que se caracterizan por los siguientes aspectos: a) la unidad de análisis puede cambiar desde un estado de origen j, a un estado de destino k; b) el cambio no está restringido a un momento específico del tiempo; c) el cambio está influido por un conjunto de variables independientes que son constantes o que se modifican en el tiempo (Coleman, 1981). Más concretamente, con el AHA se estudian las pautas y correlaciones según las cuales sucede un acontecimiento dado. ¿Qué se entiende, entonces, por acontecimiento? Un acontecimiento puede definirse como un cambio de tipo cualitativo de la unidad de análisis, desde el estado j al estado k, que ocurre en un momento concreto del tiempo. Consideramos ahora algu-
14
CUADERNOS METODOLÓGICOS 38
nos ejemplos tomados de diferentes campos de investigación de las ciencias sociales. Desde la sociología de la familia, se ha estudiado la propensión a casarse. De este modo el acontecimiento se ha definido como la transición de la condición de no casado (estado j) a la de casado (estado k) (Blossfeld, 1995; Castro Martín, 1999). En las investigaciones sobre el mercado de trabajo, se ha analizado la probabilidad de salida del desempleo. Esto es, la transición desde la condición de parado (estado j) a la de ocupado (estado k) (Bernardi et al., 2000). En los estudios de la duración de los gobiernos, se ha considerado como acontecimiento la disolución del gobierno, es decir, la transición de estar en el poder (estado j) a estar fuera del poder (estado k) (King et al., 1990; Maravall, 2003). Finalmente, en las investigaciones sobre las duraciones de las huelgas, el acontecimiento ha sido identificado con el momento en el cual la huelga finaliza. O dicho de otro modo, la transición de estar en huelga (estado j) a no estarlo (estado k) (Kennan, 1985). Estos ejemplos se refieren sólo al cambio entre dos estados j y k. Como veremos más adelante, el AHA permite investigar también cambios entre más de dos estados. Lo que es importante destacar ahora es que los acontecimientos son cambios de tipo cualitativo que ocurren entre un conjunto limitado y exhaustivo de estados3. El conjunto de estados entre los cuales suceden los cambios se denomina espacio de los estados (Blossfeld, Rohwer, 2001). Asimismo, es importante enfatizar que con las técnicas de AHA estamos interesados en analizar no sólo el tipo de cambio, sino también cuándo ocurre. La propia noción de acontecimiento supone la existencia de un intervalo de tiempo anterior al cambio, desde j hasta k. El intervalo de tiempo que la unidad de análisis pasa en estado inicial (j), antes de que suceda el acontecimiento (esto es: cuando ocurre el cambio al estado k), se define como episodio o duración. Volviendo al ejemplo del primer matrimonio, el episodio es el intervalo de tiempo entre la fecha de nacimiento y la fecha del matrimonio. En el caso de la salida del desempleo, el episodio es el intervalo de tiempo entre la fecha en la cual el individuo cae en el desempleo y la 3
Las aplicaciones a cambios de tipo cuantitativo son muy escasas. Para un ejemplo, véase el estudio de la movilidad ocupacional en términos de estatus socio-económico discutido en Petersen (1995, pp. 483-488). La lógica de esta aplicación consiste en la especificación de dos ecuaciones simultáneas. La primera ecuación se refiere a la probabilidad de que se realice el cambio investigado (promoción ocupacional). La segunda ecuación, condicionada al hecho de que se haya cumplido el cambio, analiza las variaciones en una variable dependiente de tipo cuantitativo (estatus socio-económico).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
15
fecha en la cual vuelve a conseguir un trabajo. En el caso de la duración de los gobiernos, el episodio es el intervalo de tiempo entre el principio del mandato y la disolución del gobierno. En el caso de la duración de las huelgas, el episodio es el intervalo de tiempo desde el comienzo de la huelga hasta su fin. En general, un episodio está definido por cuatro tipos de información: la fecha de inicio, la fecha de fin, el estado de origen y el estado de destino. El estado de origen se refiere al estado que caracteriza la unidad de análisis antes de que se cumpla el acontecimiento, mientras que el estado de destino se refiere a la condición después del acontecimiento. En los cuatro ejemplos considerados, los estados de origen son respectivamente las condiciones de no casado, desempleado, en el poder y en huelga y los estados de destino son las condiciones de casado, empleado, fuera del poder y no en huelga. La fecha de fin corresponde a la fecha del acontecimiento y la fecha de inicio se refiere al momento en el cual la unidad de análisis empieza a estar en riesgo de experimentar el acontecimiento. La diferencia entre la fecha de fin y de inicio proporciona la duración del episodio. El tipo de proceso más simple que se puede analizar es un proceso con un único episodio y dos estados. Sirva de ejemplo, la transición desde la condición de soltero a la condición de casado por primera vez. Como el primer matrimonio es un acontecimiento irrepetible, hay un único episodio para cada unidad de análisis. Además, el cambio puede suceder sólo entre dos estados: el de soltero y el de casado. Cuando los estados son más de dos, se habla de procesos multiestado o con riesgos competitivos (competing risk). Por ejemplo, la salida del desempleo puede ocurrir tanto con una transición a la ocupación como a la inactividad. Finalmente, cuando el acontecimiento se puede repetir más de una vez para la misma unidad de análisis, el proceso se define como multiepisódico. Consideremos de nuevo el ejemplo de la salida del desempleo. Cada individuo puede caer en el desempleo más de una vez a lo largo de su carrera ocupacional y, por lo tanto, podemos observar más de un episodio de desempleo para cada individuo. La distinción entre diferentes tipos de procesos es importante porque, como veremos, cada tipo de proceso requiere una manera distinta de organizar y analizar los datos. Por otro lado, cabe resaltar que es el investigador quien decide cómo definir el tipo de proceso objeto de estudio. La decisión obedecerá a razones de orden sustantivo, teórico y práctico. De este modo, en función de sus intereses sustantivos para analizar algún proceso social, de las hipótesis teóricas que guían su aná-
16
CUADERNOS METODOLÓGICOS 38
lisis, y del grado de precisión de los datos disponibles, el investigador puede utilizar un espacio de los estados más o menos reducido y optar por analizar sólo el primer (o el segundo, o el tercer) episodio de un proceso que es por su naturaleza multiepisódico. Por ejemplo, al analizar las transiciones laborales de las mujeres se puede optar por considerar sólo los cambios entre dos estados, el de empleada y el de no empleada, o distinguir también entre los estados de desempleada y el de inactiva (Bernardi, 1999). De la misma manera, los estudios sobre el proceso reproductivo, que es multi-episódico ya que cada individuo puede tener más de un hijo, suelen centrarse sólo en el análisis de la transición a un nacimiento dado, generalmente la transición al primer o al segundo hijo. Aunque pueda parecer una decisión simple y automática, definir con claridad el episodio que se quiere investigar representa posiblemente el paso más importante de una AHA. En definitiva, esta decisión se corresponde ni más ni menos con la definición de una variable dependiente en un análisis de tipo transversal. La dificultad añadida en el caso del AHA es que tenemos que especificar también cuándo la unidad de análisis empieza a estar «en riesgo» de experimentar el acontecimiento, así como el momento del tiempo en el cual lo experimenta eventualmente. Definir un proceso social en términos que permitan la aplicación del AHA implica, pues, contestar a las siguientes preguntas: ¿Entre qué estados puede cambiar la unidad de análisis? ¿Cuál es la fecha de inicio y de fin del episodio? Otra importante distinción a tener en cuenta es la que se da entre datos con duraciones de tipo continuo y discreto. En el primer caso, el acontecimiento puede suceder en cualquier momento del tiempo, la duración del episodio es una variable continua y se mide con un número real positivo que en principio puede ser fraccionario. En el segundo caso, el acontecimiento sucede sólo en intervalos discretos de tiempo y la duración del episodio se mide con números enteros y positivos (1, 2, 3, etcétera). Típicamente nos encontramos con datos de tipo discreto porque, aunque el acontecimiento pueda en principio suceder en cualquier momento del tiempo, las informaciones de las cuales disponemos no son lo bastante precisas como para considerar las duraciones continuas. Dicho de otra manera: los datos de tipo discreto en este caso lo son por una falta de precisión en la información disponible. Consideremos, por ejemplo, una encuesta que proporciona sólo el año, pero no el mes, en el cual los entrevistados se han casado. En este caso, aunque el proceso sea de tipo continuo, ya que el matrimonio puede contraerse
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
17
cualquier día o mes del año, sólo disponemos de informaciones para intervalos discretos del tiempo (año x, año x+1, año x+2, etc.). Sin embargo, existen procesos que son intrínsecamente discretos y que sólo suceden en momentos concretos y precisos en el tiempo. Imaginemos, por ejemplo, un estudio sobre calidad industrial en el cual se mide la duración antes de que ocurra un fallo en un ciclo de producción. En este caso resulta más adecuado medir la duración en términos del número de ciclos antes de que ocurriera el fallo más que en términos del tiempo trascurrido. Análogamente, consideremos una investigación sobre el abandono de los estudios universitarios. Imaginemos que el abandono formal de los estudios sucede sólo al principio del curso, en octubre, cuando los estudiantes tienen que abonar la matrícula. Para analizar la probabilidad de abandono resulta más apropiado definir la duración en términos de años terminados que en términos del número de meses o días desde la primera matriculación en la universidad. La distinción entre duración continua y discreta es importante porque en los dos casos se precisa la aplicación de técnicas de análisis distintas. En este libro nos concentraremos fundamentalmente en las técnicas para analizar duraciones de tipo continuo, mientras que dedicaremos sólo un capítulo a las duraciones de tipo discreto. Sin embargo, y como veremos con más detalle en el capítulo 7, si los intervalos discretos del tiempo en el cual se observan los acontecimientos son pequeños, los modelos estadísticos con tiempo discreto son una aproximación a los de tiempo continuo y, en la práctica, los resultados son equivalentes. Para recapitular, en el cuadro 1.1 se recogen de forma sintética las definiciones de los conceptos más importantes presentados en esta sección. CUADRO 1.1 LOS CONCEPTOS BÁSICOS DEL AHA
Acontecimiento
Cambio de la unidad de análisis del estado j al estado k
Episodio
Duración antes de que suceda el acontecimiento
Proceso con un solo episodio y dos estados
Proceso con un solo episodio para cada unidad de análisis y dos estados entre los que sucede el cambio (Ejemplo: primer matrimonio, estados de soltero y casado)
Proceso multi-estado
Proceso con más de dos estados (Ejemplo: desempleo, estados de desempleado, empleado e inactivo)
18
CUADERNOS METODOLÓGICOS 38
Proceso multi-episódico
Proceso en que el acontecimiento se puede repetir más de una vez para cada unidad de análisis (Ejemplo: desempleo)
Tiempo continuo
El acontecimiento puede suceder en cualquier momento del tiempo
Tiempo discreto
El acontecimiento sucede sólo en momentos concretos del tiempo o las informaciones disponibles no son lo suficientemente precisas como para considerar las duraciones continuas
1.2. El «por qué» del AHA Una primera ventaja que comparten las técnicas del AHA con otras técnicas de análisis dinámico, es que permiten estudiar procesos de cambio de un estado a otro. Por eso tienen más capacidad respecto a las técnicas de análisis de tipo transversal para investigar los mecanismos que producen los hechos sociales observados. Por ejemplo, imaginemos haber descubierto que existe una relación negativa entre la probabilidad de estar desempleado y el nivel de educación de los individuos, mediante un análisis con datos transversales. Más concretamente los datos de la Encuesta de Población Activa del primer trimestre de 2004 indican que la probabilidad de estar desempleado para los que tienen estudios primarios es 2.4 veces mayor que para los universitarios. La cuestión que nos interesa es que, en principio, este resultado puede ser el producto de procesos muy distintos que se resumen en la tabla 1.1. En una primera posible situación (a), los individuos con educación universitaria tienen una probabilidad más baja de caer en el desempleo y una probabilidad más alta de volver a encontrar trabajo, en el caso de que estén desempleados. En una segunda (b), los individuos con educación universitaria tienen una mayor probabilidad de entrar y salir del desempleo, pero el efecto positivo sobre la probabilidad de salida es más fuerte que el efecto positivo sobre la probabilidad de entrada. En un tercer caso (c) el efecto negativo de la educación sobre la probabilidad de entrar en el desempleo es mayor que el efecto negativo sobre la probabilidad de salida. Otra posibilidad (d) es que haya un efecto negativo de la educación sobre la probabilidad de caer en el desempleo pero nin-
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
19
gún efecto sobre la probabilidad de salida. Finalmente, la última situación posible (e) es que no haya ningún efecto de la educación sobre la probabilidad de caer en el desempleo pero sí un efecto positivo sobre la probabilidad de salir del desempleo. Es interesante constatar que la relación negativa entre el nivel de educación y el riesgo de estar desempleado puede ser el resultado de cada uno de estos cinco procesos diferentes. TABLA 1.1 POSIBLES PROCESOS SUBYACENTES A LA RELACIÓN NEGATIVA ENTRE NIVEL EDUCATIVO Y DESEMPLEO ENCONTRADA EN UN ESTUDIO TRANSVERSAL
Entrada en desempleo
Salida desde el desempleo
a)
-
+
b)
+
++
c)
--
-
d)
-
0
e)
0
+
Nota: El símbolo + (-) indica que los individuos con estudios universitarios tienen una probabilidad más (o menos) alta de entrar o salir del desempleo con respecto a los que poseen estudios primarios; el símbolo ++ (- -) representa una probabilidad más (o menos) alta respecto al símbolo + (-).
Lo que nos interesa destacar es que mientras que con las técnicas de análisis transversal se estudia la asociación entre una variable dependiente y una variable independiente (en este caso la condición ocupacional y el nivel de educación), con las técnicas de AHA el investigador intenta explicar el cambio de la variable dependiente de un estado a otro. Si se asume una perspectiva dinámica es entonces posible analizar los flujos de entrada y salida del desempleo e identificar y distinguir los cinco procesos diferentes potencialmente responsables de la asociación empírica encontrada entre el nivel de educación y la probabilidad de estar en paro. Una vez que se ha reconocido la utilidad heurística de asumir la perspectiva de análisis dinámico, queda todavía por contestar la pregunta de por qué son necesarias técnicas específicas para el AHA. O,
20
CUADERNOS METODOLÓGICOS 38
dicho de otra manera: ¿por qué no es posible analizar la historia de acontecimientos utilizando las técnicas de análisis más comunes como son los modelos de regresión lineal o de regresión logística? Para responder a esta pregunta es necesario examinar tres aspectos que caracterizan las informaciones relativas a la historia de acontecimientos: 1) la observación incompleta o la censura de las duraciones, 2) la posibilidad de especificar variables independientes que se modifican en el tiempo, 3) las distribuciones estadísticas de las duraciones. A continuación, se mostrará cómo estas características de la historia de acontecimientos son problemáticas y hacen imposible la utilización de las técnicas de análisis más comunes. Por ello, requieren la aplicación de técnicas específicas que serán presentadas en los próximos capítulos. 1.2.1. Duraciones censuradas El problema de las duraciones censuradas tiene que ver con el hecho de que en la mayoría de las investigaciones, las informaciones sobre las duraciones de los episodios están incompletas. La figura 1.1 ilustra diferentes tipos de situaciones en las cuales las informaciones están completas e incompletas. El eje horizontal representa el paso del tiempo t. La recopilación de informaciones sobre las duraciones de los episodios empieza en el momento t0 y acaba en el momento tk. Por ejemplo, en caso del Panel de Hogares de la Unión Europea, t0 sería el año 1994, año de la primera ola del panel, y tk el año 2002, año de la última ola disponible, en el momento en el cual se escribe este texto. En la figura 1.1 cada línea horizontal representa un episodio. Imaginemos que se trata de episodios de desempleo. La línea continua indica la parte del episodio de la que disponemos de información, mientras que la línea interrumpida se refiere a la parte del episodio de la que no disponemos de información. La letra a (acontecimiento) a la derecha de la línea indica que se conoce el momento en el tiempo en el que ocurre el acontecimiento. La letra i (inicio) a la izquierda de la línea indica que se conoce el momento de inicio del episodio. La letra c (censura) indica que el episodio está censurado a la derecha en ese punto.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
21
FIGURA 1.1 DIFERENTES TIPOS DE CENSURA Y DURACIONES OBSERVADAS
A i___________a B i______c_ _ _ _ _ Leyenda: a = acontecimiento i = tiempo de inicio c = censura a la derecha
C i_________c _ _ _ _ _
D i_ _ _ ________a E _ _ _ _________a F ___ t0 Ventana de observación tk
El episodio del individuo A es el único de los representados en la figura 1.1 para el que disponemos de informaciones completas. El episodio del individuo B está censurado a la derecha y representa un caso típico de información incompleta en el AHA: conocemos la fecha de inicio del episodio, pero cuando acaba el período de observación el acontecimiento de interés todavía no ha sucedido. Por ejemplo, sabemos que el individuo B ha empezado a estar desempleado en el año 2000 y que sigue estando desempleado en 2002, último año del cual disponemos de información. Podemos anticipar que las técnicas del AHA, que son presentadas en esta monografía, permiten tratar sin dificultades particulares este tipo de duraciones censuradas. El episodio del individuo C representa otro ejemplo de duración incompleta debido a una censura a la derecha. En este caso, la causa de la censura no es el fin del período de observación sino la imposibilidad
22
CUADERNOS METODOLÓGICOS 38
de seguir recopilando información sobre el individuo C. Dicho de otra forma, el individuo C sale de nuestro diseño de observación por otras razones distintas del acontecimiento que estamos investigando. En el caso del panel, este tipo de censura ocurre típicamente cuando un individuo entrevistado en la ola x no puede ser entrevistado en la ola x+1. Si es razonable suponer que el mecanismo que determina la censura es aleatorio, entonces es posible considerar este tipo de censura como un caso normal de censura a la derecha. Podríamos, por lo tanto, tratar el episodio del individuo C como equivalente al episodio del individuo B4. El episodio del individuo D representa un caso de duración truncada a la izquierda. El episodio está observado sólo a partir de t0, pero conocemos su fecha de inicio. El truncamiento a la izquierda implica dos problemas. En primer lugar, puede haber un sesgo en la muestra de duraciones que son observadas. Esto sucede porque los episodios truncados a la izquierda que son observados en t0 tienden a sobrerrepresentar las duraciones largas (Guo, 1993). Todos los episodios que han empezado en la misma fecha que el episodio de D pero que han acabado antes de t0, y son por lo tanto de duración más corta, son excluidos del análisis. En segundo lugar, aun conociendo la fecha de inicio del episodio, suelen faltar informaciones antes de t0 para algunas o todas las variables independientes del modelo a estimar. Los últimos episodios en la figura 1.1 ilustran el caso de duraciones censuradas a la izquierda (individuo E) y completamente censuradas a la izquierda (individuo F)5. El caso del individuo E es similar al del individuo D, pero la diferencia crucial es que la fecha de inicio del episodio es desconocida. En el caso del individuo F, las fechas de inicio y fin del episodio son anteriores al comienzo del período de observación. Para recapitular, el AHA permite tratar sin problemas los casos de censura a la derecha y, en general, bajo algunos supuestos y con las limitaciones de no disponer de informaciones para las variables indepen4
Siguiendo un ejemplo de Yamaguchi (1991), cabe suponer que la muerte de un individuo por accidente es independiente de la probabilidad de encontrar trabajo. La validez del supuesto de que el mecanismo de censura opera en modo casual, sería mucho más dudosa, por ejemplo, en el caso de que el mecanismo de censura fuera la emigración a otro país. 5 El caso del episodio del sujeto E también se define como truncamiento a la izquierda con fecha de inicio desconocida (Guo, 1993). En mi exposición sigo la terminología utilizada por Blossfeld y Rohwer (2001). Para una discusión más formal y detallada de los diferentes tipos de censura y truncamiento, en particular los de la izquierda, véase D’Addio y Rosholm (2002).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
23
dientes, también los casos de duraciones truncadas a la izquierda. La situación más problemática es la de las censuras a la izquierda ya que no hay métodos estándar para tratarlas. Antes de pasar a examinar otras características distintivas del AHA, es importante mencionar que los diferentes tipos de censura y truncamiento dependen del diseño de observación utilizado para recopilar la información relativa a la historia de los acontecimientos. Los principales diseños de observación que permiten recopilar información de la historia de acontecimientos a nivel individual son dos6: las encuestas retrospectivas, como por ejemplo la Encuesta Socio-Demográfica realizada en 1991 por el INE; y las encuestas panel, como por ejemplo el Panel de Hogares de la Unión Europea. En el caso de una encuesta retrospectiva a nivel individual se recogen las informaciones relativas a todos los episodios de interés como, por ejemplo, los episodios concernientes a la historia laboral, familiar y residencial, a lo largo del curso de vida de los entrevistados, desde su inicio o desde una fecha específica, como en el caso de la entrada en el mercado de trabajo para los episodios que componen la historia laboral, hasta el momento de realización de la encuesta. Este tipo de diseño de observación y recopilación de los datos implica que no hay duraciones con censura o truncamiento a la izquierda7. Sin embargo, la fecha de la entrevista determina una censura a la derecha en las duraciones investigadas. El caso típico de duraciones censuradas trabajando con datos de encuesta retrospectiva es, por lo tanto, el caso del individuo B en la figura 1.1. En el caso de una encuesta de tipo panel es común encontrarse con situaciones más complicadas. Con este tipo de encuesta se sigue a los mismos entrevistados a lo largo del tiempo, desde la fecha t0 de la primera ola en adelante, y se recoge la información de los episodios de interés en los momentos t0, t1,.. tk. Con este diseño de observación, ade6
Otras fuentes de informaciones longitudinales son los archivos históricos, utilizados en estudios de sociología de las organizaciones para reconstruir la fecha de fundación y quiebra de empresas (véase Hannan et al., 1998), y los periódicos, utilizados en los estudios de movimientos y acción colectiva para identificar las fechas de acontecimientos de actos de protestas y la duración del intervalo de tiempo entre ellos (véase Olzak, 1992). 7 El principal problema de este tipo de encuesta tiene que ver con la fiabilidad de la memoria de los entrevistados para reconstruir historias de acontecimientos que pueden haber sucedido varias décadas antes. Para una discusión más detallada y una comparación de los límites y ventajas de las encuestas retrospectivas y panel, véase el capítulo 1 de Blossfeld y Rohwer (2001).
24
CUADERNOS METODOLÓGICOS 38
más de tener los típicos casos de censura a la derecha, es más frecuente tener que tratar con duraciones censuradas o truncadas a la izquierda, porque faltan las informaciones relativas a los episodios que han empezado antes del momento de tiempo t08. 1.2.2. Variables que se modifican en el tiempo Ya hemos mencionado que el AHA permite investigar los cambios de un estado a otro de una variable discreta a lo largo del tiempo. Además de analizar específicamente la dinámica del acontecimiento investigado, una de las características cruciales del AHA es la posibilidad de considerar variables independientes que se modifican en el tiempo. De esta manera, el AHA permite investigar cómo un cambio en la variable X en el tiempo t influye sobre la propensión a que suceda el acontecimiento investigado, es decir un cambio en la variable Y, en un momento siguiente del tiempo t’. Formalmente: (1.1) DXt → DYt’ Así, en los estudios sociológicos y demográficos con una unidad de análisis a nivel individual, el AHA permite investigar las interdependencias entre varias dimensiones del curso de vida y estudiar cómo un cambio en una dimensión influye en la probabilidad de un cambio en otra. Por ejemplo, en un estudio sobre el matrimonio, podríamos estar interesados en saber cómo el hecho de acabar la carrera educativa, conseguir un trabajo o quedarse embarazada influye en la propensión a casarse. Es importante subrayar que las variables X que se modifican en el tiempo pueden referirse tanto a características individuales de las unidades de análisis como a factores contextuales que operan a nivel macro. Por ejemplo, al estudiar la duración de los episodios de desempleo, podríamos investigar cómo influyen en la transición del desempleo al empleo tanto factores macro (por ejemplo, las variaciones mensuales en la inflación o el número de puestos de trabajo creados), como factores que atañen a las características individuales de los entrevistados (por ejemplo, los cambios en su situación familiar o el fin de la percepción del subsidio de desempleo). 8
Precisamente para evitar este problema varias encuestas europeas panel como, por ejemplo, el British Household Panel Survey (BHPS) inglés y el German Socio-Economic Panel (GSOEP) alemán, aúnan el diseño prospectivo con el diseño retrospectivo y han incluido en la primera ola del panel un módulo de preguntas de carácter retrospectivo.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
25
Precisamente gracias a la posibilidad que ofrecen de evaluar el efecto del cambio de una variable independiente sobre la probabilidad de que suceda un cambio en la variable dependiente, algunos autores afirman que las técnicas del AHA representan una nueva aproximación a la investigación empírica de las relaciones causales (Blossfeld y Rohwer, 2001). Sin entrar en el debate sobre la noción de causalidad en las ciencias sociales, es suficiente remarcar aquí que, en general, las asociaciones empíricas que se pueden detectar con las técnicas de AHA satisfacen la condición de «sucesión temporal», por la cual una causa tiene que preceder a un efecto9. Además, la inclusión de variables que se modifican en el tiempo parece ofrecer un camino para superar lo que Holland (1986) ha definido como «el problema fundamental de la inferencia causal». Este problema consiste en la naturaleza contrafactual de los razonamientos de tipo causal. Suponer la existencia de una relación causal entre X e Y significa imaginar que si X hubiera sido diferente, entonces se habría producido otro Y. Argumentar que la precariedad laboral (X) es una causa del retraso de la emancipación (Y) de los jóvenes, implica suponer a nivel individual que un cambio en X, por ejemplo el pasar de un contrato temporal a otro indefinido, producirá una cambio en la probabilidad de emancipación Y. La ventaja de las técnicas de AHA, respecto a las otras técnicas de análisis multivariado, es que permiten observar los cambios en X y evaluar cómo dichos cambios influyen en la probabilidad de que más tarde se produzca un cambio en la variable dependiente Y. Tal y como señala Sørensen (1986: p. 693), las técnicas de AHA permiten la estimación de modelos que «reflejan los mecanismos que generan los hechos sociales observados». En resumen, la posibilidad de especificar variables que se modifican en el tiempo conlleva dos ventajas fundamentales. Las covariaciones estadísticas establecidas con las técnicas de AHA satisfacen el criterio de sucesión temporal y, en segundo lugar, se basan en variaciones realmente observadas, tanto en las variables independientes como en la dependiente a lo largo del tiempo. Por lo tanto, el AHA nos permite reconstruir empíricamente los procesos de cambios y corroborar así con mayor precisión las implicaciones de nuestras hipótesis teóricas sobre la existencia de supuestos mecanismos causales. 9
Para una discusión más detallada de la noción de causalidad en las ciencias sociales, en particular cuando no resulta posible emplear un diseño experimental, véase Sobel (1995), Winship y Morgan (1999), Goldthorpe (2000) y Corbetta (2003: pp. 117-121).
26
CUADERNOS METODOLÓGICOS 38
1.2.3. La distribución estadística de las duraciones Si las dos primeras características de la información relativa a la historia de acontecimientos remiten a problemas sustantivos (informaciones incompletas y posibilidad de definir variables que se modifican en el tiempo), hay un tercer aspecto distintivo que es de naturaleza estadística. Uno de los supuestos de los modelos de regresión de mínimos cuadrados es que los residuos sigan una distribución normal (Guillén, 1992 y Berry, 1993). Si se define la variable dependiente para la i-ésima observación como Yi, bj como el coeficiente relativo a la variable independiente Xj y ei como el residuo para la i-ésima observación, el modelo de regresión es: (1.2) Yi = a + bjXji + ei con ei ~ N(0, s2) Aceptar el supuesto de normalidad de los residuos equivale a suponer que los valores de Y condicionados a X siguen una distribución normal. Es decir, que: (1.3) Yi ~ N(a + bjXji, s2) Si volvemos a las historias de acontecimientos y nos olvidamos por un momento del problema de las duraciones censuradas, podríamos pensar en definir la duración antes de que suceda el acontecimiento, como variable dependiente de una regresión lineal de mínimos cuadrados. Para hacerlo tendríamos que aceptar el supuesto siguiente: (1.4) duracióni ~ N(a + bjXji, s2) Como ponen en evidencia Cleves et al. (2002), este supuesto a menudo es poco razonable para las duraciones antes de que ocurra un acontecimiento. Por ejemplo, Sørensen y Tuma (1981), en su estudio de movilidad ocupacional en Estados Unidos, han mostrado que la probabilidad de que un sujeto cambie de ocupación disminuye en función del tiempo transcurrido desde su entrada en el mercado de trabajo. En este caso, la distribución de las duraciones antes de un cambio de trabajo es monotónica decreciente, con una clara violación del supuesto de normalidad. De hecho, para la mayoría de los acontecimientos, la distribución de las duraciones resulta no simétrica y en algunos casos puede ser bimodal, alejándose así de la forma de campana de la distribución normal (Cleves et al., 2002). En el capítulo 4 veremos cómo es posible especificar modelos multivariados que tengan en cuenta las particulares distribuciones estadísticas que tienen las duraciones. Podemos de momento anticipar que consideraremos otro tipo de variable dependiente: no será la duración antes del
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
27
acontecimiento, sino la tasa de transición (transition rate) que expresa la propensión a que dicho acontecimiento ocurra. Pero antes de explicar en qué consiste la tasa de transición de un acontecimiento, es oportuno detenerse brevemente en las razones que impiden aplicar las técnicas comunes de análisis estadístico a los datos relativos a las historias de acontecimientos. 1.2.4. La necesidad de las técnicas de análisis de la historia de acontecimientos Consideremos los datos de la tabla 1.2. Imaginemos estar interesados en investigar cómo la propensión a salir del desempleo varía en función del nivel de educación de los entrevistados. El asterisco * indica que el episodio está censurado a la derecha, por ejemplo porque el individuo estaba todavía desempleado en el momento de la entrevista. TABLA 1.2 DURACIÓN EPISODIOS DE DESEMPLEO EN MESES
Nivel de educación (1=bajo; 2=alto)
Número de identificación
Duración del desempleo
1
12
1
2
3
2
3
15*
1
4
6
2
5
8*
2
Se podría entonces definir T = duración desempleo X = nivel de educación y utilizar un modelo de regresión de mínimos cuadrados con la variable dependiente igual a la duración del desempleo o, más correctamente, el logaritmo neperiano de la duración ya que las duraciones no pueden ser negativas: (1.5) ln(Ti) = a + bjXji + ei
28
CUADERNOS METODOLÓGICOS 38
Además de que el supuesto de normalidad de los residuos es irreal, como se ha mencionado en el párrafo precedente, con el modelo de regresión lineal surgen dos tipos de problemas. En primer lugar, ¿cómo podemos tratar las duraciones censuradas? Se las podrían excluir completamente del análisis o bien tratarlas como si fueran duraciones completas. Ambas soluciones conllevan un sesgo en la estimación de los Bj (Allison, 1984). El segundo problema se refiere a la imposibilidad de introducir variables independientes que se modifiquen en el tiempo. Por ejemplo, podríamos estar interesados en investigar cómo la propensión a salir del paro varía en función de la proximidad de la fecha en la cual se acaba el subsidio de desempleo, o de las variaciones mensuales en el número de nuevos puestos de trabajo. Considerar este tipo de variables resultaría imposible con un modelo de regresión lineal de mínimos cuadrados como el de la ecuación (1.5). Otra alternativa para analizar los datos de la tabla 1.2 podría ser la de definir una variable dependiente de tipo dicotómico y estimar un modelo de regresión logit (o probit) binomial para investigar la probabilidad de salir del desempleo en un intervalo dado de tiempo. Se podría fijar este intervalo de tiempo en 12 meses desde el principio del episodio de desempleo. La variable dependiente sería así igual a 1 para los individuos con una duración inferior a los 12 meses, e igual a 0 para aquellos con una duración superior a 12 meses. El problema principal de esta solución es la pérdida de información que implica. Por ejemplo, no sería posible distinguir entre duraciones de 1 y 11 meses o entre duraciones de 13 y 20 meses10. Además, quedan sin resolver los problemas de las duraciones censuradas y de las variables que se modifican en el tiempo. ¿Qué se puede hacer, volviendo a la tabla 1.2, con el individuo con número de identificación igual a 5 cuya duración de 8 meses está censurada la derecha? ¿Cómo podemos definir una variable que exprese las variaciones mensuales en la creación de nuevos puestos de trabajo? Como veremos en los próximos capítulos, las técnicas del AHA ofrecen una solución para este tipo de problemas. De momento, podemos empezar con una definición de los conceptos claves y una introducción esencial a los fundamentos estadísticos de estas técnicas.
10 Nótese que la elección del intervalo de 12 meses es totalmente arbitraria: podrían ser 6 ó 18 meses, pero la naturaleza del problema no cambia.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
29
1.3. El «cómo» del AHA: los fundamentos estadísticos El concepto clave del AHA es el de la tasa de transición11. Formalmente: (1.6) r (t)jk = lim t’ → t
Pr(t ≤ T < t’ | T ≥ t) t’ – t
donde T es la duración antes de que suceda el acontecimiento. En otros términos, T es el tiempo que la unidad de análisis pasa en el estado de origen j hasta el momento de la transición al estado de destino k. La tasa de transición r(t) jk expresa, por lo tanto, la probabilidad instantánea de que el acontecimiento ocurra en el intervalo de tiempo infinitesimal t’-t, con la condición de que el evento no haya ocurrido antes de t. Podemos interpretar la tasa de transición como la propensión a cambiar desde el estado de origen j al estado de destino k en el momento t. La condición T ≥ t significa que esta propensión al cambio es definida con respecto al conjunto de unidades de análisis todavía en riesgo de experimentar el acontecimiento en el tiempo t, es decir el conjunto de unidades de análisis cuya duración es mayor o igual a t. Formalmente, la tasa de transición no puede ser interpretada como una probabilidad porque puede asumir valores mayores que 1. Sin embargo, si el intervalo de tiempo t’-t es pequeño, entonces: (1.7) Pr(t ≤ T < t’ | T ≥ t) ≈ (t’ – t)r(t)jk La tasa de transición se aproxima así a la probabilidad condicional de que el acontecimiento ocurra en intervalo t’-t (Blossfeld y Rohwer, 2001: p. 37). Es importante resaltar que la tasa de transición definida en la fórmula (1.6) contiene dos tipos de informaciones: la calidad del cambio desde j a k, y la duración T antes de que el cambio ocurra. La tasa de transición está además relacionada con otros dos importantes conceptos estadísticos: la función de supervivencia y la función de densidad. En primer lugar, consideramos la distribución de probabilidad de T, esto es, la función de la distribución F(t) que describe la probabilidad de 11
La tasa de transición es también definida como tasa o función de riesgo, tasa de fracaso o de mortalidad (Blossfeld y Rohwer 2001: p. 32). Esta variedad de términos para referirse al mismo concepto refleja el origen multidisciplinar del AHA.
30
CUADERNOS METODOLÓGICOS 38
que la duración de un episodio sea menor o igual a t. Dicho con otras palabras, la probabilidad de que un acontecimiento ocurra en el intervalo de 0 a t. Formalmente: (1.8) F(t) = Pr(T ≤ t) Podemos además definir la función de supervivencia G(t) como la función complementaria de F(t): (1.9) G(t) = Pr(T > t) = 1 – F(t) La función de supervivencia G(t) describe la probabilidad de que la duración de un episodio sea como mínimo igual a t. Dicho de otro modo, la probabilidad de que la unidad de análisis haya sobrevivido en el estado j hasta el tiempo t. En el ejemplo de la salida del desempleo, G(t) expresaría la probabilidad de seguir estando desempleado en el tiempo t. Finalmente, la función de densidad f(t) describe la probabilidad instantánea incondicional de que un acontecimiento ocurra en el intervalo de tiempo infinitesimal t’-t: (1.10)
f (t) = lim t’ → t
Pr(t ≤ T < t’) t’ – t
Es importante destacar la diferencia entre la tasa de transición y la función de densidad. En la función de densidad la probabilidad de que ocurra el acontecimiento no está condicionada a la supervivencia hasta el tiempo t, mientras que en la tasa de transición la probabilidad se computa sólo con respecto a las unidades de análisis que se han quedado en riesgo de experimentar el acontecimiento. Existe además una relación entre la tasa de transición, la función de densidad y la función de supervivencia, de tal manera que (Blossfeld y Rohwer, 2001: p. 36): f(t) (1.11) r (t) = —— G(t) En la tabla 1.3 se presenta un ejemplo para aclarar la diferencia entre la tasa de transición, la función de densidad y la función de supervivencia. Tenemos 10 episodios y todos terminan con un acontecimiento. Es decir, no hay casos de censura a la derecha. Dos episodios terminan en el intervalo de tiempo 1---|2, uno en el intervalo de tiempo 2----|3, uno en el intervalo de tiempo 3----|4, etc. La notación t----|t + 1 indica que el acontecimiento ocurre en un momento del tiempo infinitesimalmente
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
31
posterior a t hasta el momento del tiempo t + 1 incluido. Para simplificar la notación, con r(t), G(t) y f(t) indicamos la tasa de transición, la función de supervivencia y de densidad en el intervalo t----|t+1. TABLA 1.3 DISTRIBUCIÓN DE LOS ACONTECIMIENTOS POR INTERVALO DE TIEMPO
Intervalo de tiempo
Número de acontecimientos
0---|1
0
1---|2
2
2---|3
1
3---|4
1
4---|5
2
5---|6
1
6---|7
3
Consideremos el tiempo 5 (años, meses, días: no hay ninguna diferencia). La función de supervivencia del tiempo 5 es igual a: G(5) = P(T > 5) = 4/10 Esto es porque son cuatros los episodios con una duración superior a 5. La función de densidad es f(5) = 1/10 y la tasa de transición es r(5) = 1/4. Nótese la diferencia entre la tasa de transición y la función de densidad. En el caso de la tasa de transición, la probabilidad de que el acontecimiento suceda en el intervalo 5---|6 está condicionada a haber sobrevivido hasta el tiempo 5, mientras que con la función de densidad la probabilidad no está condicionada. De este modo, la tasa de transición se calcula con respecto a las unidades de análisis que en el tiempo 5 están todavía en riesgo de experimentar el acontecimiento. En este caso se trata de una unidad de análisis que experimenta el acontecimiento en el intervalo 5---|6, y otras tres que lo experimentan en el intervalo 6---|7, para un total de cuatro unidades de análisis todavía en riesgo en el tiempo 5. Si consideramos la ecuación 1.11, podemos verificar que: r(5) = f(5) / G(5) = (1/10) / (4/10) = 1/4 Finalmente, la idea central del AHA es considerar la tasa de transición r(t) como la variable dependiente y definir un modelo de la tasa de transición de la siguiente manera:
32
CUADERNOS METODOLÓGICOS 38
(1.12) r(t)jk = f (bX,q(t)) Con un modelo de la tasa de transición se estudia cómo la propensión a pasar desde el estado j al estado k, es decir, la propensión de que ocurra el acontecimiento, varía en función de un conjunto de variables independientes X y de una función q(t) del tiempo. Los coeficientes b expresan la influencia de variables explicativas X sobre la tasa de transición. Volviendo al ejemplo de la salida del desempleo, con un modelo de la tasa de transición como el de la ecuación 1.12, podríamos estudiar cómo la propensión para encontrar un trabajo depende del género, del nivel de educación, del estado civil y de las condiciones macro del mercado de trabajo (variables X), así como de la duración misma del episodio de desempleo (función q(t)). Con respecto al matrimonio, podríamos investigar cómo varía la tasa de transición desde el estatus de soltero al de casado en función de la clase social de origen, de la condición ocupacional y de la región de residencia del entrevistado (variables X) y de su edad (función q(t)). Como sugieren estos ejemplos, las variables independientes X pueden ser tanto constantes en el tiempo (género, clase social de origen) como modificarse a lo largo del mismo (estado civil, condición ocupacional). En definitiva, el modelo de la fórmula (1.12) resume toda la lógica del AHA. En primer lugar, el análisis se centra en las dinámicas del cambio de una condición a otra a lo largo del tiempo. Así, el objetivo es explicar la propensión a que dicho cambio ocurra. Para ello se analiza cómo la propensión al cambio depende de un conjunto de variables independientes, en particular variables que se modifican en el tiempo, y de la propia duración del proceso. Como se ha argumentado previamente, la asunción de una perspectiva dinámica tanto en lo que se refiere a la variable dependiente como a los factores explicativos considerados, nos sitúa en una posición más ventajosa para indagar los mecanismos que están en la raíz de las regularidades empíricas observadas. Esto es así porque podemos reconstruir la secuencia de los cambios en las distintas dimensiones del proceso estudiado y evaluar la interdependencia entre dichos cambios a lo largo del tiempo. Podemos así establecer con más precisión la existencia de covariaciones entre los factores investigados y tener bases empíricas más sólidas para comprobar nuestras conjeturas de tipo causal. Además, y quizá sea éste el aspecto más importante, la necesidad de tener en cuenta el efecto del tiempo y la posibilidad de definir variables que se modifican a lo largo del mismo obligan, desde los primeros pasos de la investigación, a pensar en términos de mecanismos y a desarrollar hipótesis teóricas sobre las relaciones causales
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
33
en la raíz del proceso observado. En este sentido las técnicas de AHA y, más concretamente, la posibilidad que el AHA ofrece para definir variables que se modifican en el tiempo, favorecen y estimulan la reflexión teórica. Como veremos en el cuarto capítulo, para estimar los coeficientes b, suele ser necesario formular un supuesto sobre la forma de q(t). Se puede elegir entre varias distribuciones paramétricas para q(t), desde la distribución más simple que implica que la tasa de transición no varía en función del tiempo (modelo exponencial), a distribuciones más complejas que implican una tasa de transición monotónica creciente o decreciente (modelo Weibull y Gompertz) o con forma de campana (modelo log-logístico). También veremos cómo es posible utilizar modelos que minimizan los supuestos sobre q(t) o que permiten estimar los coeficientes b dejando la función q(t) completamente indefinida. Es éste el caso del modelo exponencial constante a intervalos y del modelo de Cox. Con estos últimos modelos es posible controlar por el efecto del tiempo sin formular ningún supuesto sobre su forma, y concentrarse sobre los efectos de las variables independientes X. Es importante remarcar que los modelos de la tasa de transición resumidos en la ecuación 1.12 permiten la especificación de variables que se modifican en el tiempo. Además, para estimar los coeficientes b, se utilizan métodos de estimación de máxima o parcial verosimilitud que permiten tener en cuenta las duraciones censuradas, sin que ello introduzca sesgo alguno a la estimación.
2 La estructura de los datos relativos a la historia de acontecimientos
En este capítulo se describen los ficheros de datos de duración con tiempo continuo que serán utilizados en los ejemplos discutidos en los próximos capítulos. Dos ficheros adicionales, con duración con tiempo discreto serán presentados en el capítulo 7. En la segunda sección del presente capítulo se ilustran los primeros comandos del programa Stata para analizar los datos de duración con tiempo continuo.
2.1. Los ficheros de datos Los ficheros de datos utilizados en este libro, tanto para los ejemplos como para los ejercicios propuestos, han sido elegidos para ilustrar aplicaciones del AHA en distintas áreas de investigación y para mostrar la manera de analizar ficheros de datos con estructuras muy diferentes entre sí, desde las más simples hasta las muy complejas. Es importante subrayar que en los ejemplos considerados no hay ningún caso de censura a la izquierda y que los datos han sido ya «limpiados». Esto quiere decir que en los datos de los ejemplos no falta ninguna información relativa a las duraciones ni hay incongruencias en las mismas. Además las informaciones relevantes para el AHA están ya disponibles y ordenadas en el mismo fichero. En el apéndice I se puede encontrar un ejemplo más complejo de preparación de los datos para el AHA que reproduce la estructura de los datos del Panel Europeo. Sin embargo, de momento conviene empezar por los ejemplos más simples.
36
CUADERNOS METODOLÓGICOS 38
El primero de los ficheros es una submuestra del fichero utilizado por Kennan (1985, tabla 1.15) para analizar las duraciones de las huelgas en las industrias manufactureras de Estados Unidos. El acontecimiento objeto de estudio es el fin de la huelga. En este ejemplo no hay ningún episodio censurado a la derecha. Es decir, todas las huelgas habían acabado en el momento del fin de la observación. El nombre del fichero es strike. dat y contiene 62 episodios y tres variables. En el cuadro 2.1 se presenta una descripción de las tres variables y se muestran los diez primeros episodios del fichero. CUADRO 2.1 VARIABLES Y PRIMEROS DIEZ EPISODIOS DEL FICHERO DE DATOS STRIKE.DAT
Variable
Descripción
dur
Duración de la huelga en días
event
Verificación del acontecimiento (1= huelga concluida, 0 = episodio censurado). Nótese que en este ejemplo no hay episodios censurados
prod
Indicador del nivel de producción industrial en el mes de inicio de la huelga dur
event
prod
7
1
.01138
9
1
.01138
13
1
.01138
14
1
.01138
26
1
.01138
29
1
.01138
52
1
.01138
130
1
.01138
9
1
.02299
37
1
.02299
El segundo fichero fue empleado por King et al. (1990) para estudiar la duración de los gobiernos en las democracias parlamentarias. En este caso el acontecimiento investigado es la disolución de los gobiernos. Entre los factores que influyen en las duraciones de los gobiernos y que
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
37
afectan a la probabilidad de su disolución King et al. (1900) consideran tanto los atributos de los gobiernos (por ejemplo, si son gobiernos de mayoría o de minoría), como las características del sistema de partidos (por ejemplo, el nivel de polarización entre los principales partidos). El fichero ha sido reducido con respecto al original, ya que sólo se han incluido algunas de las variables independientes12. El nombre del fichero es cabinet.dta y contiene 314 episodios y 22 variables. El cuadro 2.2 presenta una sucinta descripción de las variables y un listado de los valores de los episodios que se refieren a los gobiernos de España y del Reino Unido13. CUADRO 2.2 VARIABLES Y ALGUNOS EPISODIOS DEL FICHERO DE DATOS CABINET.DAT
Variable
Descripción
Belgium
(1 sí, 0 no)
Canada
(1 sí, 0 no)
Denmark
(1 sí, 0 no)
Finland
(1 sí, 0 no)
France
(1 sí, 0 no)
Iceland
(1 sí, 0 no)
Ireland
(1 sí, 0 no)
Israel
(1 sí, 0 no)
Italy
(1 sí, 0 no)
Netherland
(1 sí, 0 no)
Norway
(1 sí, 0 no)
Portugal
(1 sí, 0 no)
Spain
(1 sí, 0 no)
Sweden
(1 sí, 0 no)
UK
(1 sí, 0 no)
durat
Duración en meses antes de la disolución del gobierno
12 El fichero completo puede descargarse en la página web de Gary King: http:// gking.harvard.edu/data.shtml. 13
Para una descripción más detallada de las variables y de los criterios seguidos para codificarlas véase King et al. (1990). Una copia electrónica del artículo puede descargarse de la página web: http://gking.harvard.edu/vitae/node7.html.
38
CUADERNOS METODOLÓGICOS 38 crisis
Duración en días de la crisis antes de la formación del gobierno
numst2
Estado de mayoría (1= en mayoría, 2 = en minoría)
polar
Índice de polarización que mide el apoyo a partidos extremistas (varía entre 0 y 43)
ident
Índice de la simplicidad del contexto de negociaciones en el cual se mueve un gobierno (1 = baja, 2 = media, 3 = alta)
t
Duración legal del mandato en años
cieptw
Verificación del acontecimiento (1 = disolución del gobierno, 0 = episodio censurado a la derecha)
durat
t
cieptw
22
4
1
22
4
1
crisis
numst2
polar
ident
spain
uk
3
0
13
2
1
0
28
0
13
2
1
0
43
4
0
35
1
5
2
1
0
55
5
0
21
1
0
3
0
1
20
5
1
0
1
0
3
0
1
.. 30
5
1
0
0
2
3
0
1
50
5
0
0
1
1
3
0
1
..
Es importante explicar el criterio seguido por King et al. (1990) para definir si el mandato de un gobierno acaba con una disolución o si el episodio está censurado a la derecha. Un episodio es definido como censurado a la derecha si la disolución del gobierno ocurre en el último año antes del fin del mandato legal. Fijémonos en el tercer episodio del cuadro 2.2. Este episodio se refiere a un gobierno español ya que la variable Spain es igual a 1. La duración constitucional de un mandato (variable t) es cuatro años (48 meses). Dado que el gobierno en examen se disolvió en el mes 43, cuando ya estaba en el último año de su mandato, el episodio se define como censurado a la derecha y la variable cieptw es igual a 0. El supuesto teórico de esta definición de censura a la derecha es que el gobierno «se haya disuelto principalmente por aproximarse el fin legal de su mandato» (King et al., 1990: p. 853). Los autores argumentan que este tipo de disolución es diferente de la disolución debida a una crisis de gobierno, ya que, si no hubiera sido por la aproximación del límite legal del mandato, el gobierno habría durado más tiempo. Los dos últimos episodios del cuadro 2.2 se refieren a
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
39
gobiernos del Reino Unido, donde la duración legal del mandato es de cincos años. El primero de estos dos episodios acaba con un acontecimiento, ya que la disolución del gobierno se produce en el mes 30 y la variable cieptw es igual a 1. Sin embargo, el último acaba en el mes 50, en el último año de mandato. Por lo tanto, está definido como censurado a la derecha y la variable cieptw es igual a 0. Es interesante señalar que en este ejemplo la elección del criterio para definir la censura a la derecha y la verificación del acontecimiento, depende de un supuesto de los investigadores. Podrían haberse utilizados otros criterios, por ejemplo considerar como censurados a la derecha sólo los episodios que acaban en los últimos 6 meses antes del fin legal del mandato. Volveremos más adelante sobre esta cuestión. De momento es suficiente indicar que la definición del mecanismo de censura depende en algunas ocasiones de la elección del investigador. En estos casos es importante explicitar el supuesto teórico que está en la base de la definición de censura utilizada e, idealmente, replicar el análisis utilizando diferentes definiciones para controlar que los resultados son robustos. El tercer fichero de datos se refiere a la transición al matrimonio y ha sido construido a partir del fichero que Blossfeld y Rohwer (2001) utilizan para estudiar la movilidad ocupacional. Los datos originales provienen de una submuestra del German Life History Study de 1981 y contiene 201 observaciones14. El fichero se utiliza aquí para investigar la transición al primer matrimonio. Se consideran como censurados a la derecha los episodios de los sujetos que en el momento de la entrevista (octubre de 1981) nunca se habían casado. El nombre del fichero es marriage.dta. El cuadro 2.3 muestra una descripción de las variables y un listado de algunos episodios. Todas las variables que se refieren a fechas están codificadas en meses del siglo, que indican el número de meses transcurridos desde el principio del siglo XX. Así, el valor 1, en meses del siglo, significa enero de 1900, 2 febrero del 1900 y así sucesivamente. En general, la fórmula para pasar de una codificación en meses y años a una en meses del siglo es: (2.1) meses del siglo = (año-1900)*12 + mes
14 Para más información sobre la codificación de las variables y del German Life History Study, véase Blossfeld y Rohwer (2001: p. 42).
40
CUADERNOS METODOLÓGICOS 38 CUADRO 2.3 VARIABLES Y ALGUNOS EPISODIOS DEL FICHERO DE DATOS MARRIAGE.DTA
Variable
Descripción
id
Número de identificación
age14
Fecha del 14.º cumpleaños
dmarr
Fecha del matrimonio de los sujetos que se han casado o fecha de la entrevista para los que no se han casado en meses del siglo
dint
Fecha de la entrevista en meses del siglo
event
Verificación del acontecimiento (1= casado, 0 = episodio censurado a la derecha)
sex
Género (1 = varón, 0 = mujer)
educ
Nivel educativo codificado en número de años necesarios para conseguir un determinado nivel educativo. El valor más bajo es 9 (educación primaria) y el más alto 19 (universidad)
djob
Fecha de ingreso en el mercado de trabajo en meses del siglo
id
age14
dmarr
event
dint
sex
educ
djob
40
663
776
1
982
0
13
752
41
534
668
1
982
0
9
586
42
541
657
1
982
1
13
628
44
760
888
1
982
1
11
802
45
792
982
0
982
0
19
896
46
784
955
1
982
1
19
874
47
524
651
1
982
1
12
588
48
759
808
1
982
0
11
796
49
765
954
1
982
1
19
975
51
646
803
1
982
1
11
695
52
524
594
1
982
0
11
568
Por ejemplo, a la fecha abril de 1947 le corresponde en meses del siglo el valor 568. Las fórmulas para la conversión inversa, de meses del siglo a mes y año son: (2.2) año = meses del siglo / 12 + 1900 (2.3) mes = (meses del siglo)% 12 El cociente de la división de la fórmula (2.3) indica los últimos dos dígitos del año y el resto de la división nos da el mes de dicho
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
41
año. Por ejemplo la fecha 982 en meses del siglo corresponde a octubre del 1981 15. Fijémonos ahora en el episodio relativo al sujeto con el número de identificación 45. Este episodio está censurado a la derecha, o lo que es lo mismo, en el momento de la entrevista no se había casado. La variable event es igual a 0 y la variable dmarr es igual a la fecha de la entrevista. Puede apreciarse que en este fichero no hay una variable que indique directamente la duración del episodio pero hay una variable que expresa la fecha de inicio (age14) y otra la fecha de fin (dmarr). El último fichero es una submuestra de 5.512 sujetos entrevistados en la Encuesta Longitudinal sobre las Familias Italianas de 1997 y contiene 972 episodios de desempleo que tienen fecha de inicio posterior a 197216. El nombre del fichero es unemployment.dta. En este caso el acontecimiento investigado es la transición desde el desempleo a la ocupación. Los episodios de los sujetos que todavía están desempleados en el momento de la entrevista se consideran censurados a la derecha. El cuadro 2.4 ofrece una descripción de las variables y de los primeros episodios del fichero. Este fichero es más complejo que los anteriores. El proceso investigado es multiepisódico y multiestado. Es multiepisódico porque cada entrevistado puede haber tenido más de un episodio de desempleo. Por ejemplo, el sujeto con el número de identificación igual a 1000031 tiene tres episodios de desempleo, los dos primeros terminan con una transición a la ocupación, como indica la variable dest con valor 1, mientras que el tercero está censurado a la derecha, como indican las variables dest con valor 0 y end igual a la fecha de la entrevista. Además, el proceso es multiestado, ya que la salida del desempleo puede ocurrir bien con una transición a la ocupación, bien con la inactividad. Fijémonos en el sujeto con el número de identificación igual a 1000112. Su episodio de desempleo empieza en la fecha 928 y acaba en la fecha 934 con una transición a la inactividad, como indica la variable dest con valor 2. Finalmente, hay que destacar que en este ejemplo estamos interesados en investigar sólo la transición de desempleado a no desempleado. Por esta razón, en el fichero han sido seleccionados y aparecen sólo los episodios de desempleo. En un fichero con la historia ocupacional de los entrevistados aparecerían también los episodios de ocupación y de inactividad. Podemos imaginarnos que para el sujeto con el número de identificación 1000031, 15 16
Esto porque 982 / 12 = 81 y resta 10 que corresponde al mes de octubre.
Para más información acerca de la Encuesta Longitudinal sobre las Familias Italianas véase la página web: http://www.sociologia.unimib.it/ILFI/.
42
CUADERNOS METODOLÓGICOS 38
entre el primer y el segundo episodio de desempleo, hay un episodio de ocupación con fecha de inicio igual a 967, fecha de fin 1063, estado de origen con valor 1 (ocupado) y estado de destino con valor 0 (desempleado). CUADRO 2.4 VARIABLES Y ALGUNOS EPISODIOS DEL FICHERO DE DATOS UNEMPLOYMENT.DTA
Variable
Descripción
id
Número de identificación
org
Estado de origen (0 = desempleado; todos los episodios tienen como estado de origen 0)
dest
Estado de destino (0 = censurado a la derecha, es decir desempleado en el momento de la entrevista, 1 = empleado, 2 = inactivo)
begin
Fecha de inicio en meses del siglo
end
Fecha de fin en meses del siglo
dateint
Fecha de la entrevista en meses del siglo
sex
Género (1 = varón, 0 = mujer)
dbirth
Fecha de nacimiento en meses del siglo
cohort
Cohorte de nacimiento (1 = nació antes de 1940, 2 = nació entre 1940 y 1960, 3 = nació después de 1960)
coh2
Cohorte 1940-1960 (1 si cohort = 2, 0 si no)
coh3
Cohorte >1960 (1 si cohort = 3, 0 si no)
id
org
dest
1000031
0
1
1000031
0
1
begin
end
dateint
sex
dbirth cohort
953
967
1168
0
708
2
1063
1099
1168
0
708
2
1000031
0
0
1167
1168
1168
0
708
2
1000043
0
0
1101
1171
1171
0
797
3
1000051
0
1
982
990
1170
1
702
2
1000061
0
0
1170
1171
1171
1
662
2
1000062
0
0
1170
1171
1171
0
669
2
1000071
0
1
982
992
1170
1
587
2
1000112
0
2
928
934
1169
0
628
2
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
43
2.2. Los comandos en Stata para definir los datos como historia de acontecimientos Todos los programas estadísticos que permiten realizar un AHA requieren, como paso previo, identificar los datos como historia de acontecimientos y definir el episodio (o tiempo de supervivencia o duración, según la terminología adoptada) que se quiere investigar. En general, la información que es necesario especificar se refiere al tiempo de inicio y de fin, y al estado de origen y de destino de los episodios. O, dicho en otras palabras, es necesario precisar la duración antes de que suceda el acontecimiento y la calidad del mismo. En Stata todos los comandos para analizar datos de historia de acontecimientos empiezan con el prefijo st, que es el acrónimo para survival time. Para poder utilizar los comandos que empiezan por st es necesario que los datos hayan sido definidos previamente como datos de historia de acontecimientos. Esta es una de las fases más cruciales del AHA, ya que es muy fácil cometer errores. Una vez especificada correctamente la estructura de los datos como historia de acontecimientos, los siguientes pasos son relativamente fáciles. El comando para definir los datos como historia de acontecimientos en Stata es stset. En su formulación más simple este comando funciona del modo siguiente: stset timevar, failure (failvar) donde timevar es la variable que indica la duración antes de que ocurra el acontecimiento o antes de la censura a la derecha; failvar es la variable que indica si el episodio termina con un acontecimiento o si está censurado a la derecha. Si se omite failure (failvar), Stata considera que todos los episodios acaban con un acontecimiento. Cuando la variable definida como failvar es mayor de 0, Stata interpreta que los episodios acaban con un acontecimiento; si es igual a 0 o missing, Stata considera los episodios como censurados a la derecha. Otra posibilidad es utilizar la opción failure (failvar == numlist). Con esta opción Stata interpreta que acaban con un acontecimiento todos los episodios para los cuales la variable definida failvar es igual a uno de los valores numéricos especificados en la lista numlist. Todos los demás episodios son considerados como censurados a la derecha.
44
CUADERNOS METODOLÓGICOS 38
Existen muchas otras opciones para el comando stset que permiten tratar con estructuras de datos muy complejas17. En particular, en los ejemplos de este libro se utilizaran las opciones origin(varname) y id(varname): stset timevar, failure(failvar) origin(varname) id(varname) La opción origin(varname) se utiliza para especificar una variable que identifica la fecha de inicio del episodio. Esta opción es útil cuando la fecha de inicio no es igual a 0. La opción id(varname) se utiliza para indicar que un proceso es multiepisódico. Emplear la opción id(varname) resulta además imprescindible, como se verá en el capítulo 5, antes de efectuar una subdivisión de los episodios (episode splitting) para definir variables que se modifican en el tiempo. Para comprender el funcionamiento del comando stset es útil considerar algunos ejemplos de su aplicación con los ficheros descritos en la sección anterior. Utilizaremos primero el fichero de las duraciones de la huelga en la industria manufacturera de EE.UU. Para definir los datos como historia de acontecimientos se puede utilizar la siguiente línea de comando: stset dur, fail(event) Como en este ejemplo no hay duraciones censuradas a la derecha, también se podría haber definido así: stset dur En el cuadro 2.5 se presentan los comandos, seguidos de los correspondientes resultados, que permiten definir los datos del fichero strike.dat como historia de acontecimientos. Las líneas que se inician con un * son interpretadas por Stata como comentarios. Una vez ejecutado el comando stset, Stata indica las características del proceso investigado. Por el momento es suficiente entender que en el caso de strike.dat hay un acontecimiento (failure event) si la variable event es diferente (símbolo !=) de 0 y no es un caso perdido (símbolo .). La duración del episodio se define como el intervalo entre el tiempo 0 y el tiempo indicado por la variable dur. El fichero contiene 62 observaciones y 62 es también el número de los acontecimientos (failures).
17
Para la gama completa de opciones véase StatCorp, (2003).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
45
CUADRO 2.5 DEFINICIÓN DE STRIKE.DAT COMO FICHERO PARA EL AHA (BLOQUE DE COMANDOS 2.1 EN CAP2.DO)
use strike.dta *abre el fichero strike.dat stset dur, fail(event) failure event: obs. time interval: exit on or before: 62 0 62 62 2646
event ! = 0 & event chi2 = 0.0004
3.4. ¿Efecto tiempo o efecto probabilidad? Como hemos visto, las funciones de supervivencia son una herramienta muy útil para describir los datos relativos a las historias de acontecimiento. Además, el cálculo de las funciones de supervivencia es importante para tratar de contestar a la pregunta que titula esta
62
CUADERNOS METODOLÓGICOS 38
sección: si el proceso investigado se refiere a la probabilidad de que suceda el acontecimiento o sólo a la rapidez o al retraso con el cual sucede25. Los dos tipos de procesos no son equivalentes y esto produce mucha confusión a la hora de interpretar los resultados de un AHA26. En algunos casos los investigadores están interesados principalmente en analizar la probabilidad de que suceda el acontecimiento, mientras que en otros casos interesa más el cuándo de dicho suceso. Por ejemplo, en los estudios sobre el funcionamiento del mercado de trabajo suele estudiarse qué características individuales y estructurales determinan transiciones laborales tales como la movilidad ocupacional ascendente, los cambios sectoriales o la entrada o salida de ocupaciones segregadas por género (Esping-Andersen et al., 1994; Di Prete y Nonnemarker, 1997, y Li et al., 1998). En este tipo de estudios, la atención se centra en si el acontecimiento sucede o no, sin importar la rapidez o lentitud con la cual sucede el acontecimiento. Sin embargo, los estudios sobre el matrimonio y la cohabitación analizan los factores que influyen en la edad a la que los individuos se casan o empiezan a convivir (Blossfeld y Huinink, 1991, y Oppeheimer et al., 1997). Por lo tanto, estos estudios se concentran más en el retraso o aceleración del acontecimiento de interés. Considérense como ejemplos los diferentes tipos de procesos descritos en los cuatro gráficos de la figura 3.2. Estos gráficos se han calculado a partir de unos datos ficticios obtenidos mediante una simulación (Bernardi, 2001)27. Cada gráfico se basa en 120 observaciones, el intervalo de tiempo considerado va de 0 a 500, y una variable dicotómica distingue entre dos grupos de sujetos. Imaginemos que se trate de un análisis de salida del desempleo para los varones (línea discontinua) y las mujeres (línea continua). El gráfico A representa un proceso de tipo «tiempo»: las mujeres salen más rápidamente del desempleo que los varones, pero al
25
Para una discusión más en detalle sobre este tema, véase Bernardi (2001).
26
La distinción entre tiempo y probabilidad resultará relativamente intuitiva para los lectores familiarizados con los estudios de corte demográfico en los que es habitual manejar los conceptos de quantum y tempus de los acontecimientos familiares y reproductivos. 27
El nombre del fichero con los comandos para reproducir los gráficos de la figura 3.2 es figura3_2.do; los datos ficticios se encuentran en los ficheros tiempo.dta, probab.dta, umbral.dta y recup.dta. Para más detalles sobre la simulación utilizada para construir los ficheros, véase Bernardi (2001).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
63
final del intervalo de tiempo considerado no hay diferencias en la proporción de varones y mujeres todavía desempleados. Por otro lado, el gráfico B ilustra el caso de un proceso de tipo «probabilidad»: la salida del desempleo ocurre en cada momento del tiempo con más frecuencia para las mujeres que para los varones, y esto se traduce en una menor proporción de mujeres todavía desempleadas al final del intervalo de tiempo considerado. Finalmente los últimos dos gráficos describen procesos donde los efectos tiempo y probabilidad se dan conjuntamente. En caso del gráfico C, las diferencias entre mujeres y varones en las oportunidades de salida del desempleo se hacen manifiestas sólo a partir de un determinado momento del tiempo (efecto umbral), mientras que en caso del gráfico D, las mujeres salen con más frecuencia que los varones al principio, los varones recuperan parte de su desventaja con el paso del tiempo, pero la recuperación es sólo parcial porque al final del intervalo considerado la proporción de varones en paro es más alta que la de las mujeres. Al final del capítulo 5 volveremos a tratar el problema de los efectos tiempo y probabilidad. De momento, estos ejemplos sirven para mostrar cómo es posible identificar tipos de procesos muy diferentes con el auxilio de las funciones de supervivencia. En el caso del AHA, parece aún más vigente la recomendación clásica de Merton (1987) sobre la importancia de establecer correctamente los «hechos» antes de buscarles una explicación. Como veremos, algunos de los sofisticados modelos de análisis multivariado proporcionan resultados que no permiten distinguir entre los efectos tiempo y probabilidad. Por lo tanto, es muy recomendable empezar un AHA con una clara y detallada descripción del proceso que se quiere explicar.
64
CUADERNOS METODOLÓGICOS 38 FIGURA 3.2
FUNCIONES DE SUPERVIVENCIA PARA DIFERENTES TIPOS DE PROCESOS (DATOS FICTICIOS)
3.5. Conclusiones Después de haber destacado la importancia y utilidad de los métodos descriptivos no paramétricos, es importante poner en evidencia algunos de sus límites. En primer lugar, resulta muy difícil, si no imposible, avanzar más allá de un análisis bivariado. Técnicamente nada impide estimar las funciones de supervivencia para un número elevado de subgrupos
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
65
de la población simultáneamente. Pero esto implica la estimación de una función de supervivencia para cada una de las combinaciones de los valores de las distintas variables consideradas. De este modo, los gráficos se hacen incomprensibles y muy difíciles de manejar. Por ejemplo, si estamos interesados en evaluar el efecto del género (dos categorías: varones y mujeres), de la cohorte de nacimientos (tres categorías) y del nivel de educación (tres categorías) sobre las posibilidades de salida del paro, tendríamos que estimar 18 funciones de supervivencia: para los hombres de la primera cohorte de nacimiento con nivel de educación bajo, para las mujeres de la primera cohorte de nacimiento con nivel de educación bajo, para los hombres de la segunda cohorte de nacimiento con nivel de educación bajo, etc. Además, no es posible estimar una función de supervivencia para una variable independiente de tipo numérico. En este caso habría que recodificar la variable numérica en una nueva variable categórica. Esto implica una pérdida de información. De todas formas, la limitación más seria tiene que ver con la imposibilidad de estimar funciones de supervivencia para variables que se modifican en el tiempo. Ya que en el primer capítulo se ha argumentado que las variables que se modifican en el tiempo constituyen desde el punto de vista metodológico el verdadero valor añadido del AHA, ahora es necesario dar un paso más y tratar los modelos paramétricos de análisis multivariado.
66
CUADERNOS METODOLÓGICOS 38
Ejercicios del capítulo 3
Ejercicio 3.1 Utiliza el fichero unemployment.dta y reproduce la función de supervivencia de la figura 3.1 utilizando el estimador de Kaplan y Meier. A continuación, estima las funciones de supervivencia para las tres cohortes de nacimiento. ¿Son estadísticamente significativas las diferencias entre estas funciones de supervivencia?
Ejercicio 3.2 Utiliza el fichero marriage.dta y estima la función de supervivencia utilizando el estimador de Kaplan y Meier. ¿Cuál es la edad mediana al contraer matrimonio (recuerda que la duración del proceso se mide desde la fecha del 14.º cumpleaños)? Estima las funciones de supervivencia para varones y mujeres e interpreta los resultados (utiliza los gráficos de la figura 3.2 como referencia). ¿Son estadísticamente significativas las diferencias entre las funciones de supervivencia de varones y mujeres?
4 Modelos de la tasa de transición con tiempo continuo
En este capítulo se presentan los modelos estadísticos multivariados para analizar la tasa de transición con tiempo continuo. Distinguiremos entre los modelos paramétricos y los semiparamétricos. En referencia a los primeros se discutirán diferentes tipos de distribuciones paramétricas, como la distribución exponencial, Weibull, Gompertz y log-logística, mientras que como modelo semiparamétrico se presentará el modelo de Cox. Además, se mencionará también el modelo exponencial constante a intervalos (piecewise constant exponential model), aunque sus aplicaciones serán ilustradas en el capítulo 5. En la última sección se mostrará una aplicación de un modelo de riesgos competitivos.
4.1. Modelos paramétricos de la tasa de transición con tiempo continuo En términos generales un modelo de la tasa de transición puede ser especificado como: (4.1) r(t)jk = (bXt,q (t)) Así, se estudia la tasa de transición en función de un vector de variables independientes Xt y de la duración t del proceso. Los coeficientes b expresan el efecto de Xt sobre la tasa de transición y son los factores que estamos interesados en estimar. Aunque la mayoría de las aplicaciones del AHA en las ciencias sociales emplean modelos que son especificaciones de la ecuación 4.1, cabe señalar que existe otra familia de modelos paramétricos conocidos como
68
CUADERNOS METODOLÓGICOS 38
modelos de tiempo acelerado de acontecimientos (accelerated failure model) o como modelo de riesgo acelerado. La especificación general para estos modelos es: (4.2) ln(T) = b* X + z donde ln(T) es el logaritmo neperiano de la duración del episodio, b* son los coeficientes de X en esta segunda especificación y z es un término de error28 ( Jenkins, 2004). Es importante comprender que la interpretación de los efectos de la variable X cambia en las especificaciones de los modelos como tasa de transición y como tiempo acelerado de acontecimientos. Un b positivo en un modelo de la tasa de transición indica que la verosimilitud de que ocurra el acontecimiento aumenta, y por lo tanto la duración de episodio asociado disminuye. Por el contrario, un b* positivo en un modelo de tiempo de acontecimiento acelerado implica una duración del episodio más larga, y por lo tanto una menor verosimilitud del suceso del acontecimiento. Entre los modelos de la tasa transición, la especificación más común de la ecuación general 4.1 es: (4.3) r(t)jk = exp(bXt)q(t) La ecuación 4.3 describe los modelos proporcionales de la tasa de transición. La forma funcional de la relación entre las variables Xt y la tasa de transición es exponencial porque la tasa de transición no puede asumir valores negativos. Además, respecto a la formulación general de la ecuación 4.1, la función q(t) en 4.3 indica que la pauta de dependencia temporal del proceso es igual para todas las observaciones. En términos más técnicos, esto equivale a decir que no hay efectos de interacción entre las variables Xt y el tiempo t. En otras palabras, el tiempo no condiciona el efecto de las variables Xt sobre la tasa de transición. Estos modelos son denominados «proporcionales» porque se basan en el supuesto de que los efectos de las variables Xt inducen sólo a desplazamientos proporcionales de q(t) hacia arriba o hacia abajo, sin modificar su forma. Para estimar los coeficientes b es necesario formular un supuesto sobre la forma de q(t). Con este fin se puede elegir entre varias distribuciones paramétricas. Entre las distribuciones más comunes para analizar datos de duraciones se encuentran las distribuciones exponencial, Gom28
Tradicionalmente los modelos de tiempo acelerado de acontecimientos han sido especificados sólo con variables constantes en el tiempo. Para una reformulación de la especificación 4.2 que permite la inclusión de variables que se modifican en el tiempo, véase Jenkins, 2004.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
69
pertz, Weibull y log-logística y exponencial constante a intervalos29. En la figura 4.1 se presentan ejemplos de gráficos de la tasa de transición para estas distribuciones, a excepción del modelo exponencial constante a intervalos que será tratado más detenidamente en el capítulo 630. El modelo de la tasa de transición más simple es el exponencial y supone que q(t) es constante en el tiempo31: (4.4) r(t)jk = a = exp(bXt) El supuesto de constancia de la tasa de transición implica que el riesgo de que ocurra el acontecimiento no varía en función del tiempo. Esto significa que el proceso no «tiene memoria»: la verosimilitud de que ocurra el acontecimiento es la misma justo al principio del proceso como en momentos posteriores del tiempo. Por ejemplo, estudios de neurofisiología han demostrado que los canales que comunican las membranas de las células neuronales se abren siguiendo una distribución exponencial (Rice, 1988). Sin embargo, en las ciencias sociales es muy difícil encontrar ejemplos de procesos por los cuales parezca fundado suponer que el riesgo de que suceda un acontecimiento es invariable a lo largo del tiempo. La tasa de transición del modelo Gompertz se expresa como: (4.5) r(t)jk = a exp(bt) Este modelo implica que la tasa de transición es monotónica creciente si el parámetro b es mayor que 0 o monotónica decreciente si b es menor que 0. Si b es igual a 0, el modelo Gompertz equivale al modelo exponencial. La solución más común para especificar los efectos de las variables independientes es introducirlo a través del parámetro a, con a = exp(bX). La misma notación se utilizará también para los otros modelos paramétricos. De este modo el parámetro b expresa la forma de 29 Existen otras distribuciones y correspondientes modelos que aquí no discutimos. Stata permite estimar también los modelos log-normal y gamma (StataCorp., 2003). TDA permite además estimar la extensión del modelo log-logístico propuesta por Brüderl y Diekmann (1995) y los modelos con distribución polinomial. 30 Los gráficos de la figura 4.1 se han calculado a partir de unos datos ficticios. Se trata de 90 observaciones y una variable que mide el tiempo con valores entre 0 y 3. Los comandos tanto para crear los datos como para reproducir los gráficos de la figura 4.1 se encuentran en el fichero figura4_1.do. 31
La presentación de los modelos considerados se limita a sus propiedades más generales. Para profundizar en las características de cada uno de los modelos y en la presentación de sus funciones de densidad y de supervivencia, véase Blossfeld y Rowher (2001), Jenkins (2004) y StataCorp. (2003).
70
CUADERNOS METODOLÓGICOS 38
dependencia temporal del modelo, y el parámetro a se utiliza para estimar los efectos de las variables independientes. En el lenguaje estadístico, el parámetro a se define como parámetro secundario (ancillary). El modelo Gompertz de la ecuación 4.5 es de tipo proporcional. Como ya se ha mencionado poco antes, el supuesto de este modelo es que el efecto de las variables Xt no se modifica a lo largo del intervalo temporal considerado32. Dicho de otra forma, que el efecto de las variables Xt se traduce en un desplazamiento hacia arriba, si el efecto es positivo, o hacia abajo, si el efecto es negativo, de la pauta de dependencia temporal controlada por el parámetro b, pero no influye en su forma. Este modelo se ha utilizado para estudiar los acontecimientos de movilidad ocupacional, demostrando que la tasa de transición de un trabajo j a otro trabajo k, disminuye en función del tiempo transcurrido en el mercado de trabajo (Sørensen y Tuma, 1981). Otro modelo empleado frecuentemente en las aplicaciones del AHA en las ciencias sociales es el modelo de Weibull. Por ejemplo, Olzak (1992) empleó este tipo de modelo en un estudio clásico sobre la acción colectiva para analizar cómo el tiempo trascurrido desde el último evento de protesta influye sobre la probabilidad de que suceda el siguiente. Asimismo, Carroll y Hannan (2000) lo utilizaron para estudiar el riesgo de quiebra de las corporaciones e industrias en función del tiempo desde su fundación. La tasa de transición para el modelo Weibull es igual a: (4.6) r(t)jk = abtb-1 Este modelo implica una tasa de transición monotónica creciente si el parámetro b es mayor que 1 o monotónica decreciente si el parámetro b es menor que 1. Si b es igual a 1 equivale al modelo exponencial. La solución más común es introducir el efecto de las variables independientes a través del parámetro a, con a = exp(bX). Se obtiene así un modelo Weibull de tipo proporcional. Un ulterior modelo paramétrico que, sin embargo, no pertenece a la familia de los modelos proporcionales de la ecuación 4.3, es el modelo 32
Nótese la distinción entre variables Xt que se modifican en el tiempo y el efecto de las variables Xt que puede variar o no en el tiempo. En los modelos proporcionales el efecto de Xt no varía en el tiempo. El supuesto de proporcionalidad implica la constancia del efecto de las variables Xt, no la naturaleza de Xt como constante o variable en el tiempo. Aunque hay quien afirme lo contrario (Allison, 1984), la introducción de variables que se modifican en el tiempo no implica por sí misma la no proporcionalidad de los efectos del modelo (Vermunt, 1997, y Bernardi, 2001).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
71
log-logístico. Aplicaciones de esto tipo de modelo se encuentran en los estudios de la dinámicas familiares (Diekmann, 1989 y 1992) y de la demografía de las organizaciones (Carroll y Hannan, 2000). La tasa de transición del modelo log-logístico es33: babtb–1 (4.7) r (t)jk = ————— 1 + (at)b Los efectos de las variables independientes se especifican a través del parámetro a, con a = exp(bX). Este modelo es más flexible que los anteriores, ya que si b es menor o igual a 1, la tasa de transición es monotónicamente decreciente, mientras que si es mayor que 1, tiene una forma de campana (fig. 4.1).
FIGURA 4.1 EJEMPLO DE GRÁFICOS DE LA TASA DE TRANSICIONES (COMANDOS EN FIGURA4_1.DO)
33 Existen en literatura parametrizaciones alternativas para este modelo. Aquí se sigue la parametrización utilizada en Blossfeld y Rohwer (2001).
72
CUADERNOS METODOLÓGICOS 38
Finalmente, el modelo exponencial constante a intervalos es una especificación del modelo exponencial simple. El intervalo temporal se divide en varios intervalos pequeños, se supone que la tasa de transición es constante en cada intervalo y que puede variar de un intervalo a otro. Formalmente, q(t) consiste en una serie de variables dicotómicas d1, d2, ….dn con d1 = 1 en el intervalo temporal t0-t1, d2 = 1 en el intervalo temporal t1-t2, ...dn = 1 en el intervalo temporal tn-1- tn. En este caso, el investigador tiene que elegir el número y la extensión de los intervalos en los cuales se divide el eje temporal del proceso, pero no tiene que formular ningún supuesto sobre la forma funcional de q(t). Una vez estimado el modelo, los coeficientes relativos a las variables dicotómicas que identifican los intervalos permiten reconstruir la pauta de dependencia temporal del proceso. Precisamente, por esta flexibilidad y por no requerir supuestos a priori sobre la forma de la dependencia temporal del proceso, el modelo exponencial constante a intervalos se ha convertido en la elección más común entre los modelos de la tasa de transición para realizar un AHA. Antes de pasar a ilustrar algunas aplicaciones de estos modelos, parece importante detenerse brevemente para reflexionar sobre el significado del tiempo en las explicaciones sociológicas. ¿Qué se entiende cuando se afirma que la tasa de transición es dependiente del tiempo? ¿Qué valor epistemológico tiene la función q(t) en los mecanismos explicativos de un hecho social? Como han indicado varios autores, el tiempo en sí mismo no representa un factor causal (Zorn, 2000 y Blossfeld y Rohwer, 2001). A grandes rasgos, en las aplicaciones del AHA se pueden identificar cuatro enfoques para analizar e interpretar la dependencia temporal en los modelos de la tasa de transición. En el primero de ellos, q(t) refleja procesos complejos de interacción que se desarrollan a lo largo del tiempo entre las unidades de análisis. Desde esta perspectiva el investigador formula su teoría, la traduce en un modelo formal, de éste recaba la distribución implicada para q(t) y la contrasta con la distribución observada empíricamente. Por ejemplo, Sørensen (1977) desarrolló una teoría sobre la estructura de la desigualdad y el proceso de movilidad ocupacional. Esta teoría, conocida como teoría de la competición por el puesto vacante, supone que las recompensas materiales y simbólicas asociadas a las ocupaciones se distribuyen de un modo exponencial y que la estructura de la desigualdad tiene una forma piramidal. Además, supone que a cada nivel de la estructura se crean puestos vacantes en función de una tasa constante en el tiempo. De estos dos supuestos se recaba la hipótesis de que las oportunidades
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
73
de movilidad ascendente serán mayores al principio que al final de la carrera laboral de un individuo, ya que en función del tiempo en el mercado de trabajo un individuo llegará a conseguir el mejor de los trabajos posibles dado su nivel de competencias (Sørensen y Tuma, 1981). En términos formales, la teoría del puesto vacante aquí resumida implica que q(t) = bt con b < 0, es decir que la tasa de transición a un puesto de trabajo diferente se distribuye como una Gompertz monotónicamente decreciente. El interés del investigador se centra en contrastar la hipótesis relativa a q(t) extraída de su teoría. A este tipo de enfoque se pueden también reconducir los estudios de los procesos de difusión de alguna práctica social (Hernes, 1972, y Mahajan y Peterson, 1985). Desde esta perspectiva, la dependencia temporal expresa un proceso de contacto, imitación o presión social que se desarrolla a lo largo del intervalo temporal considerado34. Desde un segundo enfoque más bien estadístico, el interés de los investigadores se centra en encontrar la distribución estadística para q(t) que mejor se ajuste a los datos observados. El ejercicio de modelización consiste, por lo tanto, en definir varias distribuciones para q(t) y comparar el ajuste de las mismas para elegir la que mejor reproduce los datos observados (Kennan, 1985). En un tercero, la preocupación principal es controlar que la dependencia temporal q(t) no sea espuria como consecuencia de la falta de especificación de algunas variables relevantes en el modelo. Este problema se conoce en términos técnicos como heterogeneidad no observada (Blossfeld y Hamerle, 1992). En general, la heterogeneidad no observada produce una dependencia temporal negativa, es decir, una tasa de transición que disminuye con el paso del tiempo. Imaginemos que una característica de las unidades de análisis que no podemos incluir directamente en el análisis incrementa la propensión a experimentar el acontecimiento. En ese caso, la no inclusión de esa característica como variable independiente producirá una disminución de la tasa de transi34 Sin embargo, las aplicaciones más recientes intentan operacionalizar los factores en la base del proceso de difusión mediante algunas variables independientes X, que operacionalizan las interdependencias formuladas en las hipótesis tales como presiones, contagios, etc., entre los sujetos que pueden adoptar la práctica analizada (Strang y Tuma, 1993). Las aplicaciones de AHA para investigar los procesos de difusión se encuentran en particular en tres áreas: el estudio de la difusión de formas específicas de protesta y de acción colectiva, de nuevas prácticas organizativas y de determinados comportamientos demográficos. Para algunos ejemplos véase Soule (1997), Strang y Soule (1998) y Nazio y Blossfeld (2003).
74
CUADERNOS METODOLÓGICOS 38
ción agregada a lo largo del tiempo considerado, porque los sujetos con mayor propensión a experimentar el acontecimiento lo experimentarán al principio, mientras que con el paso del tiempo sólo se quedarán en el grupo de riesgo los sujetos con menor propensión35. Finalmente, desde el último enfoque, que se podría definir como el más sustantivo, el tiempo es sólo un proxy para las variables que se modifican en el tiempo. Por ejemplo, es bien sabido que la tasa de transición al matrimonio sigue una distribución de campana. En este enfoque, más que buscar la distribución estadística de campana que mejor se ajuste a los datos, el investigador intentará introducir algunas variables que se modifican en el tiempo y que captan la dependencia temporal del proceso. Podría intentar introducir entre las variables X, la salida del sistema educativo y la consecución del primer trabajo, para reflejar que la tasa de matrimonio crece a medida que los individuos se consolidan en el mercado de trabajo. También se podría introducir un indicador contextual del porcentaje de parejas potenciales que están todavía solteros o solteras y que tienen aproximadamente la misma edad del sujeto analizado. Este indicador se modificaría en función de la edad del sujeto analizado y expresa la idea de que con el paso del tiempo disminuye la probabilidad de casarse porque se reduce el número de parejas disponibles. Llevado al extremo, el objetivo más o menos explícito de este enfoque es extraer la dependencia temporal de q(t) y trasladarla a las variables Xt. De este modo, la atención de los investigadores se centra casi por completo en los coeficientes b y se presta poco interés a q(t). En este enfoque se «controla» estadísticamente por el efecto del tiempo y se centra la atención en los efectos de las numerosas variables independientes consideradas. No es exagerado afirmar que la gran mayoría de las aplicaciones del AHA que se encuentran en las revistas especializadas de sociología y ciencia política comparten esta perspectiva. La falta relativa de interés para desarrollar teorías que permitan formular hipótesis con respecto a q(t), ha sido duramente criticada por Sørensen (2000), según el cual este enfoque desprecia el potencial del AHA para investigar los mecanismos sociales y lo reduce a algo parecido a un modelo de regresión estándar. Para resumir, y volviendo brevemente a la expresión general 4.1 de los modelos de la tasa de transición, el enfoque denominado estadístico 35
Para una discusión más detallada de este tema, véase Blossfeld y Rohwer (2001: p. 255). Stata permite controlar la heterogeneidad no observada mediante la opción frailty() en el comando streg (StatCorp., 2003).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
75
se centra en la búsqueda del mejor ajuste para q(t). El de la heterogeneidad no observada intenta especificar una cantidad equivalente a un término de error, para corregir el sesgo potencial debido a la imposibilidad de introducir variables X relevantes para explicar la tasa de transición. El enfoque sustantivo centra la atención casi exclusivamente en las X. En el enfoque de los mecanismos, sin descartar la especificación de las X, el énfasis se pone en desarrollar una teoría, formular una hipótesis sobre la distribución de q(t) y contrastarla con los datos. Hay que señalar que los distintos enfoques, como mínimo el primero, el segundo y el cuarto, no son del todo incompatibles y que, en cualquier caso, una mayor atención de los investigadores a la hora de especificar los modelos para q(t) es recomendable. De todas formas, tanto si se tiene una hipótesis sobre la pauta de dependencia temporal del proceso, como si se adopta una solución que requiere supuestos menos exigentes (el caso del modelo exponencial a intervalos), una vez elegida la distribución para q(t), los coeficientes b y los otros parámetros de los modelos son estimados utilizando el método de la máxima verosimilitud, que, como se ha precisado en el primer capítulo, permite gestionar las duraciones censuradas a la derecha. En el apéndice II se proporciona una ilustración del funcionamiento del método de la máxima verosimilitud.
4.2. Aplicación de los modelos de la tasa de transición: el modelo exponencial El comando en Stata para estimar modelos paramétricos de la tasa de transición con tiempo continuo es streg. Para poder utilizar este comando se precisa haber definido previamente los datos como episodios con el comando stset. La sintaxis básica del comando streg es la siguiente: streg [varlist], dist(distname) donde varlist indica la lista de variables independientes Xt y distname especifica la distribución de la tasa de transición a estimar. De este modo se puede elegir entre la distribución exponencial, Weibull, Gompertz, log-normal, log-logístico o gamma. Existe además un amplio abanico de opciones para el comando streg. En lo que sigue trataremos de explicar aquellas que nos parecen más útiles para realizar un AHA. Para ilustrar con un ejemplo el funciona-
76
CUADERNOS METODOLÓGICOS 38
miento del comando streg, se pueden considerar los datos relativos a las duraciones de los gobiernos y replicar el análisis de King et al. (1990). En el cuadro 4.1 se presentan los comandos y resultados de la estimación de un modelo exponencial con las variables relativas al estatus de mayoría o minoría del gobierno (numst2), a la duración en días de la crisis antes de que se formara el gobierno (crisis) y a la simplicidad del contexto de la negociación en el cual el gobierno tiene que moverse (ident)36.
CUADRO 4.1 MODELOS EXPONENCIALES DE LA TASA DE TRANSICIÓN PARA LAS DURACIONES DE LOS GOBIERNOS (BLOQUE DE COMANDO 4.2 EN CAP4.DO)
#modelo 1 streg ident
numst2 crisis, dist(exp) failure _d: cieptw==1 analysis time _t: durat Iteration 0: log likelihood = –502.90441 Iteration 1: log likelihood = –457.15927 Iteration 2: log likelihood = –451.41419 Iteration 3: log likelihood = –451.41173 Iteration 4: log likelihood = –451.41173 Exponential regression -- log relative-hazard form No. of subjects = 314 No. of failures = 266 Time at risk = 5789.5 Log likelihood =
–451.41173
nohr
Number of obs =
314
LR chi2(3) = 102.99 Prob > chi2 = 0.0000
36 Estos modelos corresponden al modelo 1.4 de la tabla 1 en King et al. (1990). En una errata de King et al. (1990), indican que sus coeficientes son precisos sólo hasta el segundo decimal. Nótese además que los coeficientes presentados en King et al. (1990) son de signo opuesto respecto a los del cuadro 4.1. Esto se debe a que King et al. (1990) especifican el modelo como un modelo de tiempo acelerado de acontecimiento y la variable dependiente es, por lo tanto, el logaritmo de la duración de los gobiernos. En el cuadro 4.1 se especifica el modelo como modelo de la tasa de transición que considera como variable dependiente la tasa de riesgo de la disolución de los gobiernos. En el caso del modelo exponencial, la relación entre los coeficientes del modelo de tiempo acelerado de acontecimiento y del modelo de la tasa de transición es b* = -b. Para estimar el modelo de tiempo acelerado de acontecimiento y obtener exactamente los mismos resultados que King et al. (1990) es suficiente añadir la opción time en el comando streg (StatCorp, 2003).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
77
---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] -------------|-------------------------------------------------------------------------------------------------------ident | –.7732468 .0844897 –9.15 0.000 –.9388435 –.6076501 numst2 | –.7651641 .1299691 –5.89 0.000 –1.019899 –.5104293 crisis | –.0080976 .0022743 –3.56 0.000 –.0125551 –.0036401 _cons | -.910647 .2077705 –4.38 0.000 –1.31787 –.5034244 ---------------------------------------------------------------------------------------------------------------------#modelo 2 streg ident numst2 crisis, dist(exp) ... Exponential regression -- log relative-hazard form No. of subjects = 314 Number of obs = 314 No. of failures = 266 Time at risk = 5789.5 LR chi2(3) = 102.99 Log likelihood = –451.41173 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P > |z| [95 % Conf. Interval] -------------+------------------------------------------------------------------------------------------------------ident | .4615122 .038993 –9.15 0.000 .3910799 .5446292 numst2 | .4652576 .0604691 –5.89 0.000 .3606314 .6002378 crisis | .9919351 .002256 –3.56 0.000 .9875233 .9963666 ---------------------------------------------------------------------------------------------------------------------#modelo 3 streg ident numst2 crisis polar, dist(exp) nohr ... Exponential regression -- log relative-hazard form No. of subjects = 314 Number of obs = 314 No. of failures = 266 Time at risk = 5789.5 LR chi2(4) = 116.34 Log likelihood = –444.73433 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] ------------+------------------------------------------------------------------------------------------------------ident | –.5084934 .1119344 –4.54 0.000 –.7278809 –.289106 numst2 | –.6153089 .1342096 –4.58 0.000 –.8783549 –.352263 crisis | –.0079341 .0023021 –3.45 0.001 –.0124461 –.003422 polar | .0245233 .006652 3.69 0.000 .0114856 .0375611 _cons | –1.852157 .3347869 –5.53 0.000 –2.508328 –1.195987 ----------------------------------------------------------------------------------------------------------------------
Con la opción nohr se muestran los coeficientes de los efectos de las variables y no las ratios de las tasas de transición (en breve explicaremos en qué consisten estos últimos). Con respecto a los coeficientes estimados, los resultados del comando streg proporcionan distintas
78
CUADERNOS METODOLÓGICOS 38
informaciones: el valor de los coeficientes, sus errores típicos asociados, un test de significatividad y el intervalo de confianza. Si se considera, por ejemplo, la variable numst2 (gobierno con mayoría vs gobierno con minoría), el coeficiente estimado es igual a –0.77 y es estadísticamente significativo porque la ratio entre el valor del coeficiente y el valor de su error típico se distribuye como una curva normal. En el caso de numst2, la probabilidad asociada a dicha ratio (Z = –0.76516 / 0.12996 = –5.89) es inferior los umbrales del 1 y 5 por 100, por lo que se puede rechazar la hipótesis nula de que el coeficiente es igual a 0. Por eso King et al. (1990: p. 862) concluyen que los gobiernos con mayoría tienen una menor propensión a disolverse o, según sus palabras, «su estatus de mayoría aumenta la duración del gobierno significativamente». Sin embargo, para los modelos de la tasa de transición proporcionales, como es el caso del modelo en examen, es posible profundizar en la interpretación e ir un poco más allá de la simple constatación del signo del coeficiente y de su eventual significatividad estadística. El efecto de una variable puede ser interpretado como la variación porcentual de la tasa, si todas las demás variables permanecen constantes y sólo se modifica la variable considerada. Formalmente: (4.8) ∆r = (exp(bi)∆Xi – 1) × 100 donde ∆Xi corresponde a un cambio en los valores de la variable Xi, ∆r es la variación porcentual en la tasa de transición asociada a dicho cambio y bi es el coeficiente estimado para la variable Xi. Si la variable Xi es dicotómica, como en este caso, ∆Xi = 1 y (4.9) ∆r = (exp(bi) – 1) × 100 Si se comparan los gobiernos de mayoría con los gobiernos de minoría, la variación en el riesgo de disolución es igual a (exp (–0.765) – 1) × 100 % = (0.47 – 1) × 100 % = –53 % Por lo tanto, se puede concluir que el riesgo de disolución es un 53 % menor para los gobiernos con mayoría que para los gobiernos con minoría. También se puede calcular la ratio de las tasas de transición de los dos tipos de gobiernos: r(gobierno mayoría) ————————— = (exp (–0.765) = 0.47 r(gobierno minoría)
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
79
De esto modo, el riesgo de disolución para los gobiernos con mayoría es el 47 por 100 del riesgo para los gobiernos con minoría. O, dicho con otras palabras, los gobiernos con mayoría corren más o menos la mitad del riesgo de disolución que los gobiernos en minoría. Para obtener la ratio de las tasas de transición en lugar de los coeficientes b, es suficiente ejecutar el comando streg sin la opción nohr (modelo 2, cuadro 4.1). Consideramos ahora el efecto de la variable crisis. Esta variable mide la duración en días de la crisis antes de la formación del gobierno. Mediante la fórmula 4.8 podemos calcular la variación en el riesgo de disolución del gobierno asociado a una variación en la duración de la crisis. Por ejemplo, podemos comparar un gobierno imaginario que ha tardado 7 días en formarse con otro que ha tardado 28 días. La variación en ∆X en este caso es igual a 21. Por lo tanto: (exp (–0.008)21 – 1) × 100 = (0.85 – 1) × 100 = –15 % Podemos así que concluir que el segundo gobierno que ha tardado 21 días más en formarse tiene un riesgo de disolución que es el 15 por 100 inferior que el primer gobierno. Para comparar el ajuste de distintos modelos es posible emplear el test LR (Log likelihood Ratio) de la ratio del logaritmo de la verosimilitud o el test AIC (Akaike Information Criterion). Este segundo test será presentado en la próxima sección. Por lo que se refiere al test LR, cabe destacar que permite evaluar si la inclusión de una o más variables adicionales en un modelo mejora el ajuste del mismo37. Entre los resultados del comando streg se puede encontrar el valor de este test para la comparación entre el modelo en examen y el modelo equivalente sin ninguna variable independiente. En el caso del modelo 3,
37 El test de la ratio del logaritmo de la verosimilitud (LR) funciona del siguiente modo. Si se consideran dos modelos, el modelo A de referencia y el modelo B con algunas variables adicionales respecto a A, el test del LR es:
LR = 2((logaritmo de la verosimilitud de B) – (logaritmo de la verosimilitud de A)) La hipótesis nula es que las variables adicionales en B no conllevan una mejora significativa en el ajuste del modelo. En otras palabras, que la diferencia entre los logaritmos de la verosimilitud de los dos modelos es casual. Si la hipótesis nula es cierta, el test LR se distribuye como un χ2 con m grados de libertad, donde m es igual al número de variables adicionales del modelo B. Si la probabilidad asociada al valor del LR observado es inferior a un umbral predefinido (habitualmente el 5 por 100), se rechaza la hipótesis nula y se concluye que la inclusión de variables adicionales mejora el ajuste del modelo.
80
CUADERNOS METODOLÓGICOS 38
donde se ha añadido la variable independiente que expresa el nivel de polarización del sistema parlamentario, el valor del test de LR es igual a: LR = 2 ((–444.73) – (–502.90)) = 2(58.17) = 166.34 con 4 grados de libertad que se refieren a las cuatro variables independientes incluidas en el modelo. Como la probabilidad de un Chi-cuadrado igual a 166.34 con 4 grados de libertad es menor que 0.001, en este caso se podría rechazar la hipótesis nula y concluir que la inclusión de las cuatro variables implica una mejora estadísticamente significativa del ajuste del modelo. La misma lógica puede usarse para evaluar si la inclusión de la variable polarización mejora el ajuste del modelo. En este caso se trata de comparar el logaritmo de la verosimilitud del modelo con tres variables independientes y el logaritmo de la verosimilitud del modelo con cuatro variables independientes, después de añadir la variable polarización. El test de LR es igual a: LR = 2 ((–444.73) – (–451.41) = 2(6.68) = 13.36 Como la probabilidad asociada a un Chi-cuadrado igual a 13.36 con 1 grado de libertad es inferior a 0.001, podemos concluir que la inclusión de la variable polarización conlleva una mejora estadísticamente significativa del ajuste del modelo. Por último hay que mencionar que la información que proporciona el test LR no añade mucho a lo que se puede extraer de un examen de la significatividad estadística de los coeficientes de las variables independientes adicionales que se especifican en el modelo. Si dichos coeficientes son estadísticamente significativos, también lo será el test LR.
4.3. Los modelos Gompertz, Weibull y log-logístico Para replicar el análisis de King et al. (1990) se han estimado modelos de tipo exponencial que suponen que la tasa de transición es constante en el tiempo. En el ejemplo analizado esto equivale a suponer que el riesgo de caída de los gobiernos no depende de la duración de los mismos. King et al. (1990: p. 847) justifican este supuesto a partir de la idea que «la caída de cada gobierno está generada por un acontecimiento particular crítico o terminal». Como ejemplos de estos acontecimientos
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
81
terminales mencionan escándalos, una crisis intragubernamental o la muerte del primer ministro. Añaden que estos son acontecimientos muy raros y que tienen una probabilidad de verificarse constante a lo largo de la legislatura. Por lo tanto, la duración de los gobiernos seguiría una distribución de tipo exponencial. El supuesto de constancia del riesgo de caída de los gobiernos puede ser claramente cuestionado. Se podría suponer que al principio de la legislatura el riesgo de disolución es menor porque el gobierno goza de un período de crédito por parte de la oposición (los 100 días de luna de miel concedidos a los gobiernos entrantes, en términos periodísticos), y que crece progresivamente con el paso del tiempo. Asimismo se puede suponer que un escándalo sea promovido por sectores opuestos al gobierno en un momento estratégicamente conveniente: por ejemplo, ni demasiado al principio de la legislatura, cuando el gobierno goza todavía de la legitimidad obtenida por el respaldo popular en las recién ganadas elecciones, ni demasiado al final, cuando el debate político se va centrando ya en las futuras elecciones. Más allá de la plausibilidad teórica y empírica de estos argumentos, lo que interesa destacar aquí es que cada uno de ellos sugiere diferentes supuestos relativos a cómo varía el riesgo de caída de los gobiernos a lo largo de la legislatura. Se podría así suponer que el riesgo de caída de los gobiernos aumenta de manera monotónica en el tiempo o que tiene una forma de campana ¿Cómo es posible especificar modelos de la tasa de transición que reflejen estos diferentes supuestos? y ¿cómo podemos elegir entre los distintos modelos? En la anterior sección se ha anticipado que la opción distname del comando streg en Stata permite especificar diferentes distribuciones estadísticas de la dependencia temporal de la tasa de transición, es decir, de q(t) en la ecuación (4.3). En el cuadro 4.2 se presentan los resultados de las estimaciones de un modelo Weibull, Gompertz y log-logístico. Los dos primeros implican una tasa de transición monotónica creciente o decreciente, mientras que con el último la tasa puede también tener una forma de campana. Es preciso advertir que para el modelo log-logístico sólo es posible la especificación como modelo de riesgo acelerado y, por lo tanto, el signo de los coeficientes es opuesto al de los coeficientes estimados con los modelos Weibull y Gompertz38. 38
Con Stata el modelo Weibull puede ser especificado bien como modelo de la tasa proporcional bien como riesgo acelerado, mientras que el modelo Gompertz sólo como modelo de la tasa proporcional.
82
CUADERNOS METODOLÓGICOS 38 CUADRO 4.2 MODELOS WEIBULL, GOMPERTZ Y LOG-LOGÍSTICO DE LA TASA DE TRANSICIÓN PARA LAS DURACIONES DE LOS GOBIERNOS (BLOQUE DE COMANDO 4.3 EN CAP4.DO)
streg
ident
numst2 crisis polar, failure _d: cieptw==1 analysis time _t: durat
Fitting constant-only model: Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood =
–502.90441 –502.54685 –502.54678 –502.54678
Fitting full model: Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood =
–502.54678 –451.79089 –440.6877 –440.64556 –440.64555
Weibull regression -- log relative-hazard form No. of subjects = 314 No. of failures = 266 Time at risk = 5789.5
dist(weibull)
Number of obs
nohr
=
314
LR chi2(4) = 123.80 Log likelihood = –440.64555 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] ------------+------------------------------------------------------------------------------------------------------ident | –.5562753 .1136915 –4.89 0.000 –.7791066 –.333444 numst2 | –.6670893 .135717 –4.92 0.000 –.9330897 –.4010888 crisis | –.0089228 .0023748 –3.76 0.000 –.0135774 –.0042683 polar | .0276224 .0067613 4.09 0.000 .0143704 .0408744 _cons | –2.2517 .3674217 –6.13 0.000 –2.971833 –1.531566 -------------+------------------------------------------------------------------------------------------------------/ln_p | .1482061 .0501123 2.96 0.003 .0499878 .2464245 -------------+------------------------------------------------------------------------------------------------------p| 1.159752 .0581179 1.051258 1.279443 1/p | .8622534 .0432095 .7815904 .951241 -------------+------------------------------------------------------------------------------------------------------streg ident numst2 crisis polar, dist(gomp) nohr failure _d: cieptw==1 analysis time _t: durat Fitting constant-only model: Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood =
–502.90441 –500.00474 –499.97929 –499.97928
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS Fitting full model: Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood =
83
–499.97928 –452.61831 –443.49552 –443.47315 –443.47315
Gompertz regression -- log relative-hazard form No. of subjects = No. of failures = Time at risk =
314 266 5789.5
Number of obs =
314
LR chi2(4) = 113.01 Log likelihood = –443.47315 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95% Conf. Interval] ------------ +------------------------------------------------------------------------------------------------------ident | –.5359525 .1135878 –4.72 0.000 –.7585805 –.3133246 numst2 | –.6513131 .1362833 –4.78 0.000 –.9184235 –.3842027 crisis | –.008517 .0023601 –3.61 0.000 –.0131428 –.0038912 polar | .0265151 .0067892 3.91 0.000 .0132085 .0398218 _cons | –1.925374 .3385428 –5.69 0.000 –2.588906 –1.261842 -------------+------------------------------------------------------------------------------------------------------gamma | .0092562 .0057586 1.61 0.108 –.0020305 .0205429 ---------------------------------------------------------------------------------------------------------------------streg ident numst2 crisis polar, dist(logl) failure _d: cieptw==1 analysis time _t: durat Fitting constant-only model: Iteration 0: Iteration 1: Iteration 2: Iteration 3:
log likelihood = –533.3587 log likelihood = –498.8423 log likelihood = –498.82442 log likelihood = –498.82441
Fitting full model: Iteration 0: Iteration 1: Iteration 2: Iteration 3: Iteration 4: Iteration 5:
log likelihood = log likelihood = log likelihood = log likelihood = log likelihood = log likelihood =
Log-logistic regression No. of subjects = No. of failures = Time at risk =
--
–498.82441 –466.92581 –445.14612 –444.9517 –444.95161 –444.95161 accelerated failure-time form
314 266 5789.5
Number of obs =
314
LR chi2(4) = 107.75 Log likelihood = -444.95161 Prob > chi2 = 0.0000 ----------------------------------------------------------------------------------------------------------------------
84
CUADERNOS METODOLÓGICOS 38
_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] ---------------+-----------------------------------------------------------------------------------------------------ident | .5150401 .1077856 4.78 0.000 .3037841 .726296 numst2 | .6511217 .1354907 4.81 0.000 .3855647 .9166786 crisis | .0063794 .0019822 3.22 0.001 .0024943 .0102644 polar | -.0227489 .0067189 –3.39 0.001 –.0359177 –.0095801 _cons | 1.438988 .3288743 4.38 0.000 .7944059 2.083569 --------------+----------------------------------------------------------------------------------------------------/ln_gam | -.4733238 .0513878 –9.21 0.000 –.574042 –.3726056 --------------+-----------------------------------------------------------------------------------------------------gamma | .6229283 .0320109 .5632442 .6889369 ----------------------------------------------------------------------------------------------------------------------
Antes de comentar los resultados, es necesario mencionar que Stata utiliza una notación para los modelos Weibull, Gompertz y log-logístico ligeramente diferente de la que hemos introducido en la sección 4.1. En la mayoría de los casos se trata de pequeñas diferencias39. Stata define como p el parámetro b de la ecuación 4.6 del modelo Weibull y como gamma el parámetro b de la ecuación 4.5 del modelo Gompertz. Para el modelo log-logístico, el parámetro gamma corresponde al inverso de b, es decir, gamma = 1/b y b = 1/gamma. En el caso del modelo Weibull, Stata estima el parámetro que regula la forma de la dependencia temporal de la tasa de transición como ln p pero en los resultados se muestra también el valor del parámetro p. Como p resulta mayor que 1, se podría concluir que el riesgo de caída de los gobiernos crece a lo largo del tiempo. A conclusiones parecidas se podría llegar considerando el valor del parámetro gamma del modelo Gompertz que es positivo, aunque, aplicando criterios estrictos, se tendría que considerar no significativo desde el punto estadístico, ya que la probabilidad asociada al parámetro gamma (o b) es igual a 0.108 y, por lo tanto, mayor que los valores convencionales de p = 0.05 o p = 0.10. Finalmente, si se examinan los resultados del modelo log-logístico, el valor de 1/gamma es mayor que 1. Este resultado sugiere que el riesgo de caída de los gobiernos sigue una forma de campana, primero crece y después decrece en función del tiempo. ¿Cómo podemos elegir entre los distintos modelos estimados? ¿Cuál es el que mejor se ajusta a los datos? Si los modelos son encapsulados (nested), como ocurre en el caso del modelo exponencial respecto a los
39 Hemos preferido seguir la notación de Blossfeld y Rohwer (2001) porque nos parece más clara.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
85
modelos Weibull y Gompertz, ya que el primero es un caso particular de los otros dos, es posible utilizar el test LR40. Si se quiere comparar el ajuste del modelo Weibull con el del modelo exponencial, el test LR será igual a: LR (modelo Weibull versus exponencial) = 2(–440.64) – (–444.73) = 8.18 con un grado de libertad. Como el test LR es estadísticamente significativo, se podría concluir que el modelo Weibull presenta un ajuste mejor a los datos que el modelo exponencial. En el caso de modelos que no son encapsulados, como por ejemplo el modelo Weibull y el modelo log-logístico, el test LR no se puede aplicar. Una solución es utilizar el criterio de información de Akaike (AIC)41. En la práctica, este test consiste en «penalizar» la log-likelihood de cada modelo en función del número de parámetros incluidos en la estimación: (4.10) AIC = –2(log-likelihood) + 2(c + p +1) donde c es el número de variables independientes y p es el número de parámetros ancilares (o secundarios) del modelo42. El modelo con el valor más pequeño de AIC es el modelo con el mejor ajuste estadístico. En el caso de los modelos estimados, el modelo con el mejor ajuste según el AIC es el modelo Weibull. Se podría entonces concluir que el riesgo de disolución de los gobiernos aumenta a lo largo de la legislatura. Por lo tanto, el supuesto de no variación en el tiempo de dicho riesgo, formulado por King et al. (1990), no es corroborado por los datos. El ejemplo de comparación de los diferentes modelos sintetizado en la tabla 4.1 sugiere una cierta prudencia a la hora de estimar modelos paramétricos. Antes de sacar conclusiones sobre la forma de la dependencia temporal de la tasa de transición, es oportuno estimar diferentes modelos y comparar los resultados obtenidos. Si sólo se hubiera estimado el modelo exponencial o el modelo log-logístico o el modelo Weibull, se habría podido 40 En general, dos modelos son encapsulados cuando es posible pasar de uno a otro de manera directa, añadiendo o quitando unas variables. El modelo exponencial es un caso particular del modelo Weibull, cuando el parámetro b es igual a 1 y del modelo Gompertz, cuando el parámetro b es igual a 0 (véanse las fórmulas 4.5 y 4.6). 41
Otra solución (no tratada en esta monografía) para controlar los supuestos relativos a la forma paramétrica de la tasa de transición es utilizar el método de los pseudoresiduos. Para una discusión formal de este método véase Hosmer y Lemeshow (1999), mientras que para un ejemplo de aplicación véase StataCorp. (2003: p. 230). 42
En el caso del modelo exponencial no hay parámentro ancilar, mientras que en los modelos Gompertz, Weibull y log-logístico el parámetro ancilar es b (véanse las fórmulas 4.5, 4.6 y 4.7).
86
CUADERNOS METODOLÓGICOS 38
concluir respectivamente que el riesgo de caída de los gobiernos es constante en el tiempo, que tiene una forma de campana y que es monótono creciente.
TABLA 4.1 COEFICIENTES ESTIMADOS CON LOS DIFERENTES MODELOS PARAMÉTRICOS Y COMPARACIÓN DE SUS AJUSTES
Exponencial
Weibull
Gompertz
ident
–.508493
–.556275
–.535953
.515040
numst2
–.615309
–.667089
–.651313
.651122
crisis
–.007934
–.008923
–.008517
.006379
polar
.024523
.027622
.026515
–.022749
–1.852157
–2.251700
–1.925374
1.438988
1.159752
.009256
.622928
-444.73
–440.65
–443.47
–444.95
899.46
893.30
898.94
902.94
constant parámetro ancilar Log-likelihood AIC
Log-logístico
Por otro lado, la aplicación rutinaria de los test de ajuste de los modelos puede vaciar de interés sustantivo la investigación y derivar en un mero ejercicio estadístico. Aunque el modelo Weibull presente el valor más pequeño del AIC en este caso parece oportuno tener en cuenta que la estimación del modelo log-logístico indica que la tasa de transición tiene una forma de campana a lo largo del tiempo. En general, como recuerdan Blossfeld y Rohwer (2001: p. 226) la selección de un modelo final tiene que basarse principalmente en consideraciones de orden teórico más que en los valores de los test estadísticos. Si no se dispone de una teoría clara sobre el q(t) de la ecuación 4.1, es decir, sobre la pauta de dependencia temporal de la tasa de transición, puede ser conveniente optar por modelos semiparamétricos que no requieren ningún supuesto sobre q(t). Modelos de este tipo son el de Cox, objeto de la próxima sección, y el modelo exponencial constante a intervalos que se presentará en el capítulo 5. Finalmente, cabe destacar que los coeficientes relativos a las variables independientes del ejemplo son relativamente parecidos y estables en los diferentes modelos considerados. Esto significa que, a menudo, las
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
87
conclusiones que se pueden extraer de los efectos de las variables X no dependen fuertemente de la forma funcional de la dependencia temporal de la tasa de transición.
4.4. El modelo Cox Si no se tiene una teoría precisa sobre la forma de la dependencia temporal de la tasa de transición, una solución empleada con mucha frecuencia es la de dejar la función q(t) sin especificar y concentrarse exclusivamente en el efecto de las variables X. Esto es lo que permite el modelo propuesto por Cox (1972). Este modelo ofrece una estimación de los coeficientes b a través de un método de la verosimilitud parcial y deja la función q(t) sin especificar. En el apéndice III se presenta una ilustración de cómo funciona el método de estimación con verosimilitud parcial. El modelo de Cox pertenece a la familia de los modelos proporcionales y, por lo tanto, se basa en el supuesto de que los efectos de las variables X inducen sólo desplazamientos proporcionales hacia arriba o abajo de q(t), sin modificar su forma. En Stata, el comando para estimar un modelo de Cox es stcox, el cual requiere haber definido previamente los datos como historia de acontecimientos con el comando stset. En el cuadro 4.3 se presentan los resultados de la estimación de un modelo Cox para la duración de los gobiernos. Los coeficientes estimados se interpretan de la misma manera que para los otros modelos proporcionales. Stata utiliza por defecto el método de Breslow para controlar que no haya agrupaciones en la distribución de las duraciones, i.e. que numerosos episodios acaben en el mismo momento del tiempo, hecho que complicaría la estimación de la verosimilitud parcial43. Como se aprecia, no hay ningún coeficiente para el efecto de la duración de la legislatura sobre el riesgo de disolución de los gobiernos, es decir, la función q(t) se deja si especificar. Además, los coeficientes estimados para las variables independientes son muy parecidos a los de los modelos de la tabla 4.1.
88
CUADERNOS METODOLÓGICOS 38 CUADRO 4.3 MODELO COX PARA LAS DURACIONES DE LOS GOBIERNOS (BLOQUE DE COMANDO 4.4 EN CAP4.DO)
stcox
ident
numst2
crisis
polar,
nohr
failure _d: cieptw==1 analysis time _t: durat Iteration 0: log likelihood = –1357.4851 Iteration 1: log likelihood = –1303.9412 Iteration 2: log likelihood = –1303.0872 Iteration 3: log likelihood = –1303.086 Refining estimates: Iteration 0: log likelihood = –1303.086 Cox regression -- Breslow method for ties No. of subjects = No. of failures = Time at risk =
314 266 5789.5
Number of obs
=
314
LR chi2(4) = 108.80 Log likelihood = –1303.086 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] ------------+------------------------------------------------------------------------------------------------------ident | –.5279573 .1137679 –4.64 0.000 –.7509383 –.3049762 numst2 | –.6229974 .136005 –4.58 0.000 –.8895624 –.3564324 crisis | –.0084017 .0023565 –3.57 0.000 –.0130204 –.003783 polar | .0261539 .0068052 3.84 0.000 .012816 .0394918 ----------------------------------------------------------------------------------------------------------------------
4.5. El test del supuesto de proporcionalidad En las anteriores secciones se han especificado modelos que pertenecen a la familia de los modelos proporcionales. Es este el caso del modelo Gompertz, Weibull y Cox. El supuesto de proporcionalidad implícito en estos modelos es que el efecto de las variables independientes se mantiene constante a lo largo del intervalo temporal considerado. El test para evaluar la plausibilidad de este supuesto consiste en especificar una interacción entre las variables independientes y una variable que recoge el paso del tiempo. En otras palabras, se trata de evaluar si el efecto de las variables independientes se mantiene constante o bien 43
Para más detalles sobre las complicaciones relacionadas a la existencia de agrupamientos (ties) en la distribución de las duraciones y sobre los varios métodos para tratarlas véase StataCorp. (2003: p. 118).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
89
varía a lo largo del intervalo de tiempo considerado. En el próximo capítulo, al tratar el modelo exponencial constante a intervalos, volveremos sobre el supuesto de proporcionalidad y desarrollaremos más en detalle algunas consideraciones sobre el tema. De momento podemos contentarnos con aprender cómo es posible evaluar si el efecto de las variables independientes es constante o varía en el tiempo en el caso de los modelos vistos hasta ahora. Las opciones de los comandos de Stata para comprobar el supuesto de proporcionalidad, en el caso de los modelos vistos hasta ahora, son relativamente simples. En el cuadro 4.4 se presentan los resultados del test de proporcionalidad para los modelos Cox, Weibull y Gompertz. En el caso del modelo Cox la opción tvc(ident numst2 crisis polar) permite especificar una interacción entre las variables independientes y una función continua del tiempo g(t). Si no se especifica de otra forma g(t) = t44. Por lo tanto, la interacción definida con la opción tvc es igual al producto entre las variables independientes y el eje temporal considerado en el análisis. En el ejemplo expuesto, con la opción tvc especificamos las siguientes interacciones: ident*t, numst2*t, crisis*t y polar*t. Los resultados de la primera ecuación (rh) del cuadro 4.4 se refieren a los efectos de las variables independientes al principio del intervalo de tiempo considerado, mientras que los resultados de la segunda ecuación (t) se refieren a la interacción entre las variables independientes y el tiempo. Si el coeficiente de la interacción para una variable independiente resulta significativo, el supuesto de proporcionalidad para dicha variable no es válido. En el ejemplo ninguna de las interacciones es significativa. Tan sólo el coeficiente de la interacción entre la variable ident y el tiempo se acerca al umbral de significatividad (valor de p = 0.13). Por lo tanto, en este caso se podría concluir que el supuesto de proporcionalidad queda justificado. En el caso de los modelos Weibull y Gompertz la opción anc(ident numst2 crisis polar) permite estimar el efecto de las variables indepen44 La opción adicional texp() utilizada en combinación con la opción tvc(), permite especificar qué función del tiempo tiene que ser multiplicada por las variables independientes. Si, por ejemplo, se especifica texp(ln(_t)) o texp(_t2), las variables independientes serán multiplicadas respectivamente por el logaritmo del tiempo o por el cuadrado del mismo. En general, si la cuestión es comprobar el supuesto de proporcionalidad, a no ser que se disponga de una hipótesis precisa sobre cómo varía el efecto de las variables independientes en el tiempo, se aconseja empezar especificando una interacción de tipo lineal, o sea texp(_t). Es la función que Stata utiliza por defecto, si no se especifica texp() en la opción tvc().
90
CUADERNOS METODOLÓGICOS 38
dientes sobre el parámetro secundario b o, en la notación de Stata, los parámetros p y gamma. En general, esto equivale a especificar en los modelos una interacción entre las variables independientes y el tiempo. Los resultados para los modelos Gompertz y Weibull con los efectos de las variables independientes, especificados también para los parámetros secundarios, muestran que ninguna de las interacciones es significativa y confirman, en la línea de los resultados del modelo de Cox, que el supuesto de proporcionalidad se cumple.
CUADRO 4.4 TEST DE PROPORCIONALIDAD PARA LOS MODELOS COX, WEIBULL Y GOMPERTZ (BLOQUE DE COMANDO 4.5 EN CAP4.DO)
stcox
ident
numst2
crisis
polar,
tvc
(ident
numst2
crisis
polar)
nohr
Cox regression--Breslow method for ties ... ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] -------------|-------------------------------------------------------------------------------------------------------rh | ident | –.7763961 .1923769 –4.04 0.000 –1.153448 –.3993444 numst2 | –.5924513 .2187347 –2.71 0.007 –1.021163 –.1637391 crisis | –.0079917 .0037999 –2.10 0.035 –.0154393 –.0005441 polar | .0238262 .0108726 2.19 0.028 .0025163 .0451361 --------------|------------------------------------------------------------------------------------------------------t | ident | .0171189 .011225 1.53 0.127 –.0048818 .0391196 numst2 | –.0025316 .0132599 –0.19 0.849 –.0285206 .0234573 crisis | .0000277 .0002255 0.12 0.902 –.0004144 .0004698 polar | .0000995 .0007308 0.14 0.892 –.0013328 .0015318 ---------------------------------------------------------------------------------------------------------------------streg ident numst2 crisis polar, dist(wei) anc(ident numst2 crisis polar) nohr ... Weibull regression -- log relative-hazard form ... ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] -------------|-------------------------------------------------------------------------------------------------------_t | ident | –.9543943 .3490718 –2.73 0.006 –1.638562 –.2702261 numst2 | –.7518177 .3589624 –2.09 0.036 –1.455371 –.0482643 crisis | –.0121654 .0105681 –1.15 0.250 –.0328785 .0085476 polar | .0262055 .0182163 1.44 0.150 –.0094978 .0619087 _cons | –1.502021 .9404914 –1.60 0.110 –3.34535 .3413081 ------------+-------------------------------------------------------------------------------------------------------
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
91
ln_p | ident | .105819 .0888739 1.19 0.234 –.0683706 .2800086 numst2 | .020875 .0946577 0.22 0.825 –.1646508 .2064007 crisis | .0009797 .002671 0.37 0.714 –.0042555 .0062148 polar | .0002869 .0049405 0.06 0.954 –.0093964 .0099701 _cons | –.0616198 .2517845 –0.24 0.807 –.5551082 .4318687 ---------------------------------------------------------------------------------------------------------------------streg ident numst2 crisis polar, dist(gom) anc(ident numst2 crisis polar) nohr Gompertz regression -- log relative-hazard form ... ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] -------------+------------------------------------------------------------------------------------------------------_t | ident | –.6760683 .1754555 –3.85 0.000 –1.019955 –.3321818 numst2 | –.5019172 .2049674 –2.45 0.014 –.9036458 –.1001886 crisis | -.007107 .0035589 –2.00 0.046 –.0140822 –.0001317 polar | .0203133 .0101396 2.00 0.045 .00044 .0401866 _cons | –1.712517 .507091 –3.38 0.001 –2.706398 –7186372 -------------+------------------------------------------------------------------------------------------------------gamma | ident | .009556 .0098656 0.97 0.333 –.0097802 .0288922 numst2 | –.0123085 .0118365 –1.04 0.298 –.0355077 .0108906 crisis | –.0000733 .0002102 –0.35 0.727 –.0004853 .0003386 polar | .0005307 .0006535 0.81 0.417 –.0007502 .0018115 _cons | –.0054621 .0298645 –0.18 0.855 –.0639954 .0530712 ----------------------------------------------------------------------------------------------------------------------
4.6. Los modelos de riesgos competitivos Los ejemplos discutidos hasta ahora hacían referencia a procesos con sólo dos estados, uno de origen y otro de destino. En este apartado se tratan los procesos multiestado. Consideremos el ejemplo relativo a la salida del desempleo, que puede ocurrir con una transición a la ocupación o a la inactividad. Si estamos interesados en investigar ambos procesos, podemos emplear un modelo de riesgos competitivos. Este tipo de modelo puede ser estimado en Stata analizando por separado cada transición. Esto significa que es necesario utilizar el comando stset para cada una de las transiciones alternativas que se investigan, modificando de la manera adecuada el valor de la opción failure.
92
CUADERNOS METODOLÓGICOS 38
En el cuadro 4.5 se presentan los comandos y los resultados relativos a un modelo de riesgos competitivos para la salida del desempleo a la ocupación y a la inactividad. En primer lugar, se define como acontecimiento que identifica el fin del episodio de desempleo la transición a la ocupación, codificada en el fichero unemployment.dta como el valor igual a 1 de la variable dest. Para este tipo de transición el número de acontecimientos es igual a 734. A continuación se estima un modelo exponencial, pero habría podido ser cualquier otro modelo paramétrico, con las variables independientes de interés.
CUADRO 4.5 MODELO DE RIESGO COMPARATIVO PARA LA TRANSICIÓN DEL DESEMPLEO A LA OCUPACIÓN Y LA INACTIVIDAD (BLOQUE DE COMANDO 4.5 EN CAP4.DO)
use unemployment.dta stset end, origin(begin) fail (dest==1) ... streg sex coh2 coh3, dist(exp) nohr ... No. of subjects = 973 No. of failures = 734 Time at risk = 17922
Number of obs =
973
LR chi2(3) = 118.43 Log likelihood = –1486.9488 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] -------------+------------------------------------------------------------------------------------------------------sex | .2575632 .0739688 3.48 0.000 .1125871 .4025394 coh2 | .8885871 .1985 4.48 0.000 .4995343 1.27764 coh3 | 1.445604 .1952503 7.40 0.000 1.06292 1.828287 _cons | –4.429246 .1947556 –22.74 0.000 –4.81096 –4.047532 ---------------------------------------------------------------------------------------------------------------------stset end, origin (begin) fail (dest==2) ... streg sex coh2 coh3, dist(exp) nohr ... No. of subjects = 973 No. of failures = 80 Time at risk = 17922
Number of obs
=
973
LR chi2(3) = 23.65 Log likelihood = –277.94313 Prob > chi2 = 0.0000 ----------------------------------------------------------------------------------------------------------------------
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
93
_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] -------------+------------------------------------------------------------------------------------------------------sex | –.5229486 .2339672 –2.24 0.025 –.9815159 –.0643814 coh2 | –1.167064 .2747059 –4.25 0.000 –1.705478 –.6286506 coh3 | –1.294082 .2901885 –4.46 0.000 –1.862842 –.7253234 _cons | –4.203166 .2330595 –18.03 0.000 –4.659954 –3.746378 ---------------------------------------------------------------------------------------------------------------------stset end, origin(begin) fail (dest) ... streg sex coh2 coh3, dist(exp) nohr ... No. of subjects = 973 Number of obs = 973 No. of failures = 814 Time at risk = 17922 LR chi2(3) = 77.95 Log likelihood = –1535.4299 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] ---------------------------------------------------------------------------------------------------------------------sex | .1829529 .0702247 2.61 0.009 .045315 .3205909 coh2 | .3893425 .1513793 2.57 0.010 .0926445 .6860405 coh3 | .8937017 .1479246 6.04 0.000 .6037748 1.183629 _cons | –3.782796 .1466178 –25.80 0.000 –4.070162 –3.495431 ----------------------------------------------------------------------------------------------------------------------
En segundo lugar, se vuelve a utilizar el comando stset, pero esta vez se especifica que el acontecimiento que provoca el fin del episodio es la transición a la inactividad, codificada como valor 2 de la variable dest. Se puede así apreciar que para esta transición el número de acontecimientos es igual a 80. Finalmente, estimamos el mismo modelo utilizado para la transición a la ocupación. Es interesante notar que los efectos de las variables independientes tienen signos opuestos en los dos modelos. Los varones y los miembros de la cohorte más joven tienen, por un lado, una mayor propensión a realizar la transición a la ocupación y, por otro, una menor propensión a pasar a la inactividad. Es importante subrayar que aunque estimados por separado, los dos modelos forman parte del mismo modelo de riesgo competitivo. Por lo tanto, el logaritmo de la verosimilitud del modelo de riesgo competitivo es igual a la suma de los logaritmos de la verosimilitud de cada modelo. Este ejemplo ofrece una clara ilustración de lo importante que es definir con cautela el espacio de los estados de un análisis de historias de acontecimiento. Si no se hubieran separado los dos destinos,
94
CUADERNOS METODOLÓGICOS 38
las estimaciones habrían resultado sesgadas. Esto se puede comprobar si se consideran los resultados del último modelo del cuadro 4.5, en el que las transiciones a la ocupación y a la inactividad se tratan como equivalentes45. O, dicho con otras palabras, se estudia la transición del desempleo sin interesarse por el tipo de destino. Se puede así comprobar que los resultados del último modelo confunden dos procesos opuestos. El procedimiento ilustrado para las transiciones a la ocupación y la inactividad ofrece un ejemplo de cómo es posible comprobar de un modo formal que dos o más condiciones son empíricamente distintas. Se trata de mostrar que los procesos que regulan las transiciones entre estas condiciones son diferentes (Flinn y Heckmann, 1983)46. En general, en el modelo agregado se impone la restricción de que los efectos de las variables independientes sobre la transición a la ocupación y a la inactividad sean idénticos. Así, el modelo agregado es más simple que el de riesgos competitivos. Para comprobar formalmente que dos o más condiciones son empíricamente distintas se puede utilizar el test propuesto por Narandranathan y Stewart (1991)47: (4.11) test SN = 2[ln(Lriesgo competitivo) – ln(Lagregado) –
Σn j
j
ln(pj)]
donde Lriesgo competitivo es el logaritmo de la verosimilitud del modelo de riesgos competitivos y es igual a la suma del logaritmo de la verosimilitud de los distintos modelos que componen el modelo competitivo (dos en nuestro ejemplo), Lagregado es el logaritmo de la verosimilitud del modelo agregado, nj es el número de acontecimientos para el 45
En la opción failure no se han especificado valores para la variable dest. Stata interpreta que acaban con un acontecimiento todos los episodios que tienen un valor de la variable dest mayor que 0. 46
Este procedimiento ha sido utilizado para evaluar la validez empírica de la distinción entre las condiciones de ama de casa y desempleada (Bernardi, 1999: pp. 146-151) y diferentes condiciones de desempleo asociadas a un cambio en la definición de las mismas (Garrido y Toharia, 2004). 47
Alguien se podría preguntar por qué no se utiliza un test del LR ya que los dos modelos parecen ser encapsulados. El problema tiene que ver con el procedimiento de estimación de la función de máxima verosimilitud ( Jenkins, 2004: p. 75). Para utilizar el test del LR es necesario estimar conjuntamente el modelo de riesgos competitivos, opción ésta que no está disponible en Stata (auque sí en TDA), y especificar, entonces, otro modelo con los vínculos de igualdad entre los parámetros de las distintas transiciones. Véase, por ejemplo, Flinn y Heckmann (1983).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
95
Σ
estado de destino j, pj = nj / jnj y j = 1,.., J corresponde a los estados de destino. Si el test es estadísticamente significativo se puede concluir que la estimación de los efectos diferentes de las mismas variables para cada estado de destino mejora el ajuste del modelo y que, por lo tanto, la agregación de los estados de destino no es legítima. En otras palabras, se puede concluir que los estados de destino identifican dos condiciones empíricamente distintas. En el caso de los modelos del cuadro 4.5 Lriesgo competitivo = –1765, Lagregado = –1535, jnj ln(pj) = 80*ln(80 / 814) + 734*ln(734 / 814) = –194. Por lo tanto, el test SN es igual a:
Σ
SN = 2(–1765 + 1535 + 194) = 72 El test SN se distribuye como un Chi-cuadrado con grados de libertad igual al número de parámetros adicionales del modelo de riesgos competitivos respecto al modelo agregado. En el ejemplo el modelo de riesgos competitivos contiene 8 parámetros y el modelo agregado 4. Por lo tanto, los grados de libertad del test SN son 4. La probabilidad asociada a un Chi-cuadrado igual a 72 con 4 grados de libertad es inferior a p = 0.05. Así se puede rechazar la hipótesis nula de que las diferencias entre los efectos de las mismas variables sobre la tasa de transición a la ocupación y a la inactividad sea debida al azar, y concluir que la evidencia empírica disponible sugiere que los procesos que regulan las dos transiciones son diferentes.
96
CUADERNOS METODOLÓGICOS 38
Ejercicios del capítulo 4
Ejercicio 4.1 Utiliza el fichero strike.dta. Estima un modelo exponencial con el nivel de producción industrial como variable independiente. Interpreta el efecto de la producción industrial sobre el fin de las huelgas. Prueba a utilizar diferentes distribuciones para la dependencia temporal de la tasa de transición: Weibull, Gompertz y log-logística. Interpreta los resultados para estos modelos y calcula el test de AIC.
Ejercicio 4.2 Utiliza el fichero marriage.dta y estima un modelo exponencial con las variables género y nivel de educación. Interpreta los coeficientes estimados para estas variables. Estima después un modelo de Cox y comprueba el supuesto de proporcionalidad. Interpreta los resultados.
5 Variables que se modifican en el tiempo y el método de partición del episodio
En los capítulos anteriores hemos argumentado que la mayor ventaja del AHA, en comparación con las técnicas de análisis trasversal, es la posibilidad que éste ofrece para definir variables independientes que se modifican en el tiempo. Gracias a ello es posible investigar el impacto del cambio de una variable independiente en la propensión de que se verifique el acontecimiento de interés. Si consideramos el ejemplo de la duración de los gobiernos, podríamos estar interesados en estudiar cómo las variaciones mensuales o anuales de algunos indicadores de las condiciones económicas (inflación, tasa de desempleo, etc.) afectan al riesgo de caída de los gobiernos. En el estudio de la transición al primer matrimonio, podríamos investigar cómo los cambios en las carreras laborales, tales como la consecución del primer trabajo o el paso de un contrato temporal a uno fijo, influyen en la probabilidad de casarse. Finalmente, analizando la salida del desempleo, podríamos comprobar si empezar un curso de formación profesional, o la aproximación de la fecha en la cual acaba el subsidio de desempleo, tienen algún efecto sobre la transición a la ocupación. En la primera sección de este capítulo explicaremos la lógica del procedimiento de partición del episodio (episode splitting), que permite la construcción de variables que se modifican en el tiempo. A continuación, presentaremos algunas aplicaciones de este procedimiento utilizando Stata. En particular, mostraremos cómo es posible especificar el modelo exponencial constante a intervalos.
5.1. El procedimiento de partición del episodio Consideremos el siguiente ejemplo. Estamos interesados en analizar cómo influye la entrada en el mercado laboral en la probabilidad de
98
CUADERNOS METODOLÓGICOS 38
casarse. Por lo tanto, nos interesa definir una variable que se modifica en el tiempo que es igual a 0 si el sujeto no está empleado, y cambia al valor 1 en cuanto el sujeto empieza a trabajar. Una vez definida esta variable que se modifica en el tiempo, podemos estudiar qué impacto tiene pasar del valor 0 (no estar empleado) al valor 1 (estar empleado) sobre la probabilidad de casarse. El problema ahora es cómo reorganizar nuestro fichero de datos para que sea posible definir la variable relativa a la condición ocupacional que se modifica en el tiempo. En la tabla 5.1 se presenta la información de la fecha del matrimonio y de la entrada en el mercado de trabajo para cuatro sujetos del fichero marriage.dta. Los sujetos con el número de identificación 1 y 2 han empezado a trabajar antes de casarse. El episodio del sujeto con el número de identificación 44 está censurado a la derecha. Dicho de otro modo, este sujeto no está casado en el momento de la entrevista (mes de siglo igual a 982) pero ya ha empezado a trabajar (mes del siglo igual a 896). Finalmente, el sujeto con el número de identificación 49 ha empezado a trabajar después de haberse casado.
TABLA 5.1 TRANSICIÓN AL MATRIMONIO Y ENTRADA EN MERCADO DE TRABAJO: EJEMPLO DE FICHERO DE DATOS POR EPISODIOS
Fecha de inicio
Fecha de fin
Estado de destino
Momento del cambio de la variable respecto al cual se subdivide el episodio
Número de identificación
Fecha del decimocuarto cumpleaños
1
519
678
1
555
Fecha del Acontecimiento matrimonio
Fecha de entrada en el mercado de trabajo
2
457
761
1
593
45
792
982
0
896
49
765
954
1
975
La lógica del procedimiento de partición del episodio para construir variables que se modifican en el tiempo consta de dos pasos. En el primero, se subdividen los episodios analizados en correspondencia con la fecha en la que ocurre el cambio en la variable independiente de interés.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
99
En el segundo, basándose en la nueva estructura del fichero de datos obtenida con la subdivisión de los episodios, se define la variable que se modifica en el tiempo. Por lo que respecta al primer paso, el episodio original se subdivide en dos subepisodios siempre que el cambio de la variable independiente (en este caso, la entrada en el mercado de trabajo) ocurra entre la fecha de inicio y de fin del episodio (en este caso, el decimocuarto cumpleaños y la fecha del matrimonio). El primer subepisodio tiene la fecha de inicio igual a la fecha de inicio del episodio original, la fecha de fin igual a la fecha en la que ocurre el cambio de la variable independiente, y el estado de destino se considera censurado a la derecha. El segundo subepisodio tiene la fecha de inicio igual a la fecha del cambio de la variable independiente, la fecha de fin igual a la fecha de fin del episodio original, y el estado de destino igual al estado de destino del episodio original. El resultado del procedimiento de partición del episodio para nuestro ejemplo se muestra en la tabla 5.2.
TABLA 5.2 TRANSICIÓN AL MATRIMONIO Y ENTRADA EN MERCADO DE TRABAJO: RESULTADO DEL PROCEDIMIENTO DE PARTICIÓN DEL EPISODIO
Número de identificación
Nueva fecha Nueva fecha Nuevo estado de inicio de fin de destino
Momentos del cambio
Condición ocupacional
1
519
555
0
555
0
1
555
678
1
555
1
2
457
593
0
593
0
2
593
761
1
593
1
45
792
896
0
896
0
45
896
982
0
896
1
49
765
954
1
975
0
Se puede apreciar que para el sujeto con el número de identificación 1 tenemos ahora dos subepisodios. El primero de ellos acaba en la fecha de entrada en el mercado de trabajo y está censurado a la derecha. El segundo empieza en la fecha de entrada en el mercado de trabajo y tiene el estado de destino igual al estado de destino del episodio original. También se observa que el episodio del sujeto con el número de identificación igual a 49 no ha sido subdividido. Esto es así porque la fecha de
100
CUADERNOS METODOLÓGICOS 38
entrada en el mercado de trabajo (mes de siglo 975) no se encuentra entre las fechas de inicio y fin del episodio. Una vez que se han subdividido los episodios, se puede utilizar la nueva estructura del fichero para construir la variable independiente que se modifica en el tiempo. En este caso, se trata de definir la variable condición ocupacional con valor 1 si la fecha de entrada en el mercado de trabajo es menor o igual a la nueva fecha de inicio, o con valor 0 si no lo es. Dicho con otras palabras, la nueva estructura del fichero nos permite definir una variable con valor 0 antes de la fecha de entrada en el mercado de trabajo y con valor 1 después. Fijémonos de nuevo en el sujeto con el número de identificación 1. Entre los momentos 519 y 555, este sujeto no está todavía ocupado y por lo tanto la variable condición ocupacional asume el valor 0 en el primer subepisodio. El sujeto empieza a trabajar en el momento 555. La partición del episodio en dos subepisodios nos ofrece la posibilidad de que para el segundo subepisodio la variable condición ocupacional sea igual a 1. Por otro lado, para el sujeto con el número de identificación igual a 49 (que ha entrado en el mercado de trabajo después de casarse) en el arco temporal considerado para analizar la transición al matrimonio, la variable condición ocupacional asume siempre el valor 0. Como última consideración de carácter general, se puede subrayar que con el procedimiento de subdivisión de los episodios aumenta el número de filas del fichero. Se podría, por lo tanto, objetar que estamos manipulando y creando datos de una manera artificial. Para disipar esta duda valen dos observaciones. En primer lugar, el número total de acontecimientos no cambia. Además, a la hora de definir las duraciones que se quieren analizar, es importante precisar que los subepisodios pertenecen a un mismo episodio original. Considerar, por ejemplo, los dos subepisodios del sujeto con el número de identificación igual a 1 como independientes, el primero con duración 555-519 y el segundo con duración 678-555, llevaría a una estimación sesgada. Esto no ocurre si se especifica que el segundo subepisodio es una continuación del primero. En términos técnicos esto se consigue definiendo el segundo subepisodio como truncado a la izquierda.
5.2. El procedimiento de partición del episodio y las variables que se modifican en el tiempo con Stata En Stata el comando para realizar el procedimiento de la subdivisión
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
101
del episodio es stsplit. Antes de utilizar este comando es necesario haber dado formato de AHA a los datos, mediante el comando stset utilizando la opción id(varname). La opción id(varname) es indispensable porque permite identificar los subepisodios que pertenecen al mismo episodio original. Consideremos ahora dos tipos de sintaxis para el comando stsplit que permiten gestionar datos con estructuras diferentes y definir distintos tipos de variables que se modifican en el tiempo: stsplit newvarname, {at(numlist) | every(#)} stsplit newvarname, after(spec) {at(numlist) | every(#)}
Sintaxis 1 Sintaxis 2
Por regla general newvarname es el nombre de la variable que se modifica en el tiempo que se quiere definir mediante el procedimiento de partición del episodio. La sintaxis 1 se utiliza para subdividir el eje temporal en función de puntos precisos del tiempo especificados con la opción at() o con la opción every(). Por ejemplo, si se especifica at(20 50 100), Stata subdivide los episodios en función de los puntos del tiempo indicados y crea cuatro subepisodios con tiempo de inicio y de fin 0-20, 20-50, 50-100 y 100+, respectivamente. Si se usa la opción every(12), Stata subdivide los episodios cada 12 unidades de tiempo. La sintaxis 2 se utiliza cuando se quiere subdividir el episodio en función del punto en el tiempo en el que cambia una variable independiente. Consideremos el ejemplo discutido en la sección anterior. Para subdividir el episodio de la transición al matrimonio en función de la fecha de entrada en el mercado de trabajo se puede utilizar la opción after(fecha de entrada en el mercado de trabajo). Con las opciones at y every se puede especificar el punto en el tiempo después de la entrada en el mercado de trabajo en función del cual se quiere subdividir el episodio. Por ejemplo, si se utiliza la combinación de opciones after(fecha de entrada en el mercado de trabajo) y at(0), los episodios serán subdivididos precisamente en la fecha de entrada en el mercado de trabajo. En el cuadro 5.1 se presentan los comandos que permiten realizar una partición de los episodios de transición al primer matrimonio en función de la entrada en el mercado de trabajo, así como definir una variable dicotómica que se modifica en el tiempo y asume el valor igual a 0 antes de la entrada en el mercado de trabajo y el valor igual a 1 des-
102
CUADERNOS METODOLÓGICOS 38
pués de la misma.
CUADRO 5.1 EJEMPLO DE PARTICIÓN DE LOS EPISODIOS DE TRANSICIÓN AL MATRIMONIO EN FUNCIÓN DE LA FECHA DE ENTRADA EN EL MERCADO DE TRABAJO (BLOQUE DE COMANDOS 5.1 EN CAP5.DO)
use marriage.dta, clear stset dmarr, id(id) fail(event) origin(time age14) id: id failure event: event != 0 & event chi2 = 0.1158 ---------------------------------------------------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P > |z| [95 % Conf. Interval] -----------------------|---------------------------------------------------------------------------------------------sex | .79499 .11558 –1.58 0.115 .5978735 1.057095 ---------------------------------------------------------------------------------------------------------------------use marriage.dta, clear stset dmarr, fail(event) origin(time age14) ... Exponential regression -- log relative-hazard form No. of subjects = 201 No. of failures = 190 Time at risk = 28251
Number of obs =
201
LR chi2(1) = 2.47 Log likelihood = –228.85999 Prob > chi2 = 0.1158 ---------------------------------------------------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P > |z| [95 % Conf. Interval] -----------------------|---------------------------------------------------------------------------------------------sex | .79499 .11558 –1.58 0.115 .5978735 1.057095 ----------------------------------------------------------------------------------------------------------------------
106
CUADERNOS METODOLÓGICOS 38 CUADRO 5.3
DEFINICIÓN DE LA VARIABLE EDAD QUE SE MODIFICA EN EL TIEMPO EN EL FICHERO MARRIAGE.DTA (BLOQUE DE COMANDOS 5.1 EN CAP5.DO)
stset dmarr, id(id) fail(event) origin(time age14) ... stsplit agetv, every(12) (2244 observations (episodes) created) stdes ... |----------------------- per subject -----------------------| Category total mean min median max ---------------------------------------------------------------------------------------------------------------------no. of subjects 201 no. of records 2445 12.16418 4 10 37 (first) entry time 0 0 0 0 (final) exit time 140.5522 46 117 437 subjects with gap 0 time on gap if gap 0 . . . . time at risk 28251 140.5522 46 117 437 failures 190 .9452736 0 1 1 ---------------------------------------------------------------------------------------------------------------------list id age14 dmarrorg _t0 _t _d agetv if id==1 |id==45, nod nol noob clean id 1 1 1 1 1 1 1 1 1 1 1 1 1 1 45 45 45 45 45 45 45 45 45 45 45 45 45 45 45 45
age14 dmarrorg 519 678 519 678 519 678 519 678 519 678 519 678 519 678 519 678 519 678 519 678 519 678 519 678 519 678 519 678 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982 792 982
_t0 0 12 24 36 48 60 72 84 96 108 120 132 144 156 0 12 24 36 48 60 72 84 96 108 120 132 144 156 168 180
_t 12 24 36 48 60 72 84 96 108 120 132 144 156 159 12 24 36 48 60 72 84 96 108 120 132 144 156 168 180 190
_d 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
agetv 0 12 24 36 48 60 72 84 96 108 120 132 144 156 0 12 24 36 48 60 72 84 96 108 120 132 144 156 168 180
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
107
ble se incrementa en 12 unidades cada año desde los 14 años, que fijamos como iguales a 0, hasta el matrimonio52. Para definir esta variable se puede utilizar la opción every(12) del comando stsplit. En el cuadro 5.3 se muestran los resultados del procedimiento. Con el comando stsplit se crea la variable agetv que se modifica en el tiempo. Como resultado del procedimiento de subdivisión de los episodios el número de observaciones se ha incrementado hasta 2.445 unidades, aunque el número de acontecimientos sigue siendo igual a 190. Por ejemplo, en el caso del sujeto con el número de identificación 1, el episodio original con fecha de inicio igual a 519 y fecha de fin igual a 678 ha sido subdividido en 14 subepisodios, cada 12 meses. La variable agetv se incrementa en 12 unidades cada año. Finalmente, la variable _d, que indica cómo acaba el subepisodio, es igual a 0 con la excepción del último subepisodio, al término del cual ocurre el acontecimiento. En el caso del sujeto con el número de identificación 45, la variable _d asume el valor 0 también en el último subepisodio, ya que el episodio original estaba censurado a la derecha. Cabe señalar que cuando sea necesario definir más de una variable que se modifica en el tiempo, el orden con el que se subdividen los episodios y se construyen las variables no importa. Dicho de otra forma, se trata de utilizar el comando stsplit en sucesión y definir paso a paso las variables que se modifican en el tiempo, siendo indiferente el orden con el que se definen las variables.
5.3. El modelo exponencial constante a intervalos En el cuarto capítulo hemos presentado el modelo exponencial constante a intervalos como una generalización del modelo exponencial. Con respecto a este último modelo, el eje temporal se subdivide en varios intervalos y se supone que la tasa de transición es constante en cada intervalo pero puede variar entre ellos. Como ya se ha precisado, q(t) consiste de una serie de variables dicotómicas d1, d2, …....dn con d1 = 1 en el intervalo temporal t0-t1, d 2 = 1 en el intervalo temporal t 1-t2, .......dn = 1 en el intervalo temporal tn-1-t n. En el caso de este modelo a diferencia de lo que ocurre con los otros modelos paramétricos, el investigador tiene que elegir el número y la extensión de los intervalos en los que dividir el eje temporal del
108
CUADERNOS METODOLÓGICOS 38
proceso, pero no tiene que formular ningún supuesto sobre la forma funcional de q(t). El modelo exponencial constante a intervalos resulta así particularmente flexible y conveniente si no disponemos de una teoría clara sobre la pauta de dependencia temporal del proceso. Por un lado, comparte la característica del modelo de Cox de no requerir ningún supuesto especifico sobre q(t), y, por otro, añade la ventaja de ofrecer una estimación directa de q(t) a través de los coeficientes de las variables dicotómica d1, d2, ….dn. La elección del número y extensión de los intervalos puede depender de consideraciones de tipo teórico cuando se dispone de algunas hipótesis precisas sobre el efecto de un intervalo particular de tiempo, o de tipo empírico con el fin de conseguir para cada intervalo un número suficiente de acontecimientos. Este tipo de modelo es el más frecuente en la literatura, sobre todo en aquellas aplicaciones de AHA que siguen el enfoque que en el cuarto capítulo hemos denominado «sustantivo». En estas aplicaciones, la atención principal se dirige a la estimación de los efectos de las variables independientes, con un énfasis particular en la especificación de las variables que se modifican en el tiempo. De todas formas, este modelo es muy útil para contrastar hipótesis relativas a la forma de q(t). Para mostrar un ejemplo de la utilidad del modelo exponencial constante a intervalos, podemos volver a considerar el estudio de las duraciones de los gobiernos. La conclusión principal del análisis llevado a cabo en el cuarto capítulo, con la aplicación de diferentes modelos paramétricos, es que el modelo Weibull presenta el mejor ajuste a los datos. Esto sugiere una forma de relación monotónica creciente (ya que el parámetro p del modelo es mayor que 1) entre el riesgo de caída de un gobierno y su duración. Por otro lado, también hemos señalado que si no nos limitamos a los criterios estrictamente estadísticos de comparación de la bondad de ajuste de los modelos, los coeficientes del modelo log-logístico apuntan a una dependencia temporal del riesgo de disolución de los gobiernos con forma de campana. En un caso come éste, conviene estimar un modelo exponencial constante a intervalos, ya que proporciona una estimación directa de los distintos intervalos temporales. Para estimar con Stata un modelo exponencial constante a intervalos es necesario subdividir el episodio analizado en los intervalos de tiempo que se quieren considerar y crear así las variables dicotómicas d1, d2,
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
109
CUADRO 5.4 MODELO EXPONENCIAL CONSTANTE A INTERVALOS PARA LAS DURACIONES DE LOS GOBIERNOS (BLOQUE DE COMANDOS 5.4 EN CAP5.DO)
use cabinet.dta, clear generate ID=_n generate duratorg = durat stset durat, fail (cieptw==1) id(ID) ... stsplit interval, at(6 12 18 24 30) (687 observations (episodes) created) ta interval, ge(e) ---------------------+------------------------------------------interval | Freq. Percent Cum. ---------------------+------------------------------------------0 | 314 31.37 31.37 6 | 230 22.98 54.35 12 | 169 16.88 71.23 18 | 126 12.59 83.82 24 | 94 9.39 93.21 30 | 68 6.79 100.00 ---------------------+-----------------------------------------Total | 1,001 100.00 list ID duratorg durat cieptw _t0 _t _d e1 e2 e3 e4 e5 e6 if spain==1,nod nol noob clean ID 275 275 275 275 276 276 276 276 277 277 277 277 277 277
duratorg 22 22 22 22 22 22 22 22 43 43 43 43 43 43
durat 6 12 18 22 6 12 18 22 6 12 18 24 30 43
cieptw . . . 1 . . . 1 . . . . . 0
_t0 0 6 12 18 0 6 12 18 0 6 12 18 24 30
_t _d 6 0 12 0 18 0 22 1 6 0 12 0 18 0 22 1 6 0 12 0 18 0 24 0 30 0 43 0
e1 1 0 0 0 1 0 0 0 1 0 0 0 0 0
e2 e3 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0
e4 e5 e6 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1
. streg ident numst2 crisis polar e2 e3 e4 e5 e6, dist(exp) nohr ... Exponential regression -- log relative-hazard form No. of subjects = 314 Number of obs = No. of failures = 266
1001
110 Time at risk
CUADERNOS METODOLÓGICOS 38 =
5789.5
LR chi2(1) = 124.92 Log likelihood = –440.44227 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] ------------- --------+---------------------------------------------------------------------------------------------ident | –.5342957 .1136039 –4.70 0.000 –.7569553 –.3116362 numst2 | –.6297557 .1359058 –4.63 0.000 –.8961263 –.3633852 crisis | –.0084679 .0023607 –3.59 0.000 –.0130948 –.003841 polar | .0265121 .0067945 3.90 0.000 .013195 .0398292 e2 | .1828031 .1694491 1.08 0.281 -.149311 .5149172 e3 | .2414928 .190646 1.27 0.205 –.1321664 .615152 e4 | .3817597 .2175085 1.76 0.079 –.0445491 .8080685 e5 | .5962245 .2336835 2.55 0.011 .1382134 1.054236 e6 | –.0196096 .2574966 –0.08 0.939 –.5242937 .4850745 _cons | –1.986657 .3437753 –5.78 0.000 –2.660444 –1.31287 ----------------------------------------------------------------------------------------------------------------------
….dn. En el cuadro 5.4 se presentan los comandos utilizados en el estudio de las duraciones de los gobiernos. En este punto resultan necesarias algunas aclaraciones. En primer lugar se define una variable número de identificación ID = _n, que es igual al número progresivo que ocupa cada observación en el fichero53 y una variable duratorg que es igual a la duración original del episodio. A continuación se especifica la opción id(ID) en el comando stset. En el comando stsplit se definen seis intervalos de tiempo con la opción at(): el intervalo de 0 a 6 meses, de 6 a 12, de 12 a 18, de 18 a 24, de 24 a 30 y más de 30. De este modo, la variable interval que se modifica en el tiempo asume valor 0 en el primer intervalo, 6 en el segundo, 12 en el tercero y así sucesivamente. Para definir las variables dicotómicas que identifican a cada intervalo, se utiliza el comando ta interval, ge(e). Con este comando se crean seis variables dicotómicas e1, e2, e3 .., e6. La variable e1 que es igual a 1 en el intervalo de 0 a 6 meses y 0 en los demás; e2 que es igual a 1 en el intervalo de 6 a 12 meses y 0 en los demás; e3 que es igual a 1 en el intervalo de 12 a 18 meses y 0 en los demás, etc. Con el comando list se muestra el resultado de la subdivisión de los episodios en los intervalos de tiempo elegidos y de la creación de las seis variables dicotómicas para las tres observaciones relativas a la duración de los gobiernos españoles. 53 Véase el manual de Stata sobre las variables de sistema cuyo nombre empieza con el símbolo _, como por ejemplo la variable _n.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
111
Finalmente, estimamos un modelo de la tasa de transición exponencial constante a intervalos. Para ello, es suficiente estimar un modelo exponencial añadiendo entre las variables independientes las variables dicotómicas relativas a los intervalos de tiempo. Los coeficientes de estas últimas variables indican que la tasa de disolución de los gobiernos aumenta con el paso del tiempo hasta llegar a su máximo en el quinto intervalo, entre los 18 y 30 meses de duración, es decir aproximadamente a mitad de la legislatura, y después declina y vuelve a los valores del inicio de la legislatura. Como se puede apreciar en este ejemplo, el modelo exponencial constante a intervalos nos ofrece una imagen más clara y directa de la forma de dependencia temporal de la tasa de transición respecto a los otros modelos paramétricos considerados. El modelo es menos parsimonioso desde el punto de vista estadístico, ya que utiliza cinco parámetros para especificar el efecto del tiempo, o sea la función q(t), y el ajuste del modelo si se considera el test AIC es peor que el de los otros modelos presentados en el cuarto capítulo. Sin embargo, la información sobre el proceso que nos proporciona parece mucho más clara y precisa. Podemos así concluir que el riesgo de disolución de los gobiernos recién formados es muy bajo, va creciendo progresivamente hasta llegar a un máximo coincidiendo con la mitad de la legislatura, pero una vez superado este umbral el riesgo vuelve a bajar.
5.4. El test de proporcionalidad para el modelo exponencial constante a intervalos: el modelo exponencial constante a intervalos con efecto período El modelo exponencial constante a intervalos pertenece a la familia de modelos paramétricos de tipo proporcional. La manera de comprobar el supuesto de proporcionalidad es muy directa. Se trata de especificar efectos de interacción entre las variables independientes y las variables dicotómicas relativas a los intervalos de tiempo en los cuales se han subdividido los episodios analizados (las duraciones de los gobiernos en el ejemplo anterior). Con este tipo de modelo, se permite que los efectos de las variables independientes varíen de un intervalo de tiempo a otro. Por ejemplo, se puede suponer que una variable independiente tiene un efecto positivo sobre la tasa de transición al principio del intervalo temporal y que dicho efecto se va reduciendo con el paso del tiempo.
112
CUADERNOS METODOLÓGICOS 38
En el cuadro 5.5 se presentan los comandos y los resultados de un modelo exponencial constante a intervalos con efecto período. Se especifican las interacciones entre las seis variables dicotómicas relativas a los intervalos temporales y las variables independientes consideradas para explicar el riesgo de disolución de los gobiernos. En general, los resultados confirman las conclusiones a las que habíamos llegado aplicando el test de proporcionalidad del modelo de Cox en el cuarto capítulo. Si se excluye el efecto de la variable relativa a la comCUADRO 5.5 MODELO EXPONENCIAL CONSTANTE A INTERVALOS PARA LAS DURACIONES DE LOS GOBIERNOS (BLOQUE DE COMANDOS 5.5 EN CAP5.DO)
ge ident2 ge ident3 ge ident4 ge ident5 ge ident6
= = = = =
ident*e2 ident*e3 ident*e4 ident*e5 ident*e6
ge numst22 ge numst23 ge numst24 ge numst25 ge numst26
= = = = =
numst2*e2 numst2*e3 numst2*e4 numst2*e5 numst2*e6
ge crisis2 ge crisis3 ge crisis4 ge crisis5 ge crisis6
= = = = =
crisis*e2 crisis*e3 crisis*e4 crisis*e5 crisis*e6
ge polar2 ge polar3 ge polar4 ge polar5 ge polar6
= = = = =
polar*e2 polar*e3 polar*e4 polar*e5 polar*e6
. streg ident numst2 crisis polar e2 e3 e4 e5 e6 ident2 ident3 ident4 ident5 ident6 numst22 numst23 numst24 numst25 numst26 crisis2 crisis3 crisis4 crisis5 crisis6 polar2 polar3 polar4 polar5 polar6, dist(exp) nohr ...
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
113
---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P>|z| [95% Conf. Interval] -----------------------+ -------------------------------------------------------------------------------------------ident | –.8759695 .2175796 –4.03 0.000 –1.302418 –.4495213 numst2 | –.8258616 .2305579 –3.58 0.000 –1.277747 –.3739765 crisis | –.0103502 .00457 –2.26 0.024 –.0193072 –.0013933 polar | .0213577 .0114809 1.86 0.063 –.0011445 .0438599 e2 | –.7524671 .9101384 –0.83 0.408 –2.536306 1.031371 e3 | –1.795165 1.000711 –1.79 0.073 –3.756522 .1661926 e4 | –.1854184 1.140547 –0.16 0.871 –2.42085 2.050013 e5 | .6430993 1.406907 0.46 0.648 –2.114388 3.400587 e6 | –1.442819 1.434267 –1.01 0.314 –4.253931 1.368293 ident2 | .4145574 .3190625 1.30 0.194 –.2107936 1.039908 ident3 | .6476805 .3470176 1.87 0.062 –.0324615 1.327822 ident4 | .2313429 .3935456 0.59 0.557 –.5399923 1.002678 ident5 | .2636427 .4696361 0.56 0.575 –.6568272 1.184112 ident6 | .7084266 .47716 1.48 0.138 –.2267898 1.643643 numst22 | .4273493 .3719012 1.15 0.251 –.3015636 1.156262 numst23 | .6136393 .4104232 1.50 0.135 –.1907754 1.418054 numst24 | .182865 .4697803 0.39 0.697 –.7378875 1.103617 numst25 | -.178976 .4883589 –0.37 0.714 –1.136142 .7781898 numst26 | –.1131988 .568097 –0.20 0.842 –1.226648 1.000251 crisis2 | .005201 .0062826 0.83 0.408 –.0071127 .0175148 crisis3 | .0065782 .0065555 1.00 0.316 –.0062704 .0194268 crisis4 | –.0005088 .00888 –0.06 0.954 –.0179133 .0168957 crisis5 | –.0170179 .0143652 –1.18 0.236 –.0451733 .0111374 crisis6 | .0075676 .0086872 0.87 0.384 –.0094591 .0245942 polar2 | –.0030445 .0178427 –0.17 0.865 –.0380155 .0319266 polar3 | .0278146 .0193737 1.44 0.151 –.0101572 .0657864 polar4 | .0126162 .0239545 0.53 0.598 –.0343337 .0595662 polar5 | –.0057954 .0334288 –0.17 0.862 –.0713147 .0597239 polar6 | .0014734 .0329258 0.04 0.964 –.0630599 .0660067 _cons | –1.24115 .5747622 –2.16 0.031 –2.367664 –.1146372 ----------------------------------------------------------------------------------------------------------------------
plejidad del contexto de negociaciones (ident) en el tercer intervalo de tiempo considerado, ninguna de la interacciones entre las variables independientes y el tiempo resulta estadísticamente significativa. Por lo tanto, con la posible excepción de la variable ident, para la cual hay algunos indicios que sugieren que el efecto positivo aumenta con el paso del tiempo, no se identifican pautas claras de no proporcionalidad en los efectos de las variables independientes. Sin embargo, cabe precisar que en este ejemplo se han estimado todas las interacciones entre las variables independientes y el tiempo. A pesar de que éste es el procedimiento estadístico correcto para comprobar el supuesto de proporcionalidad, conviene advertir que su aplicación rutinaria, sobre todo cuando el
114
CUADERNOS METODOLÓGICOS 38
número de variables independientes es grande y el de acontecimientos pequeño, proporcionará estimaciones poco robustas y de difícil interpretación54. Por lo tanto, es recomendable realizar el test sólo para algunas variables para las que existen razones teóricas que sugieran una posible no proporcionalidad de los efectos. Dicho con otras palabras: más allá de un mero problema estadístico que requiere un test global para todas las variables independientes, la cuestión del supuesto de proporcionalidad remite a una reflexión teórica sobre los posibles mecanismos que pueden ser responsables de la no constancia en el tiempo de los efectos de algunas variables independientes. Merece la pena realizar una última reflexión que concierne a toda la familia de los modelos proporcionales. La cuestión de la proporcionalidad de los efectos está relacionada con el problema de los efectos «tiempo» y «probabilidad» discutida brevemente al final del tercer capítulo. Dicho problema alude al interrogante de si el efecto de una variable expresa la probabilidad de que suceda un acontecimiento, o al tiempo, es decir, la rapidez o el retraso con el cual dicho acontecimiento sucede (Bernardi, 2001). En el tercer capítulo se ha mostrado cómo una comparación de las funciones de supervivencia permite distinguir si, para un grupo de la población comparado con otro, el acontecimiento de interés ocurre con mayor frecuencia o si, alternativamente, sucede más bien antes que después. Ahora es posible reinterpretar este problema en términos de proporcionalidad y no proporcionalidad de los efectos de las variables independientes. Un efecto «tiempo» se manifiesta cuando encontramos que el efecto de la variable de interés no es constante a lo largo del intervalo de tiempo analizado. Si volvemos a considerar las funciones de supervivencia presentadas al final del tercer capítulo en la figura 3.2, el supuesto de proporcionalidad sólo valdría para el proceso B. Sólo en este proceso, que hemos etiquetado como «probabilidad», el efecto de la variable independiente es constante en el intervalo de tiempo considerado. Consideremos ahora la tabla 5.3 en la que se presentan los coeficientes de un modelo exponencial constante a intervalos y de un modelo exponencial constante a intervalos con efecto período para los cuatros procesos representados en las funciones de supervivencia de la 54 Por esta razón en Cap5.do el modelo exponencial constante a intervalos se estima también sólo con los efectos período de la variable ident. 55 Los comandos para estimar los modelos de la tabla 5.3 se encuentran en el fichero tabla5_3.do.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
115
figura 3.255. Para estimar el modelo exponencial constante a intervalos, el intervalo temporal ha sido dividido en dos subintervalos, el primero desde el punto en tiempo 0 hasta el punto 250, y el segundo desde 250 hasta 500. El resultado más interesante de este ejercicio es que el efecto de la variable dicotómica «género» en el modelo exponencial constante a intervalos (ECI) es negativo y estadísticamente significativo para los cuatro procesos (véanse los coeficientes para los hombres en los modelos 1, 3, 5 y 7 de la tabla 5.3). A pesar de las profundas diferencias entre los procesos, el modelo ECI, y cualquiera de los modelos de la familia de los proporcionales, no permite distinguir entre ellos y produce estimaciones que son idénticas, por lo menos en lo que respecta al signo y la significatividad estadística de los coeficientes de la variable género. Este ejercicio alerta sobre el uso rutinario de los modelos de tipo proporcional y evidencia la necesidad de comprobar el supuesto de la proporcionalidad. Por otro lado, si se estiman los modelos exponenciales constantes a intervalo con efecto período (ECIEP) y se calcula el valor de la función de supervivencia al final del intervalo temporal considerado (el momento del tiempo igual a 500 en el ejemplo), es posible identificar correctamente los cuatro procesos diferentes56. En el modelo 2, por ejemplo, el efecto interacción entre la variable género y el tiempo es positivo y estadísticamente significativo. Esto significa que el efecto del género cambia de signo en el segundo intervalo. Para interpretar correctamente este efecto es necesario considerar que, una vez introducida la interacción entre la variable género y el segundo intervalo del tiempo, el efecto principal de la variable género expresa el efecto de la misma en el primer intervalo de tiempo. Por lo tanto la tasa de transición de los hombres es menor que la de las mujeres en el primer intervalo de tiempo (coeficiente del efecto principal de la variable género –1.45). Sin embargo, la relación cambia en el segundo intervalo, siendo la tasa de transición de los hombres mayor que la de las mujeres57. Además, los valores de las funciones de supervivencia para hombres y mujeres al final del intervalo de 56 57
Para profundizar en los resultados de la tabla 5.3, véase Bernardi (2001).
En este caso el coeficiente que expresa la comparación de hombres y mujeres en el segundo intervalo de tiempo es igual al efecto principal más el efecto interacción, es decir –1.45 + 2.21 = 0.76. En el fichero tabla5_3.do se presenta otra posibilidad para especificar la interacción entre el género y el tiempo mediante cuatro variables dicotómicas: mujer en el primer intervalo, mujer en el segundo intervalo (categoría de referencia), hombres en el primer intervalo, hombres en el segundo intervalo. Este modelo equivale al modelo 2, aunque los coeficientes de los efectos cambian porque la categoría de referencia es diferente. Nótese que el coeficiente de la variable «hombre en el segundo intervalo» es igual a 0.76.
116
CUADERNOS METODOLÓGICOS 38
tiempo son iguales (Gmujeres (500) = 0.17 y Ghombres(500) = 0.17). Por lo tanto, podríamos concluir que el género afecta al «tiempo» del acontecimiento: los hombres tardan más en realizar la transición pero al final lo hacen en la misma proporción que las mujeres. En el modelo 4 la interacción entre la variable género y el tiempo no es significativa. En este caso el efecto de la variable género es de tipo proporcional. En términos sustantivo eso indica que los hombres tienen menos propensión a realizar la transición que las mujeres y que este efecto es lo mismo en el primer y segundo intervalo del tiempo. Los resultados del modelo 6 muestran que no hay diferencias en el primer intervalo de tiempo (coeficiente de la variable género = –0.01), mientras que en el segundo la tasa de transición para los hombres es inferior a la de las mujeres. Es decir, la diferencia entre hombres y mujeres se manifiesta sólo a partir de un momento dado del tiempo. Por último, los resultados del modelo 8 son similares a los del modelo 2: el signo de la variable género cambia de un intervalo a otro. Sin embargo, al final del intervalo de tiempo, la proporción de hombres que no han realizado la transición es el doble de la de las mujeres. Es decir, en este caso la recuperación de los hombres es sólo parcial58. Para concluir con la cuestión de los efectos «tiempo» y «probabilidad», reformulada aquí en términos del supuesto de proporcionalidad, valgan las siguientes observaciones. En primer lugar, es importante tener claro a nivel teórico si el proceso que se quiere investigar se refiere a la probabilidad de que suceda un acontecimiento o a su ritmo. En segundo lugar, a nivel técnico, el análisis de las funciones de supervivencia y la estimación de las interacciones entre las variables de interés y algunas funciones del tiempo, permiten distinguir entre los diferentes tipos de procesos. Por último, en el caso de que se encuentre un efecto no proporcional, es decir, una interacción significativa de una variable con el tiempo, queda por explicar por qué el efecto se modifica a lo largo del tiempo. ¿Cómo se pueden, por ejemplo, explicar los resultados del modelo 6 de la tabla 5.3? ¿Por qué la diferencia se empieza a manifestar sólo a partir de un determinado momento del tiempo y no antes? ¿Se trata de algún proceso complejo de interacción entre las unidades de análisis o hay algún otro factor, asociado al género, que se modifica en el tiempo y determina 58
En este caso el coeficiente que expresa la comparación de hombres y mujeres en el segundo intervalo es igual a –2.65 + 3.45 = 0.80. La diferencia con respecto al modelo 2 está en que el efecto negativo para los hombres en el primer intervalo es mayor (–2.65 en el modelo 8, –1.45 en el modelo 2).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
117
el resultado observado? Estas preguntas nos llevan otra vez a la discusión desarrollada en el cuarto capítulo sobre la interpretación del tiempo en los modelos de AHA. Numerosos autores han argumentado que el tiempo en sí mismo no representa un factor causal (Zorn, 2000, y Blossfeld y Rohwer, 2001). A partir de este reconocimiento, no queda otra alternativa que esforzarse mucho y dedicarse con más empeño a la reflexión teórica sobre los posibles mecanismos dinámicos que están en la base de la variación en el efecto de la variable independiente a lo largo del tiempo.
TABLA 5.3 RESULTADOS DE UN MODELO EXPONENCIAL CONSTANTE A INTERVALOS (ECI) Y CON EFECTO PERÍODO (ECIEP) PARA CUATRO PROCESOS SIMULADOS (FIG. 3.2)
Proceso tiempo
Proceso probabilidad
Proceso umbral
Proceso recuperación parcial
Modelo 1 Modelo 2 Modelo 3 Modelo 4 Modelo 5 Modelo 6 Modelo 7 Modelo 8 ECI ECIEP ECI ECIEP ECI ECIEP ECI ECIEP Constante
–5.96**
–5.60**
–6.05**
–5.97**
–6.79**
–7.22**
–5.69**
–5.33**
Intervalo 0-250 (cat. ref.)
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
Intervalo 250-500
0.80**
-0.34
0.67**
0.49*
1.43**
Mujer (cat. ref.)
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
Hombre
–0.40**
–1.45**
–0.96**
–1.24**
–1.22**
–0.01
–0.98**
–2.65**
Intervalo temporal:
–2.00**
0.58**
–1.08**
Género:
Hombre* Intervalo (250-500)
2.21**
Numero 100 acontecimientos Loglikelihood Ratio
18.1
100 43.0
0.49
–1.78**
3.45**
80
80
70
70
90
90
23.7
24.8
51.7
61.5
24.7
64.6
Ghombres (500)
0.17
0.50
0.67
0.33
Gmujeres (500)
0.17
0.17
0.17
0.17
118
CUADERNOS METODOLÓGICOS 38
** Efecto significativo con p < 0.05. * Efecto significativo con p < 0.10.
Ejercicios del capítulo 5
Ejercicio 5.1 Utiliza el fichero marriage.dta. Aplica el método de la partición del episodio para definir las variables «entrada en el mercado de trabajo» y «edad» que se modifican en el tiempo (los comandos son los mismos que en CAP5.do). Una vez definidas estas dos variables estima un modelo exponencial con las siguientes variables independientes: género, educación, entrada en el mercado de trabajo, edad y edad al cuadrado. Después estima un modelo exponencial constante a intervalos con las variables independientes: género, educación, entrada en el mercado de trabajo. Interpreta y compara los resultados de los dos modelos. ¿A qué conclusión podemos llegar con respecto a la dependencia temporal de la tasa de transición al matrimonio?
Ejercicio 5.2 Utiliza el fichero unemployment.dta. Estima un modelo exponencial constante a intervalos para la transición al empleo, con las variables independientes género y cohorte de nacimiento. Define dos variables adicionales. La primera, que indica el número de episodios anteriores de
6 Variables que se modifican en el tiempo: problemas y soluciones prácticas
Ya se ha comentado que la posibilidad de incluir variables que se modifican en el tiempo es, desde el punto de vista metodológico, una de las características más interesantes del AHA. Aunque no es demasiado difícil comprender la lógica del procedimiento de partición del episodio para definir las variables que se modifican el tiempo, tal y como se ha explicado en el anterior capítulo, a nivel práctico las estructuras de nuestros ficheros y las variables que queremos analizar son mucho más complejas que en los ejemplos de los textos de introducción al AHA. Por esta razón, el presente capítulo está dedicado exclusivamente a ilustrar varios ejemplos más complicados del método de partición del episodio. Los ejemplos elegidos se refieren a la definición de variables que se modifican en el tiempo de tipo dicotómico, numérico y categórico. Se pretende así ofrecer un abanico de problemas y soluciones prácticas que puedan servir como guía de referencia para los lectores en la construcción de sus ficheros de datos para el AHA.
6.1. Variable dicotómica que se modifica en el tiempo Consideremos el proceso de salida del desempleo. En un momento dado del tiempo algunos de los sujetos han empezado un curso de formación profesional de algunas horas semanales. Queremos definir una variable que se modifica en el tiempo y que es igual 1 desde el momento en el que el sujeto ha empezado el curso, y 0 si no la ha comenzado. A nivel sustantivo, nos interesa evaluar si haber asistido o asistir a un curso de formación profesional facilita la vuelta a la ocupación.
120
CUADERNOS METODOLÓGICOS 38
Los datos relativos a la formación profesional están archivados en el fichero form.dta. Cuando se trabaja con encuestas de tipo panel y retrospectivas es bastante normal que los datos estén organizados en ficheros separados. Por ejemplo, los episodios de ocupación en un fichero; en otro, los episodios de la historia matrimonial, y en otro los episodios de los cambios de residencia, etc. El fichero form.dta contiene 1.212 observaciones y dos variables: dpf indica la fecha de inicio de la asistencia al curso de formación profesional e id es el número de identificación del sujeto (cada sujeto tiene el mismo valor de id en los dos ficheros unemployment.dta y form.dta). No todos los sujetos que han experimentado el desempleo, y de los cuales tenemos los episodios en el fichero unemployment.dta, han asistido a cursos de formación profesional. Análogamente no todos los sujetos que han asistido a cursos de formación profesional han tenido experiencias de desempleo. De esto modo, para algunos de los sujetos representados en el fichero unemployment.dta no tendremos informaciones en el fichero form.dta, y viceversa.
CUADRO 6.1 VARIABLE DICOTÓMICA QUE SE MODIFICA EN EL TIEMPO: INICIO CURSO DE FORMACIÓN PROFESIONAL (BLOQUE DE COMANDOS 6.1 EN CAP6.DO)
use unemployment.dta sort id merge id using form.dta, nokeep sort id by id: ge nspell=_n * define progresivamente el número de episodios de cada individuo: con ello sabemos cuántos episodios de desempleo ha experimentado cada individuo ge double mark = id*100 + nspell * la opción double define el tipo de almacenamiento (storage type) para la nueva variable mark; * multiplicamos id por 100 porque un sujeto ha experimentado 10 episodios de desempleo; la nueva variable mark nos permite identificar cada registro de la base de datos; con ello definimos un nuevo id .
list id nspell begin end dfp in 1/11, noobs nolab clean id nspell begin end 1000031 1 953 967 1000031 2 1063 1099 1000031 3 1167 1168 1000043 1 1101 1171
dfp 910 910 910 982
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS 1000051 1 982 990 . 1000061 1 1170 1171 . 1000062 1 1170 1171 . 1000071 1 982 992 753 1000112 1 928 934 . 1000132 1 1072 1135 1130 1000132 2 1144 1153 1130 replace dfp = 10000 if dfp==. (647 real changes made) ge endorig = end stset end, origin (begin) fail (dest==1) id(mark) ... stsplit form, after (dfp) at(0) (20 observations (episodes) created) list id nspell begin endorig dfp _d _t0 _t form in 1/12, noobs nolab id nspell begin endorig dfp _d _t0 1000031 1 953 967 910 1 0 1000031 2 1063 1099 910 1 0 1000031 3 1167 1168 910 0 0 1000043 1 1101 1171 982 0 0 1000051 1 982 990 10000 1 0 1000061 1 1170 1171 10000 0 0 1000062 1 1170 1171 10000 0 0 1000071 1 982 992 753 1 0 1000112 1 928 934 10000 0 0 1000132 1 1072 1135 1130 0 0 1000132 1 1072 1135 1130 0 58 1000132 2 1144 1153 1130 1 0 recode form 0=1 –1=0 drop merge save unemployment2.dta, replace
121
nod clean _t form 14 0 36 0 1 0 70 0 8 –1 1 –1 1 –1 10 0 6 –1 58 –1 63 0 9 0
En el cuadro 6.1 se presentan los comandos utilizados para definir una variable dicotómica que se modifica en el tiempo y que indica el inicio eventual de la asistencia a un curso de formación profesional. En primer lugar juntamos los ficheros unemployment.dta y form.dta con el comando merge, empleando la variable id como clave para asociar los datos de los dos ficheros59. La opción nokeep determina que las observaciones en el fichero form.dta que no tienen correspondencia en el fichero unemployment.dta, es decir, las observaciones de los sujetos que han asistido a un curso pero que no tienen episodios de desempleo, sean ignoradas. 59 Con el comando merge es muy frecuente cometer errores. No se pueden describir aquí todas las opciones de este comando. Para más detalles véase StataCorp. (2003).
122
CUADERNOS METODOLÓGICOS 38
Después definimos la variable nspell que es igual al número progresivo de episodios para cada sujeto y la utilizamos, a su vez, para definir la variable mark. Esta última permite identificar de manera unívoca cada episodio del fichero. Para eso, multiplicamos la variable id por 100 y añadimos el número progresivo del episodio60. Con el comando list se produce un listado de los valores de algunas variables de interés para las primeras observaciones. Por ejemplo, el sujeto con id = 1000031 ha participado en un curso de formación antes de caer en desempleo por primera vez, ya que el inicio del curso ocurre en el mes del siglo 910 y el primer episodio de desempleo empieza en el mes del siglo 953. Para el sujeto con id = 1000051 el valor de la variable dfp es perdido (missing). Esto significa que el sujeto en cuestión no ha asistido a ningún curso de formación y que, por lo tanto, en el fichero form.dta no hay ninguna información relativa a él. Otro caso interesante es el del sujeto con id = 1000132; pare este sujeto el inicio del curso de formación ocurre entre la fecha de inicio y de fin del primer episodio de desempleo. A continuación, recodificamos los valores perdidos de la variable fdp con un valor arbitrariamente grande, por ejemplo el valor 10000. Esta recodificación es instrumental para la siguiente definición de la variable que se modifica en el tiempo. Finalmente, definimos los datos como historia de acontecimientos con el comando stset, utilizando la variable mark para identificar cada episodio y partimos los episodios en función del inicio del curso de formación profesional con el comando stsplit. Como los valores perdidos de la variable ftp han sido recodificados con un valor deliberadamente alto, los episodios de aquellos sujetos que no han asistido a un curso de formación no serán partidos, porque el mes del siglo 10.000 nunca cae entre la fecha de inicio y de fin del episodio. Como resultado del procedimiento han sido subdivididos 20 episodios originales. La variable dicotómica que se modifica en el tiempo form, es igual a 0 si el sujeto ha asistido a un curso de formación profesional, y a –1 si no lo ha hecho. Así, el primer episodio para el sujeto con id = 10000132 ha sido partido en correspondencia con el mes del siglo 1.130 que es cuando el sujeto ha empezado a asistir a un curso de for60
Multiplicamos por 100 porque hay un sujeto con 10 episodios de desempleo. Si hubiéramos multiplicado id por 10, habríamos podido incurrir en un error y tener dos episodios diferentes con el mismo valor de la variable mark.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
123
mación profesional. Por lo tanto, antes del inicio del curso la variable form es igual a –1 y después cambia al valor 0. Para los episodios de los sujetos que no han asistido a un curso de formación profesional (por ejemplo el sujeto con id = 1000051) la variable form es igual a –161. El último paso consiste en recodificar la variable form para conseguir así una variable dicotómica igual a 0 si el sujeto no ha asistido a ningún curso de formación e igual a 1 si lo ha hecho. Finalmente, grabamos el fichero con un nuevo nombre después de haber eliminado la variable instrumental merge que ya no nos sirve.
6.2. Variable numérica que se modifica en el tiempo Ahora queremos construir una variable relativa al número de hijos del sujeto para investigar cómo dicha variable influye en la probabilidad de salida desde el desempleo. La variable es numérica, se modifica en el tiempo y se incrementa en una unidad en función del nacimiento de cada hijo. La fecha de nacimiento de los hijos de los sujetos pertenecientes a la submuestra de la encuesta ILFI se encuentra en el fichero children.dta. Este fichero consta de 8.841 observaciones y tres variables: el número de identificación del sujeto, la fecha de nacimiento del hijo y su orden de nacimiento (es decir, si es el primer hijo, el segundo, etc.). En cuadro 6.2 se presentan algunas observaciones del fichero y los comandos utilizados para modificar su estructura. Considérese la estructura del fichero children.dta. La información relativa al nacimiento de los hijos está organizada por episodios y no como variables. Es decir, a cada hijo de un mismo sujeto le corresponde una observación. Por lo tanto, es posible que haya más de una observación para cada sujeto. Por ejemplo, el sujeto con id = 1000062 ha tenido tres hijos y consecuentemente tiene tres observaciones en el fichero children.dta.
61
Esto porque Stata interpreta el valor ficticio 10000 como una fecha posterior al final del episodio de desempleo. Por lo tanto, antes o mientras era desempleado el sujeto con id = 1000051 no ha asistido a un curso de formación y la variable form asume valor igual a –1.
124
CUADERNOS METODOLÓGICOS 38 CUADRO 6.2 TRASFORMACIÓN DE UN FICHERO DE FORMATO POR EPISODIOS A FORMATO POR VARIABLES: NACIMIENTOS DE LOS LOS HIJOS (BLOQUE DE COMANDOS 6.2 EN CAP6.DO)
use children.dta list in 1/18, noobs nolab nod clean id dchi nchil 1000021 1087 1 1000022 1087 1 1000031 1070 1 ... 1000062 997 1 1000062 1023 2 1000062 1106 3 1000071 891 1 1000071 903 2 reshape wide dchi, i(id) j(nchil) (note: j = 1 2 3 4 5 6 7 8 9 10 11 12) Data long –> wide ----------------------------------------------------------------------------------------------------------------Number of obs. 8441 –> 3750 Number of variables 3 –> 13 j variable (12 values) nchil – > (dropped) xij variables: dchi – > dchi1 dchi2 ... dchi12 ----------------------------------------------------------------------------------------------------------------list in 1/10, noobs nolab nod abbreviate(2) clean id dchi1 dchi2 dchi3 dchi4 dchi5 dchi6 dchi7 dchi8 dc~9 dc~10 dc~11 dc~12 1000021 1087 . . . . . . . . . . . 1000022 1087 . . . . . . . . . . . 1000031 1070 . . . . . . . . . . . ... 1000062 997 1023 1106 . . . . . . . . . 1000071 891 903 . . . . . . . . . . save childrenw.dta, replace
Para construir la variable relativa al número de hijos, tenemos que realizar las siguientes operaciones. En primer lugar, tenemos que llevar la información relativa a las fechas del nacimiento de los hijos al fichero unemployment.dta y, después, subdividir los episodios de desempleo en función del momento de nacimiento de los hijos. El problema adicional que tenemos es que el fichero children.dta está organizado por episodios. Expresado en lenguaje informático, se trata de un fichero de «formato largo» (long form). Para poder unir el fichero children.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
125
dta al fichero unemployment.dta es necesario antes haber transformado el formato del primero de «largo» a «ancho». Se precisa, pues, construir un fichero donde a cada sujeto le corresponde una única observación y la información relativa a los nacimientos de los hijos esté organizada como variables por columna. Para eso se utiliza el comando reshape. Para explicar el funcionamiento de este comando lo más simple es considerar su aplicación concreta en el caso del fichero children. dta. En el caso de nuestro fichero por episodios (o de formato «largo»), el comando reshape crea una única observación para todas las observaciones con el mismo id. Además, crea una serie de variables dchij con j = 1,2..,n siendo n el valor máximo de la variable nchil en el fichero. En nuestro ejemplo el comando reshape produce un fichero con 3750 observaciones y 13 variables. El hecho de que Stata haya creado 12 variables dchij (dchi1, dich2, ..., dc~12) indica que en el fichero el valor máximo de la variable nchil es igual a 12, es decir, que hay un sujeto que ha tenido 12 hijos62. A la variable dchi1, que indica la fecha de nacimiento del primer hijo, le corresponde el valor de dchi del primer episodio del fichero original; a dchi2, el del segundo, a dchi3 el del tercero, etc. En el caso del sujeto con id = 1000021 que ha tenido sólo un hijo, todas las variables desde dchi2 a dc~12 tienen valor perdido. Finalmente grabamos el fichero producido por el comando reshape con un nuevo nombre. Los comandos para seguir con la construcción de la variable relativa al número de hijos están en el cuadro 6.3. En primer lugar, adjuntamos las informaciones del fichero children2.dta en el fichero unemployment2.dta con el comando merge, empleando la variable id como clave para asociar las informaciones de los dos ficheros. Nótese que no todos los sujetos con episodios de desempleo en el fichero unemployment2. dta han tenido hijos y que no todos los sujetos con hijos han tenido episodios de desempleo. Como resultado del comando merge los sujetos sin hijos tienen valores perdidos en todas las variables dchi1, dchi2, ... dchi12. En este caso, la opción nokeep del comando merge determina que las observaciones del fichero children2.dta que no tienen correspondencia en el fichero unemployment2.dta, es decir, las observaciones de los sujetos con hijos que no tienen episodios de desempleo, sean ignoradas. A continuación, se subdividen los episodios de desempleo en función de la fecha de nacimiento del primer hijo y se crea una variable 62
Nótese que dc~12 es una abreviación para dchi12.
126
CUADERNOS METODOLÓGICOS 38 CUADRO 6.3 VARIABLE NUMÉRICA QUE SE MODIFICA EN EL TIEMPO: NÚMERO DE HIJOS (BLOQUE DE COMANDOS 6.3 EN CAP6.DO)
use unemployment2.dta sort id merge id using children2.dta, nokeep stset end, origin (begin) fail (dest==1) id(mark) ... ******************************* *primer hijo *********************** . replace dchi 1=10000 if dchi1==. (442 real changes made) . stsplit ch1, after (dchi1) at(0) (35 observations (episodes) created) . recode ch1 0=1 –1=0 (ch1: 1028 changes made) ****************************** *segundo hijo *********************** replace dchi2 = 10000 if dchi2==. stsplit ch2, after (dchi2) at(0) recode ch2 0=1 –1=0. ***************************** * otra solución más rapida: bucle ********************************** clear use unemployment2.dta sort id merge id using children2.dta, nokeep stset end, origin (begin) fail (dest==1) id(mark) for var dchi1-dchi12: replace X = 10000 if X==. for var dchi1-dchi12 \ new ch1-ch12: stsplit Y, after (X) at(0) for var ch1-ch12: recode X 0=1 –1=0 ge nchitv = ch1+ch2+ch3+ch4+ch5+ch6+ch7+ch8+ch9+ch10+ch11+ch12 . list id org dest begin end dchi1 dchi2 _d _t0 _t nchitv if id==1000031| id==1006452, noobs nolab nod abbreviate(2) clean id org dest begin end dchi1 dchi2 _d _t0 1000031 0 1 953 967 1070 10000 1 0 1000031 0 . 1063 1070 1070 10000 0 0 1000031 0 1 1063 1099 1070 10000 1 7 1000031 0 0 1167 1168 1070 10000 0 0 1006452 0 . 1058 1116 1116 1157 0 0 1006452 0 . 1058 1157 1116 1157 0 58 1006452 0 0 1058 1169 1116 1157 0 99 drop _merge save unemployment3.dta, replace
_t nchitv 14 0 7 0 36 1 1 1 58 0 99 1 111 2
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
127
dicotómica con valor igual a 0 antes del nacimiento del primer hijo e igual a 1 después. Estos comandos son equivalentes a los que hemos empleado para construir la variable que se modifica en el tiempo relativa a la asistencia a un curso de formación profesional. Se trataría ahora de repetir el mismo bloque de comandos para cada uno de los 12 posibles hijos. Una vez construidas las 12 variables dicotómicas relativas al nacimiento de cada hijo, se puede construir la variable numérica que indica el número total de hijos y que se incrementa en una unidad en función del nacimiento de cada nuevo hijo. Una manera más rápida y eficiente de realizar todas las particiones de los episodios, y construir las 12 variables dicotómicas a la vez, es definir un bucle (loop) utilizando el comando for63. En general, el comando for almacena las variables ya existentes, como dchi1, dchi2, ... dchi12, en un vector X y las nuevas variables, como ch1, ch2, …, ch12, en un vector Y, y repite para cada una de ellas el comando indicado, por ejemplo replace o stplit. El resultado es idéntico a lo que se obtiene repitiendo por separado la partición del episodio para cada hijo y el procedimiento es mucho más rápido. Una vez construidas y recodificadas las variables dicotómicas para cada uno de los 12 posibles hijos, podemos definir la variable nchitv que indica el número total de hijos. Para controlar que el procedimiento es correcto se visualizan con el comando list algunas observaciones del fichero. Podemos comprobar que para el sujeto con id = 1000031 la variable relativa al número de hijos pasa de 0 a 1 después del mes del siglo 1.070 que es la fecha de nacimiento de su primer hijo. Además, el episodio originario de desempleo que tenía fecha de inicio en el mes del siglo 1.063 y fecha de fin el mes del siglo 1.099 ha sido subdividido precisamente en el mes del siglo 1.070, es decir, en función del nacimiento del hijo. Consideraciones parecidas valen para el sujeto con id = 1006452 que ha tenido dos hijos: el episodio de desempleo se ha subdivido en función de las fechas de nacimiento de los hijos y la variable nchitv se incrementa en una unidad después del nacimiento de cada hijo.
63 Entre las diversas maneras para realizar un loop usando Stata, en este ejemplo se usa el comando for. Nótese que en la versión 8 de Stata el comando for ha sido actualizado por el comando foreach, aunque sigue funcionando. Lamentablemente, la actualización de los programas estadísticos suele ocurrir con más rapidez que al acontecimiento «terminar un libro».
128
CUADERNOS METODOLÓGICOS 38
6.3. Variable categórica que se modifica en el tiempo El último ejemplo de este capítulo se refiere a la definición de una variable categórica que se modifica en el tiempo. En concreto queremos investigar si las oportunidades de salida del paro varían en función del estado civil del sujeto, que puede variar a lo largo del tiempo. El fichero civil.dta contiene la información relativa a la historia del estado civil de los sujetos. Es un fichero de formato de episodios, es decir, que cada sujeto puede tener más de un episodio. En el cuadro 6.4 se presentan algunas observaciones del fichero y los comandos utilizados para transformar su formato de «largo» a «ancho». El fichero civil.dta contiene cuatro variables: id se refiere al número de identificación de cada sujeto, nspell al número progresivo de episodios de la historia matrimonial de cada sujeto, dat es la fecha de inicio en meses del siglo del episodio y stat indica el estado civil en el que se encontraba el sujeto. Se distinguen cinco condiciones de estado civil: el valor 1 indica la condición de soltero/a, 2 de casado/a, 3 de convivencia, 4 de divorciado/a y 5 de viudo/a. CUADRO 6.4 TRANSFORMACIÓN DE UN FICHERO CON LA INFORMACIÓN SOBRE EL ESTADO CIVIL DE FORMATO «LARGO» A «ANCHO» (BLOQUE DE COMANDOS 6.4 EN CAP6.DO)
clear use civil.dta .
list if id==1000031 | id==1000041 | id==1000132, noobs nolab nod clean id nspell dat sta 1000031 1 708 1 1000031 2 1099 2 1000031 3 1102 4 1000041 1 493 1 1000041 2 750 2 1000041 3 1093 5 1000132 1 620 1 1000132 2 1074 2 reshape wide dat sta, i(id) j(nspell) list if id==1000031 | id==1000041 | id==1000132, noobs nolab nod clean id dat1 sta1 dat2 sta2 dat3 sta3 dat4 sta4 dat5 sta5 dat6 sta6 dat7 sta7 1000031 708 1 1099 2 1102 4 . . . . . . . . 1000041 493 1 750 2 1093 5 . . . . . . . . 1000132 620 1 1074 2 . . . . . . . . . . save civiln.dta, replace
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
129
Para todos los sujetos la historia de su estado civil empieza con un episodio de soltería con la variable sta igual a 1 y la variable dat igual a la fecha de nacimiento del sujeto. Por ejemplo, el sujeto con id = 1000031 nace en el mes del siglo 771, se casa en el mes del siglo 1.099 y se separa, sólo tres meses después, en el mes del siglo 1.102. El sujeto con id = 1000041 se casa en el mes del siglo 750 y se queda viudo, ya que la variable sta es igual a 5 en el tercer episodio, en el mes del siglo 1.093. El primer problema que tenemos que resolver es trasformar la estructura del fichero de un formato por episodios a un formato por variables (es decir, de «ancho» a «largo»). Para ello utilizamos el comando reshape. A diferencia del ejemplo precedente del nacimiento de los hijos, en este caso con el comando reshape tenemos que construir dos variables, una relativa a la fecha del cambio de estado civil y otra relativa a la calidad de dicho cambio. En el fichero civil.dta hay un sujeto que ha tenido 7 cambios de estado civil y por lo tanto el comando reshape define 7 variables dat1, dat2, …, dat7 y 7 variables sta1, sta2, ..., sta7 que indican las fechas y el tipo de los cambios eventuales de estado civil. Si consideramos el sujeto con id = 1000031, después del comando reshape tenemos una sola observación y las informaciones relativas a las fechas y el tipo de cambio del estatus civil se encuentran en las variables por columna. Una vez grabado el fichero con el nuevo formato, los comandos para construir la variable categórica de estado civil son parecidos a los que hemos utilizado para definir la variable número de hijos. De todas formas hay algunas diferencias que es oportuno aclarar. Si consideramos el cuadro 6.5, después de haber añadido con el comando merge el fichero civil.dta al fichero unemployment3.dta, con el comando move desplazamos la variable sta1 de manera que las variables dat1, dat2, ..., dat7, acaban colocadas una al lado de la otra. A continuación, después de haber declarado los datos aptos para un AHA, realizamos la partición de episodios en función de los siete cambios eventuales de estado civil mediante un bucle con el comando for. La diferencia con respecto al ejemplo de definición de la variable número de hijos es que en este caso tenemos que precisar la calidad del cambio de estado. Por lo tanto, sustituimos los valores de las variables split1, split2, ..., split7, que identifican si ha ocurrido un cambio, con los valores correspondientes de sta1, sta2, ..., sta7, que nos permiten especificar la calidad del mismo. Finalmente construimos una variable de estado civil que se modifica en el tiempo y sintetiza la información de las variables split1, split2, ..., split7. A raíz del bloque de comandos generate y replace, status asume el valor de spliti si spliti tiene un valor válido y spliti+1 es un valor perdido.
clear use unemployment2.dta sort id merge id using civiln.dta, nokeep
= split1 if split2==–1 = split2 if split3==–1&split2 > -1 = split3 if split4==–1 &split3 > –1 = split4 if split5==–1 &split4 > –1 = split5 if split6==–1 &split5 > –1 = split6 if split7==–1 &split6 > –1 = split7 if split7 > –1
list id nspell org dest begin end form nchitv split1 split2 split3 split4 split5 split6 split7 status if id==1000031 | id==1000041 | id==1000132, noobs nolab clean abbreviate(2) id nsp~l org dest begin end form nchildtv spl~1 spl~2 spl~3 spl~4 spl~5 spl~6 spl~7 status 1000031 1 0 1 953 967 1 0 1 –1 –1 –1 –1 –1 –1 1
generate status replace status replace status replace status replace status replace status replace status
for var dat1-dat7: replace X = 10000 if X==. for var dat1-dat7 \ new split1-split7: stsplit Y, after (X) at(0) for var split1-split7 \ var sta1-sta7: replace X = Y if X > –1
stset end, origin (begin) fail (dest==1) id(mark)
move dat2 sta1 move dat3 sta1 move dat4 sta1 move dat5 sta1 move dat6 sta1 move dat7 sta1
CUADRO 6.5
VARIABLE CATEGÓRICA QUE SE MODIFICA EN EL TIEMPO: ESTADO CIVIL (BLOQUE DE COMANDOS 6.3 EN CAP6.DO)
130 CUADERNOS METODOLÓGICOS 38
...
1000132 1000132 1000132 1000132
1000031 1000031 1000031
1 1 1 2
2 2 3
0 0 0 0
0 0 0
. . 2 1
. 1 0 1072 1072 1072 1144
1063 1063 1167 1074 1130 1135 1153
1070 1099 1168 0 0 1 1
1 1 1 0 0 0 0
0 1 1 1 1 1 1
1 1 1 –1 2 2 2
–1 –1 2 –1 –1 –1 –1
–1 –1 4 –1 –1 –1 –1
–1 –1 –1 –1 –1 –1 –1
–1 –1 –1 –1 –1 –1 –1
–1 –1 –1 –1 –1 –1 –1
–1 –1 –1 1 2 2 2
1 1 4 ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS 131
132
CUADERNOS METODOLÓGICOS 38
De este modo, como se han definido previamente split1, split2, ..., split7, se identifica el estado civil en el que se encontraba el sujeto mientras estaba desempleado. Fijémonos de nuevo en el sujeto con id = 1000031. Los dos primeros episodios de desempleo del sujeto ocurren cuando éste todavía era soltero. Cuando inicia el tercer episodio en el mes del siglo 1.167, el sujeto ya se había casado y separado. En efecto, la variable status para el último episodio asume el valor igual a 4. Si consideramos el sujeto con id = 1000132 sabemos que se ha casado en el mes del siglo 1.074 (véase el cuadro 6.4). En este caso, el cambio de estado civil ocurre mientras el sujeto estaba desempleado. Por lo tanto, el episodio de desempleo está partido: en el primer subepisodio de desempleo que va desde el mes del siglo 1.070 al mes del siglo 1.074 el sujeto era soltero y la variable status asume el valor 1. Para el segundo subepisodio y para los siguientes episodios de desempleo la variable status asume el valor 2 y se considera el estado civil como casado. Los ejemplos desarrollados a lo largo del capítulo han pretendido ilustrar cómo es posible operacionalizar varios procesos dinámicos que se desarrollan en paralelo al proceso que queremos investigar y definir así variables que se modifican el tiempo. Para concluir, podemos ahora estimar un modelo para evaluar el efecto que dichas variables tienen sobre la tasa de transición fuera del desempleo. Los resultados de la estimación de un modelo exponencial constante a intervalos con las variables independientes que se modifican en el tiempo relativas a la asistencia a cursos de formación profesional, al número de hijos y al estado civil, se muestran en el cuadro 6.6. Con el comando stsplit definimos los intervalos del eje temporal para el modelo exponencial constante a intervalos y las variables dicotómicas e1, e2, e3, e4 y e5 que identifican respectivamente los intervalos de tiempo de 0 a 3 meses, de 3 a 6 meses, de 6 a 12, de 12 a 24 y de 24 y más meses. El comando xi antes de los comandos logit y streg permite transformar automáticamente cada categoría de la variable status en cinco variables dicotómicas: Istatus_1 es igual a 1 si el sujeto está soltero, Istatus_2 es igual a 1 si está casado, Istatus_3 es igual a 1 si convive, Istatus_4 es igual a 1 si está divorciado y Istatus_5 es igual a 1 si está viudo. En el modelo la categoría de referencia es estar soltero. Los resultados sugieren que empezar a asistir a un curso de formación profesional incremen-
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
133
ta la tasa de transición fuera del paro en un 22 por 10064, mientras que cada hijo adicional reduce la misma cerca de un 8 por 100. No se encuentra, por otro lado, ningún efecto estadísticamente significativo del estado civil. Una cierta prudencia es necesaria a la hora de interpretar los resultados para esta última variable, ya que el número de casos para algunas categorías es muy escaso. CUADRO 6.6 MODELO EXPONENCIAL CONSTANTE A INTERVALOS PARA LA SALIDA DEL DESEMPLEO CON VARIABLES QUE SE MODIFICAN EN EL TIEMPO (BLOQUE DE COMANDOS 6.5 EN CAP6.DO)
stsplit interval, at(3 6 12 24) . ta interval, ge(e) ... xi: streg e2 e3 e4 e5 sex coh2 coh3 form nchitv i.status, dist(exp) nohr ... Exponential regression -- log relative-hazard form No. of subjects No. of failures Time at risk
= = =
973 734 17922
Number of obs =
3027
LR chi2(13) = 284.01 Log likelihood = –1404.1591 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] -------------+----------------------------------------------------------------------------------------------------e2 | .231223 .1078706 2.14 0.032 .0198004 .4426455 e3 | –.1602817 .1112411 –1.44 0.150 –.3783103 .0577469 e4 | –.7278143 .1237767 –5.88 0.000 –.9704121 –.4852165 e5 | –.9476371 .1160607 –8.17 0.000 –1.175112 –.7201623 sex | .2447207 .0759232 3.22 0.001 .0959139 .3935275 coh2 | .706575 .21113 3.35 0.001 .2927679 1.120382 coh3 | 1.03539 .2172848 4.77 0.000 .6095193 1.46126 form | .1949037 .0862291 2.26 0.024 .0258978 .3639095 nchitv | –.0855215 .0475406 –1.80 0.072 –.1786993 .0076563 _Istatus_2 | –.0409366 .1007499 –0.41 0.685 –.2384028 .1565297 _Istatus_3 | .0550124 .2785994 0.20 0.843 –.4910325 .6010572 _Istatus_4 | .2030034 .2741585 0.74 0.459 –.3343374 .7403441 _Istatus_5 | .3428991 .5342991 0.64 0.521 –.704308 1.390106 _cons | –3.730876 .2343905 –15.92 0.000 –4.190273 –3.271479 ----------------------------------------------------------------------------------------------------------------------
64 Las ratios de la tasa de transición son iguales a exp(0.20) ≈ 1.22 y exp(–0.09) ≈ 0.92, que corresponden respectivamente a un incremento de la tasa de transición igual al 22 por 100 y a una reducción del 8 por 100.
134
CUADERNOS METODOLÓGICOS 38
Ejercicios del capítulo 6
Ejercicio 6.1 Utiliza el fichero unemployment.dta y define una variable que se modifica en el tiempo y que identifica la presencia de un hijo en edad de 0 a 2 años. Para ello es necesario definir una variable age02 que es igual a 1 si el sujeto tiene un hijo con edad entre los 0 y los 2 años, e igual a 0 en los otros casos.
Ejercicio 6.2 Utiliza el fichero unemployment.dta. Supóngase que nos interesa investigar cómo la tasa agregada de desempleo, entendida como un indicador macro de las condiciones generales del mercado de trabajo, influye en las oportunidades individuales de salir del paro. En el fichero unemprate.dta se pueden encontrar las tasas agregadas de desempleo (variable rate) en Italia desde el año 1972 hasta 1997. Define una nueva variable en el fichero unemployment.dta que se modifica cada año y que es igual a la tasa de desempleo de cada año. Sugerencia: Los episodios individuales de desempleo empiezan en un determinado año del calendario y acaban en el mismo año o en los años siguientes. Mediante la subdivisión de los episodios, se precisa asociar a cada año de calendario en el que ha ocurrido el episodio la correspondiente tasa anual de desempleo. Por ejemplo, consideremos un episodio de desempleo que empieza en el año 1979 y acaba en 1981. En este caso, tendríamos que subdividir el episodio en tres subepisodios: el primero relativo al año 1979, el segundo al año 1980 y el tercero al año 1981, y asociar a cada uno de estos subepisodios la correspondiente tasa anual de desempleo.
7 Modelos de la tasa de transición con tiempo discreto
La distinción entre procesos con tiempo continuo y discreto se ha delineado en sus rasgos esenciales en el primer capítulo. En el caso de los procesos con tiempo continuo, de los cuales nos hemos ocupado hasta ahora, el acontecimiento puede suceder en cualquier instante del tiempo. Es decir, la duración del episodio es una variable continua y se mide a través de un número real positivo (que, en principio, puede ser fraccionario). En el segundo caso, el acontecimiento sucede sólo en intervalos discretos del tiempo y la duración del episodio se mide mediante números enteros y positivos (1, 2, 3, y así en adelante). Vale la pena subrayar que a nivel epistemológico la distinción entre tiempo continuo y discreto parece en muchos casos un tanto sutil. En definitiva, la medición de la duración antes de que suceda un acontecimiento implica siempre la división del eje temporal en intervalos, sean estos años, meses, días, horas, minutos, segundos. De este modo, se puede afirmar que la distinción entre tiempo continuo y discreto se refiere al nivel de precisión de nuestra medición, que a su vez depende del tipo de proceso investigado. Para algunos fenómenos considerar el año en que sucede el acontecimiento como unidad de medida de las duraciones garantiza un buen nivel de precisión, mientras que no para otros. Por ejemplo, en un estudio del desarrollo del Estado del bienestar, Usui (1994) considera el año de introducción del primer programa de seguridad social en 60 países y analiza los datos con un modelo Gompertz con tiempo continuo. La misma unidad de medida, el año, en un estudio de la transición al primer matrimonio es típicamente considerada como discreta, ya que varios sujetos pueden experimentar el acontecimiento en el mismo año. Además, como veremos en breve, a nivel metodológico la distinción tampoco es tan neta, ya que en muchos casos los modelos de la tasa de transición con tiempo discreto pueden considerarse una aproximación a los modelos proporcionales con tasa de transi-
136
CUADERNOS METODOLÓGICOS 38
ción continua y los resultados obtenidos con los dos tipos de modelos son sustancialmente idénticos. En la próxima sección de este capítulo se consideran las propiedades del modelo complementary log log y del modelo logit, así como las condiciones que hacen más oportuna la aplicación de cada uno de ellos. A continuación, se describen dos nuevos ficheros de datos con duraciones discretas y se explica el funcionamiento de algunos comandos de Stata que son particularmente útiles para reorganizar la estructura de los datos de una manera conveniente para el análisis de los acontecimientos. Finalmente, se presentan los comandos de Stata para estimar modelos multivariados de la tasa de transición con tiempo discreto y se comparan los resultados con los correspondientes modelos con tiempo continuo.
7.1. Modelos con tiempo discreto Los modelos con tiempo discreto resultan apropiados en dos situaciones (Allison 1982). En primer lugar, existen acontecimientos que son intrínsecamente discretos ya que sólo suceden en momentos precisos o a intervalos fijos de tiempo. Como ejemplo de este tipo de acontecimientos podemos considerar el abandono de los estudios universitarios que, al menos a nivel formal, puede ocurrir sólo al principio de curso, en octubre, cuando los estudiantes tienen que abonar sus matriculas. Analizando la probabilidad de dejar la carrera resulta más apropiado definir la duración en términos de años de curso terminados que en términos del número de meses o días desde la matriculación en la universidad. Una segunda razón para emplear modelos con tiempo discreto es que, aunque el acontecimiento pueda en principio suceder en cualquier momento del tiempo, la información de que disponemos no es lo bastante precisa como para considerar las duraciones continuas. Se incurre en una situación de este tipo cuando, por ejemplo, una encuesta proporciona la información sobre el año pero no sobre el mes en el que el acontecimiento de interés ha ocurrido. En este último caso podemos hablar de modelos con tiempo discreto como aproximación de un proceso de tipo continuo. Formalmente podemos imaginar que el eje temporal está dividido en un número de valores enteros y positivos t, siendo t igual a 1, 2, … k.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
137
Además, definimos como T una variable aleatoria de tipo discreto que indica el momento del acontecimiento. Si T=t entonces el acontecimiento ha ocurrido en momento t65. La tasa de transición con tiempo discreto se define entonces como la probabilidad condicional de que el acontecimiento ocurra en el tiempo t, bajo la condición de que el evento no haya ocurrido antes de t66. Formalmente: Pt = P[T = t|T> = t] El paso siguiente es especificar el modo en que la tasa de transición de tipo discreto varía en función de las variables independientes y del tiempo. Existen básicamente dos opciones: el modelo de la tasa de transición logística y el modelo complementary log log. Este segundo modelo, también conocido por su abreviatura cloglog, se puede utilizar bien con datos discretos como aproximación de datos continuos, o bien con datos intrínsecamente discretos. En el caso de datos discretos como aproximación de datos continuos, el modelo cloglog corresponde a un modelo proporcional de la tasa de transición con tiempo continuo (Allison, 1982: p. 72). Formalmente, el modelo cloglog es igual a: (7.1) log[–log(1 – P)] = h(t) + b’X donde los coeficientes b’ se aproximan a los coeficientes b del correspondiente modelo proporcional de la tasa de transición con tiempo continuo. La cuestión crucial es cómo se especifica la dependencia temporal de la tasa de transición h(t). Si h(t) es igual a una constante k, lo que significa que la tasa no varía en el tiempo, el modelo cloglog es una aproximación a un modelo exponencial con tiempo discreto. Si h(t) = a*t se obtiene una aproximación a un modelo Gompertz, mientras que si h(t) = (a-1)*log(t), la aproximación es a un modelo Weibull. Si finalmente h(t) se especifica como un conjunto de variables dicotómicas que identifican intervalos del eje temporal, el modelo cloglog corresponde a un modelo exponencial constante a intervalos. 65
En el caso de un proceso continuo en el que se dispone de información respecto a un eje temporal discreto, T = t significa que el acontecimiento ha ocurrido en el intervalo temporal [t, t + 1]. Para una discusión más detalladas sobre la tasa de transición con datos intrínsecamente discretos y datos discretos como aproximación de datos continuos, véase Jenkins (2004). 66 Es necesario subrayar que la tasa de transición con tiempo discreto es una probabilidad condicional y por lo tanto asumirá valores entre 0 y 1.
138
CUADERNOS METODOLÓGICOS 38
Por otro lado, el modelo de la tasa de transición logística está indicado para analizar procesos intrínsicamente discretos. Este modelo se representa como: (7.2) log(P/1-P) = h(t) + b’X En la práctica, las diferencias entre los coeficientes estimados con el modelo cloglog y el modelo de la tasa de transición logística suelen ser irrelevantes. De hecho, cuando los intervalos de tiempo respecto a los cuales se registran los acontecimientos son «pequeños» y, por lo tanto, las probabilidades condicionales de los acontecimientos en dichos intervalos son también «pequeñas», el modelo de la tasa de regresión logística converge con el modelo de la tasa de regresión con tiempo continuo. En este último caso, el modelo cloglog, el modelo de la tasa de transición logística y el correspondiente modelo de la tasa de transición con tiempo continuo proporcionan resultados casi idénticos. Como regla general, Yamaguchi (1991: p. 42) indica que el modelo de la tasa de transición logística es una aproximación adecuada a un modelo proporcional de la tasa de transición con tiempo continuo si la probabilidad condicional del acontecimiento no es superior a 0.1 para muchos de los puntos t en los que se haya dividido el eje temporal. Podemos, por lo tanto, recabar las siguientes indicaciones generales. Emplear un modelo proporcional de la tasa de transición con tiempo continuo, un modelo cloglog y un modelo de la tasa de transición logística con tiempo discreto producirá prácticamente los mismos resultados si las probabilidades condicionales de que suceda el acontecimiento en los intervalos de tiempo considerados son inferiores a 0.1. Por otro lado, el modelo de la tasa de transición logística es el más adecuado cuando una amplia proporción de probabilidades condicionales es mayor que 0.1. Esta última condición suele cumplirse en el caso de procesos intrínsecamente discretos.
7.2. Los ficheros de datos con duraciones discretas El primero de los ficheros de datos con tiempo discreto consta de datos ficticios que reproducen, modificándola, la estructura del fichero utilizado por Bernardi y Poggio (2004) para analizar la relación entre clase social y propiedad de la vivienda en Italia67. El nombre del fichero 67 Los datos analizados por Bernardi y Poggio (2004) eran una submuestra de la encuesta sobre los presupuestos de las familias italianas (Indagine sui bilanci delle fami-
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
139
es home.dta y contiene 3.774 episodios y 16 variables. En el cuadro 7.1 se presenta una descripción de algunas variables y se muestran los diez primeros episodios del fichero.
CUADRO 7.1 VARIABLES Y PRIMEROS DIEZ EPISODIOS DEL FICHERO DE DATOS HOME.DTA
Variable
Descripción
---------------------------------------------------------------------------------------------------------------------id
número de identificación
Homeowner
verificación del acontecimiento (1 = el sujeto ha llegado a ser propietario de la vivienda, 0 = el episodio está censurado a la derecha
Agehome
edad en la que el sujeto ha llegado a ser propietario de la vivienda o edad en el momento de la entrevista para los episodios censurados a la derecha
Class
clase social (1 obrero urbano, 2 obrero en la agricultura, 3 trabajador autónomo en la agricultura, 4 trabajador autónomo urbano, 5 clase media, 6 clase alta, 7 nunca empleado)
Urbwork
1 = obrero urbano
Agrwork
1 = obrero en la agricultura
Agrself
1 = trabajador autónomo en la agricultura
Urbself
1 = trabajador autónomo urbano
Midclass
1 = clase media
Servclass
1 = clase alta
Notemp
1 = nunca empleado
Demo
dimensión de la ciudad (valores de 1 a 4; véanse las variables dicotómicas)
Demo1
1 = la dimensión de la ciudad < 20.000 habitantes
Demo2
1 = la dimensión de la ciudad 20.000-39.999 habitantes
Demo3
1 = la dimensión de la ciudad 40.000-500.000 habitantes
Demo4
1 = la dimensión de la ciudad > 500.000 habitantes
----------------------------------------------------------------------------------------------------------------------
glie italiane) de 1998. Para más información sobre la encuesta sobre los presupuestos de las familias italianas del banco de Italia y para conseguir el fichero original de los datos, véase la pagina web: http://www.bancaditalia.it/statistiche/ibf.
140
CUADERNOS METODOLÓGICOS 38
. list id homeowner agehome class demo in 1/10, nodisplay nolabel noobs clean homeowner
agehome
349
id
1
37
class 6
demo 3
1235
1
24
7
2
1734
1
32
5
3
3047
1
13
5
1
3765
1
13
6
3
4651
0
30
2
2
5614
1
26
4
2
6326
1
20
5
2
8232
1
12
5
1
10845
1
28
5
3
..
La variable agehome indica la edad en que el sujeto ha llegado a ser propietario de la vivienda o la edad en el momento de la entrevista para los episodios censurados a la derecha. La edad se mide en años y se considera la edad de 14 años equivalente a 0. Por lo tanto, el sujeto con id = 349 ha llegado a ser propietario a la edad de 51 años (14 + 37). Asimismo el sujeto con id = 4651 no era propietario en el momento de la entrevista, tal y como indica la variable homeowner = 0. En ese momento tenía 44 años (14 + 30). El segundo fichero consiste en datos ficticios relativos al abandono de los estudios en un sistema universitario imaginario. En este sistema las carreras tendrían una duración de cuatro años y la inscripción se renovaría al principio de cada año académico. Al final del cuarto año, el estudiante tendría que defender una tesina de cara a conseguir el título de licenciado. El abandono de los estudios puede ocurrir al final de cada uno de los cuatros años de cursos. El nombre del fichero es dropout.dta, contiene 165 observaciones y 7 variables. El sujeto con número de identificación 99 ha abandonado la carrera al final del primer año como indica la variable drop1 = 1. Visto que el sujeto ya ha abandonado la carrera, las variables drop2, drop3 y drop4 asumen valor –9 (casos perdidos). El sujeto con id = 140 abandona la carrera al final del segundo año, como indica la variable drop2 = 1, el sujeto con id = 144 al final del tercero y el sujeto con id = 162 al final del cuarto. El sujeto con id = 2 ha terminado la carrera o, dicho en otros
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
141
términos, no ha abandonado los estudios como indica el valor 0 para las variables drop1, drop2, drop3 y drop4.
CUADRO 7.2 VARIABLES Y PRIMEROS DIEZ EPISODIOS DEL FICHERO DE DATOS DROPOUT.DTA
Variable
Descripción
---------------------------------------------------------------------------------------------------------------------id
número de identificación
drop1
0 = el estudiante no ha abandonado los estudios al final del primer año, 1 = los ha abandonado, –9 = caso perdido
drop2
0 = el estudiante no ha abandonado los estudios al final del segundo año, 1 = los ha abandonado, –9 = caso perdido
drop3
0 = el estudiante no ha abandonado los estudios al final del tercer año, 1 = los ha abandonado, –9 = caso perdido
drop4
0 = el estudiante no ha abandonado los estudios al final del cuarto año, 1 = los ha abandonado, –9 = caso perdido
gender
1 = mujer
faculty
1 = lengua, 2 = matemáticas, 3 = derecho
---------------------------------------------------------------------------------------------------------------------list if id==2 | id==99 | id==140 | id==144 | id==162, nodisplay noobs clean id
drop1
drop2
drop3
drop4
gender
faculty
2
0
0
0
0
1
1
99
1
–9
–9
–9
0
3
140
0
1
–9
–9
1
2
144
0
0
1
–9
0
2
162
0
0
0
1
0
3
7.3. Modelos de AHA con tiempo discreto en Stata Una diferencia importante respecto a los métodos descriptivos y a los modelos paramétricos y semiparamétricos con tiempo continuo es que los modelos de AHA con tiempo discreto se estiman fuera del marco del comando stset. No obstante, la lógica para organizar el fichero y realizar un AHA es la misma: es necesario especificar y, en su caso, construir una variable que identifique si sucede el acontecimiento de interés, y una
142
CUADERNOS METODOLÓGICOS 38
variable que identifique la duración antes del acontecimiento o de la censura a la derecha. Consideremos el fichero relativo a la transición a la propiedad de la vivienda. El proceso examinado puede considerarse como un proceso con tiempo continuo que se observa con respecto a un eje temporal discreto. En efecto, la transición a ser propietario de la vivienda puede ocurrir en cualquier momento del tiempo, aunque la información disponible en la encuesta sólo permite conocer el año en el que el acontecimiento ha sucedido.
CUADRO 7.3 REORGANIZACIÓN DEL FICHERO HOME.DTA PARA EL AHA (BLOQUE DE COMANDOS 7.1 EN CAP7.DO)
set memory 32m … expand agehome sort id by id: ge time = _n lab var time “spell year” by id: ge event = homeowner & _n==_N list id time event homeowner agehome if id==349 | id==4651, nodisplay nolabel noobs clean id 349 349 349 349 349
time 1 2 3 4 5
event 0 0 0 0 0
homeow~r 1 1 1 1 1
agehome 37 37 37 37 37
349 349 349 4651 4651 4651 4651 4651
35 36 37 1 2 3 4 5
0 0 1 0 0 0 0 0
1 1 1 0 0 0 0 0
37 37 37 30 30 30 30 30
4651 4651 4651
28 29 30
0 0 0
0 0 0
30 30 30
...
...
Los comandos presentados en el cuadro 7.3 permiten reorganizar el fichero home.dta en un formato apropiado para efectuar un AHA. Para
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
143
empezar, el comando set memory permite expandir la memoria que Stata usa para almacenar los datos. En este ejemplo el comando set memory es importante porque la reorganización de los datos para realizar un AHA conllevará la creación de un fichero de dimensiones muy grandes. El comando expand sustituye cada observación del fichero con n copias de la misma, siendo n igual al valor de la variable agehome. Por ejemplo, la observación con id = 349 y agehome = 37 es remplazada por 37 copias de la observación original. Con las líneas siguientes de comandos se definen dos nuevas variables. La variable time es igual al número progresivo de observaciones producidas por el comando expand para cada sujeto (by id: ge time = _n). La variable event es igual a la variable homeowner para la última observación producida por el comando expand para cada sujeto y es igual a 0 para todas las demás observaciones (by id: ge event = homeowner & _n==_N). Finalmente, controlamos los resultados de estos procedimientos visualizando las observaciones de los sujetos con id igual a 34 y 465 con el comando list. Como resultado del comando expand el fichero contiene ahora 94.729 observaciones. Se comprende así la necesidad de ejecutar el comando set memory para ampliar la memoria interactiva que Stata utiliza para almacenar los ficheros de datos. Antes de estimar los modelos multivariados, es importante examinar las probabilidades condicionales de que suceda el acontecimiento en los intervalos anuales considerados (cuadro 7.4). Para este fin, podemos utilizar el comando ltable que produce una tabla de vida del proceso de transición a la vivienda en propiedad68. Hemos especificado la opción tvid porque, como resultado del comando expand, en el fichero hay más de una observación para cada sujeto. Si se utiliza la opción tvid, entonces sólo se considera la última observación de cada sujeto para al cálculo de la tabla de vida. La opción noadjust suprime el ajuste que Stata realiza por defecto del número de sujetos todavía en riesgo de experimentar el acontecimiento al principio de cada intervalo69.
68 Véase Blossfeld y Rohwer (2001) para una presentación más detallada del método de la tabla de vida y una comparación con el método de Kaplan-Meier. Recuérdese que para utilizar el método de Kaplan-Meier es necesario haber dado previamente formato de historias de acontecimientos con el comando stset. 69
El ajuste por defecto consiste en considerar que los sujetos que han experimentado el acontecimiento o la censura a la derecha entre el tiempo t y t + 1 han pertenecido al grupo de riesgo sólo durante la mitad del intervalo de tiempo que va entre t y t + 1 (Blossfeld y Rohwer, 2001). Por lo tanto, el número de sujetos en riesgo en el tiempo t
144
CUADERNOS METODOLÓGICOS 38 CUADRO 7.4 PROBABILIDADES CONDICIONALES DE LLEGAR A SER PROPIETARIO PARA CADA INTERVALO DE EDAD (BLOQUE DE COMANDOS 7.2 EN CAP7.DO)
. ltable agehome homeowner, hazard tvid(id) noadjust Interval
Beg. Total
Cum.
Std.
Failure
Error
Hazard
Std. Error
[95 % Conf. Int.]
---------------------------------------------------------------------------------------------------------------------1
2
3774
0.0016
0.0006
0.0016
0.0006
0.0006
0.0031
2
3
3768
0.0026
0.0008
0.0011
0.0005
0.0003
0.0023
3
4
3764
0.0040
0.0010
0.0013
0.0006
0.0004
0.0027
4
5
3759
0.0085
0.0015
0.0045
0.0011
0.0026
0.0069
5
6
3742
0.0106
0.0017
0.0021
0.0008
0.0009
0.0039
6
7
3734
0.0135
0.0019
0.0029
0.0009
0.0015
0.0049
7
8
3723
0.0193
0.0022
0.0059
0.0013
0.0037
0.0086
8
9
3701
0.0265
0.0026
0.0073
0.0014
0.0048
0.0103
9
10
3674
0.0379
0.0031
0.0117
0.0018
0.0085
0.0155
10
11
3631
0.0511
0.0036
0.0138
0.0019
0.0102
0.0178
49
50
101
0.8468
0.0092
0.0594
0.0243
0.0218
0.1155
50
51
68
0.8513
0.0095
0.0294
0.0208
0.0036
0.0819
51
52
54
0.8568
0.0099
0.0370
0.0262
0.0045
0.1032
52
53
37
0.8568
0.0099
0.0000
.
.
.
53
54
15
0.8663
0.0131
0.0667
0.0667
0.0017
0.2459
...
----------------------------------------------------------------------------------------------------------------------
Los resultados del cálculo de la tabla de vida muestran que las probabilidades condicionales de convertirse en propietario de la vivienda en los intervalos anuales considerados son constantemente inferiores a 0.1. Por lo tanto, si seguimos la regla general propuesta por Yamaguchi (1991), podemos anticipar que los resultados obtenicon el ajuste por defecto es igual a: número en riesgo en el tiempo t – (número de acontecimientos y número de censuras a la derecha entre t y t + 1) / 2. Si se define una tasa de transición con tiempo discreto, entonces se considera que el acontecimiento y la censura a la derecha pueden ocurrir sólo en el tiempo t o en el tiempo t + 1. Por lo tanto, el ajuste no es necesario.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
145
dos con un modelo cloglog y un modelo logit serán virtualmente idénticos a los resultados obtenidos con un correspondiente modelo proporcional con tiempo continuo. En el cuadro 7.5 se presentan los resultados de la estimación de los modelos cloglog y logit de la tasa de transición a la propiedad de la vivienda. Estos modelos se estiman directamente mediante los comandos cloglog y logit. Para ambos se ha añadido la opción robust cluster(id) que estima errores típicos robustos y que permite tener en cuenta que las observaciones con el mismo id corresponden al mismo sujeto y, por lo tanto, no son independientes entre sí. Como variables independientes se consideran las variables dicotómicas relativas al tamaño de la ciudad de residencia y a la clase social. La función h(t) que expresa la variación de la tasa de transición en función del tiempo y que en este ejemplo se refiere a la edad del sujeto, se ha especificado de momento como una constante. Por lo tanto, el modelo correspondiente con tiempo continuo es un modelo de la tasa de transición exponencial. Para estimar este último modelo se precisa antes haber dado a los datos formato de historia de acontecimientos mediante el comando stset. En términos sustantivos los resultados del cuadro 7.5 indican que la probabilidad de convertirse en propietario de vivienda disminuye en las ciudades de tamaño más grande y aumenta para las clases sociales más privilegiadas. Además, y este es el aspecto metodológico que más nos interesa, los resultados de los tres modelos son casi idénticos.
CUADRO 7.5 MODELOS CLOGLOG Y LOGIT CON TIEMPO DISCRETO Y MODELO EXPONENCIAL CON TIEMPO CONTINUO PARA LA TRANSICIÓN A LA PROPIEDAD DE LA VIVIENDA (BLOQUE DE COMANDOS 7.3 EN CAP7.DO)
cloglog event demo2 demo3 demo4 agrwork urbself agrself midclass servclass notemp, robust cluster (id) ... Complementary log-log regression Number of obs = 94729 Zero outcomes = 92084 Nonzero outcomes = 2645 Wald chi2(9) = 167.48 Log pseudo-likelihood = –12018.141 Prob > chi2 = 0.0000 (standard errors adjusted for clustering on id) ----------------------------------------------------------------------------------------------------------------------
146
CUADERNOS METODOLÓGICOS 38
| Robust z P > |z| [95 % Conf. Interval] Coef. | Std. Err. --------------+----------------------------------------------------------------------------------------------------demo2 | –.185709 .0425994 –4.36 0.000 –.2692023 –.1022158 demo3 | –.2495624 .0367678 –6.79 0.000 –.3216259 –.1774988 demo4 | –.5181487 .0622371 –8.33 0.000 –.6401312 –.3961662 agrwork | .0293724 .1108391 0.26 0.791 –.1878684 .2466131 urbself | .2337202 .0486377 4.81 0.000 .1383921 .3290483 agrself | .3784064 .1069007 3.54 0.000 .1688848 .5879279 midclass | .2998601 .0420936 7.12 0.000 .2173582 .382362 servclass | .4118166 .0472324 8.72 0.000 .3192429 .5043903 notemp | –.041059 .1192649 –0.34 0.731 –.2748139 .1926959 _cons | –3.576711 .0406231 –88.05 0.000 –3.656331 –3.497092 ---------------------------------------------------------------------------------------------------------------------logit event demo2 demo3 demo4 agrwork urbself agrself midclass servclass notemp, robust cluster (id) ... event
Logit estimates
Number of obs = 94729 Wald chi2(9) = 167.44 Prob > chi2 = 0.0000 Log pseudo-likelihood = –12018.086 Pseudo R2 = 0.0045 (standard errors adjusted for clustering on id) --------------+----------------------------------------------------------------------------------------------------| Robust event z P > |z| [95 % Conf. Interval] Coef. | Std. Err. -------------+----------------------------------------------------------------------------------------------------demo2 | –.1889164 .0432969 –4.36 0.000 –.2737768 –.1040561 demo3 | –.2537583 .0373686 –6.79 0.000 –.3269994 –.1805172 demo4 | –.5259702 .0630235 –8.35 0.000 –.6494939 –.4024465 agrwork | .0296354 .1122536 0.26 0.792 –.1903776 .2496483 urbself | .2370445 .0492961 4.81 0.000 .1404259 .333663 agrself | .383937 .1088341 3.53 0.000 .1706261 .5972478 midclass | .3041683 .0426566 7.13 0.000 .2205628 .3877737 servclass | .4181637 .047928 8.72 0.000 .3242265 .5121008 notemp | –.0418923 .1205754 –0.35 0.728 –.2782158 .1944311 _cons | –3.562046 .0411669 –86.53 0.000 –3.642732 –3.48136 --------------+-----------------------------------------------------------------------------------------------------... streg demo2 demo3 demo4 agrwork urbself agrself midclass servclass notemp, dist(exp) nohr ... Exponential regression -- log relative-hazard form No. of subjects = 3774 Number of obs = 3774 No. of failures = 2645 Time at risk = 94729 LR chi2(9) = 105.72 Log likelihood = –4175.4527 Prob > chi2 = 0.0000 ----------------------------------------------------------------------------------------------------------------------
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
147
_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] --------------+----------------------------------------------------------------------------------------------------demo2 | –.1830191 .0559199 –3.27 0.001 –.29262 –.0734182 demo3 | –.246045 .0483643 –5.09 0.000 –.3408373 –.1512528 demo4 | –.5114844 .0753135 –6.79 0.000 –.6590962 –.3638725 agrwork | .0292372 .1333708 0.22 0.826 –.2321647 .2906392 urbself | .2308442 .0603819 3.82 0.000 .1124979 .3491905 agrself | .3728631 .1485505 2.51 0.012 .0817094 .6640169 midclass | .2959601 .052291 5.66 0.000 .1934717 .3984486 servclass | .4064435 .060958 6.67 0.000 .2869681 .5259189 notemp | –.0410613 .1418646 –0.29 0.772 –.3191108 .2369883 _cons | –3.59114 .0506438 –70.91 0.000 –3.6904 –3.49188 ----------------------------------------------------------------------------------------------------------------------
Si queremos ahora relajar el supuesto de constancia en el tiempo de la tasa de transición, podemos introducir entre las variables independientes del modelo cloglog la variable time que indica la edad del sujeto y que se modifica en el tiempo, incrementándose en una unidad cada año. La función h(t) es en esta especificación una función lineal del tiempo t. Formalmente h(t) = q*t. En tiempo continuo esta especificación equivale a un modelo Gompertz (Allison, 1982). Como se puede apreciar en el cuadro 7.6, también en este caso la estimación del modelo cloglog en tiempo discreto y de su correspondiente modelo Gompertz en tiempo continuo arrojan unos resultados casi idénticos.
CUADRO 7.6 MODELO CLOGLOG CON TIEMPO DISCRETO Y MODELO GOMPERTZ CON TIEMPO CONTINUO PARA LA TRANSICIÓN A PROPIEDAD DE LA VIVIENDA (BLOQUE DE COMANDOS 7.3 EN CAP7.DO)
cloglog event demo2 demo3 demo4 agrwork urbself agrself midclass servclass notemp time, robust cluster (id) ... Complementary log-log regression Number of obs = 94729 Zero outcomes = 92084 Nonzero outcomes = 2645 Wald chi2(10) = 1218.85 Log pseudo-likelihood = –11525.319 Prob > chi2 = 0.0000 (standard errors adjusted for clustering on id) ---------------------------------------------------------------------------------------------------------------------| Robust event Coef. z P > |z| [95 % Conf. Interval] | Std. Err. -------------+----------------------------------------------------------------------------------------------------demo2 | –.2348015 .0599963 –3.91 0.000 –.352392 –.117211 demo3 | –.3249728 .0521517 –6.23 0.000 –.4271882 –.2227574
148
CUADERNOS METODOLÓGICOS 38
demo4 | –.6707189 .0825004 –8.13 0.000 –.8324167 –.5090211 agrwork | .0379614 .1499165 0.25 0.800 –.2558695 .3317924 urbself | .3077219 .0662671 4.64 0.000 .1778406 .4376031 agrself | .4460513 .1591658 2.80 0.005 .134092 .7580105 midclass | .4082102 .0561787 7.27 0.000 .2981019 .5183184 servclass | .5607334 .0650634 8.62 0.000 .4332114 .6882554 notemp | –.1298585 .1533786 -0.85 0.397 –.4304751 .1707581 time | .0524899 .0015286 34.34 0.000 .0494938 .055486 _cons | –4.54958 .0604746 -75.23 0.000 –4.668108 –4.431053 ---------------------------------------------------------------------------------------------------------------------... streg demo2 demo3 demo4 agrwork urbself agrself midclass servclass notemp, dist(gomp) nohr ... Gompertz regression -- log relative-hazard form No. of subjects = 3774 Number of obs = 3774 No. of failures = 2645 Time at risk = 94729 LR chi2(9) = 195.77 Log likelihood = –3626.405 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] -------------+----------------------------------------------------------------------------------------------------demo2 | –.2341966 .0559444 –4.19 0.000 –.3438455 –.1245476 demo3 | –.3248846 .0484846 –6.70 0.000 –.4199127 –.2298565 demo4 | –.6698566 .0755208 –8.87 0.000 –.8178746 –.5218387 agrwork | .0371704 .1334403 0.28 0.781 –.2243677 .2987085 urbself | .3073526 .0605146 5.08 0.000 .1887462 .4259589 agrself | .4405784 .14854 2.97 0.003 .1494452 .7317115 midclass | .4082006 .0524447 7.78 0.000 .3054109 .5109904 servclass | .5611979 .0611673 9.17 0.000 .4413123 .6810836 notemp | –.1351095 .1419282 –0.95 0.341 –.4132836 .1430646 _cons | –4.601196 .0622767 –73.88 0.000 –4.723256 –4.479136 -------------+----------------------------------------------------------------------------------------------------gamma | .0551679 .0015974 34.54 0.000 .0520371 .0582988 ----------------------------------------------------------------------------------------------------------------------
En resumen, con este ejemplo se ha mostrado que cuando el proceso que se investiga es de tipo continuo pero la información relativa a los acontecimientos está disponible en intervalos discretos de tiempo, y la probabilidad de que suceda el acontecimiento para la mayoría de los intervalos temporales considerados es inferior a 0.1, entonces los modelos con tiempo discreto son una aproximación de los modelos con tiempo continuo. A efectos prácticos ambos modelos resultan equivalentes. Algo diferente ocurre cuando el proceso analizado es intrínsecamente discreto. Consideremos el caso de abandono de los estudios universitarios.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
149
CUADRO 7.7 EL COMANDO RESHAPE PARA MODIFICAR LA ESTRUCTURA DEL FICHERO DROPOUT.DTA (BLOQUE DE COMANDOS 7.4 EN CAP7.DO)
list if id==2 | id==99 | id==140 | id==144 | id==162, nodisplay noobs clean id drop1 drop2 drop3 drop4 gender faculty 2 0 0 0 0 1 1 99 1 –9 –9 –9 0 3 140 0 1 –9 –9 1 2 144 0 0 1 –9 0 2 162 0 0 0 1 0 3 reshape long drop, i(id) j(year) (note: j = 1 2 3 4) Data wide –> long ---------------------------------------------------------------------------------------------------------------------Number of obs. 165 –> 660 Number of variables 7 –> 5 j variable (4 values) –> year xij variables: drop1 drop2 ... drop4 –> drop ---------------------------------------------------------------------------------------------------------------------list if id==2 | id==99 | id==140 | id==144 | id==162, nodisplay noobs clean id 2 2 2 2 99 99 99 99 140 140 140 140 144 144 144 144 162 162 162 162
year 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
keep if drop > –9 (161 observations deleted)
drop 0 0 0 0 1 –9 –9 –9 0 1 –9 –9 0 0 1 –9 0 0 0 1
gender 1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0
faculty 1 1 1 1 3 3 3 3 2 2 2 2 2 2 2 2 3 3 3 3
150
CUADERNOS METODOLÓGICOS 38
Como se ha repetido varias veces a lo largo de este libro, para preparar los datos para un AHA es necesario definir una variable que identifique el suceso del acontecimiento y otra para la duración anterior al acontecimiento o a la censura a la derecha. En este caso es necesario reorganizar la estructura del fichero, puesto que presenta la información relativa a los acontecimientos como variables dispuestas en las columnas. El primer problema consiste en transformar el formato del fichero de «ancho» a «largo», de tal manera que las informaciones relativas a los acontecimientos estén organizadas en filas distintas. Para ello, el comando de Stata más adecuado es reshape, ya empleado en el capítulo anterior. Para ilustrar el funcionamiento del comando podemos considerar su aplicación en el caso del fichero dropout.dta. Si se dispone de un fichero de «formato ancho» con algunas variables con el mismo nombre y que se diferencian sólo por un sufijo numérico, como es el caso de las variables drop1, drop2, drop3 y drop4 en el fichero relativo al abandono de los estudios universitarios, se puede utilizar el comando reshape, que genera para cada sujeto un número de observaciones igual al valor máximo del sufijo numérico (4 en el caso de nuestro ejemplo). Además, crea una variable drop que asume en la primera observación el valor de drop1, en la segunda el valor de drop2, en la tercera el valor de drop3 y en la cuarta el valor de drop4. En el cuadro 7.7 se presentan algunas observaciones antes y después del comando reshape. Finalmente eliminamos las observaciones con la variable drop igual a –9. La variable drop es igual a –9 si el sujeto ya ha abandonado los estudios. Por ejemplo, el sujeto con id = 99 ha abandonado los estudios al final del primer año de carrera. Así, las observaciones correspondientes a su segundo, tercero y cuarto año de carrera tienen la variable drop igual a –9 y se eliminan del fichero. De esta manera los datos están listos para efectuar un AHA. La variable year identifica la duración antes del abandono de los estudios y la variable drop indica si el sujeto ha abandonado los estudios o no (censura a la derecha). Puesto que el proceso examinado es intrínsecamente discreto, la elección correcta es especificar un modelo logístico de la tasa de transición (Allison, 1982). Antes de ello, podemos controlar las probabilidades condicionales de abandono de los estudios para cada año. La tabla de vida en el cuadro 7.8 muestra que las probabilidades condicionales son constantemente mayores que 0.1. Este resultado sugiere que la aplicación de un modelo con tiempo continuo no es la correcta en este caso.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
151
CUADRO 7.8 TABLA DE VIDA, MODELO LOGIT, CLOGLOG CON TIEMPO DISCRETO Y EXPONENCIAL CON TIEMPO CONTINUO PARA EL ABANDONO DE LOS ESTUDIOS (BLOQUE DE COMANDO 7.5 EN CAP7.DO)
. ltable year drop, tvid(id) hazard noadjust Beg. Cum. Std. Std. [95 % Conf. Int.] Interval Total Failure Error Hazard Error ---------------------------------------------------------------------------------------------------------------------1 2 165 0.2364 0.0331 0.2364 0.0378 0.1681 0.3161 2 3 126 0.3333 0.0367 0.1270 0.0317 0.0726 0.1964 3 4 110 0.4061 0.0382 0.1091 0.0315 0.0564 0.1789 4 5 98 0.4667 0.0388 0.1020 0.0323 0.0489 0.1743 ---------------------------------------------------------------------------------------------------------------------xi: logit drop gender i.faculty i.year Logit estimates Number of obs = 499 LR chi2(6) = 36.83 Prob > chi2 = 0.0000 Log likelihood = –196.21047 Pseudo R2 = 0.0858 ---------------------------------------------------------------------------------------------------------------------drop | Coef. Std. Err. z P > |z| [95 % Conf. Interval] ---------------+---------------------------------------------------------------------------------------------------gender | –.6143712 .2654814 –2.31 0.021 –1.134705 –.0940372 _Ifaculty_2 | .8635379 .4372359 1.97 0.048 .0065713 1.720505 _Ifaculty_3 | 1.32002 .3884614 3.40 0.001 .5586501 2.081391 _Iyear_2 | –.7173405 .3323793 –2.16 0.031 –1.368792 –.0658889 _Iyear_3 | –.8778595 .364632 –2.41 0.016 –1.592525 –.1631939 _Iyear_4 | –.9022554 .3893047 –2.32 0.020 –1.665279 –.1392323 _cons | –1.838715 .4073324 –4.51 0.000 –2.637072 –1.040358 ---------------------------------------------------------------------------------------------------------------------xi: cloglog drop gender i.faculty i.year i.faculty _Ifaculty_1-3 (naturally coded; _Ifaculty_1 omitted) i.year _Iyear_1-4 (naturally coded; _Iyear_1 omitted) Iteration 0: Iteration 1: Iteration 2: Iteration 3:
log likelihood = log likelihood = log likelihood = log likelihood =
–197.25231 –196.33272 –196.33177 –196.33177
Complementary log-log regression
Number of obs = 499 Zero outcomes = 422 Nonzero outcomes = 77 LR chi2(6) = 36.59 Log likelihood = –196.33177 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------drop | Coef. Std. Err. z P > |z| [95 % Conf. Interval] ---------------+---------------------------------------------------------------------------------------------------gender | –.5459606 .2399065 –2.28 0.023 –1.016169 –.0757524 _Ifaculty_2 | .8004017 .4132724 1.94 0.053 –.0095972 1.610401 _Ifaculty_3 | 1.219238 .3687838 3.31 0.001 .4964346 1.942041 _Iyear_2 | –.6440674 .2976966 –2.16 0.031 –1.227542 –.0605927
152
CUADERNOS METODOLÓGICOS 38
_Iyear_3 | –.7753292 .3310785 –2.34 0.019 –1.424231 –.1264272 _Iyear_4 | –.7852307 .3561171 –2.20 0.027 –1.483207 –.087254 _cons | –1.962892 .3845927 –5.10 0.000 -2.716679 –1.209104 ---------------------------------------------------------------------------------------------------------------------stset year, fail (drop) id(id) ... xi: streg gender i.faculty i.year, dist(exp) nohr Exponential regression -- log relative-hazard form No. of subjects = 165 No. of failures = 77 Time at risk = 499
Number of obs
=
499
LR chi2(6) = 30.76 Log likelihood = –167.38002 Prob > chi2 = 0.0000 ---------------------------------------------------------------------------------------------------------------------_t | Coef. Std. Err. z P > |z| [95 % Conf. Interval] ---------------+---------------------------------------------------------------------------------------------------gender | –.4916067 .2394772 –2.05 0.040 –.9609733 –.0222401 _Ifaculty_2 | .7769313 .4127956 1.88 0.060 –.0321332 1.585996 _Ifaculty_3 | 1.134084 .3688283 3.07 0.002 .4111933 1.856974 _Iyear_2 | –.5595006 .2973016 –1.88 0.060 –1.142201 .0231999 _Iyear_3 | –.6958414 .3304646 –2.11 0.035 –1.34354 –.0481426 _Iyear_4 | –.7194255 .3552703 –2.03 0.043 –1.415743 –.0231084 _cons | –2.083801 .3845412 –5.42 0.000 –2.837488 –1.330114 ----------------------------------------------------------------------------------------------------------------------
Si comparamos los resultados del modelo logístico, del modelo cloglog y del modelo exponencial con tiempo continuo, aunque la estructura de los efectos sea parecida, las diferencias en la magnitud de los coeficientes no son del todo irrelevantes70. Dicho en otros términos, en este caso comprobamos la existencia de un sesgo en los coeficientes estimados con el modelo cloglog y con el modelo exponencial con tiempo continuo. Estos modelos infraestiman el efecto del género, de la facultad y del año del curso. Como el proceso de abandono de los estudios universitarios puede considerarse un proceso intrínsicamente discreto, puesto que el acontecimiento de interés sólo puede ocurrir en puntos precisos y fijos del tiempo, en este caso el modelo correcto es el modelo logístico de la tasa de transición con tiempo discreto. 70
El comando xi antes de los comandos logit y streg permite transformar automáticamente las variables faculty y year en un número de variables dicotómicas igual al número de categorías de dichas variables menos 1 (la categoría de referencia). Para una descripción detallada del comando xi, véase StataCorp. (2003).
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
153
Ejercicios del capítulo 7
Ejercicio 7.1 Utiliza el fichero home.dta como fichero de datos con tiempo discreto. Define variables dicotómicas que identifiquen grupos de edad de 5 años y estima un modelo cloglog añadiendo las variables dicotómicas relativas a los intervalos quinquenales de edad entre las variables independientes.
Ejercicio 7.2 Utiliza el fichero home.dat como fichero de datos con tiempo continuo. Estima un modelo exponencial constante a intervalos, con intervalos temporales de cinco años y comparara los resultados con los de ejercicio 7.1.
Apéndice I Ejemplo de preparación de un fichero de datos para el AHA
En general, para poder efectuar un AHA se necesitan cuatro variables: el estado de origen y de destino del episodio y su fecha de inicio y de fin (es decir, su duración). Si se utiliza Stata a partir de estas variables será entonces posible definir las variables timevar y failvar del comando stset. Sin embargo, a menudo la información relativa a las cuatro variables claves del AHA no está directamente disponible y es necesario reconstruirla, modificando la estructura de los datos. Para ello no existen procedimientos estándar, ya que la estructura de los datos suele variar en función de las fuentes. En el ejemplo que sigue se presentan algunos comandos de Stata que pueden resultar útiles para la preparación de los datos para el AHA. Por así decirlo, estamos en el paso previo de los ejemplos que hemos desarrollado a lo largo de este libro: se trata de definir el episodio objeto de investigación. Una vez definidas las cuatro variables claves que caracterizan el episodio será entonces posible utilizar el comando stset y empezar el AHA. Considérese el fichero europan.dta que reproduce la estructura de los datos del Panel de Hogares de la Unión Europea. El fichero contiene sólo 67 observaciones, pero la lógica para preparar los datos para el AHA no depende de la cuantía de los casos. En este fichero se ha recopilado la información sobre la situación ocupacional en cada mes procedente de cincos olas distintas en el panel. Las 60 variables sta1, sta2, ..., sta60 indican la situación ocupacional del individuo en cada uno de los 60 meses estudiados en el panel y distinguen 3 situaciones: el valor 1 indica la situación de ocupado, 2 de desempleado y 3 de inactivo. En el cuadro A.1 se presentan algunas observaciones del fichero, algunas de las variables relativas a la condición ocupacional y los primeros comandos para modificar la estructura de los datos. Si se considera el sujeto con pid = 432101, sta31 = 2 significa que estaba desempleado en el mes 31 y stat32 = 1 que era ocupado en el mes 32. La variable wave se refiere a la ola en la que el individuo ha sido entrevistado por la primera vez en el panel y pid es su numero de iden-
156
CUADERNOS METODOLÓGICOS 38
tificación. Por ejemplo, el sujeto con pid = 220142 ha sido entrevistado por primera vez en la cuarta ola y, por lo tanto, la información sobre la condición ocupacional antes del mes 37 (inicio del cuarto año) está perdida. El sujeto con pid = 76101 sale del panel en la segunda ola, ya que la información sobre estatus ocupacional se pierde después del mes 12. Mediante el comando reshape, cuyo funcionamiento ya se ha explicado en el capítulo 6, se transforma la estructura del fichero de ancho a largo. CUADRO A.1 ALGUNOS EPISODIOS Y ALGUNAS VARIABLES DEL FICHERO DE DATOS EUROPANEL.DTA
use europanel.dta . list wave pid sta1 sta2 sta12 sta13 sta25 sta31 sta32 sta37 sta49 sta60 if pid==76101 | pid==84101 | pid==220142 | pid==432101, noobs nolab nod clean wave 1 1 4 2
pid sta1 76101 3 84101 1 220142 . 432101 .
sta2 3 1 . .
sta12 sta13 sta25 sta31 sta32 sta37 sta49 sta60 3 . . . . . . . 1 1 3 3 3 3 3 3 . . . . . 3 3 3 . 1 1 2 1 1 1 1
. reshape long sta, i(pid) j(month) ... list if pid==432101, noobs nolab nod clean pid month wave ... 432101 12 2 432101 13 2 432101 14 2 432101 15 2 432101 16 2 432101 17 2 432101 18 2 432101 19 2 432101 20 2 432101 21 2 432101 22 2 432101 23 2 432101 24 2 432101 25 2 432101 26 2 432101 27 2 432101 28 2 432101 29 2 432101 30 2 432101 31 2 432101 32 2 ...
sta . 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 1
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
157
Imaginemos ahora que queremos efectuar un AHA de la transición desde el desempleo a la ocupación. Para ello se precisa definir las variables claves del AHA: el tiempo de inicio y de fin de los episodios de desempleo (es decir, su duración) y su estado de destino (es decir, si acaban con una transición a la ocupación, a la inactividad, o si son censurados a la derecha). En el cuadro A.2 se presentan los comandos para definir estas variables y se muestran los resultados paso a paso para el sujeto con pid = 432101. Para construir un fichero para el AHA a menudo es necesario confrontar las informaciones entre distintas observaciones (o filas). Por ejemplo, con el comando ge markorg = 1 if sta ~ = sta[_n–1] | pid ~ = pid[_n–1] se define una variable markorg que identifica el inicio de un nuevo episodio cuando el valor de la variable sta es diferente del valor de la variable sta en la observación precedente (es decir, si el mes anterior el sujeto estaba en otra condición ocupacional) o si la observación anterior se refiere a otro sujeto (cuando el numero de identificación de la observación anterior es diferente). El operador [_n–1] identifica la observación inmediatamente precedente, mientras que el operador [_n+1] la siguiente. Con el comando ge markend = 1 if sta ~ = sta[_n+1] & pid==pid[_n+1] se define una variable markend que identifica el fin del episodio si el valor de la variable sta es diferente del valor de la variable sta en la observación siguiente y si el número de identificación es igual al número de identificación en la observación siguiente (es decir, se la observación siguiente pertenece al mismo sujeto). A continuación se utiliza la variable que identifica el inicio del episodio para definir la fecha de inicio del mismo con el comando: ge start = month if markorg==1 Para asignar la fecha de inicio del episodio a todos los subepisodios que lo componen se emplean los comandos: ge start2 = start replace start2 = start2[_n–1] if start2==. Así, para el sujeto con pid = 432101 la variable start2 es igual a 13 para todos los subepisodios que forman parte del episodio de ocupación desde el mes 13 hasta el mes 27. A continuación se definen la fecha de inicio y de fin de los subepisodios y su estado de destino con los comandos: ge begin = month-start2 ge end = (month-start2) +1 ge dest = sta[_n+1] if markend==1
158
CUADERNOS METODOLÓGICOS 38
La fecha de inicio y fin de los subepisodios se definen con respecto a la fecha de inicio del episodio (start2). En el caso de la fecha de fin se añade una unidad para evitar casos con duración igual a 0. Si la observación es el último subepisodio de un episodio (variable markend igual a 1), entonces el estado de destino es igual al valor de la variable sta en la observación siguiente. Por ejemplo, para el último subepisodio del episodio de desempleo del sujeto con pid = 432101 que empieza en el mes 28 y acaba al final del mes 31, la variable dest es igual a 1 (es decir, el episodio acaba con una transición a la ocupación). En los demás subepisodios la variable dest tiene valor perdido y Stata los considera como casos de censura a la derecha. Finalmente conservamos sólo los episodios de desempleo (los episodios con la variable sta igual a 2) y utilizamos el comando stset para dar a los datos el formato de AHA y estudiar la transición a la ocupación (variable dest igual a 1). En el cuadro A.2 se presenta el resultado final de la preparación de los datos para los episodios de desempleo del ejemplo con las cuatro variables claves del AHA.
CUADRO A.2 COMANDOS PARA DEFINIR LAS VARIABLES CLAVE PARA EL AHA EN EL FICHERO DE DATOS EUROPANEL.DTA (APENDICE1.DO)
. ge markorg = 1 if sta ~ = sta[_n–1] | pid ~ = pid[_n–1] (3816 missing values generated) . variable que identifica el inicio de un nuevo episodio si el valor de la variable «sta» es diferente del valor de la variable «sta» en la obervación precendente o si el número de identificación es diferente del número de identificación de la observación precedente . . ge markend = 0 . recode markend 0 = 1 if sta ~ = sta[_n+1] & pid==pid[_n+1] (markend: 137 changes made) . variable que identifica el fin del episodio si el valor de la variable «sta» es diferente del valor de la variable «sta» en la observación siguiente y si el número de identificación es igual al número de identificación en la observación siguiente . . list if pid==432101, noobs nolab nod clean pid month wave sta markorg markend ... 432101 11 2 . . . 432101 12 2 . . 1 432101 13 2 1 1 . 432101 14 2 1 . . 432101 15 2 1 . . 432101 16 2 1 . . 432101 17 2 1 . .
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
1 1 1 1 1 1 1 1 1 1 2 2 2 2 1
159
. . . . . . . . . . 1 . . . 1
. . . . . . . . . 1 . . . 1 .
... . ge start = month if markorg==1 (3816 missing values generated) * variable que identifica la fecha de inicio del episodio . ge start2 = start (3816 missing values generated) . replace start2 = start2[_n–1] if start2==. (3816 real changes made) * se atribuye la fecha de inicio a todos los subepisodios de un mismo episodio . . ge begin = month-start2 . * variable que indica la fecha de inicio para los subepisodios . . ge end = (month-start2) +1 * variable que indica la fecha fin para los subepisodios: se añade un mes para evitar casos con duración = 0, véase el caso del sujeto con pid = 490101 . ge dest = sta[_n+1] if markend==1 (3921 missing values generated) * variable que identifica como acaba el episodio: se la observación es el último subepisodio de un episodio la variable «dest» es igual al valor de la variable «sta» en la siguiente observación . list if pid==432101, noobs nolab nod clean pid
month
wave
sta
432101 432101 432101 432101 432101 432101 432101 432101 432101 432101
11 12 13 14 15 16 17 18 19 20
2 2 2 2 2 2 2 2 2 2
. . 1 1 1 1 1 1 1 1
markorg markend start
start2
begin end
dest
... . . 1 . . . . . . .
. 1 . . . . . . . .
. . 13 . . . . . . .
1 1 13 13 13 13 13 13 13 13
10 11 0 1 2 3 4 5 6 7
11 12 1 2 3 4 5 6 7 8
. 1 . . . . . . . .
160 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 432101 ....
CUADERNOS METODOLÓGICOS 38 21 22 23 24 25 26 27 28 29 30 31 32 33
2 2 2 2 2 2 2 2 2 2 2 2 2
1 1 1 1 1 1 1 2 2 2 2 1 1
. . . . . . . 1 . . . 1 .
. . . . . . 1 . . . 1 . .
. keep if sta==2 (4000 observations deleted) . * se conservan sólo los episodios de desempleo . . stset end, fail(dest==1) id(pid) * se da a los datos formato de AHA
. . . . . . . 28 . . . 32 .
13 13 13 13 13 13 13 28 28 28 28 32 32
8 9 10 11 12 13 14 0 1 2 3 0 1
9 10 11 12 13 14 15 1 2 3 4 1 2
. . . . . . 2 . . . 1 .
Apéndice II
Método de la máxima verosimilitud Este método consiste en elegir las estimaciones para los b que maximizan la probabilidad de observar los datos que son en realidad observados (Allison,1984: p. 84). Imaginemos que tenemos una muestra de n sujetos y para cada uno de ellos ti, di y X i, donde i identifica el sujeto i-ésimo, ti es el momento del tiempo en cual ha ocurrido el acontecimiento o la censura a la derecha, di es una variable dicotómica igual a 1 si hay un acontecimiento, y 0 si está censurado a la derecha, y Xi es un vector de variables independientes para el sujeto i. La verosimilitud de la muestra completa es igual al producto de la verosimilitud de las observaciones individuales. Formalmente: n
(A.1)
ML =
P i
Li
Para las observaciones que no están censuradas y acaban con un acontecimiento Li es igual a f(ti), es decir, la probabilidad de que el acontecimiento ocurra en el tiempo t. Para las observaciones censuradas, Li es igual a 1 – F(ti), esto es, a la probabilidad de que el acontecimiento ocurra después del tiempo t. La ecuación A.1 puede ser reformulada como: n
(A.2)
ML =
P i
(fi(ti)di (1 – Fi(ti))(1–di)
Además, en el capítulo 1 hemos visto que: (A.3)
f(t) = r(t)(1 – F(t))
162
y que (A.4)
CUADERNOS METODOLÓGICOS 38
t
∫
(1 – F(t)) = S(t) = exp (– r(u)du) o
Sustituyendo A.3 y A.4 en A.2 obtenemos la siguiente expresión: n
(A.7)
ML =
P i
(ri(ti)di (1 – Fi(ti))(di) (1 – Fi(ti))(1–di) = t
n
P i
∫
(ri(ti)di exp (– ri(u)du) o
Ahora podemos sustituir ri con cualquier modelo paramétrico que nos parezca oportuno. Para eso tenemos que hacer un supuesto sobre la distribución de la tasa de transición. Por ejemplo en caso del modelo exponencial sabemos que: (A.8)
r(t) = exp (b Xt)
Por lo tanto podemos sustituir A.8 en A.7 y estimar los b que maximizan la función ML.
Apéndice III Ejemplo de la lógica de estimación con verosimilitud parcial
La verosimilitud parcial (PL) es el producto de las verosimilitudes para todos los acontecimientos que han ocurrido. K
(A.9)
PL =
P k=1
Lk
donde Lk es la verosimilitud del acontecimiento k y K es el número de acontecimientos observados. Consideremos el siguiente ejemplo. Tenemos 10 observaciones i y 5 acontecimientos k. TABLA A.1 EJEMPLO DE ESTIMACIÓN DE VEROSIMILITUD PARCIAL
i
ti
k
1
2
I
exp(bX1) / (exp(bX1) + exp(bX2) + ... + exp(bX10))
2
4
II
exp(bX2) / (exp(bX2) + exp(bX3) + ... + exp(bX10))
3
5
III
exp(bX3) / (exp(bX3) + exp(bX4) + ... + exp(bX10))
4
5*
5
6
IV
exp(bX5) / (exp(bX5) + exp(bX6) + ... + exp(bX10))
6
9* V
exp(bX7) / (exp(bX7) + exp(bX8) + ... + exp(bX10))
7
11
8
12*
9
12*
10
12*
Lk
164
CUADERNOS METODOLÓGICOS 38
Además i identifica la observación i-ésima, Ti el tiempo de verificación del acontecimiento o de censura a la derecha para el sujeto i, j identifica el j-ésimo acontecimiento y el asterisco * indica que la observación está censurada a la derecha. Consideremos la siguiente pregunta: dado que un acontecimiento ha ocurrido en el momento del tiempo t = 2, ¿cuál es la verosimilitud de que haya ocurrido para la observación 1 en lugar de para cualquiera de las otras 9 observaciones? La verosimilitud para el primer acontecimiento j = I es LI: (A.9)
LI =
r1(2) ————————————————
r1(2) + r2(2) + … + r10 (2) donde r1(2) es la tasa de transición para el sujeto 1 en el momento 2. Además, sabemos que en el caso de los modelos proporcionales la tasa de transición para la observación i-ésima es igual a: (A.10)
r(t)i = exp(bXi) * q(t)
El paso fundamental ahora es que si sustituimos A.10 en A.9, las cantidades q(t) se anulan entre sí: (A.11)
LI =
exp(bX1) ——————————————————————
exp(bX1) + exp(bX2) + … + exp(bX10) Por lo tanto, podemos estimar los b ignorando la función q(t) que queda sin especificar. Para estimar la verosimilitud del segundo acontecimiento LII el procedimiento es casi idéntico: dado que un acontecimiento ha ocurrido en el momento del tiempo 4, nos preguntamos cuál es la verosimilitud de que haya ocurrido para la observación 2 en lugar de para las otras observaciones. Conviene subrayar que la observación con i = 1 ya no está en riesgo. Así, LII resulta igual a: (A.12)
LII =
exp(bX2) ——————————————————————
exp(bX2) + exp(bX3) + … + exp(bX10) Seguimos con la misma lógica hasta estimar LV: (A.13)
LV =
exp(bX7) ——————————————————————
exp(bX7) + exp(bX8) + … + exp(bX10) Definidos de esta manera todos los Lk, un algoritmo matemático permite estimar los b que maximizan PL sin formular ningún supuesto respecto a forma de dependencia de la tasa de transición q(t).
Referencias
ALLISON, P. (1982). Discrete-time methods for the analysis of event history. En S. Leinhard (ed.), Sociological Methodology, 12, 61-98. ALLISON, P. (1984). Event History Analysis. Regression for Longitudinal Event Data. London: Sage. BERNARDI, F. (1999). Donne fra famiglia e carriera. Strategie di coppia e vincoli sociali. Milano: Franco Angeli. BERNARDI, F. (2001). Is it a timing or a probability effect? Four simulations and an application of transition rate models to the study of unemployment exit. Quality & Quantity, 1, 1-22. BERNARDI, F. (2003). Returns to educational performance at entry into the Italian labour market. European Sociological Review, 19, 1-16. BERNARDI, F., LAYTE, R., JACOBS, S. y SCHIZZEROTTO, A. (2000). Who exits unemployment? Institutional features, individual characteristics and chances of getting a job. A comparison of Britain and Italy. En Gallie, D. y Paugam, S. (Eds.), Welfare Regimes and the Experience of Unemployment. Oxford: Oxford University Press. BERNARDI, F. y POGGIO, T. (2004). Home Ownership and Social Inequality in Italy. En K. Kurz and H. P. Blossfeld (Eds.), Home Ownership and Social Inequality in Comparative Perspective, Stanford: Stanford University Press. BERRY, W. (1993). Understanding Regression Assumption. Newbury Park: Sage. BLOSSFELD, H. P. (Ed.). (1995). The new role of women. Family formation in modern societies. Boulder: Westview Press. BLOSSFELD, H. P., HAMERLE, A. y MAYER, K. U. (1989). Event History Analysis. Hillsdale: Lawrence Erlbaum Associates. BLOSSFELD, H. P. y HAMERLE, A. (1992). Unoberved heterogeneity in event history analysis. Quality & Quantity, 26, 157-168. BLOSSFELD, H. P. y HUININK, J. (1991). Human Capital Investments or Norms of Role Transition? How Women’s Schooling and Career Affect the Process of Family Formation. American Journal of Sociology, 1, 143-168. BLOSSFELD, H. P. y ROHWER, G. (2001). Techniques of Event History Modeling. New Approaches to Causal Analysis (2nd edition). Mahwah: Erlbaum.
166
CUADERNOS METODOLÓGICOS 38
BRÜDERL, J. y DIEKMANN, A. (1995). The log-logistic rate model. Sociological Methods & Research, 24, 158-186. CAROLL, G. y HANNAN, M. (2000). The demography of corporations and industries. Princeton: Princeton University Press. CASTILLA, E. (1998). Análisis dinámico. Madrid: CIS. CASTRO MARTÍN, T. (1999). Pautas recientes en la formación de pareja, Revista Internacional de Sociología, 23, 61-94. CLEVES, M., GOULD, W. y GUTIÉRREZ, R. (2002). An Introduction to Survival Analysis Using Stata. College Station: Stata Press Publication. COLEMAN, J. (1981). Longitudinal Data Analysis. New York: Basic Books. CORBETTA, P. (2003). Metodología y Técnicas de Investigación Social. Madrid: Mc Graw Hill. COX, D. (1972). Regressions models and life-tables. Journal of the Royal Statistical Society, 34, 187-220. D’ADDIO, A. y ROSHOLM, M. (2002). Left-Censoring in Duration Data: Theory and Applications. Working Paper No. 2002-5, Department of Economics, University of Aarhus. DIEKMANN, A. (1989). Diffusion and survival models for the process of entry into marriage. Journal of Mathematical Sociology, 14, 31-44. DIEKMANN, A. (1992). The log-logistic distribution as a model for social diffusion processes. Journal of Scientific & Industrial Research, 51, 285-290. DIPRETE, T. y NONNEMAKER, K. (1997). Structural change, labour market turbulence, and labour market outcomes. American Sociological Review, 3, 386-404. ESPING-ANDERSEN, G., ROHWER, G. y SØRENSEN, L. (1994). Institutions and Occupational Class Mobility: Scaling the Skill Barrier in the Danish Labour Market. European Sociological Review, 2, 119-134. FLINN, C. y HECKMANN, J. (1983). Are Unemployment and Out of the Labor Force Behaviorally Distinct Labor Force States? Journal of Labor Economics, 1, 28-42. GARRIDO, L. y TOHARIA, L. (2004). What does it take to be (counted as) unemployed? The case of Spain. Labour Economics, 11, 507-523. GOLDTHORPE, J. (2000). On Sociology. Numbers, Narratives and the Integration of Research and Theory. Oxford: Oxford University Press. GUILLÉN, M. (1992). Análisis de regresión múltiple. Madrid: CIS. GUO, G. (1993). Event-History Analysis for Left-Truncated Data. Sociological Methodology, 23, 217-243. HANNAN, M., CAROLL, G., DOBREV, S. y HAN, J. (1998). Organizational Mortality in European and American Automobile Industries. Part I: Revisiting the Effects of Age and Size. European Sociological Review, 3, 279-302. HERNES, G. (1972). The process of entry into first marriage. American Sociological Review, 37, 173-182.
ANÁLISIS DE LA HISTORIA DE ACONTECIMIENTOS
167
HOLLAND, P. W. (1986). Statistics and causal inference. Journal of the American Statistical Association, 81, 945-960. HOSMER, D. y LEMESHOW, S. (1999). Applied Survival Analysis: Regression Modeling of Time to Event Data. New York: John Wiley & Sons. JENKINS , S. (2004). Survival Analysis. Unpublished manuscript. Institute for Social and Economic Research, University of Essex, Colchester, http://www. iser.essex.ac.uk/teaching/degree/stephenj/ec968/pdfs/ec968lnotesv5.pdf. KENNAN, J. (1985). The duration of contract strike in U.S. manufacturing. Journal of Econometrics, 28, 5-28. KING, G., ALT, J., BURNS, N. y LAVER, M. (1990). A Unified Model of Cabinet Dissolution in Parliamentary Democracies. America Journal of Political Science, 3, 846-71. LI, J., BUCHMANN, M., KÖNIG, M. y SACCHI, S. (1998). Patterns of Mobility for Women in Female-Dominated Occupations: An Event-History Analysis of Two Birth Cohorts of Swiss Women. European Sociological Review, 1, 49-67. MAHAJAN, V. y PETERSON, R. (1985). Models of innovation diffusion. Bevery Hills: Sage. MARAVALL, J. (2003). El control de los políticos. Madrid: Taurus. MERTON, R. K. (1987). Three Fragments from a Sociologist’s Notebook: Establishing the Phenomenon, Specified Ignorance, and Strategic Materials. Annual Review of Sociology, 13, 1-28. NARANDRANATHAN, W. y STEWART, M. (1991). Simple methods for testing the proportionality of cause-specific hazards in competing risks models. Oxford Bulleting of Economics and Statistics, 53, 331-340. NAZIO, T. y BLOSSFELD, H. P. (2003). The Diffusion of Cohabitation among Young Women in West Germany, East Germany and Italy. European Journal of Population, 19, 47-82. OLZAK, S. (1992). The Dynamics of Ethnic Competition and Conflict. Stanford: Stanford University Press. OPPENHEIMER, V. K., KALMIJN, M. y LIM, N. (1997). Men’s Career Development and Marriage Timing During a Period of Rising Inequality. Demography, 3, 311-330. PETERSEN, T. (1995). Analysis of Event History. En G. Arminger, C. Clogg y M. Sobel (eds.), Handbook of Statistical Modeling for the Social and Behavioral Sciences. New York: Plenum Press. RICE, J. (1988). Mathematical Statistics and Data Analysis. Pacific Grove: Wadsworth & Brooks. SOBEL, M. (1995). Causal inference in the Social and Behavioral Science. En G. Arminger, C. Clogg y M. Sobel (eds.), Handbook of Statistical Modeling for the Social and Behavioral Sciences. New York: Plenum Press.
168
CUADERNOS METODOLÓGICOS 38
SØRENSEN, A. (1977). The structure of inequality and the process of attainment. American Sociological Review, 42, 965-978. SØRENSEN, A. (1986). Progress in Studying Change. American Journal of Sociology, 3, 691-706. SØRENSEN, A. (2000). Theoretical mechanisms and the empirical study of social processes. En P. Hedstroem y R. Swedberg (Eds.), Social Mechanisms: An Analytical Approach to Social Theory (pp. 238-266). Cambridge: Cambridge University Press. SØRENSEN, A. y TUMA, N. (1981). Labor market structures and job mobility. Research in Social Stratification and Mobility, 1, 67-94. SOULE, S. (1997). The Student Divestment Movement in the United States and Tactical Diffusion: The Shantytown Protest. Social Forces, 75, 855-882. STATCORP. (2003). Stata Statistical Software: Release 8.0. Survival Analysis and Epidemiological Tables. College Station: Stata Corporation. STRANG, D. (1994). Introduction to event history analysis. En Janoski, T. y Hicks, A. (Eds.), The Comparative Political Economy of the Welfare State. Cambridge: Cambridge University Press. STRANG, D. y SOULE, S. (1998). Diffusion in Organizations and Social Movements: from Hybrid Corn to Poison Pills. Annual Review of Sociology, 24, 265-290. STRANG, D. y TUMA, N. (1993). Spatial and Temporal Heterogeneity in Diffusion. American Journal of Sociology, 3, 614-639. TUMA, N. y HANNAN, M. (1984). Social Dynamics. New York: Academic Press. USUI, C. (1994). Welfare state development in a world system context: event history analysis of first social insurance legislation among 60 countries, 19801960. En Janoski, T. y Hicks, A. (Eds.), The Comparative Political Economy of the Welfare State. Cambridge: Cambridge University Press. VERMUNT, J. (1997). Log-Linear Models for Event Histories. London: Sage. WINSHIP, C. MORGAN, S. (1999). The estimation of causal effect from observational data. Annual Review of Sociology, 25, 659-707. YAMAGUCHI, K. (1991). Event History Analysis. London: Sage. ZORN, C. (2000). Modeling Duration Dependence. Political Analysis, 8, 367-38.
Números publicados 21. Metodología del análisis comparativo Jordi Caïs 22. Metodología cualitativa en España Bernabé Sarabia y Juan Zarco 23. Evaluación de la investigación Joan Bellavista, Elena Guardiola, Aida Méndez y María Bordons 24. Bancos de datos Magdalena Cordero Valdavia 25. Análisis dinámico Emilio J. Castilla 26. Cuestionarios María José Azofra 27. Análisis de datos electorales Pablo Oñate y Francisco A. Ocaña 28. Metodología de la Ciencia Política Eva Anduiza Perea, Ismael Crespo y Mónica Méndez Lago 29. Elección racional Pau Marí-Klose 30. Estudio de casos Xavier Coller 31. Diarios de campo Juan M. García Jorba 32. Entrevistas cualitativas Miguel S. Valles 33. Introducción a las matemáticas para las ciencias sociales Francisca Blanco Moreno 34. Teoría de juegos Ignacio Sánchez-Cuenca 35. La encuesta: una perspectiva general metodológica Francisco Alvira Martín 36. Manual de trabajo de campo en la encuesta Vidal Díaz de Rada 37. «Grounded Theory»: La construcción de la teoría a través del análisis interpretacional Antonio Trinidad Requena, Virginia Carrero Planes y Rosa M.ª Soriano Miras
Cuadernos Metodológicos 38
Fabrizio Bernardi (Bologna, 1970) es profesor de Estructura Social Contemporánea en el Departamento de Sociología II de la UNED. Doctor en Sociología e Investigación Social por la Universidad de Trento en 1998, ha sido profesor de Sociología en la Universidad de Bielefeld y de Métodos de Investigación en Ciencias Sociales en la Universidad de Bologna. Ha publicado diversos artículos en revistas extranjeras y nacionales, así como capítulos en libros sobre la desigualdad social y las dinámicas familiares y laborales.
38
Análisis de la Historia de Acontecimientos
Análisis de la historia de Acontecimientos
Fabrizio Bernardi
Centro de Investigaciones Sociológicas
Centro de Investigaciones Sociológicas
El análisis de la historia de acontecimientos permite estudiar de forma dinámica las pautas según las cuales sucede un acontecimiento dado. En este libro se presentan sus fundamentos estadísticos y se discuten ejemplos concretos de su aplicación. Los ejemplos abarcan todas las fases de un análisis de la historia de acontecimientos, desde la organización de los ficheros de datos y la definición de las variables que se modifican en el tiempo, hasta la estimación de modelos multivariados y la interpretación de sus resultados. El programa estadístico que se utiliza en las aplicaciones presentadas en el texto es Stata. Todos los ficheros con los datos y comandos del programa estadístico, así como las soluciones para los ejercicios propuestos al final de cada capítulo, se encuentran en el CD adjunto. El lector podrá, por lo tanto, reproducir los ejemplos concretos de investigación empírica desarrollados en el texto y aprender, paso a paso, cómo realizar un análisis de la historia de acontecimientos.