225 5 2MB
Spanish Pages [336] Year 2011
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
INTRODUCCIÓN
DAVID F. NETTLETON
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Madrid-Buenos Aires
3
© David F. Nettleton, 2005 (Libro en papel) ¤ David F. Nettleton, 2011 (Libro electrónico) Reservados todos los derechos. “No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos sin el permiso previo y por escrito de los titulares del Copyright”
Ediciones Díaz de Santos, S.A. Albasanz, 2 28037 MADRID http.//ediciones.diazdesantos.es ediciones@díazdesantos.es
ISBN: 978-84-9969-067-4 (Libro electrónico) ISBN: 978-84-7978-721- (Libro en papel)
1 Agradecimientos y reconocimientos
El autor agradece las contribuciones y colaboración de las personas y entidades que se citan a continuación. El área de la representación de datos de diferentes tipos, que comprende las Secciones 2.4, 6.1 y 6.2 del libro, fue realizada en colaboración con la doctora Karina Gibert del Departamento de Matemáticas y Estadísticas de la Universidad Politécnica de Cataluña, en el periodo 1996-1997. El área de agregación y proceso difuso de los datos, que comprende las secciones 2.2, 2.3, 7.3, 7.4, 7.5 y 8.2 del libro, se realizó en colaboración con el doctor Vicenc Torra del Instituto de Investigación en Inteligencia Artificial, Bellaterra y el doctor Juan Jacas del Departamento de Matemáticas, Escuela de Arquitectura, Universidad Politécnica de Cataluña, en el periodo 1997-2001. Las técnicas han sido probadas en dos áreas clínicas, en colaboración con tres hospitales durante un periodo de cinco años: datos de pacientes de UCI del Hospital Parc Taulí de Sabadell; datos de pacientes de apnea del Hospital Clínico de Barcelona y datos de pacientes de apnea del Hospital de la Santísima Trinidad de Salamanca. El autor reconoce y agradece la colaboración del doctor Xavier Companys (anteriormente del Hospital Parc Taulí de Sabadell) en proporcionar el conjunto de datos usado en el Capítulo 9 del libro, y su colaboración en la interpretación de los resultados del análisis. El autor reconoce y agradece la colaboración de la doctora Lourdes Hernández del Laboratorio del Sueño del Hospital Clínico de Barcelona, en proporcionar el conjunto de datos usado en el Capítulo 10 del libro y en realizar la contribución al Capítulo 5 y de las Tablas 5.1 y 5.2. Por último, el autor reconoce y agradece a los doctores Joaquín y Joaquina Muñiz del Centro de Estudios del Sueño del Hospital de la Santísima Trinidad de Salamanca, por su colaboración en la capta-
VIII
AGRADECIMIENTOS Y RECONOCIMIENTOS
ción de datos de los pacientes de apnea a partir de los cuestionarios que hemos usado en el Capítulo 11. Asimismo, se agradece su colaboración en la interpretación de los resultados del análisis, y por su contribución al Capítulo 5. Por último, agradecemos a María Sánchez Leiva por realizar las ilustraciones en las páginas 39, 67, 73, 190, 191, 194, 243, 247 y 263, que fueron encargadas especialmente para el libro.
1 Índice
Agradecimientos y reconocimientos ...........................................
VII
11. Introducción ......................................................................... 11.1. Contexto de la obra ..................................................... 11.2. Motivos ....................................................................... 11.3. Objetivos ..................................................................... 11.4. El alcance y la orientación del libro desde el punto de vista del análisis de datos ............................................
1 4 5 6
Parte I. Conceptos y técnicas .......................................................
11
12. Conceptos .............................................................................. 12.1. La “minería de datos” ................................................. 12.2. Relevancia y fiabilidad ............................................... 12.3. Agregación de variables y datos ................................. 12.4. La representación “difusa” de los datos ...................... 12.5. Análisis de datos con técnicas “difusas” .................... 12.6. Clustering ................................................................... 12.7. Clasificación ...............................................................
13 13 20 26 28 30 34 36
13. La perspectiva difusa ........................................................... 13.1. Conceptos básicos ....................................................... 13.2. Concepto de “pertenencia difusa” .............................. 13.3. Relaciones difusas ...................................................... 13.4. Definición de un “conjunto difuso” ............................ 13.5. Siete métodos para definir una función de pertenencia .. 13.6. Definición de “variable difusa” .................................. 13.7. Definición de “número difuso” ................................... 13.8. Los “cuantificadores” .................................................
39 39 40 41 42 43 44 45 45
8
X
ÍNDICE
13.9. Representación difusa de variables de tipo binario .... 3.10. La selección de características .................................... 3.11. Funciones de pertenencia para datos clínicos .............
47 49 50
14. El diagnóstico y el pronóstico clínico ................................. 14.1. Enfoque de la estadística “clásica” ............................. 14.2. Sistemas de puntuación de pronóstico en cuidados intensivos .................................................................... 14.3. Ejemplos de algunos de los sistemas más comunes de puntuación de pronóstico ............................................ 14.4. Enfoques de la inteligencia artificial .......................... 14.5. Grupo de la Universidad de California en Irving: Repositorio base de datos sobre aprendizaje automatizado ..
55 55
15. El diagnóstico del síndrome de apnea del sueño ............... 15.1. Presentación clínica .................................................... 15.2. Prevalencia .................................................................. 15.3. Morbidity y mortalidad ............................................... 15.4. Diagnóstico .................................................................
67 68 68 69 69
16. La representación, comparación y proceso de datos de diferentes tipos ..................................................................... 16.1. Representación y proceso de datos de tipos diferentes .. 16.2. Comparación entre diferentes tipos de datos .............. 16.3. La mejora del cuestionario para el diagnóstico de apnea del sueño (estudio del Capítulo 11) ...................... 17. Técnicas ................................................................................ 17.1. Técnicas estadísticas ................................................... 17.2. La técnica de inducción de reglas: ID3 y C4.5/5.0 ..... 17.3. La técnica de “amalgamación”: los algoritmos de clustering de Hartigan ................................................. 17.4. La técnica de “agregación”: CP, OWA y WOWA ....... 17.5. La técnica de “agrupación difusa”: Fuzzy c-Means ... 17.6. La técnica de redes neuronales para clustering (tipo “Kohonen SOM”) ....................................................... 17.7. La técnica de “redes neuronales” para predicción ...... 17.8. La técnica del “algoritmo evolutivo” (o “genético”) ...
56 57 59 64
73 73 83 103 119 119 125 135 139 146 153 156 158
ÍNDICE
18. Resumen de los aspectos claves en la adaptación e implementación de las técnicas .................................................... 18.1. El cálculo de covarianzas difusas entre variables ....... 18.2. Resumen de las adaptaciones del operador de agregación WOWA ................................................................ Parte II. Aplicación de las técnicas a casos reales ..................... 19. Pronóstico de pacientes de la UCI - Hospital Parc Tauli de Sabadell ................................................................................. 19.1. Exploración inicial de los datos .................................. 19.2. Proceso del conjunto de datos UCI con la técnica de inducción de reglas C4.5 ............................................. 19.3. Proceso del conjunto de datos UCI con la técnica de inducción de reglas ID3 .............................................. 19.4. Clustering con la red neuronal Kohonen SOM .......... 19.5. Aplicación del joining algorithm de Hartigan a los datos UCI, usando covarianzas “difusas” y “no-difusas” como entradas ..................................................... 19.6. Proceso de los datos UCI con la técnica “Fuzzy cMeans” ........................................................................ 19.7. Resumen ..................................................................... 10. Datos del cuestionario de apnea. Laboratorio del sueño. Neumología (ICPCT), Hospital Clínico de Barcelona ...... 10.1. El diagnóstico de apnea usando WOWA con cocientes asignados por el médico experto ................................. 10.2. La comparación de diferentes métodos para asignar los cocientes de relevancia y fiabilidad. Agregación de datos usando el operador WOWA para casos de apnea del sueño ........................................................... 10.3. Resumen ..................................................................... 11. Datos del cuestionario de apnea. Centro de Estudios del Sueño (Neumosalud), Hospital de la Santísima Trinidad de Salamanca) ...................................................................... 11.1. Datos de prueba–variables seleccionadas ................... 11.2. Comparación de las formas de representación categórica y como escala, de las preguntas del cuestionario .....
XI
165 171 181 189 191 194 201 217 227
231 238 242 247 249
253 261
263 265 269
XII
ÍNDICE
11.3. Aprendizaje y asignación de los valores de relevancia y fiabilidad .................................................................. 11.4. Resultados: diagnóstico de apnea usando el operador de agregación WOWA ................................................ 11.5. Comparación de la precisión predictiva en el diagnóstico usando agregación WOWA respecto a otros métodos de modelización predictiva ................................... 11.6. Resumen .....................................................................
272 276
277 278
12. Resumen y conclusiones ......................................................
281
Anexo A. Descripción de todas las variables del conjunto de datos de “Admisiones Hospitalarias UCI”, procesado en el Capítulo 9 del libro .......................................................................
287
Anexo B. Cuestionario de apnea screening usado en Capítulos 10 (versión no-difusa/categórica) y 11 (versión difusa/con escalas) ...........................................................................................
295
Glosario .........................................................................................
303
Índice de autores ..........................................................................
313
Bibliografía ...................................................................................
317
Índice analítico .............................................................................
325
1 Introducción
Este libro está dirigido a las personas que por razones profesionales o académicas tienen la necesidad de analizar datos de pacientes, con el motivo de realizar un diagnóstico o un pronóstico. Se explican en detalle las diversas técnicas estadísticas y de aprendizaje automatizado para su aplicación al análisis de datos clínicos. Además, el libro describe de forma estructurada, una serie de técnicas adaptadas y enfoques originales, basándose en la experiencia y colaboraciones del autor en este campo. El autor incorpora materia tanto de su experiencia práctica como de sus diversos proyectos de investigación, para enriquecer el contenido, el cual ofrece un enfoque original sobre la problemática del tema. En la Parte II (Capítulos 9 al 11), ejemplos prácticos derivados de proyectos reales sirven para ilustrar los conceptos y técnicas explicadas en la Parte I (Capítulos 2 al 8). Prácticamente todos los métodos, técnicas e ideas que se presentan, por ejemplo “representación de datos”, “relevancia y fiabilidad de los datos” y “agregación”, pueden ser aprovechados tanto por el estudiante de medicina, de informática clínica o de estadística, como por un empleado de un laboratorio clínico u hospital. No es imprescindible disponer de un gran volumen de datos, y las herramientas de análisis citadas están disponibles a un precio módico o son de distribución gratuita. A los lectores del libro, sí que se les supone una cierta familiaridad con la estadística, y de los objetivos básicos del análisis de datos clínicos: diagnóstico, pronóstico, identificación de tendencias, excepciones, similitudes, etc. Con referencia a la Figura 1.1, la Primera Parte del libro consiste de los Capítulos 2 al 8. En los Capítulos 2 al 5 se presentan los conceptos de análisis y los entornos de datos clínicos: Capítulo 2, Conceptos; Capítulo 3, La perspectiva difusa; Capítulo 4, El diagnóstico y el pronóstico clínico; Capítulo 5, Diagnóstico del síndrome de Apnea del Sueño. En
2
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Capítulos 6 al 8, se afrontan con mayor profundidad las técnicas usadas, la problemática de la representación de los datos, y las adaptaciones propias de las técnicas estándar: Capítulo 6, Representación, comparación y procesos de datos de diferentes tipos; Capítulo 7, Técnicas, y Capítulo 8, Adaptaciones de las técnicas estándar. Con referencia a la Figura 1.2, la Segunda Parte del libro consiste de los Capítulos 9 al 11, en los cuales se explica la aplicación de las técnicas y conceptos en tres situaciones reales: Capítulo 9, UCI – datos para el pronóstico (Hospital Parc Taulí, Sabadell); Capítulo 10, Datos (no-difusas) cuestionario Apnea (Hospital Clínico, Barcelona), y Capítulo 11, Datos (difusas) cuestionario Apnea (Hospital de la Santísima Trinidad, Salamanca). El Capítulo 9 trata del pronóstico de pacientes admitidos a la UCI, en términos de supervivencia y tiempo de estancia en el hospital. El Capítulo 10 trata del diagnóstico de pacientes de apnea a partir de datos captados de forma no-difusa (categórica), y por último, el Capítulo 11 explica el diagnóstico de pacientes de Apnea a partir de datos captados de forma no-difusa y difusa (escalas).
4
3 •nData Mining. 2 •nRelevancia y fiabilidad. •nAgregación de variables y datos. •nRepresentación difusa de los datos. •nAnálisis de los datos con técnicas difusas. •nClustering. •nClasificación.
La perspectiva difusa. 5 Diagnosis del síndrome de apnea en el sueño.
Diagnóstico y pronóstico clínico. Representa- 6 ción, comparación y proceso de datos de diferentes tipos.
➡
Relación de los capítulos del libro con los conceptos y las técnicas presentadas
7 Técnicas.
Agrupación 7.5
difusa: fuzzy c-Means.
7.1 Técnicas estadísticas.
Inducción 7.2 de Reglas: C4.5 e ID3.
7.6 Agrupación SOM, red neuronal tipo Kohonen.
7.3 Amalgamación: Hartigan.
7.7 Redes neuronales predictivas tipo ‘propagación hacia delante.’
Adaptaciones de las técnicas estándar.
8
El cálculo de 8.1 covarianzas difusas entre variables. Adaptaciones 8.2 del operador de agregación WOWA.
➡
Conceptos
7.4 Agregación: WOWA.
7.8 Algoritmos genéticos.
Figura 1.1.NParte I: relación de capítulos (enumerados en rectángulos correspondientes con los conceptos y las técnicas expuestas).
INTRODUCCIÓN
3
Para los lectores que deseen enfocar en los aspectos más prácticos, se recomienda la siguiente lectura del libro: Capítulo 2, Conceptos; Capítulo 4, El diagnóstico y pronóstico clínico; Capítulo 5, Diagnóstico del Síndrome de Apnea del Sueño; Capítulo 9, UCI – datos para el pronóstico (Hospital Parc Taulí, Sabadell); Capítulo 10, Datos (no-difusas) cuestionario Apnea (Hospital Clínico, Barcelona), y Capítulo 11, Datos (difusas) cuestionario Apnea (Hospital de la Santísima Trinidad, Salamanca). Para los lectores que están interesados en los aspectos teóricos, se recomienda un mayor enfoque en los siguientes capítulos del libro: Capítulo 3, La perspectiva difusa; Capítulo 6, Representación, comparación y procesos de datos de diferentes tipos; Capítulo 7, Técnicas, y Capítulo 8, Adaptaciones de las técnicas estándar. Relación de los capítulos del libro: aplicación de los conceptos y las técnicas a entornos reales
Entornos reales 9
10
11
Pronóstico de pacientes admitidos a la UCI (Hospital Parc Tauli, Sabadell).
Diagnóstico del síndrome de apnea en el sueño (Hospital Clínico. Barcelona).
Diagnóstico del síndrome de apnea en el sueño (Hospital Santísima Trinidad, Salamanca).
•nTécnicas estadísticas estándar y de visualización de datos.
•nCuestionario que captura los datos de forma categórica. •nDiagnóstico usando WOWA. •nAsignación de los cocientes de fiabilidad y relevancia por el especialista médico. •n– comparativa con OWA y ‘Componentes Principales’. •nAsignación de los cocientes de fiabilidad y relevancia asignados por un consenso de diferentes técnicas. •n– k-Means, Kohonen, Condorcet. Covarianzas Pearson ‘Cross Product’. Regresión logística, regresión lineal, C4.5 inducción de reglas, red neuronal prop. delante.
•nDos cuestionarios: uno que captura los datos de forma categórica y otro que captura los datos de forma difusa. •nComparación de la forma de representación categórica de las preguntas con la forma difusa. •nComparación de la asignación de los cocientes por el médico con la asignación/aprendizaje de los cocientes por un algoritmo genético. •nComparación del acierto predictivo en diagnosis de la técnica de agregación WOWA, con las técnicas de red neuronal e inducción de árbol ID3.
•nInducción de Reglas: C4.5 o ID3. Redes neuronales predictivas tipo ‘propagación hacia-delante’. Amalgamación: Hartigan usando covarianzas difusas y no difusas como entradas. Agrupación SOM red neuronal tipo Kohonen. •nAgrupación difusa: fuzzy c-Means.
Figura 1.2.NParte II: capítulos (enumerados) dedicados a la descripción y resultados de la aplicación de los conceptos y técnicas a entornos reales.
4
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
1.1.NCONTEXTO DE LA OBRA Este libro cubre una serie de líneas de investigación aplicada que comprenden el periodo desde 1996 hasta 2001. El objetivo global del trabajo contempla el desarrollo y refinamiento de un conjunto de métodos y herramientas que se pueden aplicar a las diferentes fases en el proceso de “minería de datos clínicos”. Una primera consideración ha sido cómo representar y procesar de forma conjunta a diferentes tipos de datos, por ejemplo, los tipos categórico, numérico y difuso, usando técnicas de agregación, amalgamación de variables y técnicas difusas. El área de la representación de datos de diferentes tipos (Secciones 2.4, 6.1 y 6.2 del libro), fue realizada en el periodo 1996-1997, en colaboración con la doctora Karina Gibert (Departamento de Matemáticas y Estadísticas, Universidad Politécnica de Cataluña). Está seguido por el estudio y contraste de diferentes técnicas de modelización de datos, como por ejemplo, clustering, redes neuronales e inducción de reglas (Capítulos 9 y 10). La segunda área principal de estudio es la representación y proceso difuso de los datos y la agregación de datos (Secciones 2.3, 6.3, 7.4, 8.2, Capítulos 10 y 11). Este estudio se realizó en colaboración con el doctor Vicenc Torra (Instituto de Investigación en Inteligencia Artificial, Bellaterra) y el doctor Juan Jacas (Departamento de Matemáticas, Escuela de Arquitectura, Universidad Politécnica de Cataluña) entre 1997 y 2001. Se centra en el uso de operadores de agregación, como, por ejemplo, WOWA, para procesar dominios reales de datos clínicos. Asimismo, se proponen soluciones para algunos de los problemas implícitos en estos operadores, como, por ejemplo, el tratamiento de datos desconocidos y la asignación de los valores de los cocientes. Diversos conjuntos de datos artificiales de prueba han sido procesados, además de tres conjuntos reales de datos clínicos. Los conjuntos de datos de prueba usados incluyen Iris, y datos publicados por Hartigan, Bezdek y Torra. Además, las técnicas han sido aplicadas a dos dominios médicos, en colaboración con tres hospitales durante un periodo de cinco años: datos de pacientes de UCI del Hospital Parc Taulí, Sabadell, España; datos de pacientes de apnea del Hospital Clínico, Barcelona, España, y datos de pacientes de apnea del Hospital de la Santísima Trinidad, Salamanca, España.
INTRODUCCIÓN
5
El análisis de datos y la representación de datos son dos áreas que han sido revolucionadas por el advenimiento de los métodos de aprendizaje automatizado a partir de 1950. A mediados de la década de los 60, Zadeh introdujo los conceptos difusos para el análisis de datos. Posteriormente, otros investigadores evolucionaron estas ideas. Bezdek, por ejemplo, llegó a definir el algoritmo Fuzzy c-Means para la agrupación difusa de datos. Otros hitos claves fueron la aparición de las redes neuronales para la modelización supervisada, de las cuales el feedforward NN (propagación por delante) era de los más comunes. Una de las primeras referencias de redes neuronales es la de [Rosenblatt59]. Después entró en escena la inducción de reglas, que prometió ser una técnica con una amplia área de aplicación. Quinlan definió el algoritmo ID3, que llegó a ser el primer algoritmo “estándar” de inducción de reglas en la industria del software. Las redes neuronales perdieron su popularidad en la década de los 70 debido a problemas teóricos no resueltos (por ejemplo los mínimos locales), pero volvieron a destacar en los años 80. Los sistemas expertos adquirieron popularidad en los años 80, aunque con la llegada de la década de los 90 fueron absorbidos por aplicaciones híbridas y en aplicaciones que resolvieron problemas específicos. Sistemas basados en reglas evolucionaron hacía una combinación de sistemas basados en conocimientos expertos y herramientas para inducir reglas de forma automática a partir de los datos históricos. Otros enfoques fueron el Case Based Reasoning (razonamiento basado en casos), los Belief Networks (redes de creencias) y los operadores de agregación basados en técnicas de inteligencia artificial. Los operadores de agregación llegaron a ser herramientas de uso práctico, debido especialmente al trabajo de Yager en consolidar los aspectos teóricos.
1.2.NMOTIVOS DEL ENFOQUE DEL LIBRO Muchos aspectos de análisis y la representación de datos aún están por resolver, cuando los datos no caen en categorías bien definidas, o cuando no se puede representarlos de una forma simple. En el área de análisis de datos clínicos, hay una constante búsqueda para métodos que aportan una mayor precisión en el diagnóstico de casos positivos y negativos, y una mejor precisión en el pronóstico de la recuperación del paciente a medio y largo plazo.
6
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
El debate respecto a cómo mejor representar y capturar los datos también es un área de estudio actual dónde no existen las “mejores soluciones”. Otra consideración es el hecho de que muchos algoritmos necesitan un gran volumen de datos para poder llegar a un resultado aceptable. Esto es a pesar de que muchos dominios de datos clínicos e incluso otros dominios disponen de un número de casos relativamente pequeño. Como ejemplo, un conjunto de datos clínicos podría consistir en unos 150 casos, mientras que el número de variables descriptivas sería 15 o más. Existen muchas técnicas estadísticas y de minería de datos que siguen asignando los tipos de las variables de forma arbitraria para poder entrar los datos en los procesos y algoritmos de exploración o modelización. El operador WOWA es una técnica de agregación de datos que ofrece una posible solución para algunos de estos problemas. Evaluamos los resultados de aplicar esta técnica a datos reales en los Capítulos 10 y 11 del libro. En el caso del operador WOWA en su forma estándar, requerimos que sea capaz de procesar conjuntos con datos desconocidos, con una mínima pérdida de precisión global. Un inconveniente del operador WOWA es la dificultad de una asignación manual de los vectores de metadatos (cocientes) a partir de un dominio de datos reales. Por esta razón, evaluamos métodos que aprenden los cocientes a partir de los datos históricos. Proponemos desarrollar un método que permita comparar variables de tipo “difuso” y “unificarlas” en un número reducido de factores más significativos. Este método parte de la necesidad de explorar y modelizar un conjunto de datos que incluye variables de diversos tipos. Si revisamos los entornos comerciales actuales de minería de datos, como, por ejemplo, Clementine, IBM Intelligent Miner y SAS Enterprise Miner, observamos que hay una falta en general de la capacidad de procesar datos en la forma difusa. Asimismo, no ofrecen la posibilidad de definir múltiples vectores de cocientes como entradas al modelo de datos. Por último, hay una falta de operadores de agregación y algoritmos de modelización que dan resultados aceptables para conjuntos de datos que contengan un número reducido de casos.
1.3.NOBJETIVOS El primer objetivo del libro es el desarrollo de un conjunto de métodos y herramientas que se pueden aplicar a las distintas fases en el proceso de minería de datos. Es decir, la representación de datos, la explo-
INTRODUCCIÓN
7
ración de los mismos y la creación de modelos. Un segundo objetivo es la revisión de las técnicas existentes, aplicándolas a conjuntos de datos reales y artificiales, e identificando sus limitaciones. De esta forma, podemos definir áreas susceptibles de mejora y podemos desarrollar técnicas que aportan soluciones para los datos y los dominios en cuestión. Demostramos los aspectos fuertes y débiles de una selección de las técnicas más conocidas de análisis estadístico e inteligencia artificial, tanto supervisadas como no-supervisadas. Revisamos técnicas de clustering como k-Means, Fuzzy c-Means y el Kohonen SOM. En lo que se refiere a técnicas de clasificación o modelización predictiva, consideramos a redes neuronales feedforward, inducción de reglas ID3 y C4.5 y la regresión lineal y logística. Consideramos diferentes aspectos de la naturaleza de los datos, por ejemplo, los diversos tipos que los datos pueden asumir: numérico, categórico, binario, etcétera. Evaluamos diferentes formas de representar y analizar los mismos, como, por ejemplo, clustering (segmentación) y clasificación. Comprobamos técnicas, como la agregación, que aportan información adicional al proceso de los datos mediante el uso de criterios de ponderación (cocientes) para indicar la fiabilidad y relevancia de los datos de entrada. Usando técnicas de componentes principales y amalgamación, podemos identificar estructuras subyacentes, mediante un estudio de la forma en que las variables estén agrupadas. Además, como condicionante del entorno real de los datos clínicos, estamos interesados en encontrar técnicas para su representación y proceso que permitan conseguir un resultado aceptable, de clasificación, segmentación, o predicción, a partir de un número relativamente pequeño de casos. Se evalúan herramientas y métodos para todas las fases de minería de datos: la fase de representación y definición inicial de los mismos; la fase de exploración que incluye el estudio de relaciones entre variables que pueden estar definidas como tipos distintos; y por último, la fase de modelización. Estas herramientas nos permiten representar y procesar datos en la forma difusa, junto con datos no-difusos. En la fase de exploración de los datos usamos algoritmos como el “joining algorithm” de Harti-
8
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
gan, y un cálculo propio de distancias difusas de covarianza. En la fase de modelización usamos operadores de agregación como WOWA, para procesar conjuntos de datos con un número pequeño de casos. Hemos adaptado WOWA para poder procesar datos con valores ausentes, e incorporando un método de aprendizaje de los vectores de cocientes a partir de los datos históricos.
1.4.NEL ALCANCE Y LA ORIENTACIÓN DEL LIBRO DESDE EL PUNTO DE VISTA DEL ANÁLISIS DE DATOS El alcance del libro, desde el punto de vista de los dominios de datos, contempla diversos conjuntos de datos artificiales de prueba y tres conjuntos reales de datos clínicos, uno de los cuales ha sido recogido especialmente para el estudio del Capítulo 11. En lo que se refiere a la representación de los datos, revisamos una diversidad de tipos de representación, y se evalúa el caso por la forma difusa. En cuanto a los métodos de proceso de datos, usamos una selección de métodos estándar, como por ejemplo redes neuronales, inducción de reglas y métodos de la estadística clásica, y comparamos estos métodos con técnicas de uso menos “habitual” como la de Hartigan, Fuzzy c-Means u operadores de agregación como WOWA. La orientación del libro tiene dos puntos de énfasis: (1) la evaluación de técnicas difusas para mejorar los métodos existentes de análisis y representación de datos; (2) la aplicación de estas técnicas a datos clínicos para el pronóstico en el caso de los datos UCI, y el diagnóstico en el caso de los datos de apnea. Para terminar la Introducción, en la Figura 1.3 se ve un resumen de los diferentes métodos que han sido usados y probados, tanto estándar como propios, y su relación con las fases de minería de datos. Observamos que la aplicación de los métodos de clustering, como k-Means o Kohonen SOM, está restringida a la fase de exploración de los datos. Por su parte, los métodos de clasificación, como la inducción de reglas, se emplean tanto en la fase de exploración como en la fase de modelización.
INTRODUCCIÓN
Definición y representación de los datos Definición función de pertenencia, cuantificadores, vectores de cocientes, representaciones homogéneas para diferentes tipo de datos, captura de datos.
Representación categórica y no-difusa de los datos.
Exploración de los datos
Covarianzas difusas, visualización, ‘joining algorithm’ de Hartigan, fuzzy c-Means.
k-Means, Kohonen SOM, covarianzas no-difusas, inducción de reglas (C4.5 e ID3).
9
Modelización de los datos
Operador de agregación WOWA.
Redes neuronales propagación hacia delante, inducción de reglas (C4.5), regresión lineal y logística, operadores de agregación de datos OWA y WM.
Figura 1.3.NHerramientas y métodos usados (fila central), su relación a las diferentes fases de Data Mining (fila superior), y métodos existentes usados para comparación (fila inferior).
Parte I Conceptos y técnicas
En esta Primera Parte, que consiste de los Capítulos 2 al 8, se presentan los conceptos y técnicas que usamos luego en la Segunda Parte del libro para analizar los datos clínicos en diferentes entornos. Consideramos tanto los conceptos de análisis de datos como los conceptos clínicos. En el entorno clínico, presentamos dos aplicaciones: la UCI y la problemática de cuidados intensivos, y el Centro de Estudios del Sueño y la problemática del síndrome de apnea. En el Capítulo 2 presentamos los conceptos de Data Mining, relevancia y fiabilidad de los datos, agregación de variables y datos, representación difusa de los mismos y el análisis con técnicas difusas. Por último, en el Capítulo 2 presentamos dos conceptos básicos en el análisis de datos: clustering, es decir, la agrupación de los datos sin información a priori, y la clasificación, que los agrupa en diferentes clases definidas a priori. En el Capítulo 3 introducimos el propósito del enfoque “difuso” (en inglés “fuzzy”) como una forma de representar y procesar los datos, y establecemos por qué este enfoque es el más adecuado para determinados tipos de datos. En el Capítulo 4 presentamos los conceptos clínicos de diagnóstico y pronóstico, junto con una introducción a los sistemas más establecidos de diagnóstico en la UCI (Apache, MPM, SAPS, …). Por último, presentamos técnicas existentes en la literatura para el diagnóstico y pronóstico clínico con técnicas de inteligencia artificial. En el Capítulo 5 presentamos la problemática de diagnóstico del síndrome de apnea del sueño, y en qué consiste. En el Capítulo 6 introducimos la problemática de la representación, comparación y proceso de datos de diferentes tipos.
12
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Con el Capítulo 7 pasamos de los conceptos a las técnicas que vamos a usar en la Parte Segunda para analizar los datos. Hay tanto técnicas de la estadística clásica, como del ámbito de la inteligencia artificial. De la estadística clásica, se definen técnicas cómo la correlación, covarianza, regresión y las técnicas de Hartigan. De la inteligencia artificial, presentamos una diversidad de técnicas: inducción de reglas ID3 y C4.5; el operador de agregación WOWA; el método de agrupación difusa Fuzzy cMeans; el Kohonen SOM para el clustering no-supervisado basado en redes neuronales; redes neuronales predictivas tipo “propagación hacia delante” y algoritmos genéticos. Para terminar la Primera Parte del libro, el Capítulo 8 resume las adaptaciones realizadas por el autor a las técnicas estándar (descritas en el Capítulo 7). Dichas adaptaciones servirán para las necesidades específicas del análisis de datos clínicos que vamos a realizar después en la Parte Segunda.
2 Conceptos
En este capítulo definimos los conceptos básicos que vamos a usar para el análisis y modelización de datos, como, por ejemplo, la minería de datos, el clustering y la clasificación. Además, hacemos un repaso de algunos de los enfoques más recientes de investigación e ideas innovadoras en áreas relevantes de la temática del libro. Dentro de esta sinopsis, incluimos los trabajos de Takagi y Sugeno en la modelización de datos, Dubois en metodología y representación, y Nakamori en el análisis factorial.
2.1.NLA “MINERÍA DE DATOS” Definimos la minería de datos como el análisis de datos con herramientas sofisticadas, que permiten el proceso y visualización de múltiples “vistas”, y la búsqueda de relaciones complejas en los datos. Además de presentar y manipular información conocida respecto a los datos, permite el descubrimiento de nuevos conocimientos. Podemos decir que la minería de datos se caracteriza por el descubrimiento de nuevo conocimiento. La Minería de Datos (en inglés conocida cómo Data Mining o Knowledge Data Discovery), es un proceso de análisis de datos de naturaleza interdisciplinaria, cuya propuesta es la identificación y extracción de conocimientos de alto valor a partir de los datos. Los conjuntos de datos pueden ser de alto o bajo volumen, tener muchos atributos descriptivos, estructuras poca claras, e incorporar datos desconocidos, erróneos y con “ruido”.
14
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
La minería de datos utiliza diversas técnicas para analizar y procesar los datos: a)NEstadística clásica: regresión lineal, correlación, etc... b)NAlgoritmos de aprendizaje automatizado para clasificación y predicción: inducción de reglas, redes neuronales, etc... c)NExploración de datos usando herramientas para su visualización gráfica y manipulación. La estadística, por su parte, ofrece técnicas como la clasificación automática, discriminación, métodos factoriales y visualización gráfica. Por otra parte, la propuesta de algoritmos “inteligentes” es “aprender”, a partir de un conjunto de datos, y formar un modelo que representa el entorno, sea predictivo o de clasificación. Las técnicas que se suelen usar más son: redes neuronales para predecir y clasificar, inducción de reglas para explicar la estructura de un modelo y los perfiles de las clasificaciones; algoritmos genéticos para problemas de optimización; y algoritmos de correlación que sirven para identificar los factores más relevantes en un problema determinado. Todas esas técnicas se orientan hacía el descubrimiento de estructura en un conjunto de datos multidimensional. La relación entre el descubrimiento de conocimiento en bases de datos y el análisis clásico de datos se ve resumido en la Figura 2.1.
Estadística
Sistemas de gestión de bases de datos
Visualización
Descubrimiento de conocimiento en bases de datos
Inteligencia artificial
Análisis clásico de datos
Figura 2.1.NEl “descubrimiento de conocimiento en las bases de datos” y el “análisis clásico de datos”, entendidas como áreas interdisciplinarias.
CONCEPTOS
15
Los proyectos de minería de datos suelen estar orientados hacía el descubrimiento de conocimiento y la generación de modelos de datos. Suelen emplear técnicas como la predicción, clasificación, segmentación, asociación, el descubrimiento de secuencias y el análisis de series temporales. Se pueden usar modelos predictivos; por ejemplo, para predecir los pacientes varones entre 45 y 65 años de edad con una probabilidad mayor de 70% para recuperarse de una enfermedad. Modelos de inducción, que nos pueden indicar los perfiles de los 1.000 pacientes de mayor riesgo para desarrollar una determinada enfermedad. Procesos de asociación, que extraen información como: si el paciente ha padecido A, entonces el/la padecerá B también, en un 65% de los casos. Asimismo, podemos usar técnicas para el descubrimiento de secuencias para deducir; por ejemplo, que una asistencia de tipo A ocurre después de una intervención de tipo C, para 2 de cada 5 pacientes. El descubrimiento de secuencias parecidas en el tiempo nos proporciona información como: si el paciente ha necesitado A, entonces necesitará también B en los próximos 3 meses, en 70% de los casos. Por último, la segmentación o clustering, puede describir estructuras subyacentes sin la necesidad de tener conocimientos a priori sobre los datos. Por ejemplo, podemos establecer tendencias comunes entre pacientes en diferentes áreas del hospital, y asignar recursos comunes para ellos. Algunos de los centros para la minería de datos y grupos de investigadores que han destacado más en los últimos años son: Usama Fayydad de MicroSoft Research, EE UU; Willi Klösgen in GMD (German National Research Centre for Information Technology); Heikki Mannila, anteriormente de la Universidad de Helsinki, Finlandia; G. Nakhaeizadeh de Daimler Benz Research Centre AG, Forschungszentrum, Ulm, Alemania; Gregory Piatetsky-Shapiro de GTE Laboratories, EE UU; Ross Quinlan, del Centre for Advanced Computing Sciences, New South Wales Institute of Technology, Australia; Ken Totton, Data Mining Group, British Telecom, Inglaterra; Barry Devlin, IBM Dublin, Irlanda. El enfoque del grupo de la Universidad de Helsinki se basa en el análisis de secuencias de datos y en la identificación de características recurrentes y subyacentes en secuencias de eventos. Utilizan cadenas de Markov y métodos Monte Carlo para examinar en detalle las dependencias
16
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
entre eventos. Aplican métodos de clustering para encontrar regularidades en los datos. Uno de los enfoques especiales adoptados por este grupo de investigadores se basa en redes neuronales Kohonen para el clustering no-supervisado.
Enfoques actuales En el presente y durante la última década ha habido muchas aplicaciones usando las técnicas de redes neuronales, inducción de reglas y algoritmos genéticos, y en combinación con la estadística clásica. En el área de la minería de datos, existen además referencias a conceptos de la lógica difusa, aplicados al clustering, y la representación y el tratamiento de la imprecisión. En el área de clasificación jerárquica, las referencias tienden estar relacionadas con la inducción de árboles. Borgelt, de la Universidad de Magdeburg, Alemania, ha estudiado medidas de evaluación para el aprendizaje en redes probabilísticas y posibilísticas [Borgelt97]. Borgelt ha colaborado con el grupo de Data Mining de Daimler-Benz bajo los auspicios de Nakhaeizadeh. En [Borgelt97], se emplean las medidas de F y de entropía para calcular la ganancia o pérdida de información, y para propagar estos datos en una red. Una de las áreas de especial enfoque del grupo de investigación de minería de datos de Daimler-Benz ha sido la de técnicas de reducción de datos para grandes números de atributos, y con un número reducido de tipos de datos. Han comprobado sus algoritmos con diferentes dominios de datos, aunque su área principal es, lógicamente para Daimler-Benz, el análisis de fallos de componentes de automóviles y sus características. Dubois, del Institut de Recherche en Informatique de Toulouse, Francia, en su artículo [Dubois97] se centró en una síntesis de los datos dirigida por el usuario y basado en reglas graduadas. Algunos ejemplos de los temas que su grupo de investigadores ha estudiado son: preproceso y reducción de la dimensionalidad de los datos, y la identificación inicial de estructuras en los mismos. Una de sus conclusiones fue, respecto al uso de las técnicas de Kohonen, C4.5 y c-Means para identificar estructuras iniciales en los datos. En el caso de c-Means se concluyó que se debe usar esta técnica con cautela dado que según sus pruebas no
CONCEPTOS
17
funciona bien en la presencia de valores extremos (outliers). Además, cMeans requiere que el usuario especifique el número inicial de clusters. Como alternativa, se puede usar una técnica del tipo de simulated annealing, como por ejemplo, ID3, el cual proporcionaría una buena solución inicial. Asimismo, se podría usar el modelo Sugeno-Takagi como sustituto para el Kohonen SOM estándar. Las técnicas de Kohonen SOM y c-Means pueden encontrar particiones muy distintas en el mismo conjunto de datos, lo que es útil si deseamos demostrar técnicas contrastadas. En [Dubois97] se explica una metodología para el análisis de un conjunto de datos: paso 1, identificar puntos típicos; paso 2, calcular centros; paso 3, refinar reglas. En los datos de ejemplo había sólo dos atributos, dado a que se suponía un preproceso de los datos para elegir las variables más relevantes. El método centra en la creación de reglas a partir de estas variables. En el proyecto Europeo [Esprit] de StatLog [StatLog94], se realizó una comparativa entre 20 de los algoritmos más importantes que sirven para la clasificación usando técnicas basadas tanto en la inteligencia artificial como en la estadística clásica. Entre los algoritmos puestos a prueba se incluyeron: C4.5, discriminante lineal y cuadrática y NewID (variante de ID3). No se incluyó ningún algoritmo basado en la lógica difusa (por ejemplo fuzzy c-Means).
Sistemas comerciales de minería de datos Existe hoy una diversidad de oferta en sistemas comerciales de análisis de datos. Los principales sistemas, en lo que se refiere a ventas, son: Clementine de SPSS, Intelligent Miner for Data de IBM, Enterprise Miner de SAS, y Oracle Data Mining Suite (anteriormente este producto se llamó “Darwin” y Oracle lo compró de la empresa “Thinking Machines”). Todos estos sistemas contienen un repertorio básico de funciones estadísticas para la preparación de los datos, la exploración y la modelización. Además, todos tienen una o más técnicas para la clasificación y segmentación (clustering). Para predicción, suelen incluir las técnicas de “redes neuronales”, o “regresión lineal” y “regresión logística”. Para la clasificación: “inducción de reglas” (suelen usar C5.0 o ID3,
18
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
o algo parecido). Para agrupar datos: “red neuronal Kohonen SOM” o “k-Means”. En el caso de “Intelligent Miner” de IBM, para predicción también tiene la técnica Función de Base Radial (RBF), y para segmentación tiene una técnica basada en el Criterio de Condorcet que crea modelos “demográficos”. El Condorcet ofrece una mejora para datos con muchos valores categóricos. Hay diferentes técnicas para el análisis de asociaciones, series temporales y patrones de secuencias, que se basan en el análisis de frecuencias y reconocimiento de patrones de secuencias (lo que usted hace a simple vista él lo hace de forma automatizada y más rápida). Intelligent Miner destaca por la calidad sus algoritmos y su capacidad de trabajar con grandes volúmenes de datos. En cuanto al interfaz del usuario, una de las características más potentes en manos de un buen usuario, es la forma de mostrar los datos, tanto para exploración como para resultados. Se suelen mostrar juntas a todas las variables (o cuantas quepan en la ventana) con sus distribuciones (histograma por variables numéricas y pastel para variables de categorías). Esto permite un escrutinio de las tendencias de cada variable, y las variables entre sí, a través de diferentes técnicas de proceso (red neuronal, RBF...) y conjuntos de datos (entrenamiento, prueba, sólo clientes de Barcelona, sólo clientes de Madrid...). El Enterprise Miner de SAS emplea una metodología de análisis de datos que se llama SEMMA (sample, explore, modify, model y assess), es decir: muestreo, explorar, modificar, modelizar y evaluar los resultados. Tiene una interface tipo canvas basado en el uso de iconos distintivos que representan las diferentes técnicas y procesos disponibles. Los iconos se usan de forma “coger, arrastrar, soltar”. La interfaz en sí pretende guiar el usuario mediante la metodología SEMMA. Aporta técnicas específicas para asociaciones, patrones secuenciales, árboles de decisión (CHAID/CART/C5.0), redes neuronales, regresión logística, segmentación (k-Means), RBF y una amplia selección de técnicas estadísticas. Podemos decir que los puntos fuertes de esta herramienta son su herencia estadística (SAS originó como una compañía de herramientas estadísticas) y las buenas prácticas impuestas al usuario mediante la metodología SEMMA.
CONCEPTOS
19
Clementine de SPSS (anteriormente de ISL) incorpora técnicas de redes neuronales, regresión e inducción de reglas, con redes Kohonen para segmentación y C5.0 para árboles de decisión. Clementine usa técnicas visuales de forma extensa, las cuales proporcionan al usuario una agilidad para la manipulación y el proceso de los datos. Se puede visualizar los resultados con una variedad de representaciones gráficas como plots, scatter, histogramas o tablas de distribución (alineadas de forma horizontal) y diagramas “telaraña” para desvelar relaciones entre los datos. También es capaz de crear modelos para la predicción, pronóstico, estimación y clasificación que se pueden exportar en lenguaje “C” y usar en otros programas. Tiene una interfaz tipo “canvas”, parecido a la de Enterprise Miner. Podemos decir que el punto fuerte de Clementine es su agilidad en manipular los datos: se puede generar un gráfico, seleccionar una región de ella y hacer un drill-down sobre los datos correspondientes, además de poder “enganchar” procesos de modelización con los de preproceso de los datos, con cierta facilidad. Aunque estas modernas “cajas de herramientas” de minería de datos son bastante completas en su funcionalidad para la exploración y modelización de datos, ninguno de los sistemas más conocidos hasta el presente ofrece el proceso y/o una representación difusa de los mismos. Tampoco suelen disponer de la técnica de algoritmos genéticos accesible por el usuario final. Sí que existen herramientas específicas, como el DataEngine de MIT GmbH’s, que permite el diseño, definición y ejecución de reglas de lógica difusa y de funciones de pertenencia. En el campo de los algoritmos genéticos, el programa Genehunter, de Ward Systems, permite la definición y ejecución de problemas mediante una interfaz tipo hoja de cálculo. Un problema real se define en términos de conjunto de datos, los genes modificables y parámetros como la tasa de mutación y el tipo de intercambio (crossover). Véase Sección 7.8 del libro para una descripción más detallada de los algoritmos genéticos. En el campo de la agregación de datos, no existen operadores explícitos de agregación en las herramientas comerciales más conocidas. Para la selección de atributos y su ordenación desde el punto de vista de relevancia, normalmente existen técnicas contrastadas, como por ejemplo, el análisis de componentes principales, análisis de sensibilidad con red neuronal, podado de arboles de decisión, y diversos tipos de correlación y
20
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
covarianza. En la práctica distintas técnicas pueden dar resultados diferentes.
2.2.NRELEVANCIA Y FIABILIDAD Consideramos un conjunto de casos C1, por ejemplo el conjunto de personas que gozan de buena salud. Cada persona Pn en el conjunto se define por M variables que la describen, por ejemplo, edad, sexo, presión sanguínea, nivel de colesterol, “mapa genético”, si fuma, cantidad que fuma, tipo de dieta, si realiza ejercicio físico, color del cabello, etcétera. Ya hemos determinado el concepto que identifica a los miembros del conjunto (CDC, o concepto que define el conjunto), esto siendo el de las personas que gozan de buena salud. Por lo tanto, podemos decir que algunas de las variables que describen a la persona serán más relevantes que otras al concepto CDC del conjunto. Por ejemplo, sabemos que se puede analizar la variable “mapa genético” para saber si la persona tiene una propensión a padecer determinadas enfermedades. Además, innovaciones más recientes en las técnicas de análisis del “mapa genético” han hecho posible su interpretación precisa. El resultado ha sido que una variable, que hasta hace sólo unos años no estaba disponible, ahora puede tener precedencia sobre cualquier otra variable como indicador de la salud futura de una persona. Así que podemos realizar una suposición cualitativa inicial de que “mapa genético” es relevante para “gozar de buena salud”. De otra parte, la variable “color del cabello” no tiene ninguna influencia en absoluto respecto a sí una persona goza de un mejor o peor estado de salud. En conjuntos complejos de datos con muchas variables, un problema clave al inicio es el de establecer la relevancia de forma cuantitativa de las variables, en relación con un concepto determinado, o “salida”, y obtener una ordenación (ranking) de todos las variables en orden de relevancia. Como consecuencia, quedan eliminadas las variables cuya relevancia es menor que un umbral determinado. De esta forma conseguimos reducir las variables a un conjunto mínimo con mayor relevancia. En el análisis de datos, esto es nuestro objetivo principal en el contexto de la relevancia.
CONCEPTOS
21
Trabajos recientes en el área de “relevancia” El trabajo de [Gonzalez97] presenta dos enfoques contrastados respecto al problema de obtener el conjunto de variables más relevantes. El primer enfoque se trata de eliminar las variables no-relevantes del conjunto total, mientras que en el segundo enfoque se pretende construir un conjunto de variables de mayor relevancia de forma incremental. SLAVE (Structured Learning Algorithm in Vague Environment) tiene como uno de sus objetivos el de acelerar el proceso de aprendizaje, con un tiempo de ejecución dos veces menor que el algoritmo estándar con el mismo número de reglas. Dos criterios para la “bondad” de una regla son (1) el grado de consistencia “blanda” y (2) el grado de completitud. Los conjuntos de datos usados para prueba son: Ionosphere, Soybean y Wine. Para seleccionar las reglas se emplea un algoritmo genético de dos niveles, el nivel de variable y el nivel de valor (del dato). Además, se consideran dos niveles de información: el nivel de relevancia y el nivel de dependencia entre variables. Una regla tiene la siguiente estructura: Regla SI Precedence ENTONCES Antecedente {representado por un cromosoma} En resumen, el método de González usa información sobre la relevancia de las variables predictivas para mejorar los modelos resultantes. [Blum97] tiene diferentes definiciones para la relevancia, que dependen del contexto y objetivos en cada caso. El término “relevancia al objetivo” que usa Blum se refiere a que una característica xi es relevante a un concepto objetivo c si existe una pareja de ejemplos A y B en el espacio de instancias, tales que A y B difieren sólo en su asignación a xi y c(A) z c(B). De esta forma, característica xi es relevante si existe algún ejemplo para el cual, como consecuencia de una modificación de su valor, se ve afectada la clasificación dada por el concepto c. Blum también cita otras definiciones de relevancia, como la “relevancia fuerte a la muestra/distribución”, “relevancia débil a la muestra/distribución”, “relevancia como una medida de la complejidad”, y “utilidad incremental”.
22
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Dependiendo de cómo definimos el concepto de “relevancia”, diferentes características o grupos pueden quedar identificados como relevantes. Blum propone una fase de preproceso para reducir el número de características antes de aplicar la fase de clasificación (inducción). [Blum97] describe un enfoque basado en un “filtro”, parecido pero menos interactivo que el enfoque de Kohavi [Kohavi97]. Primero se ejecuta un módulo que es el filtro en sí, seguido por el proceso de inducción. Blum cita dos ejemplos de algoritmos de filtro. El primer es RELIEF [Kira92], que ha sido usado por muchas aplicaciones de análisis de datos clínicos. RELIEF asigna un “cociente” de relevancia a cada característica, el cual indica la relevancia de la característica respecto al concepto objetivo. A continuación, se realiza un muestreo aleatorio del conjunto de datos de entreno y se actualizan los valores de relevancia, basándose en la diferencia entre el ejemplo (caso) seleccionado y los dos ejemplos más cercanos a la misma clase y de la clase opuesta. El segundo algoritmo de filtro es FOCUS [Almuallim91], que examina de forma exhaustiva todos los subconjuntos de características, seleccionando el subconjunto minimal de características que sea suficiente para determinar el valor de la etiqueta para todos los ejemplos en el conjunto de datos de entreno. [Kohavi97] explora la relación entre la relevancia y la selección de un subconjunto óptimo de características. Se presenta un mecanismo que se llama el “envuelto”, o FSS-Feature Subset Selection. Este mecanismo se incorpora en los algoritmos de inducción de reglas C4.5 e ID3, y en el algoritmo de Niave-Bayes. Se demuestra una mejora en la precisión clasificadora para conjuntos de datos como Corral, Monk1 y Monk2-local, del repositorio de conjuntos de datos la Universidad de California en Irving. Como resultado, se consiguió una precisión igual que con otras técnicas usando un número menor de características como entradas. La justificación para este enfoque es que muchos de los algoritmos de inducción más conocidos pierden rápidamente su precisión predictiva en la presencia de un gran número de características, si la relevancia de estas no es buena para predecir el resultado/salida deseada. El algoritmo estándar de Naive Bayes, por ejemplo, pierde precisión rápidamente cuando se añaden características con una correlación baja con el resultado deseado.
CONCEPTOS
23
Kohavi afirma que el enfoque del “envuelto” ofrece una mejora respecto al simple uso de un filtro como en los algoritmos de FOCUS o RELIEF. Según Kohavi, la principal desventaja de la técnica del filtro es que no toma en cuenta los efectos del subconjunto seleccionado de características sobre el rendimiento del algoritmo de inducción. En contraste, su enfoque sí que toma en cuenta estos efectos. Con el enfoque del “envuelto”, el subconjunto de características queda optimizado para su uso con el algoritmo de inducción. Kohavi, en [Kohavi97], revisa diversas definiciones de “relevancia” en la literatura. Su revisión sólo considera las definiciones para datos de tipo categórico, aunque Kohavi afirma que sería posible extenderlas a datos de tipo numérico. Kohavi concluye que son necesarios dos grados de relevancia para garantizar resultados únicos. Estos dos grados se definen como el grado “débil” y el grado “fuerte”. Demuestra su planteamiento con un ejemplo usando Xor: una característica Xi es relevante en grado “fuerte” si y sólo si existe un xi, y un si para los cuales (Xi = xi, Si=si) > 0 tal que p(Y=y|Xi=xi,Si=si)!=p(Y=y|Si=si). Una característica Xi es relevante en grado “débil” si y sólo si no es relevante en grado “fuerte” y existe un subconjunto de características S’i de Si para el cual existe un xi, y un s’i con p(Xi =xi,S’i=s’i) != p(Y=y|S’i =s’i).
Conjunto de entrenamiento
Búsqueda y selección de características Conjunto de características
Conjunto de entrenamiento
Estimación de la calidad del Conjunto de resultado características
Algoritmo de inducción
Evaluación de características Conjunto de características
Hipótesis
Algoritmo de inducción
Conjunto de prueba
Evaluación final
Precisión estimada
Figura 2.2.NEl enfoque de “envuelto” aplicado a la selección de un subconjunto de características. El algoritmo de inducción esta usado como una “caja negra” por el algoritmo de selección de características.
24
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
En la Figura 2.2 vemos una síntesis del enfoque del “envuelto” explicado en [Kohavi97], en la cual se ve que el algoritmo de selección del subconjunto de características actúa como un “envuelto” alrededor del algoritmo de inducción. El algoritmo de selección realiza una búsqueda para un subconjunto “bueno” usando el algoritmo de inducción como un componente de la función que evalúa los subconjuntos de características. De este modo, se considera que el algoritmo de inducción es una “caja negra”, que procesa el conjunto de datos, particionándolo internamente en conjuntos de entrenamiento y prueba, para los cuales se han eliminado diferentes grupos de características. El subconjunto de características que consigue la evaluación más alta es elegido como el conjunto definitivo sobre el cual se ejecutará el algoritmo de inducción. A continuación, se evalúa el resultante clasificador sobre un conjunto de prueba independiente que no ha sido usado previamente. Kohavi contrasta dos técnicas para la búsqueda y selección de características: (a) hill climbing y (b) best first search. Se aplican estas técnicas de forma sucesiva a los conjuntos de datos de prueba, usando como algoritmos de inducción, el ID3, C4.5 y Naive Bayes. Los resultados indican una ligera mejora en la precisión de clasificación de algunos de los casos. Sin embargo, la principal mejora es la capacidad de crear un modelo de clasificación con un número significativamente menor de características de entrada, manteniendo mientras una precisión predictiva similar a los algoritmos originales.
Fiabilidad La fiabilidad es un campo que fue muy activo en los años 80, con especial referencia a sistemas tolerantes a fallos. Como ejemplos de aplicaciones prácticas, podemos citar a la tolerancia de fallos en redes de comunicaciones y en las unidades centrales de proceso de los ordenadores (CPU); el control de procesos críticos (aviones, centrales nucleares), y la toma de decisiones criticas (diagnóstico, pronóstico, …). Una solución tradicional y sencilla, pero costosa, fue la replicación de unidades, su ejecución en paralelo y una medición de consenso. La salida global del sistema sería igual al valor asignado a la mayoría de las salidas. Por ejemplo, si hay cinco salidas, tres de las cuales tienen asignadas el valor SÍ y dos de las cuales tienen asignadas el valor NO,
CONCEPTOS
25
entonces por mayoría simple, la salida global sería SÍ. Otra solución para la tolerancia a fallos fue la redundancia intrínseca en un sistema. Es decir, si unidad A falla, unidad B, idéntica a la A, se pone en marcha para sustituirla. Ahora vamos a considerar lo que acabamos de comentar desde el punto de vista de la fiabilidad de los valores de los datos. Un enfoque común para maximizar la fiabilidad de los datos es el uso de múltiples fuentes para el mismo valor. Por ejemplo, varios sensores para la medición de una temperatura, o varias opiniones expertos para un diagnóstico clínico. De los N sensores u opiniones, se realizaría una “votación” por mayoría simple sobre un número impar de valores de salida, para producir el resultado definitivo. Como ejemplo, suponemos que hay cinco sensores de temperatura {A,B,C,D,E} y tres de ellos {A,C,E} dicen que la temperatura es entre 10 y 12 grados Celsius, mientras que {B} dice que la temperatura es entre 10 y 15 grados, y {D} indica una temperatura de entre 25 y 50 grados. La salida como resultado sería que la temperatura es entre 10 y 12 grados, por mayoría simple. Anotamos que este método requiere un número impar de sensores. Aunque una mayoría de 60% de los sensores coincidieron con el mismo resultado, un 40% dieron salidas distintas. Si deseamos, podríamos incluir esta información como un grado de confianza en el resultado final. Sistemas replicados y de votación son muy importantes en sistemas críticos de control, como por ejemplo, los que se encuentran en aviones, redes ferroviarias, plantas de energía nuclear, etcétera. Ahora consideramos el caso de una variable de entrada de tipo numérico, por ejemplo, temperatura. Suponemos que para esta variable tenemos un solo sensor y un dato o lectura. Podríamos asignar un valor de “ponderación” (cociente) a la variable para indicar su fiabilidad en general. Es decir, su tendencia para dar resultados incorrectos, relativo a alguna medida absoluta. Otra opción sería asignar un valor que representa un grado de fiabilidad para las diferentes bandas que existen en su distribución. Por ejemplo, si tenemos el siguiente conjunto de lecturas de temperatura en grados Celsius, {1, 1, 3, 3, 25}, el valor 25 sería considerado como “sospechoso”, “improbable” o “poco-fiable”. Sin embargo, la fiabilidad de los valores depende de la distribución en cada caso, así que el
26
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
valor 25 en el conjunto {25, 25, 30, 30, 45} sí que sería considerado como fiable. Por consiguiente, a cada valor podríamos asignarle un grado de fiabilidad, con un valor entre 0 y 1, dónde 1 sería totalmente fiable y 0 indicaría ninguna fiabilidad. Más adelante veremos como Yager y Torra han extendido esta idea para permitir que los operadores de agregación incluyan grados tanto para la fiabilidad como para la relevancia de cada variable de entrada.
2.3.NAGREGACIÓN DE VARIABLES Y DATOS En esta sección vamos a presentar unas técnicas que sirven para agregar datos y variables para dar una respuesta, diagnóstico o pronóstico a partir de un conjunto de datos de entrada. El operador “Ordered Weighted Average” (OWA): es una técnica que permite incluir un “cuantificador” en un proceso de agregación de una serie de casos de datos correspondientes. Fue detallado por la primera vez por Yager en [Yager88]. Con el OWA, Yager trató de encontrar una solución al problema de agregar criterios múltiples para formar una función universal de decisión. Una propiedad clave del operador OWA es la capacidad de orientar su resultado (salida) entre el “y”, para el cual se deben cumplir todos los criterios, y el “o”, para el cual se debe cumplir como mínimo sólo uno de los criterios. De esta forma, permite una aproximación más cercana a la forma de tomar decisiones de las personas, en la cual a menudo requerimos el cumplimiento de “la mayoría” o “muchos”, o “como mínimo la mitad” o “más de cuatro” de los criterios. El operador WOWA: Torra en [Torra97a] describe el operador Weighted OWA (WOWA), que combinan las ventajas del operador de la media ponderada (WM, o Weighted Mean) con las del operador OWA. De esta forma se solucionan algunas de las carencias de estos operadores cuando se consideran por separados. WOWA incluye dos vectores de cocientes: el vector U corresponde a la relevancia de las fuentes de datos (como en la media ponderada) y el vector Z corresponde a la relevancia, que nosotros en este libro interpretamos como la “fiabilidad”, de los valores (como en OWA). Una de las dificultades que se encuentra en usar los operadores de agregación es la asignación inicial de los cocientes asocia-
CONCEPTOS
27
dos, por ejemplo, los pesos de relevancia U de cada fuente de información. En [Nettleton01b] se contrastan diferentes métodos de análisis de datos cuyo fin es determinar unos valores iniciales para los cocientes de WOWA. Elección del operador WOWA: hemos elegido el operador WOWA para agregar los datos que describen los casos de pacientes. El operador produce como resultado, un diagnóstico para el síndrome de apnea, según detallado luego en los Capítulos 10 y 11. Una de las razones de usar WOWA preferentemente a otros posibles operadores como OWA o WM, es porque nos permite incluir una cuantificación tanto para la “fiabilidad” como para la “relevancia” en el proceso de agregación. El operador también es adecuado para procesar datos cuya representación es en la forma difusa, mediante la incorporación de grados de pertenencia como un vector adicional con los datos de entrada. En la literatura, el operador WOWA ha sido comparado con otros operadores y técnicas, como por ejemplo, OWA, Choquet Integral, Sugeno Integral [Sugeno74] y fuzzy t-integral [Murofushi91]. Se puede decir que el Choquet Integral o el Sugeno Integral son más apropiados para el proceso de datos con grados de pertenencia. Sin embargo, Torra ha demostrado en [Torra98c] que WOWA es equivalente al Choquet Integral en determinadas circunstancias. El “Joining Algorithm” de Hartigan: el “Joining Algorithm” [Hartigan75] realiza sucesivas fusiones de las variables usando como entrada una matriz de covarianzas de estas variables. Una consecuencia de la fusión es la reducción del conjunto inicial de variables a un espacio de dimensión 2 o 3, la cual simplifica, por ejemplo, la visualización de los datos. El algoritmo de fusión sirve para lograr dos objetivos: el primero siendo la reducción de variables mediante su progresiva unificación; el segundo siendo la identificación de los factores de mayor relevancia y los factores entre los cuales existe mayor relación. Resumen: en cada paso, se fusiona la pareja de variables con la mayor covarianza para forma una nueva variable, hasta que se obtiene el número deseado de variables o hasta que el árbol binario de agrupaciones es completo. Es a partir de este árbol de variables fusionadas que se pueden seleccionar diferentes descripciones de los objetos que están siendo analizados; descripciones que tengan la dimensión más conveniente en cada caso.
28
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Elección del “Joining Algorithm” de Hartigan: el libro de Hartigan, Clustering Algorithms [Hartigan75] fue un hito de referencia para la comunidad de investigadores en algoritmos de clustering. Ha sido usado como una fuente para algoritmos de prueba, y a partir de la cual han surgido nuevas variantes y mejoras de los algoritmos originales. Además de ser una fuente de algoritmos contrastados, el libro también proporciona y (en general) explica bien el código fuente de los algoritmos, siendo estos escritos en el lenguaje Fortran. La implementación de los algoritmos por parte de Nettleton en el presente libro fue en lenguaje Borland “C”. El enfoque de Hartigan tiene una base sólida en el campo de la estadística clásica, y sus algoritmos son claramente de naturaleza crisp (determinista en vez de probabilística). Esto proporciona un banco de prueba para una posterior generalización y adaptación para el proceso de los datos con técnicas difusas. Trabajos posteriores de Hartigan incluyen algunas consideraciones respecto a la distribución de los datos en el proceso de clustering [Hartigan77][Hartigan78], la consistencia [Hartigan81] y aspectos más teóricos [Hartigan85a][Hartigan85b]. Otros autores comparables en el campo del análisis factorial y el análisis multivariante son [Mardia79][Lebart85][Kaufman90]. [Kaufman90], es de especial relevancia, dado a que sus métodos de análisis se basan en la forma difusa, y su amplia gama de 10 algoritmos distintos para fusión de variables, siendo estos distintos a los de Hartigan.
2.4.NLA REPRESENTACIÓN “DIFUSA” DE LOS DATOS Existen diferentes técnicas para representar datos de forma difusa. Por ejemplo, la representación heterogénea de Hathaway y Bezdek [Hathaway96] y los “Parmenidean Pairs” de [Aguilar91]. En [Aguilar91] se presenta una técnica que se llama “Parmenidean Pairs” (en castellano, pares parmenideanos), que genera de forma automática a un número impar de etiquetas lingüísticas a partir de dos conceptos lingüísticos antagónicos. Las cinco etiquetas lingüísticas generadas representan los valores ordenados de la variable, derivado de lo que se termina “Parmenidean Pair”, que responde a los valores básicos y opuestos que puede asumir la variable. Este método es muy apto para variables como “días de estancia en el hospital”. Para esta variable podríamos definir cinco valores difusos para la estancia del paciente: MUY CORTA, CORTA, ME-
CONCEPTOS
29
DIANA, LARGA, MUY LARGA, derivados a partir de los apuestos básicos de CORTA, LARGA. La complejidad y utilidad de la técnica resta en el cálculo automático de las propiedades geométricas de las funciones de pertenencia: pendiente, centro de masa, solapamiento entre cada etiqueta lingüística, longitud de los pendientes, y el resultante grado de difusión que cada una de estas propiedades define.
Figura 2.3.NRepresentación de variables léxicas con áreas trapezoidales.
La Figura 2.3 indica una sencilla representación para una VLD (Variable Lingüística Difusa). Desde un punto de vista semántico, se puede identificar una VLD con 3 parámetros: su posición relativa a las demás variables, su grado de imprecisión, y su grado de incerteza. Se pueden unificar los últimos dos parámetros en un solo concepto, la “blandura”, que sería el concepto opuesto de la “dureza” (o crispness). Las formas trapeziodal y triangular pueden ser consideradas como aproximaciones a funciones de pertenencia cuya forma natural es una curva. La forma de curva es más compleja de generar que los trapezoides que hemos visto antes, y a menudo se representa con una ecuación paramétrica. La curva se genera, o se interpola, a partir de un número finito de puntos. En la Figura 2.4 se ve un ejemplo de una función de pertenencia no-lineal, en la cual los cinco conjuntos difusos definidos por los trapezoides de la Figura 2.3 ahora quedan representadas por curvas continuas. Observamos que en la Figura 2.3 existe una zona de solapamiento de tres de los conjuntos difusos, siendo estos: muy corta-cortamediana y mediana-larga-muy larga. Esto implica que un punto podría tener un grado de pertenencia significativo que corresponde a cada uno de los tres posibles conjuntos difusos. Por otra parte, en la Figura 2.4 un solapamiento solo puede existir entre dos conjuntos difusos en cualquier
30
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
punto. Además, se observa que los rangos de los conjuntos difusos sobre el eje-x son diferentes entre las Figuras 2.3 y 2.4.
Figura 2.4.NEjemplo de funciones de pertenencia no-lineales.
Referencias relacionadas con la representación de funciones de pertenencia y etiquetas lingüísticas A continuación citamos algunas referencias recientes: [Roychowdhury97] trata de conjuntos difusos trapezoidales y triangulares, [Boixader97] considera las funciones de pertenencia complejas que pueden asumir formas irregulares; por último, [Torra99c] considera la generación de funciones de pertenencia a partir de conjuntos de observaciones.
2.5.NANÁLISIS DE DATOS CON TÉCNICAS “DIFUSAS” El análisis de datos con técnicas difusas se considera en detalle en otros capítulos del libro (Capítulo 3, Capítulo 7 Sec 7.5 y Capítulo 8). En la presente sección ofrecemos una breve introducción con referencia a algunos de los algoritmos claves. Fuzzy c-Means clustering: se pueden considerar algoritmos de agrupación difusa como herramientas matemáticas para la detección de similitudes entre miembros de un conjunto de objetos. Uno de los algoritmos más conocidos es el “Fuzzy Isostar” o “Fuzzy c-Means”, definido en [Bezdek73] y [Dunn74]. El algoritmo de clustering “Fuzzy c-Means” es un método de partición de conjuntos basado en el proceso de Picard. Para
CONCEPTOS
31
dicho proceso se definen las condiciones necesarias para optimizar una función objetivo (Jm) de la suma ponderada del error cuadrado (en inglés, “weighted sum of squared errors”). El número m es un parámetro de ranking de 1 hasta f; J1 es una función objetiva que sirve para definir los algoritmos c-Means y ISODATA [Duda73], que son de tipo no-difuso. Dunn fue el primero en extender J1 hasta J2 en [Dunn74], y Bezdek lo generalizó de J2 a Jm para 1 < m < f en [Bezdek73]. Mucho del trabajo de fondo de los aspectos teóricos y la estructura matemática de Fuzzy c-Means fue definido en [Bezdek81]. Los estudios posteriores de [Bezdek87] y [Pal97] introdujeron los algoritmos “c-varieties” y “c-medians”, respectivamente. Estos algoritmos no requieren una asignación a priori del parámetro “c”, el número de particiones, y permiten el uso de tipos mixtos de variables como entradas. Matriz de covarianzas difusas: Gustafson y Kessel [Gustafson79] fueron los primeros en usar el término “matriz de covarianzas difusas”, y generalizaron el algoritmo fuzzy c-Means para incluir este concepto. Su motivación fue la de obtener una agrupación (clustering) más precisa. El cálculo en sí se limitó a la covarianza de una agrupación difusa respecto al prototipo de la misma agrupación. Trabajos más recientes, como los de [Watada94], [Wangh95] y [Nakamori97], han creado cálculos de covarianza para aplicaciones específicas. Agrupación difusa con ponderación de las variables: un trabajo reciente [Keller00] considera la agrupación difusa usando variables con valores ponderados. Una función objetiva basada en la técnica de la agrupación difusa asigna un parámetro de influencia a cada variable de entrada para cada cluster. La medida de distancia determina la influencia de los atributos de datos para cada cluster, y así facilita la identificación de los mismos que determinan la clase que el cluster representa. Se puede usar el parámetro de influencia para reducir el efecto de un atributo sobre algunos de los clusters, pero sin eliminarla para toda la clasificación. La información que resulta sirve para segmentar un conjunto de datos en grupos más reducidos con un número menor de atributos. Una vez realizado la partición de esta forma, se puede seguir con el análisis de los datos en los grupos reducidos. Modelización de datos difusos: la modelización de datos tiene como objetivo la creación de un modelo con N entradas y M salidas, y que sea
32
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
capaz de simular el comportamiento de las salidas respecto a las entradas. Un modelo de regresión es un modelo estadístico típico, que encuentra el mejor ajuste de las salidas respecto a las entradas. Tanto el clustering como la clasificación son ambas técnicas de modelización, y los veremos con más detalle en capítulos posteriores del libro. Si sospechamos que en la naturaleza de los datos existe un componente “difuso”, entonces podemos considerar técnicas que permiten la manipulación de este tipo de información. En el modelo difuso de SugenoTakagi [Takagi85], se emplean funciones gausianas junto con la distancia Mahalonobis para ajustar la función característica del modelo. La motivación de Sugeno-Takagi en este caso es la mejora de la optimización mediante una buena asignación de los parámetros iniciales. Uno de los métodos usados para inicializar los parámetros es la “buena aproximación” o la “aproximación mejorada”. Una vez asignados los parámetros iniciales, el modelo crece de forma incremental, a partir de una, dos o tres reglas iniciales a las cuales se van añadiendo reglas nuevas. Modelización difusa con redes neuronales: los modelos que usan la técnica de redes neuronales intentan simular la funcionalidad del cerebro biológico definiendo una red interconectada de “neuronas” para procesar las entradas de datos y producir las salidas correspondientes. Un modelo sencillo de red neuronal consiste en una capa de neuronas de “entrada”, una capa intermedia que se llama “oculta”, y una capa de neuronas de “salida”. Se definen “cocientes” que quedan asignados a las interconexiones entre las neuronas. Estos “cocientes” son valores que definen el grado de fuerza o debilidad de una interconexión y se van modificando de forma dinámica durante el proceso de “entrenamiento” del modelo. Los pesos aumentan o disminuyen según los estímulos que reciben de las entradas y mediante la propagación de los datos a través de las diferentes capas del modelo. Mediante sucesivas presentaciones de las entradas, la red comienza a modelizar los datos y a acertar cada vez más en los valores de las salidas. Hay diferentes formas de incluir las técnicas difusas en un modelo neuronal: la primera, siendo en la representación de los datos. Por ejemplo, se puede incluir grados de pertenencia como entradas adicionales al modelo. Otra forma de incluir técnicas difusas sería modificar el funcionamiento interno del modelo para que realice una interpretación difusa los datos. Por ejemplo, se podría cambiar la for-
CONCEPTOS
33
ma de asignar los cocientes asignados a cada neurona, o se podría incorporar un aspecto difuso en el mecanismo de propagación de los datos dentro de la red. Inducción difusa de reglas: la inducción de reglas es una técnica cuya meta es la de crear un conjunto de reglas a partir de un conjunto de datos. Un algoritmo de inducción de reglas no dispone de información adicional más que los datos en sí. La calidad de las reglas es un aspecto clave que combina precisión y relevancia. La precisión se trata de que una regla determinada clasifique correctamente a un alto porcentaje de los casos correspondientes. La relevancia se refiere a que un número significativo de casos corresponde a la regla en concreto, respecto al número total de casos. ¿Cómo podemos incluir técnicas difusas en la inducción de reglas? Una primera opción sería en la representación, incluyendo los grados de pertenencia como entradas. Una segunda opción sería modificar el funcionamiento interno del proceso de inducción para procesar los datos de forma difusa. Por ejemplo, una definición difusa de las decisiones a tomar en cada nodo del árbol, o en las fases de podado y compactación. En el estudio [Miyoshi97] se desarrolló un algoritmo de inducción difusa de reglas llamado ID3* y que se basa en la técnica llamada “Fuzzy Projection Pursuit”. El trabajo de Miyoshi cita otras versiones difusas del algoritmo de inducción de reglas ID3, y referencias más recientes de Quinlan. En su trabajo, Miyoshi unifica el enfoque del Fuzzy ID3 de [Umano94] con el “Projection Persuit” de [Friedman74]. De otra parte, en [Wangc96] se presentó “FILSMR”, una estrategia de aprendizaje mediante la inducción difusa, que genera reglas modulares. Este método elige el mejor “atributo-valor”, mientras que la versión estándar de ID3 elige el mejor “atributo”. Por consiguiente, se podría decir que el algoritmo FILSMR posee una mayor “granularidad” que ID3. Se considera que un “valor de pertenencia a una clase” es equivalente a una “instancia difusa”. El algoritmo de Wang encuentra pares relevantes de atributo-relación, y maximiza la “ganancia en información difusa”. Emplea una heurística que minimiza la “entropía” para determinar el próximo atributo a seleccionar en el árbol de decisión, y busca reglas de alta calidad definidas por un valor de certeza por encima de un determinado umbral.
34
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Análisis factorial difuso: el análisis factorial se define como el análisis de un conjunto inicial de atributos de entrada, con el objetivo de identificar relaciones entre los atributos, y para conseguir un número reducido de factores en términos de los valores originales que mejor representan a los datos. Esta técnica se diferencia del proceso de encontrar los atributos más relevantes que hemos visto antes, dado a que el objetivo del análisis factorial es el de crear nuevos factores en términos de los atributos originales, con la eliminación posterior de dichos atributos. El análisis factorial difuso se distingue del análisis factorial estándar, dado que incluye una generalización que permite el tratamiento de datos en la forma difusa. El análisis factorial para datos difusos es un tema considerado por [Nakamori97]. En este trabajo, Nakamori hace referencia a algunos métodos tradicionales de análisis de datos, como los de Spearman, y métodos usando Eigenvectors. Además, se estudia la clasificación de adjetivos mediante el análisis factorial. Nakamori cita que uno de los aspectos que ha hecho más difícil el análisis factorial para datos difusos, es la dificultad de calcular el segundo momento de los datos difusos definidos en términos de intervalos difusos. Nakamori define una matriz de correlación difusa y propone un análisis factorial difuso usando esta matriz como punto de partida. La secuencia de proceso sigue cuatro pasos: (1) matriz de correlación de datos pormenorizados por promedios R = (rij); (2) matriz de correlación Rk = (rijk) del sujeto k; (3) varianza de la correlación {rijk} o V ij2; (4) matriz de correlación difusa R = ([rijL, rijR]).
2.6.NCLUSTERING Se puede definir clustering como el proceso de dividir un conjunto de datos en grupos mutuamente exclusivos de tal manera que los miembros dentro de cada grupo están lo más cerca posible, mientras que diferentes grupos están lo más lejos posible. Definimos una “distancia” para medir la cercanía o lejanía en términos de todas las variables disponibles. El clustering (en castellano, agrupación), es uno de los aspectos fundamentales de minería de datos y puede aplicarse tanto en la fase de exploración de los datos como en la fase de modelización de los mismos. [Harti-
CONCEPTOS
35
gan75] define clustering como la agrupación de objetos similares, mientras que en la clasificación se trata de asignar nombres: un ejemplo es la taxonomía de animales y plantas de Aristotle y Linnaeus (1753). Cada especia pertenece a una serie de agrupaciones de tamaño creciente y con un número decreciente de características comunes. Por ejemplo, el hombre pertenece a los primates, los mamíferos, los vertebrados y los animales.
Figura 2.5.NEl objetivo del análisis de agrupaciones (clusters) es el de maximizar la distancia entre agrupaciones, y minimizar la distancia dentro de las agrupaciones.
Clustering es una técnica que en general se considera como “nosupervisada”, y que no se beneficia de una estructura previamente definida en la cual se pueden colocar los casos. La labor del analista de datos es la de dar sentido a las agrupaciones que han sido generadas. Por ejemplo, en la Figura 2.5 podríamos establecer que el Cluster I corresponde a pacientes jóvenes y con un peso óptimo, Cluster II a pacientes de mediana edad con sobrepeso, y Cluster III a pacientes de mediana edad con peso normal. Sin embargo, el algoritmo de clustering no tendría información a priori respecto a cómo los casos se deberían agrupar por categorías de edad y peso. La Figura 2.5 muestra tres clusters con los centros de cluster indicados con una cruz. En el Cluster III vemos más la alta densidad y la menor distancia entre los casos, mientras que el Cluster I demuestra la menor densidad y la mayor distancia entre casos. En este sentido, podríamos decir que el Cluster III tiene el “cociente de calidad” más alto en términos de similitud de los casos asignados a él. Por otra
36
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
parte, y con el mismo razonamiento, el Cluster I tendría el “cociente de calidad” más bajo. Desde el punto de vista de similitud entre los clusters, observamos que los dos con la menor distancia entre sí son el Cluster I y el Cluster II, mientras que el Cluster II y III son los más lejanos entre sí.
2.7.NCLASIFICACIÓN La clasificación se distingue del clustering en que el proceso de clustering no dispone de una información a priori respecto a la estructura de los datos o la agrupación deseada, mientras que la clasificación sí. La información a priori de que un proceso de clasificación suele disponer respecto a los datos sería una definición de las clases dentro de las cuales se desea categorizar a cada caso en los datos. Por ejemplo, un problema típico de clasificación sería el de categorizar una base de datos de pacientes en términos de una variable “estado de salud” cuyos posibles valores serían “bueno” o “malo”. Se evalúa cada caso, y se lo coloca en una de las dos posibles clases, la clase “bueno” o la clase “malo”. La clasificación, junto con el clustering (o segmentación), es una parte fundamental de cualquier proceso de minería de datos. Sin embargo, en contraste con el clustering, su aplicación suele limitarse a la fase de modelización de los datos. Uno de los principales problemas de clasificación en la medicina es la clasificación de las enfermedades. La Organización Mundial de la Salud (OMS) produce un Manual de la Clasificación Estadístico Internacional de Enfermedades, Heridas y Causas de Muerte. Este manual proporciona una nomenclatura estándar que permite la recopilación de estadísticas de salud, comparable entre diferentes países y diferentes intervalos de tiempo. Una forma específica de clasificar dentro de una enfermedad es la identificación de las etapas de severidad. Se agrupan diversos síntomas de acuerdo a la evaluación de un experto para definir unas clases ordenadas por severidad. Para las enfermedades provocadas por virus y bacterias, se emplean técnicas de taxonomía numérica, y existen muchos artículos en la literatura respecto a estas técnicas. Por ejemplo, Goodfellow (1971) mide 241 características de 281 bacterias de tipo bioquímico, fisiológico y nutricional. Goodfellow identificó siete categorías que en general coincidie-
CONCEPTOS
37
ron con las categorías conocidas previamente. De otra parte, las clasificaciones de los virus por parte de Wilner (1964), la taxonomía de Wildy (1971) y la clasificación de Eubacterium de Prevot (1966) se basan en la selección de variables claves según el juicio de expertos humanos. La estadística ha dado luz a un gran número de métodos de clasificación, que se pueden ver resumidos en [Hunt75]. CART [Breiman84] es un conocido sistema que sirve para construir árboles de decisión, y que fue diseñado por estadísticos basándose en el trabajo previo de Friedman [Friedman77] y después Quinlan [Quinlan86]. Todos los pacientes
Pacientes sanos
Pacientes enfermos
Casos de urgencias
Casos de accidentes (trauma)
Daños al Tórax
Daños Craneales
Casos no-accidentes
Heridas múltiples
Figura 2.6.NEjemplo de un árbol de clasificación sencillo para admisiones hospitalarias.
Según comentamos, la clasificación se distingue del clustering en que en el primero se define previamente una estructura de clasificación, siendo el objetivo el de colocar de forma acertada a cada caso en la clase a que mejor pertenece, en función de sus características. La clasificación es, en general, un proceso “supervisado” que se puede entrenar, por ejemplo, mediante la presentación de casos (o ejemplos) negativos y positivos. En el árbol de clasificación de la Figura 2.6 los datos consistirían de diferentes tipos de pacientes, cubriendo todas las clases definidas en la estructura: heridas de tórax, heridas a la cabeza, casos no debidos a accidentes (por ejemplo, paro cardiaco) y casos que no son de emergencia (por ejemplo, fractura del brazo).
3 La perspectiva difusa
En este capítulo revisamos los conceptos claves asociados a conjuntos difusos. Definimos qué es un conjunto difuso en sí, una relación difusa, una función de pertenencia, una variable difusa, un número difuso, el concepto de pertenencia difusa y la definición de funciones de pertenencia. El contenido incluye una sinopsis de artículos y definiciones dadas por Zadeh, Bezdek y otros, de las principales investigaciones en el campo.
3.1.NCONCEPTOS BÁSICOS Incertidumbre: la presencia de “incertidumbre” en un modelo de datos puede ser debida a (1) ocurrencias aleatorias; o (2) descripciones no exactas y que se manifiestan en modelos deterministas/probabilísticos y difusos, respectivamente. Determinista: se puede predecir el resultado con total certeza, por la reproducción de las circunstancias que lo define. Probabilístico: el resultado de un proceso físico es aleatorio, con un elemento de “azar”, que es consecuencia de la evolución de un proceso que no se ve influido por la imprecisión en el entorno (por ejemplo tirar una moneda). Permite que se deriven “leyes estocásticas” que se usan para evaluar la probabilidad de observar un resultado dado.
40
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Fuzzy/Difuso: existe en un entorno físico que manifiesta una fuente no estocástica de incertidumbre (por ejemplo, la clase de personas que pesan casi setenta kilogramos). Introduce el concepto de “grados de pertenencia”. Ni es determinista ni es probabilístico. En el caso del conjunto de datos de “admisiones hospitalarias” (UCI) que analizamos en el Capítulo 9, tuvimos que evaluar cada variable/factor en orden de decidir sí era de naturaleza determinista, probabilística, o difusa.
3.2.NCONCEPTO DE “PERTENENCIA DIFUSA” Consideramos un subconjunto difuso F, que tiene una función de pertenencia PF, definida como una función a partir de un conjunto de datos bien definido (el conjunto de referencia), X, en el intervalo unitario: PF : X o[0,1]. Por consiguiente, el predicado no-exacto “Paciente (x) es Larga Estancia (S)” se representaría por un número en el intervalo unitario PS(x). A continuación, veremos algunas de las posibles respuestas a la pregunta “¿Que significa cuando decimos que PS(x) = 0,7 ?” Interpretado como “pronóstico”
70% de una población determinada declara que el paciente es “larga estancia”.
Interpretado como 70% de una población determinada describió “conjunto aleatorio” “larga estancia” como un intervalo que define la duración de estancia del paciente. Interpretado como “similitud”
La “duración de la estancia del paciente en el hospital” se aleja del objeto prototipo que realmente es “larga estancia” en el grado de 0,3 (una distancia normalizada).
Interpretado como “utilidad”
0,7 es la utilidad de exponer que el paciente es de “larga estancia”.
Interpretado como “medición”
En comparación con otros, el paciente es de más “larga estancia” que algunos, y este hecho se puede representar como 0,7 en una escala determinada.
LA PERSPECTIVA DIFUSA
41
Si deseamos, podemos matizar más a estas interpretaciones: sujetivo versus objetivo, de una parte, e individuo versus grupo, de otra. Zadeh es posiblemente el autor clave y de referencia para la definición de conjuntos difusos. Su trabajo magistral [Zadeh65] introdujo el término “conjunto difuso” en el lenguaje científico popular, definiendo sus propiedades. Zadeh citó ejemplos de conjuntos difusos, como “la clase de hombres altos”, o “la clase de todos los números reales mucho mayores que 1”. Indicó que un “conjunto difuso” es una “clase” con un continuo de grados de pertenencia y expuso que los “conjuntos difusos” proporcionan un marco parecido a los conjuntos ordinarios, pero que son de una más general aplicación. Por ejemplo, se podrían aplicar tanto a la clasificación de patrones/imágenes como al proceso de datos financieros. La formación de Zadeh como ingeniero electrónico fomentó el uso por su parte de analogías prestadas de la teoría de la electricidad, y que contribuyeron a la originalidad y utilidad de este nuevo enfoque.
3.3.NRELACIONES DIFUSAS En [Zadeh71], Zadeh presenta tres conceptos clave para la teoría de conjuntos difusos: “similitud”, “relación de similitud” y “ordenación difusa”. La similitud se define como una generalización de la noción de equivalencia. La relación “difusa”: en el caso de la relación “no-difusa”, un dato es miembro de un grupo (con grado de pertenencia 1), o no lo es (grado de pertenencia 0). Si todos los datos disponibles han quedado clasificados en grupos, el hecho de que un dato tenga un grado de pertenencia 0 para un grupo determinado, indica que en algún otro grupo debe tener un grado de pertenencia igual a 1. El dato sólo puede tener un grado de pertenencia igual a 1 para un grupo en el entorno bajo consideración. En el caso difuso, introducimos el concepto de “grados de pertenencia”, que asumen valores en un rango continuo entre 0 y 1, por ejemplo: 0,55, 0,1, 0,965, 0,73, etcétera. Según este planteamiento, podemos decir que el dato a es miembro de grupo A con grado de pertenencia 0,23 (que es poco), y que dato a es miembro de grupo B con grado de pertenencia 0,77
42
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
(que se considera bastante alto). Esto implica que dato a es miembro de grupos A y B, aunque tiene un mayor grado de pertenencia a grupo B.
3.4.NDEFINICIÓN DE UN “CONJUNTO DIFUSO” Bezdek, en [Bezdek81], dio una definición de un conjunto difuso que después se ha considerado como un punto de partida en este campo. A continuación lo explicamos con un ejemplo: X se define como la representación de una muestra de n personas, y A1 se define como el subconjunto de X para el cual p(x) es exactamente setenta kilos: A1 = {x X ° p(x) = 70}
(3.1)
Si definimos que x es casi setenta kilos sí y únicamente sí x pertenece a A1 (x A1), entonces A1 será un conjunto con muy pocos elementos. El problema más evidente con esta representación es que no se puede medir de forma exacta a p(x). Para superar a este problema, vamos a considerar el conjunto A2 = {x X ° p(x) = 70 r 0,01}
(3.2)
Si la pertenencia en A2 es equivalente a casi setenta kilos, la regla de decisión que resulta identificará a muchas personas que pesan casi setenta kilos. Sin embargo, si empleamos al umbral de r 0,01, excluimos, por ejemplo, a una persona cuyo peso registrado p(y) es de 70,011 kilos. Un modelo que ofreció una posible solución a la situación que acabamos de explicar fue detallado en [Zadeh65]. Zadeh propuso lo siguiente: dado que la pertenencia a un conjunto es clave para la toma de decisiones, entonces podemos modificar nuestra definición de un conjunto cuando el proceso a realizar lo requiere. La definición formal de esta idea parte de la siguiente definición: A3 = {x ° x es casi setenta kilos de peso}
(3.3)
Función de pertenencia: Zadeh, en [Zadeh71], define la siguiente: una función de pertenencia (característica) fA(x), asocia con cada pun-
LA PERSPECTIVA DIFUSA
43
to en X, un número real en el intervalo [0,1], con el valor de fA(x) en punto x, y que representa el “grado de pertenencia” de x en A. Definimos una función de pertenencia como cualquier función a partir de un conjunto de referencia X que esté bien definida en el intervalo unitario: P : X o[0,1] Por consiguiente, podemos decir que P (x) = 0,6, donde x es un objeto determinado. Por ejemplo: el grado de pertenencia del paciente (p) al conjunto difuso “ larga estancia” es de 0,6. La forma de una función de pertenencia puede ser triangular, trapezoide, convexo, cóncavo, lineal, no-lineal, etc.
3.5.NSIETE MÉTODOS PARA DEFINIR UNA FUNCIÓN DE PERTENENCIA Encuesta: ¿está usted de acuerdo que el paciente P es de larga estancia? (Sí/No). Ordenación directa (estimación de puntos): clasificar color A según su oscuridad, clasificar el paciente P según su duración de estancia en el hospital. En general, la pregunta es: “¿Cuánto F es a?”. Ordenación inversa: identificar el paciente P, que es de “larga estancia”, con el grado de 0,6. En general, identificar quién es F en el grado PF(a). Estimación de intervalos (estadística de valores de conjuntos): dar un intervalo entre el cual usted piensa que está el color A, dar un intervalo entre el cual usted piensa que está la duración de estancia de paciente P. Ejemplificación de una función de pertenencia: ¿cuál es el grado de pertenencia de color A al conjunto difuso de “colores oscuros”? ¿Cuál es el grado de pertenencia de paciente P al conjunto difuso de “pacientes de larga estancia”? En general, “Hasta qué grado es a F?”.
44
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Comparación entre pares: ¿Cuál de los colores A y B es el más oscuro (y en qué grado)? Métodos de clustering: dado un conjunto de datos de entrada, extraer el subconjunto difuso de pacientes de larga estancia.
3.6.NDEFINICIÓN DE “VARIABLE DIFUSA” Una variable de tipo difuso se define como una variable que tiene valores que se pueden definir como miembros de un conjunto difuso, mediante una correspondiente función de pertenencia. El concepto “difuso” según fue concebido por Zadeh o Bezdek, no contempla a “variables difusas” en sí. Parten de la definición de un “conjunto difuso” como una extensión de un “conjunto normal”. Zadeh introduce las nociones de “conjunto difuso”, “función de pertenencia”, “relación de similitud”, “ordenación difusa”, usando la teoría tradicional de conjuntos como punto de partida. Por consiguiente, el concepto de una variable difusa no se define de forma directa. Sí que podemos decir que existe una variable no-difusa con valores no-difusos. Se podrían pasar los valores correspondientes de esta variable no-difusa por una función de pertenencia para producir como resultado los grados de pertenencia a unos conjuntos difusos. En contraste, podemos considerar una variable que “empieza su vida” como difusa. Es decir, la lectura inicial de los valores de la variable está en términos de un grado de pertenencia a uno o más conjuntos difusos. Esto implica una interpretación previa por alguna función de pertenencia. A menudo, “variables lingüísticas” son buenas candidatas para ser representadas de forma difusa. Como ejemplo práctico, vamos a considerar un objeto que es un tumor, que puede tener asociadas muchas variables descriptivas de diferentes tipos. Es posible, para algunas de estas variables, que la representación más adecuada sea la forma difusa. Por ejemplo, se podría representar la variable “diámetro” por tres conjuntos difusos: “pequeño”, “mediano” y “grande”. Para cada objeto (tumor), la variable “diámetro” se expresaría como tres valores, cada uno siendo un grado de pertenencia a los tres respectivos conjuntos difusos que aca-
LA PERSPECTIVA DIFUSA
45
bamos de definir. Los conjuntos difusos quedarían definidos para todos los objetos de cada variable difusa usando una función de pertenencia única. En la literatura, en vez de usar el término “variable difusa”, se suele hablar de “número difuso” o “valor difuso”, como en [Delgado95].
3.7.NDEFINICIÓN DE “NÚMERO DIFUSO” [Kahraman97] define un “número difuso” como un conjunto difuso normal y convexo con una función de pertenencia P (x) que satisfaga las siguientes dos condiciones: normalidad : P (x) = 1, para cómo mínimo un x R y
convexidad: P (x’) t P (x1) P (x2)
dónde P (x) [0,1] y x’ [x1, x2]. Los “números difusos” son muy útiles para implementar una representación y forma de procesar la información en un entorno difuso. Por ejemplo, un número difuso trapezoidal (TzFN) se define por (a, b, c, d), mientras que un número difuso triangular (TFN) se define por (a’, b’, c’). Los grados de pertenencia son simplemente unas lecturas en los ejes “x”, “y” a partir de la representación gráfica de las funciones de pertenencia. Se refiere a las Secciones 6.1 y 6.3 del libro para ejemplos reales de la representación de números y variables en la forma difusa.
3.8.NLOS “CUANTIFICADORES” En [Zadeh73], Zadeh enfoca en el problema del proceso de etiquetas lingüísticas, como por ejemplo, “alto”, “no alto”, “muy alto”, “muy muy alto”, etcétera. Una etiqueta lingüística (o cuantificador) se define como algo cuyos valores son sentencias en un lenguaje natural (por ejemplo castellano) o artificial (por ejemplo una fórmula matemática).
46
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Figura 3.1NRepresentación gráfica de los conceptos “corta estancia” y “larga estancia”.
Zadeh define una etiqueta lingüística difusa como la unión de dos o más conjuntos difusos “simples”. Un conjunto difuso simple es un conjunto que se apoya en un solo punto en U, dentro de un rango determinado. Por ejemplo, con referencia a la Figura 3.1, si el universo U (de valores de datos) es el intervalo [0, 30], entonces se puede definir la etiqueta “corta estancia” por la unión de los conjuntos difusos simples dentro del rango 0 hasta 15 días. Por otra parte, se podría definir la etiqueta “larga estancia” por la unión de los conjuntos difusos simples dentro del rango 15 hasta 30 días. Esto nos hace llegar a la definición de “frases condicionales difusas”, que son expresiones con la siguiente forma: SI x es muy pequeño ENTONCES y será bastante grande. En la opinión de Zadeh, un aspecto clave es que el sentido de las expresiones de este tipo es poco exacto, cuando las personas los emplean en la comunicación. Zadeh demuestra que es posible dar un sentido exacto a la frase condicional SI A ENTONCES B, incluso cuando A y B sean conjuntos difusos. Su demostración se basa en la necesidad de que el sentido de A y B se definan de forma precisa como subconjuntos específicos en el entorno bajo consideración.
LA PERSPECTIVA DIFUSA
47
En [Zadeh73] se introduce la idea de hedges, que en castellano se podría traducir por el término “sesgo”, pero no en su sentido estadístico. La idea del hedge consiste en dos conceptos básicos: (1) términos primarios como “corta” y “larga”; (2) “modificadores” de los términos primarios, como, por ejemplo, “muy”, “mucho”, “ligeramente”, “más o menos”, etcétera. En términos de la curva de la función de pertenencia, sí x = “larga” entonces, por ejemplo, x2 = “muy larga”. Como consecuencia, el derivado de la curva que representa el término primario “larga” se hace más agudo respecto al eje-y y se desplaza proporcionalmente hacía la izquierda en el eje-x, como se ve en la Figura 3.2.
Figure 3.2.NEfecto del hedge “muy”.
3.9.NREPRESENTACIÓN DIFUSA DE VARIABLES DE TIPO BINARIO Consideramos una variable de tipo binario, como “fallo respiratorio”, con posibles valores “1” ó “0”, o la variable “duración de estancia en la UCI igual o mayor de 24 horas” con posibles valores “si” o “no”. En fichas clínicas como las del conjunto de datos UCI que analizamos en el Capítulo 9, muchos de los valores son de tipo binario. Es decir, representan una respuesta 1 ó 0 a estados clínicos y estados de concentraciones, presencias, duraciones, etcétera. [Bezdek81] define un método especialmente diseñado para atributos que asumen valores binarios en datos clínicos. Como ejemplo, vamos a considerar el diagnóstico de apendicitis y de gastroenteritis. Disponemos de 8 síntomas descriptivos, algunos de los cuales distinguen mejor para el diagnóstico de apendicitis, mientras que otros distinguen mejor para el diagnóstico de gastroenteritis. En la Tabla 3.1 se ve el resultado de calcular los centros de cluster de cada una
48
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
de las 8 variables (síntomas) incluidas, para cada de las dos categorías de diagnóstico (apendicitis y gastroenteritis). Fuzzy c-Means calcula estos centros, junto con los grados de pertenencia de cada paciente para cada valor de las variables binarias (apendicitis y gastroenteritis). Véase la Sección 7.5 del libro para una descripción completa del funcionamiento de Fuzzy c-Means. Tabla 3.1.NPrototipos para funciones de pertenencia. Síntoma
(Apendicitis) Q1 j
(Gastroenteritis) Q2 j
Diferencia absoluta, f12, j
1
0,55
0,27
0,28
2
0,91
0,67
0,24
3
0,06
0,93
0,87
4
0,22
0,55
0,33
5
0,17
0,10
0,07
6
0,77
0,84
0,07
7
0,42
0,05
0,37
8
0,39
0,84
0,45
Lo que nos dice la Tabla 3.1 es que el síntoma n.o 3 es el que muestra más diferenciación en el diagnóstico de apendicitis y gastroenteritis (según indicado por Fuzzy c-Means). De modo similar, los síntomas n.o 5 y 6 son los que muestran menos diferenciación en el diagnóstico de apendicitis y gastroenteritis. El diagnóstico de cada caso se realiza calculando el grado de pertenencia de un caso a cada uno de los 8 síntomas. A continuación se calcula la distancia media del grado de pertenencia del caso al centro de cluster de cada síntoma. Esta distancia media será el grado de pertenencia del caso a apendicitis y a gastroenteritis. En este ejemplo, todos los pacientes tienen o apendicitis o gastroenteritis. Por consiguiente, tenemos un conjunto de datos que tendría que quedar particionado en dos clusters de forma binaria. Este método supone que todos los atributos son de tipo binario. Así que, para las variables de tipo numérico o categórico con más de dos categorías, este método no nos sirve.
LA PERSPECTIVA DIFUSA
49
En resumen, este es un método para la selección de atributos para datos binarios que se basa en los prototipos difusos {Qi} derivados a partir del algoritmo de Fuzzy c-Means. En la demostración formal, un conjunto de datos X debe poseer valores binarios en cada variable; cada Kj es el conjunto {0,1}, y para U variables, tenemos: X (^0,1` u ^0,1` u ........ u ^0,1`) = [^0,1`]U U
(3.4)
Se supone que Fkj = 0 o 1, respectivamente. Esto indica si “paciente” Fk tiene o no tiene síntoma j. En general, 0 (= ausente) y 1 (= presente) son variables observadas en muchas aplicaciones, y el método de [Bezdek81] tiene un uso muy amplio: Un estudio recoge U respuestas en un cuestionario clínico. ¿Cuáles de las respuestas de paciente P permiten que el médico acierte en su diagnóstico? ¿Cuáles de las preguntas son menos relevantes? ¿Existen síntomas que crean confusión en el diagnóstico? ¿Hay un exceso de datos? ¿Hay insuficientes datos? En resumen, tenemos que identificar las variables que nos permitan un mejor acierto en el diagnóstico.
Con referencia al Capítulo 9 (UCI), podemos usar la representación de Bezdek para variables de tipo binario como “incremento en creatinina” y “estado vital al salir de la UCI”.
3.10.NLA SELECCIÓN DE CARACTERÍSTICAS Para poder definir un conjunto de datos C, que nos sirva para el diagnóstico o el pronóstico, es necesario evaluar si las características del dato xk X son suficientemente representativas del proceso físico, para permitir la construcción de clusters que clasifican y que son fieles a la realidad. Es necesario establecer si poseemos el conjunto de datos adecuado. Asimismo, tenemos que evaluar si es necesario eliminar algunas variables de xk , modificarlas o crear nuevas variables a partir de ellas (ratios, etc.), de mayor valor informativo.
50
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Otro objetivo en la definición de un conjunto de datos es la identificación de la estructura interna de los mismos. El motivo de identificar la estructura es incrementar la información disponible para el proceso de clustering y clasificación del conjunto de datos. En el caso del conjunto de datos de “admisiones hospitalarias” (véase Capítulo 9), hay dos consideraciones: (1) reducción del número de variables, seleccionando a las más relevantes con respecto a una variable determinada de salida. Por ejemplo, la variable de salida podría ser “duración de estancia en el hospital en días”; (2) fusionar a las variables más relevantes en dos o tres “super-variables”. De esta forma, podemos realizar un análisis de datos en un número más reducido de dimensiones. En la práctica es posible que (1) y (2) se lleven a cabo de forma separada y usando técnicas distintas.
3.11.NFUNCIONES DE PERTENENCIA PARA DATOS CLÍNICOS Amaya y Beliakov, en [Amaya94], presentan un método para la construcción de una función de pertenencia para el diagnóstico clínico. Su punto de partida supone que las pruebas de laboratorio en el diagnóstico clínico son de naturaleza precisa. Por consiguiente, se supone que el resultado de una prueba será un valor numérico, por ejemplo, colesterol = 211.0mg/dL, o hematocrito = 36,9%. Para poder interpretar este valor tenemos que especificar dos cosas: el rango normal y el contexto específico de la prueba. En medicina se suelen emplear símbolos como nn, n, N, p, pp para indicar variaciones, dónde N indicaría un valor normal y nn indicaría un valor destacadamente por encima de lo normal. Un médico que realiza una prueba determinada suele usar una tabla de rangos normales como guía, junto con su propia experiencia. Esto es especialmente determinante cuando el resultado de una prueba está en el umbral entre un rango y otro. Una codificación de los símbolos nn, n, N, etc., podría crear como consecuencia una excesiva restricción en el diagnóstico. Como alternativa, se podría considerar una escala entre, por ejemplo, 0 y 1. En el contexto clínico, podemos decir que una de las causas principales de una situación “difusa” sería una
LA PERSPECTIVA DIFUSA
51
clasificación realizada en un entorno de datos infra o sobredimensionados. Para una representación difusa no consideramos situaciones debidas a errores de grabación de datos en pruebas clínicas precisas. En datos clínicos se suele especificar el rango de los valores “normales” para cada prueba. De este modo, el dato “hematocrito = 36,9%” se interpretaría como “porcentaje de hematocrito normal si 36,9% está dentro de este rango; si no, el porcentaje de hematocrito será anormal”. El rango de valores normales especifica el contexto necesario dentro del cual se puede interpretar el valor preciso de hematocrito. Sin embargo, se dificulta la interpretación cuando los valores coinciden con límites o umbrales. Por ejemplo, definimos el rango normal para hematocrito entre 36,0% y 47,0%. Pero, si usamos un límite no-difuso, una consecuencia sería que el 36,0% es un valor normal, pero el 35,99% es anormal. Como una posible solución a esta situación se podría emplear una interpretación difusa del rango de valores normales. Ahora, el problema que tenemos que solucionar es cómo representar mejor el rango de datos de forma difusa. Ahora suponemos que suficientes datos han sido capturados para poder aproximar la función de distribución de la probabilidad p(x) que define el comportamiento de la variable aleatoria x (el resultado de la prueba). Una función de la distribución de la probabilidad es una función p que se define en un intervalo (a, b) y que tiene las siguientes propiedades. (a) p(x) t 0 para cada x b
(b) , p(x) dx=1 a
Como ejemplo práctico vamos a considerar una encuesta que produce la siguiente distribución de probabilidad para el nivel de hematocrito de varones adultos:
52
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 3.2.NEjemplo de una distribución de probabilidad para el nivel de hematocrito de varones adultos.
Nivel de Hematocrito (%)
24-30
30-36
36-42
42-47
47-53
Probabilidad
0,05
0,20
0,35
0,30
0,10
Podemos representar estos datos en forma de histograma y generar una curva de la distribución correspondiente. Esta curva representaría gráficamente a la función p de la distribución de la probabilidad. Hacemos la observación de que la suma de las probabilidades se debe sumar a 1 y el intervalo de los valores para el nivel de hematocrito se define en el rango entre 24 y 53. Se considera que un valor normal sería entre 36 y 47. Siguiendo el método de [Amaya94], se hace una interpretación difusa de las características de “sensibilidad” y “especificidad” en las pruebas clínicas. Como ejemplo, se consideran a estas dos características desde el punto de vista de dos grupos de pacientes. El primer grupo es el de los pacientes que padecen de una enfermedad determinada, mientras que el segundo grupo son los pacientes que no la padecen. Las probabilidades de que el resultado de una prueba esté en el intervalo [x, x + dx] se indican por p+(x)dx y p-(x)dx, respectivamente. Con referencia a la Figura 3.3, los resultados negativos quedarán asociados con los valores pequeños de x mientras que los resultados positivos tendrán valores mayores que un determinado umbral a. Por consiguiente, la “sensibilidad” de la prueba se define como la probabilidad de un resultado positivo para pacientes que padecen de la enfermedad. Por otra parte, la “especificidad” se define como la probabilidad de un resultado negativo de la prueba para pacientes que NO padecen de la enfermedad. Cuando el umbral se define de forma difusa, la “sensibilidad” o “especificidad” se convierte en la probabilidad del suceso difuso de que el resultado de la prueba sea positivo o negativo, respectivamente. f
Sensibilidad = , U+(x) P+ (x) dx -f
LA PERSPECTIVA DIFUSA
53
f
Especificidad = , U-(x) P - (x) dx -f
Dónde P+ (x) y P - (x) representan las funciones de pertenencia de los conjuntos difusos “mayor que a” y “menor que a”, respectivamente.
Figura 3.3.NRepresentación gráfica de las probabilidades que el resultado del diagnóstico “tiene enfermedad” (indicado por p+(x)dx) o “no tiene enfermedad” (indicado por p-(x)dx), esté en el intervalo [x, x + dx].
4 El diagnóstico y el pronóstico clínico
Distinguimos entre el diagnóstico y el pronóstico de la siguiente forma: el diagnóstico se entiende como el problema para establecer qué categoría de enfermedad(es) o herida(s) tiene el paciente, mientras que el pronóstico trata de los indicios de recuperación para un paciente cuyo diagnóstico ha sido anteriormente establecido. Se podría decir que el diagnóstico se refiere a la situación actual del paciente, mientras que el pronóstico se refiere a su situación futura. Dependiendo del diagnóstico, se decide un tratamiento determinado, y dependiendo del pronóstico, se puede modificar o adaptar dicho tratamiento, y planificar una serie de fases de recuperación, con la asignación de los recursos humanos y clínicos necesarios para cada fase.
4.1.NENFOQUE DE LA ESTADÍSTICA “CLÁSICA” La literatura del tratamiento estadístico del diagnóstico y pronóstico médico es muy extensa. Un libro de referencia que ofrece un resumen del trabajo en el área es [Lee80], que trata de los métodos estadísticos para el análisis de cifras de superación (survival), con un extendido resumen de las distribuciones de superación, la identificación de factores de riesgo y de pronóstico, y la ejecución de ensayos clínicos. “Tiempo de superación” se define como el tiempo que pasa hasta que ocurre un suceso determinado, como, por ejemplo, el desarrollo de una enfermedad, herida, reacción a un tratamiento, recaída o fallecimiento.
56
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Los “datos de superación” se definen en términos de variables como “tiempo de superación”, “respuesta a un tratamiento determinado”, y características del paciente relacionadas con su reacción, superación y el desarrollo de una enfermedad o herida. Si no existen observaciones sesgadas, es decir, observaciones con datos ausentes, la función de superación se estima como la proporción de pacientes que sobreviven más que tiempo t: ^
S(t) =
Número de pacientes que sobreviven más que t Número total de pacientes
(4.1)
donde la tilde indica una aproximación de la función que se ve en la Figura 4.1.
Figura 4.1.NEjemplo de una curva de superación.
4.2.NSISTEMAS DE PUNTUACIÓN DE PRONÓSTICO EN CUIDADOS INTENSIVOS Sistemas de puntuación (scoring) de pronóstico son sistemas que predicen el resultado del paciente basados en parámetros fisiológicos que se consideran correlacionados con el resultado (basado en el análisis estadístico o en opinión del experto). Históricamente, los sistemas de puntuación han sido desarrollados para predecir el resultado en poblaciones de pacientes, en vez de para pacientes individuales. Esencialmente,
EL DIAGNÓSTICO Y EL PRONÓSTICO CLÍNICO
57
los sistemas de puntuación de pronóstico permiten que el médico compare el resultado observado, como por ejemplo, la mortalidad, con una mortalidad predicha para la población de pacientes admitidos a su unidad de cuidados intensivos (UCI).
4.3.NEJEMPLOS DE ALGUNOS DE LOS SISTEMAS MÁS COMUNES DE PUNTUACIÓN DE PRONÓSTICO Los sistemas principales de puntuación de pronóstico en los Estados Unidos son el “Acute Physiology and Chronic Health System” (APACHE), el “Mortality Prediction Model” (MPM), y el “Simplified Acute Physiology Score” (SAPS). El sistema APACHE fue desarrollado por primera vez en 1981 por William Knaus y sus colaboradores [Knaus81] y ahora se encuentra en su tercera generación (APACHE III), aunque APACHE II sigue siendo el sistema más usado debido al alto coste de APACHE III. APACHE II y III se basan en cuatro componentes: diagnóstico (incluyendo las categorías de cirugía y medicina), desorden fisiológico, salud crónica, y edad. En la base de datos también se incluye el “origen” del paciente. El sistema APACHE calcula los datos para cada paciente UCI, basándose en las primeras 24 horas de hospitalización en la UCI. Se sustituye en la fórmula predictiva el peor valor registrado para cada variable durante este primer periodo de 24 horas. APACHE II fue estrenado en 1985. Fue evaluado inicialmente con un estudio de 5.815 pacientes. Hasta la fecha actual sigue siendo el sistema de uso más extendido para indicar el grado de severidad de una enfermedad. Por este hecho, es el sistema de puntuación más validado. Es necesario que un médico especialmente formado introduzca los datos de forma manual en un ordenador. A partir de estos datos, la puntuación APACHE se calcula para cada paciente. Cuanto más alta sea la puntuación, mayor es la severidad de la enfermedad. Además, los datos se convierten en una probabilidad predictiva de muerte para cada paciente. Los datos, en combinación con otra información, sirven luego para calcular una mortalidad predicha para la población de pacientes cuyos datos han sido introducidos en el sistema.
58
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
La fórmula de predicción de mortalidad es la siguiente: LN(R/1 - R) = -3,517 + {(APACHE II) (0,146) + S + D}
(4.2)
donde R = Riesgo de muerte en el hospital S = Riesgo adicional impuesto por cirugía de urgencia D = Riesgo (+ o -) impuesto por una enfermedad concreta Se introducen los pronósticos individuales para cada paciente en el sistema y la mortalidad predicha para la población completa se compara con la mortalidad observada para la misma población. APACHE III fue desarrollado en 1991. Es el primer sistema de puntuación que facilita la entrada completamente automatizada de datos. Sigue el mismo patrón que el APACHE II. Fue probado inicialmente con 17.440 pacientes. En este modelo, factores como el diagnóstico y el origen del paciente juegan un papel más importante en la fórmula predictiva. Una puntuación de APACHE III se tabula de acuerdo a los peores valores para cada parámetro durante el primer periodo de 24 horas. Hay un menor énfasis sobre la puntuación global de APACHE III, con un mayor hincapié en la puntuación de APACHE III dentro de cada grupo diagnóstico. Con la intención de conseguir la conversión de la puntuación de APACHE III a una probabilidad de mortalidad en el hospital, se emplean ecuaciones de regresión logística, que son individualizadas para cada una de las 79 categorías diagnósticas y para cada uno de los nuevos posibles orígenes de los pacientes. Aunque las ecuaciones predictivas de APACHE III no han sido publicadas, se las puede conseguir mediante petición directa a los autores. MPM, otro de los principales sistemas de pronóstico, fue desarrollado primero en 1987 por Terres y colaboradores. El modelo difiere de APACHE en el hecho de que no produce una puntuación, sino una probabilidad directa de mortalidad. En la actualidad, MPM está en su segunda
EL DIAGNÓSTICO Y EL PRONÓSTICO CLÍNICO
59
generación. El sistema se basa en 19.000 casos de pacientes de 139 UCI. Este modelo ofrece dos características que lo distinguen del modelo de APACHE. Primero, aporta la probabilidad de mortalidad en el hospital en el momento de admisión. Esto permite realizar una predicción antes de llevar a cabo cualquier intervención al paciente en la UCI, y durante las siguientes 24 horas el pronóstico puede variar. Además, los pacientes que fallecen o son transferidos fuera de la UCI antes de terminar el primer periodo de 24 horas, reciben una predicción de mortalidad en el momento de admisión. Segundo, un modelo de probabilidad específica ha sido diseñado para su uso 24 horas después de admisión. Esto permite una reevaluación del pronóstico a 24 horas, basado en un modelo diseñado para una evaluación a 24 horas. SAPS fue desarrollado por LeGall y sus colaboradores en 1984 y ahora está en su segunda generación [LeGall93]. Fue desarrollado para ofrecer una versión simplificada del modelo original de APACHE, que por su parte facilita la recogida de datos. El modelo depende de 13 variables fisiológicas más la edad. SAPS II emplea una metodología estadística para determinar el rango para variables predictivas, para asignar puntos a cada uno de los rangos, y para convertir la puntuación de SAPS en una probabilidad de mortalidad hospitalaria. La puntuación SAPS se convierte en una probabilidad estadística usando una representación gráfica. SAPS usa los peores valores registrados para las variables durante las primeras 24 horas y no necesita un diagnóstico para obtener la probabilidad de mortalidad hospitalaria.
4.4.NENFOQUES DE LA INTELIGENCIA ARTIFICIAL En la última sección hemos realizado una revisión de algunos de los sistemas “convencionales” de pronóstico clínico. Ahora vamos a revisar una selección de la diversidad de enfoques que ofrece la “inteligencia artificial” para el entorno clínico. El proyecto SMASH del Instituto IIIA, Cataluña, España [IIIA96], aplica la tecnología de los “agentes inteligentes” al entorno médico. El objetivo de SMASH (Sistemas de Multiagentes para Servicios Médicos en Hospitales) es la definición de una arquitectura racional para multi-
60
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
agentes, y el desarrollo de sistemas prototipos de multiagentes con capacidad de aprendizaje y que cooperan en la solución de problemas complejos en entornos médicos. El sistema contempla cuatro aspectos: (1) comportamiento racional complejo, dividido en ontológico, epistemico, motivación y comunicación; (2) transcripción a un entorno orientado a objetos usando herramientas basadas en la lógica; (3) despliegue de agentes de software que sean de utilidad general, que tengan características de racionalidad y responsabilidad para sus acciones, y que pueden ser adaptados para resolver diversas tareas de forma cooperativa; (4) aplicación al entorno médico/clínico y al entorno de gestión hospitalaria para “pruebas de concepto”. [Armengol00] describe un segundo sistema desarrollado en el IIIA, que aplica un enfoque de CBR (Cased Based Reasoning) o “razonamiento basado en casos”, al pronóstico individual del riesgo de diabetes a largo plazo. El sistema, que se llama DIRAS, es una aplicación que da apoyo al médico para determinar el riesgo de complicaciones para pacientes individuales de diabetes. El patrón de riesgo de cada paciente diabético se obtiene usando un método de razonamiento basado en casos. Esta es una técnica que aprovecha las experiencias anteriores (los casos) para resolver nuevas situaciones. Para cada paciente, se determina el riesgo de cada complicación diabética según el riesgo de pacientes que ya han sido diagnosticados. Entonces se construye una descripción que se puede visualizar como una explicación del riesgo calculado. [Escalada99] presenta otro trabajo realizado en el IIIA, que consiste en un sistema basado en el conocimiento para el diagnóstico fisiopatológico en tiempo real, en un entorno de cuidados intensivos. Se considera el caso de una unidad de cuidados intensivos (UCI) de pediatría, dónde los pacientes están siendo monitorizados de forma continua, captando a muchas variables que indican el estado físico. Según la situación en un momento dado, se emiten señales de control respecto al paciente para que su estado clínico siempre se mantenga bajo control. La solución emplea un sistema basado en el conocimiento que es apto para un entorno en tiempo-real, y consiste en una serie de módulos específicos que interaccionan entre sí. [Irani95] presenta un enfoque cuyo objetivo es identificar la estructura y relaciones causales a partir de una base de datos de fichas clíni-
EL DIAGNÓSTICO Y EL PRONÓSTICO CLÍNICO
61
cas de hiperlipidemias. Emplea algunos conceptos interesantes, por ejemplo una escala lineal que se emplea para colocar las etiquetas lingüísticas en una secuencia numérica. La escala tiene la siguiente forma: -3
-2
mucho peor
peor
-1
0
1
2
3
un poco sin un poco mejor mucho peor cambio mejor mejor
El acuerdo medio de la relación causal como salida se calcula como un consenso entre el experto cardiólogo, una ecuación de regresión y un sistema experto. El modelo predictivo se basa en una red neuronal de tipo “retro-propagación”. En este caso, la red neuronal consiguió peores resultados que un modelo de regresión lineal múltiple. En contraste con el enfoque de la identificación de relaciones causales de [Irani95], el trabajo de [McLeish95] enfoca en el descubrimiento de conocimiento, usando técnicas como el “peso de la evidencia” y “funciones de creencias”. [McLeish95] emplea un subconjunto de 18 atributos claves como punto de partida para las entradas a la función de creencia. Una de las conclusiones de su estudio fue que los datos derivados estadísticamente dieron mejores resultados que los datos derivados por el experto. Uno de los trabajos recientes de interés es [Dreiseitl99]. En este estudio se presenta un conjunto de métodos para seleccionar variables para infarcción miocardio. Se procede en dos pasos: (1) el uso de diversos métodos para determinar cuáles de las entradas son relevantes para predecir infarcción miocardio; (2) validar y visualizar estas entradas usando mapas autoorganizativos (SOM). Los cuatro métodos de selección de las entradas son: (a) regresión logística con la selección de variables usando las diferentes técnicas que ofrece la regresión, usando la función LOGISTIC del paquete estadístico SAS; (b) redes neuronales feed-forward con el cálculo automático de relevancia; (c) redes neuronales bayesianas con cálculo automático de relevancia; (d) conjuntos aproximados (rough sets). El conjunto inicial de variables consiste en 43 atributos (edad, sexo, fumador, exfumador, historial familiar, diabetes, hipertensión...). A partir de estas variables, cada método debe seleccionar los 8 atributos de mayor relevancia para el diagnóstico de infarcción miocardio. El resultado fue
62
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
un buen consenso entre diferentes métodos, aunque había tres atributos elegidos por el experto médico que no fueron seleccionados por ninguno de los tres métodos. El SOM fue utilizado para crear una representación gráfica de la distribución de la variable de salida y para validar las correlaciones con otros métodos. [Demsar99] describe un enfoque que emplea árboles de clasificación ID3 y un clasificador Naive Bayes para predecir la supervivencia de los 68 pacientes en su conjunto de datos de prueba. El número inicial de atributos fue de 174, y para 78 de ellos había datos ausentes para el 50% o más de los casos. Los datos fueron preprocesados para categorizar (discretizar) las variables de tipo numérico. Esto fue necesario dado que la técnica de Naive Bayes no es capaz de procesar variables numéricos directamente. Se realizó la categorización mediante la generación de cuantiles y con discretización basada en el método de entropia-MDL. Después de categorización, las variables fueron ordenadas usando el sistema RELIEFF [Kira92], que mide la utilidad de una variable mediante la observación de la relación entre su valor y el resultado del paciente. Después del proceso de selección de variables, el número de variables se redujo desde 174 hasta 12. Las variables eran todas indicadores clínicos específicos, como por ejemplo, “el peor parcial y tromboplastina activa” con categorías de “ 124 Mol/l en las últimas 24 horas asociado con oliguria”. Recordamos que el conjunto de datos UCI fue capturado de forma no-difusa, y estas propuestas fueron el resultado del análisis posterior de los datos (véase Capítulo 9) y mediante conversaciones con el experto médico.
80
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Figura 6.1.NRepresentación de la variable de entrada “estado previo de salud”.
Figura 6.2.NRepresentación de la variable de entrada “tipo de paciente”.
Figura 6.3.NRepresentación de la variable de entrada “infección probable en el momento de admisión a la UCI”.
Figura 6.4.NRepresentación de la variable de entrada “incremento de creatinina !124 Mol/l en últimas 24 horas asociado con oliguria”.
LA REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...
81
Representación de las respuestas de un cuestionario clínico en forma de escalas continúas Proponemos un cuestionario para capturar datos de admisiones que usa escalas continuas sobre las cuales el doctor indica con una cruz (por ejemplo) el lugar donde él/la pensó apropiado como respuesta a aquella pregunta. Por ejemplo: ¿Existencia de coma o estupor profundo en el momento de admisión a la UCI? Ninguna indicación
Alguna indicación
Indicación significativa
Indicación clara
Figura 6.5NEjemplo de una escala continua con cuatro etiquetas lingüísticas.
En el ejemplo de la Figura 6.5 podemos ver una escala de cuatro etiquetas lingüísticas asignadas por el experto médico (usando su propia terminología). La función de pertenencia determinará si la distancia a lo largo de la escala es lineal (equidistante entre puntos discretos), logarítmica, u de otra forma. La principal ventaja de este enfoque es la mayor precisión y valor de la información captada, que es lo que ofrece la forma de representación difusa. La desventaja principal y problemas a resolver son: la necesidad de definir las etiquetas lingüísticas (junto con el experto); la necesidad de encontrar la mejor definición posible para la función de pertenencia (una simplificación sería el uso de una forma trapezoidal o triangular); y el hecho de que la definición depende de la subjetividad del experto médico en cada aplicación. En la práctica, el método que se elige debe dar una decisión no-difusa como salida o resultado. Es decir, o el paciente se debe operar con urgencia o no. Existen muchas representaciones para reglas difusas que producen estados no-difusos como salida de un proceso difuso de los datos. Una de las representaciones más referenciadas de este tipo es la de [Takagi85].
82
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
La captura de datos de tipo no-difuso y de tipo difuso Para datos reales, es vital diseñar y comprobar diferentes métodos de representación. En el caso de los datos clínicos existen muchas variables de tipo binario para las cuales una pregunta compleja requiere una respuesta sencilla con posibles valores “sí” o “no”, como se ve en el ejemplo (a). Existen también respuestas de selección múltiple a una pregunta, como en el ejemplo (b). O podemos tener una pregunta que requiere que la respuesta sea indicada en una escala, como en el ejemplo (c). (a)NPregunta (al doctor): ¿Es probable que el paciente ha tenido alguna infección antes de admisión a la UCI? (a)NSí __
No __
(b)NPregunta (al doctor): ¿Cuál es su evaluación del estado previo de salud del paciente? (a)N1 __
2 __
3 __
4 __
(c)N¿Incremento de creatinina ! 124 Mol/l en las últimas 24 horas asociado con oliguria? (a)NNo
Sí
La captura de datos en la forma difusa es evidente en el ejemplo (c), mientras que preguntas (a) y (b) requieren una sola categoría como respuesta y capturan los datos en la forma no-difusa. La función de pertenencia subyacente es crítica a la conversión de la representación de datos de entrada a un grado de pertenencia. Esto se puede hacer mediante una colaboración entre el experto médico y el estadístico. Se verificarían los resultados del método con datos reales de prueba, y una comprobación posterior del experto. Para evaluar una función de pertenencia, podemos usar una mezcla de casos con un alto y bajo grado de pertenencia a una clase, y otros casos que caen de forma ambigua entre una clase y otra.
A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...
83
6.2.NCOMPARACIÓN ENTRE DIFERENTES TIPOS DE DATOS A menudo, en la labor del análisis estadístico de datos se dedica un tiempo insuficiente a la asignación de tipos a las variables que mejor representan a la naturaleza de los datos. Como consecuencia, el análisis posterior sufre debido a fallos en la veracidad de las suposiciones iniciales. Esto es aún más evidente cuando consideramos la problemática de comparar a variables de tipos distintos. Descubrimos que hay muchas diferentes posibles maneras de comparar, por ejemplo, una variable categórica con una numérica. En esta sección del libro, vamos a ver ejemplos de comparación mediante diagramas de densidad de puntos, solapamiento, consideración de casos en puntos extremos o ambiguos, etcétera. El enfoque del material presentado en esta sección es la definición de los cálculos de correlación entre diferentes tipos de variables. El motivo es la definición de una base que nos permita crear una matriz de correlación. Esta matriz luego sirve como entrada al algoritmo de fusión de Hartigan, que unifica a las variables en un número reducido de factores. Como una simplificación inicial, vamos a considerar los tipos categórico ordinal (por ejemplo, alto, medio, bajo) y categórico no-ordinal (por ejemplo azul, amarillo, rojo) como un solo tipo. Los siguientes algoritmos han sido implementados en funciones “C”: (A) Comparación de variables de tipo entero o flotante con variables de tipo entero o flotante; (B) Comparación de variables de tipo categórico no-ordinal con variables de tipo categórico no-ordinal. Las pruebas con datos de entrada han sido validadas con SPSS, en el primer caso con la función de correlación estándar y en el segundo caso con la función de chi-cuadrado (F2), los resultados siendo idénticos. Los siguientes algoritmos han sido desarrollados “en papel” y verificados dando datos de prueba de entrada y comprobando los resultados: (C) Comparación de variables de tipo categórico no-ordinal con variables de tipo entero o flotante; (D) Comparación de variables de tipo difuso categórico ordinal con variables de tipo categórico no-ordinal; (E) Comparación de variables de tipo categórico ordinal difuso con variables de tipo categórico no-ordinal difuso.
84
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
El siguiente algoritmo no fue desarrollado por completo, pero se considera que sucede de forma natural a partir de los algoritmos que ya hemos definido en más detalle: (F) Comparación de variables de tipo categórico ordinal difuso con variables de tipo categórico ordinal difuso. Proponemos que (E) es una simple variante de (D) y (C) , mientras que (F) es una variante de (D) . Para representar la diferencia entre variables de tipo categórico ordinal a las de tipo categórico no-ordinal, podríamos calcular la información adicional aportada por la ordenación explícita de las clases en las variables de tipo ordinal. Hacemos constar que los resultados de los cálculos de todas las correlaciones tienen que ser normalizados (que es trivial) y calibrados (redistribuidos) para asegurar valores homogéneos que puedan ser comparados entre sí. Un modus operandi es el de realizar las pruebas incluyendo datos en puntos extremos (max, min), junto con una selección de puntos intermedios. Para estos valores podemos usar cocientes o factores de escala, cuando sea necesario, para calibrar en cada caso. Como ejemplo de una calibración, suponemos que la correlación entre categórico ordinal y categórico ordinal difuso tiene un sesgo hacía 1 (mayor densidad hacía la parte de la escala acabando en 1). Por otra parte, suponemos que la correlación de entero o flotante y categórico ordinal difuso tiene un sesgo más hacía el 0. La consecuencia sería que la segunda correlación (hacía 0) sería perjudicada y elegida con menos frecuencia en el momento de elegir pares de variables para fusionar, debido a los valores más bajos de correlación mutua. Como posible solución se podría introducir un valor compensatorio para “calibrar”, en este sentido, a las distribuciones de las dos variables. A)NComparación de las variables de tipo entero o punto flotante con variables de tipo entero o punto flotante Esta comparación implica una correlación estándar de variables numéricas que hemos implementado como una función de “C”. Si entramos los datos que se ven en las columnas 3 y 4 de la Tabla 6.3, la función produce la matriz de correlación que se ve en la Tabla 6.4. Los resultados fueron comprobados con SPSS (stats-correlate-bivariate-Pearson) desviaciones cross product y covarianza.
A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...
85
Tabla 6.3.NValores correspondientes para la variable categórica “sexo”, la categórica (ordinal) “diag” (nosis), y las variables numéricas “edad” y “fio2” (datos clínicos). sexo
diag
edad
fio2
V M M V M V M V V
15 18 15 50 18 21 30 21 21
25 50 23 40 73 65 48 35 39
65 80 75 85 60 70 60 45 55
Tabla 6.4.NMatriz de correlación para las variables “edad” y “fio2”.
edad fio2
edad
fio2
1.000 -0,244
-0,244 1.000
B)NComparación de las variables de tipo categórico no-ordinal con variables de tipo categórico no-ordinal El método que usamos compone de tres pasos, cada paso dependiendo de la salida del paso anterior. (1) Se calcula la matriz de contingencias; (2) se calcula el valor de Chi-Cuadrado (F2); (3) se calcula el cociente de Cramer. Las funciones que corresponden a los tres pasos han sido implementadas en código “C”. Ahora vamos a ver en detalle a cada paso. 1)NMatriz de contingencias. Podemos usa una prueba de independencia en una tabla de contingencia según el método detallado en [Cuadras80]. Primero definimos la distancia de F2 como: § § 6f2 · · F2 = n ©© i,j f ijf ¹ - 1¹ i j
(6.1)
Donde i indica el valor i de la primera variable, j indica el valor j de la segunda variable, y n es el número de valores o casos. f2ij es la frecuencia de valor i de la primera variable, con respecto al valor j de la segunda variable, en el conjunto de datos. Por ejemplo, si el valor i de la
86
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
variable “sexo” es igual a “V”, y valor j de la variable “diagnóstico” es 5, entonces el número de ocurrencias de sexo=“V” y diagnóstico = 5 en el conjunto de datos es f2ij . El valor fi representa la suma de las frecuencias para cada posible valor de la primera variable, y el valor fj representa la suma de las frecuencias para cada posible valor de la segunda variable. En general, se puede considerar f como la “tabla de contingencia”, de la cual se ve un ejemplo en la Tabla 6.5. Como ejemplo, consideramos la variable binaria “sexo”, que es de tipo categórico con dos posibles clases; la segunda variable “diag” también se considera de tipo categórico, y en los datos de ejemplo de la Tabla 6.3 se ve que tiene 5 posibles clases. La tercera columna, “edad”, una variable de tipo numérico, se usa en ejemplos posteriores. Ahora volvemos al proceso en sí: primero procesamos los casos que se ven en la Tabla 6.3, columnas “sexo” y “diag”, en orden de calcular sus frecuencias relativas. Dichas frecuencias se ven en la Tabla 6.5, en una matriz de contingencia. En la Tabla 6.5, las columnas corresponden a los diferentes valores de la variable “diag” que existen en el conjunto de datos. Las filas corresponden a los diferentes posibles valores de la variable categórica “sexo”. Los valores que se ven en la tabla son frecuencias, o el número de casos que corresponden a cada pareja atributo-valor. Por ejemplo, “diag”=21 y “sexo”=V ocurren 3 veces en el conjunto de datos. Tabla 6.5.NFrecuencias relativas para los casos de la Tabla 6.3.
variable V “sexo” M
5 11 11
variable “diag” 18 50 21 0 11 13 2 10 10
30 10 11
12
2
11
11
13
suma de las ocurrencias para cada atributo-valor de “sexo” 5 4
2)NValor de F2. En el siguiente paso, calculamos el valor F2, que tiene los siguientes subpasos: calcular el número total de casos, calcular la suma para cada columna, calcular la suma para cada fila, calcular el número de valores para cada atributo, entonces repetir para todos los elementos en la matriz. ((0,1 + 0,2 + 0,6 + 0,125 + 0,5 + 0,25 ) - 1) 9
= 9 × (1,775 -1) = 6,975
A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...
87
3)NComo último paso, calculamos el cociente de contingencia de Cramer: 6,975 / 9 = 0,3875 2 Observaciones: En la práctica se puede considerar la distancia Chi-Cuadrado (F2) no sólo como una estadística de comprobación, sino también como una medida de adecuación. En este sentido, el F2 es una medida de adecuación global del modelo respecto a los datos. Mide la distancia (diferencia, discrepancia, desvío) entre la matriz de covariancias de la muestra y la matriz adecuada de covarianzas. En el ejemplo que acabamos de estudiar en esta sección, podemos considerar la primera fila de la Tabla 6.5 (sexo=“V”) como la matriz de covarianzas de la muestra. Asimismo, podemos considerar la segunda fila de la Tabla 6.5 (sexo=“M”) como la matriz adecuada de covarianzas. Así que estamos buscando una adecuación (relación o distancia) entre los valores de “diag” para sexo=“V” y los valores de “diag” para sexo=“M”. De otra parte, F2 es una medida de no-adecuación en el sentido de que un valor pequeño de F2 corresponde a una buena adecuación, mientras que un valor grande de F2 indica una mala adecuación. Un valor cero para F2 correspondería a una adecuación perfecta. Así que en el ejemplo anterior, el valor de F2 calculado en el paso (2) es 6,975 / 9 = 0,775. Para los datos en la Tabla 6.5 este valor resultante indica una adecuación razonable y demuestra una dependencia significativa entre los valores. C)NComparación de variables de tipo categórico no-ordinal con variables de tipo entero o flotante Para poder calcular una correlación con esta combinación de tipos de variable tenemos que elegir un algoritmo que nos permita comparar números reales con símbolos (categorías). Hay dos principales opciones: (1) usar un método de cosecha propia basado en simples frecuencias; (2) elegir un algoritmo “estándar” a partir de los disponibles. En esta sección, hemos elegido la opción (1), que sirve como ejercicio desde primeros principios. La Tabla 6.6 muestra algunos valores para dos variables típicas de tipo numérico y categórico, respectivamente.
88
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Si procesamos los valores de las columnas “sexo” y “edad” de la Tabla 6.3, tendremos como resultado la matriz de correlación que se ve en la Tabla 6.6, que indica una baja correlación entre estas dos variables. Tabla 6.6.NResultado de la correlación de la variables “edad” y “sexo”.
edad sexo
edad
sexo
1,0 0,3
0,3 1,0
Como modus operandi, primero estudiamos una por una las categorías de la variable categórica, y después calculamos el máximo, mínimo y media de la variable numérica. En el caso de la variable “sexo”, podemos ver los resultados en las Tablas 6.7 y 6.8. Tabla 6.7.NEjemplo 1: valores de la variable numérica “edad” para cada de las categorías de la variable categórica “sexo”. sexo = V
sexo = M
25 35 39 40 65
23 48 50 73
Un ejemplo de una correlación perfecta sería sí todos los casos de sexo=V tuvieron una edad menor o igual a 50 años y todos los casos de sexo=M tuvieron una edad mayor de 50 años. Tabla 6.8.NEstadísticas básicas para la variable numérica “edad” para cada categoría de la variable categórica “sexo” (ref. Tabla 6.7, ejemplo 1).
V M
máx
mín
media
rango
% solap. de rangos
número total de puntos
número total de puntos en solap.
% de puntos en solap.
65 73
25 23
40,8 48,5
40 50
100% 80%
5 4
5 4
100% 50%
A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...
89
En la Tabla 6.8, la media de ambas categorías es 0,9, siendo esto igual al porcentaje en el que los rangos solapan, como se ve en la columna cinco de la tabla. Esto implica que casi no hay diferencia entre las categorías V, M con respecto a la variable de “edad”. La correlación sería 1 - 0,9 = 0,1, que podemos interpretar en este caso como una correlación muy pequeña. A
B
V M
C 0
10
D
20
30
40 edad
50
60
70
80
Figura 6.6.NRepresentación gráfica de la densidad de puntos, usada para identificar el grado de solapamiento de los valores de la variable numérica “edad” con las categorías de la variable categórica “sexo” (ref. Tabla 6.7, ejemplo 1).
En la Figura 6.6 vemos que el rango de valores correspondiente a sexo=“V” se define desde punto A hasta punto B, mientras que el rango de los valores correspondiente a sexo=“M” va desde punto C hasta punto D. El solapamiento de los dos rangos existe entre los puntos A y B, según lo indicado por la zona en gris. La última columna de la Tabla 6.8 indica el porcentaje calculado de solapamiento que toma en cuenta la densidad para los puntos de datos seleccionados. Ahora, en la Tabla 6.9 consideramos una distribución un poco diferente como ejemplo de lo que sería una mayor correlación entre las dos variables “edad” y “sexo”. Tabla 6.9.NEjemplo 2: valores de la variable numérica “edad” para cada de las categorías de la variable categórica “sexo”. sexo = V
sexo = M
25 35 45 48 50
45 50 55 75
90
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
En la Tabla 6.10 se ven las estadísticas básicas de la variable “edad” respecto a la variable “sexo”. A partir del valor de “solapamiento” (columna 5), observamos que la correlación es mucho mayor que en los casos de los valores de las Tablas 6.7 y 6.8. Tabla 6.10.NEstadísticas básicas para la variable numérica “edad” para cada categoría de la variable categórica “sexo” (ref.Tabla 6.9, ejemplo 2).
V M
máx
mín
media
rango
% solap. de rangos
número total de puntos
número total de puntos en solap.
% de puntos en solap.
50 75
25 45
40,61 56,25
25 30
20% 17%
5 4
3 2
60% 50%
En la Tabla 6.10, la media de las dos categorías es igual a ((20+17)/2)/100 = 0,185, que es igual al porcentaje de rangos que se solapan. Esto implica que existe una diferenciación mucho mayor (que el ejemplo previo de la Tabla 6.8) para sexo={V, M} comparada con “edad”. La correlación sería 1 - 0,185 = 0,815. Sin embargo, este método aún no toma en cuenta la densidad de los puntos. Es decir, no sólo hay que considerar el porcentaje de solapamiento entre los respectivos rangos, sino también hay que incluir la información de cuántos puntos hay en el solapamiento. Para poder calcular el número de puntos, podemos usar un factor de ponderación, como por ejemplo, el número en la zona de solapamiento dividido por el número de puntos en total (fuera y dentro del solapamiento). En la Figura 6.7, vemos una representación gráfica de una zona de solapamiento y de densidad de puntos. El rango de los valores para sexo=V es de puntos A hasta B, mientras que el rango de valores para sexo=M es de C hasta D. Los dos rangos solapan entre puntos C y B, según lo indicado por la zona gris. La última columna de la Tabla 6.10 indica el porcentaje de solapamiento calculado que tiene en cuenta la densidad de los puntos de datos seleccionados. Esto implica que, a pesar de que el solapamiento de la Figura 6.7 es mucho menor (5 en comparación con 25) que el de los datos de la Figura 6.6, posee una media de 55% de los casos (puntos), lo que implica una mayor “densidad”. Este hecho tiene que quedar reflejado en el cálculo de la correlación, y a continuación vamos a considerar dicho cálculo.
A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...
A
91
B
V M
D
C 0
10
20
30
40
50
60
70
80
edad Figura 6.7.NRepresentación gráfica de la densidad de puntos usados para identificar el grado de solapamiento de los valores de la variable numérica “edad” con respecto a las categorías de la variable categórica “sexo” (ref. Tabla 6.9, ejemplo 2).
Se proponen a continuación tres métodos alternativos para calcular la correlación en términos del solapamiento que acabamos de comentar: 1)NDefinimos los valores de los casos en el solapamiento como{v1, v2, …, vn}, entonces la suma de los valores en el solapamiento será n
S = 6 vi i=1
Si el número de puntos (casos) en el solapamiento es Nsolapa, el número de puntos (casos) fuera del solapamiento es Nno solapa, y se define el % de solapamiento como Psolapa, entonces el valor de la correlación será: C = (S / (Nsolapa + Nno solapa ) ) * Psolapa Si existiera un rango muy amplio, esto mantendría la comparabilidad de los valores. 2)NLa media de los valores dentro del solapamiento. Es decir, C = S / Nsolapa . 3)NCalcular un cociente que relaciona el tamaño relativo del solapamiento con el número de casos dentro del solapamiento. Si Psolapa es el % de solapamiento, y Pcasos es el % de casos dentro del solapamiento, entonces C = Psolapa × Pcasos.
92
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Por ejemplo: Primer atributo-valor, sexo=“V”. Si el solapamiento es 20% y el % de casos dentro del solapamiento es 60%, entonces Psolapa = 0,20 y Pcasos = 0,60, el cual resulta en 0,20 × 0,60 = 0,12 Segundo atributo-valor, sexo=“M”. Si el solapamiento es 17% y el % de casos dentro del solapamiento es 50%, entonces Psolapa = 0,17 y Pcasos = 0,50, el cual resulta en 0,17 × 0,50 = 0,085 Esto produce un valor medio (de los dos atributos-valor) de (0,12 + 0,085) = 0,205/2 = 0,1025 Observamos que para poder comparar dos variables de tipo ordinal es necesario incorporar la magnitud. D)NComparación de variables de tipo categórico ordinal difuso con variables de tipo categórico no-ordinal En procesos (A) hasta (C), todos los tipos de las variables que hemos comparado entre sí han sido “no-difusos”. Hemos comprobado las siguientes combinaciones de tipos: numérico con numérico, categórico con categórico, y categórico con numérico. En proceso (D) vamos a incorporar el tipo difuso, que será considerado como una categoría con un rango. Vamos a usar como ejemplo la variable “Mac_Cabe” del conjunto de datos UCI, que tiene 3 categorías, 1, 2 y 3. Las categorías tienen el siguiente significado: 1=sin enfermedad o no-mortal, 2=finalmente mortal ( 7
S (3,1/1,1)
BP-STBL = mod-estable
BP-STBL = inestable
S (3,0)
A (1,0)
A (2,0)
L-BP = medio
L-BP = bajo A (3,0)
BP-STBL = mod-estable
BP-STBL = estable
A (9,0)
L-SURF = medio
BP-STBL = inestable
L-SURF = alto
L-SURF = bajo
A (6,0/1,0)
L-SURF = alto
L-SURF = medio
L-SURF = bajo
S (2,0)
A (7,0/2,0)
A (3,0)
A (9,0/1,0)
L-CORE = alto
L-CORE = medio
A (0,0)
L-CORE = BP-STBL = bajo estable A (5,0/2,0)
BP-STBL = estable
BP-STBL = mod-estable
BP-STBL = inestable
A (15,0/4,0)
S (3,0/1,0)
A (6,0/1,0)
A (6,0)
BP-STBL = mod-estable
BP-STBL = inestable
S (1,0)
S (5,0/2,0)
Figura 7.4.NEjemplo de un árbol de decisión generado por C4.5 a partir del conjunto de datos “posoperatorios”.
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
L-BP = alto
BP-STBL = estable
TÉCNICAS
133
Tratamiento de valores desconocidos Si procesamos datos reales es fácil encontrarse con la situación de que en un 30% de los casos falta algún valor para una variable determinada. Una técnica de inducción puede incorporar criterios que permiten procesar un conjunto de datos con valores desconocidos. Por ejemplo, se puede modificar el cálculo de “beneficio” que comentamos antes, en términos del contenido de la información de la siguiente forma: beneficio(X)
=
=
probabilidad que A es conocida × (info(T) - infox(T)) + probabilidad que A es desconocida × 0 F × (info(T) - infox(T)) (7.7)
dónde: info(T) es igual al valor medio de la información necesaria para identificar la clase de un caso T. infox(T) mide el valor de la información que se espera será requerida. Es igual a la suma ponderada respecto a los subconjuntos de datos. T = conjunto de casos de entrenamiento. beneficio(X) mide la información obtenida por la creación de una partición T usando prueba X.
Partición del conjunto de datos de pruebas El proceso de crear particiones de C4.5 tiene un enfoque probabilístico. Por ejemplo, asignamos a un caso que pertenece a T (véase descripción anterior) un resultado conocido Oi y un subconjunto Ti. Entonces, la probabilidad de que este caso pertenezca al subconjunto Ti es 1, y la probabilidad de que el caso pertenezca a cualquier otro subconjunto es 0. Cuando es resultado es desconocido, sólo podemos hacer una inferencia probabilística débil. Por esta razón, se asocia un cociente a cada caso en cada subconjunto Ti. Los cocientes representan la probabilidad de que un caso pertenezca a cada subconjunto.
134
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Representación en forma de reglas Además de la representación de un modelo en forma de árbol, podemos también representarlo en forma de reglas. Cuándo un árbol llega a una cierta complejidad, su interpretación empieza a ser difícil. Como alternativa, podemos representar la misma información contenida en el árbol en forma de reglas, que podrían ser más fáciles de interpretar. Ejemplo de una regla: Regla 5: CORE-STBL = “estable” CONFORT > 7 L-BP = “medio” L-SURF = “bajo” BP-STBL = “inestable” → clase es “S” [60.0%] Interpretación: si el valor de CORE-STBL es igual a “estable”, y el valor de CONFORT es mayor de 7, y el valor de L-BP es igual a “medio”, y el valor de L-SURF es igual a “bajo”, y el valor de BP-STBL es igual a “inestable”, entonces el paciente es un miembro de la clase “S” con una probabilidad de 60%.
C5.0 – mejoras respecto a C4.5 En el año 2000, Quinlan publicó C5.0, el sucesor de C4.5. Se destacan las siguientes mejoras: 1)NConjuntos de reglas que ocupan menos memoria y entrenan con mayor rapidez. 2)NÁrboles de decisión: incremento en velocidad para entrenamiento con la misma precisión que C4.5. 3)N“Boosting”: técnica para generar y combinar múltiples clasificadores con el objetivo de mejorar la precisión predictiva. Reducción de la tasa de error para el conjunto total de datos.
TÉCNICAS
135
4)NNueva funcionalidad: C4.5 trata a todos los errores de la misma forma, mientras que C5.0 permite la definición de un coste distinto para cada pareja de valores {predicho, real} de una clase. Si usamos esta opción, C5.0 construye un clasificador que minimiza los costes esperados de una clasificación errónea, en vez de minimizar las tasas de error. 5)NNuevos tipos de datos: fecha, etiqueta de clase, valores ordinales discretos. Además de valores desconocidos, C5.0 permite indicar que un valor es “no-aplicable”. Se pueden definir nuevas variables como funciones de variables existentes. 6)NUna ventana de referencia-cruzada permite enlazar un caso con un componente del clasificador que sea relevante. Previamente a la publicación de C5.0, Quinlan había trabajado sobre la mejora del uso de atributos continuos en C4.5. Dicho trabajo queda resumido en [Quinlan96].
7.3.NLA TÉCNICA DE “AMALGAMACIÓN”: LOS ALGORITMOS DE CLUSTERING DE HARTIGAN En [Hartigan75], Hartigan define CLUSTER, que es un conjunto de programas escritos en el lenguaje Fortran y que sirven para el análisis de agrupaciones (clusters). CLUSTER incluye programas para la agrupación de variables y/o casos, usando algoritmos como el direct joining y splitting, la optimización exacta de Fisher, single-link, k-Means, mutaciones mínimas, y programas para la valoración de valores desconocidos. A continuación se resumen los diferentes tipos de algoritmos de amalgamación/agrupación que componen CLUSTER: Ordenación (sorting) – se elige una variable clave, y las observaciones se dividen según los valores que tenga esa variable. Dentro de cada agrupación de la partición, se puede volver a dividir usando otras variables claves. Intercambio (switching) – se crea una partición inicial a partir de las observaciones, y se obtienen nuevas particiones por el intercambio de
136
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
observaciones entre agrupaciones. El algoritmo termina cuando no existen más intercambios que mejoren un criterio que mide la “calidad” de las particiones creadas. División (splitting) – en el estado inicial, todas las observaciones se encuentran en una sola partición. A partir de este estado inicial, se elige una agrupación según un criterio dado, y se divide en agrupaciones de menor tamaño. Sumar (adding) – se supone que ya existe una estructura de agrupación que podría ser una partición o en forma de árbol. A continuación se añade cada objeto a la agrupación más próxima, según un criterio de “distancia” o “similitud”. Búsqueda (searching) – a partir de un subconjunto de todas las agrupaciones posibles, se busca la óptima según un criterio determinado.
El análisis factorial y la “fusión de atributos” En esta sección consideramos el uso del joining algorithm o “algoritmo de amalgamación” de Hartigan [Hartigan75] para el análisis factorial. El algoritmo usa como entradas a los valores de una matriz de covarianzas calculada a partir de las variables. Este algoritmo sirve para dos objetivos: el primero, siendo la reducción del número de variables mediante la unificación progresiva de las mismas; el segundo objetivo es la identificación de los factores más relevantes y los factores que estén más relacionados entre sí. De hecho, el segundo objetivo es un prerrequisito para el primero. Los detalles de la implementación de este algoritmo por Nettleton se encuentren en [Nettleton99c]. Existen otros joining algorithms, detallados en el libro de Hartigan, y es útil comparar las diferencias entre sus respectivas funcionalidades. Preliminares: consideramos una matriz de covarianzas {C(I,J), 1 d I dN, 1 d J d N}, dónde N es el número inicial de variables a procesar. Dicha matriz será aproximada por el producto de las matrices de carga B, donde B tiene una estructura simple en forma de árbol. Eso implica que cada columna de B tiene elementos constantes no iguales a cero (posiblemente un distinto valor constante por columna). Además, se forma un árbol a partir de los grupos de variables definidos por los elemen-
TÉCNICAS
137
tos no iguales a cero en cada columna. Esto supone que la representación de datos ha sido adaptada a la forma de representación necesaria para poder definir la matriz C. Un prerrequisito es la capacidad de calcular la matriz C. En el caso de datos no-numéricos, se necesita una medida apropiada de distancia para poder calcular las covarianzas. A la matriz B se asignan valores iniciales por defecto, como se verá a continuación en el paso 1 del algoritmo. Una matriz de covarianzas C es exactamente igual al producto de unas matrices de carga del mismo tipo, únicamente en el caso de que –C es una ultramétrica. Es decir, únicamente en el caso de que para tres variables I,J,K, C(I,J) t min [C(I,K),C(J,K)]. El algoritmo procede a buscar parejas de variables cuya covarianza es la más alta, para poder combinar las dos variables correspondientes en un factor nuevo. La covarianza de este factor con respecto a cada de las otras variables será la media ponderada de las covarianzas de las variables combinadas. Entonces, la próxima covarianza más alta indicará la próxima pareja para ser fusionada.
Ejemplo de proceso del joining algorithm de Hartigan A continuación vamos a seguir los pasos del primer ciclo de proceso usando un conjunto de datos de prueba. El estado inicial de los datos está representado por una matriz de covarianzas para las siete variables a ser fusionadas. (Se refiere a la Tabla 7.2.) Paso 1: Asignar K, el número de clusters, a 7. Definir WT(I) = 1, JT(I) = 0. Definir B(I,I) = 1 para 1 d I d 7 y B(I,J) = 0 para todas las demás I,J (1 d I d 7, 1 d J d 13). El máximo de ciclos del algoritmo será 2N-1=7x21=13. La estructura de cada cluster se escribe en el vector JT, donde JT(I) es el cluster construido mediante la fusión de I con algún otro cluster. Paso 2: La pareja de variables FM y FR tienen la covarianza más alta, así que I=4, J=5. Paso 3: Incrementar K a 8. Definir JT(4) = JT(5) = 8, C(8,8) = 0,846 [dado a que el valor de C(4,5) es menor que C(4,4) o C(5,5) ], WT(8) = 2. Definir B(4,4) = [1-0,846 ]½ = 0,392, B(5,5) = [1-0,846]½ = 0,392, B(4, 8) = B(5,8) = 1. JT(8) = 0.
138
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Paso 4: Se define lo siguiente: C(1,8) = 1/2[C(1,4) + C(2,4)] = 1/2(0,305 + 0,301) = 0,303. De la misma forma, las demás covarianzas quedan definidas para el nuevo cluster o factor, calculando la media de las anteriores. Dado a que K < 13, volvemos a Paso 2, etcétera. Tabla 7.2.NEjemplo de la aplicación del algoritmo de fusión a un conjunto sencillo de datos de ejemplo.
Estado inicial de los datos 1.HL 2.HB 3.FB 4.FM 5.FR 6.FT 7.HT
1.000 1.402 1.395 1.305 1.301 1.339 1.340 HL
1.000 1.618 1.135 1.150 1.206 1.183 HB
1.000 1.289 1.321 1.363 1.345 FB
1.000 1.846 1.000 1.797 1.759 1.000 1.800 1.661 1.736 1.000 FM FR FT HT
Paso 1. Fusión de variable FR con variable FM HL HB FB FMFR FT HT
1.000 1.402 1.395 1.303 1.339 1.340
1.000 1.618 1.142 1.206 1.183
1.000 1.305 1.846 1.363 1.778 1.000 1.345 1.730 1.736 1.000
Paso 2. Fusionar factor FMFR con variable FT HL HB FB FMFRFT HT
1.000 1.402 1.395 1.315 1.340
1.000 1.618 1.000 1.163 1.778 1.183 1.345 1.732 1.000
Paso 3. Fusionar factor FMFRFT con variable HT HL HB FB FMFRFTHT
1.000 1.402 1.000 1.395 1.618 1.000 1.321 1.168 1.328 1.732
TÉCNICAS
139
Paso 4. Fusionar variable HB con variable FB HL FBHB FMFRFTHT
1.000 1.398 1.618 1.321 1.248 1.732
Paso 5. Fusionar factor HBFB con variable HL HLFBHB FMFRFTHT
1.398 1.270 1.732
Paso 6. Fusionar factor HLFBHB con factor FMFRFTHT HLFBHBFMFRFTHT
270
El árbol que resulta de la secuencia de fusiones es: HL FB HB FM FR FT HT 4 1 5 2 3 6 dónde la primera fusión, FM con FR, se indica por “1”, la segunda fusión de FMFR con FT se indica por “2”, etcétera.Quedan fusionadas las parejas con las covarianzas más altas. Se consideran a las nuevas covarianzas como la media ponderada de las anteriores.
7.4.NLA TÉCNICA DE “AGREGACIÓN”: CP, OWA Y WOWA En esta sección consideramos las técnicas de agregación de datos. Estas técnicas emplean vectores de valores de ponderación (cocientes) para sesgar los datos. En el presente libro, interpretamos los cocientes en términos de la relevancia de las variables y la fiabilidad y los valores de los datos. A continuación, vamos a considerar tres técnicas en detalle: componentes principales (CP), “ordered weighted average” (OWA), y “weighted ordered weighted average” (WOWA). Cada una de estas técnicas usa diferentes factores de ponderación. En el caso de CP, se hace una correlación de las variables de entrada con el objetivo de reducir la dimensionalidad en uno o dos factores. OWA, por su parte, pondera los valores de los datos, mientras que WOWA pondera tanto las variables como los valores de los datos.
140
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Una cuarta técnica de agregación es el weighted mean (WM) o media ponderada, que tiene como entrada un vector de datos y un vector de cocientes. El vector de cocientes contiene un valor de fiabilidad entre 0 y 1, para cada variable correspondiente. Se puede decir que los operadores de agregación producen un “modelo” de los datos, con sus variables y cocientes de entrada, y variable de salida (resultado) que sirve para el pronóstico o diagnóstico. Por consiguiente, los operadores de agregación son complementarios a las técnicas de modelización más conocidas, como la regresión, las redes neuronales o la inducción de reglas. Se puede decir que sus ventajas son su flexibilidad y su uso de la información adicional que aportan los vectores de cocientes, y su capacidad para producir resultados aceptables con pocos casos y un número elevado de variables de entrada. Ponemos una atención especial en el operador de agregación WOWA[Torra97a]. Este operador es un híbrido de los operadores “media ponderada” (WM) y OWA, y por consiguiente ofrece una gran flexibilidad en el proceso de los datos. El operador OWA fue presentado por primera vez en [Yager88] y es una de las referencias clave de técnicas de agregación de datos. OWA emplea un vector de cocientes que asigna un factor de fiabilidad para cada valor. Por su parte, el operador WM emplea un vector de cocientes que asigna un factor a la variable (que en el presente libro hemos interpretado como la relevancia). Por último, WOWA combina los enfoques de OWA y WM para definir dos vectores de cocientes, uno que pondera los valores y otro que pondera las variables.
Definiciones básicas A continuación detallamos tres técnicas de agregación, CP – componentes principales, OWA ordered weighted average y WOWA weighted ordered weighted average. En el caso de OWA y WOWA hay una presentación más teórica. Si desea, el lector puede saltar estas descripciones dado a que su compresión no es imprescindible para los capítulos posteriores.
TÉCNICAS
141
CP – Componentes principales CP es una técnica estadística estándar usada para generar una correlación de las variables de entrada, con el objetivo de reducir la dimensionalidad hasta llegar a uno o más factores. Para poder combinar dos variables en un solo factor, podemos representar la correlación entre las dos variables de forma gráfica en un scatterplot (gráfico de dispersión). Entonces podremos dibujar la línea de regresión que mejor representa la relación lineal (si lo hay) entre las dos variables. Si podemos definir una variable que aproxime la línea de regresión en el gráfico, entonces digamos que dicha variable ha captado una “síntesis” de dicha relación. Los valores individuales de los casos del nuevo factor, representado por la línea de regresión, podrían ser usados en el futuro para representar la “síntesis” de las dos variables originales. En este sentido, hemos reducido las dos variables a un solo factor. Este ejemplo ilustra la idea básica de análisis factorial, o el análisis de componentes principales. Si extendemos el ejemplo de dos variables a variables múltiples, entonces el esfuerzo computacional se incrementa, pero el principio básico de expresar dos o más variables en un solo factor sigue igual.
OWA – Ordered weighted average OWA es un método de agregación de datos que fue definido por primera vez por Yager en [Yager88]. Ordered weighted average tiene dos vectores de entrada: un vector de datos y un vector de cocientes. El vector de cocientes contiene dos o más grados de relevancia entre 0 y 1, que se usan para interpretar los valores de los datos. OWA permite efectuar un control de tipo AND/OR (Y/O) sobre los datos de entrada, dirigido por los cocientes de relevancia. Definición: un mapeo F desde In → I (donde I = [0, 1]) Se llama un operador OWA de dimensión n, sí existe un vector de pesos Y asociado con F,
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
ª Y1 Y = « Y2 « ... « ¬ Yn
ª « « « ¬
142
tal que 1) Yi (0,1) 2) 6iYi = 1oo y dónde F(a1, a2, ..., an) = Y1b1 + Y2b2 + ... + Ynbn,
(7.8)
dónde bi es el i-ísimo elemento más grande en el conjunto a1, a2, ..., an. B es un vector de argumentos ordenados, si cada elemento bi [0,1] y bi t bj si j ! i. Definimos un operador OWA F con vector de pesos Y y un tuple de argumentos (a1, a2, ..., an). A este operador, se le puede asociar un vector de entradas ordenadas B tal que B es un vector de los argumentos de F puestos en orden descendiente. Destacamos que los cocientes están asociados con una posición concreta en el orden, en vez de estar asociados con un elemento particular. El artículo posterior [Yager93], publicado cinco años más tarde que el artículo original [Yager88], demuestra la evolución del trabajo de Yager hacia operadores OWA cada vez más especializados, incluyendo nuevas mejoras y formas de establecer o aprender los cocientes. Un ejemplo de la aplicación del operador OWA es el siguiente. Asignamos el vector de pesos: W = [0,4, 0,3, 0,2, 0,1]T Entonces f(0,7, 1,0, 0,3, 0,6) = (0,4)(1,0) + (0,3)(0,7) + (0,2)(0,6) + (0,1)(0,3)=0,76. Es decir, a partir de un vector de pesos W y un vector de valores de datos de entrada “f”, el resultado final del operador OWA es 0,76.
WOWA – Weighted ordered weighted average Torra definió el operador de agregación WOWA en [Torra96]. El operador WOWA combina las características de los operadores OWA y WM (weighted mean o media ponderada). Emplea dos vectores de pesos, uno
TÉCNICAS
143
que corresponde a la “relevancia” y otro que corresponde a la “fiabilidad” de las fuentes de datos, y que se usan para agregar los valores. El operador WOWA se puede considerar como una combinación los operadores OWA y WM. De esta forma, combina los aspectos favorables de los dos operadores, y compensa algunas de sus carencias, que comentamos a continuación. El operador OWA satisface la propiedad conmutativa, mientras que el WM no lo hace. Esta propiedad es importante, dado que implica que todas las fuentes de datos son igualmente fiables. Torra proporciona algunos ejemplos de interpolación de datos y los resultados de la agregación para conjuntos de datos sencillos. Por último, contempla posibles variantes de WOWA, por ejemplo el “WOWA lingüístico” que combina información en forma cualitativa (o simbólica), en vez de forma cuantitativa o numérica. Esta versión se basa en la combinación de etiquetas lingüísticas en una forma convexa. Definición 1. Un vector v= [v1 v2 .... vn] es un vector de ponderación (cocientes) de dimensión n sólo en el caso de que vi [0,1]
6i v i = 1
Definición 2 [Torra97a]. Sea p un vector de ponderación de dimensión n, entonces un mapeo WM: Kn - > K es una media ponderada de dimensión n si WMp (a1,...,an) = 6i pi ai. Definición 3 [Yager88]. Sea w un vector de ponderación de dimensión n, entonces un mapeo OWAw: Kn - > K es un operador OWA (Ordered weighted average) de dimensión n si OWAw (a1,...,an) = 6i wi aVi) donde {V(1),...,V(n)} es una permutación de {1,..,n} tal que aV(i-1) 6aV(i) para todos i=2, ..., n. (es decir, aV(i) es el i-ísimo elemento más grande del conjunto a1,..., an). Definición 4. Sean p y w dos vectores de ponderación de dimensión n, entonces un mapeo WOWA:Kn - > K es un operador (WOWA) Weighted ordered weighted averaging de dimensión n si WOWAp, w (a1,...,an) = 6i Zi a V(i)
144
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
donde {V(1),...,V(n)} es una permutación de {1,..,n} tal que aV(i-1) 6aV(i) para todos i=2, ..., n. (es decir, aV(i) es el i-ísimo elemento más grande del conjunto a1,..., an), y el cociente wi se define como Zi = w* (6jdi pV(j)) - w* (6j 9,4 y PAO2 d 186
entonces → media (13, 0,809)
212
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Regla #2 para media: Si EDAD d 62 y HEMA_F { 1 y MECH_VEN d 21 entonces → media (7, 0,512) Reglas para “estancia larga”: Regla #1 para larga: Si MECH_VEN > 21 y PAO2 > 186 y PAO2 d 235 entonces → larga (7, 0,82) Regla #2 para larga: Si WBC > 14.1 y S_SODIUM d 121 entonces → larga (3, 0,63) Regla #3 para larga: Si H_RATE d 74 y MECH_VEN > 21 y T_CORPORAL > 37,6 entonces → larga (3, 0,63) Regla #4 para larga: Si EDAD d 35 y MECH_VEN > 21 y T_CORPORAL > 38,1 entonces → larga (9, 0,61) Regla #5 para larga: Si MECH_VEN > 21 y B_UREA > 27,9 entonces → larga (4, 0,546) Regla #6 para larga: Si MECH_VEN > 21 y PACO2 d 25 entonces → larga (5, 0,373) Reglas para “estancia corta”: Regla #1 para corta: Si PACO2 d 19 Entonces → corta (17, 0,926)
PRONÓSTICO DE PACIENTES DE LA UCI
213
Regla #2 para corta: Si C_REN_F { 0 y HEMA_F { 0 y MECH_VEN d21 y S_SODIUM > 121 entonces → corta (185, 0,907) Por defecto : → corta
Aunque la precisión global del modelo representado por las reglas no es alta, existen subgrupos (reglas individuales con alta precisión) de buena calidad. Esto implica que C4.5 ha encontrado unas relaciones comunes entre las variables para estos casos, y el conocimiento que las reglas representan es útil. Para usar estos resultados en la práctica, se podrían incorporar dichas reglas en una base de conocimiento, después de verificación adicional y pruebas contra diferentes muestras de datos. En lo que se refiere a los casos, hay algunos que tienen una clasificación imprecisa, es decir, que no han quedado incluidos en ninguna regla específica. Estos casos suelen quedar asignados a la clase “por defecto”, que se define al final del conjunto de reglas. En las reglas generadas, vemos que la clase por defecto es estancia “corta”. Hay varias posibles razones por la asignación de un caso a la clase “por defecto”: a)NRealmente no existe una agrupación entre los casos en términos de las variables presentadas a la técnica de modelización. b)NUna relación difusa existe con grados de pertenencia a la clase categórica correcta y también a la clase asignada. Para estos casos, un método categórico intentaría interpretar esta ambigüedad, colocando un cierto porcentaje de los casos en otra clase. Por ejemplo, podría clasificar correctamente al 50% de los casos en la categoría “estancia media”, colocar 5% de los casos en “estancia larga” y colocar los demás casos en “estancia corta”, siendo esta última el valor por defecto. Sin embargo, no se puede interpretar de forma directa a estos porcentajes como grados de pertenencia globales. Paso (2) – Reducción del conjunto de datos para eliminar valores extremos (outliers) En el paso (2) vamos a simplificar el problema: sólo consideramos la parte de la distribución de la variable “duración_uci” menor de 32,35,
214
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
que es donde encontramos la mayor concentración de casos (85%). Este proceso también se conoce como la “eliminación de valores extremos o outliers”, que en este ejemplo son valores muy altos. Tabla 9.11.NResultados estadísticos para las reglas generadas para la distribución de la variable “duración_uci” < 32,35 días.
Categorización cualitativa para duración de estancia en la UCI:
Resultados categorización (real)
corta media larga
< 9,19 días t 9,19 y < 20,42 t 20,42 y < 32,35
categorización del modelo C4.5 (predicha) corta media larga
corta 96,26 47,82 68,18
media 13,74 52,17 18,18
larga 0 0 13,63
A partir de la Tabla 9.11 observamos que la precisión ha mejorado para todas las categorías, especialmente para “estancia media”, y el modelo sigue asignando el valor por defecto a “estancia corta”. La categoría más difícil de predecir sigue siendo “estancia larga”. Vemos en la lista de reglas generadas (abajo) que C4.5 ha extraído dos reglas buenas para “estancia corta”, 3 reglas para “estancia media” y sólo una para “estancia larga”. Es evidente que las mejores reglas son las de la categoría “estancia corta”, tomando en cuenta que esta misma categoría se usa como valor por defecto. Las demás reglas requieren mejora. Reglas para “larga estancia”: Regla #1 para larga: Sí PEEP { 1 y S_H_RATE d 135 entonces → larga (3, 0,63) Reglas para “estancia media”: Regla #1 para media: Si B_UREA d 8,6 y HEMA_F { 1 y MECH_VEN d 22 entonces → media (4, 0,707)
PRONÓSTICO DE PACIENTES DE LA UCI
215
Regla #2 para media: Si SHOCK { 0 y MECH_VEN > 22 y WBC > 19 entonces → media (13, 0,587) Regla #3 para media: Sí MECH_VEN > 22 y PEEP { 0 y S_HCO3 > 23 y ARTER_PH d 7.53 entonces → media (20, 0,471) Reglas para “corta estancia”: Regla #1 para corta: Si EDAD d 76 y WBC d 19 y S_HCO3 d 23 y A_RES_R d 31 y PAO2 d 278 y ARTER_PH d 7,52 entonces → corta (98, 0,926) Regla #2 para corta: Si C_REN_F { 0 y HEMA_F { 0 y MECH_VEN d 22 entonces → corta (136, 0,905) Por defecto : → corta
Paso (3) – Asignación de las variables de entrada y los rangos de categorías por el experto médico. En este paso, comparamos los resultados conseguidos por los modelos que usan entradas seleccionadas por métodos estadísticos y de minería de datos, con los resultados conseguidos por un modelo cuyas entradas han sido seleccionadas por un experto médico. Veremos que este conjunto de variables de entrada consiguió una precisión significativamente mejor para los casos de “larga duración”, que los modelos desarrollados en pasos (1) y (2). Un 70% del conjunto total de casos fue usado para entrenar el modelo, y un 30% fue usado para comprobación. Las 34 variables seleccionadas por el experto médico a partir de las 100 variables iniciales fueron las siguientes:
216
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
EDAD COMA_ADM CPR C_REN_F PROB_INF COMA_24H SHOCK URINE CONF_INF FIO2 MECH_VEN
ON_MECH SEP_SHOK FAIL_CARD CERE_DIS A_R_FAIL LIMIT CIRRHOS PEEP VEN_CPAP GCS_SAPS CARD_F (CHS) HEMA_MAL
SIDA TERA_CH INT_VENT CREA_INC RES_F CARD_F (OSF PRIMER DÍA) RENAL_F HEMA_F NEURO_F HEPA_F OSF
Los rangos definidos para “duración_uci” por el experto médico, fueron los siguientes: 0-4 días: estancia corta 5-14 días: estancia media >14 días: estancia larga Tabla 9.12.NResultados estadísticos para C4.5, reentrenado con las entradas definidas por el experto.
Correcto Resultados
corta media larga
51 % (56 casos)1 33 % (130 casos) 85 % (499 casos)
Precisión global: 63,25%
A partir de la Tabla 9.12, vemos que la categoría que tiene mejor precisión es “larga duración”. Esto es un resultado distinto para los pasos (1) y (2), en los cuales la categoría “corta duración” fue la más precisa. Concluimos que la causa de este cambio es la diferente selección de variables de entrada, en igualdad de las demás condiciones. También podríamos concluir que existen modelos distintos con diferentes conjuntos de variables de entrada, cada de los cuales predice bien para una categoría determinada de duración de estancia. A continuación se ve el árbol de decisión generado por C4.5:
PRONÓSTICO DE PACIENTES DE LA UCI
217
OSF 14) 87%
EDAD 14) 57%, indica una precisión de 57% para la categoría “larga” y para la “rama” correspondiente del árbol de decisión.
9.3.NPROCESO DEL CONJUNTO DE DATOS UCI CON LA TÉCNICA DE INDUCCIÓN DE REGLAS ID3 Esta sección consiste en cuatro grupos de pruebas D.1 hasta D.4, usando la técnica de inducción de reglas ID3 para modelizar los datos. En
218
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
el grupo de prueba D.1 usamos como entradas a las 100 variables. En contraste con las pruebas de la Sección 9.2, predecimos dos variables de salida: “duración_hos”, que es la duración de estancia en días del paciente en el hospital; y “duración_UCI”, que es la duración de estancia en días del paciente en la unidad UCI. Ambas variables de salida han sido definidas como tipo numérico entero. Recordamos que una de las diferencias de la técnica ID3 respecto a C4.5, es que la variable de salida de ID3 es numérica, mientras el tipo de la variable de salida de C4.5 debe ser categórica. En el grupo de prueba D.2 usamos como entradas a un conjunto reducido de 15 variables. En grupo de prueba D.3 los resultados de ID3 se comparan con los de un modelo entrenado usando la técnica C4.5, y con los resultados anteriores con la red neuronal. Para esta prueba usamos los mismos datos de entrada para C4.5 e ID3. La única diferencia en el caso de C4.5, fue que la variable de salida “duración_UCI” se quedó definida como un valor categórico. Por último, en grupo de prueba D.4 usamos la técnica de ID3 para intentar predecir la variable “b_urea” como un valor de tipo numérico continuo.
Grupo de prueba D.1: proceso de datos con ID3 y usando todas las variables como entradas. El siguiente grupo de pruebas emplea la técnica de ID3 para predecir la variable “duración_UCI”, usando todas las 100 variables como entradas. En este grupo de pruebas, usamos ID3 en modo básico, es decir, con asignación por defecto de los valores de windowing y podado. A partir de la Tabla 9.13 y la Figura 9.11 observamos, en el caso de los datos UCI, el efecto de un incremento progresivo en la proporción de casos de entrenamiento respecto al total de casos. Se ve que hay poco efecto sobre la precisión global. Existe un mínimo local a 30%, y la intersección con el eje-x ocurre a 74%, que indica el punto en el cual el error es cero. En la última fila de la Tabla 9.13 vemos también el resultado de procesar las mismas variables de entrada y casos de datos usando una red neuronal, y con un porcentaje de casos de prueba del 30%. En términos de la media absoluta del error, el resultado de la RN es ligeramente mejor que ID3 para el mismo porcentaje de casos de prueba: 6,75 para la RN comparado con 6,47 para ID3. En términos de la correlación lineal, la RN
PRONÓSTICO DE PACIENTES DE LA UCI
219
Tabla 9.13.NPredicción de “duración_UCI” con ID3 y usando todas las variables como entradas: resultados de una variación del tamaño del conjunto de entrenamiento sobre la tasa de error. Error % Entr.
Min.
Máx.
Media
Media absoluta
Desviación estándar
Correlación lineal
Ocurr. prueba
10 20 30 40 50 60 70 80 90
-23 -45 -74 -75 -75 -58 -60 -74 -61
111 110 108 109 109 160 145 159 159
-2,06 -1,19 -0,41 -1,76 -0,79 -1,26 -0,49 -1,26 -0,91
7,16 7,08 6,47 6,62 7,01 6,46 6,46 6,84 7,45
12,71 12,85 12,33 12,31 14,04 12,11 11,45 12,51 13,41
0,09 0,25 0,43 0,38 0,32 0,46 0,50 0,40 0,31
983 875 768 652 545 423 322 205 101
-1,01
6,75
11,75
0,32
768
Prueba con Red Neuronal 30 -11 108
Figura 9.11.NPredicción de “duración_UCI” con ID3 y usando todas las variables como entradas: resultados de una variación del tamaño del conjunto de entrenamiento sobre la tasa de error.
registra 0,32 comparado con la correlación superior de 0,43 para ID3. Por último, en términos de la desviación estándar, la red neuronal demuestra un valor menor respecto a ID3, siendo 11,75 comparado con 12,33 para ID3. Esto podría indicar que la RN consigue una mayor estabilidad en el error, aunque el error agregado sea superior. Esta situación
220
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
podría ser conveniente si lo que buscamos es un modelo más estable cuyo error se puede mantener entre dos límites predefinidos (límite inferior y superior).
Grupo de prueba D.2: proceso de datos con ID3 y 15 variables seleccionadas como entradas El siguiente subgrupo de prueba emplea la técnica ID3 en modo básico (valores por defecto para windowing y podado). El objetivo es predecir la variable “duración_UCI” con un subconjunto de 15 variables, seleccionadas por métodos estadísticos y por consejo del experto médico. Dos de los métodos estadísticos usados para seleccionar las variables fueron el análisis de correlación y el podado del árbol de inducción que resultó del grupo de prueba D.1. A partir de la Tabla 9.14 y la Figura 9.12, podemos ver que en el proceso de los datos UCI, un incremento progresivo del porcentaje de casos de entrenamiento respecto al total tiene poco efecto sobre la precisión global conseguida. Esta característica es igual que en el caso del subconjunto de prueba D.1. Existe un mínimo local al 50%, y la intersección con Tabla 9.14.NPredicción de “duración_UCI” usando conjunto reducido de variables como entradas: resultados de la variación del tamaño del conjunto de datos de entrenamiento sobre la tasa de error. Error % Entr.
Min.
Máx.
Media
Media absoluta
Desviación estándar
Correlación lineal
Ocurr. prueba
10 20 30 40 50 60 70 80 90
-46 -44 -76 -46 -60 -45 -62 -38 -28
110,4 193,4 194,4 108,4 109,4 195,4 149,4 147,4 140,4
-1,47 -0,35 -0,97 -1,08 -0,13 -1,40 -0,36 -0,29 -1,22
7,45 7,66 7,09 6,53 6,93 6,42 6,80 5,79 5,85
13,051 13,331 13,011 12,321 12,831 12,151 11,901 19,861 19,511
0,10 0,22 0,32 0,42 0,42 0,41 0,46 0,52 0,60
983 872 768 652 545 423 322 205 101
-1,59
5,76
10,292
0,55
768
Prueba con Red Neuronal 30 -25 103,4
PRONÓSTICO DE PACIENTES DE LA UCI
221
Figura 9.12.NPredicción de “duración_UCI” usando conjunto reducido de variables como entradas: variación del tamaño del conjunto de entrenamiento sobre tasa de error.
el eje-x ocurre al 67%, que indica el punto en el cual el error es cero. En la última fila de la Tabla 9.14 vemos también el resultado de procesar las mismas variables de entrada y casos de datos usando una red neuronal, y con un porcentaje de casos de prueba del 30%. En términos de la media absoluta del error, el resultado de ID3 es claramente mayor que la RN para el mismo porcentaje de casos de prueba: 7,09 para ID3 comparado con 5,76 para la RN. Esto contrasta con la situación inversa (para la media absoluta) que encontramos para grupo de prueba D.1 con 100 variables de entrada. En términos de la correlación lineal, la RN registra 0,55 comparado con la correlación inferior de 0,32 para ID3. Por último, en términos de la desviación estándar, la red neuronal demuestra un valor menor respecto a ID3, siendo 10,29 comparado con 13,01 para ID3. Esto podría indicar que la RN se beneficia de una reducción en el “ruido” inherente en los datos, debido al menor número y mayor relevancia de variables. Si comparamos los resultados del subgrupo de pruebas D.2 con los del subgrupo D.1, observamos que el subgrupo D.2 muestra una cierta (aunque no conclusiva) mejora global en términos de la media absoluta del error, la desviación estándar y la correlación lineal. Esto sería de esperar, debida a la mayor calidad de información proporcionada como entradas al modelo. Es decir, hay menos variables de entrada y existe una mayor correlación de cada variable de entrada con la variable de salida.
222
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Grupo de prueba D.3: comparación de los algoritmos ID3, C4.5 y red neuronal Habiendo probado predecir “duración_uci” (en días) como una variable de tipo numérico, ahora probamos a categorizarla y predecirla como una variable de tipo categórico ordinal. Podemos afirmar que es de tipo categórico ordinal, dado a que la variable está definida en términos de tres categorías, y podemos ordenar estas categorías desde la más pequeña (corta estancia) hasta la más grande (larga estancia). La categorización de la variable “duración_uci” sigue el mismo proceso que en el grupo de prueba C, paso (1). En este proceso, “0” indica “corta estancia”, es decir, menos de 10 días estancia en la UCI; “1” indica “estancia media”, es decir, estancia de entre 10 y 20 días en la UCI; y por último “2” indica “larga estancia”, esto indicando una estancia de más de 20 días en la UCI. Los siguientes resultados corresponden al entrenamiento de un modelo usando la técnica C4.5, con las opciones de windowing y “podado” activadas. {0,1} correcto 78% incorrecto 22% {0} correcto 89% incorrecto 11% {1} correcto 38% incorrecto 62% {2} correcto 41% incorrecto 59%
En la prueba usando C4.5, los resultados demuestran una buena precisión para la categoría “estancia corta”, y una precisión inadecuada para las categorías de “mediana estancia” y “larga estancia”. Observamos que la mayoría de los casos son menores a 10 días de duración, y como consecuencia las otras categorías tienen un número insuficiente de casos de entrenamiento. Mediante la replicación de los casos de “mediana estancia” y “larga estancia”, podemos conseguir un equilibrio en cuanto al número de casos, aunque los casos resultantes no tendrían la diversidad de datos reales.
PRONÓSTICO DE PACIENTES DE LA UCI
223
Ahora vamos a usar la técnica de ID3 para procesar los mismos datos que hemos procesado con C4.5 en el presente subgrupo de pruebas. La única diferencia será que la variable categórica de salida (duración_uci) será definida como una variable numérica, con posibles valores de 0, 1 y 2. Esto es posible debido a que la variable categórica es de tipo ordinal, y por consiguiente, tiene sentido predecirla como un resultado numérico entero. Estadísticas para la tasa de error en el modelo de ID3 Min. Máx. Media Media absoluta Desviación estándar Correlación lineal Ocurrencias
-2 2 0,14 0,24 0,564 0,588 761
La prueba, usando ID3, ha resultado en una correlación de 0,588, siendo esto razonable en comparación con los resultados de los grupos de prueba D.1 y D.2, y respecto a la prueba que acabamos de realizar con C4.5. La precisión global del modelo C4.5 fue del 56%. El mejor modelo de red neuronal dio una correlación de 0,55 (prueba D.2). Sin embargo, como porcentaje del valor máximo, la media absoluta del error (12% en comparación con 5,59% para la red neuronal) y la desviación estándar del error (29,4% comparada con 9,9% para la red neuronal) son resultados inferiores.
Grupo de prueba D.4: composición y tasa de error de un subconjunto de datos En esta sección veremos los resultados de ejecutar ID3 con las mismas variables de entrada usadas para C4.5 en el grupo de prueba C paso (3). Recordamos que estas variables fueron seleccionadas por el experto médico en vez de mediante el análisis estadístico y la minería de datos. Una vez realizado el proceso de datos, guardamos el valor de la salida (DUR_HOS), y el error (DUR_HOS real – DUR_HOS predicho).
224
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Después seleccionamos un subconjunto de casos a partir del total disponible, mediante la identificación de criterios que parecen “interesantes”. Por ejemplo, si estudiamos la Figura 9.14, se observa una alta incidencia de “entubado/ventilación” (INT_VENT), y “respiración asistida” (ON_MECH, VEN_CPAP, MEC_VEN). A partir de la variable EDAD, se observa que el subconjunto corresponde a un grupo con un rango específico de edad, siendo esto de 61 hasta 70 años. En las Figuras 9.13 y 9.14 las variables están ordenadas por el valor de “chi-cuadrado” (F2). El valor de F2 es una medida parecida a la “relevancia” para variables categóricas en un subconjunto de datos relativa al conjunto total de los mismos. Una mayor diferencia entre la distribución de una variable en el subconjunto de datos (Figura 9.14) y la distribución de la misma variable en el conjunto total de datos (Figura 9.13), producirá un valor de F2 mayor para aquella variable. En la Figura 9.14, después de la variable de salida (DUR_HOS) y el error, observamos que la variable con el valor F2 más alto es INT_VENT, siendo esto 0,791. Está seguida por ON_MECH con un valor F2 de 0,777, VEN_CPAP con 0,753, MECH_VEN con 0,251, EDAD con 0,173, etcétera. Para poder ordenar todas las variables con el mismo criterio de F2, es necesario categorizar las variables numéricas, como MECH_VEN y EDAD, usando la técnica de cuantiles. En las Figuras 9.13 y 9.14 hay dos tipos de representación gráfica de las variables: un histograma para las variables numéricas y un “pastel” para las variables categóricas. Al mostrar juntas a las Figuras 9.13 y 9.14, podemos compararlas e identificar tendencias y diferencias entre el conjunto total de pacientes (Figura 9.13), y el subconjunto escogido (Figura 9.14). Por ejemplo, se ve que en el caso de la variable “OSF – número de sistemas de órganos que fallan”, la distribución para el subconjunto está sesgada hacia un número más bajo de OSF, en comparación con la distribución para el conjunto total de casos. Asimismo, podemos observar que las variables categóricas INT_VENT, ON_MECH y VEN_CPAP tienen una incidencia de aproximadamente el 50% en el conjunto total de casos, mientras que en el subconjunto su incidencia es mayor del 95%. Otra variable categórica de interés es DIAG (código diagnóstico) que en el subconjunto de datos tiene una alta incidencia de “código diagnóstico”=43 (cirugía GI debido a neoplasia) y 34 (craneotomía debido a neoplasia).
PRONÓSTICO DE PACIENTES DE LA UCI
225
Figura 9.13.NTotal de pacientes. Representación gráfica de las distribuciones de las variables de entrada, la variable de salida (DUR_HOS), y el error en el subconjunto de datos seleccionados.
Figura 9.14.NSubconjunto de pacientes. Representación gráfica de las distribuciones de las variables de entrada, la variable de salida (DUR_HOS), y el error en el subconjunto de datos seleccionados.
226
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
A continuación vamos a comentar los resultados del modelo predictivo para DUR_HOS, empezando con el análisis de la distribución de la variable DUR_HOS. Con referencia a la Figura 9.14, se puede ver la distribución de DUR_HOS en la primera fila de arriba y la primera columna desde la izquierda. La distribución del error (la variable inmediatamente a la derecha de DUR_HOS), representa la diferencia entre el valor real de DUR_HOS y el valor predicho (DUR_HOS - $DUR_HOS). En la Figura 9.15 se hace un zoom a partir de las Figuras 9.13 y 9.14 sobre el histograma de los valores para la variable DUR_HOS. A la izquierda se ve la distribución de los valores del conjunto total de datos, y a la derecha se ve la distribución de los valores para el subconjunto de datos. Observamos que en el subconjunto de datos hay una tendencia para casos de más larga duración, con un pico destacable entre 60 y 65 días. Total de pacientes
Subconjunto de pacientes
15
15
10
10
%
% 5 0
5 0
5 10 15 20 25 30 35 40 45 50 55 60 65
DUR_HOS (días)
0
0
5 10 15 20 25 30 35 40 45 50 55 60 65
DUR_HOS (días)
Figura 9.15.NHistograma de la distribución de la variable de salida DUR_HOS (duración de estancia en el hospital) para la totalidad de pacientes (izquierda) y del subconjunto de casos seleccionados (derecha).
En la Figura 9.16 hacemos otro zoom a partir de las Figuras 9.13 y 9.14 sobre el histograma de los valores para la variable que indica el error. Como antes, en el histograma de la izquierda están los valores para el conjunto total de casos, mientras que a la derecha se ve la distribución de los valores para el subconjunto de casos. Observamos que hay diferencias marcadas entre las dos distribuciones. Mientras que el histograma a la izquierda está distribuido de una forma continua con un valor medio de 5,0, la distribución a la derecha está fragmentada en cuatro bloques de rangos muy específicos: de -29,25 a -22,75, de -16,25 a -3,25, de 3,25 a 9,75 y de 16,25 a 22,25.
PRONÓSTICO DE PACIENTES DE LA UCI
Total de pacientes
227
Subconjunto de pacientes
20
20
15
15
%
% 10
10
5
5
0
-29,25 -22,75 -16,25 -9,75
-3,25
3,25
9,75
16,25
22,75 29,25
0
-29,25 -22,75 -16,25 -9,75
-3,25
3,25
9,75
16,25
22,75 29,25
Figura 9.16.NHistograma de la distribución del error (duración real en el hospital–duración predicha en el hospital) para la totalidad de pacientes (izquierda) y del subconjunto de casos seleccionados (derecha).
9.4.NCLUSTERING CON LA RED NEURONAL KOHONEN SOM El objetivo de procesar los datos con la técnica Kohonen es intentar establecer “agrupaciones homogéneas” en los datos, cada una de las cuales nos puede servir para entrenar un modelo distinto de datos. De esta forma podemos buscar tendencias entre agrupaciones y variables que nos ayudarán a definir nuevos factores significativos. Además, podemos comparar los resultados de este método de aprendizaje no-supervisado, con métodos de aprendizaje supervisado como C4.5 e ID3. En la Figura 9.17 se ve que la técnica de clustering Kohonen SOM ha conseguido una agrupación razonable de casos, en el sentido de que ha sido capaz de distinguir las agrupaciones en términos de la variable objetiva “estado_vital_uci”. Los casos indicados en blanco son las mortalidades. Se observan agrupaciones que no tienen mortalidades, mientras que otras tienen una mayoría de ellas. La mayoría de agrupaciones contienen una mezcla de mortalidades y no-mortalidades, en mayor o menor grado. En las agrupaciones dónde las mortalidades y no-mortalidades están mezcladas, podemos decir que la técnica Kohonen no ha conseguido distinguir los casos según el criterio “estado_vital_uci”. Sin embargo, se debería estudiar cada agrupación individualmente para ver las características y distribuciones de las variables en el subconjunto de casos que la corresponden.
228
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
y 6
4
2
x 2
4
6
8
Estado vital UCI Vivo
Muerto
Figura 9.17.NVariable “estado_vital_uci”: agrupación Kohonen usando el conjunto reducido de variables como entradas (sin duración_hos, duración_icu o estado_vital_uci como entradas y “sobrepuesto” la variable “estado_vital_uci”)
y 6
4
2
x 2
4
6
8
Duración de estancia Corta
Mediana
Larga
Figura 9.18.NVariable “duración_uci”: agrupación Kohonen usando el conjunto reducido de variables (sin duración_hos, duración_icu o estado_vital_uci como entradas y “sobrepuesto” la variable “duración_uci”).
PRONÓSTICO DE PACIENTES DE LA UCI
229
En la Figura 9.18, se ve que el Kohonen SOM ha creado algunas agrupaciones que consisten casi totalmente en casos de color negro (corta estancia), otras agrupaciones con una alta incidencia de casos de color gris (mediana estancia), y otras con una menor incidencia de casos de color blanco (larga estancia). Sin embargo, no ha conseguido distinguir entre los casos de mediana estancia y larga estancia. Sería necesario estudiar las frecuencias relativas de cada categoría de “duración_uci” en cada agrupación para poder de identificar las diferencias menos aparentes. Por ejemplo, podemos identificar la agrupación con el ratio más alto de larga estancia respecto a estancia mediana. Observamos que las Figuras 9.17 y 9.18 representan el mismo resultado de agrupaciones (o partición), pero con diferentes variables sobrepuestas. El conjunto de datos de la Tabla 9.15, representa los casos de una agrupación determinada del resultado del Kohonen SOM que hemos visto en las Figuras 9.17 y 9.18. Esta agrupación contiene una mezcla de valores para “duración_uci” (de tipo categórico) y “estado_vital_uci”. Es decir, esta es una agrupación que no discrimina los valores de estas variables. Una metodología típica para aplicar para estos datos sería estudiar cada variable para identificar las tendencias subyacentes. Para este fin, se podría entrenar un modelo de inducción usando sólo los casos correspondientes a esta agrupación. Las reglas y el árbol inducido revelarían la estructura subyacente y las relaciones entre las variables y los datos. Mediante una simple inspección, podemos comprobar, por ejemplo, que la variable “p_h_stat” (estado anterior de salud) siempre es igual a “1”, con la excepción de un solo caso. También observamos que los valores de las siguientes variables son prácticamente invariantes: “osf” (número de sistemas de órganos que fallan), “tipo_adm” (tipo de admisión) y “a_r_fail” (fallo renal agudo). Antes de llegar a conclusiones falsas, hay que establecer la distribución de estas variables en el conjunto total de datos. Por ejemplo, es posible que “osf” también sea siempre igual a “1” en el conjunto total de datos, así que pierde importancia que sea “1” en esta agrupación en concreto. Por otra parte, la situación contraria también es posible: que una variable que es constante en el conjunto total de datos (o en otras agrupaciones) sea altamente variable en la agrupación que estamos analizando. Un ejemplo de esta última situación en la agrupación de la Tabla 9.15 es la variable “líneas” (en el conjunto total tiene una varianza mucho menor).
230
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 9.15.NCasos correspondientes al cluster {6,4} (cluster arriba y a la derecha) de Figuras 9.17 y 9.18. coma admis 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 1 1 1 0 0 1 1 0 1 1 1 0 0 0 1 1 0 1 1 0 0 1 0
tipo malig admis 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 3 3 3 3 3 3 3
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
uci ser
líneas
a_r_ fail
temp_ corp
b_ urea
p_h_ stat
copd
a_ fio2
osf
estado_ vital_ uci
dur_ uci
dur_ hos
estancia
1 0 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
4 1 3 7 1 3 6 4 6 6 6 3 4 4 4 6 3 6 3 3 4 6 3 2 7 3 6 3 5 5 5 4 8 4 0 6 5 4 5 6 3 3 5 5 5 3 3 3 5 5 3 8 8 6 7 4 4 5 2 2 1 2 5 6 7 5
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0
38,0 38,0 40,0 39,0 37,0 39,0 37,0 36,7 38,9 37,0 39,5 37,3 36,4 37,3 37,5 38,1 39,2 37,1 35,8 38,3 35,7 37,9 39,5 37,5 37,6 37,0 37,4 39,5 36,5 37,1 38,5 37,0 35,0 37,0 36,5 37,7 35,0 38,6 34,8 38,6 38,0 37,6 37,8 38,1 37,2 38,2 37,0 38,7 35,0 39,0 37,1 38,7 36,5 38,0 39,2 37,5 36,0 40,0 35,8 36,8 38,0 36,0 38,4 36,0 35,5 36,2
14,0 19,0 15,0 11,0 16,0 15,0 12,0 13,0 13,8 13,0 19,8 11,7 15,7 13,7 17,0 17,5 19,7 16,8 16,7 16,5 16,0 13,7 14,9 11,0 15,0 18,7 14,8 12,5 17,0 13,5 15,0 14,3 11,7 14,0 19,5 15,2 14,2 43,0 18,5 18,0 23,0 13,6 16,0 17,9 17,8 15,9 22,0 19,0 16,0 14,3 15,0 12,0 19,8 13,3 10,9 41,7 36,0 11,0 19,0 15,0 15,0 10,0 18,0 10,0 10,0 13,0
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1 1 1 1 1
0 0 0 0 1 0 0 0 0 1 0 0 0 1 1 1 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0
1,01 0,51 0,51 0,81 0,31 0,21 0,31 0,31 0,31 0,41 0,31 0,61 0,51 0,41 0,51 0,71 1,01 0,41 0,21 0,31 0,41 0,51 0,61 0,51 1,01 0,31 0,51 0,51 0,41 0,21 0,51 0,81 0,61 0,51 0,41 0,61 0,51 0,41 0,51 1,01 0,51 0,35 0,41 0,35 0,51 0,41 0,31 0,51 0,51 0,51 0,31 1,01 0,41 0,31 0,61 0,61 0,61 0,61 1,01 0,41 0,81 0,31 0,41 0,41 0,51 0,61
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 1 1 1 0 1 1 1
33 15 16 57 15 15 13 15 12 15 17 17 10 14 19 14 28 16 17 16 13 17 14 14 22 13 17 16 29 11 18 18 11 14 12 16 19 19 16 22 21 16 19 14 59 15 14 17 14 14 13 38 23 15 12 19 19 11 15 15 11 58 14 16 11 14
51 14 21 90 13 13 18 21 17 13 16 13 16 15 24 21 28 13 17 11 51 16 10 14 22 19 21 21 48 16 19 11 11 14 12 19 19 92 24 22 21 20 19 14 59 41 14 13 14 14 15 55 41 31 27 21 42 11 12 15 11 58 28 16 11 14
2 0 0 2 0 0 0 0 1 0 0 0 1 0 0 0 2 0 0 0 1 0 0 1 2 0 0 0 2 1 1 0 0 0 0 0 0 0 1 2 2 0 0 0 2 0 0 0 0 0 0 2 2 1 1 0 1 1 0 0 1 2 1 0 1 0
PRONÓSTICO DE PACIENTES DE LA UCI
231
9.5.NAPLICACIÓN DEL JOINING ALGORITHM DE HARTIGAN A LOS DATOS UCI, USANDO COVARIANZAS “DIFUSAS”Y “NO-DIFUSAS” COMO ENTRADAS Habiendo procesado los datos de los casos UCI con las técnicas de C4.5, ID3 y red neuronal, ahora pasamos a comprobar la técnica del joining algorithm de Hartigan. El proceso empieza con la generación de una matriz de covarianzas, según lo detallado a continuación en el apartado (1). Las siguientes combinaciones han sido probadas: covarianzas nodifusas (normales) generadas por SPSS a partir de datos numéricos; covarianzas difusas generadas por la versión modificada del algoritmo de Gustafson [Gustafson79]. Para los lectores que desean los detalles del cálculo de las covarianzas difusas puede acudirse a la Sección 8.1 del libro. Primero ejecutamos el joining algorithm con una matriz de covarianzas no-difusas como entradas, según lo detallado en el apartado (2) a continuación. Como segunda prueba, lo ejecutamos con una matriz de covarianzas difusas según explicado en el apartado (3). La matriz de covarianzas sirve para indicar el grado de relación entre las variables.
(1)NResumen y comparativa de las covarianzas difusas y no-difusas En las Tablas 9.16 y 9.17 se ven las covarianzas difusas y no-difusas, respectivamente, de algunas de las variables que describen los pacientes de la UCI. Al comparar los resultados con covarianzas difusas y no-difusas observamos que algunas de las correlaciones entre variables mantienen su orden respectivo. Algunos de los pares que mantienen el mismo orden son: {fallo renal agudo, infección probable}, {fallo renal agudo, estado vital} y {fallo renal agudo, coma24hrs}. En contraste, los siguientes pares no mantuvieron su orden respectivo: {fallo renal agudo, fallo cardiaco} y {estado vital, infección probable}. Concluimos que las covarianzas difusas, aunque derivadas de los mismos datos, producen resultados diferentes. La topología de las particiones difusas, los valores de grados de pertenencia de los casos, y la métrica de distancia (normas), son algunos de los aspectos que distinguen a las covarianzas difusas res-
232
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 9.16.NMatriz de covarianzas difusas calculadas para algunas de las variables del conjunto de datos de “Admisiones UCI”.
Fallo renal agudo Fallo cardiaco Probable infección Estado vital Coma 24h
Fallo renal agudo
Fallo cardiaco
Probable infección
Estado vital
Coma 24 h
11*11, 14,867 11,432 11,286 11,807
14,867 11111, 11,437 11,289 11,800
11,432 11,437 11111, 12,531 10,799
11,286 11,289 12,531 11111, 10,751
1,807 1,800 0,799 0,751 1,751
*nEl valor 1 ha sido asignado al diagonal y no se usa en el proceso de fusión.
Tabla 9.17.NMatriz de covarianzas no-difusas calculadas para algunas de las variables del conjunto de datos de “Admisiones UCI”.
Fallo renal agudo Fallo cardiaco Probable infección Estado vital Coma 24h
Fallo renal agudo
Fallo cardiaco
Probable infección
Estado vital
Coma 24 h
111,1 0,203 0,106 0,346 0,111
0,203 1111, 0,201 0,324 0,208
-0,106 -0,201 -1111, -0,079 -0,122
0,346 0,324 0,079 1111, 0,269
-0,111 -0,208 -0,122 -0,269 -1,751
pecto a las no-difusas. Concluimos que las covarianzas difusas ofrecen un método alternativo para agrupar variables clínicas, formando grupos que tienen sentido clínico y distintas a las que formaron las covarianzas no-difusas. Las covarianzas difusas de las 17 variables detalladas en la Tabla 9.18 fueron calculadas usando el algoritmo que ha sido presentado en la Sección 8.1 del libro. En la Tabla 9.16 se puede ver una parte de la matriz de covarianzas difusas calculadas como resultado. La covarianza difusa de cada variable consigo misma (el diagonal) produce un número grande y positivo en cada caso. Observamos que estos valores han sido asignados a “1” para mejorar la claridad y teniendo en cuenta que los valores en el diagonal no se usan en el análisis factorial o en el proceso de fusión. Las covarianzas no-difusas de las 17 variables detalladas en la Tabla 9.18 fueron calculadas usando la función estándar de covarianza de SPSS. En la Tabla 9.17 se puede ver una parte de la matriz de covarianzas no-difusas calculadas como resultado.
PRONÓSTICO DE PACIENTES DE LA UCI
233
(2)NProceso de los datos UCI con el joining algorithm de Hartigan, usando covarianzas no-difusas como entradas El conjunto de datos fue analizado con SPSS y las covarianzas nodifusas fueron calculadas para las 17 variables seleccionadas y por una muestra representativa de 100 casos de “admisiones UCI”. Fue necesario convertir los valores binarios a tipo numérico para que SPSS pudiera procesarlos. Esta conversación podría tener algunas implicaciones en las estadísticas que podrían ser evaluadas. SPSS produce una matriz de covarianzas a partir de los datos básicos, y fue esta matriz la que dimos como entrada al algoritmo de Hartigan. Para generar las covarianzas nodifusas, usamos la función de SPSS, Statistics→Correlate→Bivariate, con la opción two-tailed Pearson Correlation Coefficient. Este proceso genera una matriz de covarianzas de dimensión 17 × 17 (17 siendo el número de variables). En la Tabla 9.18 se ve un resumen de las variables usadas. Tabla 9.18.NVariables usadas como entradas al joining algorithm de Hartigan. Nombre Corto (usado en la Figura 9.18)
Nombre
Tipo de Dato
Descripción
Número de fallos de sistemas de órganos, calculado por un programa informático. Estado previo de salud. {1, 2, 3, 4}. Estado vital UCI {0=vivo, 1=muerto}. Duración estimada en el hospital desde el momento de admisión a la UCI. Fallo renal agudo. Concentración de urea en la sangre. Fallo cardiovascular. En coma o estupor profundo a 24 horas después de admisión. Creatinina > 2,0mg/dl (176,8PMol/l) durante primeras 24 horas. FIO2 > 0,50 durante las primeras 24 horas. Estancia en la UCI de 24 horas o más. Fallo neurológico (excluyendo administración de calmantes). Infección probable en el momento de admisión a la UCI. Fallo renal. Fallo respiratorio {1=si, 0=no}. {1=hombre, 0=mujer}. Tipo de paciente {1=cirugía de emergencia, 2=cirugía planificada, 3=sin cirugía}.
OS
OSF
Numérico
PH DI DH
P_H_STAT DEAD_ICU DUR_HOS
Categórico Binario Numérico
AR BU CA CO
A_R_FAIL B_UREA CARD_F COMA_24H
Binario Numérico Binario Binario
CR
CREA_INC
Binario
FI IN NE
FIO2 IN24HRS NEURO_F
Binario Binario Binario
PR
PROB_INF
Binario
RE RF SE TY
RENAL_F RES_F SEXO TYPE_ADM
Binario Binario Binario Categórico
234
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
SE IN
DH
PR
DI
FI CA OS
RF
TY CO
3 5
NE PH
BU CR
2
RE 1
10
4
6 8
AR
7 12
9 11 13 14
Figura 9.19.NÁrbol de fusiones producido por el joining algorithm de Hartigan usando las covarianzas no-difusas.
Los números en la Figura 9.19 indican el nuevo factor y el orden en que ha sido creado. Observamos que las 17 variables originales han sido fusionadas en tres nuevos componentes, representados por los números 14, 10 y 12, respectivamente. La primera fusión es el 1, que se ve por el lado extremo derecho (AR y RE), seguida por el 2 (CO y NE), etcétera. Ahora vamos a analizar la forma en que la “fusión” ha agrupado a las variables, comparándola con las técnicas de ID3, C4.5, la red neuronal, SPSS y la fusión usando covarianzas difusas (que veremos en el apartado (3) de esta sección). A continuación, comentamos la secuencia de las fusiones para las 17 variables seleccionadas: Secuencia de fusiones para las covarianzas no-difusas: con referencia a la Tabla 9.18 y a la Figura 9.19, todos los datos de entrada fueron considerados como numéricos. En el caso de las variables de tipo binario, los valores fueron definidos como 1 ó 0. Los datos fueron procesados por SPSS para calcular las covarianzas entre las variables. Este proceso dio como resultado una matriz que proporcionamos como entrada al algoritmo de Hartigan, que por su parte produjo la siguiente secuencia de fusiones: La primera fusión se produjo entre la variable “Fallo renal agudo” y “Fallo Renal”. Es muy razonable que haya una alta correlación entre estas variables dado el vínculo de ambas al fallo renal en sí. Llamaremos al resultado de esta fusión, factor uno. La segunda fusión se produjo entre la variable “En coma o estupor profundo a 24 horas después de admisión” y “Fallo neurológico (excluyendo suministro de calmantes)”. Llamaremos al resultado de esta fusión, factor dos.
PRONÓSTICO DE PACIENTES DE LA UCI
235
La tercera fusión se produjo entre la variable “Fallo respiratorio” y “Número de sistema de órganos que fallan”. Llamaremos al resultado de esta fusión, factor tres. Con estas primeras tres fusiones, el algoritmo de Hartigan ya ha identificado la base de los tres factores que va a construir a partir de las 17 variables de entrada. Ahora procede a fusionar las restantes variables a estas tres bases, formando una estructura de pirámide invertida. La cuarta fusión vuelve al factor uno y adjunta la variable “Creatinina > 2,0mg/dl (176,8µMol/l) durante primeras 24 horas”. Fue confirmado por el experto médico que el nivel de creatinina se asocia con fallo renal. Si falla el riñón, el nivel de creatinina puede subir de su nivel normal de aproximadamente 1 mg/dl, hasta llegar a un valor de 9 o 10 mg/dl, que sería un nivel patológico. Esto es debido a la acumulación de creatinina en la sangre, dado que es el funcionamiento correcto del riñón que normalmente lo mantiene a un nivel estable. La quinta fusión va al factor tres y adjunta la variable “Fallo cardiovascular”. Esto parece seguir la tendencia de este factor a identificar fallos de sistemas de órganos. La sexta fusión sigue con factor tres y adjunta la variable “FIO2 > 0,50 durante las primeras 24 horas”. Comprobamos con el experto médico si el nivel de FIO2 se asocia con fallos de sistemas de órganos en general, o fallo cardiovascular o respiratorio en particular. La séptima fusión vuelve al factor uno y adjunta la variable “Concentración de urea en la sangre”. Comprobamos con el experto médico si la concentración de urea suele estar asociada con fallo renal y nivel de creatinina. La octava y novena fusión vuelven al factor tres y adjunta “Estado vital UCI” e “Infección probable en el momento de admisión a la UCI”, respectivamente. Esto parece seguir la tendencia de este factor a identificar estados globales. La décima fusión se dirige al factor dos y adjunta a “Tipo de paciente”. Con esta fusión, el factor dos es completo (el algoritmo ya no adjunta más variables para ello).
236
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
La fusión número once es al factor tres, adjuntando a “Duración calculada en el hospital desde el momento de admisión a la UCI”. Esto parece seguir otra vez a la tendencia de este factor a identificar estados globales. La fusión número doce es al factor uno, adjuntando a “Estado previo de salud”. Con esta fusión, el factor uno es completo (el algoritmo ya no adjunta más variables para ello). Las últimas dos fusiones, trece y catorce, se hacen al factor tres. Adjuntan a “Estancia en la UCI de 24 horas o más” y “Sexo”, respectivamente. Una vez más, el factor tres ha agrupado “estados generales” y con estas dos fusiones, el factor tres es completo, no hay más variables a adjuntar y el algoritmo termina. Es posible que las últimas dos variables se adjunten al factor tres porque ya no haya otro factor donde ponerlas. Para evitar este comportamiento “por defecto”, se podría incorporar un “umbral de relevancia”, por debajo del cual se descarta la variable. En resumen, hemos visto que tres factores han sido construidos, uno significativamente más complejo que los otros dos. Factor uno parece ser específico para casos renales. Factor dos parece relevante a casos neurológicos. Factor tres parece identificar estados globales del paciente o datos temporales (con punto de referencia en el tiempo). A continuación resumimos cada uno de los factores según las variables que los componen: Factor uno: “Fallo renal agudo” + “Fallo renal” + “Nivel de creatinina” + “Concentración de urea en la sangre” + “Estado previo de salud”. Factor dos: “En coma o estupor profundo a 24 horas de admisión” + “Fallo neurológico” + “Tipo de paciente”. Factor tres: “Fallo respiratorio” + “Número de sistemas de órganos que fallan” + “Fallo cardiovascular” + “Nivel de FIO2” + “Estado vital UCI” + “Infección probable en el momento de admisión a la UCI” + “Duración en hospital a partir del momento de admisión a la UCI” + “Estancia en UCI t 24 horas” + “Sexo”.
PRONÓSTICO DE PACIENTES DE LA UCI
237
Observaciones: una posible comprobación para las secuencias de fusiones y la ordenación de las variables en ellas sería la siguiente: crear una o más variables artificiales aleatorias que no tengan ninguna relevancia con los datos, y observar lo que hace el algoritmo con ellas. Es necesario tener en cuenta que las variables de tipo categórico y binario han sido consideradas como numéricas, para hacer posible que SPSS calcule las covarianzas. Si usamos un algoritmo para calcular las covarianzas que permita mantener el tipo original de las variables, se podrían estudiar las diferencias en los valores de covarianza , el orden de fusión y la manera de agrupar a las variables. Del mismo modo, los datos de tipo difuso han sido definidos como no-difusos (categóricos). Usando un cálculo de covarianza difusa podemos observar los cambios que resultan de los valores de la covarianza, en el orden de fusión y en las agrupaciones de las variables. Cuanto más respetemos el tipo natural de los datos, evitando así una pérdida de información, más preciso será el orden de fusión y las agrupaciones de las variables reflejarán en mayor grado a la naturaleza subyacente de los datos.
(3)NProceso de los datos UCI con el joining algorithm de Hartigan, usando covarianzas difusas como entradas Las covarianzas difusas de las 17 variables preseleccionadas fueron calculadas usando el algoritmo detallado en los Capítulos 6 al 8. La matriz que resultó (véase Tabla 9.16) fue presentada como entrada al algoritmo de fusión de Hartigan. El proceso de fusión usando “covarianzas difusas” generó cuatro factores, uno más que el proceso usando “covarianzas no-difusas”. Las variables iniciales elegidas para factor uno fueron “En coma o estupor profundo a 24 horas” y “Fallo renal”. Las variables iniciales elegidas para el factor dos fueron “Infección probable en el momento de admisión a la UCI” y “Estado vital al salir de la UCI”. Las variables iniciales elegidas para el factor tres fueron “Creatinina > 2.0mg/dl (176.8µMol/l) durante las primeros 24 horas” y “Estado previo de salud” y por último, las variables iniciales elegidas para el factor cuatro fueron “Fallo renal agudo” y “Fallo cardiovascular”. La composición de los cuatro factores finales fue:
238
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Factor uno: “En coma o estupor profundo a 24 horas de admisión” + “Fallo renal” + “Fallo neurológico”. Factor dos: “Infección probable en el momento de admisión a la UCI”+ “Estado vital UCI” + “Sexo” + “Nivel de FIO2”. Factor tres: “Nivel de creatinina” + “Estado previo de salud” + “Concentración de urea en la sangre” + “Tipo de paciente” + “Número de sistemas de órganos que fallan” + “Estancia en UCI t 24 horas”. Factor cuatro: “Fallo renal agudo” + “Fallo cardiovascular” + “Duración en hospital a partir del momento de admisión a la UCI” + “Fallo respiratorio”. En contraste con la fusión con covarianzas no-difusas, la fusión con covarianzas difusas ha puesto más claramente a las variables que refieren a fallos de sistemas de órganos en dos factores, 1 y 4. En el caso de la fusión con covarianzas difusas, las variables “Fallo renal” y “Fallo renal agudo” quedan separadas en factores distintos, mientras que la fusión con covarianzas no-difusas las agrupa en el mismo factor. La variable “Duración en hospital” ha sido asociada con algunas de las variables que refieren a los fallos de sistemas de órganos, de modo parecido a los factores “no-difusos”.
9.6.NPROCESO DE LOS DATOS UCI CON LA TÉCNICA “FUZZY C-MEANS” El conjunto de datos UCI fue preparado de una forma adecuada para dar como entrada al algoritmo Fuzzy c-Means. Cien casos fueron seleccionados de forma homogénea y aleatoria a partir del conjunto completo de datos. Usamos la misma selección de 17 variables que en pruebas anteriores: Variable 1: Sexo. Variable 2: Tipo de admisión. Variable 3: Probable infección en el momento de admisión a la UCI. Variable 4: Coma a 24 horas de admisión a la UCI. Variable 5: Fio2. Variable 6: Crea_Inc.
PRONÓSTICO DE PACIENTES DE LA UCI
239
Variable 7: A_R_Fail. Variable 8: B_Urea. Variable 9: Estado previo de salud. Variable 10: Fallo respiratorio. Variable 11: Fallo cardiaco. Variable 12: Fallo renal. Variable 13: Fallo neurológico. Variable 14: OSF. Variable 15: Estado_vital_UCI. Variable 16: Dur_Hos. Variable 17: In24hrs.
A continuación detallamos las estadísticas resultando del proceso de datos usando Fuzzy c-Means. El número de clusters fue asignado a priori a tres. (Para una explicación del funcionamiento de Fuzzy c-Means, se refiere a la Sección 7.5 del libro). Número de clusters = 3, icon = 1, exponente = 2. Ciclo de proceso = 1, error máximo = 0,7459. Ciclo de proceso = 2, error máximo = 0,2889. Ciclo de proceso = 3, error máximo = 0,4464. Ciclo de proceso = 4, error máximo = 0,3979. Ciclo de proceso = 5, error máximo = 0,3378. Fstop 1-Fstop Entropía Ganancia 0,661 0,339 0,590 7862.106
Comparamos la proximidad de los centros de cluster en relación con las variables de la Tabla 9.19. Observamos que existe una relación entre las variables “Fallo respiratorio”, “Fallo cardiaco”, “Fallo renal” y “Fallo neurológico”, dado la proximidad relativa de los centros de cluster para estas variables en las agrupaciones 1, 2 y 3. Otra proximidad identificable sería entre las variables “Sexo”, “Fio2” y “Número de sistemas de órganos que fallan”. En la Tabla 9.20 podemos apreciar los grados de pertenencia para casos seleccionados en cada de las tres agrupaciones generadas por Fuzzy c-Means. En la columna cinco (cluster asignado) se ve la asignación de la agrupación “dominante”, es decir, la agrupación que indica un grado de pertenencia claramente más alta que las otras dos agrupaciones para un caso determinado. En algunos casos no hay un ganador claro,
240
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 9.19.NFuzzy c-Means: centros de cluster v[i][j]. Variable Sexo, v[n][1] Tipo de admisión, v[n][2] Infección probable en el momento de admisión a la UCI, v[n][3] Coma a 24 horas después de admisión a la UCI, v[n][4] Fio2, v[n][5] Crea_Inc, v[n][6] A_R_Fail, v[n][7] B_Urea, v[n][8] Estado previo de salud, v[n][9] Fallo respiratorio, v[n][10] Fallo cardiaco, v[n][11] Fallo renal, v[n][12] Fallo neurológico, v[n][13] Número de sistemas de órganos que fallan, v[n][14] Estado_vital_UCI, v[n][15] Dur_Hos, v[n][16] In24hrs, v[n][17]
Cluster 1, v[1][n]
Cluster 2, v[2][n]
Cluster 3, v[3][n]
10,5746 12,2262 10,3532
0,5472 2,3164 0,2440
10,6094 12,4549 10,1812
10,1906
0,1138
10,0247
10,5819 10,0891 10,0793 18,4657 11,4922 10,1847 10,1716 10,1007 10,1440 10,6950
0,3664 0,0991 0,0758 8,4195 1,8166 0,2932 0,2961 0,1299 0,1807 0,9481
10,4309 10,0953 10,0766 19,3603 11,5818 10,3140 10,1189 10,1237 10,1457 10,7870
10,0319 45,3572 10,9981
0,3414 9,2625 0,8266
10,1281 22,3206 10,9276
Tabla 9.20.NFuzzy c-Means: grados de pertenencia para casos seleccionados. Grado de Pertenencia a cluster 1
Grado de Pertenencia a cluster 2
Grado de Pertenencia a cluster 3
Cluster asignado
11
0,0311
0,6656
0,3033
2/3
12
0,1308
0,5071
0,3621
2/3
13
0,0030
0,9748
0,0221
2
14
0,0243
0,2285
0,7472
3
15
0,0108
0,9220
0,0672
2
11
0,0440
0,0892
0,8668
3
16
0,7593
0,0884
0,1523
1
20
0,7588
0,0886
0,1526
1
41
0,4679
0,1118
0,4203
1/3
74
0,4667
0,1008
0,4325
1/3
Número del caso en el conjunto de datos
PRONÓSTICO DE PACIENTES DE LA UCI
241
y esto indica que el caso tiene pertenencia parcial a dos o más agrupaciones. Idóneamente, todos los casos deberían tener una asignación a una sola agrupación. En caso contrario, podría indicar que el valor “c”, el número de agrupaciones esperadas no ha sido óptimo para Fuzzy c-Means. Es decir, que los datos encajan mejor en 2, 4 o más agrupaciones, en vez de en 3. Otra posible razón sería un problema con la calidad de los datos o en la selección de las variables de entrada o en la muestra de casos extraídos. También, podría indicar la necesidad de una mejor asignación de uno o más de los demás parámetros de Fuzzy c-Means. Por ejemplo, un parámetro “m” más grande hace que las asignaciones de los grados de pertenencia sean más difusos. Otro parámetro que podemos variar es la norma. La norma ||.||A puede asumir uno de los siguientes tipos: NE , la norma euclidiana; ND , la norma diagonal, y NM , la norma mahalonobis; El último parámetro es HL , el umbral de épsilon, que actúa como un criterio de limitación, en la definición de los centriodes de los clusters. Sin embargo, en el contexto actual del proceso de datos clínicos reales de una cierta complejidad, una asignación del 73% de los casos a agrupaciones individuales es bastante razonable. A partir de la Tabla 9.21 confirmamos esta afirmación. En la Tabla 9.21 vemos que un 22% de los casos ha sido asignado de forma ambigua entre las agrupaciones 2 y 3, y un 5% ha sido asignado de la misma forma entre las agrupaciones 1 y 3. Tabla 9.21.NFrecuencias de los grados de pertenencia a los clusters, para un total de 100 casos. Cluster 1
Cluster 2
Cluster 3
Cluster 1,3
Cluster 2,3
Cluster 1,2
9
45
19
5
22
0
Visualización de las agrupaciones difusas: para poder obtener una visualización gráfica de los grados de pertenencia, calculamos los componentes principales de ellos según el método de [Kaufman90]. Se puede ver el gráfico que resulta en la Figura 9.20. Los datos que usamos para calcular los componentes principales han sido procesados previamente por Fuzzy c-Means. Los detalles del proceso de los datos por Fuzzy cMeans ha sido presentado en las Tablas 9.19 hasta 9.21. Para generar la representación gráfica, y según el método de Kaufman, primero definimos el número de componentes principales. El número de componentes
242
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
principales es igual que el número de agrupaciones difusas menos 1, que en el presente ejemplo resulta en un valor de 2. Si aplicamos este método a la muestra de cien casos de admisiones, obtenemos el gráfico de la Figura 9.20. Al inspeccionar los datos correspondientes al gráfico, establecemos que una mayor proximidad de un caso al origen implica una mayor incidencia de complicaciones en el paciente.
Figura 9.20.NComponentes principales de los grados de pertenencia de 100 pacientes en tres agrupaciones difusas.
En la Figura 9.20 podemos observar tres tendencias, definidas por los puntos (2,8, 1,7), (0,5, -1,3) y (-0,6, 1,3) que corresponden a las agrupaciones C1, C2 y C3, respectivamente. Los dos componentes principales se calculan a partir de los grados de pertenencia generados por Fuzzy cMeans. Podemos concluir que las agrupaciones tienen una correspondencia razonable con los siguientes factores: “duración de estancia” (C1), “fallos de sistemas de órganos” (C2) y características que dan positivo en general (C3).
9.7.NRESUMEN En la Sección 9.2, realizamos una serie de pruebas con la intención de comprobar la precisión predictiva cuando las variables “duración_uci” y “duración_hos” fueron de tipo “categórico”, usando el conjunto de datos de “admisiones hospitalarias” y la técnica C4.5. A continuación, en la
PRONÓSTICO DE PACIENTES DE LA UCI
243
Sección 9.3, hemos comprobado la predicción de “duración_uci” y “duración_hos” como variables de tipo numérico continuo, con los mismos datos que en 9.2, pero usando la técnica de ID3 en vez de C4.5. Sí categorizamos el valor continuo de la variable predicha en tres categorías (estancia corta, mediana y larga), los resultados indican una mejora en la precisión para las categorías corta y mediana. En el caso del conjunto de datos UCI, la calidad de los datos está garantizada, dado que es un conjunto que fue recopilado por varios hospitales con el motivo de realizar estudios estadísticos de pacientes UCI. Sin embargo, los datos en principio fueron enfocados en el objetivo de relacionar las variables de entrada con la variable “estado_vital_uci”, es decir, un pronóstico de sobrevivir. Por consiguiente, el nuevo objetivo de relacionar las variables de entrada con las variables “duración_hos” y “duración_ uci” fue decidido por el autor, en consulta con el experto médico.
A continuación vamos a resumir los resultados de los modelos de datos generados. Conseguimos una buena precisión para la variable predicha “duración_hos” en la categoría estancia corta (< 10 días). La precisión de la técnica C4.5 fue 89% (Tabla 9.10), mientras que la red neuronal consiguió una precisión de 82% (Tabla 9.8). En el caso de la variable objetiva “estado_vital_uci”, podemos decir que es una variable que debería tener una predicción muy precisa para este conjunto de datos. La técnica C4.5 consiguió una precisión máxima del 97% (Tabla 9.4) para “estado_vital_ uci”=”vivo” y un 65% (Tabla 9.4) para “estado_vital_uci”=”muerto”. Se pueden considerar estos últimos resultados como buenos para casos positivos y razonables para casos negativos. Destacamos los resultados del grupo de prueba C (Sección 9.2), en el cual usamos un conjunto reducido de variables de entrada, seleccionadas
244
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
exclusivamente por el médico experto. Las pruebas del grupo C (Sección 9.2) dieron con la mejor precisión (85%) para casos de larga estancia. Esto fue un resultado distinto a los otros modelos entrenados usando las técnicas de C4.5, ID3 y RN, que dieron la mejor precisión para casos de corta duración. Con referencia a la Tabla 9.12, las precisiones de las otras categorías fueron 51% para corta y 33% para mediana. Estos resultados podrían sugerir que existen modelos específicos para diferentes categorías de duración de estancia, cada uno con su conjunto de variables. Uno de los objetivos principales de Capítulo 9 ha sido la exploración de las relaciones entre las variables, usando técnicas como las de Hartigan, Fuzzy c-Means y Kohonen. En el caso de las técnicas Fuzzy c-Means y Hartigan, el objetivo final no es crear un modelo predictivo, sino llevar a cabo una exploración de los datos. Por consiguiente, no podemos comparar de forma directa a estas técnicas con C4.5, ID3 o RN en términos de precisión predictiva. Otro uso de las técnicas de modelización es la identificación de las variables más relevantes respecto a las variables de salida “duración_uci” y “estado_vital_uci”. Usamos C4.5 e ID3 para explorar las variables y para descubrir reglas precisas que corresponden a subconjuntos específicos de datos. En el grupo de pruebas C (Sección 9.2) identificamos y comentamos las reglas específicas. Variables que aparecen en la primera parte de las reglas son, por ejemplo, “edad”, “mech_ven”, “PAO2” y “C_REN_F”, cuyas diferentes combinaciones aportan sentido clínico. Hemos visto en grupo de pruebas C, que existen reglas específicas con una precisión alta (por ejemplo, mayor de 65%) y que tienen un número significativo de casos correspondientes. Las pruebas con diferentes técnicas confirmaron la complejidad de relaciones entre las variables en el conjunto de datos UCI. Contrastamos la técnica de Kohonen en la Sección 9.4, Hartigan en la Sección 9.5 y Fuzzy c-Means en la Sección 9.6 con las técnicas de C4.5 e ID3. Además, identificamos algunas características difusas, indicadas por los casos que no conseguimos clasificar de forma categórica. Los resultados confirmaron la dificultad de predecir la duración de estancia de un paciente a partir de un conjunto dado de variables a priori. En proyectos de minería de datos puede ocurrir que ninguna técnica consiga un buen resultado global a la primera. Esto puede suceder a pesar
PRONÓSTICO DE PACIENTES DE LA UCI
245
de disponer de datos de buena calidad, tener acierto en la selección de variables de entrada, y disponer de una correcta definición de las variables. Ante esta situación, una metodología habitual (para los IBMers, ed.) es realizar una segmentación previa del conjunto de datos para conseguir unas particiones homogéneas. Para ello, se suele usar una técnica de agrupación no-supervisada, como por ejemplo, Kohonen o Condorcet. Como segundo paso, se entrena un modelo predictivo para cada partición homogénea. Otro enfoque sería usar una clasificación predefinida, proporcionada como entrada a una técnica supervisada de modelización. En el caso de los datos UCI, una posible clasificación predefinida podría ser: pacientes trauma, pacientes con trauma craneal, con historial clínico previo, edad (pediatría, adultos, geriatría), etcétera. Al probar estos enfoques, no hubo una mejora inmediata en la precisión de modelos generados a partir de las particiones homogéneas. Tampoco se mostró una mejora en la precisión usando una clasificación predefinida, segmentando a los datos según el código diagnóstico. Un aspecto en contra del uso de una segmentación previa de los datos, es que se dificulta la comparación de los resultados usando técnicas como Fuzzy c-Means o Hartigan. Esto es debido al hecho de que estas técnicas deben actuar sobre todo el conjunto de datos, sin segmentación previa. Esto es para evitar que los resultados estén precondicionados por la segmentación en sí. Hay que añadir que una segmentación previa tampoco garantiza unos buenos resultados. En la Sección 9.5 hemos analizado cómo el joining algorithm de Hartigan agrupa las variables, de una parte con covarianzas difusas como entradas, y de otra usando covarianzas no-difusas. Hemos comparado la agrupación de las variables por la técnica de Hartigan con otros métodos, como el Análisis factorial de SPSS. Las técnicas de Análisis factorial de SPSS y el joining algorithm de Hartigan coincidieron en encontrar tres factores a partir de las 17 variables de entrada. En el caso de la técnica de Fuzzy c-Means, el proceso de agrupación encontró una entropía mínima con dos agrupaciones, aunque también con tres agrupaciones la entropía estuvo cerca de la mínima. Recordamos que, en el caso de Fuzzy cMeans, la entropía mide la calidad de las agrupaciones generadas, un valor bajo de entropía, indicando una mejor calidad. Es necesario indicar
246
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
que Fuzzy c-Means define clusters según un criterio de agrupación de objetos, en vez de una agrupación de variables. Sin embargo, un posterior análisis de las agrupaciones que resultan puede indicar perfiles de casos en términos de grupos de variables claves. Por último, podemos comparar las agrupaciones de variables generadas por la técnica de Hartigan (con covarianzas difusas) con las de la técnica de C4.5 en la Sección 9.2. Observamos que en las agrupaciones dadas por Hartigan (con covarianzas difusas), su interpretación en términos clínicos es más evidente. Por otra parte, C4.5 tiende a agrupar variables en reglas para producir un resultado estadísticamente óptimo, pero con el riesgo de perder la justificación clínica para dichas agrupaciones.
10 Datos del cuestionario de apnea. Laboratorios del sueño. Neumología (ICPCT), Hospital Clínico de Barcelona
En este capítulo aplicamos el operador de agregación WOWA al diagnóstico de casos de apnea usando datos recogidos de pacientes del Hospital Clínico de Barcelona. En este estudio, los datos fueron capturados en la forma no-difusa (categórica), usando un cuestionario estándar para el filtro de casos de apnea. Para una explicación del operador WOWA y su aplicación al proceso de los casos de apnea, el lector puede acudir a las Secciones 7.4 y 8.2 del libro. En la Sección 10.1 de este capítulo, es el experto médico quién selecciona las variables y asigna los valores (o cocientes) de ponderación de WOWA. Además, en contraste con el método que veremos en la Sección 10.2, los valores “w” de fiabilidad se asignan en vectores de 5 elementos. Estos vectores se interpolan posteriormente para generar las 5 curvas características usadas para interpretar los valores de los datos. El lector puede acudir a las Secciones 6.3 y 8.2 del libro para una descripción de las definiciones y características de las curvas. Al inicio del proceso detallado en la Sección 10.1, se selecciona un número reducido de casos de apnea como entrada. Los casos han sido seleccionados de una forma representativa, para incluir pacientes con un diagnóstico claramente negativo, otros con diagnóstico claramente positivo, y otros con un diagnóstico ambiguo (borderline).
248
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
En la Sección 10.2 comprobamos y contrastamos tres diferentes enfoques para asignar los cocientes de relevancia y fiabilidad de las variables en el conjunto de datos de pacientes apnea. En el primer enfoque, empleamos una diversidad de métodos provenientes de la estadística y del aprendizaje automatizado, para establecer los valores de relevancia y fiabilidad. Estos métodos incluyen técnicas de agrupación (clustering) y de clasificación (predicción). En el segundo enfoque es el médico experto quien asigna, de forma exclusiva, a los valores de relevancia y fiabilidad. Por último, el tercer enfoque consiste en una asignación consensuada entre el médico experto y los resultados del análisis por métodos estadísticos. Los cocientes de relevancia y fiabilidad definidos por cada uno de los tres enfoques quedan asignados al operador de agregación WOWA. El operador WOWA procesa el conjunto de datos de apnea y produce un diagnóstico para cada paciente. El conjunto de datos que se procesa en este capítulo incluye todos los 154 casos de apnea disponibles. Este conjunto de datos fue proporcionado por el Hospital Clínico de Barcelona y los datos fueron capturados de forma no-difusa, es decir, son de tipo categórico o numérico. En el Capítulo 11, contrastamos los resultados de proceso de datos capturados de forma no-difusa, con datos capturados mediante una representación difusa. Los datos de pacientes de apnea que usamos en los estudios del Capítulo 10 son datos recogidos usando un cuestionario estándar del sueño. Disponemos de los datos de 154 pacientes, de los cuales un 68,2% son casos positivos y un 31,8% son negativos. El cuestionario se compone de dos principales secciones: la primera sección registra los datos clínicos (edad, peso, presión sanguínea, etc.); la segunda sección se compone de 41 preguntas a las cuales el paciente debe responder. Las preguntas están divididas en 3 subgrupos: 15 preguntas generales del sueño {g1 al g15}, 16 preguntas relacionadas con aspectos respiratorios {r1 al r16} y 9 preguntas relacionadas a somnolencia {s1 al s9}. De acuerdo a esta información, el médico realiza una evaluación clínica del paciente, que se asigna a una de cinco posibles categorías: sano, ronqueador simple, dudoso, apnea típica, u otra enfermedad. En los estudios del presente libro simplificamos esta clasificación del diagnóstico a dos posibles categorías: apnea típica o sin apnea.
DATOS DEL CUESTIONARIO DE APNEA...
249
Figura 10.1.NFlujo del proceso de datos para producir un diagnóstico a partir de las variables de entrada de los casos de apnea.
En la Figura 10.1 se expone un esquema del proceso de los datos para establecer los cocientes de relevancia y fiabilidad. El operador de agregación WOWA se aplica a los datos, junto con los cocientes, para producir un diagnóstico para cada caso como resultado final.
10.1.NEL DIAGNÓSTICO DE APNEA USANDO WOWA CON COCIENTES ASIGNADOS POR EL MÉDICO EXPERTO En esta sección aplicamos las técnicas de agregación de OWA y WOWA a casos seleccionados de apnea del Hospital Clínico de Barcelona. Los datos han sido capturados de forma no-difusa, y la salida es un valor de tipo binario que indica el resultado del diagnóstico. Tanto el operador OWA como el WOWA usan vectores de fiabilidad y relevancia para ponderar los valores de las variables de entrada. Los cocientes de los vectores han sido asignados por un médico experto. Objetivos y definición del estudio. A continuación vamos a presentar los resultados de la predicción de casos de apnea usando los operadores de agregación OWA y WOWA, y el método de componentes
250
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
principales. La funcionalidad de WOWA fue modificada fijando los valores “w” (vector de fiabilidad) para representar a cinco posibles curvas determinadas. La forma de las curvas define la función de sesgo (del grado de fiabilidad) en cada caso que actúa sobre los valores de los datos. Acúdase al Capítulo 8 del libro, y Figuras 8.3 hasta 8.7 para una descripción de la técnica y una definición de las cinco posibles curvas. Para poder interpretar los resultados del diagnóstico es necesario definir un umbral cuantitativo que indique dónde acaba la etiqueta lingüística “no admitir” y dónde empieza la de “admitir”. Es decir, a partir de un determinado valor del índice de apnea (AHI), se recomienda que el paciente ingrese en la clínica para un estudio completo. El umbral se define de la siguiente forma: procesamos casos cuyo diagnóstico se conoce y anotamos los valores generados como resultado (salida). Para eso se requiere una diversidad de tipos de casos, desde un caso fuertemente positivo hasta un caso fuertemente negativo, y unos casos intermedios ordenados por el grado de evidencia del síndrome de apnea. El umbral se define clínicamente por 10 apneas/hora. Es decir, si el paciente registra < 10 apneas/hora se recomienda que no ingrese y si registra t 10 apneas/hora la recomendación es ingresar. De esta forma es posible asignar un cociente numérico al grado de incidencia de la apnea. En la Tabla 10.1 se expone la lista de variables seleccionadas por el médico experto, con sus correspondientes cocientes de fiabilidad y relevancia. Los cocientes también fueron asignados con asesoramiento por dicho médico. En la Tabla 10.2 se ven los valores de los cocientes de relevancia definidos para cada variable. Se proporcionan estos valores como un vector de entrada al operador de agregación WOWA para sesgar los valores de los datos en términos de su relevancia al diagnóstico de apnea. Como requisito del operador WOWA, los valores de relevancia han sido normalizados para sumar a uno. En la Tabla 10.3 se ven los cinco valores definidos para cada variable, que componen el vector de cocientes de fiabilidad. A partir de estos valores (o puntos), WOWA usa un método de interpolación (el de Chen y Otto [Chen95]), para crear una función. Esta función, gráficamente, se visualiza como una curva continua, que se usa para sesgar todos los valores de cada variable.
DATOS DEL CUESTIONARIO DE APNEA...
251
Tabla 10.1.NVariables discriminantes: ejemplo de un conjunto mínimo de entradas con sus respectivos cocientes de fiabilidad y relevancia. Fiabilidad*
Relevancia*
Edad en años Sexo 1 o 2 Peso en kg Índice de masa corporal en kg/m2 Circunferencia del cuello en cm.
E E M M E
0,55 0,75 0,75 0,75 155,
Consumo de alcohol Hipertensión arterial mmHg ¿Ronca Ud. mientras duerme o le han dicho que lo hace? ¿Su ronquido despierta a su pareja o se puede oír desde otra habitación? ¿Tiene Ud. dolor de la cabeza al levantarse por la mañana? Cuándo levanta por la mañana, ¿siente Ud. como si fuera que no ha descansado? ¿Se duerme Ud. en el cine, teatro, u otro espectáculo? ¿Se duerme Ud. en reuniones o en lugares públicos? ¿Se duerme Ud. al conducir por la autopista? ¿Se duerme Ud. contra su voluntad durante el día?
M E H
0,55 0,75 0,95
E
0,95
E
0,85
H
0,75
M
0,75
M
0,85
L
0,85
M
0,85
Variable
Descripción
Edad Sexo Peso IMC Circunferencia del cuello Alcohol HTA R1 R2 R11 R13
S3 S4 S5 S6
*nLos valores de las columnas se convierten después de forma equitativa en valores normalizados tal que 6U = 1 y 6Z = 1, según se ve en las Tablas 10.2 y 10.3
Tabla 10.2.NVector U: cada variable tiene asociada un valor U que indica su relevancia. 6U = 1. Variable de respuesta a la pregunta
Vector U
R1
R2
R11
R13
R3
R4
R5
R6
0,14
0,14
0,12
0,11
0,11
0,12
0,13
0,13
252
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 10.3.NVector Z: cada variable tiene asociada un vector que sesga los valores ordenados de las respuestas para dicha variable, en términos de su fiabilidad. 6Z = 1. Z vector Z1
Z2
Z3
Z4
Z5
Sesgo actúa sobre:
R1
0,10
0,10
0,20
0,30
0,30
Valores altos (H)
R2
0,20
0,20
0,20
0,20
0,20
Todos los valores (E)
R11
0,20
0,20
0,20
0,20
0,20
Todos los valores (E)
R13
0,10
0,10
0,20
0,30
0,30
Valores altos (H)
S3
0,10
0,25
0,30
0,25
0,10
Valores medianos (M)
S4
0,10
0,25
0,30
0,25
0,10
Valores medianos (M)
S5
0,30
0,30
0,20
0,10
0,10
Valores bajos (L)
S6
0,10
0,25
0,30
0,25
0,10
Valores medianos (M)
Variable
Tabla 10.4.NRespuestas (entradas) para 8 preguntas con los resultados (salidas) correspondientes para los diferentes métodos de agregación. Entradas
Resultados
Proyección de las respuestas categóricas (0=nunca a 4=siempre) sobre una escala normalizada R1
R2
R11
R13
S3
S4
S5
S6
Vector de datos de paciente P1
0,60*
0,60
0,60
0,60
0,60
0,60
0,40
0,40
Vector de datos de paciente P2
0,60
Vector de datos de paciente P3
0,80
Vector de datos de paciente P4
0,40
0,60
0,60
0,40
0,60
0,60
0,60
0,60
0,80
0,60
0,40
0,60
0,40
0,40
0,60
0,40
0,20
0,60
0,20
0,20
0,60
0,20
Wowa
Owa
Componentes principales
0,53
0,84
1,15284
admitir
admitir
admitir
0,48
0,84
1,15317
no admitir
admitir
admitir
0,56
0,89
1,15412
admitir
admitir
admitir
0,45
0,84
1,15391
no admitir
admitir
admitir
*nNB: estos valores no son grados de pertenencia, sino equivalentes numéricos de las etiquetas linguisticas categóricas, es decir, 1/5=0,2=nunca, 2/5=0,4=pocas veces, 3/5=0,6=a veces, 4/5=0,8=a menudo, 5/5=1,0=siempre, con algún reajuste necesario según la proyección y la distribución resultante.
DATOS DEL CUESTIONARIO DE APNEA...
253
Resumen de los resultados - Sección 10.1 En la Tabla 10.4 se ven los datos de las respuestas a las ocho preguntas del cuestionario junto con la variable de salida (diagnóstico). En las últimas tres columnas se ven los resultados para cada uno de los tres métodos usados. Según lo comentado anteriormente, hemos usado cuatro casos de ejemplo: las filas 1 y 3 son casos positivos (admitir), estando el caso 2 en el umbral. Es a partir de estos casos que derivamos el porcentaje de acierto en el diagnóstico correcto de pacientes que tienen el síndrome de apnea. La fila 4 es un caso fuertemente negativo (no admitir). Es a partir de este caso que derivamos el porcentaje de acierto en el diagnóstico de pacientes que no tienen el síndrome de apnea. Los datos de los casos no sólo están ponderados por los vectores U y Z, sino también por los grados de pertenencia asociados con la etiqueta lingüística de cada pregunta-respuesta. Con referencia a los resultados que se muestran en la Tabla 10.4, observamos que WOWA concuerda con OWA y componentes principales en los casos 1 y 3, y no concuerda para el caso “ambiguo” (2) y el caso fuertemente negativo (4). Componentes principales y OWA dan resultados positivos para los cuatro casos, teniendo así una buena precisión para el diagnóstico positivo y baja precisión para el diagnóstico negativo. El resultado de baja especificidad es típico para las técnicas estadísticas estándar que se suelen usar en la literatura [Hoffstein93]. Esto ha sido comentado previamente en el Capítulo 5. Por su parte, WOWA acertó tanto en el diagnóstico del caso ambiguo (fila 2) como en el caso negativo (fila 4).
10.2.NCOMPARACIÓN DE DIFERENTES MÉTODOS PARA ASIGNAR LOS COCIENTES DE RELEVANCIA Y FIABILIDAD. AGREGACIÓN DE DATOS USANDO EL OPERADOR WOWA PARA CASOS DE APNEA DEL SUEÑO En esta sección vamos a usar diversas técnicas de clustering y clasificación para establecer la relevancia y fiabilidad de cada variable. A continuación se proporcionan los valores de relevancia y fiabilidad al operador de agregación WOWA, que genera un valor agregado para cada
254
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
paciente. Dicho valor tendrá una alta correlación con el diagnóstico de apnea. Después, se compara la asignación de relevancia y fiabilidad usando estas técnicas, con la asignación exclusivamente por el experto médico, y por una asignación mixta, es decir, la asignación por un consenso entre el experto y el análisis estadístico. El estudio de la Sección 10.2 termina con un resumen y comparación de los resultados de los diferentes métodos de asignación de los cocientes de relevancia y fiabilidad. Establecer la relevancia de unas variables es un objetivo estándar para el análisis de datos, y para este fin podemos emplear una diversidad de técnicas, y posteriormente evaluar los resultados. La relevancia en sí es un valor más fácil de calcular que la fiabilidad, mediante el análisis estadístico. La fiabilidad, por su parte, está influida por diferentes aspectos. Hay aspectos relativos a los datos en sí, por ejemplo, el porcentaje de datos ausentes y/o erróneos. Después hay aspectos que dependen de la aplicación. En el caso de las respuestas de los cuestionarios de apnea, un aspecto clave es la veracidad con que el paciente responde a las preguntas. Es posible, en el caso de un paciente que se duerme al volante de su coche o en su lugar de trabajo, que dicho paciente pudiera negar estos hechos. Por esta razón, suele haber una incidencia de respuesta negativa a estas preguntas {s5 y s10 en el cuestionario} mayor de la que realmente debería ser.
(1) Clustering no-supervisado y técnicas estadísticas En la Figura 10.2 vemos las cuatro técnicas de agrupación (clustering) usadas en esta sección: Red Kohonen, k-Means, Condorcet y Cross Product Covariances (Pearson). Las técnicas han sido elegidas debido a los distintos enfoques que representa cada una de ellas. A cada técnica le proporcionamos los mismos datos como entradas. Una técnica produce una agrupación (clustering) que una vez analizada, nos indica las variables que mejor explican las características de cada uno de los grupos. Por ejemplo, suponemos que método uno produce dos agrupaciones, y en la primera agrupación todos los casos corresponden a pacientes con “edad” menor de 45 años. De otra parte, en la segunda agrupación todos los casos corresponden a pacientes con “edad” mayor o igual a 45 años. Por consiguiente, podríamos concluir que para el método
DATOS DEL CUESTIONARIO DE APNEA...
255
Figura 10.2.NTécnicas de agrupación para determinar la relación de variables claves respecto a los clusters.
uno, “edad” ha sido una variable determinante en la partición del conjunto de datos. De esta forma, para cada método podemos detectar cuáles de las variables han sido usadas para agrupar los datos. Después de la fase de selección de las variables claves por cada método, se realiza una “votación” a partir de los resultados de todos los métodos. Esto sirve para ordenar las variables por la frecuencia con que han sido elegidas como variables claves por los distintos métodos. Por ejemplo, estudiaremos el caso cuando procesamos los datos con los cuatro métodos. Tres de los métodos indican que “edad” es la variable más importante, y uno de los métodos indica que la variable más importante es “peso”. Como consecuencia, la variable “edad” será votada más importante que “peso” por mayoría simple (3 a 1). En el caso de un empate, asignaríamos ambas variables la misma importancia, aunque, como se puede ver de los resultados en la Tabla 10.5, con las variables dadas no había casos de empate. En referencia a la Tabla 10.5, en los resultados de aplicar los métodos 1, 2 y 3, la variable “pareja” destaca en el ranking de influencia en las particiones. Las técnicas de Kohonen y k-Means parecen haber destacado las variables respuesta de tipo “g” mientras que la técnica de Condorcet ha usado en mayor grado a las variables respuesta de tipo “s” para crear las particiones. No existe un consenso claro entre las diferentes técnicas estadísticas y de agrupación. Los métodos 1, 2 y 4 requieren una representación numérica para todos los datos. En contraste, el método 3
256
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 10.5.NTécnicas estadísticas y técnicas de agrupación aplicadas a los casos de apnea con el objetivo de identificar las variables clave que distinguen las particiones resultantes.
Variables más significativas
Kohonen (1)
k-Means (2)
Condorcet (3)
Cross product covariances (Pearson) (4)
pareja, peso, gl, rl, g4, s5
pareja, sexo, g4, r6, g13, g5, s5
hta, s5, s2, s1, s6, r13, pareja, g6, g7
cuello, peso, edad, alcohol
(2 y 6 clusters)
(2 clusters)
(9 clusters)
emplea una representación categórica para los datos de entrada y usa el criterio de F2 para calcular la relevancia relativa de las variables. En el caso de la técnica de Red Kohonen, tres diferentes arquitecturas de red neuronal fueron comprobadas: 41 neuronas de entrada (sólo las respuestas al cuestionario), 27 neuronas de entrada (sólo datos clínicos), y 68 neuronas de entrada (respuestas al cuestionario y datos clínicos). En el caso de la técnica k-Means, la versión estándar de SPSS fue usada y generó dos clusters. El número máximo de iteraciones fue asignado a 100, y el valor de convergencia fue asignado a 0,02. Por su parte, la técnica Condorcet permite la agrupación de tipos mixtos de datos. Para ello, usamos un algoritmo, que se basa en la distancia de Condorcet [IBM96]. La técnica generó 9 particiones en los datos. Todos los datos fueron preparados para ser de tipo categórico y una medida de F2 fue usada para ordenar las variables en cada partición y entre particiones. Por último, procesamos los mismos datos con la técnica de Cross product covariances (Pearson). La función estándar de covarianza numérica de SPSS fue usada con la opción de Pearson Product Moment. Esta función calculó las covarianzas entre todas las variables definidas como tipo numérico.
(2) Clasificación supervisada y modelos estadísticos En la Figura 10.3 se presentan las cuatro técnicas de clasificación usadas en esta parte del estudio: Inducción de reglas C4.5, red neuronal “retropropagation”, regresión logística y regresión lineal. Las técnicas
DATOS DEL CUESTIONARIO DE APNEA...
257
Figura 10.3.NProceso de los datos apnea con diferentes métodos de modelización. Cada resultado está tomado en cuenta para determinar un ranking de la relevancia y la fiabilidad de las variables en relación con el diagnóstico de apnea.
han sido elegidas porque representan métodos y enfoques distintos, lo cual nos permite contrastar los resultados. Los datos son procesados por cada uno de los métodos, y se realiza un consenso de los resultados de la misma forma que hicimos con las técnicas de agrupación de la Figura 10.2. Cada técnica de modelización produce una salida que permite un ranking en términos de la relevancia de las variables de entrada, respecto al diagnóstico final. Los resultados están resumidos en la Tabla 10.6. A continuación presentamos los resultados del proceso de los datos con cuatro técnicas diferentes, el objetivo sigue siendo el llegar a un consenso para identificar las variables más relevantes. Además, deseamos ordenar las variables por su grado de relevancia al diagnóstico (salida). Con referencia a la Tabla 10.6, se ve que los métodos 1, 2 y 3 coinciden en haber identificado “cintura” como variable relevante. Los métodos 2 y 3 ponen a “cintura” como tercera variable en el ranking, mientras que método 1 la pone como la novena. También, observamos que los métodos 1, 3 y 4 coinciden en haber identificado la variable “g1” como relevante, aunque cada método la pone en una posición diferente en la ordenación. Otras variables identificadas como relevantes por dos o más técnicas fueron: “r2”, “pareja”, “peso” y “s10”. Ahora vamos a detallar la configuración
258
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 10.6.NOrdenación de las variables de entrada por diferentes métodos en términos de su relevancia.
Variables de mayor relevancia
Regresión logística (1)
Regresión lineal (2)
C4.5 inducción de reglas (3)
Red neuronal retropropagación (4)
cuello, g1, pareja, s9, s8, s7, s6, s10, cintura, r12, r2, r5, r6, g2, g6
g8, pareja, cintura, cadera, peso
r3, r2, cintura, edad, peso, g1
sexo, r15, g10, g1, r9, r1, hta, tabaco, altura, alcohol, peso, r3, r8, s7, g5, s10, r2, r5
y parámetros usados para cada técnica de modelización. En el caso de la técnica de Inducción de reglas C4.5, usamos la versión estándar de Quinlan, con un podado del 25%, sin conjunto externo de prueba y sin agrupamiento. En el caso de la técnica de la Red neuronal de propagación inversa, la fase de entrenamiento de la red neuronal genera un análisis de sensibilidad de las variables. El análisis de sensibilidad producido por la red neuronal proporciona una ordenación de las variables en términos de su relevancia a la variable de salida, que en nuestro caso es el diagnóstico de apnea. En el caso de la técnica de Regresión logística, se usó la función estándar de regresión logística de SPSS con tres modelos de prueba. Las precisiones globales fueron, respectivamente, 89,66%, 88% y 75%. La Regresión lineal fue la cuarta técnica de modelización. Para ello, usamos la función estándar de regresión lineal de SPSS. El valor de R2 fue 0,31309, y el error estándar fue 0,51035.
(3) Proceso del conjunto de datos de apnea por el operador WOWA usando cocientes de relevancia y fiabilidad establecidos por las técnicas de clustering y clasificación El objetivo de las partes (1) y (2) del presente estudio ha sido emplear diversos métodos de análisis de datos para llegar a un consenso respecto a las 9 variables más relevantes y fiables para el diagnóstico de apnea. En las Tablas 10.5 y 10.6 hemos visto un resumen de la selección y ranking de variables para cada método. Ahora presentamos el consenso final entre todos los métodos de las nueve variables más relevantes. Los valores entre paréntesis son los cocientes y las funciones de relevancia y fia-
DATOS DEL CUESTIONARIO DE APNEA...
259
bilidad, respectivamente: pareja(0,70, E), peso(0,7, M), cuello(0,92, E), g1(0,68, M), s5(0,95, M), sexo(0,7, E), r15(0,60, M), hta(0,67, E), r5(0,90, M). Pregunta g1 es: “¿cuántas horas duerme Ud. normalmente?”; pregunta s5 es: “¿duerme Ud. mientras conduce por la autopista?”; pregunta r15 es: “¿tiene Ud. fallos de memoria o pérdida de atención?” y pregunta r5 es: “¿Ud. se ha dado cuenta de un incremento en su ronquido recientemente?”. En la columna dos de la Tabla 10.7 se pueden ver los resultados del proceso de las 154 filas de casos de pacientes por el operador de agregación WOWA con los vectores de valores de fiabilidad y relevancia y las 9 variables seleccionadas como entradas. Recordamos que en esta parte del estudio, los valores de los cocientes de fiabilidad y relevancia han sido establecidos mediante una diversidad de técnicas estadísticas. En la columna dos de la Tabla 10.7 hemos calculado la correlación entre el valor agregado de salida producido por WOWA y el valor binario que representa el diagnóstico de apnea. En lo que se refiere a la fiabilidad, se puede interpretar en términos de un consenso entre métodos para cada variable. Por ejemplo, todos los 8 métodos pueden elegir la variable “hta” (hipertensión arterial) entre las 9 variables más relevantes y, por consiguiente, la asignamos un cociente de fiabilidad de 1,0. En contraste, la variable “pareja” es elegida entre las 9 variables más relevantes por 4 de los 8 métodos, y por consiguiente, la asignamos un cociente de fiabilidad de 0,5. Según este método, los valores de fiabilidad para las variables seleccionadas fueron: pareja, 0,90; peso, 0,93; cuello, 0,95, g1, 0,65; s5, 0,45; sexo, 1,0; r15, 0,65; hta, 0,95; r5, 0,55. Como era de prever, se observa que la fiabilidad de las variables clínicas es más alta que la fiabilidad de las respuestas al cuestionario. El valor de fiabilidad se pondera, además, por el porcentaje de valores desconocidos en los datos originales de cada variable. En el caso de las variables que son respuestas a preguntas del cuestionario, la fiabilidad también queda ponderada por la posibilidad de que el paciente no responda correctamente o sinceramente a una pregunta determinada. En lo que se refiere al número de variables, este quedó fijado en nueve. Este límite fue calculado a partir de una inspección estadística que identificó que, en general, a partir de la décima variable no había un consenso entre métodos. El límite de nueve también fue asignado como término medio: diferentes métodos eligieron un número diferen-
260
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
te de variables como las más relevantes (según el umbral de cada técnica). Por ejemplo, la técnica de regresión lineal sólo identificó 5 variables, mientras que la red neuronal de propagación inversa identificó hasta 18 variables. Estos resultados quedan resumidos en las Tablas 10.5 y 10.6.
(4) Asignación de los cocientes de relevancia y fiabilidad por el médico experto y conjuntamente por él y las técnicas estadísticas En la Sección 10.2 (1) hasta (3) hemos considerado la selección de variables y asignación de los cocientes de relevancia y fiabilidad, exclusivamente por las técnicas estadísticas. En contraste, en la Sección 10.1, había una selección de variables y asignación de cocientes de relevancia y fiabilidad, hecha exclusivamente por el médico experto. En la Sección 10.1, se aplicó la selección de variables y cocientes a un conjunto de datos reducido de prueba. Como tercer enfoque de asignación, en [Nettleton99c] el médico experto define las 15 variables más relevantes para el diagnóstico de apnea. De otra parte, el analista de datos, usando diversas técnicas de la estadística y de la minería de datos, calcula los cocientes de relevancia y de fiabilidad. De esta forma podemos evaluar un método de selección de variables y asignación de cocientes por el médico experto junto con el analista de datos. Las variables, con sus correspondientes cocientes de relevancia y fiabilidad, fueron: edad(0,5, E), sexo(0,7, E), peso(0,7, M), imc(0,7, M), circunferencia del cuello(1,0, E), alcohol(0,5, M), hta(0,7, E), r1(0,9, H), r2(0,9, H), r11(0,9, M), r13(0,9, M), s3(1,0, M), s4(1,0, M), s5(1,0, M), s6(1,0, M).
Resumen de los resultados – Sección 10.2 La Tabla 10.7, resume los resultados de la Sección 10.2, donde hemos evaluado la asignación de valores de relevancia y fiabilidad por técnicas estadísticas, por el médico experto, y por una mezcla de ambos métodos. En la Tabla 10.7 se ve que, en general, hay un resultado favorable para
DATOS DEL CUESTIONARIO DE APNEA...
261
Tabla 10.7.NCorrelación del resultado del operador WOWA con el resultado del diagnóstico de apnea para tres métodos distintos de asignación de los cocientes de fiabilidad y relevancia de las variables de entrada. Asignación de cociente por el experto
Asignación de cociente por análisis de los datos
Asignación Experto + análisis de datos
Diagnóstico de casos positivos
0,75
0,78
0,81
Diagnóstico de casos negativos
0,65
0,61
0,67
Método de asignación de cociente
casos positivos y un buen resultado para casos negativos, en comparación con los métodos usados en la literatura [Hoffstein93][Katz90]. Se observa que el método que produce los mejores resultados es el método mixto, es decir, la asignación de valores por técnicas estadísticas, posteriormente revisados por el médico experto.
10.3.NRESUMEN El proceso de datos en este capítulo ha sido realizado de forma conjunta entre médicos expertos y expertos en el análisis de datos. Se ha elegido un área, el diagnóstico de apnea, donde existe una posibilidad real de conseguir una mejora respecto a las técnicas actuales. Esto es debido a la falta de precisión en métodos existentes de evaluación inicial, especialmente para casos negativos. Otra consideración es el alto coste en términos económicos y en la necesidad de recursos para el ingreso de un paciente en un Centro de Estudios del Sueño (Sleep Center). Dos aspectos fundamentales fueron considerados desde el punto de vista del análisis de datos. Primero, el aspecto de conseguir una representación óptima de los datos, y segundo, la problemática de agregación de los datos en un solo valor diagnóstico. En la Sección 10.1 hemos comprobado tres métodos distintos para agregar los datos: Componentes principales, OWA y WOWA. Hemos evaluado diferentes métodos para establecer los valores de relevancia y fiabilidad que el operador de agregación WOWA usa como entradas. A continuación, hemos aplicado el operador WOWA, junto con
262
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
los valores de relevancia y fiabilidad, a los datos complejos de un problema médico real. Usando el método de agregación WOWA para el diagnóstico de apnea, podemos incluir información de relevancia y fiabilidad de una forma más precisa. Esto nos permite mejorar el acierto en el diagnóstico de la misma. El enfoque detallado en este capítulo no ha sido usado anteriormente en la literatura del diagnóstico de Apnea. Previamente, las técnicas para realizar un diagnóstico se han centrado en la regresión lineal múltiple y en modelos de regresión logística (acúdase a las Tablas 5.1 y 5.2 del Capítulo 5). Las técnicas de agregación referenciadas en el presente Capítulo han sido probadas con un conjunto de datos reales de casos de apnea [Nettleton99c][Nettleton99e] en colaboración con el Hospital Clínico de Barcelona. El enfoque de la Sección 10.1, y detallado en [Nettleton99e], ha demostrado una buena precisión para casos negativos y positivos. En la Tabla 10.4, observamos y concluimos que WOWA era el único método, de los tres comprobados, que consiguió diagnosticar de forma correcta el caso negativo (fila 4) y el caso intermedio (fila 2). Para el enfoque de la Sección 10.2 (detallado en [Nettleton99c]), los datos fueron captados con una representación no-difusa (categórica) de las preguntas, y los cocientes y variables asignados por diversidad de técnicas.
11 Datos del cuestionario de apnea. Centro de Estudios del Sueño (Neumosalud), Hospital de la Santísima Trinidad de Salamanca En este capítulo aplicamos el operador de agregación WOWA al diagnóstico de casos de apnea usando un conjunto de datos recogido de pacientes del Centro de Estudios del Sueño del Hospital de la Santísima Trinidad, Salamanca. En este estudio, los datos fueron captados tanto en formato no-difuso (categórico) como difuso (escalas continuas), usando un cuestionario adaptado especialmente para este fin. Este enfoque se distingue del estudio del Capítulo 10, en el cual los datos fueron captados únicamente en formato no-difuso, a partir de un cuestionario de respuestas categóricas. La captura de los datos sigue el siguiente procedimiento: el paciente rellena dos cuestionarios, uno en el formato difuso/continuo y un segundo cuestionario con preguntas idénticas pero con una representación no-difusa/categórica. Esto nos permite comparar el resultado del diagnóstico usando los métodos de representación no-difusa y difusa de los datos. El estudio aporta un enfoque novedoso para la captura y proceso de datos en cuestionarios donde las etiquetas lingüísticas e información subjetiva/incierta juegan un papel importante. Además, los cocientes de relevancia y fiabilidad de las variables permiten que los conocimientos expertos y los aportados por las técnicas estadísticas se incorporen al proceso de los datos.
264
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
El conjunto completo de variables es el mismo que hemos usado en el Capítulo 10 para los datos del Hospital Clínico, pero con algunas variaciones de las condiciones. Hay unas diferencias en las variables seleccionadas y en los criterios de selección. Además, participa un médico experto distinto y usamos algunas técnicas estadísticas distintas. Vamos a comprobar tres diferentes formas de asignar los valores de relevancia y fiabilidad. Las tres formas son: la asignación indicada por el análisis estadístico (un algoritmo genético), la asignación definida por el médico experto, y la asignación mediante un consenso del análisis estadístico con él. Además, comparamos la precisión de WOWA para el diagnóstico para casos positivos y negativos con las técnicas de ID3 (inducción de árboles) y la red neuronal (propagación hacia delante). En el Capítulo 11 empleamos una forma distinta de proceso en comparación con los datos no-difusos del Capítulo 10. La diferencia reside en la incorporación de los valores de los grados de pertenencia como parte de los datos de entrada. Al final del capítulo veremos un resumen de los resultados del proceso de los datos usando las técnicas de WOWA, redes neuronales e inducción de reglas para predecir los casos de apnea. Usamos datos que provienen de las respuestas de los cuestionarios, recogidos tanto en forma de escalas (difusa) como en forma categórica (no-difusa). Con referencia a la Figura 11.1, el esquema de proceso de datos nos permite comparar el cuestionario categórico y el cuestionario de escalas por su precisión en el diagnóstico. Además, permite también comparar los resultados con valores de relevancia asignados por dos métodos. El primer método es la asignación por un médico experto, basado en sus pro-
Figura 11.1.NEsquema general de proceso de datos.
DATOS DEL CUESTIONARIO DE APNEA...
265
pios conocimientos y en la literatura clínica; el segundo método es la asignación de los valores de relevancia por un algoritmo genético que los aprende a partir de los datos. En el caso de los valores de fiabilidad, estos son siempre asignados por el médico experto, basados en su experiencia personal y en un conocimiento específico de los datos captados de los pacientes en su clínica. Esto es porque consideramos que sería más difícil asignar los valores de fiabilidad con técnicas estadísticas. En contraste, el cálculo de los valores de relevancia es más afín al análisis de correlación. En cuanto al cuestionario de escalas, hacemos uso de una función de pertenencia definida manualmente, que interprete la respuesta del paciente a las diferentes preguntas del cuestionario. Durante el proceso de los datos por el operador de agregación WOWA, los valores de fiabilidad y relevancia quedan interpolados en curvas de forma automática.
11.1.NDATOS DE PRUEBA–VARIABLES SELECCIONADAS El cuestionario está diseñado para detectar diversas patologías del sueño. Con este objetivo, el médico experto ha seleccionado un subconjunto de variables con la mayor correlación con el diagnóstico de apnea. En la Tablas 11.1 hasta 11.3 se encontrarán datos estadísticos de estas variables. En la primera columna de la Tabla 11.1 están los nombres de las variables, empezando con los datos clínicos: edad, sexo, circunferencia de cuello, índice de masa corporal, e indicador de somnolencia. A continuación se ven las respuestas seleccionadas del cuestionario: G3 es una pregunta general, mientras que R1 hasta R12 son preguntas relacionadas con el área respiratoria, y S4 hasta S10 son preguntas relacionadas con el área de somnolencia. En el Anexo 2 del libro, se encuentra una lista completa de las variables y las respuestas al cuestionario. En la columna cuatro de la Tabla 11.1, observamos que las variables numéricas como edad y circunferencia del cuello han sido categorizadas mediante la definición de rangos específicos. Estos rangos han sido definidos por el médico experto. Observamos que en general, la variable de respuesta al cuestionario ha sido definida con cinco etiquetas lingüísticas difusas. La función de pertenencia usada para interpretar el grado de pertenencia y los límites para cada etiqueta, ha sido explicada anteriormente en la Sección 6.3 del libro.
266
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 11.1.NVariables seleccionadas para el diagnóstico de apnea y valores de fiabilidad y relevancia, asignados por médico experto. Relevancia
Fiabilidad (sesgo sobre valores esperados)
Categorización
Observaciones
Edad
0,65
M
1 “0-20”;2 “21-40”; 3 “41-60”;4 “61-80”; 5 “>80
La apnea del sueño es más frecuente en personas de mayor edad. Es poco frecuente en niños.
Sexo
0,60
E
1 “HOMBRE; 2 “MUJER”
Las apneas son más frecuentes en hombres (3-4:1)
Circunfe r e n c i a del cuello (cm)
0,87
M
1 “48”
La circunferencia del cuello es un factor predictivo importante. En cuanto más grueso el cuello, mayor probabilidad de apneas.
IMC (Índice Masa Corporal)
0,85
M
1 “35”
El IMC tiene un significativo parecido a la circunferencia del cuello, pero es un poco menos relevante. Un IMC mayor implica mayor probabilidad de apneas.
Somnolencia
0,85
L
1 “SI”; 2”NO”
Somnolencia es un buen indicador de apnea del sueño. Para evaluar el grado, se suele usar el índice de Apnea/hipopnea por hora. El AHI tiene correlación con los índices y escalas de somnolencia excesiva. Por consiguiente, la ausencia de somnolencia descarta prácticamente a un AHI elevado, es decir, por encima de 30 por hora.
G3
0,65
H
1 “nunca”; 2 “raramente”; 3 “a veces”; 4 “a menudo”; 5 “siempre”
Valores altos de respuestas indican mayor probabilidad de apneas.
R1
0,75
E
Idem
Idem
R2
0,90
H
Idem
Idem
R6
0,85
H
Idem
Idem
R7
0,95
H
Idem
Idem
R8
0,85
H
Idem
Idem
R9
0,63
H
Idem
Idem
R10
0,80
H
Idem
Idem
R12
0,70
H
Idem
Idem
S4
0,75
H
Idem
Idem
S5
0,90
H
Idem
Idem
S7
0,85
H
Idem
Idem
S9
0,85
H
Idem
Idem
S10
0,85
H
Idem
Idem
Variables
DATOS DEL CUESTIONARIO DE APNEA...
267
En la columna dos de la Tabla 11.1 se ven los cocientes de relevancia asignados a cada variable, y en la columna tres se ven los vectores de fiabilidad asignados a cada variable. Los símbolos M, E, L, H, que representan las diferentes curvas características que sesgan los datos, han sido explicados anteriormente en la Sección 8.2. En la Tabla 11.2 se ven todas las respuestas seleccionadas del cuestionario que hemos usado como entradas al modelo predictivo para el diagnóstico. Dichas respuestas han sido seleccionadas a partir de las 40 preguntas dirigidas al paciente en el cuestionario. La selección ha sido realizada por médicos expertos y mediante el análisis estadístico. Las preguntas elegidas incluyen una pregunta general (G), 8 preguntas relacionadas con el ámbito respiratorio (R) y 5 preguntas relacionadas con el ámbito de somnolencia (S). Para las variables que representan a las preguntas/respuestas, los grados de fiabilidad tienen un papel clave. De otra parte, debido a que hemos preseleccionado las variables, Tabla 11.2.NDescripciones de las preguntas elegidas del cuestionario. Variable/ Pregunta
Descripción
G3
¿Está Ud. acostumbrado a tomar una siesta durante el día?
R1
¿Ronca Ud. mientras duerme o alguien le ha dicho que lo hace?
R2
¿Su ronquido despierta a su pareja o puede oírse desde otra habitación?
R6
¿Despierta Ud. durante la noche con una sensación de ahogo?
R7
¿Le ha dicho alguien que Ud. “deja de respirar” mientras duerme?
R8
¿Su pareja le ha despertado por miedo de que Ud. ha dejado de respirar?
R9
¿Cuántas veces se levanta Ud. durante la noche para ir al servicio?
R10
¿Suda mucho Ud. durante la noche?
R12
¿Despierta Ud. con la boca seca?
S4
¿Duerme Ud. en reuniones o en lugares públicos?
S5
¿Duerme Ud. mientras conduce por la autopista?
S7
¿Duerme Ud. mientras come?
S9
¿Duerme Ud. mientras conduce o parado en un semáforo?
S10
¿Duerme Ud. en su lugar de trabajo mientras realiza sus actividades laborales normales?
268
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
todas tienen grados de relevancia relativamente altos. Desde el punto de vista de la fiabilidad, es posible que algunas de las preguntas sean más susceptibles a respuestas incorrectas, por ejemplo, las de S5, S9 o S10. Las preguntas R1, R2, R7 y R8 dependen de la presencia de un testigo, que normalmente sería la pareja del paciente. En la ausencia de una pareja, la fiabilidad de las respuestas a estas preguntas se reduce de una forma muy significativa. En la Tabla 11.3 se presentan las estadísticas básicas de las 7 variables clínicas usadas como entradas. Estas variables han sido preseleccionadas por el médico experto a partir de un total de 15 variables. Se remite al Anexo 2 del libro para la lista completa de todas las variables/preguntas. Observamos que la edad mediana es de 53 años, y que los pacientes son mayoritariamente varones. El índice AHI es en índice clínico que indica si un paciente tiene apnea o no. Lo categorizamos como una variable binaria, usando el umbral de AHI t 10 para los casos positivos, según indicado en la literatura y confirmado por nuestro médico experto. Tabla 11.3.NEstadísticas básicas de las variables clínicas. Variable Edad
Mínimo
Máximo
Media
22
86
52,94 50 varones, 21 mujeres
Sexo Circunferencia del cuello (cm)
34
50
39,52
IMC (Índice de Masa Corporal)
19
43
25,46 40=NO, 28=SÍ, 3=DESCONOCIDO
Somnolencia Índice AHI (salida) Indicador 1/0 (AHI t 10) (salida)
Frecuencias para las variables categóricas
01
85
191,4 39 Casos positivos; 32 Casos negativos
DATOS DEL CUESTIONARIO DE APNEA...
269
11.2.NCOMPARACIÓN DE LAS FORMAS DE REPRESENTACIÓN CATEGÓRICA Y COMO ESCALA, DE LAS PREGUNTAS DEL CUESTIONARIO En esta sección evaluamos las respuestas al cuestionario usando la forma categórica, y las respuestas en la forma de escala. Comparamos las frecuencias de respuesta para identificar tendencias, diferencias, y mejoras, si las hay, de la forma de escala respecto a la forma categórica. La Tabla 11.4 muestra un resumen de todas las respuestas al cuestionario de representación categórica, y las respuestas al cuestionario de representación de escalas continuas. Recordamos que el cuestionario con respuestas categóricas representa el método no-difuso y el cuestionario con respuestas en forma de escalas representa el método difuso. Con referencia a la Tabla 11.4, la primera fila contiene las cinco etiquetas lingüísticas posibles como respuestas a las preguntas del cuestionario. En la siguiente fila hay dos columnas por etiqueta, tituladas “Cat” y “Sca”. La columna “Cat” indica el número de respuestas a cada variable-pregunta, para el cuestionario categórico. Por ejemplo, para la pregunta G3 en el cuestionario categórico, había 13 respuestas con valor “nunca”, 16 respuestas con valor “raramente”, 20 respuestas con valor “a veces”, etcétera. La columna “Sca” indica el número de respuestas a cada variable-pregunta, para el cuestionario en forma de escala (difusa). Por ejemplo, para la pregunta G3 en el cuestionario difuso, había 8 respuestas con valor “nunca”, 14 respuestas con valor “raramente”, 12 respuestas con valor “a veces”, etcétera. Para la representación difusa, el valor asignado corresponde a la etiqueta con el grado de pertenencia más alto. Observamos en la última columna de la tabla, que el total de respuestas en forma de escala (54) para la pregunta G3 es menor que el total posible (71). Esto es porque hay pacientes que han respondido de forma categórica a preguntas representadas en forma de escala, y estas respuestas han sido restadas del total. A partir de la Tabla 11.4, podemos hacer diferentes observaciones respecto a los resultados en las columnas con cabecera “Sca” (forma de escala). Podemos concluir que, en general, el hecho de que una persona tienda a pensar de una respuesta en forma de escala en vez de en forma categórica, depende más de la pregunta en sí, que de la etiqueta lingüística
270
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 11.4.NResumen de frecuencias de respuestas al cuestionario categórico (Cat) y cuestionario en forma de escala (Sca). Nunca
Raramente
A veces
Frecuentemente
Siempre
Sin respuesta
TOTALES
Cat1
Sca2
Cat
Sca
Cat
Sca
Cat
Sca
Cat
Sca
Cat
Cat
Sca
G3
113
118
116
114
120
112
110
113
120
17
11*
171
154
R1
114
110
112
111
119
114
127
116
119
13
10*
171
134
R2
112
113
114
117
114
110
123
117
114
11
12*
171
148
R6
139
119
114
115
118
110
116
117
118
13
11*
171
144
R7
137
117
112
113
115
119
119
116
115
13
15*
171
138
R8
142
119
117
113
118
116
115
116
118
14
14*
171
138
R9
120
116
126
125
110
114
112
116
110
11
13*
171
162
R10
111
116
121
118
116
118
116
119
116
13
11*
171
154
R12
114
115
117
110
118
114
123
119
118
10
10*
171
158
S4
149
111
113
112
111
112
118
115
111
14
10*
171
134
S5
141
111
115
113
118
114
117
114
118
12
10*
171
134
S7
161
113
116
115
110
112
113
112
110
12
11*
171
134
S9
154
110
116
113
112
113
111
110
112
10
18*
171
126
S10
148
117
117
111
119
117
113
117
119
14
13*
171
136
TOTALES
445
115
116
180
158
115
153
117
158
67
39*
994
594
*nOmitida principalmente por personas quienes indicaron que no conducen; 1 Resumen de las frecuencias de las respuestas categóricas a cada pregunta (Cat); 2 Número de preguntas en forma de escala respondidas de forma difusa (Sca).
(nunca, raramente, etc.). Sin embargo, si estudiamos las preguntas por subgrupos G, R, y S, podemos observar una mayor frecuencia de las respuestas “Sca” para las etiquetas raramente/a veces, en el caso de subgrupo R, y nunca/raramente en el caso de subgrupo S. En la Tabla 11.4 podemos ver también unas tendencias claras para preguntas específicas. Por ejemplo, en el caso de S9 hay una mayor frecuencia para respuestas “nunca” y “raramente”, mientras que en el caso de R12 hay una preferencia para valores altos, como “a veces”, “frecuentemente” y “siempre”. Existe una inversión de esta tendencia que acabamos de comentar, en el caso de respuestas para “nunca” y “raramente” cuando comparamos las frecuencias de respuesta entre categóricas y escalas (se refiere a los totales al final de cada respectiva columna). La Tabla 11.5 es un resumen de las respuestas al cuestionario en forma de escala. Se presentan las frecuencias de las respuestas por parte del
DATOS DEL CUESTIONARIO DE APNEA...
271
paciente, indicando el número de casos en los que el paciente respondió de forma categórica y el número de casos en los que el paciente tuvo en cuenta la forma de representación de escala. Para cada pregunta incluida del cuestionario (G3, R1, etc.) se muestra en la columna uno el número de preguntas respondidas de forma categórica, a pesar de que la forma de representar la pregunta fue como una escala continua. La columna dos muestra el número de respuestas que tuvieron en cuenta la escala continua. La columna tres muestra el número de respuestas de escalas con un alto grado de incertidumbre, es decir, el grado de pertenencia fue mayor que 0,09 para cualquier de las demás etiquetas lingüísticas. La columna cuatro muestra el valor de la columna tres como porcentaje del valor de la columna dos. Por último, la columna cinco es el número de respuestas Tabla 11.5.NCuestionario en forma de escala: tabla de frecuencias de las preferencias de una respuesta de escala respecto a una respuesta categórica por parte del paciente. o
N.o de respuestas categóricas
N.o de respuestas como escala
N.o de respuestas como escala con alto grado de incer tidumbre
% de respuestas con alto grado de incertidumbre
N.o de respuestas con valor ausente (escalas/categorías)
G3
144
127
112
44
10*
R1
154
117
118
47
10*
R2
145
124
1112
50
12*
R6
149
122
1111
50
10*
R7
150
119
119
47
12*
R8
148
119
1112
63
14*
R9
139
131
1121
68
11*
R10
144
127
114
52
10*
R12
142
129
1115
52
10*
S4
154
117
116
35
10*
S5
144
117
1111
65
10*
S7
154
117
114
23
10*
S9
148
113
113
23
10*
S10
149
118
118
44
14*
TOTALES
664
297
146
*nOmitida principalmente por personas que indicaron que no conducen.
33*
272
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
con valor ausente, siendo la suma de las respuestas ausentes tanto en forma de escala como de categoría. A partir de la Tabla 11.5 vemos que, aunque el paciente puede responder a todas las preguntas en forma de escala si desea, sólo un 30% de las respuestas están ponderadas en esta forma. Además, sólo un 15% tienen una respuesta de alta incerteza, es decir, un grado de pertenencia > 0,09 para cualquiera de las otras categorías. Para entender este resultado, consideramos el siguiente: a cada paciente se le explicó cómo rellenar los dos tipos diferentes de cuestionarios, y había una sección introductoria de explicación al principio del cuestionario. Sin embargo, un 67% de los pacientes rellenaron el cuestionario de escala de forma totalmente categórica. Es decir, pusieron una cruz en la escala pero justo en el límite entre una categoría y otra. Podríamos especular que hay personas que, si son requeridas a pensar de forma introspectiva o en términos intuitivos, suelen optar por la forma categórica. Podríamos llegar a la conclusión de que este es un indicio del tipo de personalidad —una forma de pensar más determinista o más reflexiva, por parte del paciente.
11.3.NAPRENDIZAJE Y ASIGNACIÓN DE LOS VALORES DE RELEVANCIA Y FIABILIDAD En esta sección, vamos a comparar la asignación de los valores de relevancia por dos métodos distintos: (1) aprendizaje por un algoritmo genético, y (2) asignación por el médico experto. Se pueden ver los valores asignados por el médico experto en las columnas 2 y 3 de la Tabla 11.1 y en la primera fila de la Tabla 11.6. En el caso de los valores de fiabilidad, estos fueron siempre asignados por el médico experto, y representan las curvas “características” explicadas anteriormente. A continuación vamos a comentar la asignación de los valores de relevancia por diferentes métodos. Consideramos el método en el cual un algoritmo genético aprende los cocientes de relevancia a partir de los datos categóricos y difusos, respectivamente, y hacemos algunas observaciones respecto a las diferencias y los valores que resultaron. Para una explicación del uso de la técnica de algoritmos genéticos para aprender los cocientes, el lector puede acudir a las Secciones 6.3 y 7.8 del libro.
DATOS DEL CUESTIONARIO DE APNEA...
273
Ahora explicaremos las condiciones y parámetros usados para el proceso de los datos por parte del algoritmo genético (GA). El GA procesó cada conjunto de datos para una duración de 200 “generaciones”. El tamaño de la población fue de 25 (el número de cromosomas) y el número de genes por cromosoma fue 19, siendo esto igual al número de cocientes y el número de variables correspondientes. La tasa de intercambio (crossover) fue asignada a 0,85 y la tasa de mutación fue asignada a 0,01. Se realizaron diversas pruebas con diferentes valores de los parámetros del algoritmo genético: tamaño de población, número de generaciones, tasa de intercambio (crossover) y de mutación. Los valores de los parámetros que dieron los resultados óptimos fueron los que acabamos de detallar. En la asignación de los parámetros es necesario tener en cuenta las restricciones de capacidad de memoria y potencia de proceso del ordenador PC en el cual se realizaron las pruebas. En una de las pruebas, se dividió un cromosoma en cuatro secciones diferentes, en función del tipo de variable. La primera sección correspondió a las “variables de datos clínicos”, mientras que las otras tres secciones correspondieron a las tres categorias de respuesta en el cuestionario (G, R o S). Sólo se permitió el intercambio (crossover) en una de las cuatro secciones, siendo el objetivo mantener juntos los valores de relevancia de variables homogéneas. En la práctica, no había evidencia de una mejora significativa en el diagnóstico final, debido a la subdivisión del cromosoma de esta forma. Los resultados publicados y presentados en este capítulo, fueron los que usaron una estructura de cromosoma sin divisiones. La Tabla 11.6 presenta los cocientes de relevancia de las variables, asignados por tres métodos diferentes: por el médico experto, por el algoritmo genético a partir de los datos en la representación categórica, y por el algoritmo genético a partir de los datos de la representación difusa. A partir de Tablas 11.6 y 11.7 podemos ver que existe una diferencia significativa en la asignación de los valores de relevancia para diferentes métodos y tipos de datos. La diferencia es menor si comparamos los valores de relevancia aprendidos por el algoritmo genético a partir de datos de tipo difuso o de tipo categórico. Hay una mayor diferencia si comparamos los valores asignados por el algoritmo genético con los valores asignados por el médico experto. Específicamente, algunas de las
274
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 11.6.NValores de relevancia asignados por el médico experto y por el proceso de aprendizaje del algoritmo genético. Asignaciones de valores de relevancia de las variables Método de asignación
S O m n
G3
R1
R2
R6
R7
R8
R9
R10
R12
S4
S5
S7
S9
S10
0,60
0,87 0,80 0,80 0,60
0,75
0,90
0,85
0,95
0,85
0,63
0,80
0,70
0,75
0,90
0,85
0,85
0,85
0,05
0,47
0,05 0,05 0,42 0,42
0,16
0,47
0,05
0,37
0,21
0,21
0,16
0,37
0,32
0,47
0,16
0,11
0,16
0,11
0,47
0,05 0,05 0,47 0,21
0,16
0,21
0,16
0,37
0,11
0,21
0,26
0,16
0,37
0,21
0,42
0,32
0,47
E d a d
S e x o
Experto médico (A)
0,65
Algoritmo genético aprende a partir de datos difusos (B) Algoritmo genético aprende a partir de datos categóricos (C)
C u e l l o
I M C
variables consideradas como relevantes por el médico experto, como por ejemplo, “cuello” e “IMC”, no fueron relevantes para el algoritmo genético. El médico experto asignó un cociente de relevancia de 0,87 a “cuello” y 0,80 a “IMC”. El algoritmo genético, usando datos categóricos, asignó un valor de 0,05 a ambas variables, y el algoritmo genético con datos difusos también las asignó un valor de 0,05. Tengamos en cuenta que el médico experto definió los valores de relevancia dentro de un rango restringido, siendo este de 0,60 hasta 0,95. Los valores de relevancia asignados por el proceso de aprendizaje también cayeron dentro de un rango determinado, siendo este de 0,05 hasta 0,47. Por consiguiente, consideramos que el valor mínimo asignado por el proceso de aprendizaje de 0,05 se corresponde con el valor mínimo de 0,60 asignado por el experto. Asimismo, el valor máximo aprendido de 0,47 sería correspondiente al valor máximo de 0,95 asignado por el experto. La Tabla 11.7 indica los métodos que coincidieron en asignar cocientes de relevancia con un valor parecido. Decidimos que dos cocientes fueran “parecidos” si sus valores coincidieran dentro de un margen del 20%. Los tres métodos de asignación que comparamos fueron: por el médico experto (A), por el algoritmo genético a partir de los datos en
DATOS DEL CUESTIONARIO DE APNEA...
275
Tabla 11.7.NMétodos que coincidieron en asignar los cocientes de relevancia de las variables. Variables
Pares de métodos que coincidieron en asignar los cocientes de relevancia
E d a d
S e x o
C u e l l o
I M C
S O m n
AC AB BC
BC
BC
BC
AC AB BC
G3
R1
R2
R6
R7
R8
R9
R10
R12
S4
S5
AC AB BC
AB
BC
AC AB BC
AB
BC
AC
AC
BC
AB
S7
S9
S10
AC
AB
representación categórica (C), y por el algoritmo genético a partir de los datos en representación difusa (B). Por ejemplo, con referencia a la Tabla 11.7, se ve que todos los métodos (A, B y C) coincidieron en asignar el cociente de relevancia para la variable “edad”. En contraste, sólo los métodos B y C coincidieron en la asignación del cociente de relevancia de la variable “S4”. En el caso de la variable “S7”, cada método dio un valor distinto, es decir, con un margen de más del 20%. Como se ve de la Tabla 11.7, había un consenso de todos los métodos (A con C, A con B y B con C) para las siguientes variables: “edad”, “somnolencia”, “R1” y “R7”. En resumen, los métodos A y B asignaron cocientes de relevancia que coincidieron para 8 variables, A y C coincidieron para 7 variables, mientras que B y C coincidieron para 10 variables. Hacemos la observación de que, para dar los valores de relevancia como entradas a WOWA, tuvieron que ser normalizados para que la suma fuera 1. Podemos concluir que el proceso de aprendizaje por el GA no es muy preciso para variables clínicas individuales, pero sí que es capaz de hallar un resultado global razonable. Este hecho concuerda con la característica general de los GA, que puede encontrar rápidamente un resultado razonable que sirva para un diagnóstico general. Por otra parte, es más difícil que un GA consiga una precisión alta para soluciones parciales como las que representan los valores individuales de relevancia.
276
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
11.4.NRESULTADOS: DIAGNÓSTICO DE APNEA USANDO EL OPERADOR DE AGREGACIÓN WOWA Presentamos los resultados de procesar los datos de los casos de apnea por el operador WOWA, dando los valores de fiabilidad y relevancia como entradas adicionales. Recordamos que el operador WOWA “fusiona” todas las entradas en un solo valor de salida, siendo este el diagnóstico del paciente. Hemos comprobado cuatro variaciones de tipo de datos y forma de asignar los valores de relevancia, que son las siguientes: (1) representación de preguntas como escalas; (2) representación categórica de preguntas; (3) asignación de los valores de “relevancia” por el médico experto; (4) aprendizaje de los valores de “relevancia” por un algoritmo genético. A partir del conjunto total de 71 casos de apnea, extraemos una muestra aleatoria de 41 casos para el conjunto de entrenamiento, y extraemos una muestra aleatoria de 30 casos para el conjunto de la prueba. En la Tabla 11.8 se resume la precisión del diagnóstico conseguido para cada técnica y tipo de datos. Los resultados se desglosan por casos positivos, casos negativos y todos los casos. Con referencia a la Tabla 11.8, observamos una mayor precisión para casos positivos y menor precisión para casos negativos. Según la literatura clínica, esto es un resultado típico para el diagnóstico de apnea. Los valores de relevancia asignados por el experto dieron un resultado sensiblemente mejor que los valores asignados mediante el aprendizaje del algoritmo genético. Los resultados comparan favorablemente con la literatura [Hoffstein93][Young94][Ward97] en lo que se refiere al diagnóstico basado por completo en cuestionarios para el síndrome de apnea del sueño, que suele estar en el orden del 55% hasta el 65% de precisión, y el diagnóstico basado completamente en datos clínicos, que es del orden del 70% hasta el 90%. Opinamos que si diéramos más tiempo evolutivo al algoritmo genético (usamos sólo 15 generaciones) y una población mayor (usamos 80 individuos) daría un mejor resultado para el método de aprendizaje.
DATOS DEL CUESTIONARIO DE APNEA...
277
Tabla 11.8.NPrecisión diagnóstica con conjunto de datos de prueba para casos positivos, casos negativos y todos los casos. Casos positivos
Casos negativos
Todos casos
Representación categórica de las preguntas/valores** asignados por el médico experto.
0,735*
0,462
0,498
Representación categórica de las preguntas/valores** aprendidos por algoritmo genético.
0,645*
0,374
0,530
Representación como escalas de las preguntas/valores** asignados por el experto médico.
0,625*
0,433
0,598
Representación como escalas de las preguntas/valores** aprendidos por algoritmo genético.
0,601*
0,459
0,550
*nCocientes de correlación valores predichos de AHI con valor real de AHI. **nValores de relevancia.
11.5.NCOMPARACIÓN DE LA PRECISIÓN PREDICTIVA EN EL DIAGNÓSTICO USANDO AGREGACIÓN WOWA RESPECTO A OTROS MÉTODOS DE MODELIZACIÓN PREDICTIVA En esta sección comparamos el método WOWA con otras técnicas predictivas basadas en la inteligencia artificial. Para ello, procesamos los mismos datos con una red neuronal y un algoritmo de inducción de reglas (ID3), para predecir el grado de apnea-hypopnea (AHI). Usamos una red neuronal estándar del tipo “propagación hacia delante” definida en 3 capas. La inducción de reglas, por su parte, se ejecutó con la siguiente configuración: sin límite de profundidad del árbol y requiriendo un mínimo del 5% del total de casos para poder formar una rama. De la misma forma que hicimos con WOWA, dividimos los datos en una muestra aleatoria del 58% para el conjunto de entrenamiento (41 casos) y 42% para el conjunto de prueba (31 casos). En la Tabla 11.9, se resumen los resultados del proceso del conjunto de datos de prueba con las técnicas.
278
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla 11.9.NComparativo de la precisión predictiva de las técnicas de red neuronal, ID3 inducción de árbol y WOWA con el conjunto de datos de prueba de apnea. Red neuronal
Inducción de árbol
WOWA
Todos casos (prueba)
0,540*
0,548
0,598
Casos positivos
0,600*
0,523
0,735
Casos negativos
0,450*
0,625
0,462
*nCocientes de correlación de valores predichos de AHI con valor real de AHI.
Se ve que la técnica de WOWA ha dado mejores resultados que la red neuronal y la inducción de reglas para los casos positivos. Para los casos negativos, la inducción de reglas ha dado un mejor resultado que WOWA, mientras que WOWA ha dado resultados ligeramente mejores que la red neuronal. En general, las técnicas de redes neuronales e inducción de reglas suelen necesitar mayores volúmenes de datos para construir un modelo. De otra parte, el enfoque de agregación ponderada (WOWA) es capaz de producir unos resultados razonables con un número significativamente menor de casos.
11.6.NRESUMEN A partir de las respuestas a los cuestionarios, podemos identificar algunas tendencias interesantes que reflejan la forma en la cual los pacientes responden a las preguntas. Una de las conclusiones que podemos tener es que el tipo de pregunta y el grado de la respuesta requerida (nunca, a veces, siempre, …) influyen en la respuesta del paciente. En algunos casos una pregunta tiende a provocar una respuesta en escala continua (“tonos de gris”) mientras que en otros casos la pregunta provoca una respuesta más “blanco o negro” del paciente. En cuanto a la precisión del diagnóstico, observamos un resultado prometedor, conseguido con pocos casos y una ancha dimensionalidad de problema (19 variables). Hemos conseguido incluir tres tipos de información complementaria como parte del proceso de datos: los valores de relevancia, los valores de fiabilidad y el grado de pertenencia difusa. De esta forma hemos podido incorporar conocimientos expertos adicionales que pueden mejorar el resultado final. Desde el punto de vista del campo de la “informáti-
DATOS DEL CUESTIONARIO DE APNEA...
279
ca médica”, hemos aprendido que una selección cuidadosa de una aplicación médica adecuada es fundamental. Un criterio clave para seleccionar una aplicación adecuada es que debe ser posible conseguir una mejora respecto a los métodos existentes. Otro prerrequisito es la necesidad de una colaboración estrecha entre los “informáticos”, los “estadísticos” y los médicos expertos, con una disponibilidad suficiente de tiempo de los participantes. Los médicos expertos participan tanto en la definición inicial de los metadatos (los valores de relevancia y fiabilidad en este caso), la selección de variables, y el análisis posterior y conclusiones en cuanto a los resultados. Otros aspectos claves son la calidad de los datos y el grado en que estos son representativos del problema, junto con el reto de obtener y capturar datos reales in situ en el entorno hospitalario.
12 Resumen y conclusiones
En el presente libro hemos revisado algunos de los problemas que existen para la representación de datos reales. Hemos considerado la selección de variables claves descriptivas, y se han aplicado diferentes técnicas para la agregación de variables y la modelización de los datos. A lo largo del libro, se han contrastado diferentes aspectos y enfoques, comparando técnicas consolidadas con técnicas menos conocidas. Asimismo, hemos revisado algo del entorno e historia asociada a estas técnicas, tanto desde el punto de vista clínico como desde el punto de vista informático/estadístico. También hemos presentado algunos enfoques novedosos, desarrollados por el autor en colaboración con diferentes expertos y centros de investigación. Estos enfoques se aplicaron a datos reales y los resultados fueron documentados. Se han presentado y aplicado diversos métodos y herramientas en las distintas fases de minería de datos. Por un lado, hemos usado técnicas para la exploración y el análisis de los datos, y por otra, hemos procesado los datos con técnicas para la modelización, clasificación y predicción. En los Capítulos 1 al 7 introducimos algunos de los enfoques y métodos actuales y sus limitaciones. Uno de los primeros problemas que consideramos fue la representación de los datos. En la literatura actual existe una diversidad de representaciones conceptuales distintas, además de algoritmos de proceso de datos que se basan en diferentes técnicas como las redes neuronales, la inducción de reglas y los algoritmos genéticos. En el Capítulo 6 se presentaron diferentes consideraciones a la representación, comparación y proceso de datos y consideraciones a conceptos básicos de la naturaleza de los mismos, enfoques de representación y
282
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
proceso de uso general. Asimismo, hemos empleado los conceptos de forma específica al tratamiento de varios conjuntos de datos clínicos. Las aplicaciones específicas fueron dos: el pronóstico de pacientes de la UCI y el diagnóstico de casos de apnea. Las consideraciones que han sido presentadas respecto a la comparación de variables de diferentes tipos, nos han hecho llegar hasta el enfoque de las covarianzas difusas. El enfoque difuso, por su parte, fue un precursor para la consideración de los operadores de agregación, como por ejemplo, WOWA. Este operador hizo posible incluir tres tipos de “metadatos” en el proceso: la relevancia de las variables, la fiabilidad de las mismas, y los grados de pertenencia de los casos. En lo que se refiere a la representación de los datos, hemos considerado los conceptos elementales y la naturaleza de los mismos: los diferentes tipos que puede asumir una variable y las posibles maneras de comparar y procesar variables de diferentes tipos. Hemos presentado algunos métodos originales para la definición de funciones de pertenencia para interpretar los datos de entrada, y se ha diseñado específicamente un cuestionario para aprovechar estos métodos. En el Capítulo 9 procesamos los datos UCI primero por técnicas estadísticas y de aprendizaje automatizado. Después, procesamos los mismos datos con la técnica Fuzzy c-Means y por último, con el joining algorithm de Hartigan, usando una nueva forma de calcular las “covarianzas difusas”. Los resultados nos han permitido ver y comparar una amplia variedad de técnicas difusas y no-difusas para procesar los datos. La técnica de Hartigan identificó cuatro factores en los datos UCI, usando las covarianzas difusas como entradas. Cuando usamos la misma técnica con las covarianzas no-difusas como entradas, se identificaron sólo tres factores. Concluimos que fue más fácil encontrar sentido clínico en los factores generados por la técnica de Hartigan, que en las reglas generadas por un proceso exhaustivo de los mismos datos con la técnica de inducción de reglas C4.5. Además, usando Fuzzy c-Means y Componentes Principales, conseguimos identificar a tres grupos de casos que fueron interpretables en términos clínicos. Para ello, había una primera fase de proceso de los datos por Fuzzy c-Means, seguido por una segunda fase usando componentes principales para procesar los grados de pertenencia y visualizar los clusters en un espacio de dos dimensiones.
RESUMEN Y CONCLUSIONES
283
Las técnicas empleadas para el diagnóstico de apnea proporcionan un enfoque alternativo al proceso de datos para un número reducido de casos, y permiten incluir metadatos, es decir, la relevancia, fiabilidad, etc. La técnica de captura de datos difusos proporciona una herramienta potente cuando se combina con el método de filtro de pacientes mediante un cuestionario. En el Capítulo 10 presentamos el diagnóstico de apnea usando la técnica de agregación WOWA con diferentes métodos de asignación de los cocientes de relevancia y fiabilidad. Comprobamos tres métodos de asignación: por el médico experto, por métodos estadísticos, y por un consenso entre el médico experto y el análisis de datos. La técnica de WOWA consiguió los mejores resultados usando los cocientes asignados por el método de consenso: una correlación de 0,81 para casos positivos y una correlación de 0,67 para los casos negativos. Estos resultados son favorables si los comparamos con otros métodos de la literatura de la informática clínica. En la Sección 10.1, realizamos pruebas para incorporar las curvas características de “sesgado” a WOWA para indicar la fiabilidad de los valores de cada variable. Los resultados de diagnóstico usando WOWA con enfoque indicaron una mejora respecto a las técnicas de OWA y componentes principales. Para dos casos positivos, un caso negativo y un caso “límite”, WOWA fue el único método que acertó en el diagnóstico de todos los casos. Por último, el estudio presentado en Capítulo 11 comparó el proceso de datos provenientes de un cuestionario con preguntas representadas en forma difusa (escalas), con datos provenientes de un cuestionario en forma no-difusa (categórica). Además, en el mismo estudio comprobamos diferentes formas de asignar los cocientes de relevancia y fiabilidad. El mejor resultado lo consiguió el método que usó un cuestionario de escalas con asignación de cocientes por el experto. El resultado global de correlación en el diagnóstico dio un valor de 0,598, que es favorable si lo comparamos con los resultados publicados en la literatura de informática clínica. Si comparamos WOWA con las técnicas de redes neuronales e inducción de reglas, con los mismos datos, WOWA dio el mejor resultado para casos positivos y el segundo mejor resultado para negativos. La precisión en el diagnóstico fue de 0,598 para WOWA, 0,54 para las redes neuronales y 0,548 para la inducción de reglas.
284
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Podemos decir, en resumen, que una de las ventajas de nuestros métodos respecto a las técnicas más convencionales de minería de datos, es el uso de una forma natural de representar los datos. Asimismo, se ofrece un mecanismo que permite incorporar información adicional en el proceso de los datos, como por ejemplo, los valores de relevancia y fiabilidad. Además, las técnicas ofrecen una medida de similitud para agrupar casos que es no-determinista, y que sirve tanto para clasificar como para agrupar (cluster). Los métodos han demostrado ser suficientemente generales para servir en dos aplicaciones distintas, en el diagnóstico de casos apnea y el pronóstico de paciente de la UCI. En el contexto de la minería de datos, hemos definido un conjunto de técnicas originales y útiles para la representación y el análisis de datos. Si quisiéramos integrar los diferentes métodos y técnicas en una aplicación informática, se podría definir un interface único para el usuario, que accedería a tres principales módulos: (1) un módulo de definición de la representación de los datos; (2) un módulo de exploración y análisis de los datos; y (3) un módulo de modelización y evaluación de los resultados. La selección de las variables es un componente clave en las primeras fases de un proyecto de minería de datos. Hemos empleado un método original para calcular las covarianzas difusas de las variables, que se proporcionan como entradas al joining algorithm de Hartigan. La salida del joining algorithm nos permite establecer un ranking de las variables en términos de su relevancia, e identificar interrelaciones entre ellas. Hemos podido comparar los resultados del análisis de un conjunto completo de datos de casos UCI, con diversos métodos estándares de minería de datos y otras técnicas como Fuzzy c-Means y el joining algorithm. En el área de la agregación de datos, hemos usado el operador WOWA en combinación con un método que usó un algoritmo genético para aprender los cocientes de relevancia y fiabilidad. Además, el operador WOWA fue adaptado para permitirle procesar de forma efectiva a datos con valores desconocidos. Hemos empleado la técnica de agregación de datos con WOWA para una aplicación nueva, el diagnóstico de apnea. Los resultados han indicado que WOWA es una técnica especialmente apta para el proceso de
RESUMEN Y CONCLUSIONES
285
datos con un número reducido de casos. Por último, hemos comparado WOWA con otros métodos de agregación, siendo estos CP (componentes principales) y OWA. El uso de un algoritmo genético para establecer los cocientes de entrada presenta una ventaja adicional para los operadores de agregación OWA o WOWA. Esto es particularmente significativo cuando los ficheros de datos incluyen valores desconocidos o el número de variables es distinto en cada caso. Como posibles futuras líneas de trabajo, se propone la unificación de los diferentes algoritmos y métodos en una sola aplicación de software. Además, con referencia al proyecto de diagnóstico de apnea en colaboración con el Hospital de la Santísima Trinidad de Salamanca, se propone una nueva recogida de datos para ampliar el número de casos disponibles para análisis. Esto permitiría evaluar las razones para los resultados menos precisos para casos de diagnóstico negativo de apnea. Esperamos que la información que se resume en el presente libro sea una nueva referencia para los profesionales e investigadores cuyo trabajo es el análisis de datos clínicos. Los métodos de diagnóstico, el diseño del cuestionario y la forma de capturar los datos proponen nuevas alternativas para el filtro de casos de apnea en particular, y casos clínicos en general. El filtro de pacientes usando cuestionarios es una solución de bajo coste cuya efectividad es mejorable mediante la cuantificación de la fiabilidad y relevancia de la información, y usando una forma de captar la naturaleza difusa de las respuestas.
Anexo A Descripción de todas las variables del conjunto de datos de “Admisiones Hospitalarias UCI”, procesado en el Capítulo 9 del libro Notas: en lo que se refiere a las abreviaturas, MPM, SAPS y APACHE, estas representan un conjunto de índices obtenidos mediante cálculo a partir de los valores de las variables que los componen, y que suelen usar de forma habitual los médicos especialistas en “Medicina Intensiva” para evaluar la gravedad del estado del paciente. En el caso de MAP, esta es una medida de la presión arterial media, y se define en unidades de mm Hg. Tabla A2.1.NAtributos y sus valores en el conjunto de datos “Admisiones Hospitalarias UCI” VARIABLE
VALOR DE EJEMPLO
TIPO DE VA R I A B L E
UNIDADES
VALORES PERMITIDOS
DESCRIPCIÓN
INFORMACIÓN DEMOGRÁFICA DEL PACIENTE EDAD
74
Numérico NN
SEXO
1
Binario
Latidos
Edad en años. {0,1}
{1:hombre, 0:mujer}.
MPM A LA HORA DE ADMISIÓN COMA_ADM
0
Binario
{0,1}
Presencia de coma o estupor profundo a la hora de admisión en la UCI.
INTOXICACIÓN
0
Binario
{0,1}
Si COMA_ADM=1, ¿es debido a una sobredosis?
TIPO_ADM
3
Categór ico No-Ordinal
{1,2,3}
Tipo de paciente {1=Cirugía de emergencia, 2=Cirugía planificada, 3=Sin cirugía).
CPR
0
Binario
{0,1}
CRP previa a admisión a la UCI (dentro de 24 horas).
MALIG
0
Binario
{0,1}
¿Una neoplasia maligno forma parte del problema actual?
METASTAT
0
Binario
{0,1}
Si MALIG=1, ¿es una metástasis?
PREV_ICU
0
Binario
{0,1}
Admisión previa a la UCI (en los últimos 6 meses).
TASA_H
80
Numérico NNN
Latidos/ minuto
Pulso a la hora de admisión a la UCI.
288
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
SBP_ADM
115
Numérico NNN
C_REN_F
0
Binario
{0,1}
¿Historial de fallo renal?
ICU_SER
1
Binario
{0,1}
Servicio a la hora de admisión a la UCI {0=Médico, 1=Cirugía}.
PROB_INF
0
Binario
{0,1}
Infección probable a la hora de admisión a la UCI.
mm Hg
Presión sanguínea sistólica a la hora de admisión.
MPM 24 horas después de admisión COMA_24H
0
Binario
{0,1}
En coma o estupor profundo a 24 horas después de admisión.
PRO_TIME
0
Binario
{0,1}
Tiempo de ‘Protrombina’ >3 segundos por encima del estándar o 0,50 durante primeras 24 horas.
CREATIN
0
Binario
{0,1}
Creatinina > 2,0 mg/dl (176,8 PMol/l) durante primeras 24 horas.
MECH_VEN
0
Numérico NN
SER_24H
1
Binario
LINES
1
Numérico NN
Horas de ventilación mecánica durante primeras 24 horas.
Horas
{0,1}
Servicio a 24 horas {0=Médico, 1=Cirugía}. Número de líneas a 24 horas después de admisión.
MPM 91: VARIABLES ADICIONALES DE ADMISIÓN INT_CRAN
0
Binario
{0,1}
Efecto sobre la masa intercraneal.
ON_MECH
0
Binario
{0,1}
Recibe ventilación mecánica.
SEP_SHOK
0
Binario
{0,1}
Shock séptico.
GI_SANGRE
0
Binario
{0,1}
Pérdida de sangre aguda GI.
DIS_CARD
1
Binario
{0,1}
Arritmia cardiaca.
ENF_CARD
1
Binario
{0,1}
Isquemia miocárdica.
FALLO_CARD
0
Binario
{0,1}
Fallo cardiaco.
CERE_DIS
0
Binario
{0,1}
Patología cerebral vascular.
A_R_FAIL
0
Binario
{0,1}
Fallo renal agudo.
LIMIT
0
Binario
{0,1}
Restricción sobre cuidados al paciente por orden del paciente o familiar.
CIRRHOS
0
Binario
{0,1}
Cirrosis.
ANEXO A
289
MPM 91: VARIABLES ADICIONALES A LAS 24 HORAS EMERSURG
0
Binario
{0,1}
Cirugía de urgencia durante las primeras 24 horas.
LIMIT24H
0
Binario
{0,1}
Restricción sobre cuidados al paciente durante las primeras 24 horas.
PH_7P2
0
Binario
{0,1}
pH d 7,2 durante las primeras 24 horas.
PEEP
0
Binario
{0,1}
PEEP > 10 cm durante las primeras 24 horas.
PLATELET
0
Binario
{0,1}
Plaquetas < 50,000 o “bajo” durante las primeras 24 horas.
C O N T _ VA S
0
Binario
{0,1}
Terapia con medicamentos.Vasoactivo continuo IV durante las primeras 24 horas.
TASA_S_H
180
Numérico NNN
Latidos /minuto
Pulso (tasa de pulsaciones del corazón).
PSS
120
Numérico NNN
mmHg
Presión sanguínea sistólica.
TEMP_CORP.
35,8
Numérico FFF.F o FF.F
ºF o ºC
Temperatura corporal.
TASA_RES
24
Numérico NN
VEN_CPAP
0
Binario
S A L I DA _ U R
1,8
Numérico FF.F
Litros en 24 horas
Producción de orina.
B_UREA
3,7
Numérico NNN o FFF.F
mMol/l o mg/dl
Concentración de sangre en la orina.
HEMATOCR
41
Numérico NN
%
Hematócrito.
WBC
8,4
Numérico FFF.F
FFF.F
WBC (103/mm3).
S_GLUCOS
7,8
Numérico FFF.F o FF.F
mMol/l o g/l
Glucosa en suero.
S_POT
4,4
Numérico FF.F
mMol/l
Potasio en suero.
S_SODIUM
135
Numérico NNN
mMol/l
Sodio en suero.
S_HCO3
23
Numérico NN
mMol/l
Suero estándar de HCO3.
SEDANTE
0
Binario
GDS_SAPS
15
Numérico NN
SAPS
Si VEN_CPAP=0, medir tasa de respiración espontánea. {0,1}
{0,1}
Ventilación mecánica o CPAP {1=si, 0=no}.
Escala de Coma de Glasgow. ¿Es el paciente bajo sedante? {1=sí, 0=no}. Sí SEDANTE=1, GCS estimado. Sí SEDANTE=0, GCS actual.
290
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
ESTADO CRÓNICO DE SALUD P_H_STAT
1
Categór ico
{1,2,3,4}
Estado previo de salud.
MAC_CABE
1
Categór ico
{1,2,3}
MacCabe {1 = sin enfermedad o no-mortal, 2 = finalmente mortal ( 124 Mol/l en las últimas 24 horas asociado con Oliguria {1=sí, 0=no}.
ANEXO A
291
O.S.F. PRIMER DÍA RES_F
0
Binario
{0,1}
Fallo respiratorio {1=si, 0=no}.
CARD_F
0
Binario
{0,1}
Fallo cardiovascular.
RENAL_F
1
Binario
{0,1}
Fallo renal.
HEMA_F
0
Binario
{0,1}
Fallo hematológico.
NEURO_F
0
Binario
{0,1}
Fallo neurológico (excluyendo sedación).
HEPA_F
0
Binario
{0,1}
Fallo hepático.
OSF
0
Numérico
Número de sistema de órganos que fallan, calculado por programa informático. VARIABLES DE SALIDA
D_ADM
3/5/02
Fecha MM/DD/YY
Fecha de admisión a la UCI.
DIA_UCI
3/5/02
Fecha MM/DD/YY
Fecha de salida de la UCI.
ESTADO_VIT AL_UCI
0
Binario
DURACION_ UCI
6
Numérico NNN
Cálculo de la duración de la estancia en la UCI.
DURACION_ HOS
33
Numérico NNN
Cálculo de la duración de la estancia en el hospital desde el momento de admisión a la UCI.
MUERTE_HOS
0
Binario
SAL_HOS
3/2/02
Fecha MM/DD/YY
{0,1}
{0,1}
Estado vital UCI {0=vivo, 1=muerto}.
Estado vital hospital {0 = vivo, 1 = muerto}. Fecha de salida del hospital.
p VARIABLES ADICIONALES p NO DISPONIBLES EN FORMULARIOS ORIGINALES DE RECOGIDA DE DATOS INCLUDE
1
Binario
{0,1}
Cumple criterios para incluir en el análisis (no es de cuidados coronarios, quemaduras o cirugía coronaria, con edad mínimo de 18 años {0=no, 1=sí}.
IN24HRS
1
Binario
{0,1}
Duración de estancia en la UCI es de 24 horas o más {0=no, 1=sí}.
1TYPE_ADM
1
?
2TYPE_ADM
0
?
3TYPE_ADM
0
?
292
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Tabla A2.2.NCategorías principales de diagnóstico - Categorías de motivo de admisión a la UCI (este es el valor asignado a la variable categórica, DIAG). CÓDIGO
CATEGORÍA
DESCRIPCIÓN
PACIENTE SIN CIRURGÍA: Fallo respiratorio o insuficiencia de: 11 12 13 14 15 16 17 18
Asma/Alergia. COPD. Edema pulmonar (no cardiogénica). Paro Posrespiratorio. Inhalación/Envenenamiento/Tóxico. Embolia pulmonar. Infección. Neoplasia. Fallo cardiovascular o insuficiencia de:
19 10 11 12 13 14 15 16 17
Hipertensión. Arrítmia cardiaca. Paro coronario congestivo. Shock/hipovolemia hemorragia. Patología de la arteria coronaria. Sepsis. Paro poscardiaco. Shock cardiogénico. Aneurisma torácica desecante/ abdominal. Trauma:
18 19
Trauma múltiple. Trauma de la cabeza. Neurológico:
20 21
Crisis repentina debido a un ataque. ICH/SDH/SAH. Otros:
22 23 24
Sobredosis. Diabético ketoacidosis. Sangrando GI. Si no es uno de los grupos especificados arriba, ¿cuál de los sistemas de órganos vitales fue la causa principal de admisión?
25 26 27 28 29
Metabólico/Renal. Respiratorio. Neurológico. Cardiovascular. Gastrointestinal.
ANEXO A
293
PACIENTES POSOPERATIVOS Trauma múltiple. Admisión debido a una patología cardiovascular crónica. Cirugía periférica vascular. Cirugía de la válvula coronaria. Craneotomía debido a neoplasia. Cirugía renal debido a neoplasia. Transplante renal. Trauma de la cabeza. Cirugía torácica debida a neoplasia. Craneotomía debido a ICH/SDH/SAH. Laminectomía/otra cirugía de la espina dorsal. Shock debido a hemorragia. Pérdida de sangre GI. Cirugía GI debida a neoplasia. Insuficiencia respiratoria después de cirugía. Perforación GI/obstrucción.
30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Si no es uno de los de arriba, ¿cuál de los sistemas principales de órganos vitales fue la causa de admisión a la UCI? 46 47 48 49 50 51
Neurológico. Cardiovascular. Respiratorio. Gastrointestinal. Metabólico/Renal. Otros (especificar).
Anexo B Cuestionario de apnea screening usado en Capítulos 10 y 11
CUESTIONARIO CLÍNICO ALTERACIONES RESPIRATORIAS DURANTE EL SUEÑO
N.o HISTORIA:
FECHA:
APELLIDOS:
NOMBRE:
EDAD:
/
/
TELÉFONO:
INTERROGATORIO HECHO EN PRESENCIA DEL COMPAÑERO/A DE HABITACIÓN 1–Sí
2–No
PROFESIÓN: HORARIO LABORAL: 1–Mañana 2–Tarde 3–Noche 4–Rotatorio 5–Jubilado/No trabaja NIVEL DE ESTUDIOS: 1–Elemental 2–Medios 3–Superiores —PESO (kg): —IMC (Kg/m2):
TALLA (m):
DIÁMETRO CUELLO (cm): TENSIÓN ARTERIAL (mmHg):
INGESTA DE ALCOHOL (gr/día):
TABACO (Paquetes/año):
CUÁL ES SU MOLESTIA O SÍNTOMA MÁS IMPORTANTE 1–Ronquidos 2–Somnolencia durante el día 4–Otras molestias (especifique):
3–Ahogos por la noche
ENFERMEDADES O ANTECEDENTES DE INTERÉS 1. Hipertensión arterial: 1–Sí; 2–No Otros:
2. Cardiopatía isquémica: 1–Sí; 2–No
296
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
INSTRUCCIONES PARA RELLENAR EL CUESTIONARIO
USTED ENCONTRARÁ TRES TIPOS DE PREGUNTAS EN LAS SIGUIENTES SECCIONES DEL CUESTIONARIO:
En el primer ejemplo usted simplemente pone un número después de la pregunta, por ejemplo, el número de horas que se duerme normalmente (8). G1 ¿CUÁNTAS HORAS DUERME USTED NORMALMENTE?
8
En el segundo ejemplo hay cuatro categorías posibles y usted hay que indicar sola UNA de estas categorías. En este caso se indica 3-a veces. G2 ¿ TOMA USTED PASTILLAS TRANQUILIZANTES PARA DORMIR? 1–nunca
2–raramente
3–a veces
4–frecuentemente
En el tercer ejemplo hay cinco categorías posibles puestos encima de una línea continua. Usted puede marcar en cualquier posición de la línea en el sitio que más corresponde a su opinión. En este ejemplo se ha marcado un punto entre ‘raramente’ y ‘a veces’, pero más cerca de ‘a veces’. G10 ¿ HA NOTADO USTED COMO UNA SENSACIÓN DE PARÁLISIS AL INICIO DEL SUEÑO O AL EMPEZAR A DESPERTARSE?
nunca
raramente
a veces
frecuentemente
siempre
PARA QUE EL CUESTIONARIO SEA DE UTILIDAD EN DIAGNOSTICAR SU CASO, ROGAMOS QUE SEA HONESTO Y FRANCO EN RESPONDER A LAS PREGUNTAS. EL CUESTIONARIO SE MANTIENE EN ESTRICTA CONFIDENCIALIDAD.
ANEXO B
297
INTERROGATORIO SUEÑO GENERAL G1 ¿CUÁNTAS HORAS DUERME USTED NORMALMENTE? G2 ¿TOMA USTED PASTILLAS TRANQUILIZANTES PARA DORMIR?
nunca
raramente
a veces
frecuentemente
siempre
G3 ¿ ACOSTUMBRA USTED A HACER LA SIESTA?
nunca
raramente
a veces
frecuentemente
siempre
G4 DURACIÓN APROXIMADA DE LA SIESTA (en minutos): G5 ¿HA GANADO PESO ÚLTIMAMENTE?
No
< 5 Kg
5-10 Kg
> 10 Kg
G6 ¿DESDE CUÁNDO HA GANADO PESO? (SÓLO CONTESTE SI HA GANADO PESO)
< 6 meses
6 meses-1 año
1-2 años
> 2 años
G7 ¿CUANDO USTED SE DUERME, TIENE PESADILLAS COMO SI LAS ESTUVIERA REALMENTE VIVIENDO?
nunca
raramente
a veces
frecuentemente
siempre
G8 ¿HA TENIDO USTED ESTE TIPO DE PESADILLAS ALGUNA VEZ MIENTRAS ESTÁ DESPIERTO?
nunca
raramente
a veces
frecuentemente
siempre
G9 ¿HA NOTADO USTED, ALGUNA VEZ, QUE DURANTE UNA EMOCIÓN INTENSA (ENFADO, RISA) SE LE HAN IDO LAS FUERZAS, AUNQUE SÓLO SEA DE UNA PARTE DE SU CUERPO O INCLUSO SE HA CAÍDO AL SUELO POR ELLO?
nunca
raramente
a veces
frecuentemente
siempre
G10 ¿HA NOTADO USTED COMO UNA SENSACIÓN DE PARÁLISIS AL INICIO DEL SUEÑO O AL EMPEZAR A DESPERTARSE?
nunca
raramente
a veces
frecuentemente
siempre
298
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
G11 ¿SABE USTED O LE HAN DICHO QUE MUEVE MUCHO LAS PIERNAS MIENTRAS DUERME?
nunca
raramente
a veces
frecuentemente
siempre
G12 ¿DURANTE EL DÍA AL SENTARSE, NOTA UN DOLOR EN LAS PANTORRILLAS QUE MEJORA AL ANDAR?
nunca
raramente
a veces
frecuentemente
siempre
G13 ¿ESTÁ USTED FRANCAMENTE DEPRIMIDO?
nunca
raramente
a veces
frecuentemente
siempre
G14 ¿TIENE USTED PROBLEMAS DE INSOMNIO?
nunca
raramente
a veces
frecuentemente
siempre
G15 ¿QUÉ TIPO DE PROBLEMAS DE INSOMNIO TIENE USTED? (SÓLO CONTESTE SI TIENE INSOMNIO) 1-le cuesta dormir
2-se despierta a medianoche
3-se levanta pronto
4-otros
INTERROGATORIO PATOLOGÍA RESPIRATORIA DEL SUEÑO R1 ¿RONCA USTED MIENTRAS DUERME O LE HAN DICHO QUE LO HACE?
nunca
raramente
a veces
frecuentemente
siempre
R2 ¿SUS RONQUIDOS DESPIERTAN A SU COMPAÑERO/A DE HABITACIÓN O SE OYEN DESDE OTRA HABITACIÓN?
nunca
raramente
a veces
frecuentemente
siempre
R3 ¿EL RONCAR LE HA CREADO EN OCASIONES PROBLEMAS CON LOS VECINOS O CUANDO HA DORMIDO FUERA DE SU DOMICILIO?
nunca
raramente
a veces
frecuentemente
siempre
R4 ¿CUÁNDO EMPEZÓ A RONCAR?
< 1 año
1-3 años
4-9 años
> 10 años
ANEXO B
299
R5 ¿HA NOTADO SI HA AUMENTADO LA INTENSIDAD DE SU RONQUIDO ÚLTIMAMENTE?
no
< 6 meses
6-12 meses
> 1 año
R6 ¿SE DESPIERTA USTED CON SENSACIÓN DE AHOGO POR LA NOCHE?
nunca
raramente
a veces
frecuentemente
siempre
R7 ¿LE HAN DICHO QUE “PARA” USTED DE RESPIRAR MIENTRAS DUERME?
nunca
raramente
a veces
frecuentemente
siempre
R8 SU COMPAÑERO DE HABITACIÓN ¿LE HA DESPERTADO POR MIEDO A QUE DEJE DE RESPIRAR?
nunca
raramente
a veces
frecuentemente
siempre
R9 ¿CUÁNTAS VECES SE LEVANTA A ORINAR POR LA NOCHE?
nunca
una vez
dos veces
> 2 veces
R10 ¿SUDA USTED MUCHO POR LA NOCHE?
nunca
raramente
a veces
frecuentemente
siempre
R11 ¿TIENE USTED DOLOR DE CABEZA CUANDO SE LEVANTA POR LA MAÑANA?
nunca
raramente
a veces
frecuentemente
siempre
R12 ¿SE DESPIERTA USTED CON LA BOCA SECA?
nunca
raramente
a veces
frecuentemente
siempre
R13 ¿POR LAS MAÑANAS AL LEVANTARSE, TIENE USTED LA SENSACIÓN DE QUE NO HA DESCANSADO?
nunca
raramente
a veces
frecuentemente
siempre
300
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
R14 ¿LE CUESTA A USTED MUCHO DESPERTARSE POR LA MAÑANA Y TIENE LA SENSACIÓN POR UN RATO DE ESTAR EMBOTADO?
nunca
raramente
a veces
frecuentemente
siempre
R15 ¿HA PERDIDO USTED MEMORIA O CAPACIDAD DE CONCENTRACIÓN?
nunca
raramente
a veces
frecuentemente
siempre
R16 ¿TIENE USTED PROBLEMAS DE IMPOTENCIA SEXUAL?
nunca
raramente
a veces
frecuentemente
siempre
INTERROGATORIO DE SOMNOLENCIA DIURNA S1 ¿SE DUERME USTED VIENDO LA TELEVISIÓN?
nunca
raramente
a veces
frecuentemente
siempre
S2 ¿SE DUERME USTED CUANDO ESTÁ LEYENDO?
nunca
raramente
a veces
frecuentemente
siempre
S3 ¿SE DUERME USTED CUANDO ESTÁ EN EL CINE O TEATRO U OTROS ESPECTÁCULOS?
nunca
raramente
a veces
frecuentemente
siempre
S4 ¿SE DUERME USTED EN REUNIONES O EN LUGARES PÚBLICOS?
nunca
raramente
a veces
frecuentemente
siempre
S5 ¿SE DUERME USTED CUANDO CONDUCE POR LA AUTOPISTA?
nunca
raramente
a veces
frecuentemente
siempre
S6 ¿SE QUEDA USTED DORMIDO DURANTE EL DÍA EN CONTRA DE SU VOLUNTAD?
nunca
raramente
a veces
frecuentemente
siempre
ANEXO B
301
S7 ¿SE DUERME USTED MIENTRAS COME?
nunca
raramente
a veces
frecuentemente
siempre
S8 ¿SE QUEDA USTED DORMIDO HABLANDO CON OTRA PERSONA? (Personalmente o por teléfono)
nunca
raramente
a veces
frecuentemente
siempre
S9 ¿SE DUERME USTED CUANDO CONDUCIENDO SE QUEDA PARADO EN UN SEMÁFORO?
nunca
raramente
a veces
frecuentemente
siempre
S10 ¿SE DUERME USTED EN SU LUGAR DE TRABAJO MIENTRAS DESARROLLA SU ACTIVIDAD LABORAL HABITUAL?
nunca
raramente
a veces
frecuentemente
siempre
1 Glosario
Agregación: (Véanse también OWA y WOWA). Un operador de agregación tiene dos o más variables de entrada y las agregan en un solo valor de salida. El proceso de agregación no sólo agrega los valores de las diferentes variables de entrada, sino que además agrega los datos correspondientes a cada variable. La incorporación de un “cuantificador” en el proceso de agregación fue detallada por Yager en [Yager88]. Durante el proceso de agregación, los datos de cada variable quedan “interpolados” por una función definida (el cuantificador) para este fin. Agrupación: (Véase clustering) AHI: Las siglas en inglés significan “Apnea Hipopnea Index”, y en castellano, “Índice de Apnea Hipopnea”. AHI también se conoce como RDI, que significa “Índice de Desorden Respiratorio”. Es el índice AHI que define la severidad de la apnea: un AHI 10-15 se considera patológico. Algoritmo genético: Un algoritmo basado en un proceso de tipo “evolutivo” que busca una solución final semióptima a partir de una población inicial de soluciones candidatas. La población de soluciones candidatas “evoluciona” de una “generación” a otra, usando un criterio de selección de los nuevos individuos. Los individuos en la población pueden cambiar mediante dos técnicas, que son el intercambio (o crossover) y la mutación. Los parámetros modificables de un algoritmo genético son: el tamaño de la población, el número de generaciones de proceso, la tasa de intercambio y la tasa de mutación. Amalgamación: El algoritmo de “amalgamación” o joining algorithm [Hartigan75] realiza sucesivas fusiones de variables para formar un número reducido de factores. El joining algorithm usa como datos de
304
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
entrada una matriz de covarianzas precalculadas de las variables. Una consecuencia de la amalgamación es la reducción del conjunto inicial de variables en dos o tres factores, lo cual simplifica, por ejemplo, la visualización de los datos. El algoritmo de amalgamación sirve para dos objetivos: el primero, la reducción del número de variables de entrada mediante su progresiva unificación; el segundo, la identificación de los factores de mayor relevancia y los factores entre los cuales existe mayor relación. Análisis de datos: El uso de diversas técnicas para la exploración de datos por objetivos concretos. Algunos métodos de análisis son: visualización, correlación, análisis de asociaciones, análisis factorial, segmentación, análisis de secuencias y el análisis de series temporales. Apache: Uno de los sistemas principales de puntuación de pronóstico de pacientes de cuidados intensivos (UCI) es el “Acute Physiology and Chronic Health System” (APACHE). Apnea: El Síndrome Obstructivo de Apnea de Sueño (OSAS) es un conjunto de manifestaciones clínicas secundarias relacionadas con la cesación (apnea) o reducción (hypopnea) del flujo de aire durante el sueño, causado por un colapso parcial o total de las vías respiratorias superiores al nivel de la faringe. La severidad del OSAS se define por el Índice Apnea Hipopnea, o AHI, (también conocido como RDI, Índice de Desorden Respiratorio) que es el número de apneas más el número de hipopneas por hora durante el sueño. En general, un AHI 10-15 se considera patológico. Aprendizaje Automatizado: Métodos de análisis y modelización de datos que se fundamentan en la “Inteligencia artificial”. El planteamiento de estos métodos es imitar hasta un cierto punto a la “Inteligencia natural”, donde el aprendizaje suele ser a base de la presentación de ejemplos, contraejemplos y excepciones. Dos técnicas de “aprendizaje automatizado” son las “redes neuronales” y la “inducción de reglas”. Calidad de Datos: Véase fiabilidad. Categórica: Un valor es de tipo categórico cuando sólo puede pertenecer a una categoría a la vez. Por ejemplo, si un paciente pertenece a la categoría de “pacientes de corta estancia en la UCI”, ya le descartamos de las restantes categorías, siendo estas las de mediana y larga estancia. La definición de “Categórica” contrasta con la definición de “Difusa” (o
GLOSARIO
305
Fuzzy), en la cual un valor puede pertenecer a más de una categoría a la vez. Clasificación: El objetivo de la clasificación es definir una serie de clases, que pueden ser jerárquicas, dentro de las cuales se pueden colocar, por ejemplo, los diferentes tipos de pacientes que tiene un hospital. Un ejemplo de una técnica de clasificación es la “inducción de reglas”; otro ejemplo es la “red neuronal”. Clustering: En castellano, “agrupación”. En este libro consideramos clustering como sinónimo de “segmentación”, aunque estrictamente el concepto más amplio es el de clustering. Uno de los principales métodos de poner datos en grupos es particionarlos, es decir, segmentar; otro método principal es el clustering jerárquico. El objetivo del clustering es definir grupos (o clusters) dentro de los cuales los casos (o los pacientes) sean lo más parecidos posibles. Por otra parte, los diferentes clusters deben ser, entre sí, lo más distintos posibles. Por ejemplo, podemos definir dos clusters, los pacientes de larga estancia y los que no son de larga estancia. Dentro del cluster de los pacientes de larga estancia, todos los pacientes deben tener una duración de estancia en días por encima de un determinado umbral. Un ejemplo de una técnica de clustering es el “k-Means”, otro ejemplo es la red neuronal tipo “Kohonen”. CP – Componentes principales: CP es una técnica estadística estándar usada para generar una correlación de las variables de entrada, con el objetivo de reducir la dimensionalidad hasta llegar a uno o más factores. Para poder combinar dos variables en un solo factor podemos representar la correlación entre las dos variables de forma gráfica en un scatterplot (gráfico de dispersión). Entonces, podemos dibujar una línea de regresión que mejor represente la relación lineal (si la hay) entre las dos variables. Si podemos definir una variable que aproxime la línea de regresión en el gráfico, entonces dicha variable captaría una “síntesis” de la relación. Los valores individuales de los casos respecto al nuevo factor, representado por la línea de regresión, podrían ser usados en el futuro para representar la “síntesis” de las dos variables originales. En este sentido, hemos reducido las dos variables en un factor. Correlación: Valor entre 1 y -1 que indica el grado de relación entre dos variables. Una correlación positiva indica que si la variable A sube, pues B también. Si el valor de la correlación es negativo, indica
306
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
que si A sube, B hace lo inverso, es decir, baja. Por ejemplo, una relación significativa entre dos variables A y B, estaría indicada por un valor de correlación positivo alrededor de 0,7. Un valor correlativo de cero indica que no existe ninguna relación entre las variables correspondientes. Crisp: Véase Categórica. Data Mining: (Véase Minería de Datos). Diagnóstico: El diagnóstico se entiende como el problema para establecer qué categoría de enfermedad o enfermedades tiene el paciente. Dependiendo del diagnóstico, se receta un tratamiento determinado, y se planifica la asignación de los recursos humanos y clínicos necesarios. El diagnóstico se distingue del pronóstico, en que trata de los indicios de recuperación para un paciente cuyo diagnóstico ha sido anteriormente establecido. Difusa/o: (En inglés, Fuzzy) Un valor es difuso cuando puede pertenecer a más de una categoría a la vez con diferentes grados de pertenencia. Por ejemplo, un paciente puede pertenecer a la categoría de “pacientes de corta estancia en la UCI” con grado 0,7, y a la categoría de “pacientes de mediana estancia en la UCI” con grado 0,3. La definición de “difusa” contrasta con la definición de “categórica” (o crisp), en la cual un paciente sólo puede pertenecer a una categoría a la vez. Estadística tradicional: La “estadística tradicional” o “clásica” incluye la diversidad de técnicas que se entiende como la “estadística”. En lo que se refiere al análisis de datos, se incluye el análisis factorial, la correlación, valores descriptivos de los datos como el máximo, mínimo, media, modo, desviación estándar, etc., y distribuciones. En lo que se refiere a modelización, comprende en primer lugar la regresión (lineal, no-lineal, logística) y el clustering (k-Means, etc.). La “estadística tradicional” se distingue de las técnicas basadas en el “aprendizaje automatizado”. Fiabilidad: Se refiere a la calidad de los datos, en términos del porcentaje de valores ausentes y erróneos, y de las distribuciones de los mismos. Por ejemplo, una variable no muy fiable sería “edad del paciente” para la cual un 20% de los casos tiene el sexo del paciente en vez de su edad, y en un 35%, el campo está completamente vacío. Otro aspecto de
GLOSARIO
307
fiabilidad sería en el caso de una variable respuesta en un cuestionario. Es posible que la variable tenga los valores rellenos en un 100% de los casos, aunque las respuestas no son fiables en el sentido de que el paciente no suele decir la verdad al responder. Función de pertenencia: Una función que permite asignar un grado de pertenencia de un caso a una categoría. Por ejemplo, un caso podría ser paciente X y la categoría podría ser “pacientes de larga estancia en la UCI”. Gráficamente, la función puede estar formada de curvas o de líneas rectas. Para determinar el grado de pertenencia a partir de un punto en el eje-x, se lee el coordinado correspondiente en el eje-y. El valor en el eje-y, que suele ser en un rango de 0 a 1, será el “grado de pertenencia”. Fuzzy: Véase Difusa. Fuzzy c-Means: Es un algoritmo de clustering difuso que actúa sobre casos definidos por atributos numéricos [Bezdek81]. Cada caso puede pertenecer a más de una de las agrupaciones, con un grado de pertenencia a cada grupo. Como primer paso, Fuzzy c-Means calcula los centros de las agrupaciones difusas para el número de agrupaciones definidas al principio del proceso. A continuación, calcula el grado de pertenencia de cada caso a cada cluster, y para cada variable. A partir de esta información, y mediante una inspección de los valores calculados, podemos establecer cuáles de las variables son de mayor relevancia para cada cluster, y cuáles tienen ambigüedades. Hartigan “Joining Algorithm”: (Véase Amalgamación) Inducción de reglas: Una técnica de análisis de datos que genera modelos de clasificación mediante la extracción de perfiles definidos en términos de las variables descriptivas. Dichos perfiles pueden estar en forma de “árbol de decisión” o pueden estar definidos como reglas del tipo “IF-AND-OR-THEN”. Un ejemplo de una regla extraída (inducida) de los datos sería: “IF edad del paciente es mayor de 60 años AND infección previa al entrar en la UCI = SI ENTONCES estancia_larga=“SI” ”. Kohonen SOM: Es una técnica de agrupación no-supervisada basada en las redes neuronales tipo SOM. En inglés, SOM significa Self Organizing Map y en castellano la traducción sería “Mapa Autoorganizativo”. El algoritmo fue definido por Teuvo Kohonen en [Kohonen84] y cae dentro de la familia de técnicas conocidas como “mapas autoorganizativos”. Kohonen hizo la observación que algunas redes de topología plana, y que
308
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
consisten de unidades interconectadas y adaptativas, son capaces de modificar su estado interno para reflejar las características de un conjunto de valores de entrada. Se puede considerar el Kohonen SOM como un conjunto de procesadores que se organizan a ellos mismos de forma autónoma y sólo requieren para ello los datos de entrada en su formato original, y un algoritmo para propagar los cambios en la red. Minería de datos: El proceso de análisis de datos usando diversas técnicas tanto de la “estadística tradicional” como del “aprendizaje automatizado”, para extraer el conocimiento. Es un término que se puso de moda a mediados de los años 90 y ha llegado a cubrir una diversidad de conceptos y técnicas. Modelización: (Véase Modelo de datos) Modelo de datos: Usamos diversos métodos para crear un modelo de los datos. Un modelo típico tendría diversas variables de entrada (edad, estado previo de salud, presión sanguínea, etc.) y una variable de salida que represente el objetivo de la predicción (por ejemplo: larga estancia SÍ o NO). Para crear un modelo de datos podemos usar métodos de la estadística tradicional, como regresión lineal para tendencias lineales; no-lineal para tendencias no lineales; logística para resultados de tipo binario. Asimismo, podemos modelizar con métodos de “aprendizaje automatizado”, como la “inducción de reglas” o “redes neuronales”. Muestreo: La selección de casos (pacientes, resultados del diagnóstico, etc.) a partir del total de casos disponibles. Si tenemos cien mil casos de pacientes, podemos extraer una muestra representativa de dos mil, que es una cantidad más manejable para el análisis. Hay diferentes maneras de seleccionar los registros para extraer una muestra, por ejemplo, (1) la forma aleatoria; o (2) cada enésimo registro. Objetivo de la modelización: Antes de embarcar en un proyecto de análisis de datos, hay que tener claro cuáles son los objetivos finales de dicho análisis, la viabilidad del proyecto, una estimación del coste y beneficio del mismo, y cómo se mide la calidad de los resultados. Un ejemplo de un objetivo de modelización sería “reducir la mortalidad de los pacientes en la UCI en un 10% durante el próximo año”, y otro sería “aumentar el acierto en la clasificación a priori de pacientes según su duración de estancia en el hospital en un 25%” OSAS: El Síndrome Obstructivo de Apnea de Sueño (OSAS), véase Apnea.
GLOSARIO
309
OWA: Ordered Weighted Average (promedio ponderado y ordenado). OWA es un método de agregación de datos que fue definido por primera vez por Yager en [Yager88]. Ordered Weighted Average tiene dos vectores de entrada: un vector de datos y un vector de cocientes. El vector de cocientes contiene dos o más valores entre 0 y 1, que se usan para interpretar los valores de los datos. OWA permite conseguir un efecto tipo AND/OR sobre los datos de entrada, controlado por el vector de cocientes. Predicción: A partir de un conjunto de datos históricos con resultado conocido, se pretende modelizar estos datos para poder saber resultados futuros. Es necesario que el entorno de los datos históricos no sea significativamente diferente del entorno del futuro periodo en que se pretende predecir. Un modelo predictivo tiene diversas variables de entrada que han sido seleccionadas por su alta correlación con el resultado histórico. Algunos ejemplos de técnicas que sirven para crear modelos predictivos son: inducción de reglas, redes neuronales y regresión. Pronóstico: El pronóstico en general se trata de los indicios de recuperación para un paciente cuyo diagnóstico ha sido anteriormente establecido. Dependiendo del pronóstico, se puede asignar, modificar o adaptar un tratamiento, y planificar una serie de fases de recuperación, con la asignación de los recursos humanos y clínicos necesarios para cada fase. El pronóstico se distingue del diagnóstico, que se entiende como el problema de establecer la categoría de enfermedad o enfermedades que padece el paciente. Pronóstico UCI: Los sistemas principales de puntuación de pronóstico en los Estados Unidos son el Acute Physiology and Chronic Health System (APACHE), el Mortality Prediction Model (MPM), y el Simplified Acute Physiology Score (SAPS). RDI: Las siglas en inglés significan Respiratory Disorder Index, también conocido como AHI (véase AHI en Glosario). En castellano, la traducción sería el “Índice de Desorden Respiratorio”. Red neuronal: Una técnica de análisis de datos que crea modelos predictivos basado en elementos (neuronas) interconectados en “capas” y parecidos a la versión biológica. Es muy adaptable a los datos y resistente a “ruido” (errores, baja relevancia de algunas de las variables) pero crea modelos “opacos” cuya estructura interna no es inteligible, lo cual contrasta con la inducción de reglas.
310
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Red neuronal de retropropagación: (En inglés, backpropagation). La gran mayoría de aplicaciones de redes neuronales predictivas son de este tipo. También se conoce como “red neuronal de propagación hacia delante” (en inglés, feedforward). A veces hay una cierta confusión entre estos dos términos, en la cual se piensa que son dos tipos de redes distintos. Estrictamente, el tipo de la red neuronal es “propagación hacia delante”, y “retropropagación” es una de las técnicas (entre otras) que se puede usar para “entrenar” la red. La red neuronal de RP aprende a partir de un conjunto de ejemplos de entradas y salidas usando un proceso que compone de dos fases. La primera fase es la propagación de los datos de las entradas por las capas intermedias hacia la capa de salida; la segunda fase es la adaptación, que en función del acierto de las salidas, se retropropaga al error resultante desde la capa de salida hacia las capas intermedias, cuyos valores quedan corregidos. Red neuronal Kohonen: (Véase Kohonen SOM) Red neuronal feedforward: (Véase Red neuronal de retropropagación) Red neuronal backpropagation: (Véase Red neuronal de retropropagación) Relevancia: Se refiere al grado de relación que tiene una variable descriptiva de entrada, con una variable de salida (el objetivo de la modelización). Por ejemplo, podríamos establecer la relevancia de la variable de entrada “edad del paciente”, respecto a la variable de salida “diagnóstico del paciente”. Representación de los datos: Se pueden representar los datos en diferentes formas, según el tipo. Los tipos de datos más importantes son: numérico, categórico y binario. Un valor de tipo numérico puede ser entero (por ejemplo 100) o con punto decimal (por ejemplo 23,4). Un valor de tipo categórico puede ser ordinal, que se puede ordenar (p.e. alto, medio, bajo) o nominal, que no se puede ordenar (por ejemplo azul, naranja, verde). Un valor de tipo binario puede tener dos posibles valores (por ejemplo SÍ, NO). Además, existe el tipo difuso, con el cual una categoría tiene asociada un grado de pertenencia para un dato concreto. Por ejemplo, podemos definir que un paciente pertenece a la categoría “bajo” con grado 0,7. Segmentación: La división (o partición) de la totalidad de los datos en segmentos, según determinados criterios. Por ejemplo, podemos seg-
GLOSARIO
311
mentar los pacientes en función de su edad, su diagnóstico inicial, la presencia de diferentes síntomas o lesiones, etcétera. Los segmentos corresponden a determinados perfiles “tipo” que después se puede usar para asignar diferentes recursos hospitalarios. Una “segmentación” es a menudo un paso previo a la modelización, dado que es más fácil crear un modelo para un “segmento homogéneo” de casos, que para todo el conjunto de casos. En este libro consideramos la segmentación como sinónimo de clustering, aunque estrictamente la segmentación es sólo uno de los métodos que sirven para poner datos en grupos; otro método principal sería el clustering jerárquico. Selección de variables: Un proceso clave en el análisis de datos y la creación de modelos. Empezando por un grupo más numeroso de variables “candidatas” se selecciona un grupo más reducido cuyas variables tengan la mayor correlación con el objetivo de modelización (la salida del modelo). Sistemas expertos: Sistemas que tenían gran popularidad en la década de los años 80. Pretendieron modelar el conocimiento de los expertos humanos mediante reglas tipo ”IF-THEN-ELSE”. La “minería de datos”, la “gestión del conocimiento”, y los sistemas clínicos como APACHE, etc., fueron derivados, por lo menos en parte, de los “sistemas expertos”. SOM (Self Organizing Map): (Véase Kohonen SOM) Tipo de datos: (Véase Representación de los datos). UCI: Unidad de Cuidados Intensivos. Unidad del hospital donde se atienden casos de urgencia, sean traumatológicos (accidentes de tráfico, etc.) o no-traumatológicos (infartos, crisis de sistemas de órganos vitales). Después de un periodo de atención intensiva, el paciente que ha respondido al tratamiento pasa a una planta del hospital general. WOWA: Weighted Ordered Weighted Average (ponderación del promedio ponderado y ordenado). Es un operador que se basa en el OWA (véase OWA en el glosario) y que agrega una serie de datos de entrada en una sola variable de salida. Sirve, por ejemplo, para la predicción de un valor a partir de un conjunto de variables de entrada. Da buenos resultados con conjuntos de datos con pocos casos. Además del vector de datos de entrada en sí, tiene dos vectores de entrada más, que se usan para ponderar las variables y los datos, respectivamente. De esta forma, combina las características del operador OWA y el WM (media ponderada). En el
312
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
presente libro hemos interpretado los dos vectores de la siguiente manera: el primer vector de cocientes representa la relevancia de las variables de entrada, con un cociente por variable; el segundo vector de cocientes de representa la fiabilidad de los datos. Se interpolan los cocientes en el vector de fiabilidad, para construir una curva característica que actúa sobre las variables de entrada. Los dos vectores de cocientes dan el WOWA una gran flexibilidad, aportando al proceso una información adicional respecto a los datos.
1 Índice de autores
En esta sección, se presenta un breve resumen de la obra de los autores más destacados y relevantes que aparecen en los temas presentados en este libro. Bezdek, J. (ref. Cáp. 3, Sec. 7.5). Bezdek es uno de los autores que más se asocian con la familia de algoritmos de Fuzzy c-Means para la agrupación difusa de datos. En [Bezdek73], se extendió y consolidó el algoritmo “fuzzy isostar” o Fuzzy c-Means, definido en [Dunn74]. El algoritmo de clustering “Fuzzy c-Means” es un método de partición de conjuntos basado en el proceso de Picard. Para dicho proceso, se definen las condiciones necesarias para optimizar una función objetivo (Jm) de la suma ponderada del error cuadrado (en inglés, weighted sum of squared errors). El número m es un parámetro de ranking de 1 hasta f; J1 es una función objetiva que sirve para definir los algoritmos c-Means y ISODATA [Duda73], que son de tipo no-difuso. Dunn fue el primero en extender J1 hasta J2 en [Dunn74], y Bezdek lo generalizó de J2 a Jm para 1 < m < f en [Bezdek73]. Mucho del trabajo de fondo de los aspectos teóricos y la estructura matemática de Fuzzy c-Means fue definido en [Bezdek81]. Un estudio posterior [Bezdek87], introdujo el algoritmo c-varieties. Este algoritmo no requiere una asignación a priori del parámetro “c”, el número de particiones, y permite el uso de tipos mixtos de variables como entradas. Gustafson y Kessel (ref. Sec. 2.5 y 8.1). Fueron los primeros autores en usar el término “matriz de covarianzas difusas” [Gustafson79], y generalizaron el algoritmo Fuzzy c-Means para incluir este concepto. Su motivación fue la de obtener
314
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
una agrupación (clustering) más precisa. El cálculo en sí se limitó a la covarianza de una agrupación difusa respecto al prototipo de la misma agrupación. Trabajos más recientes, como los de [Watada94], [Wangh95], y [Nakamori97] han definido cálculos de covarianzas para aplicaciones específicas. Hartigan, J. (ref. Sec. 2.3 y, 7.3). Podemos decir que Hartigan es un autor cuya obra queda dentro de la estadística clásica. En [Hartigan75], se define CLUSTER, que es un conjunto de programas escritos en el lenguaje Fortran y que sirven para el análisis de agrupaciones (clusters). CLUSTER incluye programas para la agrupación de variables y/o casos, usando algoritmos como el direct joining y splitting, la optimización exacta de Fisher, single-link, k-Means, mutaciones mínimas, y programas para la valoración de valores desconocidos. Los algoritmos de agrupación de Hartigan [Hartigan75] son una obra de referencia en el campo de la estadística. En el presente libro hemos empleado el joining algorithm en un contexto nuevo: la reducción de factores a partir de las covarianzas de variables de diferentes tipos (numéricos, categóricos, difusos, ...). Kohonen, T. (ref. Sec. 7.6). Kohonen es mejor conocido por su técnica de clustering no-supervisado basado en redes neuronales: el SOM Self Organizing Map. Este algoritmo, que fue presentado por Teuvo Kohonen en [Kohonen84], entra dentro de la familia de técnicas conocidas como mapas autoorganizativos. Consiste de una matriz de nodos, que “competen” mutuamente para ganar “peso” y “atraer” a los datos de entrada. En consecuencia, después de varios ciclos de proceso, algunos grupos de nodos llegan a estar altamente activados, mientras que otros grupos de nodos quedan en un estado de relativa desactivación. Los nodos están interconectados en una arquitectura neuronal típica, y la información se propaga de la capa de entrada hacía una capa (o matriz) de nodos de clasificación. En la versión básica hay dos capas de nodos, una de entrada y otra dentro de la cual se desarrolla la clasificación. La arquitectura Kohonen ha demostrado su aplicabilidad a una diversidad de dominios de datos, sobre todo los que poseen un gran volumen y muchas variables. Soporta bien la presencia de “ruido” y valores desconocidos. En el entorno clínico, el grupo de investigación de Heike Mannila, previamente de
ÍNDICE DE AUTORES
315
la Universidad de Helsinki, usaron el Kohonen SOM y técnicas derivadas para la clasificación de pacientes. Quinlan, R. (ref. Sec. 7.2). Quinlan es conocido principalmente por sus dos algoritmos de inducción de reglas y árboles de decisión, ID3 y C4.5. Estos algoritmos llegaron a ser un estándar en la literatura de “minería de datos” y fueron incorporados tal cual en muchas herramientas comerciales de análisis. ID3 y C4.5 son dos algoritmos de clasificación que se basan en la técnicas de inducción de reglas (o árboles). ID3 [Quinlan86] construye árboles de decisión de clasificación usando un método de inducción tipo top-down (desde arriba hacía abajo), y es el predecesor de C4.5. La salida de un modelo de datos creado por ID3, que se define como “nodos terminales” o “hojas” del árbol, es de tipo numérico. C4.5 [Quinlan93] es un algoritmo de inducción que procesa sucesivamente a subconjuntos (o “ventanas”) de casos extraídos del conjunto total de datos. C4.5 evalúa la “bondad” de las reglas generadas usando un criterio que mide la precisión en la clasificación de los casos. La salida de un modelo creado por C4.5 (los “nodos terminales” o “hojas”) es de tipo categórico. Torra, V. (ref. Sec. 2.3 y 7.4). Una de las áreas de investigación de Torra ha sido la agregación de datos, y fue en [Torra96] donde se definió el operador de agregación WOWA (Weighted Ordered Weighted Average). El operador WOWA combina las características de los operadores OWA y WM (Weighted Mean). Emplea dos vectores de cocientes, uno que actúa sobre las variables y otro que actúa sobre los valores de los datos. Los dos vectores se usan durante el proceso de agregación de los datos. El operador WOWA combina aspectos deseables de dos operadores, OWA y WM, y compensa algunas de sus carencias. El operador OWA fue presentado por primera vez en [Yager88] y es una de las referencias más conocidas de técnicas de agregación de datos. OWA emplea un vector de cocientes que asigna un factor de fiabilidad para cada valor. Por otro lado, el operador WM emplea un vector de cocientes que asigna un factor a la variable. En el presente libro hemos interpretado este factor como la relevancia. WOWA combina los enfoques de OWA y WM para definir dos vectores de cocientes, uno que pondera los valores y otro que pondera las variables.
316
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Yager (ref. Sec. 2.3 y 7.4). Este autor se ha especializado en operadores de agregación de datos que permiten interpretar aspectos de lenguaje natural de forma cuantitativa. Su operador más conocido es el “OWA” (Ordered Weighted Average), un método de agregación de datos definido por primera vez en [Yager88]. El Ordered Weighted Average tiene dos vectores de entrada: un vector de datos y un vector de cocientes. OWA permite definir un efecto AND/OR sobre los datos de entrada, controlado por el vector de cocientes, que se interpretan en términos de relevancia. En [Yager93] se definieron formalmente dos conceptos clave para la toma de decisiones: orness y andness. El orness es una especie de sesgo que se puede interpretar como el grado de “optimismo”, y que se puede cuantificar y aplicar a un conjunto de variables y sus valores. El andness, por su parte, se considera el concepto opuesto al orness, y se interpreta como el grado de “pesimismo”. Estas definiciones representan el intento para captar la subjetividad que siempre existe cuando un experto toma una decisión respecto a una variable y el valor correspondiente. Zadeh (ref. Cáp. 3). Zadeh es posiblemente el autor clave en el área de investigación de los conjuntos difusos. Su trabajo magistral [Zadeh65] introdujo el término conjunto difuso en el lenguaje científico popular, definiendo sus propiedades. Zadeh usó ejemplos cotidianos de conjuntos difusos, como “la clase de hombres altos”, o “la clase de todos los números reales mucho mayores que 1”. Se definió un conjunto difuso como una “clase” con un continuo de grados de pertenencia. Expuso que los “conjuntos difusos” existen en un marco parecido al de los conjuntos ordinarios, pero representan un concepto más amplio. Dos ejemplos de la aplicación de los conjuntos difusos serían la clasificación de patrones/imágenes y el proceso de información. La formación de Zadeh como ingeniero electrónico influyó en las analogías que usó de la teoría de la electricidad para definir el nuevo enfoque de los conjuntos difusos. En [Zadeh71], Zadeh presentó tres conceptos básicos para la teoría de los conjuntos difusos: la “similitud”, la “relación de similitud” y la “ordenación difusa”. La similitud se define como una generalización de la noción de equivalencia.
1 Bibliografía
B 1.1.NREVISIÓN BIBLIOGRÁFICA DE LAS PUBLICACIONES RELEVANTES DEL AUTOR (1996 – 2001) A continuación se encuentran las referencias de nueve artículos relevantes para el presente libro, publicados por Nettleton et al. en journals académicos especializados y en conferencias. Los artículos tratan de aspectos técnicos específicos del proceso y representación de datos, con un énfasis especial en el entorno clínico, para el diagnóstico y el pronóstico. En orden cronológico, las publicaciones representan una evolución en términos de investigación y aplicación. En el periodo 1996-1997 se publicaron artículos que trataron del estudio de diferentes formas de comparar y representar datos de diferentes tipos, aplicadas al pronóstico de pacientes UCI. En el periodo 1998-2001 se publicaron artículos relacionados con el operador de agregación WOWA aplicado al diagnóstico de apnea.
Publicaciones del autor [Nettleton96] Nettleton, D.F., “Data Mining en el entorno hospitalario”. Novatica, Spain, págs. 69-73, 1996. [Nettleton97] Nettleton, D.F., Gibert, K., “Fusión de atributos con técnicas fuzzy en Data Mining”. ESTYLF ’97. VII Congreso Español de Lógica Difusa, Tarragona, Spain, págs. 217-220, 1997. [Nettleton98a] Nettleton, D.F., “Representación, fusión e interpretación de atributos con técnicas fuzzy. ACIA ’98. 1.o Congreso Catalán de Inteligencia Artificial, Tarragona, Spain, págs. 185-187, 1998. [Nettleton98b] Nettleton, D.F., “Fuzzy covariance analysis, aggregation and input selection for fuzzy data”. IKBS ’98. International Conference on Knowledge Based Computer Systems. Mumbai, India, págs. 261-272, 1998.
318
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
[Nettleton99a] Nettleton, D.F., “El uso de tecnología de Minería de Datos para la construcción y explotación del Data Warehouse”. Novatica, Spain, págs. 52-55, 1999. [Nettleton99b] Nettleton, D.F., “Variable fusion using a heterogeneous representation of crisp and fuzzy medical data”. IFSA ’99. Eighth International Fuzzy Systems Association World Congress, Taipei, Taiwan, Vol II, págs. 618-623, 1999. [Nettleton99c] Nettleton, D.F. , Hernandez, L., “Evaluating reliability and relevance for WOWA aggregation of Sleep Apnea case data”. EUSFLAT ‘99 Congress of the European Society of Fuzzy Logic and Technology, Palma de Mallorca, Spain, págs. 283-286, 1999. [Nettleton99e] Nettleton, D.F., Hernandez, L., “Questionnaire screening of sleep apnea cases using fuzzy knowledge representation and intelligent aggregation techniques”. IDAMAP ’99. Workshop “Intelligent Data Analysis in Medicine and Pharmacology”, Washington DC, United States, págs. 91102, 1999. [Nettleton01a] Nettleton, D.F., Muñiz, J., “Processing and representation of meta-data for sleep apnea diagnosis with an artificial intelligence approach”. International Journal of Medical Informatics, 63 (1-2), págs.77-89, Elsevier, Sept. 2001. [Nettleton01b] Nettleton, D.F. , Torra, V. “A comparison of active set method and Genetic algorithm approaches for learning weighting vectors in some aggregation operators”. International Journal of Intelligent Systems, Vol. 16, N.o 9, Wiley Publishers, Sept. 2001.
B 1.2.NREFERENCIAS BIBLIOGRÁFICAS GENERALES DADAS EN EL TEXTO [Aguilar91] Aguilar-Martín, J., Gibert-Oliveras, K., “Sobre Variables Linguisticas Difusas, Paradigmas Parmenidianos y Logicas Multivaluadas”. Primer Congreso Español sobre Tecnologías y Lógica Fuzzy. Universidad de Granada (1991), págs 185-192. [Almuallim91] Almuallim, H., Dietterich, T. “Learning with many irrelevant features”. Proc. AAAI-91, Anaheim, CA., MIT Press, Cambridge, MA., págs. 547-552, 1991. [Amaya94] Amaya Cruz, G.P., Beliakov, G. “Approximate reasoning and interpretation of laboratory tests in medical diagnostics”. Intelligent Engineering Systems through Artificial Neural Networks, Vol. 4, ASME, New York, NY, USA, págs. 773-778, 1994. [Armengol00] Armengol, E., Palaudáries, A., Plaza, E. “Individual prognosis
BIBLIOGRAFÍA
319
of diabetes long-term risks: A CBR Approach”. IIIA Research Report 200004, IIIA-CSIC, Campus UAB, Bellaterra, Catalonia, EU, 2000. [Babuska96] Babuska, R., Setnes, M., Kaymak, U., van Nauta Lemke, H. “Rule based simplification with similarity measures”. Proceedings FUZZIEEE’96, págs. 1642-1647, New Orleans, USA, Sept. 1996. [Bezdek73] Bezdek, J.C. “Fuzzy mathematics in pattern classification”. Ph.D. dissertation, Appl. Math., Cornell Univ., Ithaca, NY, 1973. [Bezdek77] Bezdek, J.C. and Castelaz, P.F. “Prototype Classification and Feature Selection with Fuzzy Sets”. IEEE Trans. Sys. Man Cybern., Vol. SMC7, no. 2, págs. 87-92, Feb. 1977. [Bezdek81] Bezdek, J.C. “Pattern recognition with Fuzzy Objective Function Algorithms”. S13, págs. 86, “Feature Selection for Binary Data: Important Medical Symptoms”. Plenum Ress, 1981. [Bezdek87] Bezdek, J.C., Hathaway, R.J., Sabin, M.J., Tucker, W.T. “Convergence theory for Fuzzy c-Means: counterexamples and repairs”. IEEE Trans. Syst. Man. Cybern., vol. SMC-17, n.o 5, págs. 873-877, Sept./Oct. 1987. [Blum97] Blum, A., Langley, P. “Selection of relevant features and examples in machine learning”. Artificial Intelligence , Vol. 97, #1-2, págs. 245-271, Ed. Elsevier, December 1997. [Boixader97] Boixader, D., Jacas, J., Recasens, J. “Similarity-based approach to defuzzification”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. 2, págs. 761-765, 1997. [Borgelt97] Borgelt. “Evaluation measures for learning probabilistic and possibilistic networks”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. 1, págs. 669, 1997. [Breiman84] Breiman, L. , Friedman, J.H., Olshen, R.A. and Stone, C.J. “Classification and Regression Trees”. Belmont, CA: Wadsworth, 1984. [Carey01] Carey, C.F., Lee, H.H., Woeltje, K.F., “Manual Washington de Terapéutica Médica”. Washington University School of Medicine, St. Louis, Missouri. Ed. Masson, S.A. (Barcelona, España), 10.a Edición (2001). ISBN. 84-458-0727-7. [Chen95] Chen, J.E., Otto, K.N., “Constructing membership functions using interpolation and measurement theory”. Fuzzy Sets and Systems, Vol. 73:3 (1995), págs. 313-327. [Cuadras80] Cuadras, C.M. “Métodos de Análisis Multivariante”. Vols I y II, Chapman-Hall, 1980. [Delgado95] Delgado, M., Gómez Skarmeta, A., Martín, F. “Generating fuzzy rules using clustering based approach”. Third European Congress on Fuzzy and Intelligent Technologies and Soft Computing, págs. 810-814, Aachen, Germany, August 1995. [Demsar99] Demsar, J., Zupan, B., Aoki, N., et al. “Feature mining and predic-
320
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
tive model construction from severe trauma patient’s data”. Workshop Intelligent Data Analysis in Medicine and Pharmacology, págs. 32-41. AMIA, 99. Washington, DC, Nov. 1999. [Dox83] Dox, I., Melloni, B.J., Eisner, G.M. “Diccionario Médico Ilustrado de Melloni”. Editorial Reverté, S.A., 1983 (edición en Español). ISBN 84291-5548-1 [Dreiseitl99] Dreiseitl, S., Ohno-Machado, L., Vinterbo, S. “Evaluating variable selection methods for diagnosis of myocardial infarction”. Proc. AMIA Symposium 99, Symposium Supplement of the Journal of the American Medical Informatics Association, págs. 246-250, Pub. Hanley&Belfus Inc., Nov. 1999. [Dubes88] Dubes, R., Jain, A. “Algorithms for clustering data”. Prentice Hall, 1988. [Dubois97] Dubois, D., Prade, H., Rannou, E. “User-driven summarization of data based on gradual rules”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. II, págs. 839-844, 1997. [Duda73] Duda, R., Hart, P. “Pattern Classification and Scene Analysis”. New York: Wiley, 1973. [Dunn74] Dunn, J.C. “A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters”. J. Cybern., vol. 3, págs. 32-57, 1974. [Duran96] Duran J, et al. “Prevalence of obstructive sleep apnea in the male population of Vittoria-Gasteiz (Spain)”. Eur Respir J 1996; 9: Suppl 23, 156s. [Escalada99] Escalada, G., Jaureguizar, J. “Knowledge Based System for Real Time Physiopathological Diagnosis in a Critical Care Setting”. IIIA Research Report 99-19, IIIA-CSIC, Campus UAB, Bellaterra, Catalonia, EU, 1999. [Friedman74] Friedman, J.H., Tukey, J. “A projection persuit algorithm for exploratory data analysis”. IEEE Transactions on Computers, Vol. C-23, N.o 9, págs. 881-890, 1974. [Friedman77] Friedman, J.H. “A Recursive Partitioning Decision Rule for nonParametric Classification”. IEEE Transactions on Computers, págs. 404408, 1977. [Fogel66] Fogel, L.J., Owens, A.J., Walsh, M.J., ”Artificial Intelligence Through Simulated Evolution”. John Wiley, Chichester, U.K., 1966. [Gonzalez97] Gonzalez, A., Pérez, R. “Using information measures for determining the relevance of the predictive variables in learning models”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. III, págs. 1423-1428, 1997. [Guilleminault92] Guilleminault C., Stoohs R., Clerk A et al. “From obstructive sleep apnea syndrome to upper airway resistance syndrome: consistency of daytime sleepiness”. Sleep. 1992; 15: 513-516.
BIBLIOGRAFÍA
321
[Gustafson79] Gustafson, D.E., and Kessel, W., “Fuzzy Clustering with a Fuzzy Covariance Matrix”, in Proc. IEEE-CDC, Vol. 2 (K.S. Fu, Ed.), págs. 761766, IEEE Press, Piscataway, New Jersey, (1979). [Hartigan75] Hartigan, J.A. “Clustering algorithms”, New York: John Wiley & Sons, Inc., 1975. [Hartigan77] Hartigan, J.A. “Distribution problems in clustering”. Classification and Clustering, ed. J. Van Ryzin, New York: Academic Press, Inc., 1977. [Hartigan78] Hartigan, J.A. “Asymptotic distributions for clustering criteria”. Annals of Statistics, 6, 117-131, 1978. [Hartigan79] Hartigan, J.A., Wong, M. “A k-means clustering algorithm: algorithm as 136”. Applied Statistics, 28, págs. 126-130, 1979. [Hartigan81] Hartigan, J.A. “Consistency of single linkage for high-density clusters”. Journal of the Americal Statistical Association, 76, 388-394, 1981. [Hartigan85a] Hartigan, J.A. “Statistical theory in Clustering”. Journal of Classification, 2, 63-76. 1985. [Hartigan85b] Hartigan, J.A. and Hartigan, P.M. “The dip test of unimodality”. Annals of Statistics, 13, 70-84, 1985. [Hathaway96] Hathaway, R.J., Bezdek, J.C., Pedrycz, W. “A Parametric Model for Fusing Heterogeneous Fuzzy Data”. IEEE Transactions on Fuzzy Systems, Vol. 4, N.o 3, Agosto 1996. [Hoffstein93] Hoffstein, V., Szalai J.P. “Predictive value of clinical features in diagnosing obstructive sleep apnea”. Sleep 1993; 16: 118-122. [Hunt75] Hunt, E.B. “Artificial Intelligence”. Academic Press, New York, 1975. [IBM96] IBM Data Management Solutions White Paper. IBM Corp., 1996. [IIIA96] SMASH Project. “Systems of Multiagents for Medical Services in Hospitals”. TIC96-1038-C04-01, IIIA-CSIC, Campus UAB, Bellaterra, Catalonia, EU, 1996. (www.iiia.csic.es/Projects/smash). [Irani95]. Irani, E., Slagle, J., and the Posch Group. “Automating the Discovery of Causal Relationships in a Medical Records Database”. Knowledge Discovery in Databases. Ed. Shapiro, G., Frawley, W., 1995. [Kahraman97] Kahraman, C., Ulukan, Z. “Continuos Compounding in Capital Budgeting using Fuzzy Concept”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. III, págs. 1451-1455, 1997. [Katz90] Katz I., Stradling J., Slutsky A.S., et al. “Do patients with sleep apnea have thick necks?” American Review of Respiratory Diseases, 1990; 141: 1228-1231. [Kaufman90] Kaufman, L., Rousseeuw, P.J. “Finding Groups in Data, an Introduction to Cluster Analysis”. Wiley, 1990. [Keller00] Keller, A., Klawonn, F. “Fuzzy clustering with weighting of data
322
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
variables”. International Journal of Uncertainty and Fuzzy Knowledge Systems, December 2000. [Khang99] Khang, T., Phuong, N. “Using hedge algebras for constructing inference mechanism in medical expert systems”. IFSA ’99. Proc. 8th Int. Fuzzy Systems Association World Congress, Taipei, Taiwan, Vol I., págs. 265-268, 1999. [Kira92] Kira, K., Rendell, L. “A practical approach to feature selection”. Proc. 9th Int. Conf. on Machine Learning, págs. 249-256, Aberdeen, Morgan-Kaufmann Pub., 1992. [Knaus81] Knaus, W. , Zimmerman, J., Wagner, D., Draper, E., Lawrence, D. “APACHE – Acute Physiology and Chronic Health Evaluation: a physiologically based classification system”. Critical Care Medicine, 1981; 9:591-7. [Kohavi97] Kohavi, R., John, G. “Wrappers for feature subset selection”. Artificial Intelligence , Vol. 97, #1-2, págs. 273-324, Ed. Elsevier, December 1997. [Kohonen84] Kohonen, T. “Self-organizational and associative memory”. Berlin, Springer-Verlag, 1984. [Kushida97] Kushida CA, et al. “A predictive morphometric model for the obstructive sleep apnoea syndrome”. Ann Inter Med 1997; 127: 581-587 [Lavie84] Lavie P, et al. “Prevalence of sleep apnoea among patients with essential hypeternsion”. Am Heart J 1984; 108: 373-376 [Lebart85] Lebart L., Morineau A., Fénelon J.P., “Tratamiento Estadístico de Datos”. Marcombo, 1985. [Lee80] Lee, E.T. “Statistical Methods for Survival Data Analysis”. Lifetime Learning Publications, Belmont, California, 1980. [LeGall93] LeGall, J., Leveshow, S., Saulnier, F. “A new simplified acute physiological score (SAPS II) based on a European/North American multicenter study”. JAMA 270: 2957-2963, 1993. [Lugaresi83] Lugaresi E, et al. “Staging of heavy snoring disease. A proposal”. Bull Eur Physiopathol Respir 1983; 19: 590-594 [Manton92] Manton, K.G, Woodbury, Max. A. “Statistical Applications using Fuzzy Sets”. John Wiley & Sons, Inc. 1992. [Mardia79] Mardia,K., Kent, J., Bibby, J. “Multivariate Analysis”. Academic Press, London, 1979. [Martin85] Martin RJ, et al. “Indications and standards for cardiopulmonary sleep studies”. Sleep 1985; 8: 371-379 [McLeish95]. McLeish, M., Yao, P., Garg, M., Stirtzinger, T. “Discovery of Medical Diagnostic Information: An Overview of Methods and Results”. Knowledge Discovery in Databases. Ed. Shapiro, G., Frawley, W., 1995. [Michalewicz96] Michalewicz, Z., “Genetic Algorithms+Data Structures = Evolution Programs”. Springer, 3.a Edición, 1996. [Murofushi91] Murofushi, T., Sugeno, M., “Fuzzy t-conorm integral with res-
BIBLIOGRAFÍA
323
pect to fuzzy measures: generalization of Sugeno integral and Choquet integral”, Fuzzy Sets and Systems, 42:1 57-71, 1991. [Myoshi97] Myoshi, T., Ichihashi, H., Taraka, F. “Fuzzy projection Persuit ID3”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. III, págs. 1301-1306, 1997. [Nakamori97] Nakamori, Y., Watada, J. “Factor Analysis for Fuzzy Data”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. II, págs. 1115-1120, 1997. [Olson95] Olson LG, King MT, Hensley MJ, Saunders NA. “A community study of snoring and sleep-disordered breathing prevalence”. Am J Respir Crit Care Med 1995;152: 711-716 [Pal97] Pal, N.R., Pal, K, Bezdek, J.C. “A Mixed c-Means Clustering Model”. Proc. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. 1, págs. 11-21, 1997. [Partinen88] Partinen M, et al. “Long term outcome for obstructive sleep apnoea syndrome patients: mortality”. Chest 1988; 94: 1200-1204 [Peña84] Peña, D. “Estadística Modelos y Métodos”. Alianza, 1984. [Pessi95] Pessi, T., Kangas, J., Simula, O. “Patient grouping using Self-Organizing Map”. Proc. ICANN ’95, Conférence Internationale sur les Réseaux de Neurones Artificiels, Neuronimes ’95, Session 5, Medicine., Pub. EC2, 1995. [Quinlan86] Quinlan, J.R. “Induction of decision trees”. Machine Learning Journal 1, págs. 81-106, 1986. [Quinlan93] Quinlan, J.R. “C4.5: Programs for Machine Learning”, Morgan Kaufmann, San Mateo, Calif., 1993. [Quinlan96] Quinlan, J.R. “Improved use of continuous variables in C4.5”. Journal of Artificial Intelligence Research 4, págs. 77-90, 1996. [Rosenblatt59] Rosenblatt, F. “The Perceptron. A probabilistic model for information storage and organization in the brain”. Psychological Review, 65, págs. 386-408, 1959. [Roychowdhury97] Roychowdhury, S., Shenoi, S. “Fuzzy rule encoding techniques”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. II, págs. 823-828, 1997. [StatLog94] StatLog, Esprit Project 5170. “Comparitive testing and evaluation of statistical and logical learning on large-scale applications to classification, prediction and control”. CEE Esprit Program, 1991-1994. [Sugeno74] Sugeno, M. “Theory of fuzzy integrals and its applications”. Ph. D. Thesis, Tokyo Institute of Technology, 1974. [Takagi85] Takagi, T., Sugeno, M. “Fuzzy identification of systems and its application to modelling and control”. IEEE Trans. Syst., Man Cybern. 15(1), págs. 116-132, 1985.
324
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
[Torra96] Torra. “The Weighted OWA Operator”. Fifth IEEE International Conference on Fuzzy Systems, 1996. [Torra97a] Torra, V., “The Weighted OWA Operator”. International Journal of Intelligent Systems, Vol. 12, 153-166. John Wiley & Sons (1997) [Torra98c] Torra, V. “On the integration of numerical information: from the arithmetic mean to fuzzy integrals”. Research Report, ETSE, Universitat Rovira i Virgili, Tarragona, Spain, 1998. [Torra99c] Torra, V. “Interpreting membership functions: a constructive approach”. Int. J. of Approx. Reasoning, 20, págs. 191-207, 1999. [Umano94] Umano, M. et al. “Generation of fuzzy decision trees by fuzzy ID3 its application to diagnosis by gas in oil”. Proc. 1994 Japan-USA Symposium on Flexible Automation, págs. 1445-1448, 1994. [Wangc96] Wang, C., Hong, T., Tseng, S. “Inductive learning from fuzzy examples”. Fifth IEEE International Conference on Fuzzy Systems, FUZZ-IEEE 1996. [Wangh95] Wang, H., Lin, L. “A multicriteria analysis of factor selection in an uncertain system”. Int. Journal of Uncertainty, Fuzziness and Knowledgebased Systems, 1995. [Ward97] Ward Flemons, W, McNichols, Walter T. “Clinical prediction of the sleep apnea syndrome”. Sleep Medicine Reviews, Vol. 1, N.o 1, págs. 1932, 1997. [Watada94] Watada, J., Yabuuchi, Y. “Fuzzy principal component analysis and its application to company evaluation”. Proceedings of the Japan-Brazil Joint Symposium on Fuzzy Systems, Campinas and Manaus, Brazil, July 19-27, 1994. [Yager88] Yager, R. R. “On Ordered Weighted Averaging Aggregation Operators in Multicriteria Decisionmaking”. IEEE Transactions on Systems, Man, and Cybernetics, Vol. 18, N.o 1, págs. 183-190, January/February 1988. [Yager93] Yager, Ronald R. “Families of OWA operators”. Fuzzy Sets and Systems 59 (1993) págs. 125-148, North-Holland. [Young94] Young T, Palta M, Dempsey J., et al. “The occurrence of sleepdisordered breathing among middle-aged adults”. N Engl J Med 1994; 328: 1230-1235. [Zadeh65] Zadeh, L.A. “Fuzzy Sets”. Information Control, vol. 8, págs. 338353, 1965. [Zadeh71] Zadeh, L.A. “Similarity Relations and Fuzzy Orderings”. Information Science, Vol. 3, págs. 177-200. Elsevier Science Publishing Company, Inc. (1971). [Zadeh73] Zadeh, L.A. “Outline of a New Approach to the Analysis of Complex Systems and Decision Processes”. IEEE Trans. Syst., Man, Cybern., Vol. SMC-3, N.o 1, págs. 28-44, Jan. 1973.
1 Índice analítico
A Admisiones hospitalarias, 37, 40, 50, 73, 79, 191-246, 287-293. Agregación, 1, 4-8, 11, 19, 26, 27, 64, 119, 139, 140, 141, 143, 168, 170, 171, 189, 249, 252, 253, 261, 262, 277, 278, 281-285, 303, 309, 315, 316. Agrupación, 5, 11, 12, 30, 31, 34, 35, 36, 63, 119, 135, 136, 146, 173, 174, 176, 178, 213, 227, 228, 229, 239, 245, 246, 248, 254-257, 303, 305, 307, 313, 314. AHI, 67, 70, 71, 103, 114, 115, 250, 266, 268, 277, 278, 303, 304, 309. Algoritmo. evolutivo, 158. genético, 21, 108, 114-117, 158161, 165, 168, 171, 181, 264, 265, 272-274, 276, 277, 284, 285, 303. Amalgamación, 303, 307. Ambigua/o, 79, 82, 241, 247, 253. Análisis. de datos, 1, 5, 8, 11-13, 17, 18, 20, 22, 27, 30, 34, 50, 119, 165, 166, 254, 258, 261, 283285, 306, 307-309, 311.
estadístico, 7, 56, 83, 165, 191, 202, 205, 223, 254, 264, 267. de Regresión, 122. Apnea, 1-4, 8, 11, 27, 67-71, 103, 104, 107, 108, 112-114, 116, 117, 165, 167, 169, 170, 189, 190, 247-250, 253, 254, 256-266, 268, 276-278, 282-285, 303, 304, 308, 317, 318, 320, 321, 324. AHI, 67. cuestionario categórico, 247-262, 295-301. cuestionario difuso, 263-279, 295-301. descripción de variables, 248. diagnóstico, 67-72 . especificidad, 52-53, 68, 71, 253. literatura clínica, 67-72. RDI, 67. sensibilidad, 19, 52-53, 71, 206209, 258. variables claves, 70-71. Aprender, 14, 108, 115, 116, 142, 146, 159, 161, 168, 272, 284. Aprendizaje, 1, 5, 8, 14, 16, 21, 33, 60, 64, 106, 114, 117, 128, 147, 155, 161, 168, 170, 181, 190, 227, 248, 272, 274-276, 282, 304, 306, 308. automatizado, 1, 5, 14, 64, 106,
326
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
117, 147, 190, 248, 282, 304, 306, 308. Árbol de decisión, 33, 126, 129, 132, 210, 216, 217, 307. Asignación, 4, 6, 21, 26, 31, 32, 55, 63, 77, 83, 116, 117, 120, 161, 168, 170, 172, 184, 185, 187, 189, 190, 204, 210, 213, 215, 218, 239, 241, 248, 254, 260, 261, 264, 265, 272-276, 283, 306, 309, 313. de cocientes, 260, 283. de cocientes de relevancia, 260. Asignar, 15, 25, 26, 33, 35, 59, 117, 120, 137, 155, 168, 191, 248, 250, 253, 264, 265, 274-276, 283, 307, 309, 311. Atributo, 31, 33, 76, 77, 86, 92, 97. B Bezdek, 4, 5, 28, 31, 39, 42, 44, 49, 74, 167, 176, 313, 319, 321, 323. Binario, 74, 233, 287-291. C C4.5, 7, 12, 16, 17, 22, 24, 117, 125, 127-130, 132-135, 147, 166, 192194, 201-204, 206, 207, 210, 211, 213, 214, 216, 217, 218, 222, 223, 227, 231, 234, 242, 243, 244, 246, 256, 258, 282, 315, 323. C5.0, 17, 18, 19, 125, 134, 135. Características, 152. CARD_F, 216, 217, 233, 291. Casos. negativos, 277, 278. positivos, 277, 278. Categoría, 55, 77, 82, 88, 90, 92, 9497, 108, 129, 130, 156, 207, 208, 211, 213, 214, 216, 217, 222, 229,
243, 272, 290, 304, 306, 307, 309, 310. Categórica/o, 4, 7, 48, 74, 75, 77, 8387, 92, 95, 100-103, 105, 107, 112, 113, 156, 166, 173, 190, 213, 218, 222, 223, 233, 242, 244, 247, 256, 262-264, 269, 271-274, 276, 277, 283, 287, 290, 304, 306, 310. nominal, 74, 166, 173. ordinal, 75, 83, 95, 100, 101, 222. Categorización, 62, 69, 77, 206, 207, 214, 222, 266. Chi-Cuadrado, 85, 86, 87, 93, 122, 256. Choquet integral, 27, 323. Clasificación, 7, 8, 11, 13-17, 19, 21, 22, 24, 31, 32, 34, 35-37, 41, 50, 51, 62-64, 71, 74, 79, 117, 125, 127, 128, 130, 135, 153, 156, 176, 189, 193, 194, 204, 213, 245, 248, 253, 256, 258, 281, 305, 307, 308, 314, 315, 316. difusa, 74. Cluster, 35, 36, 152, 230, 240, 241, 321. Clustering, 4, 7, 8, 11-13, 15-17, 28, 30-32, 34-37, 44, 50, 117, 135, 146, 147, 149, 150, 153, 154, 156, 166, 167, 171, 173, 177, 189, 192, 193, 227, 248, 253, 254, 258, 303, 305, 306, 307, 311, 313, 314, 319, 320, 321-323. c-Means, 16, 17, 31, 48, 49, 78, 146148, 166, 171, 174, 178, 181, 189, 192, 194, 239-241, 244, 245, 282, 307, 313, 323. Cociente, 22, 25, 35, 36, 70, 85, 87, 91, 133, 147, 148, 156, 157, 161, 180, 182, 250, 259, 261, 274, 275, 312. de fiabilidad, 259. de relevancia, 274, 275.
ÍNDICE ANÁLÍTICO
COMA_ADM, 195, 216, 217, 287. Componentes principales, 7, 19, 139141, 168, 171, 175, 241, 242, 253, 261, 282, 283, 285, 305. Conceptos, 13-37. agregación, 26-28. clasificación, 36-37. clustering, 34-36. difusa, 28-34. fiabilidad, 24-26. minería de datos, 13-19. relevancia, 20-24 . Condorcet, 18, 117, 245, 254-256. Conjunto de datos, 6, 14, 17, 19, 22, 24, 26, 31, 33, 34, 40, 44, 47-50, 62, 64, 73, 79, 85, 86, 92, 115, 123, 126, 129-133, 137, 146-148, 166-169, 171, 176, 184, 189, 190195, 199, 200, 201, 203, 204, 206, 207, 213, 217, 220, 229, 232, 233, 238, 240, 242-245, 248, 255, 258, 260, 262, 263, 273, 277, 278, 287, 309. Apnea, 248, 258. UCI, 47, 79, 92, 167, 191, 195, 201, 217, 238, 243, 244. difuso, 39, 41-46, 168, 172-174, 316. Consenso, 24, 61, 62, 77, 118, 172, 175, 207, 254, 255, 257, 258, 259, 264, 275, 283. Correlación, 12, 14, 19, 22, 34, 71, 78, 83, 84, 87-92, 96-100, 103, 117, 119, 139, 141, 171, 176, 192, 200, 201, 202, 218, 219, 220, 221, 223, 234, 254, 259, 261, 265, 266, 277, 278, 283, 304, 305, 306, 309, 311. Covarianza, 8, 12, 20, 27, 31, 76, 78, 79, 84, 101, 119, 121, 122, 137, 166-168, 171, 173-178, 181, 232, 237, 256, 314.
327
Covarianza difusa, 79, 167, 173, 174, 177, 178, 232, 237. CREA_INC, 216, 217, 233, 290. Creatinina, 49, 79, 80, 82, 233, 235, 236-238, 288, 290. Crisp, 28, 306, 318. Cuantificador, 26, 45, 113, 185, 303. Cuello, 70, 104, 116, 117, 251, 256, 258, 259, 260, 265, 266, 268, 274. Cuestionario, 2, 3, 49, 70, 81, 103, 104, 105, 106, 107, 108, 111, 112, 117, 165, 169, 170, 185, 189, 190, 247, 248, 253, 254, 256, 259, 263, 264, 265, 267, 269, 270, 271, 272, 273, 282, 283, 285, 295, 307. categórico, 264, 269, 270. de Apnea, 165, 169, 185, 247, 263, 295. de escalas, 264, 265, 272, 283. difuso, 269. curva, 29, 47, 52, 56, 71, 108-113, 123, 124, 169, 181, 184, 185, 187, 250, 312. D Datos ausentes, 56, 62, 254. binarios, 49. clínicos, 1, 4-8, 11, 47, 50, 51, 71, 75, 82, 85, 104, 116, 119, 165, 248, 256, 265, 273, 276, 282. de admisiones, 81. de entrada, 7, 27, 82, 83, 115, 141, 142, 150, 153, 154, 156, 157, 166, 171, 189, 218, 234, 256, 264, 282, 308, 309, 311, 314, 316. de prueba, 4, 24, 64, 83, 167, 168, 178, 181, 204, 265. desconocidos, 4, 6, 13, 125.
328
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
erróneos, 156. históricos, 5, 6, 8, 114, 115, 116, 177, 309. Determinista, 28, 39, 40, 172, 272, 284. Diagnóstico, 1-3, 5, 8, 11, 24-27, 4750, 53, 55, 57-60, 62, 63, 67-72, 86, 103-105, 107, 108, 114-117, 123, 125, 140, 156, 160, 165, 169, 170, 189, 190, 191, 224, 245, 247, 248, 249, 250, 253, 254, 257-265, 266, 267, 273, 275-278, 282-285, 292, 306, 308-311, 317. apnea, 67-72. clínico, 50. Difusa/o, 1, 2, 3, 4, 5, 6, 7, 8, 11, 12, 16, 17, 19, 27-34, 39-47, 50, 51, 52, 74, 75, 77-79, 81, 82, 92-96, 98, 100, 101-104, 107, 108, 111, 112, 119, 146, 148, 166, 167, 169, 170-174, 176-178, 190, 194, 213, 248, 263, 264, 269, 270, 273, 275, 278, 283, 285, 304, 306, 307, 313, 314, 316, 317. Distancia, 31, 32, 34, 35, 36, 40, 48, 75, 81, 85, 87, 95, 96, 98, 99, 100, 102, 136, 137, 146, 148, 171, 173, 174, 177, 179, 180, 231, 256. Distribución, 1, 19, 21, 25, 28, 51, 52, 62, 77, 89, 122, 127, 128, 130, 145, 166, 172, 173, 181, 191, 194-199, 201-204, 206,208, 213, 214, 224, 226, 227, 229, 252. Duración, 40, 43, 47, 50, 74, 75, 172, 176, 192, 193, 197, 198, 200, 206-211, 213-216, 218-223, 226229, 233, 236, 238, 242-244, 273, 291, 305, 308. de estancia, 40, 43, 47, 50, 74, 75, 172, 176, 193, 197, 207, 208, 214, 216, 218, 226, 242, 244, 291, 305, 308.
_hos, 192, 198, 218, 228, 242, 243. _UCI, 197, 218-221, 223. E Edad, 193, 251, 266, 268, 287. Entrada, 24, 26, 27, 32, 34, 44, 58, 77, 83, 115, 124, 130, 140, 141, 144, 146, 149, 153, 154-157, 161, 165, 170, 174, 176, 178, 181, 182, 184, 192, 197, 198, 200, 201, 206, 208, 209, 216, 221, 233, 234, 237, 243, 245, 247, 250, 256, 285, 303, 304, 308, 309, 310, 311, 314, 316. Entrenamiento, 18, 24, 32, 126-128, 130, 133, 134, 203, 204-206, 208211, 218-222, 258, 276, 277. Entrenar, 37, 205, 206, 210, 215, 227, 229, 310. Escala, 40, 50, 61, 77, 81, 82, 84, 104, 105, 111-113, 170, 185, 252, 269272, 278, 289. Escalas, 81, 103-105, 107, 169, 190, 263, 264, 266, 269, 270-272, 276, 277, 283. Estadística, 1, 8, 12, 14, 16-18, 28, 37, 43, 55, 59, 73, 87, 119, 122124, 141, 146, 166, 167, 170, 189, 192, 200, 207, 248, 259, 260, 305, 306, 308, 314, 323. Estadísticas, 1, 4, 6, 17, 18, 36, 88, 90, 117-119, 147, 148, 166, 194, 199, 200, 201, 206, 208, 210, 211, 223, 233, 239, 253-256, 259-261, 263-265, 268, 282. Estancia, 40, 233, 236, 238, 243-244. Etiqueta, 22, 29, 45, 46, 64, 108-113, 135, 170, 182, 250, 253, 265, 269. lingüística, 29, 45, 46, 109-113, 170, 182, 250, 253, 269.
ÍNDICE ANÁLÍTICO
Euclideana, 148, 150, 180. Experto médico, 62, 79, 81, 82, 116, 117, 168, 170, 187, 189, 194, 199, 202, 205-207, 215-217, 220, 223, 235, 243, 244, 247, 250, 254, 260, 261, 264-266, 268, 272-274, 276, 277, 283. Exploración, 6-8, 14, 17-19, 34, 70, 73, 117, 189, 192-194, 199, 244, 281, 284, 304. F Factor, 40, 90, 137, 138, 139, 140, 141, 158, 172, 174, 175, 179, 181, 193, 234, 235, 236, 237, 238, 266, 305, 315, 323, 324. Factores, 6, 14, 27, 34, 55, 58, 69, 83, 84, 120, 136, 139, 141, 167, 175, 178, 180, 192, 193, 200, 227, 235-237, 238, 242, 245, 282, 303305, 314. Fiabilidad, 1, 7, 11, 20, 24-27, 105, 116-118, 139, 140, 143, 159, 168170, 181, 182, 184-186, 189, 194, 247, 248-254, 257-268, 272, 276, 278, 279, 282-285, 304, 306, 307, 312, 315. FIO2, 193, 200, 201, 216, 233, 235, 236, 238, 288, 290. Función de pertenencia, 29, 39, 40, 42-45, 47, 50, 77, 81, 82, 108111, 169, 170, 172, 184, 265. Fusión, 27, 28, 76, 79, 83, 136, 137, 138, 139, 174, 175, 176, 232, 234, 235, 236, 237, 238, 317. Fuzzy, 5, 7, 8, 12, 30, 31, 33, 40, 48, 74, 75, 146-150, 173, 174, 176, 238-242, 244-246, 282, 284, 305307, 313, 317-323, 324. Fuzzy c-Means, 5, 7, 8, 12, 30, 31, 48,
329
74, 146-150, 173, 174, 176, 238242, 244-246, 282, 284, 307, 313, 319. G Gastroenteritis, 47, 48. Grado de pertenencia, 29, 41-44, 48, 75-77, 79, 82, 92, 95-97, 99, 105, 109, 111-113, 147, 150, 170, 174, 179, 182, 186, 239, 265, 269, 271, 272, 278, 307, 310. Gustafson, 31, 167, 168, 177, 178, 231, 313, 320. y Kessel, 31, 167, 177, 178, 313. H Hartigan, 4, 8, 12, 27, 28, 79, 83, 135137, 146, 147, 165-167, 174, 178, 189, 192, 194, 231, 233-235, 237, 244-246, 282, 284, 307, 314, 321. Hedge, 47, 63, 64, 108, 110, 113, 322. Hematocrito, 50, 51, 52. hospital, 1-4, 15, 28, 40, 43, 50, 58, 59, 74, 75, 78, 103, 120, 121, 123, 131, 172, 176, 189-192, 198, 218, 226, 227, 233, 236, 238, 247-249, 262-264, 285, 291, 305, 308, 311. Clínico, Barcelona, 2-4, 247. Santísima Trinidad, Salamanca, 2-4, 103, 190, 263, 285. Parc Taulí, Sabadell, 2-4, 191. HTA, 70, 71, 251. I IBM, 6, 15, 17, 18, 256, 321. ID3, 5, 7, 12, 17, 22, 24, 33, 62, 125129, 147, 166, 192, 194, 217-223,
330
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
227, 231, 234, 243, 244, 264, 277, 278, 315, 323, 324. Inducción, 4, 5, 7, 8, 12, 14-17, 19, 2224, 33, 117, 119, 125-129, 133, 140, 166, 168, 171, 192, 194, 204, 206, 217, 220, 229, 258, 264, 277, 278, 281-283, 304, 305, 309, 315. de reglas, 4, 5, 7, 8, 12, 14, 16, 17, 19, 22, 33, 117, 119, 125, 128, 140, 166, 168, 171, 192, 194, 206, 217, 256, 258, 277, 278, 281, 282, 283, 304, 305, 309, 315. difusa, 33. Interpolación, 109, 113, 143, 182, 183, 187, 250. Interpretación, 20, 32, 44, 51, 52, 77, 79, 105, 130, 134, 150, 169, 174, 177, 185, 210, 246, 317. J Joining algorithm, 7, 136, 137, 147, 167, 189, 192, 194, 231, 233, 234, 237, 245, 282, 284, 314. K Kessel, 320. k-Means, 7, 8, 254, 305, 306. Kohonen, 7, 8, 12, 16-19, 117, 147, 153-156, 166, 192, 194, 227-229, 244, 245, 254-256, 305, 307, 308, 310, 311, 314, 315, 322. SOM, 7, 8, 12, 17, 18, 117, 147, 153, 154, 166, 192, 227, 229, 307, 308, 310, 311, 315. L Literatura clínica, 116, 265, 276.
M Mac_Cabe, 92-95, 97-102, 290. Mahalonobis, 32, 148, 150, 177, 179, 241. Matriz, 27, 31, 34, 78, 83-88, 93, 94, 102, 136, 137, 148, 150, 151, 153, 165, 175-181, 184, 231-234, 237, 304, 313, 314. de correlación, 34, 83-85, 88. de covarianzas difusas, 31, 176, 178, 231, 232, 313. MECH_VEN, 209, 211-217, 224, 288. Media ponderada, 26, 137, 139, 140, 142-144, 184, 311. Minería de datos, 4, 6-8, 13-17, 19, 34, 36, 64, 117, 166, 189, 192, 194, 206, 207, 215, 223, 244, 260, 281, 284, 311, 315. Modelización, 4-8, 13, 17, 19, 31, 32, 34, 36, 73, 123, 124, 140, 189, 192, 193, 202, 204, 213, 244, 245, 257, 258, 277, 281, 284, 304, 306, 308, 311. Modelo, 6, 14, 17, 24, 31, 32, 39, 42, 58, 59, 61, 71, 74, 76, 87, 117, 121, 123, 124, 125, 127, 128, 134, 140, 145, 154, 156, 193, 200, 202, 205-210, 213-215, 218, 220-223, 226, 227, 229, 244, 245, 267, 278, 308, 309, 311, 315. de datos, 6, 39, 117, 193, 209, 308, 315. Muestra, 21, 35, 42, 48, 87, 106, 121, 146, 150, 173, 191, 199, 202, 203, 221, 233, 241, 242, 269, 271, 276, 277, 308. Muestreo, 18, 22, 177, 308. N NEURO_F, 216, 233, 291. Neuronas, 32, 153, 156, 157, 208, 256, 309.
ÍNDICE ANÁLÍTICO
No-difusa, 2, 3, 41, 44, 77, 79, 81, 82, 101, 104, 112, 113, 146, 166, 168, 177, 190, 231-234, 237, 238, 245, 247-249, 262-264, 282, 283. Nominal, 74, 166, 310. Norma, 148, 149, 150, 152, 177, 180, 241. Normalización, 173. Numérica/o, 4, 7, 36, 50, 61, 64, 74, 75, 77, 83, 92, 125, 128, 129, 143, 156, 166, 182, 184, 193, 218, 223, 233, 248, 250, 255, 256, 287-289, 291, 310. O Objetivo, 4, 6, 7, 20-22, 31, 34, 35, 37, 41, 50, 59, 61, 72, 78, 92, 96, 103, 104, 106, 114, 115, 120, 121, 123, 126, 127, 129, 130, 134, 136, 139, 141, 145, 146, 155, 158, 182, 193, 194, 203, 206, 210, 220, 227, 243, 244, 254, 256-258, 265, 273, 305, 308, 310, 311, 313. de la modelización, 308, 310. ON_MECH, 216, 224, 288. operador, 6, 12, 26, 27, 107, 114, 115, 140-146, 159, 160, 165, 168-170, 181, 184, 190, 247-250, 253, 258, 259, 261, 263, 265, 276, 282, 284, 303, 311, 315, 316, 317. de agregación, 12, 107, 114, 115, 140, 142, 144, 159, 165, 168170, 181, 190, 247-250, 253, 259, 261, 263, 265, 276, 303, 315, 317. WOWA, 6, 26, 27, 114, 142-144, 168-170, 181, 184, 247, 248, 250, 253, 258, 261, 276, 284, 315. Ordinal, 74, 75, 83, 84, 85, 87, 92, 95, 100, 102, 103, 166, 182, 287, 310.
331
OSAS, 67-69, 71, 304, 308. OWA, 26, 27, 139-146, 168, 171, 189, 249, 253, 261, 283, 285, 303, 309, 311, 315, 316, 323, 324. P P_H_STAT, 101-103, 195, 233, 290. Pareja, 21, 27, 68, 86, 104-106, 135, 137, 175, 251, 255-259, 267, 268. Pares parmenideanos, 28, 76, 108. Parmenidean Pairs, 28. Partición, 30, 31, 130, 133, 135, 136, 148, 149, 178-181, 229, 245, 255, 256, 310, 313. Pertenencia, 19, 27, 29, 30, 32, 33, 39, 40-45, 48, 50, 53, 73, 75-79, 82, 92-104, 107-109, 111-114, 148, 150, 152, 165, 169, 170-174, 176-182, 184, 186, 213, 231, 239, 240-242, 252, 253, 264, 282, 306, 307, 316. Peso, 35, 42, 61, 71, 104, 113, 116, 125, 126, 144, 152, 208, 209, 248, 251, 255-260, 314. Podado, 19, 33, 202, 204, 210, 211, 218, 220, 222, 258. Predicción, 7, 14, 15, 17-19, 58, 59, 65, 68, 117, 119, 156, 166, 194, 219-221, 243, 248, 249, 281, 308, 309, 311. PROB_INF, 209, 211, 216, 217, 233, 288. Probabilidad, 15, 39, 51, 52, 57-59, 62, 63, 104, 120, 124, 133, 134, 145, 161, 162, 266. Probabilística/o, 28, 39, 40, 119, 133, 154, 172. Proceso de datos, 8, 11, 27, 41, 73, 106, 165, 166, 169, 178, 218, 220, 223, 239, 241, 248, 249, 261, 263, 264, 278, 281, 283.
332
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Pronóstico, 1-3, 5, 8, 11, 19, 24, 26, 40, 49, 55-60, 74, 75, 119, 120, 140, 156, 158, 165, 169, 170, 189, 191, 192, 243, 282, 284, 304, 306, 309, 317. UCI, 309. Prototipo, 31, 40, 167, 171, 173-176, 314. difuso, 49, 173-176. Q Quinlan, 5, 15, 33, 126, 128, 134, 135, 258, 315, 323. R Rango, 41, 46, 50-52, 59, 78, 88-92, 94, 113, 129, 172, 196, 208, 224, 274, 307. RDI, 67, 113, 303, 304, 309. Red neuronal, 18, 19, 32, 61, 119, 146, 153, 154, 156, 157, 206-210, 218-222, 223, 227, 231, 234, 243, 256, 258, 260, 264, 277, 278, 305, 309, 310. Backpropagation, 310. de retro-propagación, 310. Regla, 21, 33, 42, 64, 127, 134, 155, 211-215, 307. Regresión, 7, 12, 14, 17-19, 32, 58, 61, 70, 71, 117, 119, 122-125, 140, 141, 256, 258, 260, 262, 305, 306, 308, 309. lineal, 7, 14, 17, 61, 70, 122, 123, 125, 256, 258, 260, 262. logística, 17, 18, 58, 61, 71, 117, 123, 124, 125, 256, 258, 262. no-lineal, 123,124. Relevancia, 1, 7, 11, 19, 20-23, 2628, 33, 61, 62, 114-118, 139, 140,
141, 143, 147, 159, 161, 168, 170, 176, 182, 184, 189, 193, 206, 208, 209, 211, 221, 224, 236, 237, 248, 249-251, 253, 254, 256-266, 267, 268, 272-279, 282-285, 304, 307, 309, 310, 312, 315, 316. RENAL_F, 216, 233, 291. Representación, 1-8, 11, 13, 16, 19, 27-30, 32, 33, 42, 44, 45, 49, 51, 59, 62, 73-79, 81, 82, 90, 104, 105, 107, 108, 111, 125, 134, 137, 159, 160, 165, 166, 169, 170, 172, 173, 194, 224, 241, 248, 255, 256, 261, 262, 263, 269, 271, 273-275, 276, 281, 282, 284, 317. de los datos, 2, 8, 32, 76, 79, 281, 282, 284, 310, 311. RES_F, 216, 233, 291. Resultados, 3, 6, 18, 19, 20, 23-25, 52, 61, 62, 64, 68, 71, 74, 82-84, 88, 106, 114, 116, 118, 127, 140, 143, 147, 161, 162, 165, 166-169, 171, 175, 189, 193, 205, 208-211, 213, 215, 218-223, 226, 227, 231, 243-245, 248-250, 252-255, 257, 259, 260, 261, 264, 269, 273, 276-279, 281-285, 308, 309, 311. Ronqueador, 248. S Salida, 20, 22, 24-26, 32, 50, 61, 81, 85, 115, 123, 124, 128, 129, 150, 153-157, 174, 178, 183, 185, 189, 192, 197, 199, 201, 202, 204, 206-208, 218, 223, 249, 250, 257, 259, 268, 276, 284, 291, 303, 310, 311, 315. Salidas, 24, 25, 31, 32, 252, 310. Segmentación, 7, 15, 17-19, 36, 153, 194, 245, 304, 305, 310, 311.
ÍNDICE ANÁLÍTICO
Selección de variables, 37, 61, 62, 124, 206, 216, 245, 260, 279, 281. Sesgado, 283. Sesgo, 47, 84, 144, 145, 183, 184, 185, 187, 250, 252, 266, 316. Sexo, 20, 61, 70, 71, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 97, 98, 99, 100, 104, 116, 123, 251, 256, 258, 259, 260, 265, 306. Sistema experto, 5, 61, 63, 311. SPSS, 17, 19, 78, 83, 84, 168, 231234, 237, 245, 256, 258. Sueño, 2, 3, 11, 67, 69, 70, 103, 165, 189, 247, 248, 253, 261, 263, 304, 308. T Técnicas, 119-163. agregación WOWA, 142-146. agrupación difusa fuzzy c-Means, 146-152. agrupación Kohonen SOM, 153155. algoritmo genético, 158-163. amalgamación Hartigan, 135-139. estadística, 119-125. inducción de reglas, 125-135. predicción redes neuronales, 156157. Tendencia, 25, 123, 154, 197, 226, 235, 236, 270. Tiempo, 2, 15, 21, 36, 55, 56, 60, 68, 83, 104, 105, 112, 117, 120, 121, 123, 125, 161, 192, 197, 198, 209, 236, 276, 279, 288. Tipo. binario, 47-49, 79, 82, 123, 124, 189, 193, 202, 234, 249, 308, 310. categórico, 23, 86, 93-96, 100, 101, 122, 128, 129, 173, 222,
333
229, 237, 248, 273, 304, 310, 315. categórico no-ordinal, 93, 96, 100. categórico ordinal, 93-96, 100, 101, 173, 222. de datos, 74, 75, 276. difuso, 44, 73, 75, 79, 82, 92, 94, 100, 167, 171, 172, 175, 177, 178, 182, 237, 273, 310. numérico, 23, 25, 48, 62, 86, 87, 94, 156, 173, 218, 222, 233, 243, 256, 310, 315. ordinal, 92, 223. Torra, 4, 26, 27, 142, 143, 315, 318, 323, 324. U UCI, 2-4, 8, 11, 40, 47, 49, 57-60, 64, 73, 74, 78-82, 125, 130, 131, 147, 165-168, 170, 171, 189, 191-246, 282, 284, 287, 288, 290-293, 304, 306-308, 311, 317. descripción de variables, 191201, 287-293. pronóstico, 55-65. sistemas de puntuación de pronóstico, 57-59. variables claves, 206-217. Umbral, 20, 33, 42, 50, 52, 148, 193, 206-209, 236, 241, 250, 253, 260, 268, 305. Unificación, 27, 136, 285, 304. V Valores. atípicos, 123, 124. desconocidos, 64, 108, 130, 133, 135, 153, 165, 169, 181, 182, 191, 259, 284, 285, 314. erróneos, 203.
334
TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS
Variable. binaria, 86, 199, 268. categórica, 74, 83, 85, 86, 88, 89, 90, 91, 92, 94, 95, 98, 99, 100, 172, 223, 224, 292. categórica ordinal, 74, 98, 172. clave, 135. de entrada, 25, 26, 31, 63, 80, 117, 124, 129, 139-141, 153, 156, 157, 161, 192, 199-201, 204, 206-210, 215-218, 221, 223, 225, 235, 241, 243, 245, 249, 257, 258, 261, 303-305, 308, 309, 311. de salida, 50, 62, 74, 117, 124, 128-130, 140, 156, 192, 193, 194, 200-202, 209, 218, 221, 224-226, 244, 253, 258, 308, 310, 311. difusa, 39, 44, 45, 75, 93, 175, 176, 182, 183. numérica, 74, 88, 89, 90, 91, 206, 223. Vector, 26, 27, 116, 137, 140-143, 145, 154, 160, 161, 163, 165, 168, 179, 181-187, 250-252, 309, 311, 315, 316.
de cocientes, 140, 141, 160, 183, 250, 309, 312, 315, 316. de sesgo, 184-186. Visualización, 13, 14, 27, 194, 241, 304. Votación, 25, 118, 255. W Weighted Mean, 26, 184, 315. Windowing, 202, 204, 210, 211, 218, 220, 222. WM, 26, 27, 140, 142, 143, 184, 311, 315. WOWA, 4, 6, 8, 12, 26, 27, 107, 108, 114-116, 139, 140, 142, 143, 159161, 165, 168-171, 181, 182, 184, 185, 187, 189, 190, 247-250, 253, 259, 261-263, 264, 265, 275-278, 282-285, 303, 311, 315, 317, 318. Y Yager, 5, 26, 141, 142, 144, 145, 146, 303, 309, 316, 324. Z Zadeh, 5, 39, 41, 42, 44-46, 108, 109, 111, 316, 324.