455 102 8MB
Spanish Pages [418] Year 2007
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD Las bases de la investigación biomédica
睷眮浥摩汩扲潳潭
Rafael Álvarez Cáceres
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD Las bases de la investigación biomédica
Diseño Portada: Rafael Álvarez Cáceres. Alegoría: El agua limpia y purificadora de la ciencia llega a los estudios sobre la salud. Foto Portada: Cortesía del Dr. Arturo Valledor de Lozoya (Parque Nacional de Ordesa)
© Rafael Álvarez Cáceres, 1996
Reservados todos los derechos. «No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright.»
Ediciones Díaz de Santos, S.A. Juan Bravo, 3A. 28006 MADRID España
ISBN: 978-84-7978 - 237 - 5 Depósito legal: M. 43.105 -1.995
Fotocomposición: Fer, S. A. Impresión: Fareso, S. A. Encuadernación: Rustica-Hilo, S.L.
A mi familia
ÍNDICE DE MATERIAS
Prólogo ................................................................................................................... XV Introducción............................................................................................................ XIX Agradecimientos .................................................................................................... XXIII Guía de lectura....................................................................................................... XXV Capítulo 1. EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD ..... Filosofía del conocimiento .......................................................................... Culturas antiguas ........................................................................................ El racionalismo ........................................................................................... Los empiristas ............................................................................................. El positivismo .............................................................................................. El neopositivismo ........................................................................................ Corrientes filosóficas postneopositivistas .................................................. El método científico .......................................................................................... Características del método científico ........................................................ El ciclo científico.......................................................................................... Disciplinas científicas ...................................................................................... Tipos de ciencias ........................................................................................ Lecturas recomendadas .................................................................................. Bibliografía .......................................................................................................
1 1 6 7 8 9 10 11 13 16 20 20 21 26 26
Capítulo 2. FUNCIÓN DE LA ESTADÍSTICA....................................................... Papel de la estadística .................................................................................... Estadística descriptiva ............................................................................... Estadística analítica .................................................................................... Aplicación práctica de la estadística en las ciencias de la salud ................... Población y muestra......................................................................................... Límites de inclusión e intervalos de confianza .......................... ..................... Poblaciones estadísticas habituales en ciencias de la salud ........................ Contraste de hipótesis...................................................................................... Comparación de dos o más poblaciones. Diferencias significativas ............ Estadística multivariante ................................................................................. La influencia del azar ...................................................................................... Extrapolación de resultados.............................................................................
29 29 30 30 31 33 34 39 45 48 51 52 53
X
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Errores estadísticos más frecuentes ..................................................... Lecturas recomendadas ........................................................................ Bibliografía ................................................................................................
54 54 55
Capítulo 3. MEDIDAS DE MORBILIDAD Y MORTALIDAD................................ Medidas de frecuencia de una enfermedad ........................................ Prevalencia ............................................................................................... Prevalencia de periodo ...................................................................... Incidencia acumulada .............................................................................. Tasa de incidencia .................................................................................. Relación entre prevalencia, incidencia y tasa de incidencia ................. Mortalidad.................................................................................................. Tasa cruda de mortalidad .................................................................. Tasas específicas de mortalidad ...................................................... Tasa de letalidad ............................................................................... Tasa de mortalidad proporcional ....................................................... Años potenciales de vida perdidos .................................................... Ajuste de tasas ........................................................................................ Ajuste de tasas por el método directo ............................................... Ajuste de tasas por el método indirecto ............................................ Lecturas recomendadas ......................................................................... Bibliografía ................................................................................................
57 58 60 62 63 64 68 71 72 72 73 73 73 74 75 78 80 80
Capítulo 4. ANÁLISIS DEL RIESGO .............................................................. Riesgo ....................................................................................................... Factores de riesgo y de protección......................................................... Validez de los estudios sobre riesgo....................................................... Medidas de riesgo ................................................................................... Diferencia de riesgos ......................................................................... Riesgo relativo (RR) ............................................................................. Predominio, Razón de predominio (OR) ............................................ Proporción atribuible ............................................................................ Proporción atribuible poblacional........................................................ Análisis del riesgo a partir de una tabla de contingencia ..................... Asociación estadística ......................................................................... Magnitud del efecto ............................................................................. Precisión .............................................................................................. Análisis del riesgo en regresión logística ............................................... Lecturas recomendadas ......................................................................... Bibliografía ................................................................................................
83 83 84 86 88 90 91 97 101 102 104 105 107 109 115 117 117
Capítulo5. INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS ............... Causalidad ............................................................................................... Diseño de estudios................................................................................... Características de los estudios .............................................................. Tipos de estudios .................................................................................... Comunicaciones de un caso .............................................................
119 119 120 125 127 127
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Series de casos .................................................................................. Estudios transversales ...................................................................... Estudios de cohortes.......................................................................... Estudios de casos y controles ........................................................... Lecturas recomendadas ........................................................................ Bibliografía ................................................................................................
XI
128 129 133 142 146 147
Capítulo 6. VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS ............................................................................................... Errores debidos al azar .......................................................................... Precisión estadística .......................................................................... Contraste de hipótesis........................................................................ Errores metodológicos. Sesgos ............................................................. Sesgos de selección ......................................................................... Sesgos de información o medida ...................................................... Sesgo de confusión ........................................................................... Relación entre: Interacción y confusión ............................................................. No confusión, no interacción ................................................... Confusión sin interacción ......................................................... Confusión e interacción ............................................................ Interacción sin confusión ......................................................... Validez de los estudios en ciencias de la salud .................................... Validez interna ..................................................................................... Validez externa .................................................................................... Lecturas recomendadas ........................................................................ Bibliografía ...............................................................................................
165 166 168 171 174 178 179 181 184 184
Capítulo 7. DIAGNÓSTICO .......................................................................... Diagnóstico .............................................................................................. Fases de un diagnóstico......................................................................... Elaboración del diagnóstico .................................................................... Consistencia de la información clínica ................................................... Concordancia, índice Kappa ................................................................... Cálculo del índice Kappa ................................................................... Intervalos de confianza del índice Kappa ......................................... Comparación de dos índices Kappa ................................................ Normalidad, anormalidad y patología de los datos clínicos .................. Regresión a la media ...................... : ................................................. Características probabilísticas de las pruebas diagnósticas ............. Sensibilidad y proporción de falsos negativos ................................. Especificidad y falsos positivos ......................................................... Valor predictivo positivo ....................................................................... Valor predictivo negativo .................................................................... Determinación de los valores de la sensibilidad y de la especificidad . Relación entre la sensibilidad y la especificidad. Curvas ROC ........... Determinación de los valores predictivos. Teorema de Bayes ...........
185 185 188 189 190 191 192 194 195 197 200 200 201 202 202 204 205 207 208
149 149 151 153 154 155 157 160
XII
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Paradoja del médico pluriempleado .................................................... Razones de probabilidad ........................................................................... Pruebas diagnósticas múltiples................................................................. Pruebas múltiples en paralelo .................................................... ......... Pruebas múltiples en serie ............ ..................................................... Sesgos en el diagnóstico .......................................................................... Protocolos y ayudas al diagnóstico ............................................................ Lecturas recomendadas ........................................................................... Bibliografía ..................................................................................................
214 215 219 220 221 226 228 229 229
Capítulo 8. PREVENCIÓN .............................................................................. Prevención. Historia natural de la enfermedad........................................... Tipos de prevención ................................................................................. Prevención primaria: factores de protección ............................................. Factores de protección ........................................................................ Prevención secundaria .............................................................................. Exámenes periódicos multifásicos de salud ........................................ Exámenes periódicos unifásicos de salud ........................................... Principales cribados unifásicos........................................................ Búsqueda de casos ............................................................................ Riesgos de la prevención secundaria .................................................. Evaluación de la prevención secundaria .............................................. Prevención terciaria.................................................................................... Lecturas recomendadas ........................................................................... Bibliografía ..................................................................................................
231 231 233 234 236 237 238 238 240 242 243 245 246 247 247
Capítulo 9. PRONÓSTICO .............................................................................. Pronóstico................................................................................................... Factores pronósticos.................................................................................. Parámetros de interés pronóstico .............................................................. Determinación de los factores pronósticos y sus sesgos ........................... Experiencia personal .......................................................................... Tipos de estudios ................................................................................. Sesgos .................................................................................................. Análisis de factores pronósticos ............................................................... Lecturas recomendadas ........................................................................... Bibliografía .................................................................................................
249 249 250 252 253 253 254 257 259 261 261
Capítulo 10. TERAPÉUTICA............................................................................. Terapéutica ............................................................................................... Tipos de tratamiento .................................................................................. Factores que mejoran las enfermedades ................................................ Evaluación del efecto terapéutico.............................................................. Sesgos en la evaluación terapéutica .................................................. Grupos de control................................................................................. Cegadas ............................................................................................. Tipo de estudios ..................................................................................
263 263 264 266 268 268 270 273 275
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Efectos indeseables de la terapéutica ...................................................... La decisión terapéutica, Árboles de decisión .............................................. Árboles de decisión ............................................................................... Cumplimiento de la terapia ......................................................................... Terapéutica y coste sanitario ...................................................................... Lecturas recomendadas ........................................................................... Bibliografía .................................................................................................
XIII
277 280 282 286 287 288 288
Capítulo 11. ENSAYOS CLÍNICOS ................................................................... Ensayos clínicos ........................................................................................ Fases de estudio de una terapia ............................................................... Hipótesis y objetivos.................................................................................... Variables más frecuentemente utilizadas en los ensayos clínicos ................ Criterios de inclusión y de exclusión............................................................ Validez délos ensayos clínicos................................................................... Errores aleatorios.................................................................................. Sesgos y su control ............................................................................... Validez interna........................................................................................ Validez externa...................................................................................... Tipos de ensayos clínicos .......................................................................... Estudios de intervención, prospectivos, controlados, concurrentes y de asignación aleatoria (EIPCCAA) ........................................................ Asignación aleatoria..................................................................................... Asignación aleatoria simple .................................................................... Asignación aleatoria balanceada............................................................ Asignación aleatoria estratificada y balanceada ..................................... Tipos de EIPCCAA ..................................................................................... Estudios en paralelo .............................................................................. Estudios cruzados ................................................................................ Predeterminación del tamaño de la muestra................................................ Comparación de proporciones. Datos independientes. Datos pareados .. Comparación de medias. Datos independientes .Datos pareados ........ Análisis de la supervivencia ................................................................... Análisis estadístico ..................................................................................... Significación estadística y significación clínica .......................................... Ensayos clínicos negativos.......................................................................... Ensayos clínicos en enfermedades raras .................................................. Factores a tener en cuenta en la interpretación de los ensayos clínicos ...... Ética y legislación........................................................................................ Lecturas recomendadas ............................................................................ Bibliografía ..................................................................................................
291 291 292 294 295 297 297 297 299 300 301 301 302 303 303 303 304 305 305 305 306 308 312 316 317 318 321 323 323 325 327 327
Capítulo 12. EPIDEMIA ..................................................................................... Epidemia ................................................................................................... Causas de las epidemias ........................................................................... Declaración de epidemia ........................................................................... Elementos a analizar en una epidemia .......................................................
329 329 330 332 334
XIV
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Definición de caso .............................................................................. Distribución temporal........................................................................... Distribución espacial (lugar) .............................................................. Características délos afectados ....................................................... Formulación y resolución de hipótesis ................................................... Tipos de estudios .............................................................................. Vigilancia epidemiológica ......................................................................... Control de epidemias............................................................................... Lecturas recomendadas ........................................................................ Bibliografía ................................................................................................
334 335 339 341 341 341 343 346 346 346
Capítulo 13. PUBLICACIONES CIENTÍFICAS ............................................. Actualización de conocimientos............................................................... Tipos de publicaciones científicas ......................................................... Bases de datos informatizadas ......................................................... El sesgo de publicación ......................................................................... Trabajos de síntesis: metaanálisis.......................................................... Metaanálisis ........................................................................................ Estructura de una publicación científica ................................................. Componentes del texto de un artículo científico ............................... Publicaciones fraudulentas ..................................................................... Lectura de artículos científicos ............................................................... Bibliografía ................................................................................................
349 349 349 350 351 352 353 354 356 357 358 361
Capítulo 14. FORMACIÓN CIENTÍFICA APLICADA A LAS CIENCIAS DE LA SALUD............................................................................................. Práctica clínica.......................................................................................... Formación universitaria ............................................................................ Formación postgraduada ....................................................................... Investigación ............................................................................................ Administración sanitaria y compañías de seguros ................................ Industria farmacéutica ............................................................................. Comisiones metodológicas .....................................................................
363 363 364 366 368 369 370 371
Apéndice 1. PROBABILIDAD CONDICIONADA .............................................. Probabilidad condicionada .....................................................................
373 373
Apéndice2. TEOREMA DE BAYES .............................................................. Teorema de Bayes ................................................................................... Aplicación del teorema de Bayes al cálculo de los valores predictivos . Valor predictivo positivo........................................................................ Valor predictivo negativo .....................................................................
375 375 380 380 383
Índice analítico .................................................................................. ............
387
PROLOGO
En España, hasta hace unos treinta años, la Salud era aceptada como un don o bien personal y, como tal, correspondía a cada individuo mantenerla según su mejor entender o siguiendo los consejos de familiares o amigos, conocedores de los riesgos que, constantemente, la amenazan. Las normas destinadas a la protección de la salud colectiva, que necesariamente deben emanar como uno de los objetivos fundamentales de las estructuras administrativas o políticas responsables del desarrollo de la sociedad, se limitaban, casi exclusivamente, a programas de vacunación infantil. Sólo la enfermedad constituía motivo de preocupación, por lo que, para combatirla, se crearon centros de asistencia ambulatoria y grandes hospitales, destinados casi exclusivamente a los tratamientos quirúrgicos que completaban y, sobre todo, mejoraban y modernizaban la previa red hospitalaria de las Universidades o de la Beneficencia. A pesar del gigantesco esfuerzo que significó la modernización de la medicina asistencial de nuestro país, el estudio de la salud de la sociedad, entendida como una meta fundamental, se desarrollaba lentamente en manos de grupos de jóvenes investigadores interesados en la medicina preventiva, en la identificación de factores de riesgo o de protección de enfermedades y en la detección epidemiológica de las enfermedades más prevalentes. Gradualmente, los resultados de todos los estudios epidemiológicos que cada centro realizaba, siguiendo iniciativas personales, iban siendo analizados y cuantificados según métodos científicos de uso internacional con la intención de que fueran comparables entre sí. A pesar de esta indispensable y rigurosa actitud, las publicaciones dedicadas al estudio racionalizado y a la valoración de esta metodología científica han sido escasas. Esta carencia provoca que, por falta de información adecuada y actualizada, se continúen tomando decisiones referentes a la salud que pueden afectar a grandes grupos de ciudadanos basadas solamente en «experiencias personales». No son sólo los estudios epidemiológicos los que deben ser sometidos a análisis rigurosos. Las técnicas estadísticas, por ejemplo, son indispensables para la validación de los ensayos clínicos, sean uni o multicéntricos, o para
XVI
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
definir la consistencia de la información que determina la sensibilidad o especificidad de los diagnósticos clínico o instrumental. Hoy, quien presentase datos que no hubiesen sido sometidos previamente a estudios rigurosos cometería una gran trivialidad impropia de un científico. Este rigor debe ser aún más estricto si se pretende publicar la información. Tan es así que la mayoría de los trabajos rechazados por los comités de publicación de revistas científicas de prestigio presenta defectos en la estructura que debe ordenar no sólo el desarrollo del texto sino la narración científica constituida por la exposición concisa de los datos obtenidos según el método científico que estructura el núcleo de este libro, Numerosos conceptos matemáticos, a veces de oscuro significado para el médico, han invadido los trabajos publicados en las revistas científicas en los últimos años. Términos como azar, estadística multivariante, tasa cruda o específica, riesgo relativo, tablas de contingencia, regresión logística, sesgos, cohortes, índice kappa, metaanálisis,... forman parte de la mayoría de las publicaciones en el campo de la biomedicina. Es evidente que el significado de muchos de estos conceptos debe ser evidente para quien escribe y lee los trabajos publicados. Desgraciadamente, las oportunidades que uno u otro encuentran para alcanzar un mínimo nivel de comprensión son escasas porque las fuentes de información en nuestro país son exiguas o, si existen, se expresan en lenguajes crípticos, de insuficiente profundidad o muy especializados. Por todas las razones insinuadas en este Prólogo, y las muchas que el lector tendrá la oportunidad de detectar durante la lectura de este tan necesario libro, es aplaudible que el autor, Dr. D. Rafael Álvarez Cáceres, haya hecho el esfuerzo de ordenar sus amplios y actualizados conocimientos sobre tan complejo tema en forma de un libro. Desde el primer capítulo, el lector se sentirá cautivado por el atractivo y, a la vez, profundo planteamiento del programa en el que destacan los párrafos que analizan históricamente el concepto científico y filosófico del método científico. Esta exposición sobre la filosofía de la ciencia deja paso al desarrollo detallado de los conocimientos de estadística, disciplina utilizada como instrumento indispensable para el análisis de los datos y su validación, No falta el bloque que define los conceptos en los que se apoya la epidemiología descriptiva y analítica, ilustrados con numerosos ejemplos prácticos que otorga a este libro un carácter de comunicación interactiva. El lector que ejerce su profesión a nivel clínico encontrará todos los datos necesarios para que diseñe los ensayos clínicos con una metodología rigurosa cuyos resultados sean fácilmente aceptados por los Comités Éticos de centros médicos nacionales o extranjeros y que impida críticas negativas subsiguientes, por haber excluido la, desgraciadamente, frecuente confusión de aceptar datos erróneos o equívocos como ciertos. Siguiendo las normas expuestas en el libro se logra el fin primordial de toda investigación científica: compartir la información más exacta posible lograda según un método científico irreprochable que impida aceptar lo falso como verdadero o rechazar lo verdadero por haberlo interpretado como falso.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
XVII
Quienes estudian aspectos más generales de la salud y la enfermedad sin el contacto personal con el enfermo (epidemiólogos, estadísticos, biólogos y otros) encontrarán la lectura de este libro especialmente fascinante por la profusión de información fundamental, repartida en sus 14 capítulos y los dos apéndices, que constituye una sólida plataforma de referencia única, que yo sepa, en España. Este libro, escrito en un momento científico muy oportuno, ha nacido equipado con un sólido bagaje de información, que tardará mucho en agotarse, por lo que no es aventurado anticiparle una prolongada longevidad sin deterioro de sus propuestas científicas.
DR. ALBERTO PORTERA SÁNCHEZ Catedrático de Neurología. Universidad Complutense Académico de Número de la Real Academia Nacional de Medicina y de la Real Academia Nacional de Doctores
INTRODUCCIÓN
Las ciencias de la salud en general y la medicina en particular han sufrido profundos cambios en su estructura de pensamiento en los últimos quince años. En poco tiempo están pasando de una lógica deductiva determinista, heredera de las escuelas racionalistas y positivistas, a la incorporación del método científico más exigente en cuanto al reconocimiento de nuevos conocimientos y, en muchos casos, basado en fenómenos aleatorios que dejan una cierta duda, los cuales no son fáciles de asimilar. La situación de las ciencias de la salud actual es parecida a la de la física a primeros del siglo XX, época en la que se pasó de la física clásica con una estructura determinista a la mecánica cuántica basada en fenómenos aleatorios. Este cambio no fue fácil y muchos físicos se opusieron a la nueva física, a la que consideraban como juegos matemáticos, pero las predicciones realizadas por la mecánica cuántica pudieron ser comprobadas experimentalmente y se impuso a la física clásica. Muchos físicos de renombre se quedaron en el camino incluyendo a Albert Einstein, quien a pesar de ser uno de los fundadores de la mecánica cuántica nunca acéptalas conclusiones de la nueva física en su posterior desarrollo. En las ciencias de la salud, y más concretamente en la medicina, podemos distinguir dos grupos: los que ejercen la medicina práctica y los que se dedican en todo o en parte a la investigación. Los que se dedican a la práctica clínica, en general, siguen esquemas racionalistas basados en la anatomía como estructura, la fisiología como función y la patología debida a alteraciones anatómicas o fisiológicas. No cabe duda de que el esquema anterior es válido, pero hay profundas diferencias entre una estructura racionalista y una científica: la primera deduce premisas a partir de los conocimientos previos; la científica también, pero las conclusiones deducidas sólo se consideran hipótesis hasta que son demostradas. Muchos de los profesionales de este grupo consideran que la estadística y la metodología de la investigación son disciplinas interesantes para los investigadores pero no para la práctica clínica diaria. A lo largo del libro veremos que el mantenimiento de los conocimientos y la práctica clínica exigen un alto nivel de conocimientos sobre metodología de la investigación científica.
XX
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Los que se dedican a la investigación han incluido la estadística y la metodología de la investigación a su labor diaria, aunque los errores de concepto son muy frecuentes debido a que dicha incorporación se ha realizado hace relativamente poco tiempo. En la actualidad, la dicotomía anterior no es aceptable. Tanto el profesional que se dedica a la práctica clínica como el que se dedica a la investigación precisan profundos conocimientos de estadística y metodología científica para llevar a cabo con éxito su labor cotidiana. Las decisiones clínicas como el diagnóstico o el tratamiento no son decisiones deterministas que puedan ser aplicadas a todo tipo de pacientes. Hay muchos fenómenos aleatorios que deben ser comprendidos para la correcta interpretación de las pruebas diagnósticas y para la toma de decisiones terapéuticas por lo que deben ser conocidos por todos los profesionales. En la aplicación del método científico a las ciencias de la salud podemos distinguir dos períodos. En el primero, los médicos, farmacéuticos, veterinarios, enfermeros y demás profesionales de las ciencias de la salud se apoyaron en estadísticos que aportaron y aplicaron los fundamentos científicos y estadísticos a las ciencias de la salud. Pero en muchos casos consideraron que las poblaciones humanas eran iguales que las poblaciones de números y nos han quedado algunas aplicaciones erróneas que habrá que desterrar, a pesar de lo cual su contribución fue muy satisfactoria. En el segundo período muchos profesionales de la ciencias de la salud se incorporaron a dirigir la investigación en ciencias de la salud y las consecuencias han sido en muchos casos desastrosas. Hay excepciones muy loables, pero en muchos otros casos la falta de formación profunda matemática y científica han hecho perder rigor a la actual investigación en ciencias de la salud y, como analizaremos en el capítulo primero, la característica más importante de cualquier sistema de adquisición de conocimientos es el rigor. El desconocimiento de las más elementales reglas de la estadística es casi general y teniendo en cuenta que casi siempre se desprecia aquello que no se entiende, muchos programas de formación postgraduada son deficitarios en lo más importante: la estadística y la metodología de la investigación rigurosa. Son muchas las voces que a nivel nacional e internacional indican los muchos errores que se cometen, pero cuesta trabajo, a veces décadas, corregirlos. Algunos apartados de este libro pueden dar la impresión de que las ciencias de la salud están en un estadio primitivo. Haciendo un símil con la aeronáutica, si miramos hacia atrás, hace aproximadamente cien años se construyó el primer avión de tela y en pocos años el transporte aéreo se convirtió en uno de los más seguros y con millones de pasajeros. También se consiguió llegar a la Luna, esto nos puede hacer pensar que hemos avanzado mucho. Pero si miramos al cielo estrellado veremos una gran cantidad de astros actualmente inalcanzables para nosotros, en ese momento tendremos que admitir que estamos en los albores de la aeronáutica, A las ciencias de la salud les ocurre lo mismo, comparándolas con los conocimientos de hace cien años los avances han sido vertiginosos, pero si analizamos las
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
XXI
enfermedades que no podemos curar y lo que desconocemos del funcionamiento de nuestro cuerpo tendremos que admitir que estamos en una etapa muy temprana en esta disciplina. El método científico está basado en profundos razonamientos filosóficos que comenzaron hace casi cuatrocientos años con los principales movimientos racionalistas, siendo el último gran pensador Karl Popper, hay un solo método científico aplicable a las ciencias empíricas. Cada ciencia tiene sus instrumentos de trabajo y métodos de estudio específicos, pero la estructura de pensamiento científico es única. Muchos profesionales confunden la metodología de la investigación con la epidemiología, esta es una especialidad de las ciencias de la salud cuyo campo de actuación es la salud pública y que utiliza el método científico como herramienta de trabajo, quizá el haber sido la que más y más pronto ha utilizado la metodología científica puede haber originado la confusión. La metodología científica y la estadística son herramientas de trabajo que cualquier especialidad debe utilizar y que deben ser estudiadas independientemente de las demás especialidades. Sería absurdo que un neurólogo que comienza a aplicar la metodología científica a sus investigaciones pasara a llamarse epidemiólogo, seguirá siendo neurólogo y su disciplina la neurología. A lo largo del libro se criticarán muchos conceptos y notaciones de uso general, pero nunca se harán con referencias personales ya que este libro tiene fines constructivos: enseñar, corregir errores y aconsejar nuevas líneas de trabajo. Muchos de los que cometen errores de los más habituales tienen una buena formación y los errores cometidos son fruto de no pararse a pensar un poco las cosas. Al fin y al cabo todos cometemos errores. Lo importante es saber rectificarlos y contribuir poco a poco al conocimiento humano, que es el gran patrimonio de la humanidad al que debemos las comodidades de las que podemos disfrutar en la vida cotidiana. Todavía en la actualidad es utilizada en ocasiones la famosa frase de Gregorio Marañón «no hay enfermedades sino enfermos», cierto es que cada paciente debe ser evaluado individualmente, pero afortunadamente hay enfermedades con características comunes que nos permiten diagnosticarlas y que la mayor parte de ellas responden a las medidas terapéuticas al menos sintomáticamente. Muchas personas y no pocos profesionales aún consideran que a la medicina la rodean un halo mágico y que el acto médico tiene una gran parte de arte, afortunadamente esto no es así. La realización de un acto artístico precisa inspiración, mientras que la correcta práctica de las ciencias de la salud está basada en actuaciones que no dependen de momentos de inspiración sino de los conocimientos y la experiencia de todos sus profesionales. La medicina científica con el soporte de las nuevas tecnologías va imponiéndose, para bien de toda la humanidad. Acabo estas líneas en Benalmádena (Málaga), mirando al mar y a las estrellas. Muchas de las ideas aquí expuestas han sido inspiradas por ellas. RAFAELÁLVAREZCÁCERES
AGRADECIMIENTOS
Mi agradecimiento a los doctores Patricio Alonso Sacristán y José Rivero Alemán, por haber leído el original y sus interesantes sugerencias. También quiero agradecer de manera muy especial a mi esposa M a Asunción Chinchilla el constante estímulo que me ha dado y por el tiempo que tanto a ella como a mis hijos he tenido que robarles para poder escribir este libro. Agradecería a los lectores que me comuniquen los errores que hayan pasado inadvertidos o las ideas que a su juicio deban de figurar en futuras ediciones. Pueden escribirme a la siguiente dirección:
RAFAEL ÁLVAREZ CÁCERES C/ Nieremberg, 23 - 5o B 28002 Madrid
GUIA DE LECTURA
A continuación se realiza un breve resumen del contenido de los capítulos de este libro. Capítulo 1 El método científico en las ciencias de la salud. En este capítulo se hace un resumen de los principales sistemas filosóficos desde el racionalismo hasta el método científico. También se describe la aplicación del método científico a las ciencias de la salud. Capítulo 2 Función de la estadística. La estadística es una pieza fundamental en la metodología de la investigación científica. Los conceptos fundamentales y los errores más frecuentes son objeto de especial atención. Capítulo 3 Medidas de morbilidad y de mortalidad. La metodología científica para poder sacar conclusiones en muchas ocasiones necesita comparar, y para poder comparar primero hay que medir. Son descritas las medidas más importantes de morbilidad y mortalidad como prevalencia, incidencia acumulada, tasa de incidencia, tasas de mortalidad, tasa de letalidad, etc. Capítulo 4 Análisis del riesgo. En la actualidad en ciencias de la salud el riesgo y los factores de riesgo, son términos de los más utilizados, y no siempre correctamente. Se describen los conceptos fundamentales del riesgo y las medidas de riesgo más importantes como diferencia de riesgos, riesgo relativo, proporción atribuible, proporción atribuible poblacional, razón de predominio, etc. Capítulo 5 Introducción al diseño. Tipos de estudios. La parte más decisiva de un proyecto de investigación es el diseño y la decisión sobre el tipo de estudio a utilizar. Las series de casos, estudios transversales, estudios de cohortes, estudios de casos y controles, son descritos con gran amplitud y con múltiples ejemplos. Capítulo 6 Validez de los estudios científicos. Precisión y sesgos. Los sesgos a veces muy sutiles y los errores aleatorios, pueden alejar los resultados de un estudio de la realidad. Se describen los errores aleatorios, los sesgos de selección, de información y de confusión. El sesgo de confusión uno de los más difíciles de controlar es estudiado con gran amplitud y mediante múltiples ejemplos. Capítulo 7 Diagnóstico. Este tema uno de los más importantes en la investigación clínica es estudiado con gran detalle. Definición de diagnóstico,
XXVI
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
etapas, características de las pruebas diagnósticas: sensibilidad, especificidad, falsos positivos, falsos negativos, valor predictivo positivo, valor predictivo negativo, son algunos de los temas tratados. Capítulo 8 Prevención. Uno de los temas de investigación actual es la prevención de las enfermedades y de sus complicaciones. Son estudiadas la prevención primaria, secundaria y terciaría. Capítulo 9 Pronóstico. Cuál será la evolución de una enfermedad, es uno de los problemas clínicos más importantes, tanto a nivel individual como social. Se describen los métodos de estudio de los factores pronósticos y sus principales sesgos. Capítulo 10 Terapéutica. La culminación del acto clínico tratar de curar o al menos aliviar las enfermedades de los pacientes. Como evaluar el efecto de una terapia, tipos de cegadas y su significado, tipos de estudios, sesgos, etc. Son algunos de los temas tratados. Capítulo 11 Ensayos clínicos. Los ensayos clínicos en general y de manera especial los estudios de intervención, prospectivos, con control concurrente y asignación aleatoria, son rigurosamente estudiados. Se ha puesto especial atención a los problemas estadísticos como predeterminación del tamaño de la muestra. Capítulo 12 Epidemias. Las epidemias siempre temidas, es uno de los temas de estudio más interesantes en ciencias de la salud. Los métodos de estudio, parámetros más importantes a tener en cuenta en el estudio de epidemias y como prevenirlas son algunos de los temas tratados en este capítulo. Capítulo 13 Publicaciones científicas. En este capítulo se describen los tipos de publicaciones científica, bases de datos informatizadas más importantes, normas internacionales que deben reunir los artículos científicos, estructura de un trabajo científico y consejos para leer la literatura científica con el máximo aprovechamiento. Capítulo 14 Formación científica aplicada a las ciencias de la salud. En este capítulo el autor basándose en su gran experiencia docente, recomienda los contenidos que a su criterio deberían tener los programas de formación tanto para pregraduados como para postgraduados, también se comentan algunos aspectos sobre el estado actual de la investigación en ciencias de la salud. Apéndice 1 Probabilidad condicionada. Se describen de una manera sencilla los aspectos conceptuales más importantes de esta importante técnica. de cálculo de probabilidades, en ella están basados conceptos tan importantes como riesgo relativo, razón de predominio, sensibilidad, especificidad, falsos positivos, falsos negativos, valores predictivos, etc. Apéndice 2 Teorema de Bayes. EL teorema de Bayes y las técnicas de decisión bayesianas cada vez son más utilizadas en ciencias de la salud y de manera especial en el cálculo de probabilidades diagnósticas. En este apéndice se incluye la definición del teorema de Bayes, su demostración y algunos ejemplos.
Capítulo 1 EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Si yo os pregunto por qué creéis en una determinada cuestión, debéis darme alguna razón; o debéis admitir que vuestra creencia carece por completo de fundamento. David Hume.
En este capítulo se realiza una breve introducción a la filosofía del conocimiento, sobre todo de las corrientes precursoras del método científico, con aplicaciones concretas a la investigación en ciencias de la salud. Son muchos los pensadores científicos no citados por razones de espacio. Citar a todos y comentarlos supondría dedicar una gran parte del libro a esta tarea, por lo que han sido seleccionados los que a juicio del autor son mas demostrativos en la evolución del pensamiento científico. Posteriormente son analizadas las características principales del método científico y su aplicación a las ciencias de la salud. Aconsejamos al lector una lectura profunda de este capítulo, puesto que constituye la base filosófica del libro. FILOSOFÍA DEL CONOCIMIENTO Podemos definir el conocimiento como las nociones sobre la naturaleza, cualidades y relaciones de las cosas adquiridas mediante el ejercicio de las facultades intelectuales, por ejemplo la naturaleza del corazón es su estructura anatómica e histológica, su cualidad es la función de bombear sangre, su relación con el resto del organismo completa el conocimiento del corazón como órgano. El objetivo de cualquier ciencia es adquirir conocimientos; el problema es elegir un método adecuado que nos permita conocer la realidad1, evitando catalogar 1 La realidad debe entenderse referida a un determinado problema, por ejemplo, conocer la proporción exacta de personas portadoras del virus de la hepatitis B, en un determinado país y fecha.
2
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
conocimientos erróneos como verdaderos. Uno de los problemas más graves en cualquier disciplina científica es aceptar como ciertos los conocimientos erróneos. Un método de adquisición de conocimientos ideal debe permitir conocer la realidad de un determinado problema en un ámbito y período de tiempo determinado y, a partir de las evidencias obtenidas, elaborar leyes generales aplicables a ámbitos más amplios. El método científico es el que más se acerca en la actualidad al método ideal, aunque con algunas limitaciones. En una ciencia, la aceptación de evidencias y teorías o leyes como ciertas implica la incorporación de las mismas al cuerpo de conocimientos, a partir de los cuales se elaborarán hipótesis para cuya demostración serán necesarios nuevos estudios que a su vez, permitirán la incorporación de más conocimientos. Una ciencia debe ser muy rigurosa en la consideración de evidencias y teorías como ciertas; es mejor tardar en incorporar conocimientos aunque sean ciertos que incorporar conocimientos falsos. Los conocimientos falsos que erróneamente hayan sido considerados como ciertos, generan ruido2 informativo y una visión equivocada de la realidad. Con el tiempo serán depurados, pero mientras tanto las equivocaciones provocadas pueden ser importantes. En la actualidad, en ciencias de la salud, la aplicación del método científico no es muy rigurosa y entre los conocimientos aceptados como válidos hay muchos que no lo son. Supongamos que con un receptor de radio podemos sintonizar treinta emisoras distintas, de las cuales los programas informativos de quince son verdaderos y los de las otras falsos. Si una persona que escucha la radio no tiene posibilidades de saber cuáles son las verdaderas, las posibilidades de que obtenga una información errónea son muchas y si escucha varias emisoras, su visión de la realidad estará muy distorsionada, al mezclar información verdadera y falsa. Es mejor seleccionar dos o tres emisoras cuyos informativos sean verdaderos, aunque no podamos incluir a todos los verdaderos, que por afán visceral, que no racional, de avance de conocimiento incorporar más emisoras, entre las que existan informativos falsos. Es siempre preferible tener una visión reducida de la realidad, pero verdadera, que una visión más amplia, pero distorsionada, cuya depuración nos puede costar muchos años de trabajo. La realidad podemos considerarla como un conjunto de partículas materiales y energía que interaccionan entre sí, nuestro conocimiento acerca de ella está limitado por nuestros órganos sensoriales y capacidad de raciocinio. Existe un concepto de la realidad personal intransferible basado en nuestras creencias acerca de las cosas y su relación entre ellas y un concepto de la realidad transferible que todos podemos comprobar al que denominaremos conocimiento interpersonal. Las sensaciones que una persona tiene al contemplar un cuadro o un atardecer pertenecen al campo de la realidad personal, 2
La existencia de conocimientos falsos entre los verdaderos, sin saber de una forma inmediata cuáles son unos y cuales otros, la consideraremos metafóricamente como ruido,
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
3
Figura 1.1. Conocimiento interpersonal fragmentado,
sería difícil encontrar dos personas con el mismo sentimiento ante una misma circunstancia; por otra parte la altura de un edificio o el peso de un cuerpo son conceptos de la realidad que todos podemos compartir y comprobar. El conocimiento al que nos referimos en éste libro es el interpersonal. El conocimiento interpersonal está formado por múltiples conceptos que pueden ser medidos sobre la naturaleza, cualidad y relación del medio ambiente que nos rodea. Por ejemplo el conocimiento del estado de salud de una comunidad, está formado por muchos datos sobre distintas situaciones mensurables; número de inválidos, número de diabéticos, recursos sanitarios disponibles, etc. El conocimiento interpersonal podemos decir que es fragmentado, puesto que está formado por infinidad de elementos, que pueden ser comprendidos y evaluados por separado. En la Figura 1.1 los círculos representan datos en un determinado lugar y tiempo, por ejemplo un círculo puede representar la edad media de una población en una fecha determinada, otro el número de hipertensos, otro la proporción de mayores de 65 años, otro la función de la angiotensina II, otro como funciona la inmunidad, etc. El objetivo de un método de adquisición de conocimientos es incorporar los conceptos mensurables interpersonales al conocimiento humano. Si el método no es muy riguroso, corremos el riesgo de incluir conocimientos verdaderos junto a conocimientos falsos, lo que producirá una visión deformada de la realidad. Un método poco riguroso puede dar explicación a cualquier dato, por ejemplo las mitologías son capaces de explicar el comienzo del mundo, la vida, la muerte y el origen de los fenómenos naturales, pero cualquier parecido con la realidad es pura coincidencia. En la Figura 1.2 el círculo mayor representa la visión de la realidad obtenida, mediante un determinado método de adquisición de conocimientos, los círculos pequeños representan medidas o conceptos ciertos y las cruces datos falsos y conceptos erróneos, la consecuencias de
4
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Figura 1.2. Visión deformada de la realidad por un método poco riguroso, + = Dato erróneo. O = Dato cierto.
la falta de rigor es la mezcla de conceptos verdaderos y falsos indistinguibles. En la actualidad, en ciencias de la salud, junto a terapias útiles hay otras muchas inútiles aunque en ocasiones no es fácil distinguir unas de otras. La Figura 1.3 representa la visión de la realidad mediante un método riguroso, como el método científico, la mayoría de los conceptos y medidas incluidos en el cuerpo de conocimientos representados por el gran círculo son ciertos, hay algunos incorrectos, pero aún no hemos sido capaces de elaborar un método de adquisición de conocimientos perfecto, que sólo permita la inclusión de conceptos ciertos. Los conceptos o datos erróneos podrán ser depurados con facilidad mediante una metodología rigurosa. A lo largo de la historia, el ser humano ha buscado un método que le permita tener la seguridad del conocimiento. Hasta la fecha no lo ha conseguido. Debe quedar claro que el conocimiento significa nociones ciertas acerca de algo. Podemos conocer cosas concretas sobre un ámbito reducido, pero el gran problema es extrapolar los conocimientos a otros supuestos similares y elaborar leyes universales. Veamos algunos ejemplos: Supongamos que estudiamos a todos los pacientes afectados de cáncer de colon en una fecha determinada y en un determinado país; podemos decir que tenemos conocimiento sobre los pacientes afectados de colon en el país y fecha en que se realizó el estudio. La pregunta que surge es; ¿podemos extrapolar estos conocimientos a otros países e incluso al mismo país dentro de 2 ó 3 años? La respuesta es no, ya que la supervivencia de los pacientes en Estados Unidos, Suecia o Francia no es la misma que en Bulgaria, Polonia o Rusia y las condiciones de vida de los pacientes tampoco es la misma. Incluso dentro del mismo país estudiado, la cantidad y calidad de vida dependerán de la edad, nivel socioeconómico y del hospital donde se ha llevado a cabo el tra-
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
5
Figura 1.3. Visión de la realidad mediante un método riguroso. + = Datos erróneos. O = Datos ciertos.
tamiento, y posiblemente dentro del mismo hospital haya diferencias según qué facultativo atienda al paciente. Incluso dos o tres años después de realizado el estudio, en el mismo país, es probable que la cantidad y calidad de vida sean distintos, debido a nuevos avances terapéuticos y a cambios económicos. En éste caso diremos que tenemos una evidencia científica de los pacientes afectados de carcinoma de colon en la fecha y país del estudio. En el caso de que no hubiéramos podido estudiar a todos los pacientes, podríamos estudiar una muestra probabilística de dichos pacientes, siendo los resultados obtenidos extrapolables al país y fecha muestreados. Los datos obtenidos son estimaciones que deben ir acompañadas de sus respectivos intervalos de confianza, los cuales son únicamente aplicables a la población muestreada (ver Capítulo 2). En éste caso disponemos de una evidencia estimada o probable. Por ejemplo si queremos conocer la talla media de los habitantes mayores de dieciocho años de una determinada ciudad; si los podemos tallar a todos y resulta que la talla media es de 170 cm, si las medidas han sido realizadas correctamente, el dato es una evidencia, en el caso de que no podamos tallar a todos los habitantes y el estudio se realice a partir de una muestra probabilística, si la talla media de la muestra fuera 170 cm y a partir de ella calculáramos un intervalo de confianza según el cuál, hubiera un 95% de probabilidad de que la talla media de la ciudad esté comprendida entre 168 y 172 cm, este dato sería una evidencia estimada de la talla media de la ciudad muestreada. Supongamos que un moderno hospital de un país económicamente avanzado publica una serie de casos de intervenciones quirúrgicas en fractura de
6
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
fémur, aplicando una determinada técnica con la que se indica que al 80% de los pacientes no les queda ningún tipo de secuela. En otro hospital, a la vista de tan espectaculares resultados se comienza a aplicar la nueva técnica, Al informar a un paciente que va a ser intervenido, ¿sería correcto decirle que tiene un 80% de probabilidades de quedar perfectamente?, o lo que es lo mismo, los resultados del primer hospital, ¿son extrapolables a otros hospitales que apliquen la misma técnica? La respuesta «a priori» es no. Es posible que en algún hospital se igualen e incluso mejoren los resultados del primero, pero no podemos asegurar científicamente que los resultados vayan a ser iguales en otros hospitales. Factores como las características de los pacientes, del hospital y de los facultativos influyen en los resultados y no son en todos iguales. Poder extrapolar científicamente conocimientos quiere decir que las evidencias estudiadas en un determinado ámbito son aplicables a otros ámbitos distintos y que las predicciones se cumplirán de forma rigurosa. Por ejemplo, si conocemos el rozamiento del aire y las características gravitacionales locales, podemos predecir el tiempo que un objeto tardará en caer desde una altura determinada, aunque nunca hayamos medido en ese lugar el tiempo de caída de un cuerpo, aplicando las leyes3 de la gravitación universal. El panorama aparece desalentador, pero no lo es tanto. Si en un centro sanitario se anuncia que una determinada terapéutica mejora notablemente los resultados de otras existentes en el momento, es evidente que la mayoría de los centros la adoptarán considerando como hipótesis de trabajo que es mejor que las anteriores, y compararán los resultados de la nueva terapéutica con las que usaban anteriormente, confirmando o no las bondades del nuevo tratamiento. La diferencia entre extrapolación e hipótesis de trabajo es filosófica, pero fundamental en la actitud científica. La extrapolación científica es que podemos predecir con bastante exactitud lo que ocurrirá en unas circunstancias determinadas, como la predicción del tiempo que tardará en caer al suelo un objeto en unas condiciones determinadas, El aceptar un resultado como hipótesis de trabajo significa que lo consideramos provisionalmente válido, pero pendiente de comprobación en otros ámbitos. Esta actitud vigilante, de duda y comprobación, es lo que caracteriza al método científico. ¡Cuántas terapéuticas han sido anunciadas como espectaculares, comprobándose luego que no lo eran tanto! A continuación veremos resumidamente la evolución de las escuelas filosóficas más importantes hasta llegar al método científico.
Culturas antiguas La mayoría de las culturas prehistóricas y muchas antiguas, aceptaban que sus conocimientos y creencias habían sido revelados por su Dios o dioses. Gran parte del cuerpo de conocimientos de las culturas del antiguo Egipto, de 3
Las leyes de la gravitación universal, al igual que las demás teorías científicas son consideradas válidas mientras no se demuestren otras leyes más completas.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
7
los judíos, griegos, romanos y de las culturas europeas hasta la Edad Media, se creía revelado por Dios, lo que planteaba un terrible problema: contradecir algunas creencias era equivalente a blasfemar, por lo que muchos disidentes acabaron sus discusiones ante el verdugo. Incluso en la Grecia antigua, donde florecieron interesantes movimientos filosóficos, Sócrates tuvo que suicidarse porque sus conciudadanos pensaban que algunas de sus afirmaciones eran blasfemas. En tiempos relativamente recientes podríamos recordar a Galileo, Copérnico y muchos otros, que por realizar afirmaciones que contradecían libros religiosos, tuvieron que retractarse públicamente, pasar largos años de cárcel e incluso algunos fueron ejecutados. En fecha tan reciente como mediados del siglo XIX, Darwin tuvo que soportar fuertes descalificaciones de la Iglesia Anglicana por su teoría de la evolución. En una discusión científica sobre la evolución, un arzobispo le preguntó jocosamente, «¿Por parte de quién dice usted descender del mono, de madre o de padre?». Hasta el siglo XVII el cuerpo filosófico dominante era el aristotélico-tomista. En este siglo surgen el racionalismo y el empirismo, que supusieron un gran avance en la filosofía del conocimiento humano. En las culturas antiguas, y hasta el nacimiento del racionalismo en el siglo xvii, la base del conocimiento era la fe. La mayoría de las personas creían lo que se les enseñaba en escuelas o iglesias, sin poder razonarlo ni discutirlo; era pecado dudar y discutir podía ser un delito.
El racionalismo En el siglo XVII surge un movimiento filosófico que no aceptaba como cierto ningún principio sin un análisis racional del mismo. Partiendo de principios evidentes se trata de explicar la realidad mediante la razón. El representante más conocido es Rene Descartes (1), el cual afirmaba que la visión de la realidad no puede basarse en una explicación extraña a la que la propia razón puede aceptar (2), plantea la necesidad de encontrar un método que permita la búsqueda de la verdad, fundamentado en la duda metódica, criticando todo aquello que no es evidente. En síntesis los racionalistas no aceptaban explicaciones sobre la realidad que la mentalidad humana no pudiera entender, tampoco consideraban aceptables conocimientos impuestos en base a revelaciones divinas. Los racionalistas creían que los conceptos morales básicos, cómo el bien, el mal y las ideas eran innatos y superiores a los datos obtenidos mediante los órganos sensoriales. Para ellos, si una observación iba en contra de la razón, preferían criticar dicha observación. En resumen, el racionalismo somete el cuerpo de conocimientos al filtro de la razón; a partir de hechos considerados como evidentes se deducen y explican otros conocimientos. El racionalismo consiguió liberarse de las creencias impuestas que no podían ser sometidas a debate e introdujo el razonamiento y la deducción en la adquisición de conocimientos.
8
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El razonamiento como método de adquisición de conocimientos es insuficiente. Muchos de los conocimientos deducidos basados en métodos racionales son ciertos, pero otros muchos son erróneos. En ciencias de la salud son muchos los ejemplos de deducciones racionalistas aparentemente evidentes, que resultaron no ser ciertas. Cuando las arterias coronarias están parcialmente obstruidas debido a patología ateroesclerótica causando sintomatología clínica, la derivación aortocoronaria es beneficiosa en un alto porcentaje de casos. En buena lógica se dedujo que en pacientes con patología ateroesclerótica sintomática en la arteria carótida interna, debían beneficiarse de una derivación arterial entre la arteria temporal superficial y la arteria cerebral media, sin embargo, los ensayos clínicos realizados no han podido confirmar que dicha técnica quirúrgica sea beneficiosa (3), si se hubiera utilizado el método racionalista en la actualidad miles de pacientes serían intervenidos con esta técnica, con el consiguiente gasto inútil de tiempo y dinero, en el método científico las deducciones racionalistas son hipótesis hasta que puedan ser demostradas observacional o experimentalmente, en este caso no se pudo demostrar la utilidad de esta técnica que aparentemente debería de haber sido eficaz. Esta forma de pensar y de obtener conocimientos está todavía presente en muchos científicos a los que les cuesta mucho rechazar evidencias observadas si van en contra de sus razonamientos. Uno de los casos más conocidos es el del genial Albert Einstein, En la década de los treinta se imponía la mecánica cuántica y las evidencias a su favor eran cada vez más numerosas. En sus discusiones con Niels Bhor dijo su famosa frase «Dios no juega a los dados» (4). Einstein no aceptó las evidencias a favor de la mecánica cuántica moderna y en los últimos veinte años de su vida no aportó nada nuevo a la Física. Llama la atención como uno de los más importantes científicos que han existido, creador de la teoría de la relatividad y descubridor del efecto fotoeléctrico, por el que recibió el premio Nobel de física en 1921, se apartó de la física moderna por anteponer su razón a las evidencias, ya que él no rebatió las observaciones realizadas que apoyaban a la mecánica cuántica moderna, sino que simplemente se negaba a aceptarlas intelectualmente. Einstein fue también uno de los fundadores de la mecánica cuántica pero al final no pudo aceptar algunas de sus conclusiones. El racionalismo fue un importante avance del conocimiento pero en la actualidad es un método que debe de ser considerado como poco riguroso, el método racionalista es utilizado en todas las ciencias para elaborar hipótesis, pero no para confirmarlas por muy evidentes que parezcan.
Los empiristas A finales del siglo XVI surge otro importante movimiento filosófico el empirismo. Los empiristas creían que todo conocimiento, incluidas las ideas, era obtenido por el contacto del hombre con el medio que le rodea, dando prioridad a una observación sobre el razonamiento.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
9
Francis Bacon creía que los conocimientos eran adquiridos mediante la observación y que las observaciones junto a la razón creaban abstracciones y leyes universales (5). Bacon era un induccionista convencido y tuvo una gran influencia tanto en su época como en siglos posteriores en movimientos tan importantes cómo el enciclopedismo y el positivismo, aunque sus ideas inductivistas tuvieron poca aceptación. Locke considera que todo conocimiento humano surge de la experiencia (6). Asociando relaciones causa efecto, Locke es el primer autor que introduce el concepto de asociación entre sucesos. Hume (7) trata de explicar cómo las sensaciones configuran el complicado mecanismo del pensamiento humano (8). Afirmaba que a partir de una observación singular no se podía llegar a leyes generales, rechazando el método inductivo, según el cual a partir de las partes se podía comprender el todo. Hume es uno de los filósofos del conocimiento más importante de la historia de la ciencia. Cualquiera que crea en el inductivismo debe ser capaz de rechazar sus razonamientos en contra. Kant, Hegel y Bertrand Russel, entre otros muchos, lo intentaron sin conseguirlo. Los empiristas por tanto, recogían continuamente información sin extrapolar los conocimientos adquiridos a instancias distintas de las adquiridas. El empirismo es un método de adquisición de conocimientos demasiado riguroso, ya que cualquier conocimiento sólo puede ser considerado válido en el ámbito y momento del estudio sin poder ser considerado útil más allá de éstos límites.
El positivismo El positivismo (9) surge en el primer tercio del siglo XIX, como una reacción frente al empirismo que se dedicaba a recolectar datos sin inducir los conocimientos más allá del campo de observación. Los positivistas cuyo miembro más conocido es Auguste Compte (10), creían que el conocimiento surgía de la observación, en esto coincidían con los empiristas y estaban en contra de la concepción racionalista sobre el carácter innato de los conceptos básicos del ser humano, pero los positivistas creían que a partir de la observación podían elaborarse leyes generales, eran por tanto inductivistas. Compte decía (11) «limitarse a recopilar los hechos equivale a un comportamiento pasivo, que casi elimina el pensamiento, mientras que determinar una ley supone abarcar una infinidad de hechos posibles». La frase de Compte es bella y el poder elaborar leyes universales es el sueño de cualquier científico, el problema es estar seguro de que un conocimiento adquirido en un ámbito determinado, es realmente cierto y universal. Entre los científicos de tendencia positivista que dedicaron su actividad a las ciencias de la salud, podemos destacar a Pasteur en microbiología y a Claude Bernard(12), éste último fue el primero en proponer la experimentación en medicina.
10
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El induccionismo preconizado por el positivismo es un método poco riguroso, algunas inducciones pueden ser ciertas pero otras muchas no lo son. Si vemos un pájaro volando, en base a la inducción podemos afirmar: que los animales con plumas vuelan, lo cual no siempre es cierto. Al realizar el primer estudio sobre los grupos humanos afectados por HIV en la ciudad de San Francisco, se observo que afectaba fundamentalmente a varones homosexuales, en base a la inducción podríamos haber afirmado que la infección por HIV afectaba preferentemente a éste grupo de personas, lo cuál no es cierto. Los ejemplos que podríamos poner de inducciones erróneas serían innumerables, recordemos que un método de adquisición de conocimientos riguroso debe de evitar considerar como ciertos conceptos falsos.
El neopositivismo A finales del siglo XIX y principios del XX las discusiones entre empiristas y positivistas no consiguieron un claro vencedor. El movimiento positivista tuvo una fuerte implantación en el mundo científico, pero los sólidos argumentos de Hume en contra de la inducción no pudieron ser rebatidos, A principios del siglo XX surge el neopositivismo, también llamado positivismo lógico. Este movimiento cree que hay una realidad que nuestros sentidos perciben, al igual que el positivismo y los empiristas. Los neopositivistas aceptan que la inducción es a veces prematura en los positivistas, aunque creen en que el hombre es capaz de conocer la realidad del mundo que le rodea. Una de sus aportaciones más importantes es la inducción probabilística, de gran arraigo aún en la actualidad. Bertrand Russell, uno de los más destacados neopositivistas y pensadores del siglo XX, describió las leyes de la mecánica como mero conocimiento probable. No pudo refutar los postulados de Hume y en una de sus obras (13) comenta « Si Hume tuviera razón, no habría diferencia entre la locura y la cordura». Otro destacado neopositivista fue Carnap uno de los más entusiastas impulsores de que la probabilidad es ampliativa (14). Esta idea preconiza que una hipótesis contrastada en circunstancias distintas, y si además se cumplen predicciones realizadas bajo el supuesto de que dicha hipótesis fuera cierta, aumenta la probabilidad de que sea verdadera. Por ejemplo, si tenemos la hipótesis de que las personas afectadas de hipertensión arterial tienen más riesgo de padecer insuficiencia coronaria que los hipotensos o normotensos, y esto se comprueba en varias poblaciones, la probabilidad de que dicha hipótesis sea cierta4 aumentará. 4
En ciencias de la salud debemos intentar cuantificar el riesgo, lo cual es fundamental al aplicar tratamientos. La comunidad científica acepta unánimemente la relación entre hipertensión y patología vascular, pero hay muchas preguntas a contestar, ¿en todos los grupos humanos debemos considerar a una persona hipertensa a partir de los mismos valores?, (según la O.M.S más de 140 mm/Hg de tensión arterial sistólica o más de 90 mm/Hg de tensión arterial), ¿valores iguales de tensión arterial producen el mismo riesgo en todos los grupos de personas, sin diferenciar sexo, edad, ciertos hábitos, ect? Estos temas volverán a ser abordados con mayor amplitud en los capítulos correspondientes a diagnóstico y tratamiento.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
11
La inducción probabilística se apoya en los dos supuestos siguientes: I. En una hipótesis verificada varias veces, en diversas circunstancias, si además se cumplen predicciones realizadas basándonos en ella, la probabilidad de que sea cierta es alta. II. Si tenemos una hipótesis h, tal que la probabilidad de h, P(h) > 0, la probabilidad de dicha hipótesis aumentará si acumulamos evidencias a su favor;
E1, representa una evidencia a favor de h.
E2, representa una evidencia ampliativa respecto a E1 a favor de h. Supongamos que h es la hipótesis de que un antibiótico nuevo es eficaz frente a más del 90% de las cepas de estafilococo dorado. Aunque todavía no ha sido experimentado en humanos, El representa la evidencia de que dicha hipótesis haya sido verificada en un grupo de pacientes de un determinado hospital, y £2 representa la evidencia anterior y además una segunda comprobación en otro centro sanitario. Según los neopositivistas, al aumentar la evidencia, aumentará la probabilidad de A, aproximándose a 1 y por tanto aceptándose como cierta. Las claves del neopositivismo consisten en contrastar hipótesis probabilísticamente y en caso de ser aceptadas y demostradas en circunstancias distintas, a partir de ellas elaborar teorías generales. El neopositivismo está actualmente vigente y es la corriente filosófica más aceptada en las ciencias de la salud, biológicas, físicas, químicas. Con algunos matices es la base del moderno método científico.
Corrientes filosóficas postneopositivistas Las corrientes filosóficas postneopositivistas están encabezadas por Karl Popper, el cuál ha criticado al neopositivismo. Afirma que el inductivismo (15) probabilístico neopositivista no puede asegurar que una hipótesis repetidamente verificada no sólo no puede universalizarse, sino que ni siquiera aumenta la probabilidad de que sea cierta en ámbitos distintos a los que se ha verificado. Popper se basa en los siguientes teoremas del cálculo de probabilidades para rebatir los argumentos de los neopositivistas:
12
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
I. Sea hi, una hipótesis y E una evidencia a favor de ella;
La probabilidad de una hipótesis sobre la que se ha recogido una evidencia favorable es mayor que la probabilidad de la hipótesis antes de ser verificada, siempre y cuando P(hi) > 0. Este es el teorema en el que los neopositivistas se apoyan para justificar el inductivismo probabilistico y con el que Popper está de acuerdo, salvo cuando comparamos dos hipótesis incompatibles, en las que la evidencia E es favorable a ambas. II. Sean hi y hj dos hipótesis incompatibles, siendo la probabilidad de ambas mayor de cero y E una evidencia favorable a ambas;
Este teorema indica que la evidencia a favor de una hipótesis aumenta la probabilidad de ésta, lo cual ya se demostró en el teorema I, pero no puede favorecer a hi en detrimento de hj Según Popper, el teorema II es aniquilador porque hi, puede ser una generalización inductiva de E, mientras que hj puede hacer afirmaciones que no estén apoyadas por E, no siendo hj una generalización de E. A continuación se ilustrarán los anteriores teoremas con dos ejemplos; el primero es el ejemplo de los cisnes con el que Popper rebatió las tesis neopositivistas y a continuación se expondrá otro ejemplo aplicado a las ciencias de la salud. Ejemplo 1. E indica una experiencia, según la cuál ha sido recogido el color de todos los cisnes de Austria y todos eran blancos. No se tienen datos sobre el color de los cisnes fuera de Austria. Sea la hipótesis hi «todos los cisnes son blancos». Sea la hipótesis hj «todos los cisnes de Austria, Alemania y Suiza son blancos; el resto de los cisnes europeos son verdes y los cisnes africanos son rojos. E es una evidencia a favor de ambas hipótesis, hi es una generalización inductiva de E, mientras que hj, aunque compatible con E realiza algunas afirmaciones que no podrían ser deducidas de E. Ejemplo 2. E indica una experiencia, según la cuál todas las cepas de neumococo estudiadas en África son sensibles a la penicilina G sódica. No hay
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
13
datos actualizados de la sensibilidad del neumococo a la penicilina G sódica fuera de África. Sea la hipótesis hi «todos los neumococos son sensibles a la penicilina G sódica». Sea la hipótesis hj «todos los neumococos africanos son sensibles a la penicilina. En Europa y América, debido al abuso de los antibióticos, hay cepas de neumococo resistentes a la penicilina. E es una evidencia a favor de ambas hipótesis, hi es una generalización inductiva de E, mientras que hj aunque compatible con E, realiza algunas afirmaciones que no podrían ser deducidas de E. Según Popper, el inductivismo probabilístico no es válido y la evidencia a favor de una hipótesis no aumenta su probabilidad en ámbitos distintos al que ha sido estudiada, puesto que el admitir que una determinada hipótesis es más probable es lo mismo que considerar que otras hipótesis compatibles con las mismas evidencias sean menos probables. En la actualidad no disponemos de ningún método capaz de garantizar que la generalización de una hipótesis es válida, pero sí podemos rebatir una hipótesis con una sola evidencia en contra de ella. En el ejemplo de los cisnes, un solo cisne observado de color distinto del blanco, rebatiría inexorablemente la hipótesis de que todos los cisnes son blancos. Una hipótesis o una teoría científica, para pertenecer a las ciencias empíricas, debe ser potencialmente (17) refutable5. Según acumulamos evidencias a favor de ella, la aceptación aumenta; una sola observación convenientemente verificada incompatible con ella es suficiente para que sea refutada y sustituida por otra que incluya toda la experiencia adquirida hasta el momento. De esta manera la ciencia se convierte en una búsqueda constante, en palabras de Popper«la ciencia busca explicaciones cada vez mejores». EL MÉTODO CIENTÍFICO A partir de la observación o de la experimentación6 son elaboradas hipótesis, las cuales se mantienen mientras no puedan ser refutadas. A partir de varias evidencias 5
En las traducciones de la obra de Popper al castellano se utiliza el concepto de «falsabilidad o falsable», indicando con ello una teoría que puede ser refutada o rechazada si observamos algún factor incompatible con ella. Teniendo en cuenta que los términos «falsabilidad» y «falsable» no existen en castellano, en el texto usaremos refutabilidad o rechazabilidad en lugar de falsabilidad y refutable o rechazable en lugar de falsable. 6 En una observación el investigador es un mero espectador, mientras que en la experimentación toma parte activa en el diseño experimental. La astronomía es una ciencia observacional, ya que el investigador no tiene posibilidades de intervernir en el movimiento de los astros. En un experimento el investigador controla las variables que intervienen en un determinado estudio, por ejemplo una investigación sobre el efecto de un fármaco en ratas de laboratorio permite controlar la temperatura, edad y sexo de los animales, etc.
14
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
demostradas se elaboran teorías que expliquen algunos aspectos de la realidad. Una teoría explica un conjunto de evidencias acerca de un determinado problema, basándose a ella permite realizar predicciones sobre como y cuando deben ocurrir ciertos sucesos, si las predicciones no se cumplen la teoría debe ser revisada. El método científico actualmente consiste por tanto en una búsqueda constante de explicaciones cada vez mejores a las dudas que surgen sobre la naturaleza. El método científico es la forma de obtener conocimiento más elevada que puede aplicar el ser humano. En la actualidad es la cota intelectual más alta a la que ha llegado el Homo Sapiens; aun así no es autosuficiente ni infalible. No es autosuficiente porque es necesario partir de unos conocimientos previos, los cuales son ajustados en base a la experiencia científica. No es infalible7, las conclusiones obtenidas tras la aplicación del método científico pueden ser erróneas. En las ciencias experimentales, como las ciencias de la salud, aunque el diseño experimental sea perfecto, factores aleatorios pueden ofrecernos una visión distinta de la real; éste sería un error aleatorio. En éste libro el error aleatorio y otros tipos de error serán ampliamente comentados e ilustrados con ejemplos. Algunos detractores del método científico aprovechan su falibilidad para criticarlo. Es cierto que el método es falible pero podemos medir el error cometido, mientras que otros métodos supuestamente capaces de proporcionar conocimiento también son falibles y además no podemos medir el grado de error cometido. A continuación veamos un ejemplo de razonamiento científico cuando unos datos están en contra de una teoría. En Noviembre de 1994 se llevaron a cabo precisas mediciones sobre la edad del universo tomando como base la teoría del Big-Bang, según las cuales tendría once mil millones de años. La edad de las estrellas más viejas se calcula en dieciséis mil millones de años; ambos datos son incompatibles. Inmediatamente los físicos decidieron las siguientes actuaciones: I. Revisar y repetir el cálculo sobre la edad del universo. II. En caso de confirmar bajo la hipótesis del Big-Bang la edad de once mil millones de años, revisar y repetir los cálculos sobre la edad de las estrellas más viejas. III. En caso de confirmar que bajo la hipótesis del Big-Bang la edad del universo es de once mil millones de años y la edad de las estrellas más antiguas dieciséis mil millones de años, habría que refutar la teoría del Big-Bang y elaborar otra nueva que explique todas las evidencias que explicaba el Big-Bang y que permita un cálculo de la edad del universo más realista. 7 La falibilidad en el método existe aunque los supuestos previos y el diseño experimental sea correcto. Además del error intrínseco al método científico pueden existir otros errores por mal planteamiento, mala ejecución e incluso intencionalidad, de los que hablaremos con detalle en éste libro.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
15
Las evidencias a favor de la teoría del Big-Bang son innumerables, una de las más importantes es la de la radiación de fondo, a pesar de lo cual una sola observación en contra es suficiente para revisarla. En este caso, revisar la teoría del Big-Bang sería equivalente a revisar toda la cosmología física y elaborar una nueva teoría que explique todas las observaciones realizadas. Este es un buen ejemplo y muy actual acerca de cómo se construye la ciencia, buscando soluciones cada vez mejores según los datos experimentales. En resumen, el método científico acepta como evidencias sólo hechos que han sido demostrados, una vez aceptados, forman parte del cuerpo de conocimientos de la disciplina correspondiente, a partir del cuerpo de conocimientos aceptado como válido, son elaboradas hipótesis cuyas afirmaciones no serán consideradas ciertas hasta que hayan sido demostradas. Una teoría científica trata de explicar un conjunto de evidencias y realizar predicciones en base a ella, aunque haya muchas evidencias a favor, una sola en contra, es suficiente para que la teoría sea revisada y sustituida por otra que sea capaz de explicar todas la evidencias existentes. El método científico es riguroso, pero acepta que algunas evidencias que hayan sido aceptadas puedan ser erróneas, si algunas hipótesis o teorías basadas en ellas, no pueden ser demostradas, se revisarán las evidencias previamente aceptadas, siendo rechazadas si se demuestra su inexactitud. Esta capacidad de autodepuración es una de las principales características del método científico lo que permite mejorar continuamente nuestra visión de la realidad. Entre muchos de los que se consideran científicos es muy frecuente su falta de capacidad de razonamiento científico, obsérvese la siguiente argumentación: A. Si una determinada hipótesis H es correcta, se debe observar un determinado suceso S. B. El suceso 5 es observado. C. Por lo tanto, la hipótesis H es correcta. La argumentación anterior es considerada válida por un 30% de los científicos estudiados (18). El sistema de razonamiento anterior consideraría correcta la siguiente argumentación: A. Si el jugo de tomate estuviera formado por glóbulos rojos, sería rojo. B. El jugo de tomate es rojo. C. El jugo de tomate está formado por glóbulos rojos. La argumentación científica correcta es la siguiente: A. Si una hipótesis H es cierta, un determinado suceso S debe ser observado. B. El suceso 5 no es observado. C. La hipótesis H no es cierta. La argumentación anterior implica que una teoría se mantiene mientras no exista ninguna evidencia en su contra, aunque haya muchas evidencias a favor
16
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
una sola en contra según la metodología científica, es suficiente para que la teoría deba ser rechazada. De esta manera la ciencia busca explicaciones cada vez mejores. Según Popper, la argumentación anterior es la base del método científico, una hipótesis científica debe de ser potencialmente rechazable, Popper llegó a esta conclusión basándose en profundos razonamientos filosóficos. Una de cuyas consecuencias es que no podemos generalizar las evidencias demostradas en un determinado ámbito, a otros, como una verdad científica. En todo caso podríamos suponer que en otros ámbitos sucede lo mismo como una hipótesis de trabajo, pero nunca como una evidencia mientras no haya sido demostrada. Algunos métodos seudocientíficos de gran influencia en ciencias de la salud, como algunas corrientes epidemiológicas, lo único que han entendido de la argumentación científica, es lo concerniente a la refutabilidad, consideran que cualquier disciplina cuyas proposiciones sean refutables es una ciencia, esto es un error. La refutabilidad de una hipótesis o de una teoría es una condición necesaria pero no suficiente en la metodología científica. Es seudocientífico considerar la refutabilidad como condición necesaria y suficiente, pasando a continuación a afirmar que una evidencia en un determinado lugar puede ser extrapolada a otros. El planteamiento es que una evidencia demostrada en un determinado ámbito debe ser considerada como cierta en otros, mientras no se demuestre lo contrario, lo cual es un planteamiento positivista, ini siquiera neopositivista! Estos métodos seudocientíficos aciertan a veces, ya indicamos que algunas proposiciones inductivistas son correctas, pero en otras muchas no. Uno de los principios fundamentales de un sistema de adquisición de conocimientos es evitar aceptar como válidos conceptos incorrectos. Si una disciplina hace mucha propaganda de los aciertos, pero silencia los errores nunca podremos tener una verdadera visión de su rigor, debido al sesgo en la selección de resultados. Es importante destacar que algunas corrientes tienen como base este importante error metodológico, propio de seudociencias poco rigurosas que dificultan el desarrollo de algunos sectores de las ciencias de la salud. La argumentación científica considera como válida una evidencia sólo en el ámbito donde haya sido demostrada, no aceptando que sea válida en otros, mientras no se haya demostrado, en todo caso podría considerarse como hipótesis de trabajo que lo mismo podría ocurrir en otros ámbitos, pero siempre con las precauciones inherentes a una hipótesis.
Características del método científico El método científico, como cualquier método que pretende la adquisición de conocimientos, intenta contestar preguntas. Una vez planteadas las preguntas se elaboran posibles respuestas fundamentadas en los conocimientos
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
17
aceptados como evidentes8 por la comunidad científica; estas posibles respuestas se denominan hipótesis. Después de elaboradas las hipótesis diseñaremos un experimento que permita contrastar la o las hipótesis. Si la ciencia es observacional realizaremos predicciones, las cuales pueden tardar mucho tiempo en ser comprobadas, como en el caso de la paleontología. Si un paleontólogo, a partir de la observación de fósiles encontrados, cree que las aves han evolucionado a partir de los dinosaurios, realizará predicciones sobre los fósiles de los eslabones aún no encontrados; estos pueden tardar muchos años en ser encontrados, si es que existen. Si el experimento o la observación permite confirmar la hipótesis, la consideraremos demostrada, pero siempre admitiremos la posibilidad de que las respuestas encontradas, a pesar de la evidencia, sean incompletas e incluso erróneas, pudiendo ser completadas en otros experimentos. Un científico no sólo debe tener amplios conocimientos de la materia en que trabaje y aplicar correctamente el método científico. Lo más importante es la actitud intelectual científica, aceptando la posibilidad de error pero exigiendo el máximo rigor antes de rechazar respuestas previamente aceptadas. En la historia de la ciencia hay muchos ejemplos de magníficos científicos que han rectificado algunas de sus conclusiones ante la evidencia experimental, pero también existen ejemplos de investigadores, que no científicos, que son incapaces de rectificar errores intentando defender por todos los medios sus conclusiones, a pesar de las muchas evidencias en contra. Otro seudocientífico frecuente es aquel que elabora una respuesta a una pregunta de interés y usa el método científico para demostrarla, pero si no lo consigue es capaz de rechazar la evidencia e incluso manipular los datos para exponer su respuesta. Esta actitud, bastante frecuente, es uno de los restos del racionalismo cartesiano. Estos individuos usan el método científico y la notación estadística como liturgia, para poder publicar sus conclusiones, pero están convencidos de que su hipótesis es cierta desde el momento de elaborarla. Las hipótesis, por muy convencidos que estemos de su veracidad, deben ser demostradas. En caso de no poder demostrarlas debemos buscar otras hipótesis, pero nunca es una actitud científica ir en contra de las evidencias. Por supuesto, la metodología experimental debe ser muy rigurosa para que los resultados puedan ser aceptados. Las secuencias del método científico son las siguientes: I. Enumerar preguntas. II. Posibles respuestas (planteamiento de hipótesis). III. Resolución de las hipótesis (fase experimental u observacional). IV Conclusiones. 8
Conocimientos evidentes mientras no sean refutados. Ninguna disciplina que presuma de científica puede admitir dogmas de fe o teorías indiscutibles.
18
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
I. Enumerar preguntas. Las preguntas a las que se quiera encontrar respuesta mediante el método científico deben ser claras, sin dobles interpretaciones. Antes de elaborar posibles respuestas (hipótesis), la bibliografía existente sobre el tema debe ser repasada de forma exhaustiva a fin de determinar si la pregunta ha sido contestada por otros científicos de forma satisfactoria. En caso de haberse planteado el problema, ¿qué hipótesis han sido planteadas hasta el momento?, ¿qué problemas se han encontrado? etc. La lectura de la bibliografía relacionada con un tema determinado proporciona información adicional, facilita el planteamiento de hipótesis y, lo más importante, saber si la cuestión que nos planteamos resolver ha sido ya contestada. Aun en el caso de haber sido contestada podría tener interés confirmar o no lo referido por otros colegas, sobre todo en el caso de que quede alguna duda sobre la resolución de la cuestión. Un solo trabajo de investigación que dé respuesta a una determinada cuestión no es suficiente para considerar el problema absolutamente resuelto. Habitualmente, antes de que una cuestión quede definitivamente aceptada por la comunidad científica, es necesario que varios investigadores coincidan en la misma respuesta, y aun así no podemos tener la completa seguridad de su vigencia en ámbitos distintos de los que ha sido demostrada. II. Planteamiento de hipótesis. Una vez planteada la pregunta a la que se quiere responder y conocido el estado de conocimiento sobre el tema, deben plantearse posibles respuestas; estas respuestas son las hipótesis. Las hipótesis deben plantearse de forma clara, realista y de modo que puedan ser estudiadas. Las hipótesis serán planteadas conceptual y operativamente. La o las hipótesis conceptuales hacen referencia a la posible respuesta a un problema determinado, en términos más literarios que matemáticos. La o las hipótesis operativas se enuncian en términos concisos y matemáticos si ello es posible, a fin de que permitan su resolución mediante un determinado estudio. Supongamos que en una región determinada, a la que denominaremos A, el agua potable contiene una cantidad de cloruro sódico elevada. Esto nos puede llevar a elaborar la siguiente hipótesis conceptual: entre los habitantes de la región A hay mayor proporción de hipertensos que en poblaciones en las que el agua potable tenga menos contenido de CINa. Si la proporción media de hipertensos en poblaciones cuya agua potable tiene un contenido bajo de CINa es del 12%, la hipótesis operativa puede ser la siguiente: La proporción de hipertensos en la región A es mayor del 12%. III. Resolución de las hipótesis. Las hipótesis planteadas deben ser demostradas, para lo cual debemos diseñar una secuencia de operaciones que lo permitan. A esta secuencia de operaciones la llamaremos trabajo de campo. En esta fase debe decidirse el tipo de estudio que se ha de realizar (cohortes, casos y controles, etc.), así como recoger los resultados y los estudios estadísticos necesarios para resolver las hipótesis.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
19
En algunas ciencias, como la paleontología o la astronomía, la experimentación no es posible. En el caso de ciencias observacionales elaboraremos teorías y haremos predicciones que serán confirmadas o refutadas a la luz de nuevas observaciones. Siguiendo con el ejemplo del subapartado anterior del agua potable con exceso de CINa el contraste y resolución de las hipótesis anteriores puede ser el estudio de todos los habitantes de la región A, mediante un estudio transversal de todos los habitantes o mediante una muestra probabilística. Si estudiamos a todos los individuos y el porcentaje de hipertensos es por ejemplo del trece por ciento, es una evidencia a favor de la hipótesis, pero no suficiente para considerar que la causa sea el exceso de CINa; antes habrá que descartar otras posibles causas. En el caso de que el resultado haya sido obtenido a partir de una muestra, habrá que estudiar si el resultado muestral es suficiente como para considerar que en la población la proporción de hipertensos es mayor del 12%, lo cual realizaremos mediante técnicas de estadística analítica (ver Capítulo 2). Supongamos que estadísticamente podemos considerar que la proporción de hipertensos en la región .A es mayor del 12%; toda conclusión basada en la estadística analítica deberá ir acompañada de un probabilidad de error debido al azar, ya que los hechos observados a partir de muestras son evidencias estimadas y solamente aplicables a la población muestreada. IV. Conclusiones. En esta etapa se elabora la memoria correspondiente al trabajo realizado, destacando las conclusiones inherentes a la demostración de las hipótesis y las consecuencias de las mismas. El no poder demostrar las hipótesis puede ser porque realmente no sean ciertas y, siendo ciertas, pueden no ser demostradas por errores aleatorios o metodológicos. En cualquier caso de todo trabajo científico pueden extraerse importantes experiencias. En el ejemplo de la regiónA en la que el agua potable tiene un exceso de CINa, las conclusiones podrían ser que el porcentaje de hipertensos es mayor que el de otras poblaciones con características etarias iguales pero en las que el agua potable tiene un contenido en CINa menor que en la región A Esto, por sí sólo, no es suficiente para demostrar una relación causa efecto, pero descartadas otras causas es una evidencia a favor de que el CINa sea la causa. En caso de confirmarse que realmente la causa en la región/I de la mayor proporción de hipertensos fuera el agua con exceso de CINa, podríamos extrapolar como hipótesis de trabajo los resultados a otras regiones en las que el agua tenga exceso de CINa, pero no podemos tener la completa seguridad mientras que dichas regiones no hayan sido estudiadas, también podríamos elaborar alguna teoría que explique porque el aumento en el consumo de CINa, aumenta el riesgo de padecer hipertensión.
20
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El ciclo científico Durante la realización de un trabajo científico suelen surgir nuevas preguntas, para las que enunciaremos hipótesis que habrá que demostrar. Por ello algunos autores hablan del ciclo científico; los métodos científicos de adquisición de conocimientos son un proceso cíclico sin fin. En la Figura 1,4 se esquematiza el ciclo científico; por muchas preguntas que puedan ser resueltas de forma satisfactoria quedan otras muchas por resolver. DISCIPLINAS CIENTÍFICAS Hay muchos movimientos intelectuales que intentan explicar el mundo que nos rodea; la mayoría de estos movimientos no son científicos, ya que lo que caracteriza a una ciencia no es la intención, sino el método. Las disciplinas que pretenden explicar la realidad podemos clasificarlas en tres tipos: Mitologías. Seudociencias. Ciencias. Mitologías. A partir de una serie de hechos no contrastados que se consideran como dogmas se construyen explicaciones de la realidad que no pretenden ser contrastadas. Cualquier hecho que aparentemente va en contra de la mitología intenta ser explicado a veces con razonamientos increíbles o con nuevos dogmas. El origen del cuerpo central de conocimientos se considera revelado por Dios u otros seres superiores; este es el caso de las religiones y de algunas corrientes filosóficas. En ciencias de la salud el desconocimiento del método es tan generalizado y algunos de los fundamentos tan faltos de rigor, que algunos autores consideran que en ciertos casos es mitológica (19).
Figura 1.4. El ciclo científico.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
21
Aunque un artículo contenga muchas fórmulas complicadas, si los fundamentos, las deducciones y aplicaciones matemáticas no se atienen al método científico pueden ser mitológicos. Seudociencias. Una seudociencia es una disciplina en la que el origen de sus creencias se basa en deducciones racionales a partir de unos conocimientos originales que se consideran incontestables y que no son contrastados. El método de trabajo de las seudociencias es el racionalismo. Entre las seudociencias podemos considerar el psicoanálisis, algunas corrientes epidemiológicas, el curanderismo, la homeopatía etc. Las seudociencias se suelen presentar como ciencias, pero no se someten a contraste, en la mayoría de los casos porque los primeros que dudan de ellas son sus creadores y adictos, aunque en muchas ocasiones les reportan interesantes beneficios económicos. Ciencias. Una ciencia es una disciplina que somete sus principios y deducciones a contraste continuo, no considera que ningún principio sea inmutable y utiliza como herramienta de trabajo el método científico.
Tipos de ciencias Una ciencia es una disciplina que pretende explicar la realidad y utiliza el método científico como medio para contrastar sus hipótesis. Las ciencias pueden ser: Teóricas. Observacionales. Experimentales Mixtas. Ciencias teóricas. Las ciencias teóricas parten de unos supuestos incontestables, axiomas, y a partir de ellos se enuncian teoremas, los cuales una vez demostrados engrosan el cuerpo de la correspondiente ciencia; utilizan pues el método deductivo. Las ciencias teóricas más importantes son las Matemáticas, también denominadas ciencias exactas, y la Física teórica, aunque esta última tiene fuertes lazos con la Física experimental. Muchos de los planteamientos de la Física teórica demostrados en la última década, como la existencia de ciertas partículas subatómicas, han sido enunciados entre 1920 y 1935 con fundamento en supuestos puramente teóricos. Ciencias observacionales. Una ciencia observacional parte de un cuerpo de conocimientos provisional, que puede ser modificado si las observaciones así lo sugieren. Debido a que el objetivo del estudio no es manipulable por el investigador, los conocimientos se obtienen por observación. Son ejemplos
22
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
de ciencias observacionales: gran parte de las ciencias de la salud, la astronomía, la paleontología, la arqueología, etc. En las ciencias observacionales, a partir de los hechos observados, se construyen teorías y se realizan predicciones, que pueden ser refutadas o confirmadas a la luz de nuevas observaciones. Ciencias experimentales. Las ciencias experimentales parten de un cuerpo teórico provisionalmente aceptado y a partir de él las hipótesis planteadas deben ser demostradas, mediante experimentos planeados y diseñados por el investigador. La ciencia experimental por excelencia es la Física experimental. La mayoría de las comodidades actuales son consecuencia de la aplicación de leyes físicas: radio, TV, refrigeradores, automóviles, aviación, etc. En las ciencias de la salud la colaboración de físicos ha conseguido espectaculares avances en métodos diagnósticos como: radiología, escáner, resonancia magnética nuclear, etc. Gran parte del cuerpo de conocimientos del ser humano se debe a la física. Siguiendo un método científico muy riguroso ha conseguido conocer con bastante detalle la estructura atómica, y en cosmología también son espectaculares los conocimientos sobre el origen y edad del universo. De la física debemos aprender lo importante que es el conocimiento cuantificado de los errores experimentales y la elaboración de un sistema de unidades universal. Si un físico español y un físico japonés hablan de fuerzas medidas en Newtons se entenderán sin ningún problema. En ciencias de la salud el sistema de medidas de la morbilidad y mortalidad, y la terminología sobre el riesgo es utilizada con poco rigor, en los Capítulos 3 y 4 serán analizados estos temas. En ciencias de la salud la investigación con animales y los ensayos clínicos pueden considerarse experimentales aunque con matices. Ciencias mixtas. Algunas ciencias constan de partes observacionales y partes experimentales. Las ciencias de la salud son mixtas. Ciencias de la salud. Las ciencias de la salud están formadas por un grupo amplio de disciplinas: fisiología, bioquímica, epidemiología, clínica, farmacia, veterinaria, etc, cuyo objetivo común es lograr un mejor conocimiento biológico del ser humano y conseguir un mayor bienestar de la población en materias de salud. Los métodos utilizados en cada una de ellas son muy distintos; en unos casos la experimentación será fundamentalmente con animales y en laboratorios; en otros, observaciones sobre pacientes, etc. En cualquier caso, el método utilizado debe ser el científico. Las ciencias de la salud son ciencias observacionales o experimentales, aunque la aplicación del método científico está en un estado embrionario. Los errores metodológicos en los trabajos de investigación son muy numerosos. Los errores de interpretación de los resultados experimentales u observacionales por parte de los profesionales suelen ser abundantes, en este caso el problema es importante puesto que pueden cambiar sus actitudes diagnósticas o terapéuticas, equivocadamente.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
23
Supongamos un médico licenciado en 1975. Veinte años después, en 1995, habrá modificado muchas de sus actitudes diagnósticas y terapéuticas, Si preguntamos con qué criterios ha modificado sus pautas profesionales, nos dirá que ha sido a través de discusiones con sus colegas, de congresos médicos, de trabajos científicos, de la propaganda de los laboratorios farmacológicos y de su propia experiencia. Las causas que influyen en que un profesional cambie sus pautas profesionales podemos reducirlas a dos: su experiencia personal y la derivada de los demás, (congresos, artículos, etc.), La experiencia9 personal no contrastada puede llevarnos a una idea de la realidad equivocada. Supongamos que un facultativo trata a los pacientes afectados de gripe con antibióticos10 y antitérmicos. Si conversamos con él acerca de sus pautas terapéuticas frente a la gripe, posiblemente se jactará de conseguir un 99% de curaciones en seis días. Las preguntas son ¿realmente el tratamiento es efectivo? ¿qué porcentaje de curaciones en seis días se conseguirían sólo con antitérmicos e incluso sin ningún tratamiento si la fiebre no es alta? Probablemente las curaciones en este caso serían las mismas, sin ningún tratamiento, e incluso las complicaciones menores, al no seleccionar cepas resistentes a los antibióticos habituales por el uso prematuro de los mismos. Pero, si dicho facultativo quisiera estar seguro de que su pauta es adecuada, tendría que realizar un ensayo clínico, con todos los problemas que ello supondría. Para tener mayor seguridad en la terapéutica aplicada tendrá que recurrir a la experiencia de los demás. El aprovechar la experiencia de los demás supone tener la formación científica adecuada para leer con sentido crítico la literatura científica. El problema es que la muchos profesionales de las ciencias de la salud tienen una deficiente formación en filosofía del conocimiento", metodología de la investigación científica y estadística12, con lo cual sus criterios de selección de trabajos importantes estarán motivados por el nombre de los firmantes y la presentación de los datos. Por lo tanto, los criterios que más influirán en sus decisiones serán cuestiones de imagen, propaganda y marketing, pero no científicos. Una de las ventajas del método científico es que cualquier individuo que lo conozca puede criticar un trabajo y aceptar o no sus conclusiones. Teniendo en cuenta que las grandes figuras hacen trabajos buenos y malos, el conocimiento del método nos permite discernir estos extremos. El no poder hacerlo nos sitúa en las 9
Osear Wüde decía que experiencia es cómo denominamos a nuestros errores metódicos. Aunque frente a la gripe no están indicados los antibióticos, un gran número de médicos lo utilizan. 11 En España, durante las licenciaturas en medicina y cirugía, biología, farmacia, veterinaria, odontología y diplomaturas en enfermería y fisioterapia, no existe ninguna asignatura sobre la filosofía del conocimiento ni sobre metodología científica. Sólo existe estadística, lo cual es grave porque la estadística es fundamental pero también lo es el conocimiento de la metodología científica y las técnicas de investigación utilizadas en ciencias de la salud. 12 Al tema de la aplicación de la estadística a las ciencias de la salud le dedicaremos el capítulo dos entero. 10
24
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
escuelas del siglo XVII, donde la voz del maestro era ley. Por otra parte si una marca comercial apoya un determinado trabajo, éste puede difundirse y ser mucho más influyente que un trabajo científico que no tenga apoyo económico. Una buena aplicación del método científico a las ciencias de la salud es de vital importancia para cualquier sistema de salud, ya que el conocer qué métodos diagnósticos y terapéuticos son los adecuados en un determinado problema permitirá atender mejor a los pacientes y abaratará costes, lo cual ayudará a que el progreso en ciencias de la salud sea más rápido. Las discusiones entre científicos con sólida formación científica suelen oscilar dentro de márgenes estrechos y sus discrepancias en general no serán muy amplias. Si dos físicos con sólida formación investigadora discuten sobre resultados experimentales, aunque no estén totalmente de acuerdo, sus diferencias no serán muy grandes. En ciencias de la salud, las discusiones entre sus profesionales en muchas ocasiones tienen márgenes de discusión muy amplios, incluso opuestos, esto es impropios de disciplinas científicas, conceptos tan sencillos cómo intervalos de confianza, prevalencia e incidencia son utilizados de forma inadecuada en muchos trabajos científicos (20-21). La formación científica en ciencias de la salud debe reforzar las siguientes áreas del conocimiento: Filosofía del conocimiento. Métodos de estudio en ciencias de la salud. Estadística. Unidades de medida. Filosofía del conocimiento. Un repaso sobre las principales escuelas del conocimiento; racionalismo, empirismo, positivismo etc. y leer los argumentos de los pensadores en favor y en contra de ciertas escuelas filosóficas ayudan a la formación del sentido crítico así como a tener una idea adecuada acerca de las posibles extrapolaciones, en el espacio y en el tiempo, de una evidencia científicamente demostrada. Si leemos un artículo científico, supongamos que correcto, en el que se indica que en una determinada ciudad se ha demostrado una relación causal entre la ingesta de café y una determinada enfermedad, aunque lo consideremos válido en el ámbito donde se realizó el estudio, ¿inmediatamente lo consideraremos universalmente válido y aplicable a todos los miembros de la especie humana?, recordamos que el induccionismo positivista hace muchos años que ha sido superado. Antes de aceptarlo incluso cómo hipótesis de trabajo hay que analizar el tipo de población en la que se ha realizado el estudio, edad, sexo, existencia de enfermedades u otras características que puedan explicar la asociación y a partir de qué dosis se evidencia la asociación; después habrá que esperar a que otros investigadores confirmen o no la asociación13; si varios autores confirman la asociación, consi13
En la valoración completa de un hecho científico, tan importante es conocer las observaciones a favor como las observaciones en contra.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
25
aeraremos como hipótesis de trabajo que entre el café y la correspondiente enfermedad existe una asociación causal; a continuación se realizarán experimentos con animales para conocer el mecanismo fisiopatológico responsable del efecto y se tratará de elaborar una teoría que justifique esta relación. A pesar de todo, la actitud debe estar abierta a cualquier rectificación parcial o total en la asociación, ya que factores de confusión a veces difíciles de controlar podrían explicar en todo o en parte el efecto achacado al factor, el café en este caso. Es frecuente que muchos profesionales consideren como demostrada una hipótesis con un solo trabajo a favor. Ni los inductivistas más entusiastas considerarían esto como válido. Métodos de estudio en ciencias de la salud. En la formación científica en ciencias de la salud, un tema fundamental es conocer los distintos métodos experimentales, en qué casos puede aplicarse cada uno de ellos y qué conclusiones podemos sacar. Un lector de literatura científica debe conocer a que conclusiones se puede llegar a partir de un determinado tipo de estudio y a cuales no. El Capítulo 5 de este libro, se dedicará íntegramente a los tipos de estudios en ciencias de la salud. En el Capítulo 2 también se comentarán las características estadísticas de los principales diseños experimentales en ciencias de la salud. Estadística. La inmensa mayoría de los trabajos sobre ciencias de la salud usan algún método estadístico. La estadística nos permite resumir en tablas y gráficos un trabajo científico. Utilizando correctamente las técnicas de muestreo, a partir de una muestra podemos estimar bastante aproximadamente parámetros de una población formada por muchos elementos. El conocimiento de la estadística es fundamental para leer y realizar artículos científicos. La formación en esta materia debe ser intensa e impartida por especialistas en estadística aplicada. Muchos de los errores que se cometen son debidos a los deficientes programas de formación en esta materia. En este libro, el Capítulo 2 entero, se dedicará a la aplicación de la estadística en las ciencias de la salud. En otros capítulos se abordarán las aplicaciones estadísticas a la resolución de problemas estadísticos concretos. Unidades de medida. En cualquier disciplina científica es fundamental disponer de un sistema de unidades lo más universalizado posible. Si dos científicos de dos países distantes deciden realizar juntos un experimento en el que deben pesar distintas sustancias, medir diversas longitudes, voltajes o intensidades eléctricas, no tendrán problemas y los dos entenderán lo mismo cuando hablen de gramos, metros, voltios o amperios. En ciencias de la salud también es importante desarrollar un sistema de unidades universalizado y
26
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
velar por su correcta aplicación. En los Capítulos 3 y 4 comentaremos las unidades de medida más utilizadas en ciencias de la salud. Es importante la creación de comités de vigilancia científica que comprueben la rigurosa aplicación del método científico, a fin de avanzar más rápidamente en el campo de las ciencias de la salud y rentabilizar al máximo las inversiones realizadas. No obstante, esto no es fácil. El desconocimiento del método y de la estadística es tan generalizado que si las revistas fueran rigurosas, la publicación de trabajos disminuiría de forma alarmante y no olvidemos que las revistas necesitan trabajos para publicar. Por otro lado muchos de los que ocupan puestos de relevancia en centros científicos incluso con responsabilidades docentes, tienen una preparación deficiente. En pocos años, se ha pasado de la práctica inexistencia de la investigación en ciencias de la salud a una proliferación importante de la misma, como consecuencia de ello se han creado muchos centros de metodología de la investigación y estadística, poniendo al frente de los mismos a personas que no habían acabado su formación, en muchas ocasiones personas con cursillos de pocos meses de duración han pasado del cursillo a tener responsabilidades docentes e investigadoras, prácticamente sin ninguna experiencia. Esto está generando la formación incorrecta de muchas personas. LECTURAS RECOMENDADAS La investigación científica, Mario Bunge, Editorial Ariel, 2.a edición 1985. Conocimiento objetivo, Karl Popper, Editorial Tecnos, 1988. La lógica déla investigación científica, Karl Popper, Editorial Tecnos, 1990. Realismo y el objetivo déla ciencia, Karl Popper, Editorial Tecnos 1985. La cultura científica, Ediciones Península, 1993.
BIBLIOGRAFÍA 1. Jaspers, K.., Descartes y la filosofía, Buenos Aires, Leviatan, 1958. 2. Rene Descartes, Discurso del método 1637. Editado en español por la Editorial Alfaguara, Madrid 1981. 3. Fallo de la derivación arterial extracraneal-intracraneal para reducir el riesgo de ataque isquémico. The NewEngland Journal of Medicine 1985. Vol: 313, págs: 1191-1200. 4. Einstein A., Carta a MaxBorn, 1924. 5. Bacon F, Novum organum, Londres 1620. Editorial Sarpe, Madrid 1984. 6. Locke, Ensayo sobre el entendimiento humano, 1690. En español Editora Nacional, Madrid 1980 dos volúmenes, 7. Noxon, J., La evolución déla filosofía de Hume, Madrid, Revista de Occidente, 1974. 8. Hume D., Tratado de la naturaleza humana, 1734. Editora Nacional Madrid 1977, dos volúmenes. 9. Dietzen, J., La resolución positiva déla filosofía, Barcelona, Laia, 1976. 10. Petit, J.M., Filosofía, política y religión en Auguste Compte. Barcelona, Acervo, 1978. 11. Auguste Compte, Curso de filosofía positiva 6 tomos 1830-1842. Madrid, Magisterio Español, 1977.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
12. 13. 14. 15. 16. 17. 18. 19. 20. 21.
27
Clarke R. Claude Bemard, Ediciones Cid, Madrid 1962. Bertrand Russel, History of western philosophy, capítulo XVII, pág. 673, Londres 1945. Carnap, Probability as a guide in Me Journal of Philosophy 44, 1947, pag 142 y sig. Popper Karl R, La lógica déla investigación científica, Madrid Editorial Tecnos, 1962. Popper K, Realismo y el objetivo de la ciencia, Madrid Edt. Tecnos. 1983. Popper K, La sociedad abierta y sus enemigos, Barcelona, Buenos Aires, México Editorial Paidos, 1991. R. K. Merton: The sociology of science, Chicago. Chicago university Press, 1973. Salsburg DS, The religión of statistics as practiced in medical journals. Am Statistician, 1985, vol. 39págs. 220-223. RothmanK, Epidemiología moderna, Madrid Ediciones Díaz de Santos, 1987, pág. 4. Elandt-Johnson, R. C. Definition of Rates: Some remarks on their use and misuse. Americam Journal Epidemiology, 1975; Vol, 102, págs. 267-271.
Capítulo 2 FUNCIÓN DE LA ESTADÍSTICA
Dios no juega a los dados. Albert Einstein. Dios no sólo juega a los dados, sino que a veces los tira donde no se pueden ver. Niels Bhor.
Las dos frases que encabezan el capítulo expresan la lucha dialéctica entre físicos deterministas como Einstein y físicos cuánticos como Bhor, que tuvo lugar en las primeras décadas del siglo XX. En la actualidad, la medicina y demás ciencias de la salud se encuentran en una encrucijada parecida: el conflicto entre la medicina tradicional, rígida y determinista, y la moderna medicina científica. En este capítulo se analiza el papel de la estadística en la aplicación del método científico a las ciencias de la salud. Se describen sus principios fundamentales, su notación y las precauciones que deben tenerse al aplicar los métodos estadísticos, cada día más complejos. También se comentan los principales errores cometidos en las aplicaciones estadísticas a las ciencias de la salud. En otros capítulos se revisarán las técnicas a aplicar de forma específica, diagnóstico, pronóstico, ensayos clínicos, estudios de cohortes, etc. Aquí se realizará un análisis de los principios estadísticos generales, aplicables en todos los casos. PAPEL DE LA ESTADÍSTICA La estadística cumple un papel fundamental en las ciencias experimentales y concretamente en las ciencias de la salud. Entre otras cosas nos permite expresar numéricamente los resultados de un trabajo científico. Dentro de la estadística podemos diferenciar la estadística descriptiva y la estadística analítica. La estadística descriptiva permite resumir los datos obte-
30
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
nidos. La estadística analítica permite obtener evidencias estimadas de poblaciones, mediante el análisis de muestras.
Estadística descriptiva La estadística descriptiva nos permite resumir en tablas, gráficos y algunos parámetros estadísticos (media aritmética, desviación típica, cuartiles, percentiles, etc.) un conjunto de datos, ofreciéndonos un resumen completo y una visión general del estudio realizado. La inmensa mayoría de los trabajos científicos deben contener al menos un estudio estadístico descriptivo de los datos, La estadística descriptiva se utiliza tanto en estudios de poblaciones como de muestras.
Estadística analítica En muchos estudios no es posible estudiar todos los casos de la población objetivo; en este caso debemos conformarnos con estudiar solamente una muestra. Las reglas de las técnicas de muestreo nos permiten elegir una muestra probabilística y, dependiendo del tamaño de la muestra alcanzar la precisión en la estimación que nos parezca necesaria. De esta manera, estudiando una pequeña proporción de la población, podemos tener un conocimiento bastante aproximado de la misma. Las conclusiones de un estudio por muestreo son una evidencia estimada de la población muestreada. Cualquier trabajo que pretenda inferir conclusiones sobre una población que no puede ser estudiada en su totalidad, precisa aplicar técnicas de muestreo. Los objetivos más frecuentes de la estadística analítica en ciencias de la salud son: estimar parámetros, contrastar hipótesis sobre una determinada población y comparar parámetros de dos poblaciones. Inferencia. Estimación de parámetros. En los estudios por muestreo se estima el valor de parámetros estadísticos poblacionales (media, desviación típica, coeficiente de correlación etc.), a partir de parámetros muéstrales que son sus estimadores; por ejemplo la media aritmética muestral es un estimador de la media aritmética poblacional; a partir de aquella estimaremos ésta mediante el correspondiente intervalo de confianza. Contraste de hipótesis sobre una población. Podemos contrastar hipótesis sobre una población estudiando todos los casos, o a partir de una muestra estadísticamente representativa. Los resultados obtenidos mediante el estudio de todos los individuos son una evidencia. Los resultados obtenidos a partir de una muestra son una evidencia estimada. En ambos casos la evidencia es referible a la población estudiada. Como hipótesis, los resultados pueden extrapolarse a poblaciones similares.
FUNCIÓN DE LA E STADÍSTICA
31
Los conceptos sobre estimación de parámetros y contraste de hipótesis, serán ampliados en este mismo capítulo, en los apartados «límites de inclusión e intervalos de confianza» y «contraste de hipótesis» respectivamente. Comparar dos o más poblaciones. En muchas ocasiones es necesario comparar parámetros de dos o más poblaciones; por ejemplo los ensayos clínicos comparan dos o más medias o proporciones calculadas a partir de dos o más grupos sometidos a distintos tratamientos. En este mismo capítulo ampliaremos los conceptos sobre comparación de datos entre dos o más poblaciones y comentaremos el importante concepto de diferencias significativas. APLICACIÓN PRÁCTICA DE LA ESTADÍSTICA EN LAS CIENCIAS DE LA SALUD A pesar de la importancia que la estadística tiene en la práctica clínica e investigación en ciencias de la salud, los conocimientos de una gran parte de los profesionales de las ciencias de la salud sobre estadística y metodología de la investigación es insuficiente. Si preguntamos a un médico u otro profesional que haya tomado una decisión terapéutica o diagnóstica por qué lo ha hecho, probablemente nos dirá que lo ha leído en un artículo científico. Inmediatamente nos surgen dos preguntas ¿tiene dicho profesional la suficiente formación como para comprender las complicadas herramientas estadísticas que actualmente se utilizan?, ¿está bien realizado el trabajo, son adecuadas las conclusiones?, y en caso de serlo, ¿son extrapolables fuera del ámbito de realización? Las respuestas a estas preguntas no son fáciles y los estudios realizados sobre el tema no son optimistas. La respuesta a la primera pregunta es preocupante. Los trabajos realizados (1-2-3) sobre el tema indican que la mayoría de los profesionales1 contestan erróneamente preguntas acerca del significado de conceptos básicos de estadística, como significado de la desviación típica, error estándar de la media, P < 0.05, etc. La respuesta a la segunda pregunta tampoco es alentadora. La mayoría de los trabajos publicados (4-5) sobre ciencias de la salud tienen errores estadísticos y metodológicos, y como consecuencia, muchas de las conclusiones no tienen el debido rigor científico. Los artículos citados están basados en artículos publicados en revistas de primera magnitud, como el British Medical Journal. El panorama es sombrío: los profesionales toman decisiones fundadas 1
El que los médicos y demás profesionales de las ciencias de la salud, tengan una deficiente formación en estadística y metodología de la investigación es debido a la deficiente confección de los planes de estudio y a la rápida implantación de la metodología científica en las ciencias de la salud.
32
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
en la lectura de trabajos en los que se usan en muchos casos complejos métodos estadísticos, que la mayoría no comprenden en toda su extensión. Por otra parte, un gran porcentaje de los trabajos tienen importantes errores que disminuyen el rigor de las conclusiones. Al final ocurre que según quien publique el trabajo, éste será o no tenido en cuenta, volviendo así a la época de los grandes patriarcas cuya palabra es sinónimo de verdad indiscutible. No olvidemos que un gran maestro también se equivoca a veces, Precisamente el conocimiento del método científico y de la estadística nos permite discernir los trabajos buenos de los malos los publique quien los publique. El profesional está hoy día a merced de la influencia de escuelas que controlan un importante porcentaje de las publicaciones, sobre todo en las grandes revistas y del marketing de las casa comerciales. No obstante, hay que ser optimistas. Hace 25 años ni siquiera se oía hablar de estadística en las ciencias de la salud. Hemos avanzado mucho, pero se corre el peligro de estancamiento y de la utilización de un lenguaje estadístico que no entienden ni los que lo leen ni los que lo escriben. Como en todas las mitologías, parece que eso es un rito (6) necesario: «no hay mito sin rito». Se cae así en el escalón más bajo de la filosofía del conocimiento: el creer o el no creer, sin tener criterio para opinar, en muchos casos deslumhrados por complicadas ecuaciones y gráficos que causan el mismo efecto de fascinación que los rituales fastuosos de las antiguas religiones. Estas afirmaciones pueden parecer exageradas, pero no lo son en absoluto. El desconocimiento de los más elementales principios del método científico y de la estadística es la norma entre los profesionales de las ciencias de la salud incluyendo a muchos de los que tienen responsabilidades investigadoras y docentes. En general la estadística que se imparte en los programas de postgraduados es insuficiente, los fundamentos de la metodología científica, en la mayoría de ellos ni se menciona. Es muy importante reforzar la formación en metodología científica y estadística en pregrado y postgrado. No olvidemos que la inversión para investigar en ciencias de la salud es multimillonaria, gran parte de la cual se gasta inútilmente contribuyendo a crear confusión en lugar de aclarar ideas. Sobre todo es fundamental la formación del profesorado. En la bibliografía observamos el uso de métodos estadísticos cada vez más complejos, debido a la utilización generalizada de ordenadores y de paquetes estadísticos. Sin embargo, en muchos casos los principios fundamentales de la estadística se desconocen y los cálculos realizados no tienen sentido. Uno de los errores más frecuentes es la famosa notación con el símbolo ±. Se ha generalizado la idea de que las medias aritméticas u otros parámetros estadísticos deben siempre ir seguidas del símbolo ±, lo cual en muchas ocasiones es incorrecto como veremos en este mismo capítulo. Lo grave es que el mal uso de dicho símbolo implica el desconocimiento de las más elementales bases de la estadística, como puede ser el distinguir entre población y muestra o entre estadística descriptiva y analítica.
FUNCIÓN DE LA E STADÍSTICA
33
POBLACIÓN Y MUESTRA Desde el punto de vista estadístico, una población es un conjunto de objetos, personas o incluso números que atraen nuestro interés: las personas afectadas de hipertensión en una ciudad y año determinado, los abogados de un país en una fecha determinada, los números racionales, las cápsulas correspondientes a un determinado fármaco y fabricadas un determinado mes etc., son ejemplos de poblaciones estadísticas, Una población puede ser muy grande o muy pequeña, una población puede ser infinita como el conjunto de números enteros, muy grande como el conjunto de habitantes de la Tierra o pequeña como un grupo de 15 pacientes a los que se somete a una nueva terapia, Al realizar un trabajo de investigación tenemos una población objetivo, por ejemplo los diabéticos insulinodependientes de una ciudad en una fecha determinada. En la mayoría de las ocasiones no podemos estudiar todos los elementos de la población, en este caso decimos que la población es inaccesible. Una población puede ser inaccesible por muchas causas; la imposibilidad de estudiar todos sus elementos. Por falta de dinero o de tiempo, suele ser la más frecuente. Por otra parte, utilizando adecuadamente las técnicas de muestreo, estudiando un pequeño porcentaje de la población, podemos tener una precisión muy alta en la estimación de los parámetros estadísticos, ahorrándonos mucho tiempo y dinero. Una población debe quedar perfectamente definida, para lo cual hay que especificar la localización geográfica, temporal y el tipo de personas estudiadas. Por ejemplo, sería incorrecto decir que en un estudio realizado en Madrid el colesterol medio obtenido es de 250 mg/100 ml. Debe especificarse la fecha de realización y las características de las personas estudiadas, edad, sexo etc. En el caso de no poder estudiar la población, debemos elegir una muestra probabilística, la cual no es cualquier parte de la población, aunque esta sea grande. Debe ser una parte de la población elegida mediante las técnicas de muestreo adecuadas, a fin de que sea representativa de la población. Por ejemplo, supongamos que estamos interesados en estimar la talla media de los ciudadanos pertenecientes a la Unión Europea, y que disponemos de todas las tallas de los españoles, franceses, italianos, griegos y portugueses. Los ciudadanos descritos pertenecen a la Unión Europea y además se trata de una gran parte de la población, más de la mitad. Pero sería un error considerar esta gran muestra como representativa de la Unión Europea, La talla media calculada de esta manera sería menor de la que realmente es. Sin embargo una talla media calculada a partir de una muestra de pocos miles de individuos, elegidos mediante una técnica de muestreo adecuada, sería una estimación bastante precisa de la media poblacional, Una condición que debe cumplir toda técnica de muestreo es que, antes de la elección de los elementos de la muestra, todo individuo de la población tenga una probabilidad mayor de cero de pertenecer a la muestra, Por ejemplo, si tomamos una muestra representativa de españoles
34
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
las conclusiones estadísticas solo pueden ser referidas a los mismos; de una muestra representativa de madrileños solo pueden obtenerse conclusiones sobre los madrileños, de una muestra representativa de los pacientes de un determinado hospital se pueden obtener valiosas conclusiones sobre los pacientes de dicho hospital. Las conclusiones obtenidas son evidencias sobre las poblaciones estudiadas. Como hipótesis de trabajo, puede considerarse que, en poblaciones similares las cosas son aproximadamente iguales. En el caso de poder estudiar toda la población, describiremos estadísticamente los parámetros en los que estemos interesados, considerándolos como una evidencia sobre la población estudiada, pero en ningún caso podremos extrapolar como una evidencia los resultados fuera del ámbito en que se realizó el estudio (recuerde las discusiones sobre inferencia que realizamos en el apartado referente al método científico). En todo caso podremos aventurar hipótesis de trabajo sobre poblaciones parecidas, en tanto no dispongamos de más información. Cuando se descubrió la epidemia de SIDA, los primeros estudios se realizaron en la ciudad de San Francisco. En dichos estudios se evidenció que una gran proporción de los enfermos eran varones homosexuales. En este caso la población estudiada fue la de pacientes de SIDA de la ciudad de San Francisco en 1981, y las pertinentes conclusiones eran solamente válidas para dicha población. Hubiera sido un burdo error afirmar que en todos los sitios sería igual. Otra cosa es que como hipótesis de trabajo se pensara que esto podía ser así en otras poblaciones, mientras obteníamos resultados. Es muy importante distinguir entre una afirmación científica basada en la evidencia y una hipótesis de trabajo. La evidencia puede ser defendida en cualquier lugar y confirmada por cualquier investigador que disponga de los medios adecuados, mientras que la hipótesis de trabajo solo puede ser mantenida hasta obtener más resultados, que la confirmarán o rechazarán. Los estudios posteriores en otros países como España demostraron que además de varones homosexuales, los pacientes de SIDA pertenecían a otros grupos humanos como drogadictos por vía intravenosa. En África la mayoría de los afectados han sido contagiados por contactos heterosexuales. Con todas las evidencias conocidas se trató de encontrar una causa común a todos ellos, obteniéndose una teoría2 general: el contagio se produce cuando el virus penetra en la sangre de un individuo y afecta a su sistema inmunitario, siendo varias las posibles vías de entrada. LIMITES DE INCLUSIÓN E INTERVALOS DE CONFIANZA Si el estudio se realiza a partir de una muestra, la evidencia es menor que en el caso de estudiar toda la población. Las estimaciones realizadas solo son válidas en la población muestreada. 2
Cualquier teoría general, por muchas evidencias que haya a su favor, estará vigente hasta que sea incompatible con alguna observación, en cuyo caso habrá que elaborar otra nueva que sea compatible con todas las observaciones realizadas.
FUNCIÓN DE LA E STADÍSTICA
35
Supongamos que estamos interesados en estudiar la talla media en una determinada población de 30.000 habitantes a la que denominaremos W, después de estudiarlos a todos obtenemos que la media es 170 cm y la desviación típica 8, expresaremos esto de la siguiente manera:
Seria un error utilizar un símbolo ± junto a la media, ya que eso indica una indeterminación que no puede existir puesto que hemos estudiado la población entera. En todo caso, si la variable se distribuye normalmente en la población, podemos calcular los límites de inclusión entre los que se encuentran el 95% de los habitantes de la población estudiada, aplicando la siguiente expresión:
Aplicando la expresión anterior a nuestro ejemplo: Li= 170 ± 1,96 • 8, realizando las operaciones: Li = (154,32, 185,68), lo cual indica que el 95% de los habitantes de la ciudad estudiada tienen una talla comprendida entre 154,32 y 185,68 cm. Observe que en este caso no hacemos inferencia sobre la media, no nos hace falta, la conocemos con toda exactitud. Las conclusiones sobre el 95% de los habitantes solo son válidas si la variable se distribuye normalmente, pero si disponemos de todos los resultados y de un buen ordenador podemos calcular el 2,5° y el 97,5° percentiles, con lo cual tendremos los puntos entre los que se encuentra el 95% de la población, sin necesidad de comprobar la normalidad de las variables y con toda exactitud. Muchas de las variables que utilizamos habitualmente en ciencias de la salud no se distribuyen normalmente. En este caso con los datos obtenidos hacer inferencias sobre otras ciudades, aunque sean limítrofes, sin disponer de datos acerca de ellas, no tiene ningún rigor científico. Podríamos acertar en algunos casos por casualidad. Lo dicho en este caso sobre la talla es válido para cualquier variable. Supongamos ahora que el estudio sobre la talla en la ciudad del ejemplo anterior lo realizamos mediante una muestra de tamaño 500 (el tamaño de la muestra y la selección de los individuos se supone realizada mediante una técnica de muestreo correcta), obteniéndose una media muestral X = 170 y una desviación típica muestral de S = 83. A la vista de estos datos podemos decir que la talla media de los 500 individuos de la muestra es de 170, con 3 La mayoría de los autores usan el símbolo µ para la media poblacional y X para la media muestral, o para la desviación típica poblacional y S para la desviación típica muestral.
36
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
desviación típica 8, pero a nosotros lo que nos interesa es estimar4 la media poblacional. Al realizar una estimación debemos indicar con qué probabilidad de acertar (confianza) queremos hacerla. Si queremos calcular en este caso un intervalo de confianza para la media del 95% la fórmula a aplicar es la siguiente:
La expresión anterior permite calcular un intervalo de confianza para la medida aritmética poblacional con una confianza del 95%. En caso de necesitar una confianza distinta del 95%, sustituir en la expresión anterior 1,96 por el valor de Z5 correspondiente (7). La expresión 2.2 es válida para el cálculo de intervalos de confianza para la media cuando el tamaño de la muestra representa una pequeña proporción del tamaño de la población y como técnica de muestreo se ha utilizado el muestreo aleatorio simple. La mayoría de los autores consideran que dicha expresión debe ser utilizada cuando el tamaño de la muestra constituye menos del 5% del tamaño poblacional6, cuando el tamaño de la muestra es mayor del 5% del tamaño de la población la expresión que emplear es la (2.3). En nuestro caso, sustituyendo valores, el cálculo del intervalo sería el siguiente:
4
La palabra estimar o estimación solamente la utilizaremos cuando hayamos hecho estudios por muestreo. Si estudiamos la población entera, los parámetros calculados han sido medidos y calculados sin error (suponiendo que el estudio esté bien realizado y que los instrumentos de medida funcionen correctamente). Si el estudio ha sido realizado a partir de una muestra, el conocimiento de los parámetros poblacionales será aproximado y hablaremos entonces de estimación. 5 Z es la abscisa normal tipificada. 6 Cuando el tamaño muestral (n) representa menos del 5% del tamaño de la población (N), a las correspondientes poblaciones se las considera estadísticamente infinitas para los cálculos. Esto también se puede expresar como que la fracción muestral n/N < 0,05. 7 Observe que es lo mismo decir que hay un 95% de confianza que un 5% de probabilidad de error que es lo que indica P < 0,05.
FUNCIÓN DE LA E STADISTICA
37
La expresión anterior indica que hay un 95%7 de probabilidad de que la talla media de la ciudad Hueste comprendida entre 169,3 y 170,7. No confundir en este caso el intervalo de confianza para la media con los límites entre los que se encuentra el 95% de los individuos de la población. La expresión (2-1) nos permite calcular los límites de inclusión entre los que se encuentran el 95% de los individuos de la población, si conocemos la media y la desviación típica poblacionales y si la variable se distribuye normalmente. En un estudio por muestreo, los límites podrían ser estimados a partir de la media y de la desviación típica muéstrales, debiendo indicar en éste caso sus respectivos intervalos de confianza. La expresión (2-2) nos permite estimar con un 95% de probabilidad entre qué valores se encuentra la media de la población muestreada a partir de la media y desviación típica muestral, con la condición de que la media muestral se distribuya normalmente. La media muestral, según el teorema central del límite, se distribuye normalmente si el tamaño de la muestra es mayor de 30. Aunque la muestra sea menor de 30, la media muestral se distribuye normalmente si la variable es normal. En los casos en los que el tamaño sea menor de 30 y la variable no se distribuya normalmente, no sería aplicable la expresión (2-2). Insistimos en que el uso de la expresión (2-2) solamente es aplicable en la estadística analítica con las condiciones antedichas. Su uso es erróneo si los datos no provienen de una muestra probabilística. Con objeto de justificar el uso incorrecto de los intervalos de confianza, he oído comentar muchas explicaciones, algunas muy extrañas, la más frecuente es decir que todo el mundo lo hace, o que el corrector de la revista científica donde se pretende publicar el artículo así lo exige, una muy pintoresca y extendida es decir que «toda población es muestra de sí misma y, por lo tanto, es correcto el cálculo de intervalos de confianza». Cuando los datos corresponden a una población por definición, no tiene sentido el cálculo de intervalos de confianza, ya que éste representa una inexactitud en el conocimiento del correspondiente parámetro poblacional. Pero, ¡sigamos el juego!: cuando el tamaño de la muestra representa más del 5% del tamaño de la población, la expresión aplicable al cálculo de un intervalo de confianza para la media del 95% es la siguiente (8):
En la expresión anterior n es el tamaño de la muestra y N el tamaño de la población. Si la muestra es toda la población n = N y por lo tanto:
38
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
La expresión 2.4 indica que si el tamaño de la muestra es igual al de la población, la indefinición en el conocimiento de la media poblacional no existe y el parámetro muestral y poblacional es el mismo. La defensa del cálculo de intervalos de confianza cuando disponemos de los datos poblacionales expresa el desconocimiento de las más elementales reglas de la estadística, como es el significado de un intervalo de confianza. Además implica desconocer que la expresión 2.2 es aplicable bajo ciertas condiciones y que la fórmula general válida para todos los casos es la 2.3. Me he extendido en la aclaración de este concepto porque es una herejía estadística muy extendida. Por otra parte, en la mayoría de los libros sobre estadística aplicada a las ciencias de la salud o bioestadística no se hace referencia a la expresión 2.3, pudiendo inducir al error de que la expresión 2.2 es aplicable en todos los casos. Aunque la discusión anterior ha sido realizada sobre la estimación de medias, es aplicable a todos los parámetros muéstrales que en el muestreo se distribuyan normalmente. Hemos comentado el caso de intervalos de confianza para la media aritmética, porque es con mucho el caso más frecuente. Pero debe tenerse en cuenta que a partir de una muestra probabilística pueden estimarse otros muchos parámetros poblacionales, como proporciones, coeficientes de correlación y de regresión, riesgo relativo, etc. El cálculo de los correspondientes intervalos de confianza debe realizarse aplicando las expresiones específicas en cada ocasión. En cualquier caso como cuando se trata de la media aritmética, es correcta la estimación de parámetros poblacionales si disponemos de una muestra probabilística. Las estimaciones realizadas son válidas únicamente para la población muestreada. En casi todos los trabajos realizados en ciencias de la salud se calculan intervalos de confianza, lo cual es incorrecto en muchos casos. En el ejemplo de la talla no tendría ningún sentido extrapolar los datos, o considerar el intervalo de confianza a poblaciones distintas de la muestreada, aunque sean limítrofes. En muchos casos, algunas variables estadísticas serán similares en poblaciones cercanas o con características parecidas, pero en otros no. Debemos recordar que un método de adquisición de conocimientos riguroso debe evitar considerar datos incorrectos como ciertos. En ciencias de la salud es frecuente manejar estimaciones realizadas en otros lugares como si fueran universalmente válidas. Ni la estadística ni la filosofía del conocimiento permiten estas extrapolaciones, que carecen del más mínimo rigor científico.
FUNCIÓN DE LA E STADÍSTICA
39
POBLACIONES ESTADÍSTICAS HABITUALES EN CIENCIAS DE LA SALUD En el capítulo 5 se describirán con detalle los principales tipos de estudios utilizados en ciencias de la salud y los análisis estadísticos adecuados en cada uno de ellos. En éste apartado comentaremos las características estadísticas y la notación que se debe emplear en los siguientes estudios: Series de casos. Estudios transversales. Estudios de cohortes. Casos y controles. Ensayos clínicos, Estudios de mortalidad. Señes de casos. Los estudios de series de casos son los más frecuentes en la literatura científica en ciencias de la salud. En ellos un profesional o servicio hospitalario describe las características clínicas y terapéuticas de un grupo de pacientes afectados de una determinada enfermedad. Son estudios descriptivos que permiten elaborar hipótesis acerca de la enfermedad que corresponda, pero nunca demostrarlas. Estos estudios no constituyen una muestra estadísticamente representativa, pueden considerarse como una población estadística en sí mismos. Supongamos que el servicio de medicina interna de un determinado hospital, publica un trabajo en el que se describen las características clínicas, supervivencia y respuesta terapéutica de los pacientes afectados de linfoma no Hodking vistos en los últimos cinco años. Dicho estudio permitirá realizar hipótesis sobre algunos detalles clínicos y terapéuticos y permitirá a otros servicios comparar los datos con pacientes afectados de la misma enfermedad. Los datos no son extrapolables fuera del servicio que ha realizado el trabajo, y la serie de casos constituye la población estadística de pacientes afectados de linfoma no Hodking, vistos en el servicio de medicina interna en los últimos 5 años. Supongamos que en esta serie de casos la vida media, una vez diagnosticados, es de 10 años, con desviación típica 1.2. No podríamos deducir a la vista de este estudio, que los pacientes con linfoma no Hodking tienen una vida media de 10 años en todos los servicios de características similares. Eso podría ocurrir en alguno por casualidad, pero, aunque la vida media fuera aproximada en la mayoría de los servicios, habría diferencias. En general los datos obtenidos en un servicio hospitalario, o por un determinado profesional no son extrapolables: los diferentes medios diagnósticos, tipo de pacientes, etc., no suelen ser iguales. En muchas ocasiones, incluso dentro de un mismo servicio, los resultados diagnósticos y terapéuticos obtenidos por los facultativos son distintos. En las series de casos no deben calcularse intervalos de confianza, puesto que no estamos ante una muestra representativa de ninguna población estadís-
40
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
tica. Supongamos que en el estudio se indica que la media de supervivencia es 10 y el intervalo de confianza del 95% es (9,7, 10,3), 10± 0,3. Esto significaría que hay un 95% de probabilidad de que en la población muestreada los pacientes con linfoma no Hodking vivan por termino medio entre 9,7 y 10,3 años. Sería un error interpretarlo como que el 95% de los pacientes viven entre 9,7 y 10.3 años, pero la vida media de los pacientes estudiados es exactamente 10, y fuera del servicio de referencia no tenemos ninguna evidencia que nos permita extrapolar nuestros datos (recuerde las bases filosóficas y estadísticas comentadas en el Capítulo 1 y en este mismo capítulo). Ni en el supuesto de que en la misma ciudad hubiera otro servicio de medicina interna estaría justificado extrapolar los datos a otros pacientes de la misma ciudad, ya que las características de los pacientes, integrantes del otro u otros servicios de medicina interna, y las características hospitalarias podrían modificar sustancialmente los resultados. La notación estadística debe ser descriptiva nunca analítica y calcular intervalos de confianza para la media aritmética u otros parámetros indicarían desconocer las más elementales reglas estadísticas. En series de casos, la estadística analítica sólo tiene sentido en las raras ocasiones en las que un profesional o servicio dispone de un número de casos tan grande que, en lugar de incluir a todos en el estudio, decide realizar un muestreo de los mismos. En este caso los intervalos de confianza serían referidos a los pacientes del servicio muestreado y nunca fuera de él. Las series de casos son muy importantes a fin de que los profesionales puedan comparar sus respectivas experiencias y generar hipótesis. En caso de que alguna característica sea descrita en muchos centros, la comunidad científica la considerará como inherente a la enfermedad estudiada, mientras no se demuestre lo contrario. Estudios transversales. Los estudios transversales tienen como objetivo, conocer una o más características de una determinada población en un tiempo determinado, por ejemplo la proporción de diabéticos en una determinada ciudad en una fecha determinada, la proporción de estudiantes que cursan enseñanza básica en una determinada ciudad y fecha que no han recibido todas las vacunas obligatorias, el colesterol basal medio en personas de 30 a 50 años en una determinada ciudad y fecha, etc. En el caso de que estudiemos todos los elementos de la población objetivo, describiremos los datos analizados, los cuales serán válidos para la población y fecha estudiados. Al tener un estudio de la población completa no tiene sentido calcular intervalos de confianza, puesto que disponemos del dato exacto. Por ejemplo, en una determinada ciudad el porcentaje de diabéticos es del 2% en octubre de 1994; en una determinada ciudad el porcentaje de estudiantes que cursan enseñanza básica que no han completado sus vacunas es del 12% en Junio de 1994; el colesterol basal medio entre los habitantes de una ciudad de 30 a 50 años es 239 en enero de 1995. En los ejemplos anteriores los datos son una evidencia únicamente para la población y fecha estudiadas. En el ejemplo del colesterol, si
FUNCIÓN DE LA E STADÍSTICA
41
realizamos el estudio a las mismas personas en Julio en lugar de Enero lo más probable es que el valor sea distinto, puesto que la alimentación y la actividad física es distinta en verano que en invierno. En muchos casos no podemos estudiar la población entera, procediendo a estudiar una muestra representativa de la población objetivo. Los datos obtenidos a partir de la muestra podemos extrapolarlos a la población muestreada y sólo a ella. En el caso del colesterol basal, si el dato 239 fuera el de la media de la muestra, calcularíamos el correspondiente intervalo de confianza para la población, supongamos que con una confianza del 95% fuera (234,244). Nuestra conclusión sería que hay un 95% de probabilidad de que el colesterol basal medio de las personas con edad comprendida entre 30 y 50 años de la ciudad muestreada en Enero de 1995 esté comprendido entre 234 y 244 mg/100 mi. El intervalo de confianza sólo es válido para la población muestreada, nunca fuera de ella, y es un valor menos exacto que si hubiéramos estudiado la población entera. Los estudios transversales son muy útiles para conocer las características de salud de poblaciones humanas y poder planificar adecuadamente los recursos sanitarios, pero es evidente que el conocimiento de una determinada población sólo sirve para ella. Como hipótesis de trabajo podemos suponer que, en poblaciones con características socioculturales, edad y ambiente parecido los datos serán similares. Estudios de cohortes. Estos estudios son los mejores en etiología y determinación de factores de riesgo, de protección y pronósticos también son los más adecuados en el estudio de factores pronósticos, pero suelen ser caros y de larga duración. Estos estudios también se utilizan para objetivar otros aspectos como en evaluación terapéutica, pero hay otros estudios considerados mejores para ello, en cada capítulo comentaremos cuáles son los mejores estudios en cada caso. Un estudio de cohortes consta de un grupo habitualmente grande de personas con distintos grados de exposición a un factor o factores y que en el momento de comenzar el estudio no padecen una determinada enfermedad en el caso de estudios etiológicos, en el estudio de factores pronósticos, los individuos deben ser incluidos en el estudio cuando la enfermedad comience a dar sintomatología clínica. El objetivo fundamental del estudio consiste en determinar si uno o más factores aumentan la probabilidad de padecer la enfermedad, o de supervivencia. En el caso de que podamos seguir una población entera como se hizo en Framinghan, barrio de Boston, cuya población fue seguida casi en su totalidad durante varios años, y donde se evidenció que los niveles altos de colesterol aumentaban la probabilidad de padecer insuficiencia coronaria, los datos numéricos obtenidos son una evidencia para Framinghan, sin intervalos de confianza puesto que casi todos los habitantes de la ciudad fueron incluidos en el estudio. Si la cohorte hubiera estado formada por una muestra representativa de Framinghan, los datos deberían ir acom-
42
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
panados de sus respectivos intervalos de confianza referidos a Framinghan. ¿Qué conclusiones podemos sacar para el resto de las poblaciones de las que no tenemos datos? Como hipótesis de trabajo podemos considerar que los niveles altos de colesterol basal aumentan el riesgo de padecer enfermedades coronarias, pero debemos cuantificar el riesgo y este no es igual en todas las poblaciones del mundo, un nivel de 295 mg/100 ml de colesterol basal no tiene el mismo riesgo en mujeres que en hombres, ni entre esquimales o anglosajones o latinos, ni es lo mismo si el individuo es hipertenso y/o fumador etc. El cuantificar el riesgo es fundamental al decidir una intervención terapéutica, la cual a veces tiene más riesgos que no intervenir. El conocimiento científico debe ser lo más exacto posible y cuantificado. No podemos considerar si un determinado nivel de colesterol es bueno o malo, hay que cuantificar el riesgo para cada tipo de población, y datos de poblaciones como Estados Unidos o Suecia no son extrapolables a España o Francia, por ejemplo. Según datos de 1985 la tasa de mortalidad estandarizada por cardiopatía isquémica en varones por 100.000 habitantes era de 406 en Irlanda del Norte, 243 en Suecia, 235 en Estados Unidos, 104 en España y 94 en Francia. Observe la gran diferencia entre los datos y el poco fundamento científico que tendría el extrapolar datos de Estados Unidos a España, cuya tasa de mortalidad estandarizada es la mitad y la influencia de los factores de riesgo es cuantitativamente distinta. Casos y controles. Este tipo de estudios son empleados en muchos aspectos de las ciencias de la salud. Son muy eficientes en la determinación de factores causales cuando el factor causal es único o casi único, como el cáncer de pulmón que aunque el tabaco no es el único factor causal, el número de afectados entre los no fumadores es muy pequeño, también han sido empleados para caracterizar factores pronósticos e incluso terapéuticos, como veremos en los capítulos correspondientes. Son más fáciles de realizar que los estudios de cohortes, aunque son menos fiables. Suelen ser los estudios de elección en epidemias a fin de intentar determinar de forma rápida el origen de las mismas. Por cada caso se eligen uno o varios controles y, de forma retrospectiva, se investiga la asociación entre factores y enfermedad. Si en el estudio entran todos los casos conocidos en un determinado ámbito geográfico, los datos deben expresarse sin intervalos de confianza. Únicamente en el supuesto de que los casos constituyan una muestra probabilística de los casos de una determinada población, los datos se expresarán con intervalos de confianza, siendo estos relativos a la población muestreada. Supongamos que en una ciudad se desarrolla una epidemia de gastroenteritis aguda y que en un estudio de casos y controles se demuestra una fuerte asociación entre los casos y una determinada marca de salsa de tomate. Evidentemente el hecho es válido para la ciudad donde se ha realizado el estudio y lo más probable es que solamente una partida de envases estén contaminados, y en otras ciudades, incluso en algunas partes de la misma ciudad donde se consuma la misma marca de tomate, no haya afectados. Lo más probable es que las autoridades sanitarias
FUNCIÓN DE LA E STADÍSTICA
43
suspendan la venta de salsa de tomate de la marca implicada hasta que se realice un estudio más exhaustivo. Los estudios de casos y controles no suelen basarse en muéstreos probabilísticos, en cuyo caso no tiene sentido realizar contrastes como la chi-cuadrado ni calcular intervalos de confianza. Ensayos clínicos. Cualquier estudio cuyo objetivo sea realizar una evaluación terapéutica es un ensayo clínico, los más eficientes son los estudios de intervención, prospectivos, concurrentes y de asignación aleatoria (EICCAA), los comentarios de este apartado son referidos a ellos. Son estudios prospectivos que intentan estudiar si es ventajoso un determinado tipo de tratamiento frente a un placebo o frente a otro tratamiento. Estos estudios, muy complejos, suelen tener varias fases. En la fase III suelen incluirse cientos e incluso miles de personas, (salvo en el caso de enfermedades raras). Las conclusiones cuantitativas son válidas para el ámbito en que se realiza el estudio, aunque cualitativamente los resultados deben considerarse provisionalmente válidos para el resto de pacientes del mismo tipo. Cada vez es más frecuente que los ensayos clínicos se realicen de forma simultánea en varios centros a la vez (estudios multicéntricos). De esta manera podemos observar si los resultados difieren mucho de una población a otra. Supongamos que, en un país determinado, se lleva a cabo un ensayo clínico en el que se demuestra que un tratamiento es efectivo frente a una enfermedad para la que hasta la fecha no se disponía de ninguna terapéutica eficaz. Desde el punto de vista estadístico los resultados son válidos para la población de referencia, pero dado que no se dispone de terapia eficaz, asumiremos su validez universal y trataremos a pacientes de otras regiones con el tratamiento ensayado y sacaremos conclusiones a posteriori. Son muchos los ejemplos en los que tratamientos considerados muy buenos, según los resultados de los ensayos clínicos, una vez probados en muchos pacientes no llega a demostrarse su eficacia. Uno de los casos más conocidos y reciente es el tratamiento con AZT de los pacientes HIV positivos. Los resultados durante el ensayo eran tan buenos que incluso se suspendió dicho ensayo prematuramente para poder ofrecer esta terapéutica a los pacientes. Sin embargo, los resultados clínicos no fueron tan buenos como se esperaba. El efecto del azar en unos casos y de los intereses comerciales en otros pueden provocar errores. En los ensayos clínicos podemos usar intervalos de confianza en los datos, asumiendo que los pacientes dentro del ensayo son una muestra aleatoria de enfermos del mismo tipo en la población de referencia de los centros donde se realiza el estudio, lo cuál tiene sus detractores y sus valedores. Estudios de mortalidad. El estudio cuantitativo de mortalidad y sus causas es muy importante y algunos índices calculados en estos estudios se consideran como indicadores de calidad de vida. En los estudios de mortalidad, habitualmente se analizan todos los fallecimientos ocurridos en una determinada ciudad y sus causas, durante un determinado período de tiempo, habitualmente un año. En este caso el número total
44
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
de muertos y sus causas deben expresarse sin intervalos de confianza. Hacerlo sería un burdo error. Supongamos que en una determinada ciudad de 50.000 habitantes, próxima a una gran ciudad de 4.000.000 de habitantes estudiamos todos los fallecimientos y sus causas ocurridos en 1991, obteniendo los siguientes resultados:
En la ciudad donde se ha realizado el estudio, en 1991, han muerto por infarto de miocardio exactamente 38 personas. ¿Que sentido tendría citar dicho número asociado a un intervalo de confianza y decir por ejemplo 38 ± 4, o que el porcentaje de muertes por infarto fue 17,59 ± 2? ¿Qué interpretación tendría? ¿Sería extrapolable esta mortalidad a otras ciudades cercanas? Evidentemente no, porque en otra ciudad, aunque cercana, podría haber importantes diferencias en cuanto a edad, características socioeconómicas, etc. Tampoco podríamos extrapolar los datos a la ciudad grande cercana por las mismas razones; podríamos acertar en algún caso por casualidad pero en la mayoría no, y las conclusiones científicas no se basan en acertar por casualidad, recuerde que la base del método científico es el rigor. En algunos libros y en muchos artículos en revistas, como si se hubieran copiado unos de otros, figura en el capítulo correspondiente a mortalidad el cálculo de intervalos de confianza cuando se conoce la mortalidad total. En la bibliografía sobre mortalidad figuran múltiples ejemplos. Lo curioso es que en algunos casos se utilizan complejas expresiones estadísticas, y sin embargo se desconocen los más elementales principios estadísticos; por ejemplo, en el caso del cálculo de intervalos de confianza cuando la proporción de fallecidos por alguna causa es pequeña, menor del 5%, en este caso el calculo se realiza a partir de la distribución de Poisson y es bastante complejo, siendo innecesario y erróneo. El número de muertos o su porcentaje por una determinada causa no es siquiera científicamente representativo para la misma ciudad y el año anterior o el siguiente; seguramente en 1992 ó 1993 los números serán parecidos, pero no disponemos de ningún instrumento de cálculo que nos permita aproximar los datos de forma científica.
FUNCIÓN DE LA E STADÍSTICA
45
Este es uno de los casos de mitología seudocientífica en los que se utilizan técnicas estadísticas muy complejas pero en lugar inadecuado, alimentando la idea de que cuantos más números y fórmulas más complejas mejor es el trabajo, lo cual en muchos casos no es cierto. Supongamos que en la ciudad del ejemplo anterior no podemos estudiar todos los fallecidos y sus causas; realizamos el estudio a partir de una muestra representativa; en este caso sí daríamos el dato con intervalo de confianza, pero dicho intervalo sería una estimación de los fallecidos por una determinada causa en la ciudad y año donde se realizó el estudio; sería un dato más inexacto que el obtenido estudiando la mortalidad total, pero en ningún caso extrapolable fuera de la población estudiada. CONTRASTE DE HIPÓTESIS El contraste de hipótesis estadísticas es uno de los capítulos más importantes de la estadística analítica; en este apartado comentaremos los aspectos más importantes, pero recomendamos al lector que estudie detenidamente la teoría del contraste de hipótesis en cualquier libro de estadística. Una hipótesis estadística es una suposición realizada sobre el comportamiento de un parámetro estadístico poblacional, o la forma de relacionarse dos o más variables en una población determinada. Si pudiéramos estudiar la población entera, no sería necesario aplicar ninguna prueba de significación, puesto que conoceríamos el valor exacto de los parámetros estadísticos de las variables estudiadas y la relación existente entre ellas. Por ejemplo, supongamos que tenemos la hipótesis, de que en un determinado hospital la proporción de mujeres fumadoras es mayor que la de hombres fumadores, si en dicho hospital trabajan 2.000 personas y encuestamos a todos. Si los resultados obtenidos son los siguientes: de las 2.000 personas entrevistadas, 1.200 son mujeres y 800 son hombres. De las 1.200 mujeres 600 fuman y 600 no fuman. De los 800 hombres 360 fuman y 440 no fuman. Por lo tanto el 50% de las mujeres son fumadoras y el 45% de los hombres son fumadores, el porcentaje de mujeres fumadoras del hospital estudiado es mayor que el de hombres. Estos resultados son exactos en el hospital estudiado, suponiendo que las medidas hayan sido realizadas sin errores, la hipótesis ha sido demostrada. En el ejemplo anterior no tiene sentido realizar pruebas de significación estadística, puesto que hemos estudiado la población entera. Las pruebas de contraste estadístico solamente tiene sentido realizarlas en los estudios por muestreo y las conclusiones válidas sobre la población muestreada. Si en el ejemplo anterior de las mujeres y hombres fumadores de un determinado hospital no hubiéramos estudiado a todo el personal, y hubiéramos realizado el estudio a partir de una muestra probabilística, habría que realizar una prueba de significación estadística que tuviera en cuenta la influencia del azar, inherente a cualquier estudio por muestreo. Supongamos que, a partir del personal
46
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
del hospital anterior, extraemos una muestra representativa de 200 personas; y obtenemos por efecto del azar que el 55% de los hombres y el 40% de las mujeres de la muestra fuman; obtener unos resultados como estos es muy poco probable pero posible, con lo que nuestras conclusiones sobre la relación de las variables sexo y tabaco se alejarían de la realidad. Extrapolar estos resultados a otros hospitales no tiene fundamento científico ni estadístico. Podemos suponer como hipótesis de trabajo que en otros centros los resultados serán parecidos pero nada más, En un contraste de hipótesis, descomponemos en dos los resultados del contraste, la hipótesis nula y la hipótesis alternativa. La hipótesis alternativa es la que el investigador trata de demostrar y la nula el complemento de la hipótesis alternativa. Entre la hipótesis nula y la alternativa deben quedar contemplados todos los posibles resultados del estudio. En un estudio de contraste de hipótesis estadísticas tratamos de demostrar la hipótesis alternativa, con una probabilidad de error, como en todos los estudios por muestreo. El no poder demostrar la hipótesis alternativa no quiere decir que hayamos demostrado la hipótesis nula. Es un error muy frecuente el pensar que en un estudio de contraste de hipótesis se demuestre o una hipótesis o la contraria. En un estudio de contraste de hipótesis la hipótesis nula se suele representar por Ho y la hipótesis alternativa por Hl.
En todo estudio de contraste de hipótesis debe establecerse el riesgo que aceptamos en caso de rechazar la hipótesis nula; a esta probabilidad la denominamos alfa. En la Tabla 2.1 siguiente exponemos las posibles decisiones que se pueden tomar en un contraste de hipótesis y los errores que se pueden cometer. Al realizar un estudio de contraste de hipótesis, no conocemos la realidad poblacional; nuestras decisiones se tomarán en función de los resultados estadís-
Tabla 2.1
FUNCIÓN DE LA E STADÍSTICA
47
ticos. En la tabla anterior, en las columnas, se representa el supuesto de que en la población fuera cierta una u otra hipótesis. En las filas se representa la decisión tomada según los resultados del estudio. Al realizar un contraste de hipótesis, puede ocurrir una de las cuatro circunstancias contenidas en la tabla anterior: I. Si en la población muestreada lo cierto es lo indicado por la hipótesis nula, y a partir de los resultados experimentales rechazamos la hipótesis nula, estamos cometiendo un error, al que denominaremos error tipo I. La probabilidad de cometer un error tipo I es alfa; el valor de alfa lo determina el investigador antes de conocer los resultados del contraste y suele ser 0,05 o menor. En un estudio de contraste de hipótesis con alfa 0,05, si los resultados obtenidos permiten rechazar la hipótesis nula, diremos que hemos demostrado la hipótesis alternativa con una probabilidad de error; P < 0,05. Observe que alfa es la probabilidad de error por azar y suele indicarse con una P seguida del símbolo menor y el nivel de significación estipulado. Siempre que en un estudio se rechace la hipótesis nula podemos haber tomado esta decisión erróneamente, y probablemente nunca sabremos si la decisión fue correcta o no. II. Si en la población muestreada lo cierto es la hipótesis alternativa, y de acuerdo con los resultados del estudio rechazamos la hipótesis nula, en este caso coincidirá la realidad con la decisión tomada. La probabilidad de rechazar la hipótesis nula cuando es cierta la alternativa l-[3 es denominada potencia de la prueba. III. Si en la población muestreada la hipótesis nula es cierta y de acuerdo con los resultados obtenidos no rechazamos dicha hipótesis, la decisión tomada según los resultados del estudio coincide con la realidad. La probabilidad de no rechazar la hipótesis nula cuando es cierta es 1-a. IV Si en la población muestreada la hipótesis alternativa es cierta y según los resultados del estudio no rechazamos la hipótesis nula, cometeremos un error tipo II. A la probabilidad de cometer un error tipo II la denominaremos β. Ejemplo 2.1. El ministerio de sanidad tiene la hipótesis de que más del 18% de la población adulta española es hipertensa; para probar esta hipótesis se realiza un estudio por muestreo. Plantear las hipótesis y explicar las consecuencias de cometer errores tipo I o tipo II.
Cometer un error tipo I sería rechazar la hipótesis nula cuando ésta es cierta. En este caso sería aceptar como válida la hipótesis alternativa, lo cual nos llevaría a afirmar, basándonos en los resultados del estudio, que la proporción
48
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
de hipertensos es mayor de 0,18, cuando en realidad es que es menor de 0,18. La consecuencia de este error sería sobrevalorar el problema de la hipertensión. La probabilidad de cometer este error es y se había fijado en 0,05. Cometer un error tipo II sería no rechazar la hipótesis nula cuando es cierta la alternativa. En este caso sería basándose en los resultados del estudio, no tener evidencias estadísticas suficientes para rechazar la hipótesis nula, lo cual nos llevaría a afirmar que no tenemos evidencia de que la proporción de hipertensos sea mayor de 0,18, cuando lo cierto es que la proporción es mayor de 0,18. La consecuencia de este error sería infravalorar el problema de la hipertensión arterial. Resumiendo, debemos tener en cuenta que siempre que realicemos un contraste de hipótesis estadístico, cualquiera que sea la decisión tomada en función de los resultados, podemos estar cometiendo un error, y probablemente nunca sepamos con seguridad si nuestra decisión estaba de acuerdo con la realidad o no. Podemos medir la probabilidad de error; esta probabilidad es alfa en el caso de rechazar la hipótesis nula, y beta en el caso de no rechazar la hipótesis nula. El valor de alfa lo fija el investigador, el de beta también aunque en muchas ocasiones está sujeto a la disponibilidad económica, es más complicado de calcular y remitimos al lector a los libros de estadística para consultar como calcularlo. La famosa P que aparece en la mayoría de los artículos científicos nos indica la probabilidad de que el autor haya obtenido los resultados expuestos en el artículo, que le permitieron rechazar la hipótesis nula simplemente por azar. Un error muy frecuente es confundir error tipo I con alfa, y error tipo II con beta. En algunos libros y artículos pueden encontrarse referencias al error alfa y al error beta; es más correcto referirse a alfa o a beta como probabilidad de cometer error tipo I ó II respectivamente. Error tipo I o error tipo II son conceptos y alfa y beta son probabilidades y por lo tanto números. Un error más grave es confundir los conceptos de error tipo I y error tipo II, que se refieren a los errores estadísticos que se pueden cometer en los estudios por muestreo, con los conceptos de falso positivo y falso negativo en un diagnóstico referido a un paciente; conceptualmente no tienen nada que ver, en el Capítulo 7 comentaremos ampliamente estos conceptos. Los pruebas de contraste de hipótesis estadísticas solamente tienen sentido en los estudios por muestreo probabilístico y las conclusiones son válidas sobre la población muestreada. COMPARACIÓN DE DOS O MÁS POBLACIONES. DIFERENCIAS SIGNIFICATIVAS En ciencias de la salud, un gran porcentaje de las publicaciones tratan de comparaciones de datos entre dos o más poblaciones. La mayoría de los ensayos clínicos tratan de comparar entre dos o más grupos de pacientes el efecto que tienen sobre uno o más parámetros biológicos distintos tratamientos. Ejemplos típicos son los siguientes: comparación de proporciones de mortali-
FUNCIÓN DE LA E STADÍSTICA
49
dad por una determinada causa entre dos o más ciudades o entre hombres o mujeres, gasto sanitario entre dos distritos con distintos sistemas de gestión, tensión arterial sistólica entre dos grupos de pacientes a los que se ha aplicado dos tratamientos distintos, etc. Si queremos comparar datos de dos poblaciones de las que conocemos los datos poblacionales, simplemente comparamos los datos y no tendría sentido estadístico decir que las diferencias son significativas. Supongamos que conocemos la talla media de los habitantes entre 18 y 60 años de dos poblaciones distintas en una determinada fecha; los datos han sido obtenidos tallando a todos los habitantes de las poblaciones. La talla media de la población-/! es de 170 cm y de la población B 170,2 cm; en este caso diremos que la talla media de los habitantes de 18 a 60 años de la ciudad B es mayor que los de la ciudad A No tendría sentido realizar pruebas de comparación de medias ni decir que las diferencias son significativas. Diferencias significativas. En muchas publicaciones científicas sobre ciencias de la salud, podemos leer que han sido encontradas diferencias significativas entre dos poblaciones respecto a un determinado parámetro. En conferencias también es frecuente que el ponente indique que entre dos determinados tratamientos han sido encontradas diferencias significativas; esto puede entenderse como que las diferencias son importantes lo cual no siempre es cierto. El significado exacto de diferencias significativas es que las diferencias encontradas entre dos parámetros muéstrales son suficientemente grandes como para indicar que tenemos evidencia de que los parámetros poblacionales son distintos, matemáticamente distintos. El que las diferencias encontradas entre dos parámetros muéstrales sean o no significativas, depende en gran parte del tamaño de la muestra; diferencias grandes con muestras pequeñas pueden no ser significativas, mientras que diferencias pequeñas con muestras grandes pueden ser significativas. Supongamos que hemos sometidos a dos grupos de pacientes hipertensos a tratamiento con dos fármacos distintos A y B. Los pacientes tratados con el fármaco A los consideramos representantes de la población de todos los pacientes tratados con el fármaco A de características similares a los incluidos en el estudio y a los pacientes tratados con el fármaco B los consideramos representantes de todos los pacientes tratados con el fármaco B de características similares a los incluidos en el estudio, transcurridos seis meses de tratamiento medimos la presión arterial sistólica a todos los pacientes y calculamos la media y desviación típica de cada grupo, obteniendo los siguientes resultados:
50
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
La diferencia observada entre las tensiones arteriales sistólicas anteriores, es de 5 mm de Hg, esto es la significación clínica de la diferencia de tratamientos. Realizando la correspondiente comparación de medias observamos que las diferencias no son significativas; nuestra conclusión sería que no tenemos evidencia de que las medias poblacionales sean distintas. (Observe que las muéstrales si lo son, pero a nosotros nos interesa la extrapolación a las poblaciones.) Supongamos ahora que los mismos resultados los hemos obtenido a partir de muestras grandes, 1.225 para el grupos y 1.480 para el grupo B; los resultados en este caso serían los siguientes:
Las diferencias observadas entre las medias muéstrales es la misma de antes, 5 mm de Hg, pero ahora las diferencias son significativas con P < 0,059. Tenga en cuenta que la magnitud de las diferencias es la misma en ambos casos; en un caso las diferencias son significativas y en el otro no. Supongamos ahora que hemos obtenido los mismos resultados que antes en cuanto a la media y a la desviación típica, pero los tamaños muéstrales son ahora 2.835 para el grupo A y 2.943 para el grupo B; los resultados en este caso son:
En este caso las diferencias son significativas con P < 0,01; esto quiere decir que la probabilidad de encontrar diferencias como las encontradas simplemente por azar es menor del 1%. Observe que las diferencias entre las medias son iguales en los tres casos 5 mm de Hg; en un caso las diferencias no son significativas, en otro las diferencias son significativas con P < 0,05 y en el último las diferencias son muy significativas con P < 0,01. Decir que las diferencias entre dos parámetros poblacionales son significativas no quiere decir que sean muy importantes en magnitud, quiere decir que 9
P < 0.05 significa que si las medias poblacionales fueran iguales, la probabilidad de encontrar diferencias muéstrales como las encontradas con los tamaños muéstrales indicados es menor del 5%. Dicho de otra manera, la probabilidad de haber encontrado diferencias como las encontradas simplemente por azar es menor del 5%.
FUNCIÓN DE LA E STADISTICA
51
la probabilidad de que las medias poblacionales sean matemáticamente iguales es muy pequeña. El valor de la P no indica necesariamente que la magnitud de las diferencias sea grande, la P solamente indica la probabilidad de haber encontrado diferencias muéstrales como las encontradas, a partir de poblaciones con parámetros iguales. Si en alguna ocasión en una conferencia o en un artículo le dicen que las diferencias encontradas entre dos fármacos o entre dos poblaciones son significativas, es poco más que no decirle nada. Pida la magnitud de la diferencia encontrada; en nuestro ejemplo la magnitud de la diferencia es 5 mm Hg, que no parece muy grande. Aunque en los casos en los que las diferencias son significativas diríamos que el fármaco B es mejor hipotensor que el A, habría que tener en cuenta otros factores como precio, efectos secundarios, etc, para decidirse por uno u otro, puesto que la magnitud de la diferencia, la importancia clínica de la diferencia, no es muy grande. Además de la magnitud, en los resultados debe figurar el intervalo de confianza para la diferencia, en el caso de que los grupos sean muestras probabilísticas de poblaciones. Sobre la importancia de diferenciar entre la significación estadística y clínica en ciencias de la salud se han escrito muchos artículos (9-10), pero aún es muy frecuente que para indicar que un tratamiento es mejor que otro se diga que las diferencias son significativas, citando a continuación el valor de la P, con lo que nos quedamos sin saber la magnitud de la diferencia, que es lo verdaderamente importante. ESTADÍSTICA MULTI VARI ANTE La rápida difusión de la informática ha hecho posible la aplicación de técnicas estadísticas multivariantes, que hace 25 años supondrían semanas de trabajo solamente en cuanto al cálculo, como los análisis de regresión múltiple, análisis discriminante, factorial, cluster, varianza, covarianza, supervivencia, regresión logística, etc. La estadística multivariante es esencial para estudiar problemas como la interacción y la confusión, de vital importancia en la investigación en ciencias de la salud. El problema surge por el abuso de estos métodos sin tener los conocimientos adecuados para una correcta utilización e interpretación. Es frecuente ver artículos en los que da la impresión de que sus autores desconocen las más elementales reglas del método científico y de la estadística y sin embargo utilizan los más sofisticados métodos estadísticos, con salidas de ordenador que ocupan varias páginas y que, al no cumplir las condiciones de aplicabilidad, hacen que las conclusiones no tengan ningún valor científico. Son muchos los autores (11) que advierten sobre el abuso de estos métodos y de nuevo advertimos del peligro de convertir en ritos los resultados estadísticos. Recomendamos al lector que, antes de utilizar técnicas de análisis multivariante, compruebe las condiciones de aplicabilidad y construya los modelos
52
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
poco a poco sabiendo lo que está haciendo y lo que busca. Cada método estadístico representa un modelo de la realidad que puede o no ser adecuado a nuestros problemas, independientemente de que los resultados obtenidos sean o no significativos. Lo más importante en todo método estadístico es entender la representación de la realidad que proponemos, por ejemplo, si construimos un modelo de regresión lineal múltiple10, estamos indicando que la variable dependiente tiene una dependencia lineal con todas las variables independientes, lo cual puede tener o no sentido clínico, que es lo verdaderamente importante, independientemente de que los coeficientes sean o no significativos. LA INFLUENCIA DEL AZAR Existe el convenio internacional de aceptar las diferencias entre datos como significativas cuando P < 0,05; lo mismo es aceptado para rechazar la hipótesis nula en cualquier contraste de hipótesis. Ya fue indicado en un apartado anterior que P < 0,05 indica la probabilidad de encontrar diferencias simplemente por azar, pero esto es válido para un solo contraste. Supongamos que disponemos de un dado clásico perfecto. Si realizamos una tirada la probabilidad de sacar un 5 es 1/6= 0,167, pero esta probabilidad es válida para una sola tirada. Si tiramos el dado dos veces, la probabilidad de sacar al menos un 5 en dos tiradas es mayor de 1/6, exactamente 0,278. Cuando en un estudio estadístico realizamos varios contrastes de hipótesis, la probabilidad de que al menos uno sea significativo por azar, aumenta progresivamente con el número de contrastes. Es relativamente frecuente que muchos autores recojan una gran cantidad de variables, introduzcan los datos en el ordenador y realicen múltiples contrastes de hipótesis, anotando y justificando a posteriori los resultados significativos. Este error ha sido reiteradamente criticado por muchos autores (12); de esta manera una gran parte de las publicaciones no tienen rigor científico y expresan asociaciones que no existen en realidad y obtenidas por azar. Tenga en cuenta que P < 0,05 indica que existe una probabilidad contra 20. De obtener una asociación o diferencias significativas simplemente por azar, realizar un contraste de hipótesis con P < 0,05 es como tirar un dado con 20 caras, en el que figurara en una de ellas la palabra azar. Si tiramos el dado muchas veces, la probabilidad de obtener la cara azar es mayor de 0,05, aumentando la probabilidad según aumenta el número de tiradas, al igual que la probabilidad de sacar un 5 tirando un dado perfecto es 1/6, pero la probabilidad aumenta según aumentamos el número de tiradas. Las hipótesis deben plantearse a priori y seguir escrupulosamente el plan de trabajo marcado, debiendo tener en cuenta a la hora del cálculo de probabilidades el número de contrastes realizados. 10
Ver capítulo 4, regresión lineal simple y múltiple del libro Estadística multivariante y no paramétrica....autor Rafael Álvarez Cáceres, Editorial Díaz de Santos 1994.
FUNCIÓN DE LA E STADÍSTICA
53
EXTRAPOLACIÓN DE RESULTADOS A la extrapolación de los datos a la población estudiada se le denomina validez interna, y a la extrapolación de los resultados a otras poblaciones, validez externa. Validez interna de un trabajo se refiere a la visión obtenida sobre la población estudiada. En el caso de que hayamos podido estudiar todos los casos de la población, la validez interna es total siempre que hayamos sabido explicar las asociaciones encontradas, controlar los factores de confusión y las medidas hayan sido realizadas correctamente. En el caso de que el estudio se haya realizado por muestreo, si la técnica de muestreo es correcta, la validez interna será buena, aunque en este caso la precisión sobre los parámetros poblacionales depende del tamaño de la muestra. Validez externa es la extrapolación de los resultados obtenidos sobre poblaciones distintas de la estudiada; en este caso ni la estadística ni el método científico (ver Capítulo 1), nos permiten de una forma rigurosa extrapolar como evidencias los datos a poblaciones distintas de las estudiadas. Podemos recordar la conclusión de Popper tras complejas disquisiciones filosóficas: «el que todos los cisnes de Austria sean blancos, ni siquiera aumenta la probabilidad de que los cisnes de otras zonas, de las que no conocemos el color de los cisnes, sean blancos». Supongamos que en una ciudad hemos realizado un estudio sobre el color del pelo de los habitantes, obteniendo que el 65% son morenos y el 35% rubios. ¿Son estos datos extrapolables a otras poblaciones? Desde luego a Finlandia y Suecia no. Entonces ¿dónde estaría el límite de extrapolación? En 1983, la tasa de mortalidad estandarizada por 100.000 habitantes por infarto de miocardio en España, fue de 104. ¿Son extrapolables a otras poblaciones estos datos? A Irlanda del Norte desde luego no, pues tenía una tasa de casi el cuádruple. Los ejemplos serían innumerables y no serían validas las coincidencias por azar. La metodología científica y las técnicas no nos permiten realizar ningún tipo de afirmación fuera del ámbito y población estudiadas. Lo que sí podemos es considerar como hipótesis de trabajo que en poblaciones de características parecidas las cosas pueden ser similares. Si en España realizamos un estudio sobre el efecto de un antibiótico sobre el estreptococo beta hemolítico y obtenemos un porcentaje de curación del 90%, si el estudio ha sido realizado en nuestro país con el suficiente rigor, podremos considerar este dato como cierto y por tanto tendrá validez interna. ¿Podemos extrapolar este dato a Francia o Alemania? La respuesta es no, aunque podemos considerar como hipótesis de trabajo que dicho antibiótico es efectivo frente al estreptococo beta hemolítico en otros países, pero la susceptibilidad será distinta e incluso en alguna región podríamos llevarnos la sorpresa de que la susceptibilidad es nula. Insistimos en que la validez externa de cualquier trabajo, sólo puede realizarse como hipótesis de trabajo y, por tanto, provisional, nunca como una evidencia.
54
E L ME TODO CIÉ NTIFICO E N LAS CIÉ NCIAS DE LA SALUD
En el Capítulo 1 vimos que una de las peores cosas que le pueden ocurrir a una ciencia es incorporar conocimientos sin poder discernir cuáles son verdaderos y cuales falsos. Es mucho mejor ser cautos y rigurosos, de tal forma que cuando incorporemos conocimientos tengamos casi la completa seguridad de que son ciertos. Si consideramos que los resultados de un trabajo, aunque esté bien hecho, tienen validez a nivel mundial, no cabe duda de que en muchas ocasiones esto será verdad, pero en otras muchas no, generando ruido informativo. Otra cosa es que consideremos como hipótesis de trabajo que los resultados puedan ser parecidos en otras poblaciones, pero de manera provisional y pendiente de confirmación. ERRORES ESTADÍSTICOS MAS FRECUENTES Los artículos publicados en ciencias de la salud suelen contener muchas incorrecciones estadísticas y metodológicas. Los errores estadísticos más frecuentes son los siguientes: a) Confusión entre población y muestra, con la consiguiente utilización incorrecta del error estándar de la media o de otros parámetros muéstrales y cálculo incorrecto de intervalos de confianza, b) Utilización de pruebas estadísticas de manera incorrecta, sin tener en cuenta las condiciones particulares de los datos. Las expresiones estadísticas no son universalmente válidas, dependiendo su aplicabilidad de las características de los datos. c) Muestreos realizados incorrectamente. d) Considerar como independientes datos dependientes o apareados. e) Comparar tres o más medias simultáneamente mediante la prueba de la t de Student, en lugar de utilizar el análisis de la varianza o de la covarianza (13). f) Interpretación de la significatividad como si fuera el resultado fundamental del estudio. Lo importante es el valor de los parámetros y la magnitud de las diferencias; la significatividad únicamente nos informa de la influencia del azar en la obtención de los resultados. La significatividad sólo debe de ser empleada en los estudios analíticos. g) Extrapolación como evidencia de resultados fuera del ámbito del estudio. h) No calcular la probabilidad de cometer error tipo dos ((3), en los estudios analíticos en los que no se rechace la hipótesis nula. LECTURAS RECOMENDADAS Cochran WG, Técnicas de muestreo, México, CECSA 1977. Peña Sánchez de Rivera, Estadística, Madrid, Alianza Universidad textos 1989. Álvarez Cáceres R, Estadística básica y procesamiento de datos con SPSS, Madrid, CS.C.M 1994. Alvarez Cáceres R, Estadística multivariante y no paramétrica con SPSS, Madrid, Díaz de Santos 1994.
FUNCIÓN DE LA ESTADÍSTICA
55
BIBLIOGRAFÍA 1. Berwick D.M., et al, When doctors meet numbers, Am J Med 1991 vol. 71 diciembre págs. 991-999. 2. Friedman S.B., What's the difference? Pediatric residents and their inaccurate concepts regarding statics, Pediatrics 1981 vol. 68 N.° 5 noviembre págs. 644-646. 3. Wulff H.R, et al, What do doctors know about statistics, Statistics in Medicine, 1987 vol. 6, págs. 3-10. 4. Gore S.M., et al, Misuse of statistical methods: critical assessment of articles in British Medical Journal from January to March 1976, Brítsh Med J 1977, 1, 85-87. 5. BrownG.W., Which 'standard' shouldwe use? Am J Dis Child, 1982 vol. 136, octubre págs. 937-941. 6. Salsburg D, The religion of statistcs as practiced in medical journals. Am Statistician 1985, vol. 39 págs. 220-223. 7. Peña Sánchez De Rivera D., Estadística modelos y métodos, Madrid, Alianza Editorial 1989, pág. 101. 8. Cochran W.G. Técnicas de muestreo, México, CECSA 1977, pág. 49. 9. Plasencia A, Porta Serra M. La calidad de la información clínica (II): significación estadística. Med Clin (Barc) 1988; vol. 90 págs. 122-126. 10. Porta Serra M, Plasencia A, Sanz F. La calidad de la información clínica (y I I I ) : ¿Estadísticamente significativo o clínicamente importante? Med Clin (Barc) 1988; vol. 90 págs. 463-468. 11. Rothman KJ. Epidemiología moderna. Madrid, Díaz de Santos. 1988, págs 285-310. 12. Mills J.L., Data torturing, N Eng J Med, 1993 vol. 329 octubre págs. 1196-1199. 13. Álvarez Cáceres R, Estadística multivaríante y no paramétrica, Madrid, Díaz de Santos 1994, pág. 1.
Capítulo 3 MEDIDAS DE MORBILIDAD Y MORTALIDAD
El conocimiento acerca de algo es de naturaleza débil, hasta que lo puedas medir y expresarlo con números. Lord Kelvin.
Las medidas de morbilidad y mortalidad conforman un sistema de referencia común para los profesionales de las ciencias de la salud. Es muy importante la correcta utilización de estas medidas, para poder evaluar con rigor las diferencias observadas en distintos ámbitos. Cuando dos físicos se refieren a medidas de fenómenos como la intensidad de corriente eléctrica en unidades internacionalmente reconocidas como el amperio, aunque sean de países distintos se entenderán perfectamente. En ciencias de la salud no ocurre lo mismo; los errores de interpretación de medidas aparentemente tan simples como la prevalencia, son muy frecuentes, lo que puede ocasionar en ocasiones interpretaciones erróneas de la literatura científica. Al describir la frecuencia de una enfermedad, debe quedar claramente especificada la población de referencia y la fecha en que se recogieron los datos. Podemos estar interesados en las personas afectadas de una determinada enfermedad, o en las que enferman a partir de un momento1 dado; existen algunas medidas con nombre propio que deben ser cuidadosamente estudiadas, ya que la mayoría de los errores son por el uso inadecuado de medidas como la prevalencia, tasa de incidencia o incidencia acumulada. En la bibliografía, los errores de interpretación de las medidas de morbilidad son muy abundantes, a pesar de que en muchos libros se describen los errores más frecuentes (1-2); también son abundantes los artículos en revistas (3-4) recordando el uso adecuado de estas medidas. Otro de los temas tratados en el capítulo es el cálculo de tasas de mortalidad y otras medidas relacionadas con ella. 1 La palabra momento se refiere a un punto determinado del eje temporal, una fecha determinada. Existen muchas confusiones en la literatura por la incorrecta interpretación de esta palabra.
58
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El capítulo termina con el ajuste de tasas por los métodos directo e indirecto, para que sean comparables tasas de distintas poblaciones. MEDIDAS DE FRECUENCIA DE UNA ENFERMEDAD Los trabajos científicos en los que se utilizan medidas de frecuencia de una enfermedad son muy numerosos; estas medidas constituyen la fuente de información fundamental en el intercambio de experiencias entre profesionales de las ciencias de la salud, por lo que su uso correcto es de vital importancia. Podemos utilizar medidas absolutas; si decimos que el día 24 de febrero de 1994 en un determinado hospital se atendieron veinte pacientes afectados de neumonía, al no conocer el número total de urgencias atendidas, no podemos saber si veinte neumonías son muchas o pocas, si estamos ante una epidemia que habrá que estudiar detenidamente o ante una frecuencia de neumonías habitual para la población y fechas estudiadas. En enfermedades poco frecuentes los datos absolutos pueden ser muy importantes; un sólo caso de botulismo independientemente de los pacientes atendidos es suficiente para poner en marcha la alerta epidemiológica. La información anterior sería más completa si nos indicaran el número relativo de neumonías atendidas el día 24 de febrero de 1994 respecto al total de las urgencias. Si se hubieran atendido 588 urgencias de las cuales 20 fueran neumonías, la medida relativa 0,034 ó 3,4% es mucho más informativa y nos permitirá comparar con otros días y determinar si la proporción atendida de neumonías es alarmante o no. Si además conocemos la población atendida por el hospital, podemos calcular el número de afectados por 100.000 habitantes, que es una medida muy utilizada en epidemiología. Siempre que sea posible debemos referir el número de afectados a una población, las medidas relativas son siempre preferibles a las absolutas. Ejemplo 3.1. Durante el año 1994 hemos seguido a diez pacientes sometidos a diálisis renal, y hemos registrado las infecciones urinarias que padecieron estos pacientes. En la Figura 3.1 la línea horizontal rotulada P1 se refiere al primer paciente, y así sucesivamente hasta PÍO, que es el décimo paciente. La longitud del trazo grueso en las líneas horizontales indica la duración de una infección urinaria. Los pacientes PA, P5, P1 y P9 no tuvieron infecciones urinarias durante el período del estudio. En el eje de abscisas, el 1 simboliza el 1 de enero de 1994, el 2 el 1 de febrero de 1994 y así sucesivamente. A partir de la Figura 3.1 podemos obtener valiosa información acerca de la frecuencia de infecciones urinarias, en los diez pacientes dializados seguidos en el estudio. El día 1 de enero de 1994, fecha en que comienza el estudio, no hay ningún paciente afectado de infección urinaria.
MEDIDAS DE MORBILIDAD Y MORTALIDAD
59
Figura 3.1. Infecciones urinarias, pacientes en diálisis renal, (0 = 1 de Enero. 1 = 1 de Febrero. 2 = 1 de Mayor, etc.).
Durante el período del estudio del 1 de enero al 31 de diciembre de 1994, 6 pacientes que corresponden al 60% tuvieron un episodio de infección urinaria. El día 1 de Marzo de 1994 hay dos pacientes (P2.P3) afectados de infección urinaria, el día 1 de Junio de 1994 no hay ningún paciente afectado de infección urinaria, el día 1 de Agosto de 1994 hay dos pacientes afectados de infección urinaria, etc. Las descripciones realizadas son claras y sin posibilidad de error. Los problemas surgen al manejar medidas con nombre propio, como Prevalencia e Incidencia acumulada, las cuales comentaremos en el correspondiente apartado. Ejemplo 3.2. Un médico de atención primaria decide recoger la frecuencia de pacientes vistos en consulta afectados de alergia al polen. En la Tabla 3.1 se reflejan las observaciones realizadas. Las observaciones fueron realizadas entre los días 9 y 14 de mayo de 1994. En la tabla se recogen el número total de pacientes atendidos en los días indicados, el número de pacientes alérgicos, la proporción y el porcentaje de pacientes alérgicos respecto del total. En la tabla la proporción y porcentaje en la fila TOTAL son valores referidos al total de los pacientes. 10,1% es el porcentaje de pacientes alérgicos respecto del total de pacientes atendidos en la consulta por todas las causas, que son 208, de los cuales 21 tenían sintomatología alérgica. A partir de la Tabla 3.1 podemos sacar las siguientes conclusiones: Entre los días 9 y 14 de mayo de 1994, fueron atendidos 208 pacientes, de los cuales el 10,1% eran alérgicos al polen.
60
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Tabla 3.1. Pacientes alérgicos atendidos en una consulta de atención primaria entre el día 9 y 14 de mayo de 1994.
El día 9 de mayo se atendieron un total de 28 pacientes, de los cuales cuatro, el 14,3 %, tenían síntomas de alergia al polen. El día 14 de mayo se atendieron un total de 27 pacientes, de los cuales 3 el 1,11%, tenían síntomas de alergia al polen, etc. En este caso podríamos hablar de agudizaciones en los días en los que se ha realizado el estudio. Referente a la población asignada a la consulta estudiada, solamente en el caso de que estemos seguros de que todos los pacientes que han desarrollado sintomatología alérgica entre los días 10 y 15 de mayo han acudido a la consulta. Podría ocurrir que algunos pacientes que han desarrollado alergia intensa hayan acudido a urgencias a un centro hospitalario y algunos pacientes con sintomatología leve se hayan automedicado basándose en tratamientos anteriores. Salvo que tengamos la seguridad de que todos los pacientes asignados a una determinada consulta van a ella siempre que tienen alguna sintomatología, los datos de la consulta no deben extrapolarse a la población general. En las consultas urbanas en general no podemos considerar que los pacientes atendidos son todos los enfermos de la población asignada, lo cual podríamos hacer en el medio rural en el caso de que dispusiéramos de un sistema de información actualizado.
PREVALENCIA La prevalencia es la proporción de personas de una población afectadas de una determinada enfermedad en un punto del eje temporal.
MEDIDAS DE MORBILIDAD Y MORTALIDAD
61
La expresión anterior permite el cálculo de la prevalencia puntual que indica la proporción de pacientes afectados en una población y fecha determinadas. La prevalencia debe ir referida a una determinada población, debiéndose entender como tal un grupo de individuos que son objeto de nuestro interés: habitantes de una determinada ciudad, hombres entre 40 y 60 años que residen en una determinada ciudad, trabajadores de una empresa, pacientes ingresados en un determinado hospital, etc. La prevalencia, además de a una población determinada, debe ir referida a un punto dado del eje temporal. Debemos entender como punto del eje temporal una fecha precisa, por ejemplo, 12 de mayo de 1993; en los raros casos de enfermedades que progresan muy rápidamente puede ser necesario conocer también la hora: las 19 horas del día 17 de abril de 1994. En algunas definiciones, en lugar de "punto dado del eje temporal", aparece; "momento dado". El significado es exactamente el mismo, pero el mal uso de la palabra momento ha dado lugar a que esto sea uno de los orígenes de gran número de errores. Supongamos que en una determinada ciudad que tiene 3.000 habitantes, el día 20 de junio de 1994 había 300 personas afectadas de artrosis radiológicamente comprobada. La prevalencia de artrosis en dicha ciudad el día 12 de junio de 1994 es:
El 10% de la población está afectada de artrosis el día 12 de junio de 1994. La prevalencia es una proporción y por lo tanto sus valores pueden oscilar entre 0 (nadie está afectado) y 1 (toda la población está afectada). Es frecuente referirse a la prevalencia como porcentaje, en cuyo caso los posibles valores oscilarán entre 0 y 100. La prevalencia no tiene dimensiones. Si la prevalencia ha sido calculada estudiando toda la población de referencia, su valor es fijo y solamente válido para la población y fecha donde se ha realizado el estudio. En el caso de enfermedades de corta duración como el catarro común, la prevalencia puede variar sustancialmente de un día a otro. En el caso de que la prevalencia haya sido calculada a partir de una muestra, deberá acompañarse del correspondiente intervalo de confianza, el cual se refiere a la población muestreada en la fecha del estudio. La prevalencia es una proporción de enfermedad pero no todas las proporciones de enfermedad son prevalencias. Una de las fuentes de error es considerar que todas las proporciones de enfermedad pueden ser especificadas como prevalencias. Como veremos en el Capítulo 7, para la correcta interpretación de las pruebas diagnósticas es necesario conocer la prevalencia de la enfermedad en la
62
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
población de referencia, la cual no sólo es distinta en cada ciudad sino que en ciudades grandes puede variar de un barrio a otro; de ahí que el conocimiento de la prevalencia actualizada sea importante desde el punto de vista epidemiológico y clínico. Prevalencia de período La prevalencia de período (PP) es la suma de los casos existentes en una fecha determinada más los casos de nueva aparición en un determinado período de tiempo. En la Figura 3.1, referente al ejemplo 3-1 podemos ver que, a lo largo del estudio, un 60% de los pacientes seguidos desarrollaron un cuadro de infección urinaria. También es correcto decir que la prevalencia de período respecto a infecciones urinarias, en los diez pacientes seguidos entre el 1 de enero y el 31 de diciembre de 1994, fue 0,6. Los casos de infección urinaria al comienzo del estudio son 0 y los nuevos casos aparecidos durante el estudio son 6; por lo tanto, la suma de casos es 6 y la población seguida 10. En caso de utilizar la prevalencia de período debe especificarse claramente, ya que cuando utilizamos el término prevalencia sin especificaciones, en general entendemos prevalencia puntual. Al utilizar la prevalencia de período debe quedar claramente especificada la población de referencia y el período en que se llevó a cabo el estudio. Siguiendo con el ejemplo 3-1, sería correcto decir que la prevalencia de infecciones urinarias el día 1 de enero de 1994 era 0, ningún paciente estaba afectado. La prevalencia el día 1 de marzo de 1994 era 0,2. La prevalencia el día 1 de junio de 1994 era 0. El día 1 de agosto de 1994 era 0,2, etc. En el ejemplo 3-2, de 208 pacientes atendidos, 21 tenían alergia al polen. Podemos decir que la prevalencia de período es 0,101, siendo la población de referencia la población atendida en consulta (recuerde los comentarios sobre los errores que se pueden cometer si extrapolamos a la población general), y el período del estudio del 10 al 15 de mayo de 1994. Siguiendo con el ejemplo 3-2, podríamos decir que la prevalencia de pacientes alérgicos al polen entre los pacientes atendidos en consulta el día 12 de mayo de 1994 fue 0,139. Aunque los conceptos de prevalencia y prevalencia de período parecen sencillos, lo cierto es que el uso erróneo de estos términos es muy frecuente (1-2). Una de las fuentes de error es el uso de la palabra momento, ésta debe entenderse como un punto del eje temporal, como lo entendería un físico, pero en lenguaje coloquial decimos el momento de salir del trabajo, el momento de la consulta, etc., y esto da lugar a interpretaciones erróneas. Supongamos que llevamos a cabo un estudio por muestreo en una población; en realizar todas las entrevistas se tardan varios días. Las personas seleccionadas deben contestar un cuestionario; en el que una de las preguntas es si padecen rinitis en el momento de rellenar el cuestionario, suponga-
MEDIDAS DE MORBILIDAD Y MORTALIDAD
63
mos que el 10% de los encuestados contestan que sí. En este caso no sería correcto decir que la prevalencia de la rinitis en el momento de contestar el cuestionario es 0,1 ya que las personas han contestado al cuestionario a lo largo de varios días y en horas distintas. Observe que el término momento de contestar al cuestionario no es un punto del eje temporal; en todo caso podríamos hablar de prevalencia de período, especificando claramente el período del estudio y teniendo en cuenta que es una estimación ya que es un estudio por muestreo. La prevalencia es una buena medida de frecuencia en las enfermedades crónicas. En las enfermedades de corta duración, el tiempo de recogida de datos debe ser pequeño respecto a la duración de la enfermedad para que la prevalencia puntual sea fiable. El tiempo de recogida de datos no debe exceder más del 15% de la duración media de la enfermedad. En el apartado «Relaciones entre prevalencia e incidencia» analizaremos algunos aspectos de la prevalencia en relación a la duración de la enfermedad. INCIDENCIA ACUMULADA El término prevalencia hace referencia a personas afectadas en un momento dado y la incidencia a los nuevos casos observados en un período de tiempo determinado. La incidencia acumulada (IA) es la proporción de individuos de una población que contrae una enfermedad en un período de tiempo determinado. Indica el riesgo de contraer la enfermedad durante el período de tiempo que dura el estudio. La incidencia acumulada es una proporción y por lo tanto su valor puede oscilar entre 0 y 1, no tiene dimensiones.
En la expresión anterior; IA es la incidencia acumulada, NC nuevos casos de la enfermedad estudiada, NH número de personas que componen la población. La incidencia acumulada no tiene sentido sino indicamos el período de tiempo en que se realiza el estudio. Si nos dicen que en una población la incidencia acumulada o riesgo de contraer una neumonía bacteriana es 0,01, en el supuesto de que el período de estudio sea de 30 años, el riesgo es pequeño, pero si el período es de un mes el riesgo es grande. En el ejemplo 3-1, el riesgo de que un paciente en diálisis, de los diez seguidos en un año, padezca una infección urinaria es 0,6. En el ejemplo 3-2 no sería adecuado el cálculo de incidencia acumulada, puesto que
64
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
los pacientes que acuden a una consulta proceden de una población de referencia, de la que en la mayoría de las ocasiones no tenemos información completa sobre ella; puede haber enfermos que acudan a otros médicos.
TASA DE INCIDENCIA Es la medida de frecuencia de enfermedad que más información proporciona, aunque no siempre puede ser calculada. Puede ser utilizada en los estudios en los que tengamos datos fiables sobre el tiempo en riesgo de cada persona incluida en el estudio. La tasa de incidencia es el número de nuevos casos registrados dividido por la suma de los períodos de tiempo de observación correspondientes a todos los individuos en estudio.
En la expresión anterior; NC indica los nuevos casos registrados durante el estudio. Al comienzo del estudio todos los individuos que entran en él están sanos respecto a la enfermedad de interés. La prevalencia y la incidencia acumulada no tienen unidades. La dimensión de la tasa de incidencia es t-1 donde t es el tiempo. La tasa de incidencia la expresamos como casos incidentes por unidad de tiempo de observación. Si diez personas son seguidas durante un año, el tiempo total de observación es diez años. La mayoría de los estudios etiológicos suelen ser largos y el tiempo de referencia suele ser el año, pero hay muchos casos en que los períodos-persona de observación pueden ser meses o días. SPT suma-persona-tiempo indica la suma de todos los períodos de tiempo por persona estudiados, El período de tiempo de observación se calcula para cada persona de forma individual, sumándose los de todas las personas del estudio mientras están en riesgo. Consideramos que una persona está en riesgo mientras está dentro del estudio y no ha contraído la enfermedad. La tasa de incidencia permite incluir en los cálculos el tiempo de personas que no están en el estudio de principio a fin, permitiendo el seguimiento de poblaciones dinámicas en las que ingresan y salen individuos. Un individuo puede ingresar en el estudio en cualquier momento. El tiempo de una persona comienza a contar cuando comienza su seguimiento y finaliza cuando perdemos el contacto con ella o finaliza el período de tiempo del estudio. Una persona sale del estudio por contraer la enfermedad, fallecer o por pérdida de información acerca de ella. Cuando una persona contrae la enfer-
MEDIDAS DE MORBILIDAD Y MORTALIDAD
65
medad anotamos el tiempo que estuvo en seguimiento hasta que cumple los criterios diagnósticos de la enfermedad en estudio. Si una persona fallece por cualquier causa, se cuenta como tiempo válido para el estudio el transcurrido desde el comienzo del seguimiento hasta el momento del fallecimiento. Si dejamos de tener información sobre una persona, contamos como tiempo válido el transcurrido desde el ingreso en el estudio hasta que perdemos el contacto; la perdida de contacto puede ser por emigraciones o por dejar de acudir a los controles. Ejemplo 3.3. Supongamos el siguiente estudio hipotético: comienza el 1 de enero de 1983, su objetivo es estudiar la incidencia de una determinada enfermedad, se sigue a un grupo de individuos durante 8 años, el estudio termina el 31 de diciembre de 1990. Los datos están reflejados en la Figura 3.2. El 0 en el eje de abscisas representa el comienzo del estudio equivale a la fecha 1-1-1983; el 1 representa el día 1-1-1984 y así sucesivamente. Cada línea horizontal representa a un individuo; el número a la derecha representa el tiempo en años que fue seguido. El orden de los individuos incluidos en el estudio, se cuenta de arriba a abajo en relación al gráfico, la línea situada más arriba representa al primer individuo y así sucesivamente. El primer individuo fue seguido durante todo el estudio: 8 años de observación.
Figura 3.2. Seguimiento desde el 1-1-83 hasta el 31-12-90. X = Enfermedad. O = Fallecimiento.
66
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El segundo ingresa el 1-7-1984 y contrae la enfermedad el día 31-6-1988, contabilizando cuatro años de observación. El tercer individuo es seguido desde el 1-1-83 hasta el 1-1-1987 en que fallece sin contraer la enfermedad, contabilizando cuatro años de observación. El cuarto individuo entra en el estudio el día 1-1-84 y termina el estudio sin contraer la enfermedad, contabilizando siete años de observación. El quinto individuo entra en el estudio el día 1-1-83 y contrae la enfermedad el día 1-1-1988, contabilizando cinco años de observación. El sexto individuo entra en el estudio el 1-1-1983, siendo la última información recogida la correspondiente al 1-1-1989; no había contraído la enfermedad hasta dicha fecha, contabilizando seis años de observación. El séptimo individuo entra en el estudio el 1-1-85 y contrae la enfermedad el día 1-1-89, contabilizando cuatro años de observación. En total se han recogido tres casos incidentes, NC=3, la suma de persona tiempo de observación es de 38 años, STP=38; a partir de estos datos calculamos la tasa de incidencia (I):
La interpretación del dato anterior sería que por cada 0,0789 años de observación hay una incidencia. La interpretación debe realizarse con cuidado, y distinguir lo que es un período de tiempo y un período de observación de un individuo. Cien personas seguidas durante un año son cien años persona de observación, al igual que diez personas seguidas diez años. En enfermedades con período de inducción largo, el seguimiento de cien personas un año después de una exposición, probablemente no sea suficiente para detectar incidencias. Sin embargo, en un seguimiento de diez años a diez personas expuestas, sí podría detectar incidencias. Aunque en ambos casos hemos acumulado cien años de observación, la eficacia de los estudios puede ser muy distinta. En estudios en poblaciones grandes y en enfermedades de baja incidencia, puede aproximarse la suma de tiempos persona multiplicando la población media durante el período de observación por el tiempo que dura el estudio. Aunque como en toda aproximación en cada caso debe considerarse de forma individualizada. Los valores de la tasa de incidencia pueden oscilar entre cero e infinito. En un estudio en el que no se recoja ningún caso nuevo, la tasa de incidencia es cero. Si en un estudio inmediatamente después de la exposición enfermaran todos los individuos, al ser la suma de los tiempos cero; la tasa de incidencia sería infinita. Aunque esto es matemáticamente posible, en la práctica no lo es.
MEDIDAS DE MORBILIDAD Y MORTALIDAD
67
La tasa de incidencia tomará valores altos si la enfermedad se desarrolla muy rápidamente después de la exposición. Ejemplo 3.4. Seguimos a dos grupos de personas, de cinco individuos cada una de ellos, después de haber estado expuestas a un escape radiactivo de distinta intensidad. En la Figura 3.3 se recogen los datos correspondientes al grupo expuesto a la fuente de radiación más intensa. En la Figura 3.4 se recogen los datos correspondientes al grupo expuesto a la fuente de radiación más débil. En los cinco años que duró el seguimiento enfermaron tres personas, NC=3. El total de años persona de observación fue de trece años. La tasa de incidencia es: I = 0,23 AÑOS-1. En la Figura 3.4 se recogen los datos correspondientes a los cinco individuos expuestos a una fuente de radiación de menor intensidad que la que afectó a los individuos cuyos datos están recogidos en la Figura 3.3. En los cinco años que duró el seguimiento, enfermaron tres pacientes, NC=3. El total de años persona de observación fue 22 años y la tasa de incidencia: I = 0,136 AÑOS-1. La tasa de incidencia de la Figura 3.3 es mucho mayor que la de la Figura 3.4. Si hubiéramos calculado la incidencia acumulada, en ambos casos sería la misma 0,6, lo cual indica que el riesgo de contraer leucemia después de la exposición es de un 60%, pero los individuos que contraen la enfermedad en el primer caso lo hacen mucho más rápidamente que en el segundo y este
Figura 3.3. Seguimiento durante cinco años de un grupo de individuos expuestos a un escape radiactivo. X= Leucemia.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
68
Figura 3.4. Seguimiento de cinco individuos tras una exposición a una fuente radiactiva, de menor intensidad que los descritos en la Figura 3.3. X = Leucemia.
dato no lo recoge la incidencia acumulada, pero sí la tasa de incidencia, que mide la fuerza de la morbilidad. RELACIÓN ENTRE PREVALENCIA, INCIDENCIA Y TASA DE INCIDENCIA Entre las medidas de frecuencia de enfermedad existen interesantes relaciones. En este apartado estudiaremos las más importantes. En una población, respecto de una enfermedad que sea curable2, tenemos un grupo de personas que enferma por unidad de tiempo y por lo tanto entra en el depósito de prevalencia3, constituyendo el flujo de entrada (FE), y otro grupo de personas que sale por unidad de tiempo del depósito de prevalencia (NP), constituyendo el flujo de salida (FS). La salida del depósito de prevalencia puede ser por fallecimiento o por curación. 2
Si la enfermedad es crónica como la artrosis. una vez que el paciente entra en el depósito de prevalencia ya no sale aunque viva muchos años después de contraer la enfermedad; en estas enfermedades hay flujo de entrada pero el de salida sólo lo componen los fallecidos. 3 El depósito de prevalencia lo forman los afectados de una determinada enfermedad en una población y fecha determinada.
MEDIDAS DE MORBILIDAD Y MORTALIDAD
69
El número de personas que están en el depósito de prevalencia es el producto del tamaño de la población N por P, que es la proporción de enfermos de la enfermedad que estemos estudiando.
Si el flujo de entrada es mayor que el de salida, la prevalencia aumentará hasta que se igualen los dos flujos. Si esto no ocurre, la prevalencia será cada vez mayor y en casos de alta incidencia llegará un momento en que toda la población padezca la enfermedad. En enfermedades epidémicas benignas como la gripe, la prevalencia aumenta hasta un nivel estable, descendiendo después. Si el flujo de salida es mayor que el de entrada, la prevalencia descenderá hasta tender a cero; una vez pasada la epidemia de gripe la prevalencia tiende a cero y se mantiene así hasta la siguiente epidemia. Éste es el caso de enfermedades para las que no se conocen tratamientos eficaces y se descubre un tratamiento curativo efectivo. El flujo de entrada lo podemos calcular según la siguiente expresión:
En la expresión anterior I es la tasa de incidencia, N es el tamaño total de la población de referencia, P es la proporción de afectados en un momento determinado y (1-P) es la proporción de personas no afectadas. El flujo de entrada es el número de personas que entra en el depósito de prevalencia por unidad de tiempo. Si queremos calcular el número de personas que enferman en un período de tiempo determinado, multiplicaremos el FE por el período de tiempo. En la bibliografía hay algunos errores respecto a esto; se calcula el FE multiplicando el segundo término de la expresión 3-4 por un determinado período de tiempo que se suele especificar por t; insistimos en que esto no es el flujo de entrada, es el número de personas que enferman en el período de tiempo representado por t. Por definición, un flujo es una magnitud por unidad de tiempo. En este caso, la unidad de tiempo debe ser acorde con la duración de la enfermedad, días en el caso de enfermedades de corta duración como la gripe, etc. El flujo de salida es el número de individuos del depósito de prevalencia que curan o mueren por unidad de tiempo. Se calcula según la siguiente expresión:
70
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En la expresión anterior I' es la tasa de salida del deposito de prevalencia y P la prevalencia. El número de personas que salen del depósito de prevalencia en un período de tiempo determinado lo calculamos multiplicando FS por el período de tiempo en que estemos interesados. El comentario realizado sobre el flujo de entrada es igualmente válido para el flujo de salida. Una situación interesante es considerar una situación estable, en la que el depósito de prevalencia es constante y por lo tanto los flujos de entrada y salida son iguales; la salida se produce en la inmensa mayoría de los casos por curación y no por fallecimiento. Esto refleja lo que sucede en muchas enfermedades. En una situación estable, el inverso de la tasa de incidencia de salida /' es la duración media de la enfermedad. A partir de las expresiones 3-4 y 3-5, suponiéndolas iguales:
Sustituyendo en la expresión anterior I' por la inversa de la duración media de la enfermedad:
A partir de la expresión anterior, calculamos el cociente entre prevalencia P y proporción de no afectados por la enfermedad en estudio (1-P):
Si la prevalencia es pequeña, menor de 0,05, 1-P es aproximadamente igual a 1 y en este caso podemos aproximar la prevalencia según la siguiente expresión:
En el caso de enfermedades raras, la prevalencia es igual al producto de la tasa de incidencia por la duración media.
MEDIDAS DE MORBILIDAD Y MORTALIDAD
71
En el caso más general, a partir de la expresión (3-8) podemos calcular la prevalencia en función de la tasa de incidencia, según la siguiente expresión:
La expresión anterior es válida para todas las prevalencias (3) en situaciones estables. La incidencia acumulada puede calcularse, a partir de la tasa de incidencia, según la siguiente expresión:
En la expresión anterior, se representa la base de los logaritmos neperianos y es igual a 2,7182...., I es la tasa de incidencia y t representa el período de tiempo sobre el que se calcula la IA; recuerde que la incidencia acumulada es el riesgo de contraer una determinada enfermedad en un período de tiempo. ey = 1 + y si el valor absoluto de y es pequeño. La aproximación anterior puede realizarse si y es menor de 0,1, realizando la aproximación y sustituyendo en (3-11):
Para cortos períodos de tiempo, el riesgo de contraer una enfermedad en un determinado período de tiempo, puede calcularse multiplicando la tasa de incidencia por el período de tiempo. MORTALIDAD En ciencias de la salud, las medidas de la frecuencia de mortalidad y algunos parámetros relacionados con ella son muy importantes. La vida media y las tasas de mortalidad infantil de un país son considerados indicadores de calidad sanitaria de primera magnitud. La incidencia acumulada y la tasa de incidencia pueden aplicarse a la mortalidad, considerando la incidencia de mortalidad. Todo lo dicho en los apartados anteriores para enfermedades es válido para mortalidad.
72
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
A continuación serán comentadas las medidas de frecuencia de mortalidad y los parámetros relacionados con la misma más utilizados en la bibliografía actual. Tasa cruda de mortalidad La tasa cruda o bruta de mortalidad es el cociente entre el número total de muertes ocurridas en una población o país en un período de tiempo determinado y el número de habitantes de la población4 de referencia; este cociente especifica la mortalidad por habitante. Habitualmente las tasas crudas de mortalidad se dan por mil, diez mil o cien mil habitantes. Si queremos expresar las tasas por cien mil habitantes habrá que multiplicar el cociente definido anteriormente por cien mil. El período de tiempo más utilizado es el año.
En la expresión anterior TCM es la tasa cruda de mortalidad, NTM es el número total de muertos y NH es el número de habitantes de la población de referencia. Respecto al número de habitantes que debe figurar en el denominador, hay cierta controversia, pero la mayoría de los autores consideran que debe figurar la población a mitad del período de estudio; esto hay que tomarlo con precaución, por ejemplo, Marbella es una ciudad que aumenta mucho su población a partir del mes de junio. En una estadística de mortalidad anual la mitad del período corresponde al 1 de julio, que en este caso no parece una fecha adecuada. En la mayoría de los casos, el número de fallecimientos respecto al número de habitantes es un número pequeño y, si la población no presenta grandes fluctuaciones, el número de habitantes a lo largo del año no variará mucho. En poblaciones dinámicas con grandes cambios habrá que estudiar el problema de forma individualizada. Tasas específicas de mortalidad En muchas ocasiones interesa conocer la tasa de mortalidad referida a un determinado grupo de una población. Si nos interesa la tasa específica de mortalidad en mujeres, la calcularemos dividiendo el número total de mujeres falle4 La mayoría de los autores consideran que en el cálculo de tasas de mortalidad, el número de habitantes que debe figurar en el denominador es la población a la mitad del período del estudio, si es una tasa de mortalidad anual será la población a 1 de julio, En el texto comentaremos esto más ampliamente.
MEDIDAS DE MORBILIDAD Y MORTALIDAD
73
cidas en un determinado período por el número de mujeres de la población de referencia. Las tasas específicas más utilizadas son las referidas a hombres y mujeres, profesiones, grupos de edad, razas, etc. En todos los casos serán calculadas dividiendo el número de muertos en el grupo especificado y en el período del estudio por el número de personas que componen el grupo, multiplicando a continuación por mil, diez mil o cien mil según los casos. Tasa de letalidad Es el número de personas fallecidas por una determinada enfermedad en un período de tiempo determinado, dividido por el número total de casos de la enfermedad en el mismo período. Es un indicador de la probabilidad de fallecer por una determinada enfermedad. Esta tasa se suele dar por mil pacientes, Supongamos que en el año 1993 padecieron la gripe dos millones de personas, de las que fallecieron por esta causa mil quinientas. La tasa de letalidad de la gripe en el año 1993 fue de 0,00075, expresándolo por mil es 0,75. Tasa de mortalidad proporcional Esta medida expresa la proporción del total de muertes atribuible a una determinada causa en un período determinado. Por ejemplo, supongamos que en una ciudad en el año 1994 han muerto 1.000 personas por todas las causas, de las cuales 100 fallecieron por isquemia cardíaca. La tasa de mortalidad proporcional de la isquemia coronaria en 1994 en la ciudad de referencia fue 0,1; dicho de otra manera, el 10% de los fallecidos fue por isquemia coronaria. Años potenciales de vida perdidos Una medida relacionada con la mortalidad son los años potenciales de vida perdidos (APVP). Si una persona fallece antes de una edad que la mayoría de los autores5 fijan en 70 años, se consideran años de vida perdidos los que restan para cumplir 70 años. Los fallecidos después de 70 años no influyen en el cálculo de APVP y tampoco se computan para el cálculo los niños fallecidos antes de cumplir un año de edad. El cálculo de los APVP se realiza sumando los años que faltan para 70 de todos los fallecidos mayores de un año y menores de 70. Ejemplos 3.5. En una ciudad con población aproximadamente estable de un millón de habitantes, de los cuales el 48% son hombres y el 52% mujeres, en 1993 fallecieron 10.000 personas de los que 6.000 eran hombres y 4.000 mujeres. Se declararon 300 casos de SIDA de los que fallecieron 189.
74
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Calcular:
AJUSTE DE TASAS Las tasas tanto de mortalidad como de morbilidad de dos poblaciones no son comparables de manera directa; es necesario previamente ajustarías eliminando el efecto de otras variables que pueden influir en ellas, como la edad o el sexo. Supongamos que queremos comparar las tasas de cardiopatías isquémicas (CI) entre dos poblaciones. En la población A la tasa de incidencia es 0,021 AÑOS-1 y en la población B 0,0074 AÑOS"'. La incidencia en la población A es mayor que en la B, lo cual nos podría inducir a elaborar la hipótesis de que en la población/I hay factores de riesgo que, controlados, podrían ayudar a disminuir la incidencia de isquemia cardíaca. Pero antes de esto tenemos que estudiar la edad y el sexo de ambas poblaciones, porque con la edad aumentan los problemas cardíacos y una mayor proporción de varones también es un factor importante en el desarrollo de CI. Al ajustar las tasas por edad y sexo podríamos encontrarnos con la sorpresa de que las tasas en ambas poblaciones son parecidas, e incluso podría ocurrir que, una vez ajustadas las tasas, la población B tuviera una incidencia mayor que la B, por causas distintas a la edad y el sexo. Las tasas de mortalidad son las que se ajustan para comparar en la mayoría de los casos, pero no debemos olvidar que antes de comparar cualquier tipo de tasas debemos tener en cuenta las variables que pueden influir y controlarlas, a fin de tener una visión realista del problema. Actualmente existen sofisticados métodos estadísticos, como el análisis estratificado o algunas técnicas multivariantes que nos permiten controlar el efecto de varias variables de forma simultánea, como el análisis de la covarian-
MEDIDAS DE MORBILIDAD Y MORTALIDAD
75
za, regresión múltiple, etc. Estos métodos son los que actualmente recomendamos utilizar. No obstante por sentido histórico comentaremos el ajuste de tasas de mortalidad mediante los métodos directo e indirecto, controlando el efecto de la edad. La edad es la variable que más influencia tiene en la mortalidad pero no es la única. El ajuste de tasas controlando más de una variable es muy complicado y, en el caso de que ello fuera necesario, recomendamos utilizar técnicas de análisis estadístico multivariante, siempre y cuando dispongamos de los datos necesarios para ello.
Ajuste de tasas por el método directo Las tasas de mortalidad de dos poblaciones no pueden ser comparables sin controlar al menos la influencia de la edad. Uno de los métodos que pueden ser utilizados para ajustar las tasas de mortalidad es el método directo. Si dos poblaciones tienen distinta distribución etaria, utilizaremos una población de referencia común y basándonos en ella, calcularemos las tasas de mortalidad de las dos poblaciones, suponiendo que ambas tienen la misma distribución etaria que la población estándar. De esta manera, las nuevas tasas calculadas son comparables, puesto que hemos eliminado la influencia de la edad. Surge una interesante paradoja: las tasas reales de ambas poblaciones no son comparables, mientras que las tasas ajustadas son hipotéticas pero comparables. La comparación directa de tasas de mortalidad exige conocer las tasas por edad de las poblaciones que queremos comparar y la estructura etaria de la población estándar (PE). La población estándar puede diferir según los casos. Si quisiéramos comparar dos poblaciones españolas, podríamos elegir como PE los datos del total del estado; en el caso de comparar dos naciones del mercado común, la población estándar adecuada sería la de la Europa comunitaria, etc. El método de cálculo de la estandarización directa será descrito mediante el siguiente ejemplo: Ejemplo 3.6. Conocemos las tasas de mortalidad por grupos de edad, en el año 1990, de dos poblaciones a las que hemos etiquetado como A y B. En la
Tabla 3.2. Población A 1990.
76
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Tabla 3.2 se describen los datos de la población .A y en la Tabla 3.3 los de la población B. Según la tabla anterior, en la población A en el año 1990 había 2.000 personas con edad comprendida entre 0 y 25 años, de los que 18 fallecieron. Dividiendo 18 por 2.000 obtenemos la tasa específica por edad de este grupo etario, cuyo resultado es 0,009. Procediendo de la misma manera obtenemos las tasas de los demás grupos etarios. La tasa cruda de mortalidad (TCM) es el número total de muertos en una población y período determinado. En el caso de la población A
La tasa cruda de mortalidad en 1990 para la población B fue:
La TCM de la población B es mayor que la de la población A Si las comparáramos de forma inmediata, tendríamos que concluir que la mortalidad en B es mayor que en A. Pero antes de tomar decisiones debemos controlar el efecto de la variable edad, para lo cual tomaremos una población de referencia común a las dos. La estructura etaria de la población seleccionada esta descrita en la Tabla 3.4. A continuación calculamos la tasa cruda de mortalidad, para las dos poblaciones. El cálculo de la tasa cruda de mortalidad ajustada lo realizamos
Tabla 3.3. Población B 1990.
MEDIDAS DE MORBILIDAD Y MORTALIDAD
77
Tabla 3.4. Estructura etaria de la población estándar.
considerando que ambas poblaciones tienen la misma estructura etaria que la población estándar. Utilizando las tasas específicas de edad de cada población, calculamos la mortalidad que tendría cada población en el supuesto de que la estructura etaria fuera la de la población estándar. A partir del número de fallecidos bajo los supuestos antedichos, calculamos para cada población la tasa de mortalidad ajustada TMA. Las tasas de ambas poblaciones calculadas de esta manera son comparables. En la Tabla 3.5 se describen los cálculos para la población A y en la Tabla 3.6 los correspondientes a la B. En la tabla anterior, FE son los fallecidos esperados con la estructura etaria de la población estándar y la tasa de mortalidad de la población A.
Tabla 3.5. Mortalidad estandarizada población A
Tabla 3.6. Mortalidad estandarizada población B.
78
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Dividiendo el número total de muertos esperados, que son 152, por el tamaño de la población estándar 8.000, obtendremos la tasa de mortalidad ajustada (TMA) para A.
Una vez calculadas las tasas ajustadas, las dividimos. Al cociente le denominamos cifra de mortalidad comparativa (CMC). Si el resultado es 1, indica que, una vez controlado el efecto de la edad, no existen diferencias entre la mortalidad de ambas poblaciones. Si la CMC es mayor de 1, indica que la población del numerador tiene una mortalidad mayor que la población del denominador, por causas distintas a la edad; y si la CMC es menor de 1, indica que la población del denominador tiene una mortalidad mayor que la del numerador, por causas distintas a la edad. En nuestro caso como, ambas tasas ajustadas de mortalidad son iguales, la cifra de mortalidad comparativa es 1, lo que indica que, una vez ajustado el efecto de la edad, no encontramos diferencias entre la mortalidad de ambas poblaciones. Dicho de otra manera, las diferencias encontradas en las tasas crudas de mortalidad entre las poblaciones A y B son debidas a la edad. En el supuesto de que los datos de mortalidad de las poblaciones sean estimaciones, en caso de encontrar diferencias en las tasas de mortalidad ajustada, habría que comprobar si dichas diferencias son estadísticamente significativas. En la mayoría de los casos los datos de mortalidad son totales, en cuyo caso las comparaciones se realizan sin necesidad de estudiar la significatividad. Ajuste de tasas por el método indirecto En algunos casos no disponemos de las tasas de mortalidad específicas de alguna de las poblaciones3 que queremos comparar, aunque sí su estructura etaria y la mortalidad total; en este caso podemos utilizar el método indirecto (6), El método indirecto permite calcular cuál sería la mortalidad de una determinada población si tuviera las tasas de mortalidad de una población de referencia. El método de cálculo será comentado mediante el siguiente ejemplo. 5
Insistimos en que el término poblaciones no hace referencia necesariamente a una determinada ciudad, se refiere a cualquier grupo humano de interés en un estudio, mujeres de una ciudad, trabajadores de una fabrica, abogados de una ciudad etc.
MEDIDAS DE MORBILIDAD Y MORTALIDAD
79
Tabla 3.7. Estructura etaria de los médicos de la ciudad Z, 1988.
Ejemplo 3.7. Se conoce la estructura etaria y la mortalidad total durante el año 1989 de los médicos de la ciudad Z. Se tiene la hipótesis de que la mortalidad entre los médicos es mayor que en la población general de la ciudad de referencia, de la que sí se conocen la estructura etaria y las tasas de mortalidad específica por edad. En la Tabla 3.7 se describen los datos sobre estructura etaria de los médicos de la ciudad Z durante 1989; además sabemos que en 1989 murieron 132 médicos. En la Tabla 3.8 disponemos de las tasas de mortalidad para la población general en 1989 en la ciudad Z. A partir de los datos de las tablas anteriores, se calculará el número de muertos esperado bajo el supuesto de que los médicos tuvieran la misma tasa de mortalidad que la población general; para ello multiplicaremos la tasa específica por, edad de cada grupo etario de la población general. El resultado es el número esperado de médicos muertos bajo el supuesto de que la mortalidad de médicos y población general fuera la misma. La suma de los muertos esperados de cada grupo es el número total de médicos muertos esperados. Los cálculos realizados están en la Tabla 3.9. El número de médicos esperados, bajo el supuesto de que los médicos tuvieran la misma mortalidad que la población general, es: muertos esperados ME = 94, los muertos observados son: MO= 132. A partir de los datos anteriores, se calcula el cociente entre muertos observados y muertos esperados; a este cociente se le denomina razón de mortalidad estandarizada RME, en inglés conocido por las siglas SMR.
Tabla 3.8. Tasas de mortalidad por grupos etarios ciudad Z, 1989.
80
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Tabla 3.9. Cálculo de muertes esperadas (ME).
En nuestro caso:
Muchos autores expresan el dato anterior multiplicado por cien, en cuyo caso sería 140. Si el RME es igual a 1, indica que la población comparada tiene la misma mortalidad que la de referencia. Si es mayor de 1, indica que la mortalidad de la población comparada es mayor que la de referencia; y si es menor la mortalidad de la población de referencia, es mayor que la población comparada. En nuestro caso, la población comparada, los médicos de la ciudad Z en 1989, tuvieron una mortalidad un 140% mayor que la población general, que en este caso es la de referencia.
LECTURAS RECOMENDADAS Kleinbaum D. G, Kupper, L, Morgenstern H, Epidemiologic research, Editor Carol Beal, 1982. Hennekens C. H,Buring J. E, Epidemiology in medicine, Editor Mayrent, S.L. Rothman K. J, Epidemiología moderna, Ediciones Díaz de Santos 1987. Lilienfeld A. M, Fundamentos de epidemiología, Addison-Wesley Iberoamericana, 1987.
BIBLIOGRAFÍA 1. Rothman K.J. Epidemiología moderna, Madrid Editorial Díaz de Santos, 1987. 2. Elandt-Johnson, R.C. Definition of rates: Some remarks on their use and misuse. American Journal Epidemiol. 1975 vol. 102, 267-271. 3. FreemanJ, Hutchison, G B, Prevalence, incidence and duration. Am. J. Epidemiol. 1980; vol. 112,707-723. 4. Alvarez-Dardet C., Bolumar F., Porta Serra M., Medicina Clínica, 1987; Vol. 88, 287-291.
ME DIDAS DE MORBILIDAD Y MORTALIDAD
81
5. Romeder J.M., McWhinnie, Pérdida potencial de años de vida perdidos entre 1 y setenta años ... Int J of Epid 1977; Vol. 6 143-151. 6. Wolfenden, H H. On the methods of comparing the mortalities of two or more communities, and the standardization of death rates. J R. Stat. Soc. 1923; vol. 86, 399-411.
Capítulo 4 ANÁLISIS DEL RIESGO
La calidad está, antes que nada, en respetar la naturaleza de las cosas. Plutarco. En este capítulo se analiza uno de los temas de más actualidad en la medicina moderna: el riesgo. En ciencias de la salud denominamos riesgo a la probabilidad de contraer una determinada enfermedad, pero el concepto puede usarse en otras circunstancias: riesgo de tener una complicación tras una intervención quirúrgica, riesgo de morir antes de transcurrir un determinado período de tiempo, etc. En general, el término riesgo sin calificativos será utilizado en este libro para referirnos a la probabilidad de contraer una determinada enfermedad. En primer lugar será comentada la definición de riesgo y a continuación la evaluación del mismo. Otro interesante apartado es el de los factores que modifican el riesgo. También es analizado el cálculo del riesgo a partir de tablas de contingencia 2 X 2 y en regresión logística, dos técnicas estadísticas muy utilizadas en la actualidad en ciencias de la salud. RIESGO Riesgo es la probabilidad de que ocurra un suceso desafortunado. Es una probabilidad y, por lo tanto, su valor debe oscilar entre cero (lo que implica que no existe riesgo de que el suceso ocurra) y uno (que indica que el suceso ocurrirá con seguridad absoluta). Cuando usamos expresiones como «correr un riesgo», «una operación arriesgada», «una persona arriesgada», etc., implícitamente queremos decir que la probabilidad de obtener un resultado desagradable es alta. En ciencias de la salud, la mayoría de las veces que utilizamos la palabra nesgo nos referimos a la probabilidad de padecer una determinada enfermedad, y en ese sentido lo utilizaremos a lo largo del libro.
84
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Las referencias al riesgo deben incluir un ámbito y período de tiempo determinados. Sin la referencias espacial y temporal, el uso del riesgo no tiene sentido. Todos tenemos que morir de hecho, la vida supone un riesgo con valor uno respecto a la muerte. La cuestión es cuándo. La diferencia en mortalidad entre dos poblaciones es la edad media de fallecimiento. El término población indica un grupo determinado de individuos en un lugar determinado. No tendría sentido decir que el riesgo de padecer insuficiencia coronaria es 0,3 ¿A qué grupo humano nos referimos? y, ¿en cuanto tiempo? Por ejemplo, sería correcto decir que un habitante con edad comprendida entre 40 y 60 años de una ciudad determinada, tiene una probabilidad de 0,14 de padecer una insuficiencia coronaria en seis años. Esto sería una referencia respecto a la población general de la ciudad en la que se ha realizado el estudio y en un período determinado. Si detectamos que, dentro de la población de referencia, existen diferencias importantes entre distintos subgrupos y disponemos de la información necesaria, debemos especificarlo. Entre hombres y mujeres probablemente habrá diferencias importantes. Supongamos que tenemos los datos de riesgo referido, a mujeres y hombres por separado y que estos fueran 0,08 para mujeres y 0,16 para los hombres; el riesgo en hombres es el doble respecto a las mujeres. Siempre que dispongamos de los datos adecuados es importante especificar el riesgo de los subgrupos poblacionales entre los que haya diferencias importantes como: fumadores, hipertensos, diabéticos, etc. La diferencia de riesgos entre dos grupos es denominada diferencia de riesgos, riesgo diferencial y también riesgo absoluto. El cociente entre riesgos de dos grupos o poblaciones distintas es el riesgo relativo, el cual comentaremos más ampliamente en un apartado posterior. FACTORES DE RIESGO Y DE PROTECCIÓN En pocas ocasiones podemos afirmar categóricamente que un individuo determinado padecerá una determinada enfermedad en un tiempo determinado. Por otro lado, existen pocas causas que por sí solas sean suficientes para predecir que una persona padecerá sin ninguna duda una enfermedad en un período de tiempo determinado. Podemos afirmar que un fumador tiene una probabilidad mayor que un no fumador de padecer una cardiopatía antes de cumplir 60 años, pero muchos fumadores alcanzarán esa edad sin tener ningún problema y algunos no fumadores padecerán una cardiopatía isquémica antes de los 60 años. En el estado actual de las ciencias de la salud podemos recoger información sobre factores que aumentan la probabilidad de padecer una determinada enfermedad, a los que llamaremos factores de riesgo, o descubrir factores que disminuyen la probabilidad de padecer una determinada enfermedad, a los que llamaremos factores de protección, aunque es de esperar que en los
ANÁLISIS DEL RIESGO
85
próximos años nuestros conocimientos avancen y, consecuentemente, aumente nuestra precisión sobre la evolución del estado de salud de los pacientes. Los factores de riesgo y de protección lo son respecto a una determinada enfermedad; un factor de riesgo para una enfermedad lo puede ser de protección para otra. El realizar ejercicio moderado y con regularidad es un factor de riesgo respecto al padecimiento de traumatismos articulares; sin embargo, es un factor de protección respecto a enfermedades coronarias. El uso de la terminología referida al riesgo es manifiestamente incorrecta e inexacta, incluso entre muchos profesionales de las ciencias de la salud. Un factor de riesgo o de protección siempre debe cuantificarse, a fin de tener una idea realista de su significado. Por ejemplo, el decir que el fumar produce cáncer de laringe es inadecuado; lo correcto es decir que los fumadores tienen una probabilidad mayor que los no fumadores de padecer cáncer de laringe y especificar numéricamente las probabilidades. La referencia a que un determinado factor produce una determinada enfermedad sería correcta si el contacto con el factor produjera inevitablemente la enfermedad, en cuyo caso el riesgo sería uno. Durante los años 1993 y 1994 hubo una gran polémica sobre los posibles efectos secundarios de los implantes de silicona, entre ellos el aumento de la probabilidad de padecer cáncer de mama respecto a las mujeres que no tenían implantes de silicona. Hemos visto algunos programas de televisión en los que el tema del debate era los efectos de dichos implantes; en estos debates había varios facultativos; todo el programa gravitaba sobre si los implantes de silicona producen o no producen cáncer de mama, ¡Como si la solución a la pregunta fuera un sí o un no! Nadie enfocaba correctamente el problema. Lo más que podría decirse es que la probabilidad de padecer cáncer de mama en una mujer con implantes mamarios de silicona podría aumentar ligeramente respecto a las que no tienen implantes. Sería entendible que los abogados de las implantadas exageren los efectos y que los abogados de las casas comerciales los minimicen, pero que un grupo de facultativos discuta sobre riesgo en términos de sí o no es lamentable. Por otra parte, esto no es un hecho aislado ya que el nivel actual de conocimientos sobre riesgo entre los profesionales de las ciencias de la salud, en general, es muy bajo. Es frecuente escuchar a conferenciantes o leer artículos con expresiones como «el factor tiene un riesgo significativo respecto a...», «dicho factor produce...»; estas frases y otras similares, si no van acompañadas de la correspondiente cuantificación, es poco más que no decir nada. Riesgo significativo referido a un determinado factor indica que es mayor la probabilidad de padecer una enfermedad en presencia del factor que en su ausencia, pero no aclara mucho las cosas. Es lo mismo que decir que Julio tiene un nivel de glucemia basal más alto que Francisco; puede ser un miligramo más, alto lo cual es insignificante, o cien miligramos, lo que indicaría una diferencia muy notable. En este capítulo aclararemos los problemas más importantes acerca del riesgo, cómo cuantificarlo y cómo interpretarlo. Una gran parte de la medicina clínica actual atraviesa una etapa a la que podríamos llamar del riesgo; descubrimos factores de riesgo o de protección y calculamos la probabilidad de padecer una determinada enfermedad en pre-
86
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
sencia de uno o más factores, lo cual nos permite hacer predicciones bastante aproximadas considerando grupos de personas, pero no de forma individual. Personas con varios factores de riesgo para una determinada enfermedad no desarrollan la enfermedad y otras con ningún factor conocido desarrollan la enfermedad. Esto es debido a que nuestro conocimiento de las enfermedades y sus causas es todavía insuficiente. Según avancemos en el conocimiento de la bioquímica, fisiología y genética, podremos pronosticar y explicar con mayor exactitud la causalidad de las enfermedades; posiblemente la genética guarda muchas de las claves que actualmente nos faltan. La etapa actual es muy interesante y el descubrimiento de factores de riesgo o de protección permite la elaboración de hipótesis sobre mecanismos patogénicos que nos permiten avanzar en el conocimiento de las enfermedades. VALIDEZ DE LOS ESTUDIOS SOBRE RIESGO Los estudios sobre el riesgo de padecer cardiopatía isquémica, que comenzaron en 1949 en el barrio de Framinghan (1-2-3), (estos son sólo una pequeña muestra de la infinidad de artículos existentes sobre este estudio), supusieron un revulsivo para la búsqueda de factores de riesgo. Otros estudios (4), como el realizado en la década de los 50 sobre el tabaco y su relación con el cáncer de pulmón, confirmaron la importancia de los estudios sobre poblaciones para detectar factores de riesgo. La pregunta fundamental es ¿los estudios sobre riesgo relacionados en una determinada población y período de tiempo, son válidos para todas las poblaciones? En los Capítulos 1 y 2 comentamos ampliamente que ni la filosofía del conocimiento ni la estadística permiten extrapolar los estudios realizados en un lugar y tiempo determinados fuera de ese contexto. Cuando decimos extrapolar nos referimos a considerar que los conocimientos, obtenidos en una región y tiempo determinados, pueden ser aceptados con rigor científico en otras regiones o tiempo. Otra cosa es que como hipótesis de trabajo aceptemos que factores de riesgo demostrados en otras latitudes y tiempo lo sean en otros lugares, aunque con las debidas precauciones, y teniendo en cuenta que las cuantificaciones serán distintas en la mayoría de los casos. Veamos un ejemplo, si se demuestra que el aumento del colesterol basal por encima de ciertos niveles es un factor de riesgo respecto a la enfermedad coronaria en una determinada ciudad como Framinghan, los resultados obtenidos son válidos para Framinghan durante el período de tiempo en que se realizaron. Otros estudios, como el realizado en siete países (5), coinciden en que los niveles altos de colesterol se asocian con enfermedades coronarias, pero el riesgo es distinto: en varones de 30-69 años, la tasa de mortalidad estandarizada por 100.000 habitantes a causa de cardiopatía isquémica en 1985, en
ANÁLISIS DE L RÍE SGO
87
Irlanda del Norte fue de 406, en Escocia 398, en Estados Unidos 235, en Francia 94, en España 104 y en Japón 38. El riesgo de mortalidad coronaria es distinto según los países; en Francia, a pesar de tener una dieta rica en grasas, el riesgo es bajo. Aceptando que en un mismo país niveles altos de colesterol influyen en la morbilidad y mortalidad coronaria, el problema es dilucidar a partir de qué valores se considera que el colesterol basal aumentado puede considerarse un factor de riesgo. Según algunos estudios (6), a partir de 180 mg/100 ml aumenta el riesgo, lo cual significa que el 75% de las personas adultas de Occidente podrían ser consideradas hipercolesterolémicas. Teniendo en cuenta que las cifras de mortalidad son muy dispares en los distintos países el nivel a partir del cual el colesterol basal debe considerarse un factor de riesgo probablemente variará según las poblaciones, de ahí la gran controversia sobre este punto en la bibliografía. Otro tema importante es el tratamiento. Una vez fijado el nivel de colesterol a partir del cual podemos considerar que el colesterol total es un factor de riesgo, el problema es decidir cuándo tratarlo, puesto que los tratamientos implican riesgo y debemos evaluar el riesgo que implica una terapia. Este tema lo comentaremos más ampliamente en el capítulo dedicado a la terapéutica. El problema es complejo e influyen muchos factores, como el nivel de colesterol HDL, coexistencia de otros factores de riesgo, etc. En España se han realizado pocos estudios de calidad y se han importado los datos anglosajones como si se hubieran realizado aquí. Teniendo en cuenta que la mortalidad coronaria en España es relativamente baja, deberían individualizarse los estudios y lo que es más importante, llegar a un consenso de expertos sobre cuándo tratar una hipercolesterolemia. En España, en muchos centros sanitarios, se trata farmacológicamente a los pacientes con colesterol basal superior a 235 mg/100 ml, incluso en mujeres y personas con edad avanzada. En la actualidad no existe ningún trabajo (7) riguroso que demuestre la eficacia de la intervención terapéutica farmacológica sobre el colesterol en mujeres ni en individuos mayores de 65 años asintomáticos. En ausencia de otros factores de riesgo algunos autores no recomiendan en varones intervención terapéutica (89), ni siquiera dietética, por debajo de 250 mg/100 ml, y en mujeres por debajo de 300 mg/100 ml. Un hecho cierto es que niveles elevados de colesterol, sobre todo si van acompañados de otros factores de riesgo, aumentan la probabilidad de padecer cardiopatía coronaria. Esto, hábilmente manejado por el marketing de los laboratorios farmacéuticos, fabricantes de reactivos para determinaciones de colesterol, casas de productos dietéticos, etc., ha convertido, lo que precisa tratamiento en un reducido número de casos, en un aluvión de demandas de analíticas de control, tratamientos farmacológicos en muchos casos prematuros y dietas severas, lo que ha ocasionado no pocos problemas en los pacientes, depresiones aumento del número de muertes violentas, incluso aumento de muertes en individuos tratados con clofibratos (10), etc., pero es un negocio de
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
88
muchos miles de millones de pesetas anuales, que podrían gastarse en otras cuestiones más necesarias. Con la discusión anterior, más que entrar en detalles sobre el problema del diagnóstico y tratamiento de la hipercolesterolemia, que es muy complejo, se pretende dejar claros los siguientes puntos: I. Un factor de riesgo de la enfermedad que sea, demostrado en una población; no es directamente transportable a otra población; habrá que considerarlo y comprobarlo en otras poblaciones. Si se comprueba repetidas veces, como hipótesis de trabajo se admitirá universalmente válido, a la espera de otras comprobaciones o refutaciones. II. Si un determinado factor es un riesgo para una determinada enfermedad, puesto que el punto de riesgo1 es distinto según las poblaciones, hay que cuantificar los niveles de riesgo en cada población. Es una inexactitud hablar solamente de factor de riesgo sin cuantificaciones. III. Admitiendo que a partir de un determinado nivel del factor el riesgo aumenta, hay que decidir cuándo se debe aplicar tratamiento. El punto terapéutico2 es distinto según las poblaciones y habitualmente es distinto del punto de riesgo. Si un estudio se lleva a cabo sobre una población completa, por ejemplo, trabajadores de una mina, los datos sobre riesgo son válidos y exactos para el ámbito del estudio. El uso de intervalos de confianza es inadecuado, puesto que conocemos los datos poblacionales y los parámetros estudiados son exactos (ver el Capítulo 2). Si estudiamos una muestra de la población, los parámetros de riesgo calculados se acompañarán de los correspondientes intervalos de confianza, que intentan precisar los datos sobre la población muestreada. MEDIDAS DE RIESGO En este apartado comentaremos varias medidas que permiten cuantificar el riesgo. En apartados anteriores insistimos en que es inexacto y da lugar a confusiones hablar de riesgo sin las debidas cuantificaciones. El riesgo es una probabilidad, y las probabilidades pueden ser calculadas de múltiples maneras. Si el cálculo de las mismas, referidas al riesgo, es adecuado puede calcularse a partir de ellas cualquier medida de riesgo. Una probabilidad calculada a partir de un estudio puede considerarse como un riesgo si el diseño del estudio es adecuado para ello. En el Capítulo 5 comentaremos los tipos de diseño habituales en ciencias de la salud y especificaremos las 1
Definimos punto de riesgo como el nivel de un factor a partir del cual los individuos que tienen niveles superiores tienen una probabilidad mayor de padecer una determinada enfermedad que los individuos con niveles del factor menor que el punto de riesgo. 2 Definimos punto terapéutico como el nivel del factor a partir del cual debe aplicarse tratamiento.
ANÁLISIS DEL RIESGO
89
medidas de riesgo adecuadas a cada uno. Algunas medidas de riesgo, como el riesgo relativo, solamente es posible calcularlas si tenemos un conocimiento adecuado de la relación temporal del factor y de la enfermedad y disponemos de una población o una muestra estadísticamente representativa como en los estudios de cohortes. La mayoría de los estudios clásicos han sido realizados a partir de tablas de contingencia y de éstas, las más utilizadas son las tablas 2 x 2. En la mayoría de los libros e incluso artículos científicos que tratan sobre riesgo, solamente se indica cómo realizar un cálculo del riesgo a partir de tablas 2 x 2 , como si ésta fuera la única manera de hacerlo. Incluso a partir de dichas tablas se ha creado una terminología como casilla a, casilla b, casilla c, y casilla d, sin definición previa de a que corresponde dicha nomenclatura, lo cual limita las posibilidades: basta que cambiemos en la tabla la disposición del grado de exposición y el estado de salud para que los que se hayan aprendido de memoria cómo calcular el riesgo o el riesgo relativo no sepan qué hacer; esto no es una hipótesis, personalmente he podido comprobarlo en muchas ocasiones. En este capítulo comentaremos ampliamente cómo realizar los cálculos a partir de una tabla de contingencia puesto que es un método válido y muy extendido, pero no el único. En dicho apartado se indicará cómo calcular intervalos de confianza para las distintas medidas de riesgo. Si el diseño del estudio lo permite, las probabilidades pueden calcularse de forma directa. El riesgo de que un individuo expuesto a un factor enferme es igual al número de expuestos que han enfermado dividido por el número total de expuestos; y el riesgo para un individuo no expuesto es el cociente entre el número de no expuestos enfermos dividido por el número total de no expuestos. De esta manera tan simple pueden calcularse riesgos, por ejemplo, si en un estudio de cohortes, tras un año de seguimiento, cien fumadores y treinta no fumadores padecieron al menos un cuadro de bronquitis aguda durante el estudio, el número de fumadores participantes fue de doscientos y el de no fumadores de ciento cincuenta, en el estudio la probabilidad de que un fumador contraiga bronquitis es de cien entre doscientos (0,5, el 50%), y la probabilidad de que un no fumador contraiga una bronquitis aguda es de treinta entre ciento cincuenta (0,2, el 20%). El riesgo relativo de los fumadores respecto a los no fumadores es de 0,5 entre 0,2 (2,5), lo que significa que un fumador es 2,5 veces más probable que padezca al menos una bronquitis aguda en un año que un no fumador. Otros métodos muy utilizados en la actualidad, como la regresión logística o la regresión Poisson, también permiten el cálculo de riesgos. Al final de este capítulo comentaremos el cálculo del riesgo mediante regresión logística. Resumiendo el comentario anterior, en el cálculo de riesgos recomendamos tener en cuenta los siguientes puntos: I. Antes de realizar ningún cálculo debemos estar seguros de que el diseño del estudio es adecuado para el cálculo de la medida de riesgo que se desea calcular.
90
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
II. El riesgo es una probabilidad, la cual puede calcularse de diversas maneras. III. Las tablas de contingencia son un instrumento muy útil para el cálculo de riesgos pero no el único. Si realiza cálculos a partir de tablas de contingencia, es recomendable que comprenda el significado de cada cálculo, en vez de aprender de memoria fórmulas sin saber su significado intrínseco. Si comprende los cálculos de probabilidades, podrá calcular riesgos y riesgos relativos independientemente de la orientación de la tabla. Las medidas de riesgo más utilizadas son las siguientes: Diferencia de riesgos. Riesgo relativo. Razón de ventaja (odds ratio). Proporción atribuible. Proporción atribuible poblacional.
Diferencia de riesgos La diferencia de riesgos es la diferencia entre la probabilidad de padecer una determinada enfermedad en el mismo período de tiempo entre dos grupos o poblaciones de individuos. Habitualmente una de las poblaciones está expuesta a un determinado factor y la otra no, a fin de dilucidar si la presencia del factor aumenta o disminuye la probabilidad de padecer la enfermedad. Si la probabilidad de padecer la enfermedad es mayor en la población expuesta al factor, éste es un factor de riesgo respecto a la enfermedad estudiada. La diferencia de riesgos indica la diferencia de probabilidades de padecer la enfermedad de una población respecto de la otra, Si los riesgos han sido calculados estudiando la población de referencia entera, los riesgos calculados son exactos y la diferencia de riesgos también, independientemente de que sea pequeña o grande. Si los riesgos han sido calculados mediante muestreo, son estimaciones y la diferencia de riesgos muestral es una estimación de la diferencia de riesgos en la población muestreada, Lo primero que habrá que evaluar es que la diferencia de riesgos es estadísticamente significativa; si no lo es, diremos que no tenemos evidencia de que el factor sea un factor de nesgo. Cuando los estudios son realizados a partir de muestras, y la diferencia de riesgos es significativa, lo único que esto significa es que tenemos evidencia de que la diferencia de riesgos entre los dos grupos en los que se realiza la comparación es matemáticamente distinta (ver Capítulo 2). Una diferencia de 0.01 o incluso menor, si el tamaño de la muestra es grande, puede ser significativa aunque no sea relevante, Es frecuente en conferencias, congresos o artículos científicos, al referirse a diferencias de riesgos comentar «los individuos expuestos al factor tenían un riesgo significativamente mayor que los no
ANÁLISIS DEL RIESGO
91
expuestos». Sin especificar nada más, insistimos en que esto es muy poco más que no decir nada mientras no nos indiquen la magnitud de las diferencias. En los estudios por muestreo deben figurar los correspondientes intervalos de confianza. El desafortunado uso de significativo para decir matemáticamente distinto es una fuente continua de errores, puesto que muchos profesionales entienden por diferencia significativa una diferencia muy importante, lo cual es erróneo. Insistimos en que lo importante tras comprobar que tenemos evidencia de que las diferencias en riesgo son matemáticamente distintas es cuantificar esa diferencia; cualquier medida de riesgo sin cuantificar tiene un valor muy pobre. Por ejemplo, si nos dicen que Juan es más alto que Antonio sin más, nos quedamos sin saber nada; los dos pueden ser muy altos y la diferencia entre ellos pequeña, los dos pueden tener pequeña estatura y la diferencia entre ellos ser pequeña, etc. La información adecuada sería decir Juan mide 179 cm, Antonio mide 172 cm y la diferencia entre los dos es de 7 cm. De esta manera tenemos una visión completa del problema, que nunca podríamos tener con la simple referencia cualitativa de que entre los dos existe una diferencia, pero sin conocer cuál es esa diferencia y las alturas de ambos. Ejemplo 4.1. Existe la hipótesis de que el fumar es un factor de riesgo para la bronquitis crónica; para comprobarlo en una ciudad se estudia el riesgo de padecer bronquitis crónica en personas mayores de 40 años. La probabilidad de padecer bronquitis crónica en fumadores es 0,3 y en no fumadores 0,21. La diferencia de riesgos DR es:
Los fumadores tienen un 9% más de riesgo de padecer bronquitis crónica que los no fumadores.
Riesgo relativo (RR) El riesgo relativo RR es la razón entre la probabilidad de padecer la enfermedad en presencia del factor y la probabilidad de padecer la enfermedad en ausencia del factor. La expresión matemática del RR es la siguiente:
En la expresión anterior, E significa enfermedad, F factor presente y F factor ausente.
92
E L MÉ TODO CIÉ NTÍFICO E N LAS CIÉ NCIAS DE LA SALUD
Estudie la fórmula anterior detenidamente; el valor intrínseco del riesgo relativo es un cociente de probabilidades condicionadas. El valor del riesgo relativo puede oscilar entre cero, (la probabilidad de que enferme un expuesto es cero) e infinito (la probabilidad de que enferme un no expuesto es cero). La distribución del riesgo relativo no es simétrica. Un riesgo relativo cero indica que no hay ningún enfermo en presencia del factor; en este caso el factor proporcionaría una protección total, por ejemplo, una vacuna antigripal que proporcionara una inmunidad total en todas las personas en las que se haya administrado. Un riesgo relativo infinito indica que en ausencia del factor no se contrae la enfermedad; estaríamos ante un factor causal único para una determinada enfermedad, por ejemplo, una hepatopatía específica por DDT. Sólo la padecerían los que hayan incorporado a su organismo una dosis determinada de dicho insecticida. La probabilidad de que padezcan la enfermedad personas que no hayan tenido contacto con el DDT sería igual a cero, observe que un riesgo relativo infinito no indica que la enfermedad esté muy extendida. Por ejemplo, supongamos que en una región con mil habitantes, en la que se ha utilizado DDT, hay doscientas personas con una concentración de DDT mayor de 30 partes por millón, de las cuales hay diez afectadas por una hepatopatía específica causada por el insecticida. No existe ningún caso de la enfermedad en personas que tengan en su organismo menos de 30 partes por millón de DDT. Si consideramos como factor de riesgo para la hepatopatía tener en el organismo una concentración de DDT mayor de 30 partes por millón, el riesgo relativo de padecer dicha enfermedad es infinito. Tengamos en cuenta que la probabilidad de padecer la enfermedad en la región es pequeña, 0,01 (diez entre mil) y que hay muchas personas con concentraciones de DDT mayores de 30 partes por millón que no padecen la enfermedad. El valor del riesgo relativo por sí mismo, sin conocer los riesgos en presencia y ausencia del factor de referencia, no pueden ser correctamente interpretados. No es correcto el cálculo del RR en todos los tipos de diseño; debe utilizarse cuando tengamos una muestra estadísticamente representativa de una población y la seguridad de que el factor que queremos evaluar es anterior a la enfermedad en estudio. Estas condiciones se cumplen en estudios de cohortes y en algunos estudios transversales3; sin embargo, no se cumplen en estudios de casos y controles. El RR nos indica cuántas veces es más probable contraer la enfermedad en presencia del factor que en ausencia del mismo. Si no existe ninguna relación entre la enfermedad y el factor, el valor de RR es 1; un número mayor que 1 indica que el factor que estamos evaluando es un factor de riesgo y un número menor que 1 indica que el factor es de protección. 3 Para que a partir de un estudio transversal pueda calcularse el riesgo relativo, el factor debe de ser anterior al factor, como en algunos factores genéticos, también debe conocerse la proporción de expuestos que enfermaron y que no enfermaron.
ANÁLISIS DEL RIESGO
93
Ejemplo 4.2. En una pequeña ciudad hay dos zonas a las que denominaremos A y B; el abastecimiento de agua a cada una de ellas proviene de dos depósitos distintos. Según el equipo sanitario de dicha ciudad; los habitantes de la zona B padecen más episodios de gastroenteritis que los de la zona A, habiendo elaborado la hipótesis de que el suministro de agua a la zonafi podría estar contaminado. Para comprobar esta hipótesis, se lleva a cabo un estudio, de seguimiento de toda la ciudad durante dos meses. El riesgo de padecer gastroenteritis en la zona A durante los dos meses del estudio es de 0,08 y en la zona B de 0,24. En la zona A han padecido gastroenteritis el 8% de sus habitantes durante los dos meses de seguimiento, mientras que en la zona B, el 24% de sus habitantes han padecido gastroenteritis. Teniendo en cuenta.que es un estudio de cohortes y la representatividad es óptima, es adecuado estudiar riesgo relativo. El riesgo relativo de B respecto a^ es el cociente entre 0,24 y 0,08:
Esto significa que los habitantes de la zona B tienen el triple de probabilidad de padecer gastroenteritis que los de la zonaA Esto es una evidencia de que los habitantes de la zona B padecen más episodios de gastroenteritis que la A, pero puede no ser suficiente para considerar demostrada la relación causal entre el suministro de agua y la gastroenteritis. Podrían existir factores asociados con las zonas .A y fi, como nivel social, normas de higiene, etc., que fueran las causantes del problema; habría que comprobar microbiológicamente la hipótesis. Al haber estudiado la población entera, sería un error dar intervalos de confianza. Ejemplo 4.3. En una ciudad se realiza un seguimiento durante cinco años de varones con edades comprendidas entre 40 y 60 años a fin de estudiar la incidencia de insuficiencia coronaria (IC), al final del cual se comprueba que la probabilidad de padecer IC es, en fumadores, de 0,22 y entre no fumadores de 0,12, en diabéticos de 0,24 y en no diabéticos de 0,14. A partir de los datos anteriores, la diferencia de riesgos entre fumadores y no fumadores es 0,22-0,12= 0,1 y el riesgo relativo de fumadores respecto a no fumadores es el cociente entre 0,22 y 0,12:
La diferencia de riesgos entre diabéticos y no diabéticos es 0,24-0,14=0,1 y el riesgo relativo entre diabéticos y no diabéticos es el cociente entre 0,24 y 0,14:
94
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Se puede observar como la diferencia de riesgos es 0,1 en los dos casos, mientras que los riesgos relativos son distintos. Dos diferencias de riesgos iguales, en general, tienen riesgos relativos distintos. Para evaluar correctamente el riesgo es insuficiente conocer solamente el riesgo relativo. Para una evaluación completa es necesario conocer los riesgos de los individuos implicados en la relación. Un riesgo relativo entre diabéticos y no diabéticos de 2, respecto al padecimiento de arteriopatías periféricas antes de cumplir 60 años, indica que un diabético tiene una probabilidad dos veces mayor que un no diabético de padecer una arteriopatía periférica (AP) antes de cumplir 60 años, pero nos quedamos sin saber si el riesgo de padecer AP es alto o no. Si la probabilidad de que un diabético padezca una AP antes de los 60 años es 0,36 y de un no diabético 0,18, podemos saber que el riesgo relativo es 2 y además tener una visión del riesgo completa. Ejemplo 4.4. Otro ejemplo interesante es la relación entre fumadores y no fumadores respecto al cáncer de pulmón. Si leemos en un artículo que el riesgo relativo de padecer cáncer de pulmón, antes de cumplir 65 años, de un fumador de más de 20 cigarrillos al día respecto a un no fumador es 24, esto significa que aquellos tienen 24 veces más probabilidad de padecer un cáncer de pulmón que estos. No cabe duda de que es un valor muy alto, pero sería un error interpretarlo como que un fumador de más de 20 cigarrillos al día tiene una probabilidad muy alta de padecer dicha enfermedad. Si un no fumador tiene una probabilidad de padecer un cáncer de pulmón antes de cumplir 65 años de 0,00002, un fumador de más de 20 cigarrillos tendría una probabilidad de 0,00048; ambas probabilidades son pequeñas, aunque el RR sea muy alto. El riesgo relativo es una relación de probabilidades entre dos grupos de individuos con exposiciones distintas a un determinado factor. En un mismo trabajo podemos conocer datos acerca de varios grados de exposición o de varias situaciones distintas, pudiendo calcular varios riesgos relativos. Siempre que se dé información acerca de un riesgo relativo, debemos especificar claramente entre qué grupos se ha calculado. Ejemplo 4.5. Supongamos que, respecto a la bronquitis crónica, disponemos de datos sobre la probabilidad de padecerla antes de los 55 años; las probabilidades obtenidas son: no fumadores 0,15, fumadores entre 1 y 10 cigarrillos diarios 0,18, fumadores de 11 a 20 cigarrillos diarios 0,23 y fumadores de más de 20 cigarrillos diarios 0,36. Los riesgos relativos que podemos calcular son 6:
ANÁLISIS DEL RIESGO
95
Fumadores de 1 a 10 cigarrillos respecto a no fumadores:
Fumadores de 11 a 20 cigarrillos respecto a no fumadores:
Fumadores de más de 20 cigarrillos respecto a no fumadores:
Fumadores de 11 a 20 cigarrillos respecto a fumadores de 1 a 10 cigarrillos:
Fumadores de más de 20 cigarrillos respecto a fumadores de 11 a 20 cigarrillos:
Fumadores de más de 20 cigarrillos respecto a fumadores de 1 a 10 cigarrillos:
Si un estudio en el que se vaya a calcular riesgo relativo se realiza sobre una población4, el RR así calculado es el de dicha población sin intervalos de confianza. Si el estudio lo realizamos por muestreo, el valor del RR debe acompañar4 Insistimos que cuando hablamos de población debe entenderse un grupo bien definido de individuos que pueden coincidir o no con los habitantes de una ciudad.
96
E L ME TODO CIÉ NTIFICO E N LAS CIÉ NCIAS DE LA SALUD
se de los correspondientes intervalos de confianza, válidos solamente para la población muestreada. Las reglas para el cálculo de intervalos de confianza para el riesgo relativo, y otras medidas de riesgo, se explicarán en la página 109 y siguientes. Ejemplo 4.6. Realizamos un estudio con todas los habitantes de más de 30 años de la ciudad de Málaga, los cuales son seguidos durante 10 años con objeto de determinar la influencia de las horas de sol sobre el cáncer de piel. Consideramos como factor de riesgo el tomar más de 70 horas de sol al año durante 5 años seguidos. La probabilidad de padecer cáncer de piel en expuestos es de 0,12 y en no expuestos de 0,03; el riesgo relativo, por tanto, es 4. Como el estudio ha sido realizado con todos los habitantes de Málaga, los valores de los riesgos y del riesgo relativo son exactos y sería erróneo acompañarlos de intervalos de confianza. Las conclusiones que podríamos sacar sobre Málaga, donde la validez interna del trabajo es total (suponiendo que el seguimiento y los diagnósticos hayan sido bien realizados), son los indicados anteriormente, destacando que el tomar el sol un número excesivo de horas supone el cuádruple de probabilidad de padecer un cáncer de piel con respecto a los que toman poco el sol. Respecto a la validez externa, como hipótesis de trabajo aceptaremos que la exposición excesiva al sol aumenta la probabilidad de padecer la enfermedad en todos los grupos humanos, lo cual habrá que comprobar y cuantificar. Los valores de las probabilidades encontradas en Málaga y el riesgo relativo, en general, no serán los mismos en los distintos grupos humanos que la habiten, probablemente con las mismas horas de exposición: un nórdico, un latino, un senegalés o un tuareg tendrán riesgos distintos. Supongamos ahora que el estudio anterior, realizado en la ciudad de Málaga, ha sido realizado siguiendo una cohorte obtenida por muestreo, siendo los datos los mismos, pero en este caso los datos son los riesgos muéstrales. Para inferir sobre la población muestreada (Málaga), calcularemos los intervalos de confianza. Supongamos que una vez calculados los valores, son los siguientes:
La interpretación es la siguiente: El 95% indica que los intervalos han sido calculados con una confianza del 95%. Hay un 95% de probabilidad de que, en la ciudad de Málaga, el riesgo de que un individuo que toma el sol más de 70 horas al año durante al menos 5 años consecutivos, padezca cáncer de piel esté entre 0,1 y 0,14.
ANÁLISIS DEL RIESGO
97
Hay un 95% de probabilidad de que los no expuestos de la ciudad de Málaga, tengan un riesgo de padecer cáncer de piel entre 0,025 y 0,045. Hay un 95% de probabilidad de que el riesgo relativo en la ciudad de Málaga tenga un valor entre 1,9 y 4,5. Los valores anteriores son válidos solamente sobre Málaga; han sido calculados teniendo en cuenta los valores muéstrales y el tamaño de la muestra. Tengamos en cuenta que son una indeterminación sobre el parámetro poblacional y sería un gravísimo error interpretar el intervalo de confianza de los expuestos como que el 95% de los expuestos tienen una probabilidad de padecer cáncer de piel entre 0,1 y 0,14. En el caso de estudios por muestreo, ni siguiera estamos seguros del valor del correspondiente parámetro de la población muestreada, mucho menos sobre poblaciones sobre las que no tenemos datos. Es probable que, sobre todo en zonas limítrofes, los valores sean parecidos, pero dar cualquier valor numérico sería una especulación sin ninguna base científica. Se puede acertar en algún caso por casualidad. En el ejemplo anterior hemos recordado de nuevo, y lo haremos más veces, que los datos obtenidos en un determinado grupo humano no son inmediatamente-extrapolables a otras regiones de forma automática y mucho menos los valores numéricos. Predominio. Razón de predominio (OR) Un indicador de riesgo muy utilizado cuando el riesgo relativo no puede calcularse es la razón de predominio, también conocida como Odds Ratio (OR). En los estudios de casos y controles no podemos conocer incidencia al no tener una muestra representativa de la población y no conocer con exactitud la relación temporal entre el factor y la enfermedad, y por lo tanto, no podemos calcular el riesgo relativo. Existen importantes errores de concepto respecto al OR, tales como que es una aproximación al RR o que tiene una interpretación igual al RR sus valores numéricos se aproximan en el caso particular de enfermedades de baja incidencia, pero sus significados son diferentes. Recomendamos al lector que lea detenidamente el significado conceptual de los predominios y de la razón de los mismos. Los predominios y su razón son interesantes medidas de riesgo, pero conceptualmente muy distintas del Odds Ratio. El predominio (PR) es una relación entre dos probabilidades complementarias; la suma de las dos es igual a 1. Hay un predominio en presencia del factor (PRF), que puede ser de riesgo o de protección, y un predominio en ausencia del factor (PRN). El predominio en presencia del factor (PRF) es la razón entre la probabilidad de padecer la enfermedad en presencia del factor y la probabilidad de no padecer la enfermedad en presencia del factor. PRF viene dado por la siguiente expresión:
98
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En la expresión anterior, (E) indica padecer la enfermedad, (F) presencia del factor y E ausencia de la enfermedad. Conceptualmente, (PRF) indica cuántas veces es más probable padecer la enfermedad que no padecerla cuando se está expuesto al factor. El (PRN) es la razón entre la probabilidad de padecer la enfermedad en ausencia del factor y la probabilidad de no padecer la enfermedad en presencia del factor; (PRN) viene dado por la siguiente expresión:
En la expresión anterior, E indica enfermedad, E no enfermedad, F presencia del factor y F ausencia del factor. Conceptualmente, (PRN) indica cuántas veces es más probable padecer la enfermedad en ausencia del factor que no padecerla. Los predominios son interesantes medidas de riesgo, que aportan información adicional y que complementan las descritas anteriormente: riesgo, diferencias de riesgo y riesgo relativo. El valor del predominio teóricamente oscila entre cero e infinito. El valor cero en el predominio de los expuestos al factor, significa que la probabilidad de padecer la enfermedad en presencia del factor es cero; estaríamos ante un factor de protección total. Los individuos que tuvieran el factor no contraerían la enfermedad, por ejemplo, si el factor es estar vacunado contra una determinada enfermedad y la vacuna tuviera una eficacia del 100%. Un valor infinito significa que la probabilidad de no padecer la enfermedad entre los expuestos al factor es cero; por lo tanto, todos los expuestos están enfermos, por ejemplo, una salmonelosis alimentaria en los que todos los que tomaron el alimento contaminado padecieron una gastroenteritis aguda. El valor cero en el predominio de los no expuestos significa que la probabilidad de padecer la enfermedad en ausencia del factor es cero; esto indica que los no expuestos no pueden contraer la enfermedad, por ejemplo, una hepatopatía alcohólica, que solamente los que toman alcohol pueden padecerla. El valor infinito significa que la probabilidad de no contraer la enfermedad en ausencia del factor es cero; en este caso, todos los que no tuvieran la característica a estudio contraerían la enfermedad. Por ejemplo, sea el factor llevar puesto un traje protector contra la radiactividad, en una central nuclear en la que ha habido un fuerte escape radiactivo. Suponiendo que todos los no prote-
ANÁLISIS DEL RIESGO
99
gidos sufrieran afectaciones de diversa consideración, en este caso la probabilidad de no padecer la enfermedad en ausencia del factor (traje protector) es cero y el predominio en ausencia del factor, infinito. La razón entre los dos predominios, más conocida por Odds Ratio (OR), es un indicador de riesgo muy utilizado. Matemáticamente, el (OR) viene dado por la siguiente expresión:
En la expresión anterior, los elementos que la conforman tienen el mismo significado que los descritos anteriormente en el caso de los predominios (PRF) y (PRN). Si no existe relación entre el factor y la enfermedad, el valor del OR es estadísticamente igual a 1; si el factor es de riesgo, el OR es mayor que 1 y, si el factor es de protección, el OR es significativamente menor que 1. Obsérvese que el significado conceptual del RR y del OR es distinto. La interpretación del OR es distinta del RR; un OR de 6, no significa que es seis veces más probable padecer la enfermedad en presencia del factor que en ausencia del mismo. Recuérdese que esta seria la definición del riesgo relativo, y el riesgo relativo y la razón de predominio son conceptual y matemáticamente distintos. En algunos artículos en revistas e incluso en algunos libros, se dice que, como en enfermedades raras el valor matemático del OR y del RR son muy parecidos, el OR es una aproximación al RR. Es cierto que en enfermedades raras el valor numérico del OR y del RR son similares, pero en general son distintos en concepto y en valor numérico. El OR, sobre todo cuando se calcula a partir de los estudios de casos y controles, es un indicador de riesgo, cuya interpretación numérica hemos comentado anteriormente. Cuanto más grande es el OR, más fuerte es la asociación del factor con la enfermedad. Los estudios de casos y controles son muy útiles y, en el caso de epidemias, suelen ser el estudio a realizar en primer lugar; el parámetro para medir asociación entre enfermedad y factor es el OR. Mediante esta técnica se han cosechado brillantes éxitos en determinar las causas de epidemias. Los problemas surgen con la interpretación del valor numérico y su equiparación al RR. En cualquier caso, si el estudio lo permite, es preferible siempre el RR al OR. En regresión logística, la medida de asociación más empleada es el OR, debido a que el número e (base de los logaritmos neperianos), elevado al coeficiente de regresión logística del factor, es el OR que supone el aumento unitario del factor; si el OR es significativamente mayor que 1, ello indica que el factor es de riesgo o favorecedor. En éste capítulo comentaremos más ampliamente esto, en el apartado «análisis del riesgo en regresión logística».
100
E L MÉ TODO CIÉ NTÍFICO E N LAS CIÉ NCIAS DE LA SALUD
Ejemplo 4.7. Mediante un estudio de casos y controles, se trata de determinar la relación existente entre tabaco (T) (factor) y arteriopatías periféricas (AP) (enfermedad), obteniéndose los siguientes resultados: Probabilidad de padecer arteriopatía periférica en fumadores: 0,3. Probabilidad de no padecer arteriopatía periférica en fumadores: 0,7. Probabilidad de padecer arteriopatía periférica en no fumadores: 0,15. Probabilidad de no padecer arteriopatía periférica en no fumadores: 0,85. A partir de los datos anteriores calculamos el predominio del factor (PRF) aplicando la expresión (4-2) particularizada para este caso, En todas las expresiones del ejemplo sustituimos la E de enfermedad por AP y la F de factor por T, que corresponden en este ejemplo a la enfermedad y factor respectivamente.
Si el PRF es menor de 1, indica que es más frecuente que los expuestos no padezcan la enfermedad que la padezcan. Esto es lo que suele ocurrir en la mayoría de los casos. No se deben confundir los predominios con el RR o el OR. El que en un predominio sea o no mayor de 1, no se relaciona con que sea o no factor de riesgo. Hasta que comparemos los dos predominios no podremos conocer el sentido del factor. El predominio de los no expuestos, no fumadores en este caso, lo obtenemos aplicando la expresión 4-3.
Obtenemos el OR mediante el cociente de los dos predominios:
Puesto que el OR es mayor que 1, concluimos que los fumadores tienen más probabilidad de padecer AP que los no fumadores. En cuanto al uso de intervalos de confianza, debemos tener en cuenta que un estudio de casos y controles no es una muestra probabilística de ninguna población. El que los utilice debería explicar sobre qué población se refiere la indeterminación del OR, consecuente al empleo de intervalos de confianza, y en qué teorema estadístico se apoya para hacerlo.
ANÁLISIS DEL RIESGO
101
Los métodos mediante los que son seleccionados los casos y los controles impiden que puedan ser considerados como una muestra probabilística. Por lo tanto, el cálculo de intervalos de confianza no tiene sentido; en el Capítulo 5, en el apartado específico de casos y controles, ampliaremos estos comentarios. La conclusión que podemos sacar es que, en los individuos que han participado en el estudio, se ha evidenciado que el tabaco es un factor de riesgo de AP Como hipótesis de trabajo, a la espera de más confirmaciones de la asociación, podemos aceptar que todos los fumadores del mundo tienen más riesgo de padecer AP que los no fumadores. Ahora bien, extrapolar cuantitativamente los resultados a ámbitos distintos del estudiado no tiene ningún sentido estadístico. Algunos, intentando justificar su proceder, argumentan que los enfermos participantes en un estudio pueden considerarse como una muestra de todos los individuos, lo cual no tiene ninguna base científica ni estadística y está más cerca de la mitología que de la ciencia. Las leyes estadísticas son claras en esto: las extrapolaciones relacionadas con un estudio a partir de una muestra son solamente referibles a la población muestreada. El siguiente corolario deja clara la cuestión: para que un individuo pueda ser considerado perteneciente a una determinada población de la que se ha extraído una muestra. Antes de extraída la muestra tiene que tener una probabilidad mayor que cero de ser incluido en la misma. Si alguien conoce algún teorema matemáticamente demostrado que amplíe las extrapolaciones fuera de los ámbitos admitidos por la ley estadística anterior, y sobre todo que refute el corolario, rogamos nos lo comuniquen. Proporción atribuible El riesgo y el riesgo relativo evalúan el riesgo individual, la proporción atribuible y la proporción atribuible poblacional evalúan el riesgo colectivo. Una medida de riesgo muy interesante es la proporción atribuible (PA), Es la proporción de afectados de una determinada enfermedad expuestos a un determinado factor, que deben la enfermedad al efecto del factor. En general, respecto a un determinado factor y a una determinada enfermedad, no todos los afectados por la misma han tenido exposición al factor. Por ejemplo, la hipertensión arterial es un factor de riesgo respecto a la isquemia coronaria, pero hay pacientes afectados de isquemia coronaria que no son ni han sido hipertensos y hay hipertensos que ni son ni serán enfermos coronarios. En un estudio representativo y de seguimiento en el que se pueda medir incidencia, si el tema de interés es estudiar la relación entre isquemia coronaria e hipertensión, la proporción atribuible sería la fracción de enfermos coronarios hipertensos que deben la enfermedad a la hipertensión. La PA trata de especificar la proporción de afectados expuestos que si no existiera el factor no
102
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
estarían enfermos o, dicho de otra manera, si fuéramos capaces de eliminar el factor de riesgo, qué proporción de afectados expuestos no padecerían la enfermedad. Téngase en cuenta que no todos los pacientes con isquemia coronaria hipertensos deben la enfermedad a la hipertensión; hay otros factores que influyen en la enfermedad. En cuanto la proporción atribuible y a la proporción atribuible poblacional, medida de riesgo que comentaremos en el próximo apartado, solamente tiene sentido su cálculo si el factor es causal y de riesgo RR> 1. El valor de la proporción atribuible puede calcularse en función del riesgo relativo, según la siguiente expresión:
Cuando no se dispone del riesgo relativo pero si del OR, está generalizada la idea de que la PA puede calcularse a partir del OR sin más que sustituir en la expresión (4-6); OR por RR esto es un error. La PA solamente debe ser calculado a partir de un estudio en el que tengamos una población o una muestra probabilística de la misma. En el apartado de cálculo de las medidas de riesgo a partir de una tabla estratificada, en un mismo ejemplo, calcularemos RR y OR, obteniendo valores distintos; y consecuentemente la PA calculado a partir del RR es distinto del calculado mediante el OR. Es válido únicamente el calculado a partir del RR. Si el estudio a partir del cual hemos calculado la proporción atribuible es una muestra representativa de una determinada población, los datos referentes al PA deben ir acompañados de sus correspondientes intervalos de confianza, como siempre válidos sobre la población muestreada. Proporción atribuible poblacional La proporción atribuible poblacional (PAP) es la proporción de afectados por una determinada enfermedad en la población estudiada que deben la enfermedad a un determinado factor. La proporción atribuible se refiere a los afectados expuestos, mientras que la proporción atribuible poblacional se refiere a los afectados expuestos y no expuestos. La proporción atribuible poblacional nos informa de la proporción de enfermos de la población que podríamos evitar si erradicáramos el factor. La proporción atribuible poblacional solamente tiene sentido calcularla a partir de un estudio de seguimiento representativo en el que se pueda medir incidencia y el factor sea de riesgo RR > 1 y causal.
ANÁLISIS DEL RIESGO
103
La proporción atribuible poblacional se calcula multiplicando la proporción atribuible por la proporción de enfermos expuestos (PEE), según la siguiente expresión:
En la expresión anterior PA es la proporción atribuible, PAP es la proporción atribuible poblacional y PEE es la proporción de enfermos expuestos. Sustituyendo en la expresión anterior la proporción atribuible PA por el valor expresado en (4-6), la PAP puede ser calculado a partir del RR, según la siguiente expresión:
Cuando no se dispone del riesgo relativo pero si del OR, está generalizada la idea de que la PAP puede calcularse a partir de OR sin más que sustituir en la expresión (4-8) OR por RR; esto es un error La PAP solamente debe ser calculado a partir de un estudio en el que tengamos una población o una muestra probabilística de la misma. En el apartado dedicado al cálculo de las medidas de riesgo a partir de una tabla estratificada, en un mismo ejemplo calcularemos RR y OR, obteniendo valores distintos; consecuentemente, la PAP calculada a partir del RR es distinto del calculado mediante el OR. Es válido únicamente el calculado a partir del RR. Si el estudio a partir del cual hemos calculado la proporción atribuible poblacional es una muestra representativa de una determinada población, los datos referentes a la PA deben ir acompañados de sus correspondientes intervalos de confianza, como siempre válidos sobre la población muestreada. Ejemplo 4.8. En un estudio de cohortes, en el que se ha estudiado la asociación entre alcohol y hepatopatía crónica, se ha llegado a la conclusión de que los bebedores de más de 80 gramos de alcohol al día (factor), tienen un riesgo relativo respecto a bebedores de menos de 80 gramos/día de 2,5. En el estudio de los enfermos, el 75% eran bebedores de más de 80 gramos/día. Calcular la proporción atribuible y la proporción atribuible poblacional. Aplicando la expresión (4-6), podemos calcular la proporción atribuible:
104
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El resultado anterior indica que el 60% de las hepatopatías crónicas de los enfermos bebedores son debidas al alcohol; observe que el 40% de las hepatopatías crónicas de los bebedores son debidas a otras causas. Aplicando la expresión (4-7), calculamos la proporción atribuible poblacional:
El resultado anterior indica que, en la población estudiada, el 45% de las hepatopatías crónicas son debidas al alcohol. Si en la población del estudio se consiguiera que nadie bebiera más de 80 gramos/día la incidencia de hepatopatías crónicas descendería en un 45%, suponiendo que no aparecieran nuevos factores hepatotóxicos. ANÁLISIS DEL RIESGO A PARTIR DE UNA TABLA DE CONTINGENCIA En ciencias de la salud es muy frecuente el estudio de asociaciones entre factores y enfermedades mediante tablas de contingencia. Las tablas de contingencia han sido y son muy útiles en el análisis del riesgo, pero no son el únk co medio para hacerlo. Las medidas de riesgo se basan en el cálculo de probabilidades y hay muchas maneras de calcular éstas; una de ellas es el análisis a partir de tablas de contingencia. Recomendamos al lector que procure entender el significado de las medidas de riesgo y aprenda a calcular probabilidades a partir de datos y, por supuesto, a partir de tablas de contingencia; que no aprenda expresiones de memoria y menos en este caso, porque un simple cambio en la orientación de la tabla es suficiente para crear dudas sobre el cálculo de las medidas de riesgo. La terminología que emplearemos en este capítulo en tablas de contingencia es la indicada en la Tabla 4.1.
Tabla 4.1. Tabla de contingencia 2 x 2.
ANÁLISIS DEL RIESGO
105
En la tabla anterior, A es el número observado de enfermos expuestos, B es el número observado de enfermos no expuestos, n1 es el número total de enfermos, C es el número observado de no enfermos expuestos, D es el número observado de no enfermos no expuestos, n2 es el número total de no enfermos, n3 es el número total de expuestos, n4 es el número total de no expuestos y n es el número total de individuos que intervienen en el estudio; si es un estudio por muestreo es el tamaño de la muestra. Enfermo quiere decir afectado de la enfermedad que se está estudiando, y expuesto que ha tenido o tiene contacto con un determinado factor que es el que se está estudiando. En el estudio, un individuo puede no tener la enfermedad que se esté estudiando y padecer otras que se considere irrelevantes para el estudio, en cuyo caso sería clasificado como no enfermo. Los estudios estadísticos en los que se quiere conocer la relación entre un factor y una enfermedad, si son realizados a partir de una muestra probabilística de una determinada población, deben incluir las tres fases siguientes claramente diferenciadas: Ascociación estadística. Magnitud del efecto. Precisión. En el caso de que los individuos del estudio constituyan en sí mismos una población estadística, el estudio sólo debe incluir la magnitud del efecto, que solamente es referible a la población estudiada, aunque como hipótesis de trabajo puede suponerse que en poblaciones parecidas el efecto será parecido, pero habrá que comprobarlo.
Asociación estadística Una vez recogidos los resultados del estudio, en primer lugar contrastamos las siguientes hipótesis: Ho En la población muestreada no hay asociación entre el factor y la enfermedad. H1 En la población muestreada hay asociación entre el factor y la enfermedad. El plantear pruebas de significación estadística solamente tiene sentido en los estudios por muestreo, y sus resultados son extrapolables a la población muestreada. Habitualmente se rechaza la hipótesis nula si en los datos de la muestra hay una asociación entre la enfermedad y el factor y la probabilidad de haber encontrado dicha asociación por azar es menor del 5%: P < 0,05. Las pruebas de contraste en tablas de contingencia en ciencias de la salud son las basadas en la distribución χ2; de éstas las más utilizadas son las de Pearson y la de Mantel y Haenszel. Sus expresiones matemáticas son la 4-9 y la 4-10 respectivamente.
106
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En las dos expresiones anteriores el significado de los términos es el mismo que en la Tabla 4.1. Si los cálculos han sido realizados a partir de tablas 2 x 2 , la curva chi cuadrado tiene un grado de libertad; en este caso, si el valor de χ2 encontrado es mayor de 3,84, significa que podemos rechazar la hipótesis nula al nivel de significación P < 0,05. La significación varía según el valor calculado de χ2 Para conocer su valor exacto recomendamos consultar las tablas estadísticas correspondientes a dicha curva. En ciencias de la salud se suele utilizar más frecuentemente la χ2 , de Mantel Haenszel (MH). El uso de las pruebas estadísticas basadas en la distribución χ2 no siempre es posible. En las tablas 2 x 2, si el valor de una casilla teórica es menor de 5, estas pruebas no son aplicables, en cuyo caso sería de aplicación la prueba exacta de Fisher. Téngase en cuenta que la restricción es aplicable a la tabla teórica, no a la experimental, si una o más casillas de la tabla experimental son menores de 5 pero todas las casillas teóricas tienen valores mayores de 5; las pruebas anteriores son perfectamente aplicables. Si, una vez realizados los contrastes de hipótesis, el valor de χ2 de MH es menor de 3,84, no podemos rechazar la hipótesis nula y, por lo tanto, no tenemos evidencia estadística de que en la población muestreada exista asociación entre el factor y la enfermedad. Insistimos en que no siempre es correcto realizar pruebas de significación estadística. Veamos algunos ejemplos; supongamos que surge una nueva enfermedad de la que se conocen 25 casos. Si podemos incluirlos a todos en un estudio, disponemos de la población entera de afectados y no tendría sentido realizar pruebas de significación estadística que además, dado el pequeño número de individuos, la mayoría de ellas no serían significativas; en este caso, daríamos las medidas de riesgo sin intervalos de confianza. Otro ejemplo típico es aquél en el que disponemos de todos los individuos de interés para un tra-
ANÁLISIS DE L RÍE SGO
107
bajo. Supongamos que estamos interesados en estudiar las posibles asociaciones entre el puesto de trabajo de un minero y algunas enfermedades pulmonares. Si el estudio lo realizamos con todos los mineros de una mina determinada, tenemos una población estadística completa, no tiene sentido calcular significaciones estadísticas. En los estudios por muestreo, si rechazamos la hipótesis nula diremos que la asociación entre la enfermedad y el factor es significativa, pero esto por sí sólo, sin las medidas de riesgo, es poco más que nada. A veces, significaciones grandes con P < 0,001 e incluso menores, tienen poca relevancia. Uno de los factores que más influye en la significación estadística es el tamaño de la muestra. Efectos pequeños con muestras grandes pueden ser muy significativos y efectos grandes con muestras pequeñas pueden ser poco significativos. Lo que realmente nos va a dar la información son las medidas del efecto. Magnitud del efecto La magnitud del efecto son las medidas de riesgo adecuadas al estudio. En el Capítulo 5 se analizarán los tipos de estudio que se realizan habitualmente en ciencias de la salud y los análisis a realizar en cada caso. En este apartado se indicará cómo calcular las principales medidas de riesgo a partir de una tabla de contingencia. Aunque matemáticamente el cálculo siempre es posible, dependiendo del tipo de estudio es correcto emplear unas medidas u otras, como explicamos con amplitud en los apartados anteriores. En el próximo capítulo analizaremos el riesgo particularizado para cada tipo de estudio. Si las medidas de riesgo son calculadas a partir de una muestra, se indica coronando a la correspondiente medida de riesgo mediante el símbolo ^, por ejemplo, RR indica riesgo relativo poblacional y RR riesgo relativo estimado. En las expresiones para el cálculo de las medidas de riesgo, el significado de los términos es el indicado en la Tabla 4.1. El riesgo de que enferme un expuesto RE es el número de expuestos enfermos A dividido entre el total de expuestos n3:
El riesgo de que enferme un no expuesto RNE es el número de no expuestos enfermos B dividido entre el total de no expuestos n4
108
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Diferencia de riesgos (DR) es la diferencia entre el riesgo en expuestos y el riesgo en no expuestos; a partir de las expresiones (4-11) y (4-12) calculamos la DR:
El riesgo relativo RR de los expuestos respecto a los no expuestos, es el cociente entre el riesgo de los expuestos entre el riesgo de los no expuestos:
Sustituyendo en la expresión (4-14) los valores de los riesgos (expresiones (4-11) y (4-12)), obtenemos la expresión del riesgo relativo en función de los valores de la Tabla 4.1:
El cálculo de la proporción atribuible PA tiene sentido si RR >1. A partir de los datos de la tabla, se calcula sustituyendo en la expresión (4-6) el valor del riesgo relativo de la expresión (4-15):
El cálculo de la proporción atribuible poblacional PAP tiene sentido si RR > 1. La proporción de enfermos expuestos PEE a partir de los datos de la Tabla 4.1 es:
ANÁLISIS DE L RÍE SGO
109
Sustituyendo en la expresión (4-8) el valor de RR dado en la expresión (415) y PEE por el valor por la expresión (4-16), la PAP a partir de los datos de la labia 4.1 es:
La razón de predominio OR a partir de la Tabla 4.1 se obtienen mediante la siguiente expresión:
La expresión anterior se obtienen aplicando la fórmula (4-5) a la Tabla 4.1.
Precisión En los estudios por muestreo, las medidas de riesgo deben ir acompañadas de sus respectivos intervalos de confianza, que definen la precisión con la que podemos estimar las medidas de riesgo en la población muestreada. El cálculo de los intervalos de confianza debe calcularse en los mismos casos que la significación estadística. En este apartado expresaremos los intervalos de confianza que hay que emplear cuando se realicen cálculos a partir de una tabla de contingencia y supuesto que la muestra haya sido seleccionada mediante muestreo aleatorio simple. Riesgo. Los intervalos de confianza para el riesgo se calculan mediante la siguiente expresión:
En la expresión anterior, R es el riesgo, que puede ser el riesgo en expuestos o el riesgo en no expuestos y , Z α es la abscisa de la curva normal 1−
2
tipificada, cuyo valor depende de la confianza con la que queramos expresar el intervalo; si la confianza requerida es el 95%, que es lo más frecuente, su valor es 1,96; n es el tamaño de muestra.
110
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Diferencia de riesgos DR. El cálculo del intervalo de confianza para la diferencia de riesgos (DR) viene dada por la siguiente expresión:
En la expresión anterior, RE es el riesgo en expuestos, RNE es el riesgo en no expuestos, n3 es el número total de expuestos y n3 es el número total de no expuestos. Riesgo relativo RR. En el cálculo de intervalos de confianza para el riesgo relativo hay cierta controversia. Los más utilizados son los propuestos por Miettinen (11), los cuales pueden ser calculados según la siguiente expresión:
En la expresión anterior RR es el riesgo relativo y χ2 es el valor del estadístico chi cuadrado de Mantel-Haenszel, obtenido a partir de una tabla 2 x 2 mediante la expresión (4-10). Las expresiones 4-9 y 4-10, no son igualdades algebraicas lo que expresan es que el estadístico reflejado en el segundo miembro de las ecuaciones de distribuyen en el muestreo según una curva chi cuadrado (χ2), la cual es una curva de frecuente uso en estadística, al igual que la normal, la t de Student o la F de Snedecor.. Teniendo en cuenta que el nombre de la curva es la griega chi elevada al cuadrado, a alguien se le ocurrió que la raíz cuadrada de χ2 es χ sin indicar los correspondientes grados de libertad lo cual no tiene sentido ya que se puede calcular la raíz cuadrada del número pero no puede dividirse el nombre de una curva; este error como muchos de los cometidos en ciencias de la salud se ha difundido en artículos y libros. En general, la raíz cuadrada de un estadístico que en el muestreo se distribuye como una χ2, se distribuye según una curva t de Student con n-1 grados de libertad o como una curva normal. Para la obtención de intervalos de confianza de la razón de predominio OR, la fórmula sugerida por Miettinen para estos parámetros es:
ANÁLISIS DEL RIESGO
111
Las expresiones para la proporción atribuible y la proporción atribuible poblacional, se pueden calcular en función de los parámetros de la Tabla 4.1, a partir de las expresiones siguientes:
Todas las expresiones para el cálculo de intervalos de confianza del presente apartado son aplicables si la muestra constituye menos de un 5% del tamaño de la población y el muestro es aleatorio simple. Si es mayor, la expresión para los intervalos de confianza se calcula multiplicando la abscisa normal tipificada Z por el siguiente término:
El término anterior se debe incluir cuando el tamaño de la muestra es grande en relación al tamaño de la población. Observe que, en el caso de que el tamaño de la muestra sea igual al tamaño de la población N = n, el término 4-25 es igual a cero y, como consecuencia, el parámetro poblacional es igual al muestral, como el lógico, ya que un parámetro calculado sobre toda la población carece de error debido al muestreo. El cálculo de un intervalo de confianza para el riesgo, en el caso, de que la muestra sea mayor que el cinco por ciento del tamaño poblacional, debe realizarse mediante la siguiente expresión:
La expresión (4-19) es la adecuada para el cálculo de intervalos de confianza en el caso de que el tamaño muestral sea menor de 5% del tamaño de la población. Incluyendo el término expresado en (4-25), hemos obtenido la expre-
112
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
sión (4-26) que es la expresión general váida para todos los casos, aunque si n es pequeña respecto de N, se puede conseguir una buena aproximación aplicando la expresión (4-19). El cálculo de intervalos de confianza cuando el tamaño de la muestra es grande en comparación con el tamaño de la población, se realiza siguiendo el mismo esquema explicado para el riesgo. El riesgo, diferencia de riesgos, riesgo atribuible y riesgo atribuible poblacional, son proporciones. Las expresiones están basadas en la aproximación de la distribución binomial a la normal y ello es posible si todas las proporciones implicadas en las fórmulas son mayores de 0,05 y n> 50. En el caso de que alguna proporción fuera menor de 0,05, habría que considerar el suceso como raro y por lo tanto, como un suceso cuya probabilidad que sigue la distribución de Poisson, el cálculo de los correspondientes intervalos de confianza para el número de sucesos, a los que denominaremos λ1 y λ2 puede realizarse a partir de las siguientes expresiones:
En las expresiones anteriores, t indica el número de tramos de observación. En un estudio realizado en un determinado período de tiempo, t puede considerarse uno. Si tenemos varios estudios por cada uno, sumaremos una unidad al valor de t; α es uno menos la confianza con la que queramos calcular el intervalo, Si queremos una confianza del 95%, alfa es 0,05; para una confianza del 99%, alfa es 0,01, etc., el valor de χ2 la calcularemos a partir de las correspondientes tablas una vez conocido alfa y los grados de libertad y. En el límite inferior λ1, los grados de libertad y son iguales al doble de la suma de todas las observaciones realizadas del suceso, En el caso del límite superior y, los grados de libertad son los del caso del límite inferior más dos, Las expresiones anteriores permiten el cálculo de los límites de intervalos de confianza para las frecuencias (número de casos). Para obtener los intervalos de confianza proporcionales habrá que dividir los límites obtenidos por el tamaño de la muestra n. Ejemplo 4.9. En una población se quiere estudiar la incidencia de bronquitis crónica en varones de más de 40 años; interesa conocer el efecto del
ANÁLISIS DEL RIESGO
113
Tabla 4.2. Resultados del estudio del ejemplo 4-9.
tabaco sobre dicha enfermedad. Para ello se extrae una muestra probabilística de dicha población, la cual es seguida durante 15 años. Los resultados obtenidos están expresados en la Tabla 4.2; a partir de ella calcularemos la significatividad, las medidas de riesgo y los respectivos intervalos de confianza, aplicando las expresiones comentadas en este capítulo. Significatividad. El valor de la chi-cuadrado de Mantel Haenszel es:
A partir del valor obtenido podemos decir que la asociación entre el tablaco y la enfermedad es muy significativo, con P < 0,001. A continuación estudiaremos la magnitud del efecto de la asociación mediante el cálculo de las medidas de riesgo más importantes.
La probabilidad de que enferme un fumador durante el tiempo del estudio es del 64,59%, la probabilidad de que enferme un no fumador es del 29,27% y el riesgo relativo es 2,2067, lo que indica que un fumador tiene más del doble de probabilidad de enfermar que un no fumador. La probabilidad atribuible es 0,55, lo que indica que el 55% de los fumadores deben la enfermedad al tabaco. La probabilidad atribuible poblacional es 0,38, lo cual indica que el 38% de todos los enfermos (fumadores y no fumadores) deben la enfermedad al tabaco. El valor de la razón de predominio OR es 4,4088. Obsérvese en este caso la diferencia de su valor con respecto al riesgo relativo; el OR es el doble que el RR. Salvo en enfermedades de baja incidencia y períodos de estudios cortos, el RR y el OR son en general distintos.
114
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Si hubiéramos calculado la proporción atribuible y la proporción atribuible poblacional a partir del OR, los resultados obtenidos hubieran sido 0,773 y 0,535 respectivamente; hubiéramos sobredimensionado el efecto sobre la población. El OR es un indicador de riesgo importante, pero los cálculos a partir de él del M y el PAP, tienen errores muy grandes. Precisión. Dado que estamos ante una muestra, las medidas de riesgo deben acompañarse de sus respectivos intervalos de confianza. Los intervalos calculados a continuación son con una confianza del 95%; por tanto Z = 1,96.
RE ∈ (0,5998-0,6920)
RNE ∈ (0,2489 - 0,3365)
RR ∈ (1,7778-2,7338)
PA ∈ (0,502 - 0,598)
PAP ∈ (0,333 - 0,427)
ANÁLISIS DEL RIESGO
115
ANÁLISIS DEL RIESGO EN REGRESIÓN LOGÍSTICA En regresión logística, la medida de asociación más utilizado es el OR, por su sencillez de cálculo.
En la expresión anterior, P(Y) es la probabilidad de que ocurra un determinado suceso que, en análisis de riesgo, es la probabilidad de padecer una determinada enfermedad; b0 y b1 son los coeficientes del modelo y X una variable independiente. Si b1, que es el coeficiente de la variable independiente, es positivo, PQO aumenta según aumenta la variable; en ese caso, X es un factor de riesgo. Si el coeficiente de X es negativo, P(Y) disminuye y Z es un factor de protección. Si tenemos un modelo de regresión logística significativo en el que una de las variables independientes es dicotómica, con valores 0 ó 1, el número e elevado al coeficiente de regresión logística es el OR, correspondiente al riesgo o protección que implica un aumento unitario de la variable independiente:
Supongamos que queremos evaluar si fumar es un factor de riesgo, y cuantificarlo en el caso de la bronquitis crónica, En este caso, no fumar lo codificamos con 0 y fumar con 1; de esta manera, el incremento unitario en la variable indica la diferencia entre fumar y no fumar. El OR particularizado para esta variable se calculará según (4-30). En el caso de una variable cuantitativa, cuando queramos estudiar si la probabilidad de padecer una cardiopatía aumenta al aumentar el nivel de colesterol (NC), e elevado a b1 es la razón de predominio, indicador de riesgo que supone el aumento de 1 mg de colesterol. Evidentemente, esta probabilidad debe ser pequeña. En el caso de variables cuantitativas, suele estudiarse el OR correspondiente al aumento de un determinado número de unidades. Siguiendo con el ejemplo del colesterol, podemos estudiar el OR que supone el
116
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
aumento de 100 mg de colesterol o, dicho de otra manera, cuántas veces es más probable que padezca una cardiopatía una persona que tiene un nivel de colesterol 100 mg mayor que otra, en este caso:
El subíndice 100 del OR indica que es el OR correspondiente al aumento de la variable independiente en 100 unidades. En regresión logística, el RR puede obtenerse calculando primero la probabilidad de padecer la enfermedad en presencia del factor P(Y)E y la probabilidad de padecer la enfermedad en ausencia del factor P(Y)NE. A continuación, se calcula la razón entre ambas. Esto es relativamente sencillo y consiste en dar el valor 1 a la variable en presencia del factor y el valor 0 en ausencia del factor, calculando las probabilidades en ambos casos. Ejemplo 4.9. En un estudio en personas mayores de 40 años, interesa conocer la relación entre sedentarismo e insuficiencia venosa en miembros inferiores, para lo cual se realiza un estudio de seguimiento de mil individuos de una población durante quince años. A partir de los resultados del estudio se construyó el siguiente modelo de regresión logística:
En la expresión anterior, PQT) es la probabilidad de padecer insuficiencia venosa y X es sedentario codificada, con cero para no sedentarios y uno para sedentarios. Dando a X el valor cero, calculamos la probabilidad de padecer insuficiencia venosa en individuos no sedentarios:
Dando a X el valor uno, calculamos la probabilidad de padecer insuficiencia venosa en individuos sedentarios:
ANÁLISIS DEL RIESGO
117
El riesgo relativo es el cociente entre la probabilidad de contraer la enfermedad por los sedentarios respecto a los no sedentarios.
La razón de predominio podríamos calcularla de una forma muy sencilla elevando el número e al coeficiente de la variable 1,2:
El cálculo del OR es más sencillo, pero es un indicador de riesgo de menos valor que el RR. En este ejemplo, puesto que el diseño del estudio lo permite, debe calcularse RR. En la literatura es frecuente ver trabajos que incluyen modelos de regresión logística y, aunque el estudio lo permita, no calculan RR debido a la facilidad del cálculo del OR, perdiéndose valiosa información. LECTURAS RECOMENDADAS Kleinbaum DG, Kupper L, Morgenstem H. Epidemiologidresearch, Editor Carol Beal, 1982. Hennekens Ch, Buring JE. Epidemiologyin medicine, Editor Mayrent, S. L. Rothman, KJ, Epidemiología moderna, Ediciones Días de Santos, 1987. Lilienfeld, AM. Fundamentos de epidemiología, Addison-Wesley Iberoamericana, 1987. Álvarez Cáceres, R. Estadística multivariante y no paramétrica, Editorial Díaz de Santos, 1994.
BIBLIOGRAFÍA 1. Dawber T R, Moore F E, Mann G V. II, Coronary heart disease in the Framinghan study. Am J Public Health 1957; 47:4-24. 2. Kannel W B et al. Factors of risk in the development of coronary heart disease-six year followup experience: The Framingham study. Ann Intern Med 1961; 55:33-50. 3. Kannel W B, Abbot R D. Incidence and prognosis of unrecognized myocardial infarction. An update on the Framingham study. N Engl J Med 1984; 311:1144-1147. 4. Doll R, Hill A B. A study of the aetiology of carcinoma of the lung. Br Med J 1952; 2:1271-1286. 5. Keys A. Coronary Heart diseasein seven countries. Circulation, 1970; 41:1-199. 6. Martin M J, Hulley SB et al. Serum cholesterol, blood pressure and mortality: implications from a cohort of 361662 men. Lancet 1986; 2:933-936. 7. Ros E et al. Cribado de la hipercolesterolemia, Medicina Clínica, 1994; 102, suplemente 1:68-74,
118
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
8. European Atherosclerosis Society, Strategies for the prevention of coronary heart disease: A policy statement of the european Atherosclerosis Society. Eur Heart ]; 1987; 8:77-88. 9. Toronto Working Group on Cholesterol Policy. Asymptomatic hypercholesterolemia: a clinic policy review./ Clin Epidemiol, 1990; 43:1021-1122. 10. Round the World: Clofibrate, Correspondents report. Lancet, 1981; 1:771. 11. Miettinem O S, Estimability and estimation in casereferent studies, Am J Epidemiol 1976; 103:226-235.
Capítulo 5 INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
Hay quien cruza el bosque y no ve leña para el fuego. León Tolstoi.
En este capítulo se analizarán la causalidad y los tipos de estudios habituales en ciencias de la salud, según sus características estadísticas, relación temporal entre el factor y la enfermedad, actitud del investigador, etc. En el presente capítulo se hace énfasis en la utilidad de los distintos tipos de estudios en caracterizar factores etiológicos. En los capítulos de diagnóstico, pronóstico, terapéutica y epidemias, se analizará la utilidad específica de cada tipo de estudio. Cada tipo de estudio se examina de forma individualizada, indicando las conclusiones que de ellos pueden obtenerse y los principales análisis estadísticos que se utilizan habitualmente, El metaanálisis no es un tipo de estudio, es una síntesis de los estudios realizados sobre un determinado tema. En el Capítulo 13 se analizarán algunos aspectos relacionados con las publicaciones científicas, incluidas las que sintetizan información sobre un tema determinado, entre los que se encuentra el metaanálisis. Cuando un investigador elabora los objetivos de un trabajo científico, debe definir el tipo de estudio adecuado para cumplirlos. No todos los estudios permiten demostrar hipótesis; algunos sólo permiten elaborarlas. En la práctica, no siempre es posible llevar a cabo el diseño ideal, y debe tenerse en cuenta las conclusiones que pueden efectuarse en cada caso. CAUSALIDAD El objetivo de muchos trabajos científicos es analizar la relación entre una causa y un efecto determinado. La causa puede ser un factor de riesgo y el efecto una enfermedad; en este caso, estaríamos interesados en determinados factores etiológicos. En otras ocasiones la causa puede ser una terapia y el efecto una curación, en cuyo caso pretenderíamos caracterizar factores terapéuticos, etc. El determinar la causalidad es un tema muy complejo y pre-
120
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
cisa un tipo de diseño determinado dependiendo de los casos. En etiología actualmente se acepta que la mayoría de las enfermedades tienen varias causas y raramente una sola, lo que dificulta aún más el problema. Para determinar que un factor/í es causa de un efecto B, deben demostrarse las siguientes proposiciones: I. A es anterior a B. II. Si A aumenta, también aumenta 5. III. Debe comprobarse que no hay otro factor C que es la verdadera causa de B y que actúa confundiendo. I. Si A es causa de B, es evidente que A debe ser anterior a B. En un estudio en el que se quiera analizar causalidad, debe quedar claramente reflejada la relación temporal entre A y B. II. Si aumentad, también debe aumentaré. Por ejemplo, el tabaco es un factor causal de la bronquitis crónica; si aumenta el número de cigarrillos fumados, aumenta la probabilidad de padecer la enfermedad y si aumenta el número de fumadores debe aumentar el número de bronquiticos. III. Comprobar que no existe un factor de confusión C que es la verdadera causa de B y que actúa confundiendo es una de las partes más complejas de los estudios de causalidad. Pocas veces podemos estar seguros de que no existen factores de confusión desconocidos. En el Capítulo 6 analizaremos lo relativo a los factores de confusión con bastante amplitud. DISEÑO DE ESTUDIOS Una vez fijados los objetivos del trabajo, el investigador debe planificar los pasos a realizar para poder realizarlos. Al protocolo de acciones a realizar, desde la enunciación de los objetivos hasta su resolución, lo llamaremos diseño. Es frecuente que se solicite la ayuda de un experto en estadística o en metodología de la investigación después de recogidos los resultados. Sin embargo, es mucho menos frecuente la consulta sobre el diseño de los estudios, siendo esta la parte más compleja de un trabajo de investigación y la más delicada. Un error en el análisis de los resultados es reversible ya que un conjunto de datos puede analizarse todas las veces que sea necesario. Si los datos proceden de un estudio bien diseñado y bien ejecutado, podemos rectificar un inadecuado estudio estadístico. Sin embargo, un error en el diseño de un trabajo científico, en la inmensa mayoría de los casos, supone la invalidez definitiva de los resultados. Las fases del diseño de un trabajo científico son las siguientes: Objetivos del trabajo. Identificación de la población1 de referencia. 1
Como hemos indicado en otras ocasiones, entendemos una población como un conjunto bien definido de personas, animales, objetos o cosas, que puede o no coincidir con poblaciones geográficas como ciudades o pueblos.
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
121
Selección de la muestra. Criterios de inclusión y de exclusión. Variables a incluir en el estudio. Instrumentos de medida a utilizar. Elección del tipo de estudio. Objetivos del trabajo. Lo primero a realizar es una exhaustiva revisión bibliográfica para comprobar los trabajos parecidos que se han realizado, que a buen seguro serán una interesante fuente de inspiración y nos ayudará a enunciar las hipótesis y los objetivos de forma adecuada. Una vez enunciada la o las hipótesis, debemos plantearnos cuál o cuáles son los objetivos del trabajo; estos deben definirse concisamente y atendiendo a nuestras posibilidades, definiendo de manera clara lo que pretendemos hacer. Identificación de la población de referencia. Una vez elaborados los objetivos del trabajo, debemos tener una idea clara de la población sobre la que podemos referir nuestros datos, para lo cual debemos distinguir entre evidencia, evidencia estimada, hipótesis y teoría, aunque en los Capítulos 1 y 2 hemos comentado estos conceptos, los repetimos aquí por su importancia. Los datos obtenidos de una determinada población constituyen una evidencia sobre ella. Si estudiamos todos los casos de neumonía por neumococo tratados en el servicio de medicina interna de un hospital, y una de las conclusiones del estudio es que el 70% curaron con un tratamiento a base de penicilina G sódica, esto es una evidencia para el servicio donde se ha realizado el estudio. A partir de este dato se puede elaborar la hipótesis de que aproximadamente el 70% de las neumonías por neumococo evolucionan favorablemente con penicilina G sódica, lo cual habrá que demostrar en otros centros. Los resultados obtenidos a partir de una muestra probabilística son una evidencia estimada referible a la población muestreada. Si en un estudio, realizado a partir de una muestra probabilística de una ciudad, se concluye que el 30% de sus habitantes mayores de 30 años padecen artrosis, suponiendo que el intervalo de confianza del 95% sea (25-35) %, lo cual quiere decir que hay una probabilidad del 95% de que, en la población muestreada, la proporción de afectados de artrosis esté entre el 25 y el 35%, al ser un dato probabilistico no tenemos la completa seguridad de cuál es el valor real en la población de referencia y, por lo tanto, la conclusión es una evidencia estimada. A partir de este dato podemos elaborar la hipótesis de que, en poblaciones similares, el porcentaje de artrosis será aproximadamente del 30%, lo cual habrá que demostrar en cada caso. Varios hechos relacionados permiten elaborar una teoría científica, por ejemplo, si diversos centros sanitarios comunican que el porcentaje de cepas bacterianas sensibles a los antibióticos disminuye, podemos elaborar la teoría general de que las bacterias son capaces de evolucionar hacia formas resis-
122
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
tentes a los antibióticos. Sobre dicha teoría se realizarán las precisiones adecuadas según aumente la información; posiblemente haya algunas excepciones; la genética y la bioquímica aportarán las bases moleculares de la resistencia, etc. El investigador debe tener claro el ámbito de aplicación de sus conclusiones y las hipótesis que pueden ser realizadas. Selección de la muestra. Una vez elegida la población de referencia, si ésta es inaccesible habrá que seleccionar una muestra mediante una técnica de muestreo (1) adecuada. En este punto queremos dejar claro que, por muy grande que sea una muestra, puede no ser adecuada si no ha sido elegida adecuadamente. Supongamos que en la ciudad de Toledo hay tres hospitales; una muestra de pacientes adecuadamente elegida en un hospital es representativa de dicho hospital, pero no de la ciudad de Toledo. La selección de la muestra adecuada en muchos casos puede ser la parte más larga y compleja de un trabajo científico. Los resultados obtenidos a partir de una muestra solamente son referibles como evidencias probables sobre la población muestreada, y como hipótesis de trabajo sobre poblaciones similares. Criterios de inclusión y de exclusión. Una de las cuestiones que debe fijarse claramente en cualquier trabajo científico son los criterios de inclusión y de exclusión. Los criterios de inclusión en el trabajo deben quedar claramente reflejados aunque haya un solo investigador. Si hay varios que pueden seleccionar individuos para el trabajo, las razones para que la selección se realice basándose criterios objetivos son evidentes. Por ejemplo, no sería suficiente poner como criterio de inclusión hipertenso; habría que especificar a partir de qué valores de tensión arterial sistólica y diastólica deben incluirse los sujetos en el estudio y en qué circunstancias deben realizarse las correspondientes medidas. Cuando hay varios observadores deben realizarse estudios de concordancia entre ellos, a fin de determinar el grado de coincidencia en las medidas realizadas sobre las mismas observaciones (en el Capítulo 7 se analiza la concordancia y la medida de ella más utilizada; el Índice Kappa). Aunque cumplan los criterios de inclusión, en la mayoría de los trabajos hay circunstancias que aconsejan no incluir a algunos individuos en el estudio, bien porque la existencia de otras patologías u otras razones puedan inducirnos a error, bien por difícil manejo clínico, ingestión de fármacos o drogas que no estemos seguros del efecto que puedan ejercer sobre los pacientes de nuestro estudio, etc. Los aspectos concretos que no deben tener los pacientes participantes en el estudio, aunque cumplan los criterios de inclusión, son los criterios de exclusión, Supongamos que en un ensayo clínico en el que se quiere evaluar la eficacia de un fármaco antihipertensivo, los criterios básicos de inclusión podrían ser: personas entre 35 y 75 años, con una tensión arterial sistólica mayor de 140 mm de Hg o diastólica mayor de 90. Un criterio de exclusión podría ser que
INTRODUCCIÓN AL DISEÑO TIPO DE ESTUDIOS
123
tome anticoagulantes; implícitamente, el criterio de exclusión se entiende que se refiere a pacientes que cumplan los criterios de inclusión y a circunstancias concretas que pueden alterar los resultados. En los criterios de exclusión no se deben definir los pacientes implícitamente excluidos por los criterios de inclusión. Si el criterio de inclusión según la edad es los comprendidos entre 20 y 70 años no sería correcto definir como criterios de exclusión a los menores de 20 años y a los mayores de 70, se entiende como excluidos los que no cumplan los criterios de inclusión. Al igual que los de inclusión, los criterios de exclusión deben ser objetivables y muy claros. Variables a incluir en el estudio. Otro capítulo importante y a decidir a priori es el de las variables que van e ser estudiadas; la selección de la muestra varía dependiendo del número y del tipo de variables de las que necesitamos información. El control de importantes sesgos, como el de confusión, puede depender de que dispongamos de datos sobre ciertas variables. La selección de las variables debe realizarse teniendo en cuenta la bibliografía y la previsión de posibles sesgos o relaciones especiales como la interacción. Siempre que sea posible, debemos obtener la máxima información posible de las variables a considerar en el estudio. Si una variable es cuantitativa, como la talla, debemos recoger su valor numérico. Es posible que en el análisis estadístico consideremos adecuado estudiar la variable en categorías como normal, alto o bajo. Si disponemos de la información numérica, podemos categorizar la variable en cualquier momento, y también podemos utilizarla como variable cuantitativa en otras ocasiones, pero si al recoger los resultados se reduce la variabilidad a unas pocas categorías, siempre tendrá que ser utilizada de esta manera. Plan estadístico a utilizar. El plan estadístico a realizar en el trabajo debe quedar claramente establecido a priori por varias razones: el tamaño de la muestra puede depender de las pruebas que vayan a realizarse, no es lo mismo realizar una comparación de dos medias que una regresión logística múltiple. Por otra parte, aunque a los poco versados en estadística les parezca extraño, la influencia del azar no es la misma si planificamos la realización de ciertas pruebas a priori, que si, dependiendo de los resultados que obtengamos, realizamos unas pruebas u otras (2). Instrumentos de medida a utilizar. Otro problema de vital importancia es la elección y calibración de los instrumentos de medida. En el caso de que en el estudio realicen medidas varias personas, debe tenerse plena seguridad de que no hay errores de medida y que los instrumentos miden lo mismo, para lo cual deben intercalarse frecuentes controles. Esta faceta debe cuidarse especialmente aunque hayamos seleccionado una muestra de forma excelente y todos los pasos del estudio hayan sido impecables ya que si los datos no son reales, el trabajo y sus conclusiones no valdrán para nada. Una atención especial debe tenerse con los cuestionarios. Un cuestionario es un instrumen-
124
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
to de medida que puede medir satisfacción con un determinado sistema de salud, o hábitos de una persona, etc. Por mucho interés que tengamos en el diseño de un cuestionario, no podemos estar seguros de que mide lo que queremos medir hasta que lo hayamos validado y validar un cuestionario es como calibrar un aparato de medida. Recomendamos no utilizar cuestionarios sin validar por muy seguros que estemos de su bonanza, ya que esta no deja de ser una hipótesis hasta que se compruebe su eficacia. Las evaluaciones globales de la calidad asistencial y de coste eficacia de las actuaciones de un grupo de profesionales o de un centro sanitario, deben ser validadas. En estos casos debe quedar claro que es lo que se quiere medir, como hacerlo y por supuesto las validaciones realizadas del sistema de medida. Es curioso que administraciones sanitarias o compañías de seguros que gastan miles de millones de pesetas, utilicen en muchos casos sistemas de medida deducidos racionalmente, lo cual es bueno, pero no validados, lo cual no permite dar validez científica a estos sistemas de medida. Un sistema de medida no validado, aunque su estructura racional sea correcta, no puede ser considerado más que hipotéticamente aceptable, y las medidas realizadas no pueden ser consideradas rigurosas desde el punto de vista científico. Elección del tipo de estudio. La elección del estudio depende de varios factores, En muchas ocasiones no podremos realizar el estudio ideal. Los factores que influyen son diversos; los más importantes son los siguientes: Datos disponibles. Necesidad urgente de disponer de resultados. Disponibilidad económica. Datos disponibles. El tipo de datos de los que disponemos, o de los que podemos disponer para el trabajo de investigación, es un condicionante esencial para el diseño de un trabajo científico. Si hemos elaborado unas hipótesis muy interesantes pero no estamos en condiciones de disponer de los elementos necesarios, no podremos contrastarlas. Esto que parece tan evidente es una fuente de errores importantes. Por ejemplo, es frecuente que magníficos clínicos, interesados en una determinada enfermedad de la que son auténticos expertos, hayan elaborado interesantísimas hipótesis de causalidad, diagnóstico, pronóstico o tratamiento sobre ellas. El problema surge cuando creen poder contrastarlas a partir de los datos recogidos en su fichero clínico. Disponen de datos sobre sus casos y, con esta documentación, en la mayoría de los casos lo más que podemos hacer es una descripción de sus pacientes (serie de casos), que ayude a enunciar hipótesis, pero la demostración habrá que realizarla mediante otro tipo de estudios. Necesidad urgente de disponer de resultados. La necesidad de disponer lo antes posible de resultados puede ser un condicionante fundamental
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
125
en la elección del tipo de estudio. Como veremos en este capítulo, los estudios mejores para determinar causalidad (excepto en enfermedades raras), son los estudios de cohortes, pero suelen ser largos. Si estamos ante una epidemia de origen desconocido, y por tanto es urgente conocer sus causas, debemos decidir un estudio que de una forma rápida nos permita identificar las causas, probablemente un estudio de casos y controles. Disposición económica. El determinante final suele ser el dinero ya que los estudios en ciencias de la salud suelen ser muy caros. Aunque nuestras hipótesis sean maravillosas y estemos en condiciones de obtener los datos necesarios para contrastarlas, si no obtenemos el dinero necesario para realizar el trabajo ideal, nos tendremos que conformar con uno menos ambicioso. Una de las primeras cosas a realizar en el diseño de un trabajo científico es elaborar un presupuesto riguroso y tratar de conseguir financiación para él. CARACTERÍSTICAS DE LOS ESTUDIOS Los estudios habituales pueden ser clasificados de varias formas, dependiendo de diversos factores. Las características más importantes determinantes en la clasificación son las siguientes: Estadísticas. Relación temporal factor-enfermedad. Actitud del investigador. Estadísticas. Basándonos en las características estadísticas podemos clasificar los estudios en descriptivos y analíticos. Los estudios descriptivos no permiten contrastar hipótesis de causalidad. Los representantes típicos son los estudios de un caso o de serie de casos; éstos estudios constituyen la mayor parte de los estudios publicados. Los estudios analíticos permiten contrastar hipótesis de causalidad, etiológicas, diagnósticas, pronosticas o terapéuticas. Algunos ejemplos de éstos son los estudios de cohortes y los ensayos clínicos. Relación temporal factor-enfermedad. Ésta es una característica cuyo análisis es fundamental en cualquier estudio en el que se quiera relacionar un factor causal (etiológico, pronóstico, diagnóstico, terapéutico, etc). Si denominamos al momento de comienzo del estudio í0, al comienzo de la enfermedad tE y al momento de la exposición al factor tF, clasificaremos los estudios según la relación entre los parámetros anteriores. Estudios transversales. En los estudios transversales el observador tiene conocimiento de la presencia o ausencia de la enfermedad y el grado de exposi-
126
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
ción a uno o más factores en el momento de realizar el estudio. En este caso conocemos íOl pero no tE y en la mayoría de los casos tampoco tF. El no poder estudiar la relación temporal entre los factores y la enfermedad, impide confirmar hipótesis de causalidad, a excepción de que el hipotético factor causal sea genético, y en este caso con muchas precauciones como comentaremos en un apartado posterior. Estudios retrospectivos. En este tipo de estudios, los individuos enfermos y sanos son conocidos en el momento del comienzo del estudio. El objetivo es recoger información en el pasado, mediante cuestionarios o archivos sanitarios, sobre posibles factores que puedan estar relacionados con la enfermedad. Son estudios de este grupo los estudios de casos y controles y las cohortes históricas. Según los parámetros temporales anteriores, la estructura de los estudios retrospectivos es la siguiente:
Estudios prospectivos. En este tipo de estudios, al comienzo del estudio es conocido el estado de salud de todos los individuos incluidos en el estudio. Podemos distinguir dos tipos fundamentalmente: estudios etiológicos y estudios terapéuticos. En los estudios etiológicos, al comienzo del estudio todos los individuos están sanos respecto a una determinada enfermedad y conocemos el grado de exposición a uno o más factores. El estudio consiste en seguir a los individuos incluidos en él y recoger la aparición de casos de la enfermedad (incidencia), relacionándolos con uno o más factores a fin de determinar posibles relaciones causales. El representante principal de este grupo son los estudios de cohortes prospectivas. Según los parámetros temporales, la estructura de los estudios prospectivos etiológicos es la siguiente:
En los estudios terapéuticos, todos los individuos están afectados de una determinada enfermedad; el objetivo del estudio es determinar si una terapia es ventajosa respecto a las demás comparando dos o más grupos sometidos a distintas terapias después de transcurrido un tiempo determinado. Los representantes típicos de este grupo son los ensayos clínicos. La estructura temporal de los ensayos clínicos es distinta de los estudios etiológicos. En el momento de comenzar el estudio se administra el tratamiento y los individuos incluidos ya están enfermos.
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
127
Actitud del investigador. Por actitud del investigador nos referimos a las posibilidades que tiene de controlar los factores que intervienen en el estudio. Si puede controlarlos en todo o en una gran parte, el estudio éste es experimental. Si el investigador tiene que conformarse con contemplar los acontecimientos, el estudio es observacional. En ciencias de la salud, debido a las consideraciones éticas y morales, la mayoría de los estudios son observacionales. En estudios con seres humanos solamente pueden ser considerados experimentales los ensayos clínicos, y esto con muchos matices. Los estudios realizados con animales en muchas ocasiones pueden ser experimentales. TIPOS DE ESTUDIOS En la investigación en ciencias de la salud los estudios más utilizados son los siguientes: Comunicaciones de un caso. Series de casos. Transversales. Cohortes. Casos y controles. Ensayos clínicos. En este capítulo analizaremos detalladamente los estudios anteriores excepto los ensayos clínicos, que serán estudiados en el Capítulo 11. El metaanálisis no es un tipo de estudio determinado, es una síntesis de los estudios realizados sobre un determinado tema; será descrito en el Capítulo 13. Fletcher (3) clasifica los estudios en débiles y fuertes dependiendo de su valor científico; débiles serían las series de un caso y las series de casos, y fuertes, los ensayos clínicos, los estudios de casos y controles y cohortes. Comunicaciones de un caso En este tipo de trabajos se describe habitualmente de forma bastante completa la experiencia con un paciente afectado de una determinada enfermedad. Estos estudios son muy importantes en el caso de enfermedades raras o de intervenciones quirúrgicas muy novedosas y difíciles de reproducir. La elaboración de hipótesis a partir de un solo caso no es posible la mayor parte de las veces. En 1984 estos estudios supusieron el 29% de los artículos publicados (4) en la revista New England Joumal of Medicine, el 14,5% en The Lancet, el 52,6% en la Revista Clínica Española y el 38% en Medicina Clínica.
128
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Series de casos Las series de casos son un resumen de los datos clínicos más relevantes sobre un grupo de pacientes atendidos por un profesional o un servicio sanitario. Constituyen una fuente de información interesante sobre todo las series referidas a patologías novedosas o enfermedades poco frecuentes. Sirven para elaborar hipótesis sobre factores etiológicos, diagnósticos, pronósticos o terapéuticos, pero no para confirmarlas. Las series de casos son uno de los tipos de estudios médicos más publicados, a pesar de las fuertes críticas que estos trabajos han recibido (5). En 1984 (4) el 19% de los artículos publicados en New England Journal of Medicine, el 25% de la Revista Clínica Española y el 28% de Medicina Clínica fueron series de casos. Los trabajos denominados débiles por Fletcher son las comunicaciones de un caso y las series de casos; constituyen en 1984 el 66% de los artículos publicados en Medicina Clínica, el 77% en la Revista Clínica Española y el 45% en The New England Journal of Medicine. Los datos de las series de casos son recogidos a lo largo del tiempo, a veces durante años; no son representativos de ninguna población y, por lo tanto, la estadística a utilizar debe ser descriptiva, sin intervalos de confianza ni símbolos ±, que, mal utilizados, pueden herir la sensibilidad estadístico-científica del lector. Ejemplo 5.1. En un servicio de medicina interna, a lo largo de cinco años, han sido atendidos veinte pacientes HIV+ afectados de linfoma cerebral. Los datos clínicos más relevantes son las siguientes:
Estos datos son un ejemplo ficticio de cómo deben disponerse los datos, expresando al menos la media aritmética y la desviación típica de las variables numéricas y las frecuencias de las cualitativas. Si la media aritmética de las edades de nuestros veinte pacientes es exactamente 27,3, no tiene sentido añadir el ±, que supone una indeterminación. La pregunta inmediata seria ¿sobre que población se refiere la indeterminación? Todavía algunos contestarían sobre la hipotética población de pacientes parecidos que serán atendidos en este servicio, lo cual no tiene ningún fundamento ni científico ni estadístico; muchos terminan la discusión diciendo: «todo el mundo lo hace». Lo peor es que a algunos autores que han enviado sus artículos estadísticamente bien expresados les han sido devueltos por la revista en
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
129
la que querían publicarlos porque según los correctores «no expresaban adecuadamente los datos», Los errores en este sentido han sido ampliamente comentados (6-7) en la literatura científica. La inmensa mayoría de los trabajos expresan las medias acompañadas del simbolo ±. Además cuando queremos calcular intervalos de confianza no basta con dar la media ±, el error estándar de la media o desviación típica sino que hay que incluir el valor de la abscisa normal tipificada Z o la + de student dependiendo de la confianza del intervalo. En estudios descriptivos nunca se debe emplear el error estándar (8) de la media. En el Capítulo 2 comentamos con bastante amplitud el problema de la notación estadística. Uno de los problemas fundamentales de las series de casos son las conclusiones que se elaboran inadecuadamente a partir de ellos.
Estudios transversales Los estudios transversales son un corte en el eje temporal en el que se recogen datos sobre las características de un grupo de individuos. La mayoría de ellos pretenden conocer la situación sociosanitaria de una población en una fecha determinada, Son baratos y relativamente sencillos de realizar, permiten el cálculo de la prevalencia y en el caso de enfermedades crónicas son muy útiles en la planificación sanitaria. Si en una población conocemos la prevalencia de artrosis, de pacientes HIV+ o de afectados de cáncer de colon, etc., dado que estas enfermedades suelen ser de larga evolución, nos permite planificar los recursos necesarios a medio e incluso largo plazo. Su utilidad en el caso de las enfermedades de corta evolución es muy limitada. Un estudio realizado hoy, que registre los afectados de catarro común, puede reflejar una realidad muy distinta a la de dentro de cinco días por la rápida evolución de estos pacientes. Una de las limitaciones más importantes de estos estudios es el no poder relacionar adecuadamente un factor con una determinada enfermedad. Podemos calcular asociaciones estadísticas entre enfermedades y factores, pero no tenemos conocimiento de la relación temporal entre ellos. Supongamos que en un estudio transversal encontramos una asociación estadística entre pacientes depresivos y paro laboral; podría ocurrir que los pacientes depresivos, debido a su enfermedad, tuvieran un bajo rendimiento laboral y, por tanto, fueran despedidos en mayor proporción que los no depresivos, pero también sería posible que la depresión fuera debida a su precaria situación laboral. Aunque esto no siempre es así, si el factor es un determinado gen, cuestión que cada vez está más de moda y puede ser la solución a muchos de los problemas de causalidad actualmente planteados, sabemos que el factor gen es anterior a la enfermedad. Esta circunstancia favorecerá el desarrollo de los estudios transversales ya que en el caso de que el factor de riesgo sea un determinado gen, estos estudios nos permitirán conocer dos de las características necesarias para determinar la causalidad: el que el factor sea anterior a la enfer-
130
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
medad y la mayor probabilidad de que los portadores del gen padezcan la enfermedad, aunque, como en todos los trabajos científicos, habría que prestar especial atención a los sesgos (ver Capítulo 6). En cualquier caso, los estudios transversales no nos permiten conocer cuándo enferma la persona. Al obtener los resultados del estudio podemos saber que está enferma, pero nada más. En los estudios transversales para poder calcular riesgo relativo en relación a factores genéticos, tendríamos que conocer la proporción de nacidos con un determinado gen y sin él, además sería necesario conocer la proporción de fallecidos o emigrados y sus características genéticas. Aunque, complejo todo ello es posible, mediante técnicas de estudio del ADN, es posible conocer datos de vivos y muertos. En ocasiones, aunque, el fallecimiento haya ocurrido muchos años atrás. Estos estudios pueden ser de poblaciones completas o por muestreo. Por ejemplo, si en la ciudad de Segovia se quiere conocer la proporción de mujeres mayores de 50 años con osteoporosis avanzada, y podemos realizar un estudio completo con todas ellas, en este caso la población objetivo son las mujeres mayores de 50 años que viven en la ciudad de Segovia y disponemos de los datos de todas ellas; por lo tanto, los datos estadísticos son poblacionales y deben darse sin intervalos de confianza. Como hemos comentado en otras ocasiones, las conclusiones son evidencias para Segovia e hipótesis de trabajo para las mujeres de edad similar de otras poblaciones. En el caso de que no pudiéramos estudiar a toda la población, podríamos extraer una muestra representativa de las mujeres mayores de 50 años de la ciudad de Segovia; los datos serían muéstrales y referibles sobre la población muestreada. Ventajas e inconvenientes. En resumen, las ventajas son: Sencillos de realizar. Baratos. Permite el cálculo de asociaciones entre factores y enfermedad. Cálculo de prevalencia. Adecuados para planificación socio-sanitaria. Los inconvenientes son: No relación temporal factor enfermedad (salvo genes). No se puede calcular incidencia. En enfermedades de corta duración tienen poca utilidad. Análisis de resultados. En los estudios transversales pueden estudiarse asociaciones estadísticas entre factores y enfermedad; también permiten conocer la prevalencia de la enfermedad en cuestión. Como indicamos anteriormente, en el caso de que los factores fueran genes se podría calcular riesgo y riesgo relativo, si pudiéramos controlar los sesgos. A partir del ejemplo siguiente estudiaremos con detalle el análisis de un estudio transversal.
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
131
Tabla 5.1.
Ejemplo 5.2. En el mes de mayo de 1994 se lleva a cabo un estudio transversal en la ciudad de Cáceres. Entre la información recogida disponemos de datos sobre los afectados de artrosis moderada o grave radiológicamente demostrada y sedentarismo. El estudio fue realizado con una muestra representativa de 1.000 individuos y la población objetivo son los habitantes de Cáceres mayores de 50 años. En la Tabla 5.1 se recogen los resultados obtenidos: Hipótesis estadísticas. Ho No existe asociación entre el sedentarismo y la artrosis. H1 Existe asociación entre el sedentarismo y la artrosis. Significatividad estadística. Aplicando la expresión (4-10) calculamos el valor de la χ2 Mantel- Haenszel, cuyo valor es:
El valor es muy grande y nos permite rechazar la hipótesis nula de no asociación. Hay una fuerte asociación estadística P < 0,001 entre sedentarismo y artrosis. Estudios de prevalencia. La prevalencia de artrosis en la muestra es el número total de artrósicos (500), dividido por el tamaño de la muestra (1.000):
El 50% de los individuos de la muestra están afectados de artrosis. La prevalencia de artrosis entre los sedentarios es el número de artrósicos sedentarios (400), dividido por el número total de sedentarios (650).
132
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El 61,5 de los sedentarios son artrósicos. La prevalencia de artrosis entre los no sedentarios es el número de artrósicos no sedentarios (100), dividido por el número total de no sedentarios (350).
El 28,6% de los no sedentarios son artrósicos. Realizamos una comparación de proporciones, siendo los resultados significativos P < 0,01 y la magnitud de la diferencia:
Los sedentarios de la muestra padecen artrosis un 32,9% más que los no sedentarios. Precisión estadística. Es un estudio realizado por muestreo y por lo tanto, debemos especificar los intervalos de confianza. La fórmula a emplear en el cálculo de intervalos de confianza para proporciones es la siguiente:
Para una confianza del 95%, Z = 1,96. Aplicando la expresión anterior a la prevalencia total, obtenemos los siguientes resultados:
P∈ (0,47 - 0,53) 95% de confianza. El intervalo de confianza anterior nos permite sacar la siguiente conclusión: en la ciudad de Cáceres, en el mes de mayo de 1994, hay una probabilidad del
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
133
95% de que la proporción de artrósicos entre los mayores de 50 años esté entre el 47 y el 53 %. Teniendo en cuenta que esta enfermedad no remite, los resultados son extrapolables y permiten planificar las necesidades sanitarias de estos pacientes con años de antelación. Aplicando la expresión (5-1) a los sedentarios, obtenemos los siguientes resultados:
Ps ∈ (0,578 - 0,652) 95% de confianza. La proporción de artrósicos sedentarios en la ciudad de Cáceres en el mes de mayo de 1994, en los habitantes mayores de 50 años, tiene una probabilidad del 95% de que esté comprendida entre el 57,8 y el 65,2%.
PNS ∈ (0,239 - 0,333) En la fecha y lugar de la realización del trabajo, hay un 95% de probabilidad de que la proporción de artrósicos entre los individuos no sedentarios esté entre el 23,9 y el 33,3%, Conclusiones. A partir de los datos anteriores, matemáticamente podríamos haber calculado riesgo relativo o cualquier otra medida de riesgo. De hecho las fórmulas del cálculo de las prevalencias son las mismas que las del riesgo, pero no podemos hablar de riesgo por dos razones: primera, para hablar de riesgo necesitamos conocer incidencia y referirlo a un período de tiempo determinado, y la segunda y más importante, típica de los estudios de prevalencia, a partir de los datos del estudio no disponemos de información sobre la relación temporal entre artrosis y redentarismo, no sabemos si los artrósicos son mayoritariamente sedentarios, y el sedentarismo es un factor causal de la artrosis, o si los artrósicos son tan activos como los no artrósicos pero la aparición de la enfermedad les producía molestias al realizar ejercicios y se hicieron sedentarios. Estudios de cohortes Los estudios de cohortes son los mejores para determinar relaciones causa efecto excepto en el caso de que la causa sea un factor terapéutico y el efecto una curación o una mejoría en el estado de salud (ver capítulos 10 y 11), per-
134
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
miten el cálculo de incidencia y conocer la relación temporal entre el factor y la enfermedad. El estudio ideal de cohortes, posible con animales de laboratorio pero no con humanos, sería, a partir de una colonia de animales de laboratorio sanos, de edades parecidas y criados en el mismo ambiente, seleccionar varios grupos numerosos y exponerlos a distintos niveles de riesgo al mismo tiempo, por ejemplo, distintas dosis radiactivas; un grupo de animales no se somete a exposición radiactiva y servirá como control. De esta manera disponemos de una cohorte de varios niveles compuesta por varios grupos de animales, todos sanos respecto a la enfermedad que se quiere investigar, de la cuál conocemos el momento exacto de la exposición al factor. Seguimos la cohorte y anotamos la incidencia de enfermedades en los distintos grupos; transcurrido el tiempo que creamos conveniente que dure el experimento, podemos calcular riesgos comparativos entre los distintos grupos y tener una idea bastante aproximada del efecto de la radiación (factor) sobre la enfermedad que se quiera estudiar: leucemias, quemaduras, función hepática, etc. Con seres humanos no es posible2 provocar de forma intencionada un estudio de este tipo. Sólo podemos observar los efectos de alguna catástrofe, como la fuga radiactiva de la central nuclear de Chernobyl, a partir de la cual se puede calcular la dosis de radiación recibida dependiendo de la distancia al foco de emisión, o los supervivientes de las bombas de Hiroshima y de Nagashaki. Los elementos básicos de un estudio de cohortes son la identificación temporal entre la enfermedad y el factor, y el seguimiento durante un período suficientemente largo que permita recoger información sobre incidencia. Un factor muy importante a tener en cuenta es el período de latencia, tiempo transcurrido entre la exposición y la aparición de la enfermedad. Si medimos tasa de incidencia, la suma total de la experiencia tiempo es la misma si seguimos a cien personas durante diez años, que a mil personas durante un año, pero en enfermedades de latencia media mayor de un año, la cohorte de mil personas seguida un año no sería muy útil. Los estudios de cohortes son observacionales excepto en el caso, de algunas cohortes de animales que pueden ser experimentales. En general son prospectivas, pero también pueden ser retrospectivas. Debido a que en general el estudio dura mucho tiempo y lo componen muchos individuos, son caros y difíciles de reproducir. Selección de la cohorte. En la selección de individuos en las cohortes prospectivas, todos los individuos deben estar sanos respecto a la enfermedad que se quiere estudiar. En la práctica las cohortes pueden ser seleccionadas de diversas maneras: Observación de catástrofes y seguimiento de los expuestos. 2
Nos referimos a la imposibilidad moral y ética; desgraciadamente en ocasiones se han realizado experimentos intencionados con seres humanos, incluso en épocas muy recientes,
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
135
Seleccionar personas con distintos grados de exposición a uno o varios factores como el tabaco, alcohol, etc., siendo conveniente que uno de los grupos tenga un grado de exposición nulo, y seguirlos durante un periodo de tiempo determinado. Grupos humanos, como trabajadores de una empresa que pueden estar sometidos a distintos grados de exposición, como mineros con distintos grados de exposición a los factores de riesgo, empresas con fuertes ruidos que pueden provocar sordera, etc. Otra forma de selección es seguir poblaciones geográficas. La cohorte más conocida es geográfica: la de Framinghan. Si la cohorte es una muestra de una población, los parámetros calculados deben ir acompañados de su correspondiente intervalo de confianza y sus resultados son evidencias probabilísticas de la población muestreada e hipótesis de trabajo para otras poblaciones. En ocasiones pueden aprovecharse archivos médicos como fuentes de información si quedan perfectamente recogidos los factores y ciertas enfermedades. Son muy útiles los archivos médicos de grandes empresas en las que se realicen exámenes médicos exhaustivos y rigurosos. A este tipo de cohortes retrospectivas se las denomina cohortes históricas. Supongamos una pequeña ciudad en la que exista un sistema de archivo riguroso y en la que a todos los habitantes se los someta a un estudio periódico. Tomando como base dicho archivo, podríamos calcular incidencia y riesgos. Ventajas e inconvenientes. Las ventajas son las siguientes: Permite el cálculo de incidencia. En algunos casos permiten el cálculo del tiempo de latencia. Permiten cálculo de riesgos y riesgo relativo. Permiten estudiar varios factores simultáneamente. Los inconvenientes son los siguientes: Caros. Largos. Difíciles de reproducir. Poco útiles en enfermedades raras. Cambio en los sistemas de diagnóstico. Análisis de resultados en estudios de cohortes. Los estudios de cohortes permiten el cálculo de prácticamente todas las medidas de riesgo analizadas en el Capítulo 4. Aunque clásicamente los análisis estadísticos de los estudios de cohortes se han realizado mediante tablas de contingencia, en la actualidad existen técnicas de análisis estadístico multivariante (9) como la regresión logística múltiple, regresión múltiple, análisis discriminante, etc., que permiten el control de factores de confusión y determinar la existencia de interacción. En este libro utili-
136
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Tabla 5.2.
zaremos las tablas de contingencia, con objeto de que el número de lectores que puedan seguir los razonamientos sea mayor y puedan adquirir los conceptos fundamentales de una manera sencilla. Pero en la práctica, si necesitan realizar un estudio estadístico en el que controlar el efecto simultáneo de varias variables estadísticas, es recomendable utilizar otros métodos. En estos estudios podemos encontrarnos con dos posibilidades: que los datos queden expresados en una tabla 2 x 2, en la que analizaremos las medidas de riesgo siguiendo las expresiones vistas en el Capítulo 4, o que los resultados sean expresados como personas tiempo para el cálculo de tasas de incidencia, en cuyo caso construiremos una tabla especial que analizaremos a continuación; en el Capítulo 3 se comentaron ampliamente las tasas de incidencia. En la Tabla 5.2, A es el número de casos incidentes (enfermos) entre los expuestos, B es el número de casos incidentes entre los no expuestos, I es el número total de enfermos. C es el total de tiempo persona de los expuestos, D es el total del tiempo persona de los no expuestos y T es el tiempo total personas tiempo, la experiencia del estudio. Significatividad estadística. La prueba de significatividad más utilizada para evaluar si las diferencias de los casos incidentes entre expuestos y no expuestos son significativas; es un estadístico basado en la distribución χ2 modificado por Mantel y Haenszel, cuya expresión es la siguiente:
Algún lector puede preguntarse cuál es la expresión real de χMH2, la actual o la que hemos dado otras veces. χzMH no es un parámetro concreto sino una curva con una distribución concreta. Lo que expresa la formula (5-2) y la (4-10) es que si muestreamos una población, en la que una exposición y una enfermedad no están asociadas, los estimadores representados en el segundo miembro de
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
137
las expresiones citadas anteriormente se distribuirán según una curva determinada, la chi-cuadrado en este caso. Por esto, los autores que dicen que la raíz cuadrada de χ2 es χ deben decir qué distribución es χ y qué grados de libertad tiene3 y si fuera posible, dónde se puede encontrar una tabla con sus valores y su representación gráfica. El autor de este libro lo agradecería mucho, porque después de quince años dedicados a la docencia e investigación en estadística y metodología de la investigación y haber escrito dos libros sobre estadística, uno de ellos sobre estadística multivariante, le falta esa curva para su colección. Un error de estas características y tan extendido no es un problema menor, quien lo comete demuestra desconocer qué es una curva estadística y que significa la distribución de un estimador en el muestreo. La expresión (5-2) no es una igualdad matemática sino el modo de distribuirse el estadístico del segundo miembro en el muestreo, de ahí que si el estudio no está basado en una muestra probabilística no tiene ningún sentido realizar pruebas de significatividad estadística. Análisis del riesgo. A partir de la labia 5.2 calcularemos la tasa de incidencia en expuestos IE, la tasa de incidencia en no expuestos INE. El riesgo relativo es el cociente entre la tasa de incidencia en expuestos y la tasa de incidencia en no expuestos,
Precisión. El cálculo de intervalos de confianza para el riesgo relativo (RR) lo realizaremos utilizando las fórmulas de Miettinen; ver la expresión (4-21). A continuación estudiaremos de forma completa dos ejemplos, a fin de poder realizar los cálculos, en los dos tipos de presentación de resultados que podemos encontrar en un estudio de cohortes. Ejemplo 5.3. Con objeto de estudiar la relación entre fumar (factor) e hipertensión arterial (enfermedad), en una población se extrae una muestra probabilística de individuos mayores de 30 años, siendo excluidos del estudio los hipertensos. Los fumadores constituyen la cohorte expuesta y los no fumadores 3 Como ya indicamos en el capítulo anterior, la raíz cuadrada de un estadístico que se distribuye en el muestreo según una curva %2, en general se distribuye según una t de Student con n-1 grados de libertad o como una curva normal tipificada.
138
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Tabla 5.3.
la cohorte de control. Los individuos incluidos en el estudio son seguidos durante veinte años, siendo controlados cada tres meses. Si en los exámenes periódicos se detecta hipertensión en algún individuo, se anota la incidencia y el individuo sale del estudio, siendo remitido a su médico de cabecera. Significatividad estadística. Como el estudio es una muestra representativa de una población, realizamos la prueba de significatividad estadística χ2 de Mantel-Haenszel aplicando la expresión (4-10), para determinar si hay evidencia estadística de que en la población las variables están asociadas. El valor experimental obtenido es:
El valor obtenido es significativo al nivel P < 0,001. La conclusión es que hay evidencia estadística de que en la población el factor y la enfermedad están asociados. En este punto aún no sabemos ni la dirección de la asociación ni el grado de la misma. Es frecuente, sobre todo en exposiciones «científicas» verbales, oír que la asociación entre el factor y la enfermedad es significativa, pero esto por si sólo es poco más que nada. Hay que decir la magnitud de la asociación que en éste caso son los valores de las medidas de riesgo. Magnitud de la asociación. El estudio permite el cálculo de riesgos en expuestos y no expuestos, riesgo relativo, proporción atribuible y proporción atribuible poblacional. Aunque innecesario, calcularemos la razón de ventaja OR, insistiendo en que el OR y el RR son medidas cuantitativa y cualitativamente distintas. El riesgo en expuestos (fumadores) es el cociente entre los fumadores que enfermaron durante el estudio (170) y el total de fumadores (450):
INTRODUCCIÓN AL DISEÑO. TIPO DE E STUDIOS
139
Un fumador tiene una probabilidad de contraer la enfermedad (hipertensión) durante el estudio de 37,8%. El riesgo en no expuestos (no fumadores) es el cociente entre los no fumadores que enfermaron durante el estudio (120) y el total de no fumadores (550).
Un no fumador tiene una probabilidad de contraer la enfermedad durante el estudio del 21,8%. Diferencia de riesgos es la diferencia entre el riesgo en expuestos y el riesgo en no expuestos:
La diferencia de riesgos anterior es significativa al nivel P < 0,01. Riesgo relativo es el cociente entre el riesgo en fumadores y el riesgo en no fumadores:
Proporción atribuible es la proporción de los fumadores hipertensos que deben la enfermedad al fumar; la proporción atribuible la calculamos aplicando la expresión (4-6).
En la muestra, el 42% de los fumadores hipertensos deben la enfermedad al tabaco. Proporción atribuible poblacional es la proporción de todos los hipertensos de la muestra que deben la enfermedad al fumar; la calculamos aplicando la expresión (4-7).
140
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En la muestra, el 24,7% de las hipertensiones son debidas al fumar. El indicador de riesgo razón de predominio OR tiene un valor:
Insistimos en que el OR es diferente del riesgo relativo. Precisión. El estudio se ha realizado mediante muestreo. Los valores de riesgo anteriores son los encontrados en la muestra. Para estimar los valores de la población debemos calcular los correspondientes intervalos de confianza. En el cálculo de intervalos de confianza utilizaremos las expresiones comentadas en el Capítulo 4 en el apartado «análisis del riesgo a partir de una tabla de contingencia», subapartado precisión. Los intervalos de confianza al 95% de las medidas de riesgo calculadas anteriormente son los siguientes:
Hay un 95% de probabilidad de que el valor real de una medida de riesgo en la población muestreada esté comprendido entre los límites de su correspondiente intervalo, por ejemplo, hay un 95% de probabilidad de que el verdadero valor del RR esté comprendido entre 1,42 y 2,09. La conclusión del estudio es que el fumar es un factor de riesgo para la hipertensión ya que entre los individuos del estudio los fumadores tienen 1,73 veces más probabilidad de ser hipertensos que los no fumadores y en la población muestreada hay un 95% de probabilidad de que los fumadores tengan entre 1,42 y 2,09 más probabilidad de ser hipertensos que los no fumadores. Fuera de la población muestreada y como hipótesis de trabajo, suponemos que los fumadores tienen una probabilidad mayor de tener hipertensión que los no fumadores, pero cualquier cuantificación es una especulación sin ningún fundamento científico estadístico. En medios urbanos contaminados y con una vida ajetreada, el fumar podría tener más influencia que en el medio rural; esto por comentar uno de los múltiples problemas que nos encontraríamos para extrapolar .resultados. Ejemplo 5.4. En un estudio interesa conocer el efecto de los anticonceptivos orales sobre la tromboflebitis aguda. Se selecciona una cohorte de mujeres que han
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
141
tomado anticonceptivos orales y otra de mujeres que no han tomado nunca anticonceptivos orales. Las dos cohortes son seleccionadas en la misma ciudad. Otra condición de inclusión es que todas sean mayores de 35 años. Las cohortes son seguidas durante 15 años, obteniéndose los resultados reflejados en la Tabla 5.4:
Tabla 5.4.
Signifícatividad. A partir de la expresión (5-2) calculamos el valor de χ2 de MH; su valor es:
El valor anterior es significativo al nivel P < 0,01, lo cual indica que existe una asociación estadísticamente significativa entre los anticonceptivos orales y la tromboflebitis aguda. Análisis del riesgo. Aplicando las expresiones (5-3), (5-4) y (5-5), calculamos la tasa de incidencia en expuestos, la tasa de incidencia en no expuestos y el riesgo relativo respectivamente.
Precisión. El intervalo para una confianza del 95% para el riesgo relativo lo calculamos aplicando la expresión (4-21).
Conclusiones. Las mujeres incluidas en el estudio que habían tomado anticonceptivos orales al menos dos años tienen una probabilidad 1,7 veces mayor que las que no los tomaron de tener tromboflebitis aguda. En la población mués-
142
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
treada hay un 95% de probabilidad de que el riesgo relativo esté entre 1,36 y 2,12. Como hipótesis de trabajo suponemos que las mujeres de otras poblaciones que han tomado anticonceptivos orales durante dos o más años tienen una probabilidad de padecer tromboflebitis aguda mayor que las que no las han tomado. Estudios de casos y controles Los estudios de casos y controles consisten en seleccionar individuos afectados de una determinada enfermedad, a los que denominaremos casos, y compararlos con individuos que no padecen la enfermedad, denominados controles. La comparación consiste en intentar identificar retrospectivamente factores de riesgo para la enfermedad estudiada. La investigación de la exposición a factores de riesgo en la mayoría de las ocasiones se realiza mediante cuestionarios. En los estudios de casos y controles debemos distinguir dos circunstancias claramente diferenciadas: 1. Cuando investigamos enfermedades raras o epidemias en las que disponemos de casi todos los casos. 2. Enfermedades relativamente comunes con causas multifactoriales. En el caso de epidemias (en el Capítulo 12 abordaremos de forma monográfica el estudio de epidemias) por intoxicaciones alimentarias, envenenamiento, exposiciones a productos tóxicos en el centro de trabajo etc., el factor causal suele ser único y específico, y más fácil de identificar que en el caso de factores no específicos. El tabaco es un factor muy específico del cáncer de pulmón ya que una gran mayoría de los afectados por este tipo de tumores son fumadores. El éxito de un estudio (10) de casos y controles en el descubrimiento de la relación existente entre tabaco y cáncer de pulmón ha sido puesto de ejemplo repetidas veces para apoyar a estos estudios; también han sido considerados como ejemplos de la bondad de los estudios de casos y controles el choque tóxico por el uso de tampones vaginales y el estilbestrol, todos ellos caracterizados por un factor causal único y limitado en el espacio y en el tiempo. Para poder realizar una evaluación adecuada, lo correcto sería revisar todos los estudios de casos y controles posibles y medir su eficacia calculando el número de los que han sido refutados y confirmados. Un método de adquisición de conocimientos debe ser riguroso, no es aceptable un sistema de estudio que junto a resultados coincidentes con la realidad haya otros erróneos, debido a la distorsión que producen. Los estudios de casos y controles son muy útiles cuando disponemos de la mayoría de los casos de una epidemia y cuando hay un factor causal muy específico. Debemos aprovechar los estudios de casos y controles cuándo son útiles y evitarlos cuándo su rigor sea dudoso. Éste es un ejemplo típico de lo que ocurre en muchas facetas relacionadas con la investigación en ciencias de la salud; si algo es utilizable en un caso con-
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
143
creto inmediatamente se universaliza su uso, es el caso de este tipo de estudios, de algunas técnicas estadísticas, etc. El induccionismo positivista refutado por la ciencia hace cien años aún sigue presente en muchas facetas de las ciencias de la salud. Cuando disponemos de una alta proporción de los afectados de una enfermedad como ocurre en los brotes epidémicos y en las enfermedades raras, los individuos incluidos en el estudio constituyen una muestra representativa de la población afectada; además en estos casos el factor causal suele ser único y suele ser relativamente sencillo identificarle, aunque en estos casos, en realidad lo que tenemos es una cohorte retrospectiva. En el caso de enfermedades extendidas pero con un factor causal casi único, también son de gran utilidad los estudios de casos y controles. Es el caso de la relación del cáncer de pulmón y del tabaco; la mayoría de los afectados de cáncer de pulmón son fumadores; el factor causal es casi único, exceptuando algunos casos de exposiciones poco frecuentes como el asbesto y casos de origen desconocido. Cuando la enfermedad es común y los posibles factores causales múltiples, los éxitos son mucho menos frecuentes. En terapéutica son utilizados en contadas ocasiones desde la falsa asociación encontrada entre reserpina y cáncer de mama, que causó no pocos problemas a miles de mujeres hipertensas (11-12-13). En todo estudio científico es posible la aparición de sesgos, pero en los estudios de casos y controles, los sesgos (ver Capítulo 6) son muy frecuentes. Al no disponer de una muestra probabilística de la población, los sesgos de selección son abundantes. La investigación retrospectiva se realiza mediante cuestionarios y uno de los sesgos de información, el de memoria, debe ser adecuadamente controlado, puesto que un afectado de una grave enfermedad es más probable que recuerde detalles que un no afectado. Los sesgos de confusión, al igual que en otros estudios científicos, también deben de ser tenidos en cuenta. Selección de los casos y controles. En general, todos los casos de la enfermedad conocidos en un servicio sanitario son seleccionados. El problema es elegir los controles; sobre esto las controversias son muy abundantes. La selección de controles varía dependiendo de la enfermedad que se esté investigando. Si es una enfermedad corriente, los controles deben ser personas parecidas en edad, hábitos y nivel socioeconómico. En enfermedades nuevas que afectan a personas con una edad y hábitos parecidos, los mejores controles son los de su entorno. Si tratamos de investigar infecciones hospitalarias con una posible relación ambiental, aire acondicionado, quirófano, etc., los controles deben ser pacientes del hospital. Otro problema es el número de controles que deben seleccionarse por cada caso. La mayoría de los autores indican que el número de controles debe ser el mismo que el de casos.
144
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Algunos autores, para determinar el número de casos y controles, utilizan la fórmula de la predeterminación del tamaño de la muestra, en el caso de comparación de proporciones con un poder discriminador determinado y un a y un β4 determinados:
No cabe duda de que la expresión anterior es impresionante, pero en los estudios de casos y controles, en general, no se cumplen las condiciones para aplicar dicha expresión. Ni la selección de casos y controles se realiza por muestreo probabilístico ni conocemos las proporciones en la población de referencia, y en la inmensa mayoría de los casos, las proporciones son menores de 0,05 y, además, aun cumpliéndose todas las condiciones ideales, la expresión anterior no sería exacta sino sólo una aproximación (14). Para que tenga sentido la utilización de dicha fórmula, debe obtenerse una muestra probabilística de la población; es solamente válida para variables binomiales, proporciones mayores de 0,05 y menores de 0,95. En la mayoría de los estudios de casos y controles no sería aplicable; ni siquiera en el supuesto de que obtuviéramos una muestra probabilística es suficiente ya que la prevalencia de la enfermedad no podría ser inferior del 0,05%. Éste es otro ejemplo de la mitología que se está creando en ciencias de la salud a partir de principios estadísticos utilizables en circunstancias muy concretas. Se utilizan en toda clase de situaciones sin preocuparse de los grandes errores cometidos, olvidando que no tienen ningún valor fuera de los ámbitos y condiciones establecidos. Lo curioso es que, a partir de la fórmula anterior, se calculan curvas de rendimiento según el número de casos y controles, dando la impresión de una alta precisión, calculando errores y expresiones transmitidas de artículo en artículo y de libro a libro que no sirven absolutamente para nada fuera de los campos de aplicabilidad definidos por la estadística, que en los estudios de casos y controles casi nunca se cumplen. El lector debe de tener presente que una metodología científica rigurosa, consiste en la claridad de objetivos y conocer la limitación de las conclusiones. En muchas ocasiones es necesaria la utilización de cálculos estadísticos, pero no debe de impresionarse ni considerar un estudio más riguroso por utilizar una parafernalia matemática compleja, en frecuente que ocurra lo contrario. La cosa se complica cuando alguno de los controles en el transcurso del estudio se convierte en caso. Algunos autores dicen que debe ser considerado caso, otros que control, y algunos autores las dos cosas a la vez. 4
Alfa es la probabilidad de cometer error tipo I y (3, la probabilidad de cometer error tipo dos en un contraste de hipótesis debido a que el estudio se realiza por muestreo ver capítulo 2.
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
145
Ventajas e inconvenientes. Las ventajas de los estudios de casos y controles son las siguientes: Relativamente baratos. Se pueden realizar con relativa rapidez. Muy útiles en enfermedades raras. Útiles en epidemias. Los principales inconvenientes son los siguientes: No representativos. No se puede calcular incidencia. Abundantes sesgos. No se pueden cuantificar con precisión los sesgos. Análisis del riesgo. Los estudios de casos y controles no proceden de una muestra probabilística de la población. Las pruebas de significación estadística no tienen ningún sentido, ni el cálculo de intervalos de confianza tampoco. No obstante, por si algún lector quiere realizarlas; como prueba de significación estadística se emplea la prueba de la x2 de MH definida en la expresión (4-10), y el cálculo de intervalos de confianza puede realizarse mediante una fórmula sugerida por Miettinen; ver expresión (4-22). En la inmensa mayoría de los estudios de casos y controles no se puede cuantificar con exactitud el riesgo. Ya hemos comentado en otras ocasiones que el OR es una aproximación (a veces muy lejana) del riesgo relativo. Hay libros con páginas enteras sobre cómo calcular intervalos de confianza más exactos, cruce de artículos entre matemáticos, como si un estudio de casos y controles fuera una población de números perfectamente muestreada donde podemos calcular intervalos de confianza con aproximación a la millonésima, cuando en este tipo de estudios no somos capaces de acertar las unidades. En ocasiones se exhiben algunos estudios de casos y controles que predijeron resultados que luego se comprobó que eran ciertos con bastante exactitud. Esto es como si un jugador de golf novato se pasa el día entero intentando meter alguna pelotita en el hoyo y por la noche le enseña a los amigos una película donde sólo se muestran las dos o tres veces que acertó en todo el día, y encima les relata los milímetros de error que había previsto, ocultándoles los cientos de fallos y las decenas de metros de error que había tenido en otras ocasiones. Los estudios de casos y controles, son muy útiles, en ocasiones insustituibles, como en enfermedades raras, nuevas enfermedades y algunas epidemias. Pero son útiles para identificar factores de riesgo ¡y no es poco!, porque, en el caso de factores de riesgo específicos, estos estudios por si solos pueden resolver el problema, pero lo que no podemos es cuantificar con exactitud el riesgo ni calcular proporción atribuible ni nada por el estilo. Se debería realizar un con-
146
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
trol de calidad sobre las medidas de riesgo cuantificadas y calcular los errores cometidos, pero para eso hay que estudiar o todos los estudios de casos y controles realizados en un período de tiempo, o una muestra tomada al azar, pero lo que no puede ser demostrativo es elegir los que sí acertaron y a partir de ellos explicarnos las bondades de métodos de cuantificación muy discutibles. En estos estudios podemos calcular el OR y cuantificarlo, a fin de identificar factores de riesgo y nada más ni nada menos. Una pregunta a los expertos en casos y controles si usted hubiera prescindido de las cuantificaciones del riesgo y del cálculo de intervalos de confianza, ¿en qué se hubieran afectado sus conclusiones y posteriores comprobaciones? Posiblemente en nada. Ejemplo 5.5. En una ciudad aparece un brote de gastroenteritis aguda y en un estudio de casos y controles se trata de identificar el factor causal; entre los factores en estudio se encuentra la ingesta de ostras frescas. En la Tabla 5.6 se expresan los resultados obtenidos:
Tabla 5.6.
Como el OR es mucho mayor que 1, concluimos que existe una fuerte asociación entre la ingesta de ostras y la gastroenteritis. El paso siguiente sería identificar en las ostras el germen causal, lo que confirmaría definitivamente que las ostras fueron el vehículo de la infección. LECTURAS RECOMENDADAS Kleinbaum DG, Kupper L, Morgenstern H. Epidemiologic Research. Editor Carol Beal, 1982. Hennekens CH, Buring JE. Epidemiólogy in medicine, Litle Brown, 1987, Stephen B, Hulley, Steven R, Cummings. Diseño déla investigación Clínica, Doyma 1993.
INTRODUCCIÓN AL DISEÑO. TIPO DE ESTUDIOS
147
BIBLIOGRAFÍA 1. William G. Cochran técnicas de muestreo. México CECSA, 1987. 2. Mills J.L. Data torturing, The New Eng J of Med, 1993; 329:1196-1199. 3. Fletcher RH, Fletcher SW. Clinical research in general medical journals: a 30 years perspective.N Eng J Med 1979; 301:180-183. 4. Alvarez- Dardet C et al. La investigación clínica en España: tipos de diseños utilizados. Med Clin 1987; 89:221-223. 5. Moses LE. The series of consecutive cases as a device for assesing outcomes of intervention. N Engl J Med 1985; 311:705-710. 6. Michel M, Boyce WT, Wilcon AJ. Biomedical bestiary: an epidemiologic guide to flaws and fallacies in the medical literature. Boston, Little, Brown and Co, 1984. 7. BerwickDonaldM. When doctors meet numbers. The American Joumal of Medicine, 1981; 71:991-997. 8. Brown, G.W. Standard deviation, standard error. A72 J Child, 1982; 136:937-942, 9. Alvarez Cáceres R. Estadística multivariante y no paramétrica con SPSS, Madrid Díaz de Santos, 1994. 10. Doll R, Hill, A B. A study of the aethiology of carcinoma of the lung. BrMed J 1952; 2:1271-1286. 11. Boston CoUaborative Drug Surveillance program, Reserpine and breast cancer. Lancet, 1974; 2:669. 12. Heinonem OP et al. Reserpine use in relation to breast cancer. Lancet, 1974; 2:675. 13. Rauwolfia derivatives and cancer. Lancet, 1974; 2:701, 14. Martin Andrés A, Luna del Castillo J de D, Bioestadística para las ciencias de la salud. Madrid, Ediciones Norma, 1989, 264. 15. Lubin J H, Gail MH. Biased selection of controls for case-control analyses of cohort studies, Biometrics 1984; 40:63-75.
Capítulo 6 VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
El tablero de ajedrez es el mundo. Las piezas son los fenómenos del universo, y las reglas del juego eso que denominamos leyes de la naturaleza. Nosotros no vemos al jugador que hay al otro lado. Sabemos que su juego es leal, justo y paciente. Pero también sabemos, a costa nuestra, que jamás perdona una equivocación o hace la mínima concesión a nuestra ignorancia. Aldous Huxley.
En este capítulo se analizarán los errores que se pueden cometer al realizar y analizar los resultados de un trabajo científico. Estos errores podemos dividirlos en dos grupos: los estadísticos, debidos al azar, y los errores metodológicos, a los que denominaremos sesgos. Los sesgos fraudulentos en los que el autor modifica voluntariamente los resultados, y el sesgo de publicación se comentarán en el Capítulo 13. El capítulo termina con una discusión sobre la validez de los estudios en ciencias de la salud: validez interna y validez externa. Se recomienda al lector estudiar detenidamente el presente capítulo, ya que antes de aceptar las conclusiones de cualquier trabajo científico es necesario asegurarse de que no existen sesgos, y de que los márgenes de error estadístico son aceptables. ERRORES DEBIDOS AL AZAR Al realizar un estudio debe quedar perfectamente definida la población objetivo. Si ésta es inaccesible1, o la precisión requerida podemos alcanzarla a 1
El término inaccesible significa que no podemos estudiar la población entera.
150
E L MÉ TODO CIÉ NTÍFICO E N LAS CIÉ NCIAS DE LA SALUD
partir de una muestra, realizaremos el estudio a partir de una muestra de la población objetivo. Una gran parte de los errores cometidos en los estudios científicos en ciencias de la salud son debidos a errores en los conceptos más elementales de la estadística, población, muestra y extrapolación de los resultados obtenidos de ésta. Es frecuente ver en algunas publicaciones que si la población objetivo son, por ejemplo, los pacientes españoles afectados de tuberculosis, muestreando los afectados de esta enfermedad atendidos en un determinado hospital los resultados obtenidos son consideradas representativos de todos los pacientes españoles. Esto no tiene ninguna base científica ni estadística. Podría considerarse seudocientífico, pero me inclino más por considerarlo mitológico (1-2). En el Capítulo 1 revisamos el problema de la inducción y los problemas filosóficos derivados de extrapolar el conocimiento de una parte a otra parte mayor o al todo. Por otra parte, es sabido que entre los distintos centros sanitarios hay diferencias en supervivencia, características clínicas, nivel socioeconómico de los afectados, etc. En un mismo centro sanitario, cuando hay dos o más servicios que atienden la misma patología es frecuente encontrar diferencias entre ellos, e incluso dentro de un mismo servicio en muchas ocasiones hay diferencias notables entre los trabajos realizados por los distintos facultativos. En el Capítulo 2 comentamos la función de la estadística y los principios fundamentales del muestreo, algunos de los cuales hemos repetido en otros capítulos. Uno de los principios fundamentales del muestreo es que los resultados obtenidos a partir de una muestra estadísticamente representativa son únicamente utilizables para estimar parámetros de la población muestreada. Para que un individuo pueda considerarse que pertenece a la población muestreada, antes de la selección de la muestra la probabilidad de ser incluido en ella debe ser mayor de cero. Si muestreamos los pacientes de un hospital de la ciudad de Barcelona, los datos obtenidos son representativos y sus resultados extrapolables a la población de pacientes del hospital de donde se extrajo la muestra; ni siquiera son estadísticamente representativos de todos los pacientes de la ciudad de Barcelona. Es frustrante que esto sea así, pero las cosas son como son, no como nosotros queremos que sean. Los estudios por muestreo realizados a partir de una determinada población son referibles como evidencia estimada a la población muestreada, aunque como hipótesis de trabajo podemos suponer que en otras poblaciones de características similares los resultados serán parecidos. En el párrafo anterior comentamos que los resultados obtenidos a partir de una muestra solamente podían ser referidos a la población muestreada, pero ni siquiera conocemos con exactitud los parámetros de ésta. Cuando realizamos un estudio por muestreo, pretendemos estimar algún parámetro de la población muestreada o contrastar hipótesis sobre ella. En ambas ocasiones los resultados pueden ser erróneos (aun asumiendo que el diseño experimental y las medidas realizadas en el estudio son perfectas) debido a la influencia del azar.
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
151
Precisión estadística En un estudio por muestreo, al grado de exactitud con que podemos conocer los parámetros poblacionales le denominamos precisión. Supongamos que en una ciudad hay cien mil habitantes, de los cuales el 55% son mujeres y el 45% hombres; en la población hay cincuenta y cinco mil mujeres y cuarenta y cinco mil hombres. Si podemos estudiar a toda la población, el resultado obtenido será exacto. Si desconocemos el porcentaje de personas de ambos sexos y queremos estimarlo, debemos extraer una muestra probabilística, supongamos que mil personas pueden considerarse una muestra suficiente para la precisión requerida en el trabajo. Al obtener las mil personas de la población podría ocurrir que las mil fueran hombres o las mil mujeres. La probabilidad de que esto ocurra es muy pequeña pero posible; en éste caso, las estimaciones que realizaríamos sobre la población serían erróneas. Lo más probable es que la proporción muestral obtenida sea parecida a la población, pero siempre es posible obtener un resultado muy alejado del verdadero por influencia del azar. Supongamos que, al realizar el estudio mediante la muestra de mil habitantes, hemos obtenido una proporción de hombres del 47% y una proporción de mujeres del 53%; para extrapolar los resultados a la población, calculamos los intervalos de confianza para una proporción mediante la siguiente expresión:
En la expresión anterior, P es la proporción poblacional, es el parámetro que queremos estimar. P es la proporción muestral. Z es la abscisa de la curva normal tipificada. Alfa indica el error de precisión admitido; si alfa es 0,05, indica que admitimos un 5% de probabilidad de que el parámetro poblacional que queremos estimar no esté en el intervalo calculado. Un 5% de probabilidad de error implica una confianza del 95%; esto significa que hay un 95% de probabilidad (de confianza) de que el parámetro estimado se encuentre en el intervalo calculado. Para una confianza del 95%, que es la más utilizada, el valor de Z es 1,96. El tamaño de la muestra es n. La expresión anterior es válida si se cumplen las siguientes condiciones: I. La proporción es mayor de 0,05 y menor de 0,95. II. El tamaño de la muestra es mayor de 50. III. La expresión (6-1) es válida en el caso de que el tamaño de la muestra sea pequeño en relación al de la población. Una muestra podemos considerarla pequeña en relación al tamaño de la población, cuándo aquella suponga menos de un 5% del tamaño de ésta. En el
152
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
ejemplo anterior, el tamaño poblacional es cien mil y el tamaño de la muestra mil. Como el tamaño de la muestra supone menos del 5% del tamaño de la población, en las estimaciones podemos considerar a la población estadísticamente infinita y aplicar la fórmula (6-1). La expresión general para el cálculo de un intervalo de confianza para una proporción que cumple las condiciones antedichas es:
En la expresión anterior, TV es el tamaño de la población. Observe que cuando N es grande respecto a n, el valor de la raíz cuadrada añadida es próxima a uno. Si consideramos el valor de dicha raíz igual a uno, obtenemos la expresión (6-1). La expresión (6-2) es válida para todos los tamaños muéstrales. Aunque más conocida, la expresión (6-1) es un caso particular de la (6-2), que es la general. Al aplicar una expresión estadística debemos asegurarnos de que las condiciones de aplicabilidad son adecuadas. En ciencias de la salud hay muchos artículos en revistas y en libros en los que se utilizan expresiones inadecuadas. Las expresiones estadísticas han sido calculadas en función de una serie de supuestos que, si no se cumplen los cálculos realizados, no tienen ningún valor. Las expresiones anteriores no serían válidas para estimar la proporción de diabéticos en una población. Dicha proporción suele ser del 2% aproximadamente y, por lo tanto, no se cumpliría la primera de las condiciones de aplicabilidad. Siguiendo con el ejemplo anterior, estimaremos la proporción de mujeres en la población muestreada. En la muestra hay un 53% de mujeres, teniendo en cuenta que el tamaño de la muestra es mil.
A partir de la expresión anterior, la proporción poblacional tiene un 95% de probabilidad de que se encuentre en el intervalo delimitado por: 0,53 ± 0,03 P (0,50-0,56) 95% de confianza. Hay un 95% de probabilidad de que en la población muestreada la proporción de mujeres esté comprendida entre el 50 y el 56%. Si la muestra hubiera sido mayor, la amplitud del intervalo sería menor y, por tanto, aumentaría la precisión. Observe que el error de estimación 0,03 se obtiene multiplicando 1,96 por el error estándar de la proporción muestra!.
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
153
Observe que en el cálculo de un intervalo de confianza debe figurar el parámetro muestral ± Z2 o la t de Student dependiendo de los casos, sin embargo, en la inmensa mayoría de los casos, en las publicaciones científicas, los parámetros muéstrales se expresan con el símbolo ± seguido del error estándar o la desviación típica, a alguien se le olvidó el valor de la Z (o de la t de Student, dependiendo de los casos), y este error de notación se ha perpetuado, siendo uno de los elementos más comunes de la mitología estadística desarrollada en las ciencias de la salud. Cuando estimamos un parámetro poblacional a partir de una muestra, a pesar de que el estudio se haya realizado con el máximo rigor tenemos una probabilidad determinada de error en las estimaciones realizadas. Podemos aumentar la precisión de las estimaciones aumentando el tamaño de la muestra. Cuando realizamos un estudio por muestreo, ni siquiera los parámetros de la población muestreada pueden ser calculados con exactitud. El pretender extrapolar las estimaciones a otras poblaciones de las que podemos suponer muchas cosas, pero de las que no tenemos datos, no tiene ningún fundamento, Los ejemplos anteriores han sido basados en la estimación de proporciones y las fórmulas anteriores son válidas para ellas, Los parámetros que pueden ser estimados son muchos y cada uno tiene su correspondiente expresión para el cálculo de intervalos de confianza. Podemos estimar medias coeficientes de regresión, coeficientes de correlación, etc. Al realizar una estimación, compruebe las condiciones de aplicabilidad de la expresión empleada.
Contraste de hipótesis El contraste de hipótesis estadísticas es uno de los capítulos más importantes de la estadística analítica. En este apartado comentaremos los aspectos más importantes, pero recomendamos al lector que estudie detenidamente la teoría del contraste de hipótesis en cualquier libro de estadística. En el Capítulo 2 se dedicó un apartado al contraste de hipótesis. Una hipótesis estadística es una suposición realizada sobre el comportamiento de un parámetro estadístico poblacional o la forma de relacionarse dos o más variables en una población determinada. Si pudiéramos estudiar la población entera, no sería necesario aplicar ninguna prueba de significación, puesto que conoceríamos el valor exacto de los parámetros estadísticos de las variables estudiadas y la relación existente entre ellas. Supongamos que tenemos la hipótesis de que las glucemias básales son distintas en dos poblaciones, a las que denominaremos A y B. Las poblaciones son inaccesibles y la decisión debemos tomarla seleccionando dos muestras representativas de ambas poblaciones y, a continuación, realizar una prueba de comparación de medias. Si las poblaciones pudieran estudiarse en su totalidad y las glucemias poblacionales fueran 100 y 99 mg/100 ml, no sería necesario 2
Z es la abscisa de la curva normal tipificada.
154
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
realizar ningún contraste de hipótesis. Las glucemias básales son distintas y su diferencia es de 1 mg/100 mi. En el caso del muestreo plantearíamos las siguientes hipótesis estadísticas: Ho Las glucemias básales medias son iguales µA = µB H1 Las glucemias básales medias son distintas µA ≠ µB a es la probabilidad de cometer un error tipo I.
α.
Supongamos que, al realizar el contraste de hipótesis, rechazamos la hipótesis nula y concluimos que las diferencias entre las glucemias básales medias son estadísticamente significativas3 pero, en realidad, las medias poblacionales son iguales y las diferencias encontradas son debidas a los factores aleatorios inherentes a todo muestreo. En el supuesto anterior habríamos cometido un error por azar. Siempre que en un contraste de hipótesis rechacemos la hipótesis nula, debemos tener en cuenta que podemos estar equivocados por efecto del azar. Al error aleatorio que consiste en rechazar la hipótesis nula por azar le denominamos error tipo I, y la probabilidad de cometerlo es alfa, cuyo valor habitualmente es 0,05. Otra posibilidad es que las medias poblacionales sean distintas pero, por efectos del muestreo, los datos muéstrales no permitan rechazar la hipótesis nula y tengamos que concluir erróneamente por efecto del azar que no tenemos evidencia estadística de que las medias poblacionales sean distintas. Al error aleatorio que consiste en no rechazar la hipótesis nula, cuando la realidad poblacional es distinta a la indicada por dicha hipótesis, le denominamos error tipo II; la probabilidad de cometer este error es p. Siempre que no podamos rechazar una hipótesis nula en un contraste de hipótesis, hay que tener en cuenta la posibilidad de que estemos cometiendo un error tipo II y debemos calcular β. En prácticamente la totalidad de los casos en que contrastemos hipótesis por muestreo, no conoceremos los verdaderos valores poblacionales y, por lo tanto, nunca sabremos si el resultado del contraste fue cierto o no, aunque sí conoceremos la probabilidad implicada en la decisión tomada. Los pruebas de contraste de hipótesis solamente tienen sentido en los estudios por muestreo y las conclusiones solamente son válidas sobre la población muestreada, constituyendo una evidencia estimada, la cual podemos considerar hipotéticamente similar en poblaciones de características parecidas.
ERRORES METODOLÓGICOS. SESGOS En el apartado anterior hemos comentado los errores debidos al azar, también denominados errores estadísticos, los cuales son inherentes a los estudios 3
Diferencias estadísticamente significativas quiere decir que existe la suficiente evidencia estadística para considerar que dos parámetros poblacionales son distintos, aunque la diferencia sea pequeña. En el Capítulo 2 se comentó este tema con amplitud y ejemplos.
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
155
por muestreo y son posibles aunque la selección de la muestra y las medidas realizadas en los individuos seleccionados hayan sido perfectas. Otros errores pueden cometerse por defectos metodológicos; estos pueden ser de tres tipos fundamentalmente: I. Sesgos de selección. Inadecuada selección de la muestra, que no es representativa de la población objetivo y, por tanto, las conclusiones no son referibles a ella. II. Sesgos de información o medida. Las medidas realizadas no son válidas por defecto en los instrumentos de medida o por diferencias en las medidas realizadas por el observador u observadores, III. Sesgo de confusión. En las conclusiones obtenidas a partir del análisis de los resultados, el sesgo más importante es el de confusión. Básicamente, este sesgo se produce cuando achacamos a una variable un efecto que en realidad no es debido a ella.
Sesgos de selección Si en el proceso de selección de la muestra, independientemente del azar4 se produce una representación en la muestra proporcionalmente distinta de lo que ocurre en la población, estamos ante un sesgo de selección. En el caso de que queramos comparar dos grupos entre sí, y para ello asignemos aleatoriamente individuos a dos grupos a partir de una población previamente común, como en algunos estudios de cohortes ensayos clínicos, etc., debemos tener especial atención en que ambas muestras carezcan de defectos en la selección de los individuos. En ciencias de la salud hay una serie de sesgos de selección conocidos; a continuación comentamos los más importantes. Los sesgos de selección más importantes son los siguientes: I. Autoselección, muestras compuestas por voluntarios. II. Sesgo de Berkson. III. Interpretación errónea de asociaciones. IV. Sesgos de diagnóstico. I. Autoselección. Uno de los sesgos más conocidos es la autoselección. Si son necesarios individuos para realizar un determinado estudio científico, y la muestra en parte o en todo se ha constituido con voluntarios, podemos tener una representación distorsionada respecto a la población de referencia. Habitualmente, las personas que puedan tener alguna relación con la enfermedad, antecedentes familiares, prácticas de riesgo, etc., pueden sentir más o menos interés en participar en el estudio que las personas sin antecedentes 1
La representación distorsionada en la muestra de ciertas características respecto a la población muestreada puede deberse al azar, lo que daría lugar a errores en la estimación y en el contraste de hipótesis, Estos errores debidos al azar fueron estudiados en el apartado anterior, Los sesgos a los que nos referimos en este apartado son debidos a causas distintas.
156
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
familiares o prácticas de riesgo. Como resultado, podemos tener una proporción aumentada o disminuida de los expuestos y de los enfermos respecto a la población general. Por ejemplo, supongamos que en una ciudad se quiere realizar un estudio sobre isquemia coronaria, para lo cual mediante los medios de comunicación social se piden voluntarios de 30 a 65 años, con los que se realizarán pruebas electrocardiográficas de esfuerzo. Entre los voluntarios habrá personas que no tengan ninguna relación con la enfermedad, pero aquellos que hayan tenido familiares afectados de insuficiencia coronaria o infarto de miocardio, estarán más interesados en participar. También personas que crean que su modo de vida pueda estar relacionado con la enfermedad, como personas sedentarias, grandes fumadores, etc. De esta manera, al estar proporcionalmente más representados en la muestra que en la población algunos grupos de riesgo, las estimaciones sobre la prevalencia de la enfermedad estarán sobredimensionadas. Si los afectados de una determinada enfermedad pueden ser socialmente repudiados, como los portadores del virus HIV, al solicitar en una gran empresa voluntarios para realizar un estudio, podría ocurrir que los que tengan o hayan tenido alguna práctica de riesgo no se presenten voluntarios; de esta manera la estimación de los individuos HIV+ sería menor de la que realmente es. Deben evitarse los estudios realizados a partir de muestras de voluntarios. II. Sesgo de Berkson. Otro sesgo muy importante es el de Berkson (3), el cual consiste en considerar que los individuos atendidos en un hospital son representativos como muestra de la población de referencia del hospital. Actualmente parece evidente que los pacientes que son atendidos en un centro hospitalario no son representativos de la población general. A pesar de que este sesgo fue descrito en 1946, hasta finales de la década de los setenta no empezó a tomarse en consideración. III. Interpretación errónea de asociaciones. Un sesgo muy frecuente es considerar como factor de riesgo al que estadísticamente, se presenta en mayor proporción entre los afectados de una determinada enfermedad que entre los no afectados. En ocasiones puede ocurrir que el factor sea de protección y no de riesgo. Un ejemplo muy conocido es el debido a Rogentine (4) et al. Este autor publicó en 1972 un artículo en el que afirmaba que el antígeno HLA-A2 era un factor de riesgo para la leucemia linfocítica aguda. Esta afirmación estaba basada en que los pacientes afectados de leucemia linfocítica aguda (LLA) tenían en mayor proporción este antígeno que los no afectados. Los mismos autores (5) en 1973 publicaron otro artículo en el que afirmaban lo contrario: que el HLA-A2 era un factor de buen pronóstico y los pacientes afectados de LLA que tenían el antígeno HLA-A2, vivían más tiempo que los que no tenían dicho gen. De esta manera, entre los pacientes de LLA vivos era más frecuente encontrar el antígeno HLA-A2 que en los que no lo tenían, puesto que estos fallecían antes.
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
157
En el Capítulo 4 al hablar de los estudios transversales comentamos que cuando el factor a estudiar era un gen, hecho que en el futuro será cada vez más frecuente, podíamos calcular riesgo relativo; siempre y cuándo pudiéramos conocer la proporción de nacidos con y sin el gen, y teniendo especial atención al control de sesgos. IV. Sesgo de diagnóstico. El sesgo diagnóstico (6) consiste en prestar una mayor atención, respecto a una determinada enfermedad, a los pacientes con factores de riesgo conocidos. En clínica es muy frecuente que, al conocer que un paciente tiene uno o más factores de riesgo para una determinada enfermedad, se le preste más atención diagnóstica que si no tiene factores de riesgo conocidos. Si un paciente acude a un servicio de urgencias de un hospital por dolor torácico, es más fácil que sea ingresado si es fumador, hiperlipémico o diabético que si no tiene factores de riesgo conocidos. En un estudio sobre dolor torácico a partir de pacientes ingresados la asociación con algunos factores de riesgo aparecerá sobredimensionada, debido a que la selección de los pacientes a ingresar, estaba en parte condicionada por la presencia o ausencia de ciertos factores.
Sesgos de información o medida Una vez hecha la selección, pueden cometerse importantes errores si la medida de las variables de interés en el estudio no son realizadas adecuadamente. Los errores en las medidas son muy frecuentes y pueden dar lugar a conclusiones equivocadas. Los sesgos de información o medida pueden ser debidos a los factores siguientes: I. II. III. IV
Observador u observadores. Instrumentos de medida. Memoria. Diagnóstico.
I. Observador u observadores. Si el estudio lo realiza un solo observador, cuando las medidas se realizan mediante un instrumento de medida y, por tanto, de forma objetiva, como medir la tensión arterial sistólica y diastólica de un paciente, las condiciones en las que se realizan las medidas deben ser siempre las mismas ya que pequeñas variaciones, como el que las tomas de tensión se realicen con personas sentadas en unos casos o tumbados en otras, pueden alterar los resultados. La hora en que se realicen las medidas y el estado emocional del paciente pueden influir en muchas variables biológicas. Deben tenerse en cuenta todos los detalles que puedan influir en el valor de la variable que se esté evaluando. En ciencias de la salud es muy frecuente que algunas variables sean medidas subjetivamente por el observador, como la intensidad de un soplo cardíaco o de sibilancias bronquiales, clasificar en normales o anormales
158
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
placas torácicas, etc. Aunque intervenga un solo observador, si revisara un grupo de radiografías en dos fechas distintas, no las clasificaría del mismo modo. Un trabajo (7) muy conocido sobre este tema consistía, entre otras cosas, en que un mismo observador clasificara un grupo de fotografías sobre fondo de ojo en dos apartados: en retinopatía ausente o leve y en retinopatía moderada o grave. Las mismas fotografías le fueron mostradas en dos fechas distintas, pidiéndole que las clasificara en ambas ocasiones. Aunque parezca increíble, el mismo observador sólo tuvo un porcentaje de coincidencias del 88%. En una clasificación tan simple, solamente con dos categorías, y a partir de fotografías, un 12% fueron clasificadas de distinta manera en dos ocasiones distintas. El ejemplo anterior indica que al realizar un estudio científico todas las precauciones son pocas y que aunque haya solamente un observador, deben marcarse unos criterios de medida lo más objetivos posible y controlar la concordancia mediante un índice adecuado como el Kappa (ver Capítulo 7). Si en el trabajo intervienen varios observadores, deben de ponerse de acuerdo en cómo realizar las medidas, y en caso de que éstas sean subjetivas, deben extremarse las precauciones y definir claramente los criterios que aplicar. Cuando en un estudio intervengan varios observadores, una vez definidos los criterios de medida debe comprobarse que la concordancia entre ellos es adecuada mediante alguna medida de concordancia como el índice Kappa. En el estudio citado anteriormente, en el que un observador debía clasificar un grupo de fotografías en dos fechas distintas, también se realizó una prueba en la que el mismo grupo de fotografías de fondo de ojo eran clasificadas por dos investigadores distintos. En los mismos dos grupos descritos en el caso de un observador, solamente hubo un 78% de coincidencias. La medida de concordancia entre varios observadores, o de uno consigo mismo, más utilizada es el índice Kappa. En el Capítulo 7, que trata sobre el diagnóstico ampliaremos detalles sobre la importancia de la concordancia en las medidas realizadas en un trabajo científico. II. Instrumentos de medida. Cuando en un trabajo de investigación se utilizan instrumentos de medida, estos deben calibrarse antes de comenzar el trabajo y al menos al comienzo de cada sesión de trabajo, Si en el trabajo intervienen varios observadores, deben realizarse estudios de concordancia de los instrumentos que intervienen en el estudio. Supongamos que en un estudio una de las variables que interesa conocer es el nivel de glucemia basal y en el trabajo participan de forma simultánea siete centros sanitarios. No debe asumirse sin comprobarlo que los siete aparatos miden lo mismo. Aunque sean de la misma marca y modelo, pequeñas diferencias en las medidas, pero de forma continua y en el mismo sentido, pueden ser suficientes para alterar los resultados estadísticos del trabajo. Una forma de estudiar la concordancia entre aparatos es a partir de controles estandarizados3. Si sabemos que
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
159
en un suero determinado hay exactamente 100 mg/100 ml de glucosa, podemos probar si los siete aparatos miden lo mismo. En caso de que haya diferencias importantes se debe evaluar la conveniencia de eliminar algún aparato del estudio. Siempre que ello sea posible, las medidas deben realizarse en el mismo aparato, por ejemplo, en el caso de medidas de parámetros bioquímicos debe tratarse de realizar las medidas de todos los sueros en el mismo aparato; congelando sueros y mediante unas adecuadas condiciones de transporte, en un mismo laboratorio realizar las medidas correspondientes a todos los centros. El dar por supuesto que no existen diferencias en las medidas realizadas por todos los instrumentos de medida que intervienen en un estudio científico es una importante fuente de errores. Mención especial merecen los estudios en los que el instrumento de medida es un cuestionario. Si queremos medir calidad de vida, satisfacción con un determinado servicio, etc., el instrumento de medida suele ser un cuestionario, que como todo instrumento de medida debe ser calibrado; en el caso de los cuestionarios la calibración se denomina validación. Un cuestionario, aunque haya sido elaborado con la mejor intención, no podemos saber si mide lo que nosotros queremos medir mientras no lo comprobemos, para lo cual debemos pedir que lo rellenen personas en las que conocemos previamente la variable que debe medir el cuestionario. Un trabajo realizado con un cuestionario no validado, no tiene valor científico. En el caso de complejas evaluaciones de los sistemas de salud, cualquier sistema de medida utilizado debe ser previamente validado, sin este requisito, las conclusiones de una evaluación por razonada que esté no tendrá valor científico. III. Memoria. Son muy frecuentes los estudios en los que se recoge información pidiendo a los individuos incluidos en el mismo que recuerden si en el pasado estuvieron expuestos y en qué grado a un determinado factor, Es frecuente que los individuos de un grupo tengan mayor motivación en el recuerdo que los del otro grupo. Si trabajamos en un estudio de casos y controles en el que los casos son mujeres con malformaciones congénitas, éstas tendrán más facilidad de recordar la ingesta de fármacos u otras sustancias que las mujeres de control, las cuales estarán menos motivadas. IV. Diagnóstico. El aumento del interés por algunos de los individuos de un estudio debido a sus características individuales puede aumentar la asociación entre factores y enfermedad. El diagnóstico de una determinada enfermedad puede ser más probable si sabemos que un individuo tiene factores de riesgo para ella. Si se realiza una revisión ginecológica rutinaria a una mujer 5
En un control estandarizado por un laboratorio de referencia que emplea técnicas de medida con la máxima precisión, se conoce la concentración casi exacta de glucosa o la sustancia que se quiera probar.
160
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
multípara, el ginecólogo pondrá más atención que en una nulípara. En valoraciones de pruebas funcionales respiratorias puede ponerse más énfasis en los fumadores que en los no fumadores, etc. El sesgo diagnóstico de selección y el de información son conceptualmente distintos. En el primero, el exceso de celo debido al conocimiento de ciertos factores influía en la selección; en el segundo, los individuos ya están seleccionados, pero el mayor interés por individuos con unas características determinadas puede ocasionar un aumento del celo diagnóstico en uno de los grupos y producirse un sesgo de medida.
Sesgo de confusión Uno de los sesgos más sutiles y difícil de controlar es el de confusión. Este sesgo consiste en achacar un efecto determinado a una variable cuando dicho efecto es menor o mayor que el calculado e incluso nulo. En realidad, parte o todo el efecto achacado a la variable es debido a otro factor que, al estar asociado con la primera variable, confunde la interpretación de los resultados. A este factor se le denomina factor de confusión. Los efectos del sesgo de confusión son devastadores ya que podemos considerar como factores de riesgo variables que no tienen ninguna influencia, retrasándose la identificación de los auténticos factores de riesgo, Evitar el sesgo de confusión en muchas ocasiones no es fácil. Siempre hay que pensar en posibles factores de confusión antes de la recogida de resultados, a fin de tener la información necesaria para un análisis completo de los datos y tratar de identificarlos. Si en un determinado estudio se ha evidenciado que una variable (A) está asociada a una enfermedad (E) y creemos que la variable (C) es un factor de confusión debemos realizar un análisis estratificado estudiando de nuevo la asociación entre la variable A y la enfermedad E para los expuestos y no expuestos al factor C por separado. Si el valor de la asociación es distinto de la calculada en el análisis crudo6, debemos comprobar si C es un factor de confusión. Si C es un factor de confusión deben cumplirse las siguientes condiciones: I. En un análisis en el que intervengan solamente los no enfermos, debe existir asociación entre los factores A y C. La eliminación de los enfermos del estudio de asociación entre los factores A y C es para evitar que la asociación entre los factores A y C con los enfermos pueda confundir. II. En un análisis en el que intervengan solamente los no expuestos al factor A, debe existir asociación entre los expuestos al factor C y los enfermos. Los expuestos al factor A son eliminados en este análisis, a fin de evitar que la asociación entre los expuestos al factor C y los enfermos, con los expuestos al factor A pueda confundir. 6
Análisis crudo es el realizado con todos los datos, sin estratificaciones.
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
161
III. El factor C no debe ser un eslabón en la cadena causal entre el factor A y la enfermedad. Control del sesgo de confusión El control de los factores de confusión es muy complejo. En la actualidad, muchos de los factores de riesgo conocidos no son tales y en el futuro iremos descubriendo los verdaderos factores de riesgo; posiblemente estos en muchos casos son genes. Los métodos a emplear para controlar en lo posible los factores de confusión son los siguientes: I. Recoger información sobre las variables confundidoras. En el control de los sesgos de confusión lo más importante es pensar que una variable puede ser un factor de confusión. Si la muestra es grande, la selección de la misma se realiza con el máximo rigor y el control de la información recogida se efectúa estrictamente, pero no hemos recogido información acerca de una o más variables que en el análisis de los datos pueden ser necesarias para estudiar factores de confusión; estos, en la mayoría de los casos, no podrán ser confirmados. II. Precisión y ausencia de sesgos. Una muestra grande y un exhaustivo control de los posibles sesgos de selección y de información son condiciones necesarias para un adecuado control de los sesgos de confusión. Una de las técnicas analíticas más empleada en el control de los sesgos de confusión es el análisis estratificado. En los estudios por muestreo en los que se realicen análisis estratificados, la muestra debe ser grande, a fin de mantener una potencia estadística en los sucesivos análisis, III. Apareamiento. El apareamiento es muy utilizado en algunos estudios; consiste en seleccionar por cada caso uno o varios controles según las características del caso. Es más correcto el término apareamiento que equiparamiento; este último sería correcto en los apareamientos uno a uno. IV. Análisis estratificado. El análisis estratificado es el método mediante el
cual tradicionalmente se han estudiado los sesgos de confusión. Actualmente va siendo desplazado por los métodos estadísticos multivariantes. El análisis estratificado consiste en realizar un estudio estadístico, una asociación en este caso, para los individuos que cumplan unas condiciones determinadas. Por ejemplo, si en un estudio analizamos la asociación entre el tabaco y la bronquitis crónica, el análisis con todos los datos es el análisis crudo; un análisis estratificado sería estudiar la asociación entre las dos variables para hombres y mujeres por separado, por grupos de edad, hábitos, exposición a distintos factores, etc.
162
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El análisis estratificado es muy laborioso y poco útil cuando se quieren estudiar dos o más factores de confusión de forma simultánea, en este caso es preferible el análisis estadístico multivariante. V. Análisis estadístico multivariante7. Las técnicas de análisis multivariante como regresión lineal múltiple, regresión logística, regresión Poisson, etc., son los métodos de análisis estadístico más potentes de los que disponemos en la actualidad para controlar los sesgos de confusión. Entre otras ventajas, permiten el control simultáneo de varios factores de confusión. Ejemplo 6.2. Un equipo de investigadores tenían la hipótesis de que las personas que comen hamburguesas tienen más probabilidades de padecer colon irritable que los que no comen hamburguesas habitualmente. Para confirmar la hipótesis se realizó un estudio de seguimiento con 1.089 personas elegidas al azar en una ciudad, que al inicio del estudio no padecían de colon irritable, Los resultados8 obtenidos fueron los siguientes: ANÁLISIS DE DATOS CRUDOS
Existe una asociación estadísticamente significativa entre el comer hamburguesas y padecer colon irritable. En el análisis de factores de confusión deben realizarse pruebas de significación estadística, sí el estudio se realiza a partir de una muestra probabilística. En el análisis estratificado también. Cada estrato es una submuestra afectada por las leyes del azar, cuya influencia debemos conocer antes de analizar los resultados. Un investigador sospecha que el verdadero causante del colon irritable puede ser algún compuesto químico de los que se emplean en las salsas de mos7 Rafael Alvarez Cáceres, autor de este libro, también es autor del siguiente libro: Estadística multivariante y no paramétrica con SPSS. Aplicación a las ciencias de la salud, Madrid Editorial Díaz de Santos 1994, 8 Los datos de este ejemplo son hipotéticos.
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
163
taza con la que la mayoría de las personas aficionadas a comer hamburguesas acompañan a estas. Se decide realizar un estudio estratificado en el que se vuelve a analizar la asociación entre comer hamburguesas y colon irritable, por separado para personas que toman mostaza y que no toman mostaza. Los resultados del análisis estratificado son los siguientes: TOMAN MOSTAZA
∧
RR = 1
∧
NO TOMAN MOSTAZA
RR = 1 En el análisis estratificado desaparece la asociación entre comer hamburguesas y colon irritable. Como RR=1, el valor de χ2 no es significativo. Si RR no es significativamente distinto de uno χ2 no es significativo. En este caso desaparece por completo la asociación entre el comer hamburguesas y la enfermedad. Para sospechar que hay un factor de confusión no es necesario que la asociación inicial desaparezca. Si la medida de riesgo RR se modifica significativamente en el análisis estratificado, respecto al análisis crudo, podemos estar ante un fenómeno de confusión, de interacción o de ambos a la vez. A la vista de los resultados anteriores descartamos que el comer hamburguesas sea un factor de riesgo para padecer colon irritable y sospechamos que la mostaza o alguno de sus aditivos sea el auténtico factor de riesgo y, en este caso, un factor de confusión. Para confirmarlo, comprobaremos que se cumplen las tres condiciones descritas anteriormente para considerar a un factor como de confusión.
164
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
I. Asociación entre comer hamburguesas y tomar mostaza, realizando el análisis entre los no enfermos y evitando la posible confusión que podría haber por la asociación entre comer hamburguesas y padecer colon irritable. NO ENFERMOS
En este caso utilizamos como medida de asociación la probabilidad relativa PR, ya que RR es una probabilidad relativa cuando una de las variables es padecer una determinada enfermedad. PR indica la probabilidad relativa de que una persona coma hamburguesas con mostaza respecto a que no coma hamburguesas y tome mostaza. Existe una asociación entre comer hamburguesas y tomar mostaza, siendo mucho más probable que una persona que coma hamburguesas tome mostaza que lo haga una persona que no coma hamburguesas. II. Asociación entre tomar mostaza y padecer colon irritable, realizando el análisis entre los no comedores de hamburguesas, evitando la posible confusión que podría haber por la asociación entre comer hamburguesas y padecer colon irritable. NO COMEDORES DE HAMBURGUESAS
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
165
P< 0,0015 ∧
RR = 5,55 La prueba de significación estadística ha sido calculada mediante la prueba de Fisher (8), puesto que hay una casilla teórica menor de 5 y, por lo tanto, no son aplicables pruebas de significación estadística basadas en la distribución χ2. La tabla anterior es la experimental, el valor esperado de la primera casilla lo calculamos multiplicando 12 por 14 y dividiendo el resultado por el total de casos que es 69, el resultado es: 2.43, puesto que este valor es menor de 5 no son aplicables las pruebas de significación estadística basadas en la distribución chi cuadrado. Existe una fuerte asociación entre padecer colon irritable y tomar mostaza. III. La mostaza no es un eslabón en la cadena causal entre las hamburguesas y el colon irritable. La mostaza es un factor de confusión en el presente estudio; además, es un factor de confusión total, puesto que el riesgo que inicialmente achacábamos a comer hamburguesas ha desaparecido por completo. En otras ocasiones, el riesgo respecto al factor inicial se modifica significativamente pero no desaparece por completo. En el ejemplo 6-4 analizaremos un factor de confusión parcial. Observe los graves errores que puede ocasionar el no controlar adecuadamente los factores de confusión. En este caso podríamos haber cometido el error de considerar que el factor de riesgo era tomar hamburguesas, lo que nos habría llevado a investigar la carne y aditivos o el pan que suele acompañar a las hamburguesas, ocasionando gastos innecesarios y una gran pérdida de tiempo. Hay que profundizar en la relación entre el colon irritable y la mostaza, habrá que determinar si sólo una marca de mostaza es la causante del problema o es la mostaza en sí. En cualquier caso, nuestros estudios son una evidencia en la población estudiada; la generalización no es posible hasta que sepamos cuál es el verdadero agente causal. Supongamos que el problema lo ocasiona una determinada marca; podríamos pensar en considerar que en todas las zonas donde se consuma esa marca se ocasionará el problema, pero podría ocurrir que dicha mostaza se fabrique en varios lugares y sólo en uno se le añada el compuesto que ocasione el colon irritable. Antes de tomar decisiones fuera del ámbito del estudio, hay que comprobar que el problema es el mismo. Relación entre interacción y confusión La interacción es la respuesta en distinto grado a un mismo factor, dependiendo de los valores de una determinada variable. Por ejemplo, el riesgo de padecer tromboembolismo venoso no aumenta en el mismo grado en mujeres fumadoras que toman o han tomado anticonceptivos orales que en mujeres no fumadoras que han tomado anticonceptivos orales; en este caso hay una inte-
166
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
racción entre fumar y anticonceptivos. Si el RR de padecer tromboembolismo venoso en mujeres que toman anticonceptivos orales es distinto en el análisis estratificado para mujeres fumadoras que para no fumadoras, existe interacción. La interacción es un efecto distinto de la simple suma de dos factores de riesgo. A un factor que produce interacción se le denomina modificador del efecto. El estudio de la interacción y la confusión aparecen juntos con mucha frecuencia y es importante distinguirlos. Respecto a la interacción y a la confusión pueden darse las siguientes situaciones: I. II. III. IV
No confusión y no interacción. Confusión sin interacción. Confusión con interacción. Interacción sin confusión.
La distinción entre las situaciones anteriores se puede realizar mediante el análisis estratificado o técnicas de análisis estadístico multivariante, teniendo en cuenta la definición y condiciones de la confusión. Aunque en este libro estudiamos los fenómenos de confusión y de interacción basándonos en análisis estratificado, ésta no es la única manera de hacerlo; cada vez son más utilizadas técnicas de análisis multivariante. En este apartado interesa dejar claros los conceptos y ello es más sencillo a partir del análisis estratificado, el cual seguramente es asequible a la mayoría de los lectores, a los que recomendamos que estudien con detenimiento los conceptos y posteriormente intenten aplicarlos utilizando de forma complementaria otras técnicas de análisis estadístico como regresión múltiple, regresión logística, etc. Los ejemplos utilizados en este capítulo no son reales; los datos han sido preparados a fin de dejar claros los conceptos. No confusión, no interacción. Si en un análisis sospechamos que un factor es de confusión, y en el análisis estratificado el valor de la medida de riesgo utilizada no sufre cambios significativos respecto a la obtenida en el análisis crudo en ningún estrato, dicho factor no es de confusión ni un modificador del efecto. Por lo tanto, respecto a dicho factor podemos descartar que se haya producido un fenómeno de confusión o de interacción. Ejemplo 6.3. En un estudio de cohortes se estudia la relación entre la ingesta de AINES y padecer úlcera gastroduodenal. Los individuos participantes en el estudio constituyen una muestra representativa de una ciudad. Los resultados obtenidos son los siguientes:
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
167
ANÁLISIS DE DATOS CRUDOS
Un investigador sospecha que el tomar café puede ser un factor de confusión y/o un modificador del efecto. Para comprobar ésta hipótesis se realiza un estudio de la relación entre la ingesta de Aines y el padecer úlcera gástrica en personas que toman café y que no toman café por separado. Los resultados obtenidos son los siguientes: TOMAN CAFÉ
NO TOMAN CAFE
En el análisis estratificado observamos que el RR de padecer úlcera gástrica en personas que toman Aines es el mismo entre los que toman café y los que
168
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
no toman café y el mismo que en el análisis crudo. El que el RR sea el mismo en el análisis crudo que en el análisis estratificado indica que el café no es un factor de confusión; el que el RR sea el mismo en los dos estratos indica que no hay interacción. Por lo tanto, según estos resultados, el café no es un factor de confusión ni un modificador del efecto. Para sospechar que hay confusión y continuar con el estudio completo, en los estudios por muestreo, el RR del análisis crudo y de los estratos deben ser significativamente distintos; no es suficiente con que sean numéricamente distintos. Lo mismo ocurre con la interacción: los RR de los estratos deben ser significativamente distintos si los estudios han sido realizados por muestreo. Confusión sin interacción. Si en un estudio sospechamos que un factor es de confusión, en el análisis estratificado el valor de la medida de riesgo debe ser significativamente distinta respecto al análisis crudo. Si no hay diferencias significativas entre las medidas de riesgo de los estratos, no hay interacción. En el ejemplo 6-2 analizamos un fenómeno de confusión sin interacción; además el factor era de confusión total. En el siguiente ejemplo estudiaremos un fenómeno de confusión parcial sin interacción. Ejemplo 6.4. Con objeto de estudiar la relación entre laringitis aguda con afonía (LAA) y la ingesta de alcohol, se extrae una muestra representativa de habitantes en una ciudad, siguiendo a los individuos seleccionados durante dos años. Se considera enfermo a la persona que haya padecido al menos una laringitis aguda con afonía (LAA) durante el seguimiento. Expuestas al consumo de alcohol serán consideradas las personas que ingieren por término medio más de 280 gramos de alcohol a la semana. ANÁLISIS DE DATOS CRUDOS
Existe una fuerte asociación estadística entre la ingesta de alcohol y la L.A.A; es cuatro veces más probable que padezca L.A.A una persona que bebe más
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
169
de 280 gramos de alcohol a la semana que una persona que bebe menos de esa cantidad. Un investigador sospecha que el tabaco puede ser un factor de confusión. Para probar esta hipótesis se lleva a cabo un estudio estratificado, en el que se vuelve a estudiar la relación entre alcohol y L.A.A en fumadores y no fumadores por separado. Los resultados obtenidos son los siguientes: FUMADORES
NO FUMADORES
En el análisis estratificado observamos que el RR disminuye respecto al RR del análisis crudo. Las diferencias son estadísticamente significativas9; por lo 9
Recuerde que en los estudios por muestreo no es suficiente que la diferencia sea numéricamente distinta sino que las diferencias deben ser estadísticamente significativas.
170
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
tanto, el tabaco puede ser un factor de confusión. Los RR son iguales10 en los dos estratos, por lo tanto, no existe interacción entre el alcohol y el tabaco. A continuación comprobamos que el tabaco cumple las condiciones para poder ser considerado factor de confusión: I. Comprobamos que existe asociación entre el fumar y el consumir alcohol. La comprobación de esta asociación la realizamos en los no afectados de L.A.A, para evitar que la asociación entre los afectados de L.A.A y la ingesta de alcohol pueda confundir NO AFECTADOS DE LA L A A
En este caso utilizamos como medida de asociación la probabilidad relativa PR, ya que RR es una probabilidad relativa cuando una de las variables es padecer una determinada enfermedad. PR indica la probabilidad relativa de que una persona que consume alcohol fume respecto a que una persona que no consuma alcohol fume. Existe una asociación significativa entre consumir alcohol y fumar. NO CONSUMIDORES DE ALCOHOL
10
Aunque en el ejemplo los RR de los dos estratos son numéricamente iguales, en los estudios realizados a partir de una muestra, no es preciso que lo sean para decidir que no hay interacción. Diremos que hay interacción si los RR de los estratos son significativamente distintos.
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
171
II. Otra condición para considerar al tabaco como factor de confusión es que esté asociado con la enfermedad. Analizamos esta asociación eliminando a los consumidores de alcohol, a fin de evitar que la asociación entre LA A y alcohol pueda confundir.
III. El tabaco no es un eslabón en la cadena causal entre el alcohol y la L.A.A. El tabaco cumple las condiciones necesarias para poder ser considerado un factor de confusión. El tabaco es un factor de riesgo para la L.A.A; el alcohol también lo es. En este caso, el tabaco es un factor de confusión parcial, puesto que el alcohol es un factor de riesgo, aunque el riesgo achacado al alcohol en el análisis crudo es parte debido al alcohol y parte al tabaco, El que el tabaco y el alcohol puedan ser considerados factores causales depende de que no existan otros factores de confusión. En este ejemplo el tabaco es un factor de confusión parcial sin interacción. Confusión e interacción. Si un factor es de confusión y además es un modificador del efecto (interacción), el valor la medida de riesgo utilizada en el análisis crudo será distinta" de las medidas de riesgo de los estratos; además, las medidas de riesgo de los estratos serán distintas entre sí. Ejemplo 6.5. Con objeto de estudiar la relación entre litiasis renal (L.R) de hiperuricemia, se realiza un estudio de seguimiento de una muestra representativa de la población atendida por un centro sanitario. Los datos obtenidos son los siguientes: ANÁLISIS DE DATOS CRUDOS
11
En los estudios realizados a partir de una muestra las diferencias deben de ser estadísticamente significativas.
172
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Sorprendentemente, la asociación entre hiperuricemia y litiasis renal no es significativa. Un miembro del equipo investigador cree que podemos estar ante un sesgo de confusión y que el factor de confusión podría ser la ingesta de alcohol. Por suerte, en la recogida de datos se anotó el consumo semanal de alcohol. Se consideró como expuestos al alcohol a los individuos que ingerían más de 280 gramos de alcohol a la semana. Se realizó un análisis estratificado en el que se volvió a analizar la relación entre hiperuricemia y litiasis renal para consumidores y no consumidores de alcohol por separado. Los resultados obtenidos son los siguientes: CONSUMIDORES DE ALCOHOL
NO CONSUMIDORES DE ALCOHOL
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS, PRECISIÓN Y SESGOS
173
En el análisis estratificado observamos que el RR ha aumentado respecto al RR del análisis crudo en los dos estratos. Las diferencias son estadísticamente significativas; por lo tanto, el alcohol puede ser un factor de confusión, Los RR en los dos estratos son distintos y la diferencia entre ellos es estadísticamente significativa, por lo tanto, existe interacción entre el alcohol y la hiperuricemia. A continuación comprobamos que el alcohol cumple las condiciones para poder ser considerado factor de confusión: I. Comprobamos que existe asociación entre la hiperuricemia y el consumir alcohol. La comprobación de esta asociación la realizamos en los no afectados de L.R, para evitar que la asociación entre los afectados de L.R y la ingesta de alcohol pueda confundir. NO AFECTADOS DE L. R
En este caso utilizamos como medida de asociación la probabilidad relativa PR ya que RR es una probabilidad relativa cuando una de las variables es padecer una determinada enfermedad, En este caso, PR indica la probabilidad relativa de que una persona con hiperuricemia consuma alcohol respecto a que una persona que no tenga hiperuricemia consuma alcohol. Existe una asociación significativa entre tener hiperuricemia y consumir alcohol, pero en sentido inverso, es decir, es menos probable que consuma alcohol una persona hiperuricémica que una que no lo sea. Una explicación a esto podría ser que a los hiperucémicos diagnosticados se le suele recomendar no ingerir alcohol. II. Otra condición para considerar al alcohol como factor de confusión, es que esté asociado con la litiasis renal. Analizamos esta asociación eliminando a los hiperuricémicos, a fin de evitar que la asociación entre L.R e hiperuricemia pueda confundir.
174
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
NO HIPERURICÉMICOS
III. El alcohol no es un eslabón en la cadena causal entre la hiperuricemia y la L.R. El alcohol es un factor de confusión y un modificador del efecto, que actúa enmascarando el efecto del ácido úrico sobre la litiasis renal. El ácido úrico es un factor de riesgo para la litiasis renal. Aunque débil (RR = 1,57), interacciona con el alcohol y en bebedores es un factor de riesgo mucho más fuerte (RR = 2,35). El alcohol es un fuerte factor de riesgo para la litiasis renal RR = 3,32. Interacción. Si existe interacción sin confusión, el valor de la medida de riesgo calculada en el análisis crudo debe ser significativamente distinta de al menos una de las medidas de riesgo del análisis estratificado. Además, el valor de las medidas de riesgo del análisis estratificado deben ser significativamente distintas entre sí. Las condiciones que debe cumplir un factor de confusión no se cumplirán; el factor de confusión no estará asociado con la enfermedad o con el factor analizado con los datos crudos. Las interacciones entre factores pueden ser de efectos muy distintos; dos factores relacionados con una determinada enfermedad pueden interactuar entre sí potenciándose o anulándose. El ejemplo siguiente es muy interesante; analizaremos el efecto de dos factores, uno de riesgo y otro de protección de una determinada enfermedad, que interactuan entre sí con efectos sorprendentes. Ejemplo 6.6. Se sospecha que la ingesta habitual de benzodiacepinas aumenta la probabilidad de padecer temblor esencial. Para probar esta hipótesis se selecciona una muestra representativa de personas mayores de cincuenta años en una ciudad, obteniéndose los siguientes resultados:
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
175
ANÁLISIS DE DATOS CRUDOS
Según el análisis de datos crudos en los individuos de la muestra, las personas que toman benzodiacepinas tienen 2,36 veces más probabilidad de padecer temblor esencial que los que no toman benzodiacepinas. Durante el estudio se observó que las personas sometidas a dieta pobre en grasas tenían una respuesta paradójica respecto a las personas con dieta normal, sospechándose que la ingesta habitual de benzodiacepinas y la dieta pobre en grasas podían interactuar entre sí. Para comprobar esta sospecha se realizó un análisis estratificado, estudiándose la relación de las benzodiacepinas con el temblor esencial en personas con dieta pobre en grasas y personas con dieta normal por separado. DIETA POBRE EN GRASAS
176
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
DIETA NORMAL
En el análisis estratificado observamos que en las personas con dieta normal que toman habitualmente benzodiacepinas la probabilidad de padecer temblor esencial es mucho menor, la mitad aproximadamente que en las personas con dieta pobre en grasas, aunque la ingesta habitual de benzodiacepinas sigue siendo un factor de riesgo de padecer temblor esencial. Los riesgos relativos de padecer temblor esencial en los dos estratos son significativamente distintos. Por lo tanto, la dieta es un modificador del efecto; además podría ser un factor de confusión. A continuación analizaremos la relación de la ingesta habitual de benzodiacepinas con la dieta y de ésta con el temblor esencial. I. En primer lugar analizamos la relación de la ingesta habitual de benzodiacepinas con la dieta. Para que la dieta pueda ser considerada como factor de confusión entre el efecto de las benzodiacepinas y el temblor esencial, la primera condición es que los dos factores estén asociados entre sí. La relación entre la ingesta habitual de benzodiacepinas y la dieta la analizamos entre los individuos que no padecen temblor esencial, a fin de evitar que la asociación entre la ingesta habitual de benzodiacepinas y el temblor esencial pueda confundir. Los resultados obtenidos son los siguientes: NO AFECTADOS TEMBLOR ESENCIAL
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
177
En este caso utilizamos como medida de asociación la probabilidad relativa PR, ya que RR es una probabilidad relativa cuando una de las variables es padecer una determinada enfermedad. PR indica la probabilidad relativa de que una persona que toma habitualmente benzodiacepinas siga una dieta pobre en grasas respecto a una persona que no tome habitualmente benzodiacepinas. La asociación no es significativa y la falta de asociación no es sólo un problema de potencia estadística. El riesgo relativo es 1,01; por lo tanto, al no asociarse entre sí los dos factores, la dieta no puede ser un factor de confusión en este caso; existe interacción, pero no confusión. Estudiaremos la relación entre la dieta y el temblor esencial. Para conocer la naturaleza de la interacción, dicha relación es analizada en personas que toman habitualmente benzodiacepinas y que no las toman por separado. NO TOMAN BENZODIACEPINAS
La dieta pobre en grasa es un factor de protección frente al temblor esencial. En ausencia de benzodiacepinas, RR es significativamente menor que 1. TOMAN BENZODIACEPINAS
178
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En presencia de benzodiacepinas, la dieta pobre en grasas no está asociada con el temblor esencial; pierde el poder protector frente a esta enfermedad, evidenciado en el análisis anterior, con las personas que no tomaban benzodiacepinas. Las conclusiones de este ejemplo son las siguientes: La ingesta habitual de benzodiacepinas es un factor de riesgo del temblor esencial. La ingesta habitual de benzodiacepinas interactúa con la dieta, siendo menor el riesgo en pacientes con dieta normal. La dieta pobre en grasas potencia el efecto de las benzodiacepinas respecto al temblor esencial. La dieta pobre en grasas es un factor de protección del temblor esencial en ausencia de benzodiacepinas. El factor de protección (dieta pobre en grasas) y el factor de riesgo (ingesta habitual de benzodiacepinas) interactúan mutuamente. La dieta pobre en grasas paradójicamente potencia el efecto de las benzodiacepinas y la ingesta habitual de benzodiacepinas anula el efecto protector de la dieta pobre en grasas. El estudio debería continuar intentando identificar los factores posiblemente bioquímicos, que explicarían los hechos anteriores. Las posibilidades de combinaciones de efectos protectores y de riesgo interactuando y confundiendo son múltiples. En este apartado hemos analizado en profundidad varios ejemplos, pero las posibilidades son muchas más. Aconsejamos al lector que estudie detenidamente estos ejemplos, y aprenda los conceptos fundamentales antes de pasar al análisis estadístico multivariante, más potente pero inabordable sin unos conocimientos claros de lo que se quiere analizar. Recuerde que no se puede concluir que un factor es causal sin comprobar que no hay factores de confusión.
VALIDEZ DE LOS ESTUDIOS EN CIENCIAS DE LA SALUD Una vez terminado un estudio en ciencias de la salud, la pregunta clave es: ¿Dónde y cuándo son válidos los resultados obtenidos? Es una pregunta complicada y la respuesta no es sencilla. Validez interna significa que los resultados del estudio, reflejan la realidad de la población estudiada. Validez externa significa que los resultados obtenidos son representativos de poblaciones distintas de la población estudiada.
VALIDEZ DE LOS ESTUDIOS CIÉNTÍFICOS. PRECISIÓN Y SESGOS
179
Validez interna El concepto de validez interna se refiere a si los resultados de un estudio científico pueden considerarse ciertos en la población12 estudiada. Para analizar con detalle este término vamos a considerar dos situaciones: I. Son estudiados todos los miembros de una determinada población; no hay, por tanto, muestreo. II. La población es estudiada a partir de una muestra. I. Si es estudiada la población entera, no hay muestreo y, por lo tanto, no hay errores estadísticos, pero sí puede haber sesgos. En una ciudad de treinta mil habitantes interesa conocer el número de personas mayores de 40 años que padecen hipertensión; en total hay quince mil personas mayores de 40 años. El estudio consiste en tomar la presión arterial tres veces separadas por un intervalo de una semana. Las personas cuya presión arterial sistólica en alguna de las medidas sea mayor de 140 mm de Hg o cuya presión diastólica sea mayor de 90 mm Hg, son seleccionadas para estudiarlas más exhaustivamente. Las personas que en ninguna de las tres medidas superen los valores antedichos son consideradas normotensas. El estudio anterior es simple, mucho más sencillo que un estudio de causalidad y sin errores aleatorios. Aun así, puede haber algunos errores; en primer lugar, si los aparatos de medida no están bien calibrados o los observadores son varios y no son concordantes puede haber errores de medida, otros factores a tener en cuenta son: los medicamentos u otras sustancias como alcohol y drogas, que algunas personas pueden tomar y que pueden influir en la tensión arterial, también el estado de ánimo, el haber realizado ejercicio físico, etc. Si todos estos problemas son controlados adecuadamente, los resultados obtenidos en el estudio reflejarán adecuadamente la tensión arterial de los habitantes mayores de 40 años de la ciudad donde se realiza el estudio. En este caso diremos que el estudio es internamente válido, o lo que es lo mismo, los resultados constituyen una evidencia sobre la población estudiada. Supongamos ahora que en la misma población anterior queremos estudiar los factores que pueden influir en el padecimiento de tromboflebitis aguda en los habitantes mayores de 45 años, para lo cual realizamos un seguimiento de éstas personas durante tres años. Este estudio es mucho más complejo que el anterior ya que tenemos que controlar muchos más sesgos, y eso asumiendo que estudiamos a toda la población de la ciudad. Si el estudio se realiza correctamente será internamente válido para la población estudiada. 12
El término población se refiere a población estadística; puede coincidir o no con la población de una ciudad.
180
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
II. Lo más frecuente es que la población objetivo13 no sea estudiada en su totalidad y el estudio sea realizado a partir de una muestra probabilística; en este caso tenemos posibilidad de errores estadísticos, además de sesgos. Existe un error de concepto muy extendido: considerar que el error estadístico sólo aporta un problema de precisión. Los sesgos nos apartan del valor real y esto es cierto. El fallo está en considerar que si no hay sesgos, el centro de la diana14 está siempre dentro del intervalo de confianza, transmitiendo la idea de que el efecto del muestreo solamente puede ser de falta de precisión y esto no es cierto. Un intervalo de confianza tiene una probabilidad determinada, habitualmente el 95% de que el verdadero valor del parámetro poblacional estudiado esté contenido en él, pero hay un 5% de probabilidad de que no lo contenga. Los errores aleatorios pueden alejarnos de la realidad tanto como los sesgos; la diferencia es que conocemos la probabilidad de que esto ocurra, Supongamos que en una ciudad de cien mil habitantes hay cincuenta mil hombres y cincuenta mil mujeres, pero este dato es desconocido para un grupo de investigadores que quieren conocer la proporción de mujeres con objeto de planificar un programa específico de salud para la mujer, para lo cual eligen una muestra de mil personas de dicha ciudad. Asumimos que el muestreo es perfecto, En la muestra, por azar, hay 700 mujeres y 300 hombres; a partir de estos datos estiman un intervalo de la proporción de mujeres con una confianza del 95%:
P ∈ (0,67 - 0,73) 95% de confianza. En el ejemplo anterior vemos una de las muchas posibilidades de que un error aleatorio nos aleje bastante del valor real (centro de la diana) que es 0,5. Obsérvese como en una población donde hay cincuenta mil mujeres, que en una muestra de mil sean seleccionadas por azar setecientas no es lo más probable, pero tampoco es un caso extremo; de hecho pueden ser elegidas muestras mucho más extremas. El gran problema de un error aleatorio es que en la mayoría de los casos nunca sabremos que lo hemos cometido, puesto que en raras ocasiones será estudiada la población entera después de un estudio por muestreo. Suponga que para estimar el colesterol medio basal de una ciudad como Madrid elegimos 5.000 habitantes mediante impecables técnicas de 13
Población objetivo es aquella que podemos estudiar, no la que quisiéramos estudiar. Recuerde que una muestra es estadísticamente válida para la población muestreada. Si un individuo pertenece a la población estudiada, la probabilidad de ser incluido en la muestra antes de ser seleccionada debe ser mayor de cero. 14 El centro de la diana representa el verdadero valor del parámetro poblacional cuyo valor estamos interesados en conocer.
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
181
muestreo; nunca conoceremos el valor real que sería la media de los colesteroles básales de los aproximadamente cuatro millones de habitantes de Madrid y nunca sabremos si en el intervalo de confianza está el verdadero valor. No obstante, sabemos que hay un 95%15 de probabilidad de que el verdadero valor esté contenido en él. La probabilidad de confianza además es bajo el supuesto de un muestreo perfecto. Teniendo en cuenta lo anterior, no es exacta la consideración de que un estudio por muestreo sin sesgos es internamente válido y que los errores estadísticos sólo afectan a la precisión. Un error estadístico por simple azar puede alejarnos mucho de los valores reales, aun asumiendo que los muéstreos son perfectos16. Un estudio sobre la población entera sin sesgos es internamente válido, los resultados constituyen una evidencia sobre la población estudiada. Un estudio realizado a partir de una muestra seleccionada correctamente sin sesgos es muy probable que sea válido, pero en la mayoría de los casos nunca sabremos con seguridad absoluta si lo es. Los resultados obtenidos constituyen una evidencia estimada. Si en un estudio hay sesgos o el muestreo no ha sido realizado adecuadamente, tiene muy pocas probabilidades de que sus resultados reflejen la realidad de la población estudiada. Recomendamos al lector que reflexione sobre los conceptos de validez y precisión. Una vez que asumamos muestras limitaciones podremos abordar el siguiente apartado: el problema de la validez externa.
Validez externa Validez externa es la extrapolación de los resultados de un estudio a poblaciones distintas de donde se realizó, En el apartado anterior vimos que, incluso en la población donde se realizó el estudio, no tenemos la completa seguridad de que los resultados obtenidos sean un fiel reflejo de la realidad. En poblaciones de las que no conocemos nada los problemas son mucho mayores. Una de las ideas centrales de este libro es conocer las posibilidades que el método científico nos proporciona para adquirir conocimientos. En el Capítulo 1 hicimos un repaso de la historia del pensamiento humano hasta llegar al neopositivismo y al método científico, siendo fundamental distinguir lo que es una evidencia, aunque sea estimada, de una hipótesis de trabajo. Evidencia es el conocimiento obtenido de una población estudiando todos sus elementos; en 15
Casi siempre se utilizan intervalos con una confianza del 95%; podríamos calcularlos del 99% o aun más, pero salvo que estudiemos la población entera, siempre hay una probabilidad de que el verdadero valor no se encuentre dentro del intervalo. 16 A pesar de que los muestreos sean perfectos, existen probabilidades de error, Si añadimos a esto que los muestreos raramente son perfectos, los errores estadísticos pueden ser mucho mayores.
182
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
este caso, los resultados, si no hay sesgos, son evidencias sobre la población estudiada. Si el estudio ha sido realizado mediante una muestra correctamente seleccionada, los resultados obtenidos constituyen una evidencia estimada. La extrapolación fuera de las poblaciones estudiadas sólo puede ser una hipótesis de trabajo mientras no sea demostrada. La estadística solamente nos permite estimar parámetros sobre la población muestreada; fuera de ésta no tenemos ningún fundamento para extrapolar los datos. Si una teoría es demostrada de forma reiterada en ámbitos distintos, aceptaremos que es cierta, pero estando dispuestos a admitir que puede ser incompleta o que pueda haber excepciones. Si nos preguntan cuántos riñones tienen los habitantes de una tribu recién descubierta en una selva profunda que acaba de ser explorada, sin dudarlo diremos que dos; algún miembro puede tener tres pero excepcionalmente. Nos llevaríamos una tremenda sorpresa si descubriéramos que la mayoría tienen tres riñones, pero encontraríamos explicaciones para ello. Una mutación y la endogamia obligada por el aislamiento podrían ser la explicación. El funcionamiento de las hormonas, enzimas, etc., una vez comprobadas de forma reiterada, aceptamos que se comportan igual en todos los individuos de la misma especie, aunque con la mente abierta a posibles excepciones de las que podemos aprender muchas cosas. Hay personas portadoras de gérmenes que nunca desarrollan la correspondiente enfermedad y otros que con contactos mínimos enferman. Esta variabilidad nos permite aprender, intentando encontrar factores que expliquen la resistencia de unos y la debilidad de otros. La estadística es una disciplina matemática y los resultados obtenidos sobre poblaciones numéricas a veces pueden ser extrapolados a otra mediante las pertinentes transformaciones numéricas. En física, en ciertas condiciones puede considerarse que las partículas subatómicas son iguales en todo el universo, lo cual no deja de ser una teoría que inmediatamente sería refutada si apareciese un solo protón distinto en masa o carga de los demás. Mientras esto ocurre, podemos considerar que las magnitudes fundamentales de los protones, electrones, neutrones, mesones, etc., son iguales. Ya sabemos que los átomos de un mismo elemento no son todos iguales y conocemos sus isótopos, aunque en un tiempo se pensó que todos eran iguales. Pero en ciencias de la salud la norma es que los parámetros de salud de poblaciones diferentes sean distintos. Las tasas de mortalidad por enfermedad coronaria de países distintos son bastante diferentes, las tasas de morbilidad de la mayoría de las enfermedades difiere de unas regiones a otras, la supervivencia a los cinco años una vez diagnosticado un cáncer de pulmón es distinta en Estados Unidos que en España, en muchos casos dentro de un mismo hospital, dependiendo del equipo quirúrgico o del facultativo que trate al paciente, los resultados son distintos, la calidad de vida tras la imposición de una prótesis de cadera es muy distinta dependiendo del centro donde se realice, etc. La mayoría de las poblaciones de interés en ciencias de la salud son diferentes, y esta variabilidad nos puede proporcionar muchos conocimientos. No
VALIDEZ DE LOS ESTUDIOS CIENTÍFICOS. PRECISIÓN Y SESGOS
183
debemos considerar que los resultados en un determinado lugar constituyen a priori un conocimiento universal sino todo lo contrario: hasta que un suceso haya sido reproducido en varios lugares, y sin olvidar los que han intentado reproducirlo y no lo han conseguido, no debemos considerar que los resultados obtenidos podrían ser generalizabas. Hay algo mucho peor que tardar un poco en incorporar al campo del conocimiento un nuevo dato y es la cantidad de conocimientos considerados como ciertos de forma precipitada y que producen un ruido de fondo cada vez más grande. Tanto es así que en muchos temas, si uno quiere publicar un trabajo sobre una determinada teoría, encontrará abundante bibliografía tanto a favor como en contra, volviendo a los tiempos precientíficos en los que las escuelas que basaban sus conocimientos solamente en las deducciones racionales eran irreconciliables. Actualmente ocurre casi lo mismo. En algunas publicaciones puede leerse el siguiente comentario: la estadística permite sacar conclusiones de la población muestreada, el método epidemiológico permite extrapolar los resultados a ámbitos más amplios. La estadística tiene más de doscientos años de antigüedad, sustentado por sólidas bases matemáticas. Cualquier escuela que pretenda extrapolar los resultados de un estudio fuera de los ámbitos donde ha sido realizado, tendrá que exponer en qué se basa. Algunos dicen que en el sentido común. Quiero recordar que las deducciones racionalistas que basaban sus conocimientos en deducciones (sentido común) han sido superadas hace doscientos años. En el método científico las deducciones racionalistas sólo son hipótesis mientras no se demuestren. Existe un método científico único aplicable a cualquier ciencia empírica con las particularidades inherentes a cada una de ellas. Ante la afirmación anterior, repetida en muchos libros y artículos, la primera pregunta es ¿por qué los conocimientos adquiridos en un estudio realizado en un determinado hospital español son extrapolables sólo a España? ¿por qué no a toda Europa o al mundo entero? ¿todos los estudios son extrapolables sólo algunos? Si son sólo algunos ¿cuales? y ¿porque? La explicación que dan algunos autores es que son extrapolables a poblaciones similares, pero ¿cuáles son las poblaciones similares? Hay que demostrar primero la igualdad y luego extrapolar. Concluyendo, los resultados de un determinado estudio son válidos en la población donde se realizó si el trabajo se ha realizado adecuadamente y contando con los errores estadísticos debidos al azar y sirve como hipótesis de trabajo para otras poblaciones. Antes de generalizar un resultado hace falta la comprobación reiterada en distintos lugares y aun así no podemos estar seguros de que sea universalmente válido. En ocasiones, para apoyar la bondad de la extrapolación universal se muestran algunos resultados que luego se han comprobado ciertos en otros lugares, y cuantas publicaciones se ha demostrado que eran erróneas o tan solo válidas para ámbitos restringidos. Si una tarde de aburrimiento tiramos cientos de dardos a una diana, no pueden ser prueba de nuestra pericia los dos o tres que han
184
E L MÉTODO CIÉNTÍFICO E N LAS CIÉNCIAS DE LA SALUD
dado en la diana; habrá que tener una visión global de todas las tiradas antes de puntuar las habilidades en el juego de los dardos. La elaboración de leyes generales y eternas es el sueño de todo científico, pero antes de enunciarlas hay que reunir evidencias suficientes y no olvidar ni despreciar las evidencias en contra. Una vez elaborada una teoría general, debemos asumir que lo más seguro es que sea incompleta e incluso incorrecta, pero si está sólidamente fundamentada seguro que ayudará un poco en la construcción del edificio del conocimiento humano, que es el patrimonio más importante de la humanidad, al que debemos contribuir todos modestamente. LECTURAS RECOMENDADAS Kleinbaum DG, Kupper L, Morgenstem H. Epidemiologic research, Editor Carol Beal, 1982. Hennekens CH,Buring JE. Epidemiologyin medicine, Litle Brown, 1987. Lüienfeld AM. Fundamentos de epidemiología, Addison-Wesley Iberoamericana, 1987.
BIBLIOGRAFÍA 1. Salsburg DS. The religión of Statistics as practiced in medical joumals. Am statistician 1985; 39:220-223. 2. Michel M, Boyce Wt, Wilson A]. Biomedical bestiary: an epidemiologic guide to flaws and fallacies in the medicalliterature. Boston: Little, Brown and Co. 1984. 3. Berkson J. Limitations of the application of fourfold table analysis to hospital data. Biom Bull 1946; 2:47-53. 4. Rogentine GN et al. HLA antigens and disease: acute lymphocytic leukemia: the nature of the association. Tissue Antigens 1973; 3:470-476. 5. Rogentini GN, et al. HLA antigens and acute lymphocytic leukemia: the nature of the association. Tissue antigens 1973: vol 3: Pag 470-476. 6. Sackett DL. Bias in analytic research./. Chron. Dis. 1979; 32:51-63, 7. Aoki N, Horibe H, Ohno Y et al. Epidemiological evaluation of funduscopic findings in cerebrovascular diseases: III. Observer variability and reproducibility for funduscopic findings. Jpn Circn J 1977; 41:11. 8. Martin Andrés A, Luna del Castillo J de D. Bioestadística para las ciencias de la salud, Madrid Ediciones Norma, 1989,
Capítulo 7 DIAGNOSTICO
Hay cosas que son lo que parecen ser; otras que sí parecen serlo y no son; otras que son y no parecen serlo; y otras que no parecen serlo y no son. Al hombre sabio compete decidir correctamente. Epictetus.
El diagnóstico es el acto clínico más importante puesto que de él dependen el resto de las actuaciones. En este capítulo se analiza el diagnóstico y sus fases. Normalidad, anormalidad y patología de los datos clínicos, Concordancia entre varios observadores, Características de las pruebas diagnósticas; sensibilidad, especificidad, valor predictivo positivo, valor predictivo negativo y sus complementarias, También son analizadas las técnicas de decisión bayesianas. DIAGNÓSTICO El diagnóstico es uno de los actos médicos más importantes ya que de él depende el pronóstico y posterior tratamiento. Un error diagnóstico implica en la mayoría de los casos que todas las decisiones posteriores sean inadecuadas para el paciente objeto del error, Los médicos en general, cuando tomamos una decisión diagnóstica y/o terapéutica creemos tener una seguridad casi absoluta en ella. Pocas cosas molestan más a un facultativo que alguien exprese dudas sobre sus decisiones o pida una segunda opinión, La realidad es que en pocas ocasiones podemos tener seguridad absoluta. A lo largo del capítulo analizaremos el proceso diagnóstico y los factores que influyen en él. Muchos de los datos clínicos en que nos basamos para el diagnóstico deben interpretarse probabilisticamente, y los porcentajes de errores de las pruebas diagnósticas son mucho mayores de lo que desearíamos. Cuando pedimos a dos o más clínicos que nos den su impresión sobre pruebas diagnósticas, la proporción de opiniones distintas es sorprendentemente alta, incluso en clasificaciones sencillas, La impresión de segu-
186
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
ridad aparentada en las decisiones clínicas no tiene nada que ver con la realidad. Si ante un conjunto de datos clínicos, además de la impresión diagnóstica pedimos a un grupo de clínicos un pronóstico y su recomendación terapéutica, en la mayoría de los casos tendremos tantas opiniones diferentes como clínicos. Diagnosticar es interpretar los signos y síntomas de los pacientes e identificar las enfermedades que las producen. El diagnóstico es un proceso taxonomista que trata de clasificar adecuadamente las enfermedades de los pacientes. En el caso de que éstas puedan tener varias causas, el diagnóstico debe incluir la causa si ello es posible. Por ejemplo, una neumonía puede ser debida a distintos tipos de microorganismos, siendo muy importante conocer el causante en cada caso. En algunas enfermedades, como los tumores, es necesario conocer la extensión de la enfermedad órgano u órganos afectados y en qué grado. Podemos distinguir los siguientes tipos fundamentales de diagnóstico: 1. El diagnóstico nosológico consiste en definir y clasificar la enfermedad que afecta a un determinado paciente. 2. El diagnóstico etiológico descubre la causa de una determinada enfermedad. 3. El diagnóstico de extensión estudia los órganos afectados y el grado de la afectación. Enfermedad y enfermo. Según la OMS, enfermedad es la presencia objetiva y/o subjetiva de trastornos físicos, psíquicos o sociales. La definición anterior implica que casi todas las personas son enfermas durante la mayor parte de la vida. En los cursos de metodología de la investigación para postgraduados que he tenido la suerte de impartir, al llegar a este apartado propongo a los alumnos que definamos qué es un enfermo, lo que suele dar lugar a interesantes discusiones, al final de las cuales los participantes se suelen dividir en cuatro grupos casi irreconciliables, cada uno de los cuales sostiene que enfermo es el definido en alguno de los grupos siguientes: I. Un enfermo es una persona que se considera enferma. II. Un enfermo es una persona que una vez examinada, el médico decide que padece una enfermedad. III. Un enfermo es tanto una persona que se considera como tal, como si el médico la considera enferma. IV Los más taxonómicos consideran que un enfermo es aquel que cumple las condiciones de alguna de las enfermedades descritas en una clasificación internacional, como la clasificación internacional de enfermedades (CIÉ -9 )(1). I. Las personas que se consideran enfermas y que acuden al médico al menos subjetivamente se sienten enfermas. La mayoría de los pacientes que acuden a una consulta es porque padecen una enfermedad, aun-
DIAGNÓSTICO
187
que ésta sea leve. Los hipocondríacos y los neuróticos también son enfermos, aunque este tipo de pacientes no suelen gustar a la mayoría de los médicos. El grupo de facultativos para el que enfermos son solamente los incluidos en este grupo, piensan que estar enfermo es un estado subjetivo, independientemente de que existan características objetivables que justifiquen esta sensación. Consideran que las personas que tienen una alteración, pero no son conscientes de ella, como hipertensión o un tumor no sintomático, no son enfermos, aunque tengan características patológicas que en caso de ser descubiertas deberían ser tratadas. II. Los partidarios de este grupo consideran que enfermo es una persona que, una vez examinada por un facultativo, éste decide que lo es. En este caso debemos considerar la posibilidad de errores médicos y sus consecuencias. Consideran que el diagnóstico es parte ciencia, y por tanto basado en datos objetivables y parte arte, basado en la intuición y otras características no mensurables inherentes a la personalidad del facultativo. III. Los partidarios de éste grupo consideran que si una persona se considera enferma, es motivo suficiente para considerarla como tal, pero también consideran como enferma a una persona que, una vez examinada por un facultativo, este decide que lo es. IV Los partidarios de éste grupo consideran que en la clasificación internacional de enfermedades (CIÉ-9) están recogidas las características que un individuo debe tener para ser clasificado en el lugar que le corresponde. Filosóficamente los taxonomistas están más cerca del grupo anterior, puesto que consideran que la decisión de si una persona está enferma o no la toma el médico, aunque consideran que todos los elementos del diagnóstico son científicos y por tanto mensurables y reproducibles. Teniendo en cuenta que en la fase actual del conocimiento de las causas de las enfermedades, en pocas ocasiones conocemos factores que irremediablemente desencadenen una enfermedad, y que solamente podemos calcular la probabilidad de que las personas expuestas a un determinado factor desarrollen una enfermedad en un tiempo determinado, podemos elaborar una definición de enfermo que tenga en cuenta factores probabilísticos. Un enfermo es aquella persona con algún factor que aumenta la probabilidad de que su calidad y/o cantidad de vida sea menor que la de los que no lo tienen. La hipertensión arterial puede no dar síntomas nunca; sin embargo, está considerada como una enfermedad y debe ser tratada. Por la misma razón, fumar debe ser considerado como una enfermedad, etc. La definición de enfermedad propuesta anteriormente implica comparación. Si descubriéramos una civilización humana cuyos miembros no envejecieran hasta los trescientos años, investigaríamos cuál es la causa de nuestro envejecimiento prematuro
188
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Mientras no exista esa posibilidad de comparación aceptamos como normal nuestro ciclo vital. La clasificación internacional de enfermedades (CIÉ-9) es muy útil en el campo hospitalario. En atención primaria es más útil la clasificación internacional de problemas de salud en atención primaria, CIPSAP-2 (2), más conocida por clasificación de la WONCA1 concordante con la CIÉ-9. FASES DE UN DIAGNÓSTICO El diagnóstico consta de tres fases: I. La historia clínica. II. La exploración física. III. Las pruebas complementarias. El diagnóstico consta de dos etapas: la primera incluye las dos primeras fases; historia clínica y exploración física, y suelen ser efectuadas en la primera consulta, terminada la cuál el médico elabora las posibles hipótesis y construye uno o varios modelos diagnósticos. Como veremos a lo largo del capítulo, la primera etapa debe de realizarse con la máxima precisión, ya que en la valoración de las pruebas complementarias tiene una gran influencia la exactitud de las aproximaciones diagnósticas. En la segunda etapa, que incluye las pruebas complementarias, intenta confirmar uno, entre los posibles modelos diagnósticos. I. Historia clínica. La historia clínica consiste en recoger información sobre el proceso actual (síntomas), los antecedentes de interés clínico del paciente y de sus familiares cercanos, fundamentalmente padres, hijos, hermanos y cónyuge. Los datos se recogen a partir del paciente, si ello es posible. En caso de que no lo sea, a partir de familiares y amigos. A pesar de que la recogida de información en la historia clínica es muy subjetiva y la información sobre enfermedades en familiares es muy imprecisa, según algunos estudios (3), después de una breve historia clínica se llega a un 56% de diagnósticos correctos. II. Exploración física. La exploración física consiste en recoger información del cuerpo del paciente (signos), color y alteraciones de la piel, auscultación cardíaca y pulmonar, palpación abdominal, examen neurológico, etc. Después de la historia clínica y del examen físico según, algunos autores (4), se llega a elaborar hasta un 88% de diagnósticos correctos, III. Pruebas complementarias. La recogida de información del paciente distinta de la historia clínica y de la exploración física constituyen las pruebas 1
WONCA son las siglas inglesas de; Organización Mundial de Colegios Nacionales, Academias y Asociaciones Académicas de Médicos Generales/Médicos de Familia.
DIAGNÓSTICO
189
complementarias. Las determinaciones bioquímicas y hematológicas, radiografías, electrocardiogramas, electroencefalogramas, T.A.C, biopsias etc. ELABORACIÓN DEL DIAGNÓSTICO Al finalizar la historia clínica y la exploración física, el médico elabora hipótesis diagnósticas. Al final de estas dos fases en la mayoría de los casos la duda diagnóstica se centra en dos o tres posibilidades. Cuando existan varias hipótesis diagnósticas, se realizará el correspondiente diagnóstico diferencial y las pruebas complementarias tratarán de aclarar las dudas existentes. Si solamente hay una sospecha diagnóstica, las pruebas complementarias tratarán de confirmarla. Es frecuente que tras la recepción de las primeras pruebas complementarias, si persiste alguna duda, se intente despejar realizando más pruebas diagnósticas. La realización simultánea de varias pruebas complementarias se denomina pruebas complementarias en paralelo. La realización de pruebas complementarias según los resultados de otras previas, se denomina pruebas complementarias en serie. En un apartado posterior analizaremos las características probabilísticas de realizar pruebas en serie y en paralelo. En las fases diagnósticas el médico elabora mentalmente hipótesis según va recogiendo información. Habitualmente la asociación de la información y la elaboración de hipótesis se realiza mentalmente. En la elaboración del diagnóstico es fundamental utilizar óptimamente la información recogida en las tres fases diagnósticas, en lo cuál influye la capacidad de asociación del médico dependiendo también de su estado mental y de sus conocimientos. En el estado mental influyen muchas circunstancias, como estado anímico, problemas personales y sobre todo el cansancio. Hay estudios (5) que indican que el aumento de errores en la valoración de datos clínicos puede ser de hasta un 100% en un médico que ha dormido poco respecto a otro que ha dormido siete horas. Los conocimientos de los médicos son muy distintos en cuanto a cantidad, pero aun suponiendo una cantidad de conocimientos similares, las conclusiones diagnósticas de varios facultativos ante un mismo paciente pueden variar bastante. Dedicaremos un apartado entero a tratar este importante tema. El proceso de elaboración diagnóstica consiste en la asociación mental de la información recogida. Supongamos que en una historia clínica un paciente, que consulta por cefaleas frecuentes, dice que en su familia hay varios casos de cefaleas vasculares. Con éste dato algunos facultativos se verían inclinados al diagnóstico de cefalea vascular, porque saben que hay una asociación entre tener antecedentes vasculares familiares y padecer esta enfermedad. Diríamos que los antecedentes familiares de cefalea vascular son un factor de riesgo para padecer cefalea vascular, pero ¿cuál es el riesgo relativo respecto a una
190
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
persona que no tenga antecedentes familiares? y ¿cuál es el riesgo de padecer cefalea vascular u otros procesos que cursan con cefalea? Supongamos que el riesgo relativo es ocho, el riesgo de padecer cefalea vascular es 0,01 y el riesgo de padecer cefalea por tensiones nerviosas es 0,2. El riesgo relativo multiplica por ocho en este caso la probabilidad de padecer cefalea vascular, con lo cual en el paciente la probabilidad de padecer cefalea vascular es 0,08, aún mucho menor que la probabilidad de padecer cefalea por tensiones nerviosas. Es muy frecuente en las discusiones entre profesionales de las ciencias de la salud decir que un factor se asocia con una enfermedad sin cuantificar dicha asociación, como comentamos ampliamente en el Capítulo 4 dedicado al riesgo. Esto es poco más que no decir nada y en muchos casos lleva a error. Hay que conocer y cuantificar los riesgos y los riesgos relativos por separado, además en un diagnóstico intervienen varios factores que pueden interactuar entre ellos. Memorizar y recordar esta información es prácticamente imposible. Pero puede ayudarnos la informática, aunque a muchos médicos no les agrada oír hablar del diagnóstico por ordenador, quizá por miedo a perder su trabajo. Sin embargo el día que un aparato informático suplante al médico está aún muy lejano, si es que ese día llega alguna vez. Pero ante diagnósticos complejos, el ordenador actualmente nos puede ayudar en el cálculo de probabilidades de los distintos procesos, una vez introducida la información recogida en las fases diagnósticas. Incluso nos puede aconsejar sobre las pruebas complementarias que se deben solicitar. La ventaja del apoyo informático al diagnóstico es que el ordenador no se ve afectado por la falta de sueño, ni por el cansancio, ni por los problemas personales, se acuerda siempre de todo y calcula casi instantáneamente las probabilidades. Pero no tema por su trabajo, tanto la recogida de datos como la decisión final son funciones que necesariamente debe realizar un médico u otro profesional de las ciencias de la salud. Por otra parte, el manejo de los programas de apoyo informático al diagnóstico no requieren conocimientos especiales de informática y se puede aprender a utilizarlos en una tarde. CONSISTENCIA DE LA INFORMACIÓN CLÍNICA Los datos clínicos pueden medirse en la escala nominal, ordinal o numérica, siendo la escala por ese mismo orden de menos precisa a más precisa. Un dato que pueda expresarse numéricamente, siempre y cuando haya sido medido adecuadamente, es mucho más consistente que una medida nominal como tiene dolor o no tiene dolor, o una ordinal como un soplo cardíaco de intensidad 2 sobre 4. Debe realizarse un esfuerzo para que los datos clínicos sean medidos en la escala más precisa posible. Algunos autores (6) diferencian los datos clínicos en blandos y duros. Consideran como datos blandos aquellos que no pueden ser mensurados de forma objetiva, y datos duros los que pueden ser medidos objetivamente, siendo dicha medida comprobable por otros observadores, por ejemplo el coles-
DIAGNÓSTICO
191
terol basal, dimensiones hepáticas calculadas mediante ecografía etc. En la medida de los datos blandos influyen circunstancias subjetivas, son ejemplos de datos blandos la intensidad de un soplo cardíaco, antecedentes clínicos verbales, incluso valoración de una radiografía en casos límite. Hay que intentar mejorar las medidas en el ámbito clínico, pero mientras tanto tenemos que conformarnos con lo que tenemos, aun siendo conscientes de que en los estudios clínicos la presencia de sesgos es muy frecuente. En el subapartado siguiente analizaremos el problema del desacuerdo entre clínicos ante la valoración simple de pruebas diagnósticas. CONCORDANCIA, ÍNDICE KAPPA La concordancia entre varios observadores es el grado de acuerdo que existe entre ellos respecto a una determinada cuestión, La concordancia2 entre varios clínicos e incluso de un clínico consigo mismo, en la valoración de pruebas diagnósticas suele tener un grado mucho menor del que se esperaría, incluso en valoraciones de pruebas como radiografías, electrocardiogramas, ecografías, etc. En ciencias de la salud una de las medidas de concordancia más utilizadas es el índice Kappa (7-8), el cual mide la proporción de acuerdo más allá del azar. Su valor oscila entre cero, lo que indica un desacuerdo total, y uno que correspondería a un acuerdo completo. En muchos de los estudios sobre concordancia realizados, el índice Kappa obtenido es menor de lo que se esperaba. En un estudio (9) realizado en Japón en el que se pedía a dos clínicos que clasificaran cien fotografías de fondo de ojo en dos grupos (retinopatía inexistente o leve y retinopatía moderada o grave) coincidieron en el 78% de las fotografías, lo que corresponde a un índice Kappa de 0,55. El índice Kappa valora el grado de acierto, descontando la influencia del azar. Téngase en cuenta que si dos personas que no entendieran nada de medicina clasificaran las cien fotografías en dos grupos, coincidirían aproximadamente en el 50% de los casos. En el mismo estudio y con las mismas fotografías se pidió a un clínico que las clasificará en los dos grupos del ejemplo anterior. A los tres meses se le pidió que las volviera a clasificar y coincidió en la clasificación en el 88% de los casos, lo que corresponde a un índice Kappa de 0,68. En otro estudio (10) en el que únicamente había que decir si había o no pulso en la arteria pedía, el valor del índice Kappa fue de 0,51. Podríamos poner muchos ejemplos más, pero los que hemos comentado pueden ser bastante demostrativos. En todos ellos solamente había que clasificar los resultados en 2 Concordancia es el grado de acuerdo de dos o más personas sobre una valoración. También podemos hablar de concordancia de una persona consigo misma en valoraciones realizadas en momentos distintos. Hay distintas medidas de la concordancia, la más utilizada de las cuales es el índice Kappa.
192
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
dos grupos y además los clínicos sabían que participaban en un experimento, lo que suele aumentar el interés del observador. Si en los estudios de concordancia en lugar de pedir a los clínicos la clasificación en dos grupos, les hubiéramos pedido un informe detallado de una radiografía o de un electrocardiograma, el acuerdo entre los observadores probablemente sería mínimo. Esto nos da una idea de la cantidad de sesgos de información o medida que se producen en los estudios clínicos cuando participan varios observadores e incluso cuando participa uno solo, lo que debe animarnos a extremar las precauciones al examinar a los pacientes y a leer la bibliografía con espíritu crítico.
Cálculo del índice Kappa A partir de una tabla de contingencia R x R siendo R el número de clasificaciones, calculamos las proporciones de acuerdos observados (Po) y esperados por simple azar (PE) y a partir de ellas calculamos el índice Kappa según la siguiente expresión:
A continuación calcularemos el índice Kappa (K) en función de una tabla 2x2: FRECUENCIAS OBSERVADAS
Tabla 7.1.
La Tabla 7.1 representa las coincidencias entre dos observadores que tienen que clasificar en dos niveles I o II, una serie de datos. Hay un total de n datos, de los cuales los dos observadores coinciden en clasificar en la opción I a A datos y también coinciden en clasificar en la opción II a D casos. C y B representan el número de casos en los que no hay acuerdo en las clasificaciones, El primer observador clasifica a C datos en la opción I, el segundo observador clasifica a estos mismos C datos en la opción II; el primer observador clasifica a B datos en la opción II, mientras que el segundo observador clasifica a estos mismos B datos en la opción I. La tabla anterior también es válida para el
DIAGNÓSTICO
193
cálculo de la concordancia de un observador consigo mismo. En este caso habría que considerar en lugar de primer observador primera observación y en el lugar de segundo observador segunda observación. La proporción de acuerdos observados (Po) es:
A partir de la Tabla 7.1 construimos la Tabla 7.2 con los valores esperados bajo el supuesto de que la clasificación se hubiera realizado al azar. FRECUENCIAS ESPERADAS POR AZAR
Tabla 7.2.
A' Y D' representan los acuerdos esperados simplemente por azar. El valor de A' se obtiene mediante la siguiente expresión:
El valor de D' se obtiene mediante la siguiente expresión:
La proporción de acuerdos esperados por azar (PE) es:
194
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Una vez calculadas las proporciones observadas y esperadas aplicando la expresión 7-1 podemos calcular el índice Kappa. El índice Kappa puede calcularse a partir de la tabla de frecuencias observadas mediante la siguiente expresión:
Las clasificaciones observadas pueden considerarse como una muestra de un número mayor de observaciones realizadas por los mismos observadores o por el mismo observador, dependiendo de los casos. Teniendo en cuenta la consideración anterior el índice Kappa observado se puede considerar como una estimación del valor Kappa poblacional que sería el hipotético índice de una serie infinita de observaciones. El error estándar del índice Kappa puede calcularse mediante la siguiente expresión:
Algunos autores (11) han clasificado la bondad de la concordancia en función del valor del índice Kappa (Tabla 7.3):
Tabla 7.3.
En general podemos decir que la concordancia es buena si el valor de Kappa es mayor de 0,60 y mala si es menor de 0,30.
Intervalos de confianza del índice Kappa En el caso de que Po, (1-P0), PE Y (I-PE) sean simultáneamente mayores de 0,05, el cálculo de intervalos de confianza para Kappa puede realizarse según la siguiente expresión (7):
DIAGNÓSTICO
195
En la expresión anterior K es el índice Kappa estimado, Z es la abscisa de la curva normal tipificada, a es el error con el que se calcula el intervalo, para un intervalo con una confianza del 95% Zα/2 toma el valor 1,96.
Comparación de dos índices Kappa La comparación de dos índices Kappa puede realizarse mediante el siguiente contraste de hipótesis:
El estadístico de contraste a utilizar es el siguiente:
∧
∧
En la expresión anterior K 1 y K 2 son los índices que se desea comparar, S2K1, 2 y S K2, son las varianzas de los índices Kappa que intervienen en el contraste, Z es la abscisa de la curva normal tipificada, la expresión 7-9 indica que el estadístico de contraste se distribuye según una curva normal tipificada. Ejemplo 7.1. En un estudio sobre concordancia se pide a dos cardiólogos que valoren independientemente cien electrocardiogramas y los clasifiquen en dos grupos, normales y patológicos. Los resultados obtenidos son los de la Tabla 7.4. CLASIFICACIÓN OBSERVADA
Tabla 7.4.
196
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Los acuerdos obtenidos son los correspondientes a las casillas primera y cuarta, que suman: 45 + 30 = 75. Dividiendo por el total, que en este caso es cien, la proporción de acuerdos observados (Po) es de 0,75. En porcentaje el 75% de los electrocardiogramas han sido clasificados de la misma manera por los dos cardiólogos. El valor esperado de cada casilla se obtiene multiplicando sus totales marginales y dividiendo el producto por el total, El valor esperado de la primera casilla es:
Los resultados obtenidos bajo la base del azar son:
Tabla 7.5. CLASIFICACIÓN ESPERADA
El número de acuerdos esperados bajo la base del azar es 33 más 18 dividido por 100, lo que es igual a 0,51. PE - 0,51 el porcentaje de resultados esperados bajo la hipótesis de clasificación al azar es 51%. No siempre es el 50%, incluso a veces la desviación del 50% puede ser grande. El índice Kappa lo calculamos aplicando la expresión 7-1:
Asumiendo que las observaciones realizadas son una muestra representativa de un número grande de observaciones realizadas por los mismos observadores, podemos calcular un intervalo de confianza del 95% para Kappa aplicando la fórmula 7,8:
DIAGNOSTICO
197
El intervalo de confianza al 95% para Kappa es:
El valor de Kappa es bastante discreto, por lo tanto podemos concluir que la concordancia entre los dos observadores no es muy grande. En este apartado hemos analizado los problemas de las medidas clínicas y su concordancia. Incluso en el caso de clasificaciones simples y sobre pruebas tangibles, los acuerdos sobre medidas con una carga subjetiva mayor como intensidad de soplos, disneas, etc. serían mucho menores. Alo largo del libro veremos que las discrepancias sobre diagnósticos, valorando simultáneamente varias pruebas o la toma de decisiones terapéuticas cuando se pregunta a varios facultativos, son mucho mayores, lo cual debe hacernos reflexionar sobre la importancia de avanzar en la objetivación cada vez mayor de la información clínica. NORMALIDAD, ANORMALIDAD Y PATOLOGÍA DE LOS DATOS CLÍNICOS Sobre la terminología normal, anormal y patológico referido a los resultados de los datos clínicos existe una gran confusión. Muchos profesionales de las ciencias de la salud confunden anormalidad con patología y normalidad con no patología, lo cuál no es correcto en muchas ocasiones. Un dato debe considerarse normal cuando es relativamente frecuente. No debe confundirse que un dato sea normal con que, en la población de referencia, la distribución de los datos sea aproximada a la curva normal, también denominada curva de Gauss, que es muy utilizada en cálculos estadísticos. Muchas variables se distribuyen de forma aproximada a la curva normal, incluidas algunas variables clínicas. En la Figura 7.1 se representa la curva normal tipificada y los puntos entre los cuales se encuentran el 95% de los valores de una distribución normal. Una de las características de la curva normal es que entre la media más 1,96 veces la desviación típica y la media menos 1,96 veces la desviación típica, se encuentran el 95% de los datos de la distribución centrados en la media. Por ejemplo si en una población la talla se distribuye normalmente con media 160 cm
198
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Figura 7.1. Curva normal tipificada.
y desviación típica 10 cm, el 95% de las tallas de dicha población se encuentran3 entre 140,4 y 179,6 cm. Antes de la difusión de la informática, durante muchos años, debido a las dificultades de cálculo y de representación gráfica, se consideraba que las variables se distribuían normalmente excepto en el caso de que se alejaran mucho de la curva y esto ha llegado a nuestros días. Hay muchas variables clínicas que se distribuyen de forma aproximadamente normal, pero otras se alejan bastante de esta curva4 como la hemoglobina, la fosfatasa alcalina, la edad de la primera maternidad, etc. Pero actualmente esto no debe importarnos puesto que sea cual sea la distribución de la variable, los ordenadores nos permiten calcular los límites de inclusión que queramos y representar gráficamente la curva. Consideraremos como normales en el sentido de frecuentes al 95% de los datos centrados en la media. Para conocer los límites de inclusión calcularemos los percentiles 2,5 y 97,5. En la curva normal, como indicamos anteriormente, el percentil 2,5 se obtiene restando a la media 1,96 veces la desviación típica y el percentil 97,5 se obtiene sumando a la media 1,96 veces la desviación típica. En otras curvas el cálculo (12) es más complejo, pero cualquier paquete estadístico los calcula rápidamente. El que un dato sea normal no significa que no sea patológico. 3
Esto no es un intervalo de confianza, en el Capítulo 2 se explicó con detalle y ejemplos la diferencia entre intervalo de confianza y limites de inclusión. 4 El que una variable no se distribuya normalmente, afecta al cálculo de los límites de inclusión, pero en estadística analítica, si las muestras son mayores de 30, la distribución de la media muestral puede considerarse normal (ver Capítulo 2).
DIAGNOSTICO
199
Consideraremos datos anormales los menores del percentil 2,5 o los mayores del percentil 97,5. El que un dato sea anormal no significa necesariamente que sea patológico. Consideraremos valores patológicos de un dato clínico, respecto a una determinada enfermedad, a los que aumenten el riesgo de padecerla, respecto a otros valores. La mayoría de los laboratorios de análisis clínicos incluyen junto a los resultados de una analítica, los límites de inclusión del 95% de los datos5, estos valores son considerados como límites patológicos e incluso terapéuticos. Muchos facultativos, cuando un valor se sale de los límites indicados por el laboratorio, aplican tratamiento, y en bastantes ocasiones esta actuación puede ser errónea. Un valor patológico para una determinada enfermedad puede ser protector para otra; valores menores de 190 mg/100 ml de colesterol basal son protectores de la enfermedad coronaria, pero de riesgo para la depresión. Antes de poner tratamiento, incluso aunque sea una simple dieta, hay que tener en cuenta muchos factores, a favor y en contra. El ser humano es un sistema biológico complejo y corregir un pequeño desajuste aparentemente sin importancia puede producir alteraciones muy importantes. Hay que estar muy seguros de que el beneficio a obtener es grande y los riesgos despreciables, antes de una intervención terapéutica. En los Capítulos 10 y 11 abordaremos en profundidad éste importantísimo tema. Algunos autores (13) consideran como anormales los valores patológicos y normales los no patológicos, aunque es un problema semántico. En el idioma español el termino anormal es entendido como infrecuente (14), y normal como usual o frecuente. Posiblemente en otros idiomas serían posibles otras definiciones, pero no en el nuestro. Los conceptos normal y anormal hacen referencia a ámbitos, a poblaciones humanas. En ciertas regiones de África u otros lugares el padecer malaria puede ser normal, en Madrid sería anormal; pero en ambos lugares es patológico y debe intentarse la curación y erradicación de la enfermedad. En la práctica clínica diaria nos encontramos con valores anormales no patológicos y valores normales patológicos. En España, el 95% de los colesteroles básales en adultos centrados en la media oscilan entre 160 y 270 mg/100 ml. El percentil 2,5 correspondería al valor 160yel valor 277 al percentil 97,5, siendo la media 220 mg/100 ml. Enel caso del colesterol los valores normales en sentido de frecuencia están comprendidos entre 160 y 270 mg/100 ml. Muchos autores consideran que un colesterol mayor de 220 debe de ser controlado y por encima de 230 tratado. En este caso, un porcentaje importante de los valores normales podrían ser patológicos en el sentido de riesgo elevado de arteriesclerosis y de enfermedad isquémica coronaria. 5 En muchas ocasiones el cálculo de los límites de inclusión en laboratorios se realiza bajo el supuesto de que la variable se distribuye normalmente, por lo tanto en algunas variables los límites de inclusión puede variar respecto a los valores reales.
200
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En nuestro país, el 95% de los valores de los trigliceridos centrados en la media oscilan entre 50 y 150 mg/100 ml. Sin embargo en los estudios consistentes que asocian a los trigliceridos con alguna patología, es a partir de valores muy altos mucho mayores de 150. Según algunos autores, solamente deben tratarse farmacológicamente a partir de 1.000 mg/100 ml. Este es un ejemplo de valores que pueden ser muy anormales, pero no patológicos. Los valores de las pruebas clínicas deben considerarse patológicos en función del riesgo y no de la frecuencia. Debe tenerse en cuenta de manera muy especial que los intervalos indicados por los laboratorios de referencia, en general, han sido calculados con criterios estadísticos y no clínicos. Regresión a la media Un fenómeno muy frecuente en clínica es encontrar de manera inesperada un valor anormal de alguna prueba complementaria. En muchas ocasiones, al repetir la prueba, encontramos que el parámetro antes anormal ahora tiene un valor normal, a esto se le denomina regresión a la media (15). Si la anormalidad era esperada según las hipótesis diagnósticas, la regresión a la media es menos probable, esta es mucho más probable si el valor anormal es inesperado. La mayoría de los autores lo explican por factores puramente aleatorios (16). En los valores anormales de T4 obtenidos en análisis rutinarios, algunos autores (17) han encontrado regresión a la media en la mitad de los casos. Ante un valor anormal inesperado o como consecuencia de un examen rutinario se recomienda comprobar el resultado antes de diagnosticar o tratar al paciente. CARACTERÍSTICAS PROBABILÍSTICAS DE LAS PRUEBAS DIAGNÓSTICAS Es frecuente que, cuando recibimos resultados positivos o negativos correspondientes a pruebas diagnósticas, no nos paremos a pensar que dichos resultados no son necesariamente exactos y que están sujetos a errores6. Dependiendo de la prueba, los errores pueden ser mayores o menores. Un clínico debe tener a mano las características probabilísticas de las pruebas diagnósticas que utilice habitualmente y consultarlas antes de tomar decisiones. Las características probabilísticas de las pruebas diagnosticas son las siguientes: Sensibilidad. Especificidad. 6 Los errores a los que nos referimos en este apartado son los aleatorios inherentes a las pruebas realizadas. Además debe tenerse en cuenta posibles errores por manipulación y registro.
DIAGNOSTICO
201
Valor predictivo positivo. Valor predictivo negativo. Además de las anteriores, aportan información clínica sus complementarios, los cuales también analizaremos. La probabilidad preprueba es la prevalencia de la enfermedad, particularizada para cada paciente. Si se realiza una prueba de esfuerzo a una mujer de 35 años, no fumadora, para estudiar una posible enfermedad coronaria, la prevalencia a considerar será aproximadamente 0,01. Si la prueba se realiza en un hombre de 62 años, fumador, con antecedentes de dolor precordial, la prevalencia a considerar será aproximadamente del 90%. En las características probabilísticas de algunas pruebas influye la prevalencia de la enfermedad. Por lo tanto este dato debe conocerse para la población de influencia del centro sanitario en el que se realicen las pruebas. Sensibilidad y proporción de falsos negativos La sensibilidad de una prueba diagnóstica respecto a una determinada enfermedad es la probabilidad de que el resultado sea positivo en una persona afectada de dicha enfermedad, su expresión matemática es:
En la expresión anterior P indica probabilidad, T+ significa prueba positiva y E enfermo. Las expresiones matemáticas son deducidas de la probabilidad condicionada7 que es su origen conceptual. Al igual que aconsejábamos en el Capítulo 4 al hablar del riesgo, en este caso tampoco aconsejamos aprender fórmulas de memoria, que solamente sirven para cálculos a partir de tablas 2 x 2 y que suponen una orientación determinada de la misma. La probabilidad condicionada expresa el concepto original. Puede aplicarse al cálculo en todas las situaciones y no sólo a partir de tablas; además supone un paso previo a la aplicación del teorema de Bayes al cálculo de probabilidades diagnósticas, cuestión que comentaremos más adelante. La probabilidad complementaria de la sensibilidad es la probabilidad de falsos negativos. Por probabilidad complementaria indicamos que entre las dos suman uno. La probabilidad de que la prueba sea negativa en un sano es la probabilidad de falsos negativos. Su expresión matemática es la siguiente: 7
Al final del libro se ha incluido un apéndice sobre probabilidad condicionada.
202
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En la expresión anterior T, significa que el resultado de la prueba es negativo. Si la sensibilidad de una prueba para una determinada enfermedad es 0,8, indica que dicha prueba será positiva en el 80% y negativa en el 20% de los afectados de dicha enfermedad.
Especificidad y falsos positivos La especificidad de una prueba diagnóstica respecto a una determinada enfermedad, es la probabilidad de que el resultado sea negativo en una persona no afectada por la enfermedad de referencia, su expresión matemática es:
En la expresión anterior P indica probabilidad, T significa prueba negativa y NE no enfermo. La probabilidad complementaria de la especificidad es la probabilidad de falsos positivos. Por probabilidad complementaria indicamos que entre las dos sumen uno. La probabilidad de que la prueba sea positiva en un no afectado por la enfermedad de referencia es la probabilidad de falsos positivos, y su expresión matemática es la siguiente:
En la expresión anterior T+, significa que el resultado de la prueba es positivo. Si la especificidad de una prueba para una determinada enfermedad es 0,9, eso indica que dicha prueba será negativa en el 90% y positiva en el 10% de los no afectados.
Valor predictivo positivo El valor predictivo positivo de una prueba diagnóstica para una determinada enfermedad es la probabilidad de que una persona, en la que la prueba es
DIAGNÓSTICO
203
positiva, padezca la enfermedad de referencia. A esta característica también se la denomina probabilidad post prueba de estar enfermo. La probabilidad de estar enfermo antes de realizar la prueba es la prevalencia de la enfermedad ajustada a las características del paciente. Una vez realizada la prueba, si esta ha sido positiva, la probabilidad de que el paciente padezca la enfermedad es el valor predictivo positivo. Se trata de un parámetro muy importante en clínica. La expresión matemática para el cálculo del valor predictivo positivo es la siguiente:
En el cálculo del valor predictivo positivo (VPP) influye la prevalencia. El utilizar valores de la prevalencia distintos a la población de referencia puede dar lugar a importantes errores de interpretación diagnóstica. Insistimos en que la prevalencia a utilizar no debe ser la prevalencia general de la enfermedad, sino la particularizada a las características del paciente. Si nos dicen que el valor predictivo positivo de una prueba es 0,85, eso significa que después de realizada la prueba, si el resultado es positivo, hay un 85% de probabilidad de que el paciente padezca la enfermedad, y un 15% de que no la padezca. Supongamos que en Madrid la prevalencia de HIV+ en la población general es de 0,004, en las personas entre 40 y 60 años sin riesgos conocidos es del 0,001 y entre los drogadictos o exdrogadictos por vía intravenosa, es de 0,7. Si realizamos una prueba diagnóstica a un hombre de 45 años sin riesgos conocidos y otra a un drogadicto por vía intravenosa, en el cálculo de los respectivos valores predictivos positivos utilizaremos los valores de la prevalencia correspondientes a sus subpoblaciones 0,001 y 0,7 respectivamente. El uso de la prevalencia en la población general lo utilizaremos, si no disponemos de otros datos, pero siendo conscientes de que el cálculo puede alejarse bastante de la realidad. Una característica complementaria del VPP que no tiene nombre especial, es la probabilidad de que una persona no padezca la enfermedad de referencia si la prueba ha sido positiva. Su expresión matemática es la siguiente:
204
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Antes de tomar decisiones a la vista de un resultado positivo en una prueba diagnóstica, calcule el VPP En algunas ocasiones el resultado le sorprenderá.
Valor predictivo negativo El valor predictivo negativo de una prueba diagnóstica para una determinada enfermedad es la probabilidad de que una persona, en la que la prueba es negativa, no padezca la enfermedad de referencia. A esta característica también se la denomina probabilidad post prueba de no estar enfermo. La probabilidad de no padecer la enfermedad antes de realizar la prueba es uno menos la prevalencia de la enfermedad, ajustada a las características del paciente. Una vez realizada la prueba, si esta ha sido negativa, la probabilidad de que el paciente no padezca la enfermedad es el valor predictivo negativo, al igual que el valor predictivo negativo es un parámetro muy importante en clínica. La expresión matemática para el cálculo del valor predictivo negativo es la siguiente:
En el cálculo del valor predictivo negativo (VPN) influye la prevalencia. El utilizar valores de la prevalencia distintos a la población de referencia puede dar lugar a importantes errores de interpretación diagnóstica. La prevalencia a utilizar no debe ser la prevalencia general de la enfermedad, sino la particularizada a las características del paciente. Si nos dicen que el valor predictivo negativo de una prueba es 0,75, eso significa que después de realizada la prueba, si el resultado ha sido negativo, hay un 75% de probabilidad de que el paciente no padezca la enfermedad, y un 25% de que la padezca, Una característica complementaria del VPN, que no tiene nombre especial, es la probabilidad de que una persona padezca la enfermedad de referencia si la prueba ha sido negativa. Su expresión matemática es la siguiente:
Ante un resultado negativo es necesario conocer el valor PN y su complementario.
DIAGNÓSTICO
205
DETERMINACIÓN DE LOS VALORES DE LA SENSIBILIDAD Y DE LA ESPECIFICIDAD Un problema importante y que no siempre se puede resolver con la precisión deseada es el cálculo de la sensibilidad y de la especificidad de las pruebas diagnósticas. A partir de estos valores podremos calcular los valores predictivos, positivos y negativos particularizados para cada caso. Cuando aparece una prueba diagnóstica nueva8 debemos calcular sus valores característicos. Para ello debemos probarla con una muestra amplia de personas, en las que sepamos con la máxima seguridad posible si padecen o no la enfermedad sobre la que queremos ensayar la nueva prueba. En la caracterización de la nueva prueba deben participar personas de las que habitualmente encontramos en la clínica, enfermos, sanos y casos dudosos. Un sesgo de selección que se puede producir, y como consecuencia obtener parámetros erróneos, es incluir solamente personas claramente enfermas y personas claramente sanas. En el párrafo anterior hemos indicado que, para conocer los valores característicos de una prueba diagnóstica, debemos probarlas con personas cuyo estado de salud respecto a la enfermedad de referencia es conocido. Esto es bastante convincente, pero, si ya conocemos su estado de salud, ¿que sentido tiene la nueva prueba? Consideraremos verdaderos enfermos a aquellos que por haberles realizado pruebas que consideramos definitivas, como biopsias, ha podido confirmarse su enfermedad. A veces tenemos datos sobre los resultados de la prueba en paciente que tras su fallecimiento, en autopsias comprobamos la presencia o ausencia de enfermedad. En otras ocasiones disponemos de pruebas diagnósticas casi perfectas, pero pueden ser peligrosas y/o muy caras. A la mejor prueba disponible la denominamos estándar de oro (18), y respecto a ella validaremos la nueva. Por ejemplo en la enfermedad coronaria el estándar de oro es la coronariografía, en la artritis gotosa la biopsia articular, etc. Los resultados obtenidos son estimaciones muéstrales referidas al ámbito donde se han realizado y deben acompañarse de sus respectivos intervalos de confianza. Al realizar las interpretaciones debe tenerse en cuenta esta circunstancia. Los valores de la sensibilidad y de la especificidad de una prueba diagnóstica son característicos de la misma, independientes de la prevalencia de la enfermedad y en teoría no deben modificarse (19) si se realizan en las condiciones técnicas adecuadas. Pero si un centro sanitario decide utilizar una nueva prueba diagnóstica, es aconsejable comprobar que los valores de la sensibilidad y de la especificidad indicados por el fabricante no difieren mucho de los obtenidos en el nuevo ámbito. Esto es válido para pruebas en las que el resultado no dependa de la pericia del facultativo para interpretarla y sería válido para prue8
Cuando hablamos de pruebas diagnósticas, no siempre tienen que ser complejas pruebas de laboratorio. Puede ser una maniobra clínica, como el signo de Blumberg.
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
206
bas bioquímicas y algunas otras en las que no influyan elementos subjetivos. La interpretación de una radiografía en el diagnóstico de la tuberculosis, o de un electrocardiograma, no pueden considerarse independientes del interpretador. Sería un grave error considerar la sensibilidad o especificidad de las interpretaciones radiológicas o electrocardiográficas de la clínica Mayo o del Houston Hospital como valores mundialmente válidos, ni de referencia para otros centros. La sensibilidad y la especificidad de una prueba diagnóstica pueden variar en función del estadio de la enfermedad (20). Ejemplo 7.2. Una nueva prueba para diagnosticar el carcinoma de próstata es propuesta. Se dispone de 212 personas a las que se les ha realizado una biopsia de próstata considerada como estándar oro para esta enfermedad. Consideramos como enfermos (E) aquellos en los que la biopsia es positiva y no enfermos (NE) aquellos en los que la biopsia es negativa. Los resultados obtenidos se expresan en la Tabla 7.6.
Tabla 7.6.
Sensibilidad = P(T+/E) = 70/80 = 0,875 Especificidad = P(T -/NE) = 120/132 = 0,91 Prop. falsos positivos = P(T+/NE) = 12/132 = 0,09 Prop. falsos negativos = P(T -/E) = 10/80 = 0,125 La sensibilidad (5) y la especificidad (ES) son probabilidades. Calculamos sus respectivos intervalos de confianza, aplicando las fórmulas descritas en el Capítulo 3. S ∈ (0,83 - 0,92) 95% de confianza. ES ∈ (0,87 - 0,95) 95% de confianza. Hay un 95% de probabilidad de que la prueba sea positiva entre el 83 y el 92% de los pacientes afectados de carcinoma de próstata. Hay un 95% de probabilidad de que la prueba sea negativa entre el 87 y el 95% de los pacientes no afectados de carcinoma de próstata. No calculamos los valores predictivos, puesto que los datos anteriores no son una muestra al azar de la población de referencia. Para el cálculo de dichos
DIAGNÓSTICO
207
valores es necesario conocer los valores de la prevalencia, en este caso los pacientes son una serie de los que se conoce la biopsia, pero la proporción de carcinomas de próstata no se corresponde con los de la población atendida (afortunadamente). Este es un error relativamente frecuente en el cálculo de valores predictivos. En el apartado correspondiente a la aplicación del teorema de Bayes a la caracterización de las pruebas diagnósticas, veremos que una vez conocida la prevalencia, la sensibilidad y la especificidad de una prueba, se pueden calcular los valores predictivos, una vez conocida la prevalencia en la población de referencia correspondiente. RELACIÓN ENTRE LA SENSIBILIDAD Y LA ESPECIFICIDAD. CURVAS ROC La prueba ideal debe tener de forma simultánea una sensibilidad igual a 1 (lo que garantiza que en todos los enfermos la prueba será positiva) y una especificidad igual a 1 (lo que garantiza que en todos los no afectados por la enfermedad de referencia la prueba será negativa). Pero no disponemos en la actualidad de pruebas tan perfectas, la sensibilidad y la especificidad no son complementarias pero sí están relacionadas. Si queremos una sensibilidad muy alta, tendremos que perder especificidad y viceversa. Según los casos, usaremos pruebas muy sensibles o muy específicas. El índice de Youden (21) relaciona la sensibilidad y la especificidad según la siguiente expresión:
Se considera que una prueba diagnóstica en general no es útil si su índice de Youden es igual o menor que cero. En los casos en que no queramos que se nos escape ningún caso, porque ello podría tener consecuencias graves, como en los cribados para el diagnóstico precoz, o en la sospecha de enfermedades graves, pero tratables como meningitis bacteriana, tuberculosis pulmonar y algunos cánceres, debemos utilizar una prueba muy sensible. , Cuando tratemos de confirmar un diagnóstico usaremos una prueba muy específica. Si la especificidad es del 100%, un resultado positivo confirma el diagnóstico, ya que si la especificidad es del 100%, la proporción de falsos positivos es cero. La prueba de Western-Blott para la determinación de anticuerpos frente al HIV tiene una especificidad del 100%, un resultado positivo con esta prueba es una confirmación de la presencia de anticuerpos frente al virus HIV en la sangre del paciente.
208
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Teniendo en cuenta que la prueba ideal no existe, el clínico deberá escoger la prueba adecuada a cada caso. La relación entre la especificidad y la sensibilidad de cada prueba puede representarse gráficamente, obteniendo una curva característica denominada curvas ROC (Receiver-Operating Characteristic). La probabilidad de padecer artritis gotosa depende de la uricemia (22). En la tabla siguiente mostramos la sensibilidad y la especificidad de la uricemia, considerada esta como prueba diagnóstica en la artritis gotosa.
Tabla 7.7. Relación entre la sensibilidad y la especificidad, para la uricemia como prueba diagnóstica de la gota.
En la tabla anterior podemos observar el compromiso entre sensibilidad y especificidad. Si consideráramos que una uricemia mayor de 7 mg/100 ml es un límite adecuado para diagnosticar a un paciente de gotoso, incluiríamos al 80% de los gotosos (un 20% tienen uricemias menores); el 96% de los no gotosos serían considerados correctamente, pero el cuatro por ciento de los no gotosos serían considerados enfermos de gota. Nos gustaría acertar en el 100% de los diagnósticos, pero ello no es posible en la mayoría de los casos. El médico debe aspirar a acertar en el máximo número posible de diagnósticos exactos, y para ello debe adaptar su mente al razonamiento probabilístico. En la actualidad sólo basándose en este conseguirá los mejores resultados posibles. A partir de la tabla anterior calcularemos la curva característica de la uricemia como prueba diagnóstica de la uricemia, la cual reproducimos en la Figura 7.2. DETERMINACIÓN DE LOS VALORES PREDICTIVOS. TEOREMA DE BAYES En la determinación de los valores predictivos es necesario conocer la prevalencia de la enfermedad particularizada para cada caso. En el ejemplo
DIAGNOSTICO
209
Figura 7.2. Relación entre sensibilidad y especificidad. Valores de ácido úrico en mg/100 ml.
7-2 calculamos la especificidad y la sensibilidad de una prueba diagnóstica a partir de un grupo de personas. En esa ocasión no calculamos los valores predictivos, puesto que aunque matemáticamente era posible la prevalencia de la enfermedad, no era conocida. No sería práctico extraer una muestra amplia de personas de una población y a partir de ella calcular los valores predictivos. La mayoría de las enfermedades tienen una prevalencia baja y haría falta una muestra muy grande para tener una representación adecuada de enfermos; por otra parte, debe utilizarse la prevalencia adaptada a cada caso. Si la enfermedad a diagnosticar es el carcinoma de colon, no podemos considerar la misma prevalencia si el paciente tiene treinta años que si tiene setenta. Conseguir una muestra de la población que nos permita conocer con la debida precisión la prevalencia de la enfermedad, particularizada para los principales segmentos de la población, sería muy complejo. Y someterlos después a una prueba diagnóstica y en ocasiones a dos, alguna de las cuales puede ser peligrosa o cara, sería una labor prácticamente irrealizable. Afortunadamente contamos con una herramienta de cálculo que nos resuelve muchos problemas: el teorema de Bayes9. Conocidas la sensibilidad, la especificidad y la prevalencia, podemos calcular de una manera relativamente sencilla los valores predictivos. Comprender que los valores predictivos no dependen de la prueba en su totalidad y que están muy relacionados con la prevalencia no es sencillo. En los siguientes ejemplos trataremos de aclarar estas ideas. 9
En el apéndice dos ha sido incluida la teoría del teorema de Bayes y algunos ejemplos.
210
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Ejemplo 7.3. Supongamos que tenemos una prueba diagnóstica con una especificidad del 0,99 y una sensibilidadad de 1. Habrá por tanto un falso positivo por cada 100 personas. Supongamos que la enfermedad tiene una prevalencia del uno por mil, si aplicamos la prueba a 100.000 personas, entre ellos habrá 100 enfermos. La prueba habrá resultado positiva en los 100 enfermos puesto que la sensibilidad es 1, pero habrá resultado positiva en el 1% de los 99.900 sanos, que son 999. El total de positivos es 1.099; los 100 enfermos y los 999 falsos positivos. En la que quedan reflejados los resultados:
Tabla 7.8.
Observe que de los 1.099 positivos sólo 100 están enfermos, la mayoría son falsos positivos ¡y eso que la prueba es casi ideal! En las pruebas diagnósticas de uso habitual en la práctica la sensibilidad y la especificidad son mucho menores y por lo tanto los errores aleatorios son mayores. El valor predictivo positivo es la probabilidad de padecer la enfermedad si el resultado de la prueba es positivo en este caso es:
En el caso anterior, aunque la prueba sea positiva, la probabilidad de padecer la enfermedad es sólo del 9%, ¡y esto teniendo en cuenta que la prueba es casi ideal, máxima sensibilidad y 0,99 de especificidad! Supongamos que realizamos la misma prueba a otras 100.000 personas, en una población en la que la prevalencia de la enfermedad es del 1%. En este caso, entre las 100.000 personas habrá mil enfermos, la prueba será positiva en los mil enfermos y en el 1% de los 99.000 sanos, que son 990, en total habrá 1.990 positivos. En la Tabla 7.8 se exponen los resultados:
DIAGNOSTICO
211
Tabla 7.9.
En la tabla podemos ver que en esta ocasión, de los 1.990 positivos, 1.000 están enfermos. El valor predictivo positivo en este caso es:
Compare las dos probabilidades obtenidas a partir de la misma prueba y el efecto de la prevalencia sobre el resultado. Al interpretar resultados diagnósticos es fundamental para el cálculo conocer la prevalencia adaptada a cada caso, de lo contrario los errores pueden ser muy importantes. Las prevalencias tomadas de otras poblaciones distintas de donde se realizan las pruebas no son válidas. En el presente ejemplo, a pesar de haber utilizado la misma prueba y de que sus características sean casi ideales, las diferencias probabilísticas son muy distintas, sólo por el hecho de que la prevalencia es distinta. El valor predictivo positivo P (E/T+), aplicando el teorema de Bayes, puede calcularse a partir de la siguiente expresión:
En el Apéndice 2 ha sido incluido un estudio amplio del teorema de Bayes, incluyendo la deducción de las expresiones para el cálculo de los valores predictivos. En la expresión anterior P (T+/E) es la sensibilidad, P (E) es la probabilidad de estar enfermos, la prevalencia que debe ser particularizada a cada caso, P (T+/NE) es la proporción de falsos positivos y P(NE) es la probabilidad de no estar enfermo. El valor predictivo negativo P (NE/T -), aplicando el teorema de Bayes, puede calcularse a partir de la siguiente expresión:
212
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En la expresión anterior P (T' -/NE) es la especificidad, P (T'/E) es la proporción de falsos negativos, P(E) es la prevalencia y P (NE) es la probabilidad de estar sano antes de realizarse la prueba. Ejemplo 7.4. Con objeto de conocer los valores predictivos de una prueba diagnóstica, se realiza un estudio en 20.000 personas. La prevalencia de la enfermedad es del dos por mil. La sensibilidad de la prueba es 1 y la especificidad 0,99. Los resultados obtenidos se expresan en la Tabla 7.10.
Tabla 7.10.
El valor predictivo positivo es:
Aunque la prueba sea positiva, la probabilidad de que una persona esté enferma es solamente 0,167. Observe que la prueba es casi perfecta sensibilidad 1 y especificidad 0,99, El valor predictivo negativo es:
Si el resultado de la prueba es negativo, podemos estar seguros de que la persona está sana. En otra población en la que la prevalencia es del 2%, se extrae una muestra de 20.000 personas, a las que se somete a un estudio con la misma prueba. Los resultados obtenidos están en la Tabla 7.11.
DIAGNÓSTICO
213
Tabla 7.11.
El valor predictivo positivo es:
Si la prueba es positiva, la probabilidad de que una persona esté enferma es 0,67. El valor predictivo negativo es:
Si el resultado de la prueba es negativo, podemos estar seguros de que la persona está sana. Los valores predictivos positivos calculados con la misma prueba en poblaciones con distinta prevalencia son muy distintos. En el primer caso la probabilidad es pequeña, 0,167, y en el segundo la probabilidad es mucho mayor 0,67. El valor predictivo es la unidad puesto que la sensibilidad de la prueba es la máxima y no hay falsos negativos, lo cuál en la práctica ocurre pocas veces. En los casos anteriores se supone que hemos seleccionado grandes muestras. La prueba ha sido aplicada a todos los casos, y posteriormente hemos calculado los valores predictivos. Realizar un estudio de este tipo sería carísimo y además no es necesario. Si conocemos la sensibilidad, la especificidad y la prevalencia, podemos calcular directamente los valores predictivos aplicando el teorema de Bayes. La sensibilidad de la prueba es 1 y la especificidad 0,99, la prevalencia en la primera población es 0,001. El valor predictivo positivo en la primera población, aplicando el teorema de Bayes es:
214
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En la expresión anterior hemos incluido el valor de la sensibilidad 1, en su lugar correspondiente, aunque al estar multiplicando no era necesario. Para que el lector pueda comprobar el valor de cada elemento de la expresión 7-18. El resultado obtenido es exactamente igual al obtenido mediante la tabla, y algún lector podría pensar que es más fácil el cálculo a partir de la tabla, pero no es esa la cuestión. La ventaja de la aplicación del teorema de Bayes es que nos evita realizar estudios sobre muestras amplias de la población. El cálculo del valor predictivo positivo en la segunda población, a partir del teorema de Bayes es el siguiente:
Al igual que en el caso anterior por motivos didácticos hemos incluido el valor de la sensibilidad 1. Como el lector ha podido comprobar el teorema de Bayes es una herramienta muy útil para el cálculo de valores predictivos. Recuerde que para calcular valores predictivos hay que aplicar en cada caso la prevalencia adaptada a la características del paciente, si este dato no es conocido los errores que se pueden cometer por asumir valores no reales pueden ser muy grandes. Paradoja del médico pluriempleado La influencia de la prevalencia en las probabilidades post prueba es tan importante que, si un facultativo cambia de lugar de trabajo, puede ocurrir que ante un resultado positivo informe a un paciente de que la probabilidad de padecer una determinada enfermedad es elevada, y en otro lugar en el que la prevalencia sea distinta a un paciente de las mismas características le informe de que la probabilidad de padecer la enfermedad sea pequeña. Esta paradoja a la que he denominado: "la paradoja del médico pluriempleado" es importante que sea comprendida en toda su extensión por cualquier médico clínico, espero que el siguiente ejemplo aclare este importante concepto. Ejemplo 7.5. Un facultativo pluriempleado por la mañana pasa consulta en una clínica que atiende a una población en la que la prevalencia de hepatitis B persistente en adultos de 18 a 40 años es del uno por mil. Por la tarde atiende una consulta en otra clínica en la que la prevalencia de hepatitis B persistente en pacientes con las mismas características descritas anteriormente es del 30%, El facultativo para confirmar la sospecha diagnóstica de hepatitis B utiliza la misma prueba complementaria por la mañana y por la tarde. Las características de la prueba utilizada son: sensibilidad 0,93 y especificidad 0,90.
DIAGNOSTICO
215
En la consulta de la mañana recibe a un paciente de 20 años al que se realiza la prueba diagnóstica para detectar hepatitis B persistente, siendo el resultado positivo. El mismo día por la tarde recibe a un paciente de 20 años en el que la prueba diagnóstica para la hepatitis B persistente ha sido positiva. Al paciente de la mañana le dice que a pesar de que la prueba haya sido positiva, lo más probable es que no padezca hepatitis B persistente. Al paciente de por la tarde le dice que lo más probable es que tenga una hepatitis B persistente. ¿Como es posible que el mismo médico a pacientes con características iguales y a los que ha realizado la misma prueba diagnóstica con resultados idénticos haya hecho dos diagnósticos distintos? La respuesta está en las distintas prevalencias. Aplicando la expresión 7-18 calculamos el valor predictivo positivo para el primer paciente:
La probabilidad de que el paciente de la mañana tenga una hepatitis B persistente, aunque el resultado de la prueba haya sido positivo, es muy pequeña. Aplicando la expresión 7-18, calculamos el valor predictivo positivo para el segundo paciente:
La probabilidad de que el paciente de por la tarde tenga una hepatitis B persistente es muy alta. Las conclusiones del ejemplo anterior pueden ser aplicadas a facultativos que trabajen en un hospital y trasladen su residencia a otro en el que las prevalencias de algunas enfermedades sean distintas, RAZONES DE PROBABILIDAD Las razones de probabilidad permiten el cálculo de los valores predictivos como alternativa al teorema de Bayes10. Es necesario conocer la sensibilidad, la especificidad y la prevalencia particularizada a cada caso, por lo tanto los ele10
Es recomendable aprender el teorema de Bayes y las técnicas de decisión bayesiana, puesto que son aplicables en muchos campos de las ciencias de la salud.
216
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
mentos necesarios son los mismos que para la aplicación del teorema de Bayes. Al cociente entre la prevalencia P (E) y su complementario 1-P (E), lo denominaremos razón de prevalencia (RP). La prevalencia es la probabilidad de estar enfermo, y su complementario la probabilidad de no padecer la enfermedad de referencia.
Al cociente entre la sensibilidad (S) y la proporción de falsos positivos (PFP), lo denominaremos razón de cocientes positivos (RC+), la proporción de falsos positivos (PFP) es el complementario de la especificidad (ES), por lo tanto:
La mayoría de los autores realizan los cálculos a partir de la sensibilidad y de la especificidad, y así lo haremos aquí; en lugar de PFP utilizaremos 1-ES. La razón de cocientes positivos (RCP) es:
Al cociente entre la proporción de falsos negativos (PFN) y la especificidad (ES) lo denominaremos razón de cocientes negativos (RCN). La proporción de falsos negativos es el complementario de la sensibilidad, por lo tanto:
En las cálculos en lugar de PFN utilizaremos 1- 5. La razón de cocientes negativos es:
DIAGNÓSTICO
217
Al producto de la razón de prevalencia (RP) y de la razón de cocientes positivos (RCP) lo denominaremos producto positivo (PP). Sustituyendo la RP y la RCP por sus valores según las expresiones 7-20 y 7-22 respectivamente, el producto positivo (PP) puede expresarse como:
El valor predictivo positivo P (E/T+) se puede calcular en función del PP según la siguiente expresión:
Sustituyendo en la expresión anterior el producto positivo por su equivalencia, según la expresión 7-24, obtendremos una expresión para el valor predictivo positivo en función de la prevalencia, la sensibilidad y la especificidad:
Al producto de la razón de prevalencia (RP) y de la razón de cocientes negativos (RCN) lo denominaremos producto negativo (PN). Sustituyendo la RP y la RCN por sus valores según las expresiones 7-20 y 7-23 respectivamente, el producto negativo (PN) puede expresarse como:
El valor predictivo negativo P (NE/T -) se puede calcular en función del PN según la siguiente expresión:
218
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Despejando el valor predictivo negativo en la expresión anterior:
Sustituyendo en la expresión anterior el producto negativo por su equivalencia, según la expresión 7-27, obtendremos una expresión para el valor predictivo negativo en función de la prevalencia, la sensibilidad y la especificidad:
Las expresiones 7-26 y 7-30 nos permiten el cálculo del valor predictivo positivo y del valor predictivo negativo, en función de la sensibilidad, la especificidad y la prevalencia, sin necesidad de aplicar el teorema de Bayes. La prevalencia a utilizar en las expresiones anteriores, al igual que en todas en las que queramos calcular valores predictivos, debe ser la probabilidad de padecer la enfermedad en el segmento de población del que procede el paciente. Ejemplo 7.6. Una prueba diagnóstica para el infarto de miocardio tiene una sensibilidad de 0,9 y una especificidad de 0,92. La probabilidad de que el paciente padezca la enfermedad antes de realizar la prueba, particularizada para sus características, es 0,4. Antes de realizar la citada prueba diagnóstica se calculan los valores predictivos positivos y negativos, a fin de determinar si alguno de los resultados de la prueba aclararía las dudas diagnósticas. Si ninguno de los resultados posibles de una prueba diagnóstica modifica sustancialmente la probabilidad preprueba, dicha prueba no debe llevarse a cabo. Aplicando la expresión 7-27 calculamos el valor predictivo positivo:
DIAGNÓSTICO
219
Aplicando la expresión 7-30 calculamos el valor predictivo negativo:
En este caso, cualquiera de los resultados de la prueba nos aporta una información fundamental al diagnóstico. Si la prueba es positiva, la probabilidad de que el paciente tenga un infarto de miocardio es 0,88, lo que casi es confirmatorio; si la prueba es negativa, la probabilidad de que el paciente no padezca la enfermedad es 0,93, lo que casi la descarta. Con objeto de comprobar los resultados anteriores, vamos a calcular los valores predictivos aplicando el teorema de Bayes. El valor predictivo positivo según el teorema de Bayes, lo obtenemos mediante la expresión 7-9:
Aplicando la expresión 7-10 obtenemos el valor predictivo negativo:
Los valores obtenidos mediante el teorema de Bayes son iguales a los calculados aplicando las expresiones 7-26 y 7-30. PRUEBAS DIAGNOSTICAS MÚLTIPLES Lo más frecuente después de la historia clínica y la exploración física, es someter al paciente a la realización de varias pruebas diagnósticas. Las pruebas pueden solicitarse de forma simultánea para analizarlas conjuntamente, y a esta modalidad la denominaremos pruebas múltiples en paralelo. Otra forma de realizar a un paciente varias pruebas diagnósticas es solicitarlas de forma secuencial: se espera el resultado de una determinada prueba antes de solicitar otra. Esta modalidad es denominada: pruebas en serie.
220
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Si el resultado de las pruebas es positivo en todas o negativo en todas, las posibles dudas diagnósticas desaparecerán en la mayoría de los casos, pero la unanimidad de los resultados no es lo más frecuente. Los resultados no son iguales si las mismas pruebas se realizan en paralelo o en serie. Las características de las pruebas diagnósticas comentadas anteriormente, para una sola prueba diagnóstica, pueden aplicarse a la realización de varias pruebas. En el siguiente ejemplo aclararemos este concepto. Ejemplo 7.7. Interesa conocer la sensibilidad y la especificidad de la combinación en paralelo de dos pruebas diagnósticas, para lo cual se estudian trescientas personas en las que conocemos su situación de salud frente a la tuberculosis. 100 padecen tuberculosis pulmonar activa, son sometidas de forma simultánea (en paralelo), a la realización de dos pruebas diagnósticas: la primera consiste en una nueva prueba serológica, la segunda es un cultivo de esputo. Consideraremos la combinación de ambas pruebas positiva si el resultado es positivo en una de las dos o en ambas; por el contrario el resultado de la combinación será considerado negativo si las dos pruebas son negativas, De las trescientas personas anteriores, 100 tuvieron al menos una prueba positiva, de las cuales 90 padecen tuberculosis y 10 no. La sensibilidad de la combinación (SU) es la probabilidad de que al menos una de las pruebas sea positiva en un enfermo.
100
La especificidad de la combinación (EC), es la probabilidad de que todas las pruebas de la combinación sea negativa en un sano.
Pruebas múltiples en paralelo Esta modalidad de realizar pruebas complementarias es muy frecuente, sobre todo en centros hospitalarios11. Una vez realizada la historia clínica y el examen físico se solicitan de forma simultánea varias pruebas diagnósticas, citándose al paciente cuando se disponga de todos los resultados, analizándolos conjuntamente. 11 En los centros sanitarios hospitalarios, en la mayoría de los casos, se solicitan varias pruebas en paralelo. Según los resultados se solicitarán o no otras pruebas complementarias. Por lo tanto, en el acto médico hospitalario se dan, en general, las dos modalidades de pruebas múltiples.
DIAGNÓSTICO
221
La sensibilidad de la combinación de pruebas en paralelo es mayor que la de la prueba más sensible de la combinación, y por tanto disminuye la proporción de falsos negativos, por lo que el valor predictivo negativo aumenta. Si todas las pruebas son negativas, la probabilidad de que el paciente no padezca la enfermedad en estudio es mayor que si el resultado es negativo en una prueba aislada. La especificidad de la combinación de pruebas en paralelo es menor que la de la prueba menos específica de la combinación, aumenta la proporción de falsos positivos, por tanto el valor predictivo positivo disminuye. Si alguna de las pruebas es positiva, la probabilidad de que el paciente esté realmente enfermo es menor que si hubiera sido positiva una prueba de la combinación de forma aislada12. Al realizar pruebas en paralelo aumenta la probabilidad de diagnosticar a un enfermo, pero también aumenta la probabilidad de considerar como enfermo a un sano. Esta puede ser una de las razones de que en los centros hospitalarios haya un cierto sobrediagnóstico, dando la impresión de que descubren procesos que en el medio extrahospitalario habían pasado desapercibidos. La realidad puede ser que el hospital en su conjunto tenga un poder diagnóstico mayor y que también influya el sobrediagnóstico. La sabiduría popular expresa esto muy gráficamente, la gente dice: "cuando empieza de médicos no acaba" o "me encontraba muy bien, fui un día a tomarme la tensión y llevo varios meses haciéndome pruebas".
Pruebas múltiples en serie La realización de pruebas complementarias en serie se realiza tanto en el medio hospitalario como en el extrahospitalario, algunas pruebas peligrosas o caras son empleadas si otras realizadas previamente no han aclarado las dudas diagnósticas. En una serie de pruebas diagnósticas, el realizar la siguiente está condicionado por el resultado de la prueba previa; si el resultado es negativo no se realizará la siguiente, si es positivo sí. Si el resultado es indiferente para realizar la prueba siguiente, sería una combinación en paralelo independientemente de que se realicen en tiempos distintos. Consideraremos como resultado, positivo de la serie el que sea positivo en las dos pruebas de la serie. En otro caso el resultado de la serie será considerado negativo. La sensibilidad de una combinación de pruebas en serie es menor que la sensibilidad de la prueba menos sensible que participe en la serie. La proporción de falsos negativos aumenta y el valor predictivo negativo disminuye respecto a cualquiera de las pruebas de la serie que se hubiera realizado de forma aislada. La especificidad de una combinación de pruebas en serie es mayor que la especificidad de la prueba más especifica de la serie. Disminuye la proporción 12
De forma aislada quiere decir; si se hubiera realizado una sola prueba diagnóstica y tuviéramos a la vista únicamente un resultado.
222
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
de falsos positivos y aumenta el valor predictivo positivo, respecto a cualquier prueba de la serie. El riesgo de las pruebas en serie es no diagnosticar a algunos enfermos. En cambio pocos sanos serán considerados como enfermos. La sensibilidad y la especificidad de la serie, considerada en conjunto, es independiente del orden de las pruebas, pero el número de personas que tengan que someterse a más de una prueba depende del orden en que las realicemos. En el siguiente ejemplo aclararemos estos conceptos. Ejemplo 7.8. Dos nuevas pruebas serológicas a las que denominaremos A y B, son utilizadas en serie para comprobar la existencia de hepatitis C. Con objeto de estudiar las características probabilísticas de la serie se prueba con 1.000 personas, de las que conocemos de forma fehaciente la existencia o no de la enfermedad. Se realizan dos evaluaciones en una de ellas; la primera prueba es la A y la segunda la B. En la otra la primera prueba es la B y la segunda la A Si el resultado es positivo en la primera prueba, se realiza la segunda. Se considera resultado positivo de la serie un positivo en las dos pruebas. En cualquier otro caso el resultado de la serie será considerado negativo. De las mil personas participantes en la prueba trescientas padecen hepatitis C. La sensibilidad y la especificidad de las pruebas A y B se muestran en la Tabla 7.12.
Tabla 7.12.
En la primera serie se realiza primero la prueba A y son reexaminados con la prueba B los que obtengan resultado positivo, Los resultados obtenidos son los siguientes:
Tabla 7.13.
DIAGNÓSTICO
223
La sensibilidad de la prueba A es 0,9, por lo tanto será positiva en el 90% de los 300 enfermos, que son los 270 afectados de hepatitis C en los que la prueba ha sido positiva. La especificidad de la prueba A es 0,7, por lo tanto en el 70% de los 700 no afectados de hepatitis C la prueba será negativa, que son los 490 no enfermos en los que la prueba ha sido negativa. Hay 30 falsos negativos en la primera prueba que son considerados sanos. La prueba A ha sido positiva en 480 personas, de los cuales 270 están enfermos y 210 no. Estos 480 positivos se reexaminarán con la prueba B. Los resultados obtenidos son los siguientes:
Tabla 7.14.
La prueba B tiene una sensibilidad de 0,8, por lo tanto el 80% de los 270 enfermos que hay en los 480 reexaminados darán positivo en ésta prueba, que son 216. La especificidad de la prueba B es 0,9, por lo tanto el 90% de los 210 sanos reexaminados que son 189 darán negativo en esta prueba. En total hay 237 personas que han dado positivo en las dos pruebas, de las cuales 216 están enfermas y 21 no. La sensibilidad de la serie es la probabilidad de que la serie sea positiva en un enfermo. De los 300 enfermos que había al comienzo del estudio han sido diagnosticado como tales 216.
Observe que la sensibilidad de la serie es menor que la de las dos pruebas que participan en ella. Hay 30 enfermos en la primera prueba y 54 en la segunda que han sido considerados sanos el total de falsos negativos de la serie es de 84. La proporción de falsos negativos es:
La especificidad de la serie es la probabilidad de que el resultado en un sano sea negativo. De los 700 sanos que comenzaron el estudio, el resultado ha sido negativo en 679.
224
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
La especificidad de la serie es mayor que la de las dos pruebas que la componen. Hay 21 falsos positivos. La proporción de falsos positivos es:
La serie es buena para confirmar, puesto que los falsos positivos son muy raros, pero no es buena para descubrir enfermos. La sensibilidad disminuye y el riesgo de que un enfermo sea considerado sano es muy alto. A continuación probamos la segunda serie, en la que probamos en primer lugar la prueba A y en segundo la prueba B.
La sensibilidad de la prueba B es 0,8, por lo tanto será positiva en el 80% de los trescientos enfermos, que son los 240 afectados de hepatitis C en los que la prueba ha sido positiva. La especificidad de la prueba B es 0,9, por lo tanto en el 90% de los 700 sanos, que son 630, la prueba será negativa. Hay 60 falsos negativos en la primera prueba que son considerados sanos. La prueba B ha sido positiva en 310 personas, de las cuales 240 están enfermas y 70 no. Estos 310 positivos se reexaminarán con la prueba A Los resultados obtenidos son los siguientes:
La prueba A tiene una sensibilidad de 0,9, por lo tanto el 90% de los 240 enfermos que hay en los 310 reexaminados darán positivo en esta prueba, que
DIAGNÓSTICO
225
son 216. La especificidad de la prueba A es 0,7, por lo tanto el 70% de los 70 sanos reexaminados, que son 49, darán negativo en esta prueba. En total hay 237 personas que han dado positivo en las dos pruebas, de las cuales 216 están enfermos y 21 no. La sensibilidad de la serie es la probabilidad de que la serie sea positiva en un enfermo. De los 300 enfermos que había al comienzo del estudio han sido diagnosticado como tales 216.
Hay 60 enfermos en la primera prueba y 24 en la segunda que han sido considerados sanos, el total de falsos negativos de la serie es de 84. La proporción de falsos negativos es:
La especificidad de la serie es la probabilidad de que el resultado en un sano sea negativo. De los 700 sanos que comenzaron el estudio, en 679 el resultado ha sido negativo.
Hay 21 falsos positivos. La proporción de falsos positivos es:
Las características probabilísticas de la serie son iguales, el orden de las pruebas no las altera, pero hay una diferencia que a veces puede ser muy importante; en la primera serie hay que reexaminar a 480 personas, mientras que en la segunda solamente hay que reexaminar a 310. Si la prueba B fuera mucho más cara o peligrosa que la A puede ser preferible la primera serie, aunque haya que reexaminar a 480 pacientes, que son en los que se aplicará la prueba B. En la segunda serie habría que aplicar la prueba B a los mil pacientes. No hemos calculado los valores predictivos positivo y negativo, porque, aunque matemáticamente sería posible hacerlo a partir de las tablas anteriores, al no ser reales los valores de la prevalencia los resultados no serían exactos. Los valores predictivos de una serie se calculan considerando la sensibilidad y la especificidad de la serie, y considerando la prevalencia en cada caso. En el presente ejemplo hay un 30% de enfermos que es una proporción no real, válida para comprobar la sensibilidad y la especificidad, pero no para el cálculo de valores predictivos. Supongamos que en un paciente el resultado de la serie es positivo, y queremos conocer el valor predictivo positivo. Sabemos que la prevalencia de la enfermedad
226
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
en personas de sus características es 0,01, por lo tanto la proporción de sanos es de 0,99. Aplicamos la fórmula 7-18, con la sensibilidad y la especificidad de la serie, cuyos valores son 0,72 y 0,97 respectivamente (dichos valores son independientes del orden de realización de las pruebas). La prevalencia utilizada en el cálculo es 0,01, no la de la tabla que no es real. El resultado obtenido es el siguiente:
El paciente en que la serie ha sido positiva tiene una probabilidad de padecer la enfermedad de 0,195. A la hora de diseñar una serie deben tenerse en cuenta muchos factores. Si entre las pruebas que componen la serie no hay una diferencia importante en cuanto a riesgo y costo, debe realizarse en primer lugar la más específica, y el número de reexámenes será menor. SESGOS EN EL DIAGNÓSTICO Como hemos visto a lo largo del capítulo no tiene nada que ver la imagen de seguridad y cartesianismo que los médicos damos al emitir un juicio diagnóstico con la realidad. Los datos que manejamos en el diagnóstico están sujetos a errores aleatorios y metodológicos, no siempre fáciles de controlar. Los soportes del diagnóstico, la historia clínica, la exploración física y las pruebas complementarias, están sujetos a errores sistemáticos y por azar. Cuando hay casos clínicos claros, los diagnósticos son sencillos, pero hay un porcentaje importante de casos que no están claros y en ellos es en los que un estudio adecuado de las probabilidades nos puede ayudar mucho. La amenaza de los sesgos en el diagnóstico es constante y, aunque hemos hablado de ello durante el capítulo, realizaremos un pequeño resumen. En el campo del diagnóstico podemos encontrar todo tipo de sesgos y de errores aleatorios. Errores aleatorios. Aunque lo sepamos todo sobre una enfermedad y apliquemos rigurosamente las mejores técnicas diagnósticas, si la suerte no nos ayuda, podemos equivocarnos. Supongamos que disponemos de una prueba diagnóstica con una sensibilidad de 0,97, si la realizamos en un paciente enfermo y el resultado es negativo, lo cual ocurre en el 3% de los casos, podemos no diagnosticar la enfermedad. Sesgos de información o medida. Son muy frecuentes, debido en primer lugar la mala calibración de los aparatos o, su utilización por personas no cuaüfi-
DIAGNÓSTICO
227
cadas. También cuentan el estado de ánimo de los profesionales de las ciencias de la salud, el cansancio, las diferencias de interpretación de los datos diagnósticos, la asunción de características de las pruebas diagnósticas no comprobadas, la realización de cálculos erróneos etc. En España los estudios de prevalencia fiables no son muy frecuentes y en la interpretación de las pruebas diagnósticas es un dato necesario. La utilización de prevalencias inadecuadas puede originar errores. Cuando un paciente acude a un centro hospitalario por encontrarse enfermo, la tensión arterial suele elevarse debido a la excitación nerviosa. En casos de traumas sicológicos fuertes, como accidentes y enfermedades graves, es frecuente que la glucemia se eleve incluso en pacientes en los que nunca se habían objetivado hiperglucemias. Es muy frecuente inmediatamente achacar a la tensión arterial o a la hiperglucemia los trastornos clínicos observados, lo que sobredimensiona la relación de estos factores con la enfermedad. El médico que recibe al paciente no puede relacionar temporalmente la elevación de la tensión arterial o la hiperglucemia con la sintomatología. Supongamos un paciente que sufre un accidente vascular cerebral y en la sala de urgencias de un hospital se evidencia una tensión arterial de 170/95 mm Hg. En la inmensa mayoría de los casos se asociará la hipertensión observada con la enfermedad, pero podría ocurrir que el paciente fuera normotenso y la elevación de la tensión arterial fuera posterior, como consecuencia del trauma físico y sicológico sufrido y la causa del accidente vascular cerebral fuera otra. Este sesgo de medida es muy frecuente y ocasiona dos problemas: el primero es relacionar como factor causal a causas que en realidad no lo son y de esta manera no se investigan otras posibles causas; y el segundo es sobredimensionar el efecto de la tensión arterial y de la hiperglucemia con algunas enfermedades. Sesgos de selección. El conocimiento de algunos factores de riesgo puede inclinarnos erróneamente a diagnósticos si no evaluamos adecuadamente las probabilidades en cada caso. La jerga clínica actual como "este factor se asocia con esta enfermedad" o "aumenta el riesgo significativamente", son frases inexactas y pueden inclinar al error diagnóstico, las asociaciones y riesgos deben ser debidamente cuantificados para que puedan ser interpretados. En el libro hemos visto varios ejemplos en los que una fuerte asociación no implica una alta probabilidad de padecer una enfermedad, por ejemplo fumar y padecer cáncer de pulmón. Sesgos de confusión. Hay enfermedades que pueden dar sintomatología parecida. El diagnosticar equivocadamente una cuando en realidad la enfermedad es otra es un sesgo de confusión diagnóstico. Por ejemplo, un paciente joven con fiebre alta, astenia intensa y dolores musculares y articulares, si coincide en plena epidemia de gripe, lo más probable es que sea diagnosticado de gripe, y sin embargo hay muchos otros procesos víricos que producen una sintomatología parecida, como hepatitis en el estadio previo a la aparición de la ictericia, si es que esta aparece, etc.
228
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
PROTOCOLOS Y AYUDAS AL DIAGNÓSTICO La acumulación de conocimientos en las ciencias de la salud es cada vez mayor, siendo muy difícil conocer todas las novedades y mucho menos recordar datos, probabilidades, etc. Por otra parte el coste de los nuevos métodos diagnósticos de alta tecnología eleva cada vez más los presupuestos sanitarios. Además existen listas de espera de pacientes ocasionadas en muchos casos por estar pendientes de la realización de una prueba diagnóstica. Es necesaria la ayuda al diagnóstico de fácil acceso para los facultativos, de tal manera que el futuro clínico de un paciente dependa menos del grado de preparación, memoria o estado de ánimo de aquellos. La preparación de bases de datos actualizables que permitan el cálculo de probabilidades y ayuda interactiva al diagnóstico es una necesidad en la actualidad. La utilización de medios diagnósticos debe ser evaluada científicamente. Solicitar las pruebas indicadas en cada caso y que puedan ayudar al diagnóstico evaluando a priori las probabilidades. En el supuesto de que el resultado de la prueba sea positivo o negativo, calculando los valores predictivos. En este capítulo hemos visto que en algunos casos, sea cual sea el resultado de la prueba, no nos ayuda en la toma de decisiones. La elaboración de protocolos diagnósticos puede ayudar mucho a racionalizar el uso de los medios diagnósticos, pero esos protocolos deben ser elaborados por una junta en la que los facultativos que vayan a realizarlas sean parte decisiva. No es admisible, como ha ocurrido en algunos casos, el intento de las administraciones sanitarias o compañías de seguros de imponer protocolos diagnósticos o terapéuticos elaborados por personas que en muchos casos llevan años alejados de la clínica e incluso que nunca han tenido responsabilidades clínicas ante pacientes. Los criterios empleados en la elaboración suelen ser más economicistas que científicos y en muchas ocasiones los conocimientos de los "expertos" no parecían actualizados. Los protocolos deben tener en cuenta las características de la población atendida y los medios diagnósticos disponibles. No es lo mismo un protocolo de revisión cardiaca en un hospital de más de mil camas de una gran ciudad que en un hospital de doscientas camas. La administración sanitaria, si quiere tener éxito en esta importante tarea, debe evitar el autoritarismo y el embaucamiento que suelen ser las técnicas disuasorias empleadas con pésimos resultados, como demuestran las estadísticas sanitarias de los últimos años reflejo de un deterioro continuo de la asistencia sanitaria. Los criterios científicos que implican a los responsables de la asistencia y tengan en cuenta las peculiaridades de cada lugar siempre tendrán éxito y contribuirán a mejorar la utilización de los recursos sanitarios. En otras ocasiones se podría contener el abuso de los medios diagnósticos de manera innecesaria por algunos hiperutilizadores de los sistemas de salud. Si cada paciente tuviera un soporte magnético en el que quedaran grabadas
DIAGNÓSTICO
229
las pruebas realizadas y los resultados obtenidos, por ejemplo si un paciente afectado y perfectamente diagnosticado de espondilartrosis cada vez que tiene molestias acude a un centro sanitario, no tiene ningún sentido repetir varias veces al año radiografías analíticas etc., a no ser que aparezcan nuevos síntomas que hagan pensar en alguna complicación. En resumen, el encarecimiento progresivo de la sanidad y la mayor demanda de atención sanitaria por parte de la población obligan a racionalizar el uso de los recursos sanitarios, a ello puede ayudar la elaboración de protocolos diagnósticos y el apoyo de un sistema informático adecuado. LECTURAS RECOMENDADAS Sackett D L etal. Epidemiología clínica, Madrid. Ediciones Díaz de Santos, 1989. Grenier, B. Decisión Medícale. París, Masson 1989. Fletcher R H et al. Epidemiología clínica. Barcelona, Ediciones Consulta, 1989.
BIBLIOGRAFÍA 1. International classification of diseases: manual of the intemational statístical classification of diseases, injuries and causes of death, 9th revision. World Health Organization, Geneva, 1977. 2. International clasification of primary care. WONCA. Universiteit van Amsterdam, 1985, 3. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary tests, AmHeartJ 1980; 100:928. 4. Crombie DL. Diagnostic Process. J Coll Gen Practit 1963; 6:579. 5. Friedman RC, Bigger JT, Koranfield DS. The intern and sleep loss. N Engl J Med 1971; 285:201. 6. Feinstein AR. The need for humanized science in evaluating medication. Lancet 1972; 2:421-423, 7. Cohen J. A coefficient of agreement for nominal scales. Educat Psychol Measurements 1960; 20:37-46. 8. Álvarez Cáceres Rafael. Estadística básica y procesamiento de datos con SPSS, C.A.M., 1994, pág. 349. Este libro indica cómo calcular el índice Kappa con el paquete estadístico SPSS. 9. Aoki N, Horibe H, Ohno Y et al. Epidemiological evaluation of funduscopic findings in cerebrovascular diseases: III, Observer variability and reproducibility for funduscopic findings. Jpn Circ J 1977; 41:11. 10. Meade TW, Gardner MJ, Cannon P et al. Observer variability in recording the peripheral pulses. BrHeart J 1968; 3:661. 11. Landis RJ, Koch GG. The measurement of observer agreement for categorical data. Biometrics; 33:159-174. 12. Álvarez Cáceres Rafael. Estadística básica y procesamiento de datos con SPSS. C.A.M 1994; pág. 228. 13. Fletcher RH et al. Epidemiología clínica. Barcelona Ediciones Consulta, 1989. 14. Diccionario de la lengua española. 21.a edición Madrid, 1992. 15. Davis CE. The effect of regression to the mean in epidemiologic and clinical studies. Am J Epidemiol 1976; 104:493-498.
230
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
16. Fletcher Robert et al. Epidemiología clínica. Barcelona Ediciones Consulta, 1989, pág. 37. 17. Epstein KA, Schneiderman LJ, Bush J W, Zettner A. The abnormal screening serun thyroxine (T4): Analysis of physician response, outcome, cost and health effectiveness, J Chron Dis 1981; 34:175-190. 18. Sackett DL et al, Epidemiología clínica. Madrid Ediciones Díaz de Santos, 1989, pág, 65. 19. Sacket DL. Bias in analytical research. J Chronic Dis 1979; 32:51-63. 20. Fletcher RH. Carcinoembryoruc antigen. Ann inter Med 1986; 104:66-73. 21. Grenier Bemard. Decisión medícale. París Edit Masson, 1990, pág. 33. 22. Hall AP et al. Epidemiology of gout and hyperuricemia. A long term population study. Am J Med 1967; 42:27-37.
Capítulo 8 PREVENCIÓN
La única manera de conservar la salud es comer lo que no quieres, beber lo que no te gusta, y hacer lo que preferirías no hacer. Mark Twain.
En este capítulo analizaremos el estado actual de la medicina preventiva en sus tres fases: primaria, secundaria y terciaria. Diagnóstico precoz, métodos de estudio empleados en cada fase y análisis de eficacia. PREVENCIÓN. HISTORIA NATURAL DE LA ENFERMEDAD La medicina tiene dos partes fundamentales: la prevención de las enfermedades y el tratamiento de las mismas. La medicina preventiva comprende las actividades destinadas a evitar la enfermedad o descubrirla en una fase en la que se pueda detener o modificar su curso natural y aumentar así la cantidad y/o calidad de vida del paciente. Clásicamente el concepto de medicina preventiva se entendía como las actividades encaminadas a evitar la enfermedad (prevención primaria), pero actualmente también se consideran medidas preventivas, además de las medidas encaminadas a evitar la aparición de la enfermedad, todas aquellas que permiten mejorar las condiciones del paciente, como el diagnóstico precoz (prevención secundaria) también la medicina y cirugía paliativas (prevención terciaria) son actividades destinadas a prevenir la invalidez o el malestar del paciente. La enfermedad tiene una historia natural, comienza cuando una o más causas han entrado en contacto con el paciente produciendo modificaciones en su organismo, que en un período más o menos largo hacen aparecer clínicamente la enfermedad. Una vez producida la enfermedad suele haber un período asintomático, que puede ser de horas como en las salmonelosis, días como en el catarro común o la gripe o de años como en la mayoría de los
232
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
tumores, en algunas infecciones como HIV, hidatidosis, en intoxicaciones como el saturnismo o en enfermedades degenerativas como la artrosis. Tras el período asintomático de la enfermedad, aparece el período sintomático, a TI T2> T3 O ------------------- E-------------------- C -------------------- R Figura 8.1. Historia natural de la enfermedad.
este período también se le denomina fase clínica de la enfermedad. La enfermedad puede evolucionar hacia la curación espontánea sin secuelas, curación con secuelas, a veces muy graves como en el caso de la poliomielitis, o a la muerte. Prevención es cualquier acción que pueda alterar la historia natural de la enfermedad, mejorando las expectativas de cantidad o de calidad de vida del paciente. La historia natural de la enfermedad es la que tendría si no hubiera intervención alguna sobre el paciente. El significado de los elementos de la figura 8.1 son los siguientes: O. Simboliza el momento de la concepción de una persona. A partir de ese momento pueden actuar la causa o causas determinantes de la enfermedad. En las enfermedades de origen genético la causa actúa en el mismo momento de la concepción. TI. Es el período que transcurre desde la concepción (O) hasta el comienzo biológico de la enfermedad (E). En algunas enfermedades T1 puede ser cero, este es el caso de enfermedades en las que la causa determinante sea genética y los puntos O y E coincidan en el tiempo, aunque la enfermedad no sea clínica hasta pasados varios años. A TI le denominaremos período de riesgo, puesto que el contacto con el medio ambiente supone la exposición a factores de riesgo que pueden o no ser suficientes para desencadenar una determinada enfermedad. E. Es el momento del comienzo biológico de la enfermedad. Desde la exposición a la causa determinante1 hasta que la enfermedad sea diagnosticable pueden pasar años. Una vez que se ha completado la causa determinante, por definición, si no hay intervención externa la enfermedad se desencadenará. Por lo tanto tienen que existir alteraciones biológicas, aunque sea a nivel molecular, que quizá actualmente no sean diagnosticables pero pueden serlo algún día. Supongamos que, en una determinada persona, una causa determinante para la génesis de un cáncer de pulmón sea fumar dos paquetes de cigarrillos 1 Causa determinante; es la acción de uno o varios factores que en una determinada persona han desencadenado el comienzo biológico de una determinada enfermedad.
PREVENCIÓN
233
durante veinte años. Una vez completada la causa determinante, aunque la persona deje de fumar, la enfermedad se producirá, Sin embargo en otra persona puede ser necesario una exposición distinta al tabaco para causarla. En muchos casos la causa determinante es un concepto probabilístico. Podemos decir que la exposición a una determinada dosis de un factor es una causa determinante para una determinada enfermedad en un porcentaje de personas, pero no podremos precisarlo a nivel individual, salvo en el caso de exposiciones masivas, raras en la vida cotidiana. T2. Es el período de tiempo que transcurre desde el comienzo biológico de la enfermedad (E) hasta que la enfermedad se manifiesta clínicamente, considerando que la evolución sea la natural. A este período lo denominaremos período asintomático. C. Es el momento en que la enfermedad produce sintomatología clínica. El paciente nota síntomas debidos a la enfermedad que puede o no consultar al médico. T3. Es el período de tiempo que transcurre entre la aparición clínica de la enfermedad (C) y la resolución de la misma (R). A este período lo denominaremos período clínico. R. Es el momento de la resolución de la enfermedad. Puede ser la curación sin secuelas, la curación con secuelas o la muerte. TIPOS DE PREVENCIÓN Dependiendo del período de la historia natural de la enfermedad en que se actúe, distinguiremos entre prevención primaria, secundaria o terciaria. Prevención primaria. Es la actuación preventiva realizada durante el período de riesgo TI, antes por tanto de completar la causa determinante. Todas las medidas encaminadas a evitar el comienzo de la enfermedad constituyen la prevención primaria. Prevención secundaria. Es la actuación preventiva realizada durante el período asintomático T2, antes de la manifestación clínica de la enfermedad. Las medidas encaminadas al diagnóstico precoz de la enfermedad constituyen la prevención secundaria. Prevención terciaria. Es la actuación preventiva realizada durante el período clínico de la enfermedad. En realidad constituyen todas las medidas terapéuticas aplicadas a un paciente en el que se ha declarado una enfermedad. Una buena terapéutica debe incluir medidas curativas a corto plazo y medidas destinadas a prevenir complicaciones médicas y secuelas físicas, estas últimas constituyen la prevención terciaria.
234
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
PREVENCIÓN PRIMARIA. FACTORES DE PROTECCIÓN La prevención primaria incluye todas las actividades encaminadas a evitar el comienzo biológico de la enfermedad, las actuaciones deben llevarse a cabo en el período de riesgo. Los períodos y puntos comentados en el apartado correspondiente a la historia natural de la enfermedad son teóricos y distintos en cada persona. Si damos a un fumador el consejo de no fumar y lo acepta, en ese momento no podemos saber si se había cumplido alguna de las causas determinantes de las que el tabaco forma parte. Pero sí podemos evaluar estadísticamente el efecto a medio o largo plazo de un grupo de fumadores que ha dejado de fumar y compararlo con otro grupo que no ha dejado de fumar. Concretamente el tabaco es uno de los factores de riesgo que más enfermedades causa y del que más beneficio obtienen a corto, medio y largo plazo las personas que dejan de fumar. La prevención primaria consta de las siguientes partes: Educación sanitaria. Inmunizaciones. Quimioprofilaxis. Educación sanitaria. La educación sanitaria consiste en aconsejar al paciente y al público en general que evite ciertos factores de riesgo como drogas/alcohol, tabaco, comidas con exceso de grasa, etc., recomendar la práctica moderada de ejercicios físicos, salidas al campo etc. y también enseñarle medidas preventivas de accidentes caseros y de tráfico. En general evitar factores de riesgo y promocionar actividades saludables. Los informes (1-2) sobre los beneficios del consejo médico son prácticamente unánimes: algunos (3) llegan a aconsejar que debe replantearse el papel del médico y su equipo y dedicar más tiempo a la educación sanitaria. Para realizar una buena educación sanitaria hay que preparar adecuadamente a los educadores y disponer de documentación sencilla de leer que pueda distribuirse a las personas interesadas. Los informes disponibles sobre los resultados de la educación sanitaria en nuestro país son bastante favorables (4). Los ámbitos donde realizar educación sanitaria son muy variados: En los centros sanitarios aprovechando las consultas para detectar factores de riesgo y dar los oportunos consejos (las enfermeras y enfermeros cumplen una misión fundamental en este campo). Las charlas acerca de temas sanitarios en colegios sobre higiene bucodental y otras actividades saludables. En las fábricas y empresas, además de los consejos generales, insistir en las medidas preventivas de accidentes específicas para su puesto de trabajo. Campañas generales en televisión, prensa y radio. En nuestro país parece haber sido muy beneficiosa, una campaña realizada para prevenir accidentes de tráfico en los años 1993 y 1994, etc.
PREVENCIÓN
235
Inmunizaciones. Las inmunizaciones, uno de los primeros instrumentos utilizados en la medicina preventiva, pueden ser pasivas o activas. La inmunización pasiva consiste en proporcionar al paciente anticuerpos frente a una determinada enfermedad. Son las gammaglobulinas específicas, cuyo efecto suele ser de corta duración. La inmunización activa consiste en administrar antígenos que estimulen anticuerpos específicos frente a una determinada enfermedad. A este tipo de inmunización se le denomina vacuna, en recuerdo de la primera contra la viruela, preparada por Jenner en 1798, a partir de la viruela vacuna. No cabe duda de que las vacunas son el instrumento de medicina preventiva más eficaz. Incluso se ha conseguido erradicar una enfermedad, la viruela, gracias a su utilización. Algunas vacunas tienen un pequeño porcentaje de complicaciones, pero en cualquier caso su cociente beneficios perjuicios es uno de los más altos que se pueden obtener en medicina (5). Además de su eficacia, en general las vacunas son bastante baratas excepto en algún caso como la antihepatitis B, Quimioprofilaxis. La quimioprofilaxis es la administración de fármacos con objeto de prevenir enfermedades. Hasta hace poco tiempo la quimioprofilaxis consistía en la administración de antibióticos o quimioterápicos para prevenir infecciones. Son conocidas la cloroquina, cuando se viaja a zonas con paludismo endémico, y la isoniacida, para prevenir el desarrollo de la tuberculosis, etc. En la actualidad la quimioprofilaxis está tomando una dimensión mucho mayor y cada vez son más las recomendaciones de tomar fármacos para prevenir enfermedades. La dimensión económica de la quimioprofilaxis puede tomar características preocupantes en los próximos años. A continuación veremos algunos ejemplos. Tratamiento farmacológico en el colesterol con objeto de prevenir enfermedades coronarias. Alopurinol en la prevención de la gota, Calcitonina en mujeres con osteoporosis incipiente. Tomar estrógenos en mujeres menopáusicas para prevenir la osteoporosis y otros trastornos postmenopáusicos. Tomar ácido acetilsalicílico diariamente en varones para prevenir el infarto de miocardio (6). Aunque no se ha podido demostrar que en mujeres sea beneficioso, son muchas las que también lo toman, en el caso de las mujeres debe tenerse en cuenta que no parece haber beneficios por esta terapia, pero sí pueden producir diversos efectos secundarios, algunos graves, como hemorragias digestivas. Vasodilatadores circulatorios cerebrales que al llegar a cierta edad muchas personas solicitan y muchos médicos recomiendan, aun en ausencia de sintomatología a pesar de su dudosa eficacia terapéutica. En algunos de los casos anteriores el uso de fármacos está indicado, pero en otros muchos no. El tratamiento farmacológico del colesterol en muchas ocasiones se realiza en niveles de 230 mg/100 ml e incluso menores, lo que no está claro que sea beneficioso.
236
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Los intereses económicos son muy grandes y el hábil manejo comercial de indicios de beneficios en algunos casos concretos consiguen la aplicación de quimioprofilaxis en casos en los que su beneficio no está demostrado. Antes de aplicar una quimioprofilaxis que suele ser durante años, hay que asegurarnos al menos de que los beneficios son mayores que los perjuicios. En muchos casos como, la administración de calcitonina y de estrógenos, la experiencia no es demasiado grande. No debemos olvidar que, tras la publicación de las primeras conclusiones del estudio de Framinghan (7), se evidenció que los niveles altos de colesterol se asociaban con un aumento del riesgo de enfermedad coronaria. Dicho efecto en realidad no es tan grande como se cree en personas que no tienen factores de riesgo añadidos, salvo en varones jóvenes con colesterolémias muy altas por encima de 300 mg/100 ml. El caso es que en Estados Unidos se puso de moda la determinación periódica del colesterol basal, y en los casos en los que estaba ligeramente elevado se ponía tratamiento farmacológico con clofibrato, entre otros fármacos, hasta que se decidió realizar un ensayo clínico (8) para determinar los beneficios de dicha terapia. Los inesperados resultados fueron tremendos: se había disminuido levemente la mortalidad coronaria, pero había aumentado la mortalidad por todas las causas. Se calcula que sólo en Estados Unidos cinco mil personas asintomáticas murieron por esta causa. Los efectos perjudiciales permanecieron hasta cuatro años después de suspendido el tratamiento. De esto debemos tomar la enseñanza de que la naturaleza es muy compleja y que un sistema biológico es una máquina muy complicada. Salvo en casos de riesgos muy grandes antes de tomar decisiones quimioprofilácticas, debe estar claro que por lo menos no haremos daño a los pacientes. Como en todo programa de atención sanitaria, hay que evaluar el coste económico y la relación coste beneficio.
Factores de protección Un factor preventivo primario es eficaz si el riesgo de padecer una enfermedad es menor en personas en las que dicho factor ha actuado respecto a las que no ha actuado. Un factor de protección no es sólo el tomar un fármaco o una vacuna, también puede serlo haber recibido educación sanitaria. Un factor de protección de una determinada enfermedad es aquel que disminuye la probabilidad de padecerla. La evaluación de la protección podemos hacerla calculando la probabilidad en presencia del factor y en su ausencia calculando el cociente de probabilidades, esto es, el riesgo relativo. Si el valor del riesgo relativo es menor de 1, el factor es de protección. Ejemplo 8.1. Con objeto de evaluar el efecto de la vacuna de la gripe se realiza el siguiente estudio: En una población son seleccionadas al azar dos mil personas asignándose de forma aleatoria a dos grupos. A los asignados al primer grupo se les administró la vacuna contra la gripe y a los asignados al otro se les administró un placebo. Rieron eliminados del estudio las personas con enfermedades crónicas
PREVENCIÓN
237
o mayores de 65 años, puesto que en estos la vacunación es recomendable en todos los casos y no sería ético incluirlos, puesto que, los asignados al grupo control no recibirían la vacuna. Los dos grupos fueron seguidos durante seis meses anotándose los que contrajeron la gripe. Los resultados obtenidos fueron los siguientes:
Rv es el riesgo de contraer la gripe entre los vacunados; el 10% de los vacunados contrajeron la gripe. RNV es el riesgo de contraer la gripe entre los no vacunados; el 60% de los no vacunados contrajeron la gripe. El riesgo relativo de la muestra es 0,167. Como es significativamente menor de uno, la vacunación es un factor de protección contra la gripe. Su inverso nos indica cuantas veces es más probable que contraiga la enfermedad un no vacunado que un vacunado. El valor inverso de 0,167 es 6, y por lo tanto es seis veces más probable que contraiga la gripe un no vacunado que un vacunado. El efecto protector en términos absolutos es de 500 personas de cada mil vacunadas. Por cada mil personas vacunadas contraerán la gripe 500 personas menos que si no las hubiéramos vacunado. El cálculo de intervalos de confianza se realiza igual que en los factores de riesgo, ver Capítulo 4. PREVENCIÓN SECUNDARIA La prevención secundaria trata de diagnosticar la enfermedad antes de que se manifieste clínicamente, lo que también se conoce como diagnóstico precoz. Las actuaciones se llevan a cabo en el período asintomático entre el momento del comienzo biológico y del comienzo clínico de la enfermedad. Los métodos de prevención secundaria consisten en el estudio de grandes cantidades de personas, con objeto de diagnosticar enfermedades en una fase
238
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
precoz que pueda hacer más eficaz el tratamiento. Como analizaremos en este apartado, no todas las enfermedades son susceptibles de diagnóstico precoz. Los métodos de estudio de la prevención secundaria son: Exámenes periódicos multifásicos de salud (chequeos). Exámenes periódicos unifásicos de salud. Búsqueda de casos.
Exámenes periódicos unifásicos de salud Un examen multifásico periódico de salud (chequeo) es someterse a varias pruebas diagnósticas de forma periódica en busca de enfermedades en fase asintomática. Durante la década de los sesenta se puso de moda en Estados Unidos y Canadá realizarse un chequeo médico anual, y en España dicha moda llegó con diez años de retraso. En un chequeo se somete habitualmente al paciente a una historia clínica, un examen físico, analítica de sangre y orina, ECG y radiografía de tórax, todo esto en pacientes asintomáticos. Se buscaban a la vez varias enfermedades, aunque la inclusión del E.C.G y la placa de tórax indicaba una cierta importancia dada a las enfermedades cardíacas. El alto número de pruebas y de personas estudiadas tenía como consecuencia una gran cantidad de falsos positivos que eran considerados enfermos. Con una sola prueba casi perfecta, sensibilidad 1 y especificidad 0,99, si estudiamos cien mil personas habrá mil falsos positivos. Si tenemos en cuenta que las pruebas que intervienen en el chequeo son varias, y no son altamente sensibles ni altamente específicas, el número de sanos diagnosticados como enfermos es alto. Pero además las posibilidades de descubrir enfermedades coronarias o pulmonares en fase precoz eran muy pequeñas. Un paciente puede tener un ECG y una placa de tórax normales y a los diez minutos tener un infarto de miocardio, estando entonces el ECG claramente alterado. Por otra parte el coste económico es muy alto. Los estudios multifásicos periódicos han sido evaluados y no se han podido encontrar beneficios en cuanto al aumento de supervivencia, enfermedades diagnosticadas, etc., en los chequeados respecto a los no chequeados (9-10).
Exámenes periódicos unfiásicos de salud Los exámenes unifásicos periódicos de salud (EPUS), son los cribados (screening) de la población en busca de una determinada enfermedad. Suelen consistir en la realización de una sola prueba diagnóstica. En general las personas con resultado positivo en la prueba diagnóstica de un cribado no son consideradas definitivamente enfermas. Los positivos son enviados a su médico o a un centro sanitario de referencia para confirmar el diagnóstico y aplicarles tratamiento si ello es preciso. No todas las enfermedades, ni siquiera las malignas, son susceptibles de cribado. Las condiciones (11) que debe reunir una enfermedad para ser sometida a un cribado son las siguientes:
PREVENCIÓN
239
I. Las consecuencias de la enfermedad deben ser graves. II. La prevalencia de la fase asintomática es relativamente elevada. III. Disponer de una prueba diagnóstica sencilla y eficaz. IV El tratamiento precoz debe mejorar el pronóstico. V Asumir el diagnóstico de los positivos y el tratamiento de los verdaderos positivos. VI. Favorable cociente coste beneficio. I. Las consecuencias de la enfermedad deben ser graves. Una enfermedad susceptible de ser incluida en un programa de cribado debe ser grave. El desenlace habitual de la misma es la invalidez o la muerte. Los cánceres son las enfermedades típicas que pueden someterse a cribaje si cumplen el resto de las condiciones. II. La prevalencia de la fase asintomática es relativamente elevada. Una de las condiciones para que un cribaje sea efectivo es que la prevalencia sea relativamente elevada. Si la enfermedad es rara, sería necesario estudiar a muchas personas para diagnosticar un solo caso. Salvo en pruebas con especificidad igual a uno, inexistentes en la práctica, el número de falsos positivos sería muy elevado. El esfuerzo diagnóstico para confirmar o descartar a los positivos supondría un coste económico muy elevado y consecuencias sicológicas para los falsos positivos, mientras se descarta la enfermedad. III. Disponer de una prueba diagnóstica sencilla y eficaz. Las propiedades de las pruebas diagnósticas son decisivas al tomar una decisión sobre cribaje. Por muy grave y prevalente que sea una enfermedad, si no disponemos de una prueba diagnóstica apropiada, el cribaje no estará indicado. Las propiedades que debe cumplir la prueba diagnóstica fundamental en un cribado son las siguientes: Eficacia. La prueba diagnóstica debe tener una alta sensibilidad, próxima a uno, ya que la enfermedad es grave y el diagnóstico precoz permite disminuir notoriamente la morbimortalidad de la enfermedad (en caso contrario no se realizaría el cribaje). Las consecuencias para un falso negativo son la muerte o la invalidez. Por otra parte la prueba debe ser bastante específica, para evitar al máximo los falsos positivos. En general a los positivos en un cribaje se les somete a un programa diagnóstico completo a fin de confirmar o descartar el diagnóstico. Si hay muchos falsos positivos, el número de reexaminados será muy elevado. Otro factor importante es el impacto sicológico en los falsos positivos al creerse afectados de una grave enfermedad. En los verdaderos positivos los problemas sicológicos también existen, pero en éstos son inevitables. El valor predictivo positivo que depende de las características de la prueba y de la prevalencia es un valor muy importante en la valoración de la prueba diagnóstica para un cribado.
240
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Fácilmente reproducible. La prueba se debe poder reproducir con facilidad manteniendo sus características de sensibilidad y especificidad. La influencia del técnico en los resultados de la prueba debe de ser mínima. Aceptable. La prueba debe ser fácilmente aceptable para el paciente y no debe ser de compleja realización ni causar excesivas molestias a los pacientes. Barata. Una característica muy importante es el precio ya que los programas de cribado se aplican sobre cientos de miles, incluso millones de personas y el costo puede ser un factor determinante en la puesta en marcha de un programa de cribado. IV. Tratamiento precoz eficaz. Una condición esencial para que un cribaje tenga sentido es que el tratamiento aplicado a la enfermedad diagnosticada en fase precoz mejore notablemente la supervivencia y las secuelas, respecto al tratamiento aplicado cuando la enfermedad se encuentra en su fase clínica. Por lo tanto, debe de existir un punto crítico en la fase asintomática de la enfermedad antes del cual el tratamiento es notoriamente mejor que en la fase clínica. Un ejemplo típico es el cribaje del cáncer de pulmón (12) utilizando como prueba diagnóstica una radiografía de tórax. No debe realizarse porque el tratamiento aun en fase preclínica, no mejora la supervivencia respecto a los diagnosticados en la fase clínica. Cuando el cáncer de pulmón es evidente en la radiografía, aunque no haya sintomatología, ya se encuentra en una fase avanzada. En la actualidad se investigan otras pruebas diagnósticas, como citología en saliva, que puedan detectar el cáncer de pulmón en una fase que permita un tratamiento más eficaz que en la actualidad. V. Asumir el diagnóstico de los positivos y el tratamiento de los enfermos. Los cribados generan un número importante de resultados positivos que hay que reexaminar con pruebas diagnósticas complicadas a fin de confirmar el diagnóstico. Una vez seleccionados los verdaderos positivos, debemos estar en condiciones de tratar a todos. VI. Favorable cociente coste beneficio. Es fundamental evaluar el coste del programa completo y evaluar el coste de cada caso diagnosticado. El dinero no es infinito hay unos presupuestos concretos con los que hay que atender muchas necesidades, y hay que estudiar profundamente donde son más eficientes las inversiones.
Principales cribados unifásicos En la actualidad hay varios programas de cribado que se realizan habitualmente en los países desarrollados.
PREVENCIÓN
241
Enfermedades metabólicas congénitas. El cribado de todos los recién nacidos a fin de descubrir alteraciones metabólicas congénitas como fenilcetonuria e hipotiroidismo. Hipertensión arterial. Los estudios (13-14) sobre la eficacia del diagnóstico y tratamiento precoz de la hipertensión arterial, son casi unánimes sobre el descenso de la morbilidad y mortalidad cerebrovascular, existiendo discrepancias sobre el beneficio respecto a la enfermedad coronaria. Actualmente se considera que deben realizarse controles periódicos de tensión arterial y poner tratamiento dietético y/o farmacológico según los casos, si la tensión arterial sistólica es mayor (15) de 140 mm de Hg o la tensión arterial diastólica es mayor de 90. Incluso en los ancianos cada vez hay más partidarios de que se consideren las mismas cifras para diagnosticar y tratar la hipertensión, sin embargo sólo se ha podido demostrar que es beneficioso tratar a pacientes con tensión arterial diastólica superior a 105 mm de Hg (16). Cáncer de mama. Cáncer de mama en mujeres mayores de cincuenta años (17). Sin embargo en este mismo estudio no se pudo demostrar que fuera eficaz en mujeres menores de esa edad. Cáncer de cuello de útero. El cribado de cáncer de cuello de útero es uno de los más extendidos y aceptados por la población femenina, aunque el porcentaje de mujeres que no se realizan controles periódicos, es todavía importante. En el ámbito mundial los estudios (18) demuestran la eficacia de éste cribaje, aunque las divergencias (19) surgen sobre la periodicidad con la que debe realizarse. Hipercolesterolémias. Aunque está unánimemente aceptado que el control de los niveles de colesterol en varones menores de 65 años es beneficioso2, los programas de cribaje sistemático están muy discutidos en la actualidad por varias razones: la más importante de todas es que, aunque en el plano individual si el colesterol es mayor de 280 mg/100 ml o de 250 en presencia de otros factores de riesgo, el riesgo es grande en el plano poblacional no lo es tanto. En la tabla siguiente se presentan datos correspondientes a individuos varones tras 16 años de seguimiento3, afectados y no afectados de enfermedad coronaria en relación con sus valores de colesterol basal. Según la tabla anterior, en dieciséis años de seguimiento, de los 169 individuos observados 21 han desarrollado una insuficiencia coronaria. El riesgo de enfermedad coronaria es alto cuando los niveles de colesterol basal son superiores a 280 mg/100 ml. Si hubiéramos realizado un cribaje y hubiéramos decidido intervenir terapéuticamente en los individuos con niveles superiores a 280 mg/100 ml, 2
En la actualidad no existe ningún estudio riguroso que demuestre que la disminución de los niveles de colesterol en mujeres o en mayores de 65 años asintomáticos sea beneficiosa. 3 Los datos de la Tabla 8.1 y de la Figura 8.2 están basados en el estudio de Framinghan. Aunque se ha respetado la proporcionalidad, los datos han sido modificados por motivos didácticos.
242
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Tabla 8.1. Presencia o ausencia de enfermedad coronaria en relación con los niveles de colesterol basal, tras dieciséis años de seguimiento. S.E.C = Sin enfermedad coronaria. E.C = Enfermedad coronaria.
hubiéramos evitado 5 enfermedades coronarias. Y esto suponiendo que las cinco insuficiencias coronarias sean debidas a la hipercolesterolemia lo cual no es cierto, Hay otras causas de insuficiencia coronaria además de las hiperlipémias, y suponiendo que el descenso de los niveles de colesterol reduzcan el riesgo a cero, lo cual no es tampoco cierto. Y suponiendo también que los pacientes en los que se haya detectado un nivel de colesterol superior a 280 mg/100 ml cumplan la dieta y tomen la medicación. Lo cual es mucho suponer. Por todo ello, aunque el riesgo individual es elevado, el riesgo en la población no lo es. Un cribaje de colesterol y el tratamiento de los que tuvieran los niveles elevados conseguiría reducir muy pocos casos de insuficiencia coronaria y seria muy caro. En la Figura 8.2 se expresan los datos de la Tabla 8.1.
Búsqueda de casos Excepto en el caso de los programas de cribado citados anteriormente actualmente se considera que la mejor fórmula de prevención secundaria es la búsqueda de casos. Esta modalidad de prevención secundaria consiste en aprovechar las visitas al médico por alguna causa concreta para realizar diagnósticos precoces concretos adecuados a las circunstancias del paciente. Otra ventaja adicional es que el médico de atención primaria se hará cargo de completar el diagnóstico y en ocasiones del tratamiento de las personas en las que las pruebas diagnósticas sean positivas. Por ejemplo, si un paciente de 56 años consulta por un síndrome febril, y en la historia clínica descubrimos que fuma abundantemente y que tiene antecedentes familiares de enfermedad coronaria y la tensión arterial está ligeramente elevada, realizaremos un examen cardíaco y pulmonar a fin de descubrir en una fase precoz enfermedades coronarias y/o procesos pulmonares crónicos. Aprovecharemos para dar consejos sobre la necesidad de evitar factores de
PREVENCIÓN
243
Figura 8.2. Colesterol basal en mg por 100 mg.
riesgo, realizando al mismo tiempo prevención primaria en caso de que no hayamos podido evidenciar enfermedades. Si el siguiente paciente es una mujer joven que consulta por una gastroenteritis aguda, y en la historia clínica descubrimos que fuma abundantemente, toma anticonceptivos y tiene varias parejas sexuales sin protección profiláctica, aprovecharemos la consulta para explicarle los riesgos de la mezcla del tabaco con anticonceptivos y la necesidad profiláctica sobre todo si tiene varias parejas sexuales, recomendándole una visita al ginecólogo y una analítica a fin de descubrir posibles hepatitis subclínicas, estado de la función hepática, prueba de HIV etc. En los dos ejemplos anteriores podemos observar como el médico de atención primaria enfoca tanto la educación sanitaria (prevención primaria) como el diagnóstico precoz (prevención secundaria) de forma individualizada, lo cual aumenta la efectividad de las pruebas diagnósticas, sobre todo de los valores predictivo, puesto que en la subpoblación a la que pertenecen las personas evaluadas la prevalencia de la enfermedad es relativamente alta. Esta modalidad tiene dos claras diferencias con los exámenes multifásicos y con los unifásicos: Búsqueda de casos y realización de pruebas diagnósticas adaptadas a las circunstancias de cada paciente, aumentando los valores predictivos de las pruebas diagnósticas. El mismo facultativo que realiza las técnicas preventivas completa el diagnóstico y aplica la terapéutica adecuada, o deriva al paciente a un centro especializado.
Riesgos de la prevención secundaria El resultado de un programa de prevención no es solamente igual o mejor que en una población en la que no se realice el programa. Si el programa no se
244
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
realiza con el debido cuidado, puede ser incluso perjudicial. Los perjuicios que puede ocasionar un programa de diagnóstico precoz son los siguientes: I. Diagnosticar a una persona sana como enferma. Ya hemos comentado en diversas ocasiones que, por muy específica que sea una prueba, excepto que la especificidad sea uno, lo cual en la práctica no ocurre casi nunca, el número de falsos positivos suele ser elevado debido a que se evalúan poblaciones muy amplias. Estas personas diagnosticadas erróneamente de una enfermedad grave (los cribados suelen realizarse en enfermedades graves salvo en el caso de la hipertensión) suelen tener grandes problemas sicológicos hasta que se confirma posteriormente el error, lo cuál puede tardar meses. II. Diagnosticar como sano a un enfermo. Este error puede ser más grave porque podemos perder la ocasión de diagnosticar en fase precoz una enfermedad, que posteriormente deje secuelas o incluso provoque la muerte del paciente. Salvo en las pruebas con sensibilidad próxima a uno, siempre hay falsos negativos. Debe ponerse especial atención al control de calidad de la realización de las pruebas diagnósticas, por ejemplo, la sensibilidad de la citología de Papanicolaou, según algunos autores (20-21), oscila entre el 55% y el 90%. Admitiendo el mejor de los casos, 90%, de cada cien personas enfermas a las que se les realice esta prueba, diez serán diagnosticadas como sanas. La realización rutinaria de algunas pruebas diagnósticas no suele agradar a los profesionales que llevan mucho tiempo realizándolas los cuales en cuanto pueden dejan que las realicen personas con muy buena voluntad, pero sin preparación adecuada, como estudiantes auxiliares, etc. Esto puede influir en la sensibilidad y especificidad de las pruebas con graves consecuencias. III. El tratamiento puede ser perjudicial. La evaluación de una terapéutica requiere complicados estudios, que en muchas ocasiones pueden durar años (los Capítulos 10 y 11 los dedicaremos íntegramente a la evaluación de la terapéutica). Se corre el riesgo de aplicar tratamientos que no estén suficientemente contrastados, con consecuencias terribles, como en los hipercolesterolémicos asintomáticos tratados con clorfibratos (8), que costó cinco mil personas asintomáticas muertas. La inmensa mayoría no hubiera desarrollado isquemia coronaria nunca, aunque no hubieran sido tratadas. No se debe caer en el simplismo; si A es una de las causas de B, eliminando A reducimos un importante porcentaje de B. Porque esto puede ser cierto, pero podemos producir C, que a veces es más grave que B, y además no siempre que se elimina A se reduce un porcentaje de B. La única razón que puede permitir un tratamiento que no haya sido debidamente evaluado es que la enfermedad sea mortal o gravemente invalidante, si se deja seguir su historia natural, de tal manera que la terapéutica nunca pueda ser peor que la enfermedad.
PREVENCIÓN
245
IV. El daño que puede ocasionar el diagnóstico. Otra circunstancia que debe tenerse en cuenta es que a las personas a las que se les diagnostica una enfermedad, aunque sea leve y no se les aplique tratamiento, en muchas ocasiones asumen el papel de enfermo y aumentan el absentismo laboral y el deterioro físico y social. Existen varios estudios (22) que demuestran esto en una enfermedad tan corriente y fácil de tratar como la hipertensión. También es demostrativo el que niños diagnosticados erróneamente de cardiopatía desarrollan el mismo deterioro físico que los verdaderos enfermos. En la evaluación global de un programa de cribado deben tenerse en cuenta todas estas circunstancias.
Evaluación de la prevención secundaria La evaluación fiable de los programas de cribado y las ventajas del tratamiento precoz sólo son posible mediante estudios experimentales aleatonzados (ver Capítulo 11), los cuales consisten en la asignación aleatoria de personas a dos grupos. A uno de los grupos se le somete a un programa de cribado y al otro no. Se les sigue habitualmente durante muchos años (la duración depende de la enfermedad de interés) y comparar las cifras de mortalidad y de invalidez. Otras formas de evaluar los programas de cribado es comparando tasas de mortalidad de la población cribada con la población normal y con los pacientes diagnosticados en la fase sintomática de la enfermedad, aunque este método de comparación de tasas es mucho más imperfecto y están sujetos a importantes sesgos. En general, pocas personas que conozcan programas de cribado dudan de su eficacia, pero esto puede ser una impresión engañosa, debido a que la evaluación de los programas de cribado es muy compleja y además de los sesgos (23) que podemos encontrar en cualquier estudio científico, existen sesgos específicos que hacen parecer los resultados de los programas de cribado mejores de lo que realmente son. Estos sesgos son los siguientes: Sesgos de selección. En los programas de cribado hay tres sesgos de selección que pueden influir en los resultados: I. Sesgo del voluntariado. En algunos estudios (16) se ha comprobado que las personas que participaron voluntariamente en un programa de cribado tuvieron una mortalidad general y específica la mitad que las personas que no quisieron participar en el estudio. Las personas que acuden a un programa de cribado suelen ser de niveles socioculturales y económicos mayores que las que no acuden y estos factores parecen tener una influencia importante en la morbilidad y en la mortalidad. No olvidemos que la participación en un programa de cribado es voluntaria. II. Sesgo de cumplimiento del tratamiento. En algunos estudios (24) las personas que han participado en un programa de cribado cumplen mejor
246
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
las prescripciones terapéuticas que las que han sido diagnosticadas en fase sintomática, lo que puede ser un factor capaz de influir de forma notable en los resultados de las comparaciones a favor del programa de cribado. Las razones pueden ser las mismas que en el caso anterior, fundamentalmente diferencias socioculturales. III. Diferencia en la morbilidad. En las enfermedades hay pacientes en los que la morbilidad es más agresiva que en otros, el período asintomático en las enfermedades de alta morbilidad es menor y por tanto más difícil de detectar en un cribado, Los casos más agresivos y de menor duración es más probable diagnosticarlos en mayor grado en la fase clínica que en la preclínica. Este factor puede influir en que la supervivencia de los diagnosticados en fase clínica sea menor que en los diagnosticados mediante cribado. Sesgos de información o de medida. Hay un sesgo específico de medida que afecta a las evaluaciones de los cribados. Aumento del tiempo de supervivencia. Los estudios de supervivencia indican que las personas diagnosticadas en un programa de cribado tienen una supervivencia mayor que las diagnosticadas en la fase clínica de la enfermedad. Lo cual puede ser porque realmente el diagnóstico precoz aumente la supervivencia, pero el adelanto de la fecha del diagnóstico, al ser anterior a la fase clínica, siempre contará en favor de la serie cribada. Por ejemplo, supongamos que diez personas son diagnosticadas en 1988 de cáncer de pulmón en fase clínica. Al año, en 1989, había fallecido el 20%; a los dos años, en 1990, había fallecido el 30%; a los tres años, en 1991, había fallecido el 50%, a los cuatro años, en 1992, el 70% había fallecido, a los cinco años; en 1993, el 80% había muerto. Si en lugar de diagnosticados en la fase clínica hubieran sido diagnosticados precozmente en 1987, habríamos ganado un año en el diagnóstico a la historia natural de la enfermedad y aparentemente los pacientes diagnosticados precozmente parecerían vivir más, PREVENCIÓN TERCIARIA Una vez que la enfermedad comienza a dar sintomatología se debe instaurar la terapéutica adecuada a contenerla. Y si conocemos las principales complicaciones que puede tener la enfermedad, se debe aplicar la terapia adecuada para prevenirlas, evaluando los riesgos y beneficios de la terapia preventiva, Por ejemplo, es sabido que las fracturas de ciertos huesos como la cadera y el fémur se complican en un porcentaje importante de casos con embolias pulmonares, ¿se debe anticoagular o hipocoagular a todos los pacientes ? o ¿sólo a algunos?, ¿existen estudios fiables en este sentido? Los pacientes que han sufrido infartos de miocardio o fibrilaciones auriculares corren el
PREVENCIÓN
247
peligro de padecer accidentes vasculares cerebrales. ¿Se pueden evitar? ¿que riesgos produce la medicación preventiva? Son preguntas que en algunos casos están contestadas y en otros no. La aparición de medicación nueva de forma constante hace cambiar los criterios preventivos cada poco tiempo. Todas las medidas encaminadas a evitar complicaciones constituyen la prevención terciaria. LECTURAS RECOMENDADAS Medicina Clínica. Número monográfico: Aspectos actuales de la medicina preventiva. 1994, Vol. 102, Suplemento 1. Sackett David L. et al. Epidemiología Clínica. Editorial Díaz de Santos, 1989. Grenier Bemard. Decisión medícale. Masson, París 1989.
BIBLIOGRAFÍA 1. Canadian Task Force on the periodic health examination. The periodic health examination. Can Med Assoc J 1979; 121:1193-1254. 2. Council of Scientific Affairs of American Medical Association. Medical Evaluations of healthy persons. Jama 1983; 249:1626-1633. 3. The U.S Preventive Services Task Force. Guide to clinical preventive services. An Assessment of the Effectiveness of 169. Baltimore, MD William and Wilkins, 1989. 4. Salieras L. La medicina clínica preventiva: el futuro de la prevención. Medicina Clínica 1994; 102, Suplemento 1:19-25. 5. Miller DL. Inmunization practice and policy. J Epidemiol Corran Helth 1984; 38:265-269. 6. Hennekens CH et al. An overview of the British and American aspirin studies. N England J Med 1988; 318:923-924. 7. Dawber TR. The Framinghan Study. The epidemiology of atherosclerotic disease. Cambridge, Harvard University Press, 1980. 8. Round the World: Clofibrate. Correspondents report. Lancet 1981; 1:771 9. Eddy DM. Comparing the benefit sand harms. The balance Sheet. Jama 1990; 263:2493-2505. 10. Holland WW, D'Souza MD, Swan AV. ¿Is mass screening justified? T Soc Geneesk 1978; 56:22. 11. Wilson JMC, Jungner G. Principios y métodos del examen colectivo para identificar enfermedades. Cuadernos de Salud Pública número 34. Ginebra, OMS, 1969. 12. Eddy DM, Screening forlung cancer. Ann Intern Med 1989; 111:232-237. 13. Weinberger MH. Optimizing cardiovascular risk reduction during antihypertensive therapy. Hypertension 1990; 16:201-211. 14. Pardell H, Armario P, Hernández R. Progress in the 1980s and new directions in the 1990s with Hypertension Management. From the Stepped-care, Aproach to the individualised Programme in Hypertension treatment and control Drugs 1992; 43:1-5. 15. Informe del comité de expertos sobre tensión arterial, informe n° 628. Organización Mundial de la Salud, Ginebra, 1978. 16. Veteram administration co-operative Study Group: Effects of treatment on morbility in hypertension II. Results in patients with distolic presure averaging go through 114 mm Hg. JAMA 1970; 213:1143-1152. 17. Shapiro S, Evidence of screening for breast cancer from a randomized trial. Cáncer (Suppl) 1977; 39:2772.
248
E L METODO CIÉNTIFICO EN LAS CÍENCIAS DE LA SALUD
18. Olesen F. A case control study of cervical citology before diagnosis of cervical screening in Denmark. Int J Epidemiol 1988; 17:501-508. 19. Day NE. Screening for the cancer of the cervix. J Epidemiol Com Health 1989; 43:103-106. 20. Borras JM, Ciurana R, Marzo M. Cribado del cáncer de mama. Medicina Clínica 1994; 102:80-84. 21. Eddy DM. Screening for cervical cancer. Ann lntern Med 1990; 113:214-226. 22. Taylor DW, Haynes RB, Sackett DL, Gibson ES. Long-term follow up of absenteeism among working men to following the detection and treatment of their hypertension. Clin Invest Med 1981; 4:173. 23. Cadman D, Chambers L, Feldman W, Sackett D. Assessing the effectiveness of community screening programs. JAMA 1986; 251:1580-1585. 24. Friedman GD, Collen MF, Fireman BH. Multiphasic health checkup evaluation: a 16-year follow-up. J Chronic Dis 1986; 39:453-463.
Capítulo 9 PRONOSTICO
El que no sabe lo que está buscando, no comprenderá lo que encuentra, Claude Bemard.
Una vez diagnosticada una enfermedad, el siguiente paso es hacer un pronóstico de cantidad y de calidad de vida. Un pronóstico es una predicción de la evolución de una enfermedad en un determinado paciente. En este capítulo se analizarán los métodos de estudio de los factores que influyen en el pronóstico, estudios empleados para conocer el pronóstico y sesgos que pueden producirse. PRONÓSTICO El pronóstico es una anticipación del curso que seguirá una determinada enfermedad, debe ir acompañado de una probabilidad, por ejemplo a un paciente que padece cáncer de hígado no podemos decirle que va a vivir como máximo seis meses, hay casos de supervivencia mucho mayor, deberemos decir que hay un 90% de probabilidades de que viva seis meses como máximo, Una vez elaborado el diagnóstico de una enfermedad, tanto el paciente como el médico necesitan conocer el pronóstico, Este es tan importante que la decisión terapéutica depende de él, Por ejemplo, un adenocarcinoma endometrial que no afecta a órganos vecinos ni parametrios tiene un 80% de probabilidad de curación con cirugía, mientras que si afecta a parametrios dicha probabilidad es del 30% con radioterapia. Si afecta a órganos vecinos, las posibilidades de curación son prácticamente nulas. En este caso, como en otros muchos, del pronóstico depende el tipo de tratamiento. Además del interés clínico, el interés social e individual para el paciente y su familia es de la máxima importancia. En nuestro país existe una gran controversia sobre si un paciente debe o no ser informado sobre el pronóstico de su enfermedad, cuando padece una enfermedad grave con una alta probabilidad de fallecer o quedar inválido en un corto período de tiempo. En algunos países, el ser debidamente informado de la enfermedad que padece y del pronóstico de la misma es un derecho del paciente,
250
E L MÉ TODO CIÉ NTÍFICO E N LAS CIÉ NCIAS DE LA SALUD
El pronóstico, junto al diagnóstico y al tratamiento, constituyen la triada de elementos que caracterizan la actuación clínica, los tres basados en estudios probabilísticos. En general, el peor estudiado de los tres es el pronóstico. La mayoría de los estudios clínicos en ciencias de la salud son sobre terapéutica, a mucha distancia le siguen los estudios sobre el diagnóstico y, por último, los estudios sobre pronóstico, que además son los más afectados por los sesgos. Una decisión clínica correcta no es posible sin un diagnóstico adecuado seguido de un pronóstico, que en muchos casos decidirá el tratamiento. El pronóstico puede hacerse de forma global para una determinada enfermedad o ajustado a las características de un paciente concreto. Por ejemplo, podemos decir que la probabilidad de que un paciente diagnosticado de cáncer de colon viva cinco años, después de diagnosticado, es del 40%, lo cual sería un pronóstico global de la enfermedad; y decir que un paciente diagnosticado de cáncer de colon en el estadio B de Duke es del 55% (1) sería un pronóstico particularizado para un determinado paciente. Evidentemente, siempre es preferible un pronóstico particularizado ya que las posibilidades de supervivencia o de invalidez de los pacientes afectados de una misma enfermedad, pueden tener oscilaciones muy grandes. Por ejemplo, la probabilidad de que viva cinco años después del diagnóstico un paciente afectado de carcinoma de colon en estadio A de Duke es aproximadamente del 75% si otro paciente ha sido diagnosticado en un estadio D de Duke, la probabilidad de supervivencia a los cinco años es menor del 1%. Como analizaremos a lo largo del capítulo, las probabilidades asociadas a los pronósticos son aproximadas. Las variaciones pueden ser muy grandes, dependiendo de los autores, y esto es debido a dos causas fundamentalmente: la variabilidad real existente entre distintas poblaciones y hospitales y los abundantes sesgos que afectan a la determinación de factores pronósticos. Por ejemplo, en un cuadro tan frecuente como la litiasis renal, si queremos saber la probabilidad de que haya recidivas en un plazo determinado de tiempo, y para ello consultamos la bibliografía, (2) podemos encontrar grandes discrepancias, Para unos autores la litiasis renal recidiva en el 20% de los casos, mientras que otros opinan que lo hace en más del 90%. Estas oscilaciones tan marcadas pueden ser en parte por factores ambientales, como aguas con exceso de cal, hábitos alimenticios, etc, y por sesgos de selección. Si una serie es publicada por un servicio hospitalario de urología el porcentaje de recidivas será mucho mayor que en la población general, puesto que la mayoría de los casos con un episodio único y no complicado no pasan de la atención primaria. FACTORES PRONÓSTICOS Una característica intrínseca1 al paciente que aumenta o disminuye la probabilidad de mortalidad o de complicaciones en una determinada enfermedad 1
Los factores extrínsecos al paciente, como los terapéuticos, aunque puedan modificar el pronóstico de la enfermedad, no son factores pronósticos
PRONÓSTICO
251
es un factor pronóstico. Si el factor aumenta la probabilidad de muerte o de complicaciones, es un factor pronóstico desfavorable; en caso contrario, diremos que es un factor favorable. Como se ha comentado en el apartado anterior, el conocimiento real de los factores pronósticos es una necesidad clínica, que en los próximos años se convertirá en una necesidad social. El envejecimiento de la población en los países occidentales, el aumento desorbitado de los gastos sanitarios y la existencia de pandemias como el SIDA, determinarán que la aplicación de costosos procedimientos diagnósticos y terapéuticos solamente sean posibles cuando las expectativas, no sólo en cantidad sino también en calidad de vida, sean importantes y hayan sido claramente demostradas, Por otra parte, cuando el pronóstico de la enfermedad sea claramente desfavorable, debemos procurar hacer la vida del paciente lo más agradable posible. Las exploraciones clínicas continuadas, los ingresos hospitalarios repetidos, etc, causan molestias a los pacientes que, cuando son innecesarios deben de evitarse. La medicina y cirugía paliativas deben actuar cuando las posibilidades de curación son nulas, con el único objetivo de que los pacientes sufran lo menos posible. En la actualidad el principio general es que, mientras una terapéutica tenga posibilidades de alargar la vida de un paciente, aunque dicha posibilidad sea remota, debe ser aplicada por cara que sea. Este principio, con el que coinciden en la actualidad muchos profesionales de las ciencias de la salud, no podrá aplicarse dentro de veinte o treinta años, a no ser que cambien las previsiones actuales, y no podrá aplicarse por imposibilidad económica. Por tanto, un ade-
Figura 9.1. Curvas de supervivencia.
252
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
cuado conocimiento de los factores pronósticos, será necesario a fin de que la distribución del gasto sanitario sea lo más eficiente posible. En la Figura 9.1 se representan tres curvas de supervivencia correspondientes a tres grupos de pacientes de una enfermedad en un período de siete años. La curva inferior representa la supervivencia con un factor pronóstico desfavorable. La curva media representa la supervivencia sin factores pronósticos especiales. La curva superior representa la supervivencia con un factor pronóstico favorable. PARÁMETROS DE INTERÉS PRONÓSTICO La supervivencia en un tiempo determinado no es el único parámetro de interés pronóstico, también son importantes la probabilidad de invalidez, la probabilidad de recidivas, etc. Aunque los parámetros de interés pronóstico dependen de la enfermedad y del paciente, algunos tienen un uso casi general. Los más importantes son los siguientes: Porcentaje de invalidez en un tiempo determinado. Porcentaje de supervivencia a los cinco años. Recidivas. Porcentaje de remisiones. Porcentaje de letalidad. Porcentaje de invalidez en un tiempo determinado. Conocer el porcentaje de pacientes que, pasado un tiempo determinado, estarán inválidos, y conocer factores pronósticos y terapéuticos que puedan retrasar el tiempo en el que llegará la invalidez o que disminuya el porcentaje de inválidos deben ser líneas de investigación prioritarias en los próximos años. El período de tiempo en el que interesa conocer el porcentaje de inválidos depende de las enfermedades; en la esclerosis múltiple suele utilizarse el porcentaje de invalidez a los cinco, diez y quince años después del primer brote. Después de una contusión sin sección medular con paraplejia interesa conocer el porcentaje de invalidez a los seis meses y al año, ya que las recuperaciones después de este tiempo son muy escasas, etc.
Porcentaje de supervivencia a los cinco años. Sin duda este es el
parámetro de interés pronóstico más utilizado, sobre todo en tumores. También son utilizados porcentajes de supervivencia en otros períodos de tiempo, así en los cánceres muy agresivos suele utilizarse también el porcentaje de supervivencia al año del diagnóstico, por ejemplo en algunos melanomas y cánceres pulmonares. En los estudios pronósticos sobre tumores, el porcentaje de supervivencia a los cinco años del diagnóstico aparece prácticamente en todas las publicaciones. En otras enfermedades no tumorales también es un factor importante, como en la infección por HIV
PRONOSTICO
253
Recidivas. Recidiva en clínica es la reaparición de una enfermedad un tiempo después de haber desaparecido la sintomatología clínica. En algunas enfermedades son datos de interés pronóstico: el número de recidivas y el tiempo entre las mismas. En algunas enfermedades como la enfermedad de Hodgkin, la esclerosis múltiple y algunas leucemias, etc., son factores fundamentales para elaborar un pronóstico adecuado. Remisiones. Desde el punto de vista clínico, remisión es la reducción temporal de los síntomas de una enfermedad, aunque sin alcanzar la curación definitiva. La duración y el número de recidivas son datos de interés pronóstico en enfermedades tumorales como leucemias, linfomas y no tumorales como esquizofrenia, tuberculosis, etc. Porcentaje de letalidad. Es el porcentaje de afectados de una determinada enfermedad que mueren a causa de ella. Es un indicador pronóstico de la gravedad de una enfermedad.
DETERMINACIÓN DE LOS FACTORES PRONÓSTICOS Y SUS SESGOS En la consideración de factores pronósticos podemos basarnos en nuestra experiencia y/o en la experiencia más amplia de otros compañeros reflejada en la bibliografía, los cuales tendremos que valorar de forma muy distinta, dependiendo entre otras cosas del tipo de estudio científico realizado.
Experiencia personal La experiencia personal por sí sola habitualmente no es suficiente, y en ocasiones nos puede inclinar a apreciaciones erróneas. Pocos facultativos han tratado a pacientes de una determinada enfermedad en toda su gama, y en número suficiente de casos, Supongamos pacientes afectados de úlcera gastroduodenal. Si pedimos la opinión basada en su experiencia de un médico de atención primaria, éste consultará sus anotaciones y nos dará una información acerca de la enfermedad y de sus complicaciones más benigna de lo que en realidad es. Muchos pacientes con complicaciones como fuertes dolores rebeldes al tratamiento o hemorragias, irán directamente al hospital. Algunos no volverán a la consulta de atención primaria en mucho tiempo y, cuando vuelvan, lo harán por otras necesidades y en muchas ocasiones no relatarán la complicación que les hizo visitar un servicio de urgencias hospitalario. Como consecuencia, el pronóstico infravalorará las complicaciones. Si a continuación pedimos su opinión basada en la experiencia a un especialista en gastroenterología que trabaje fundamentalmente en un centro hospitalario, éste consultará su archivo y nos dará
254
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
una información mucho más pesimista de la enfermedad que en el caso anterior. El porcentaje de complicaciones que precisaron ingreso hospitalario, e incluso intervenciones quirúrgicas, será mucho mayor que en atención primaria. La experiencia profesional está sesgada en la mayoría de los casos. Además, según algunos estudios (3), está muy influida por los casos más espectaculares, asociando complicaciones o mejorías espectaculares a factores no analizados científicamente. Además de los sesgos anteriores, pocos facultativos tienen una casuística suficientemente grande como para poder realizar pronósticos sobre el curso de una enfermedad con suficiente rigor científico. Supongamos que, tras una intervención quirúrgica de hernia de disco intervertebral a nivel lumbar, la probabilidad de un embolismo pulmonar es de 1 por 500 casos, ¿cuantos cirujanos tienen una casuística suficiente como para evaluar este hecho? Además la probabilidad anterior es global: algunos con una experiencia de 30 casos pueden haber tenido una complicación embólica y otros, en 700 casos, no haber tenido ninguna, su intercambio de opiniones en un congreso tendrá motivaciones muy distintas. En resumen, la experiencia personal está sujeta a tres sesgos fundamentalmente: Un sesgo de selección debido a la dificultad de haber tenido contacto con todos los tipos de pacientes de una determinada enfermedad. Un sesgo de información que nos lleva a valorar en mucho mayor grado los factores acompañantes, a los pacientes con curaciones o empeoramientos más sorprendentes. "También existe una tendencia a valorar más a los pacientes recientes que a los antiguos. Sesgos estadísticos debidos a que en general el número de casos atendidos de una enfermedad concreta no suele ser muy grande, con lo que la influencia del azar es importante.
Tipos de estudios Los únicos tipos de estudios que garantizan la posibilidad de una caracterización adecuada de factores pronósticos son los de cohortes de pacientes, al inicio clínico de la enfermedad. Y esto controlando adecuadamente los sesgos que pueden ocurrir en la determinación de este tipo de factores, los cuales son muchos y a veces muy sutiles. Algunos autores (4) recomiendan que, si un artículo sobre factores pronósticos no está basado en una cohorte de inicio bien constituida, no se debe perder el tiempo leyéndolo. En realidad, los estudios que no sean de cohortes de inicio tienen en general tantos sesgos, que su lectura puede ser generadora de ideas erróneas. Si consultamos la bibliografía en busca de factores pronósticos para una determinada enfermedad, en primer lugar se debe tener precaución en no con-
PRONOSTICO
255
siderar como absolutamente válidos los estudios realizados a partir de poblaciones distintas a la atendida habitualmente por usted. Suponiendo que los datos sean exactos para el lugar donde se realizaron, lo cual es mucho suponer, la asunción de dichos datos como totalmente válidos para sus pacientes, en la mayoría de los casos, no se corresponderá con la realidad. Recuerde las discusiones sobre validez externa del Capítulo 5. En la mayoría de los casos un factor pronóstico bien determinado se comportará como tal en la mayoría de los centros, pero la cuantificación de su influencia variará notablemente dependiendo de los ámbitos donde se realice el estudio. En el caso de que existan varios estudios que considere serios, elija el realizado sobre pacientes con características parecidas a los suyos. Si usted atiende fundamentalmente pacientes de clase media, no use como referencia datos procedentes de hospitales para ricos, a no ser que no haya otros, el prestigio del hospital puede deslumhrarle, pero los medios empleados, la cualificación del personal facultativo y auxiliar a todos los niveles del centro y el tipo de paciente pueden ser muy distintos a los suyos. Los tipos de estudios2 más frecuentes para la valoración de los factores pronósticos suelen ser los siguientes: Series de casos. Estudios de casos y controles. Estudios de cohortes. Series de casos. Este tipo de estudios consiste en describir los principales datos clínicos de una serie de pacientes. La mayoría de los trabajos sobre factores pronósticos son series de casos, y muchas opiniones de los facultativos sobre supervivencia u otros factores pronósticos están basadas en series de casos, a pesar de que son estudios descriptivos que no sirven para demostrar hipótesis y cuyos resultados rara vez tienen aplicación fuera del servicio en que se realizaron. Además de estas circunstancias inherentes a las series de casos, en el caso concreto de los factores pronósticos los sesgos son muy frecuentes. Es desaconsejable basar el conocimiento sobre pronóstico en series de casos. Estudios de casos y controles. Otro tipo muy frecuente de estudio utilizado para caracterizar factores pronósticos es el de casos y controles. En el Capítulo 6 se comentaron las características generales de los estudios de casos y controles los cuales están sujetos a muchos sesgos. Los individuos, en general, no son representativos de la población de enfermos. La razón de ventaja no puede medir el riesgo o la protección y solamente es un indicador, por lo que 2 En el Capítulo 5 se estudiaron, con bastante amplitud, los tipos de estudios utilizados más frecuentemente en las ciencias de la salud y en el 6 los sesgos. En este capítulo únicamente analizaremos las características y sesgos específicos que surgen en la determinación de factores pronósticos.
256
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
en la determinación de factores pronósticos a partir de este tipo de estudios se pueden cometer grandes errores. En la determinación de factores pronósticos a partir de estudios de casos y controles, todos los individuos que participan en el estudio padecen la enfermedad de interés. Los casos son pacientes que han fallecido en un período de tiempo determinado o que tienen una determinada complicación y los controles son pacientes que no han fallecido en un período de tiempo determinado o que no tienen la complicación. El interés del estudio se centra en determinar si uno o varios factores pueden explicar el que los pacientes pertenezcan a uno u otro grupo. Un estudio de casos y controles para determinar factores pronósticos debe incluir casos representativos de los distintos grados de la enfermedad. Estudios de cohortes. Los estudios de cohortes son los únicos que pueden caracterizar los factores pronósticos y medir el riesgo o protección que producen. Los integrantes de la cohorte son todos individuos afectados de la enfermedad. Los pacientes entran en la cohorte en el mismo momento en que la enfermedad se manifiesta clínicamente. En general la cohorte se sigue durante un período de tiempo determinado, pasado el cual se intenta relacionar la supervivencia, la invalidez u otras complicaciones con algunos factores determinados. Los estudios de cohortes en la determinación de factores pronósticos están sujetos a numerosos sesgos, al igual que el resto de los estudios, los cuales serán analizados en el siguiente apartado. Pero hay dos cuestiones específicas de los estudios de cohortes que hay que tener en cuenta: A. Es fundamental que los pacientes que forman parte de ella entren en el estudio al comienzo clínico de la enfermedad. La cohorte debe estar formada por casos incidentes, nunca prevalentes, como veremos en el siguiente apartado. Esto puede dar lugar a importantes errores con resultados paradójicos. B. La cohorte debe contener los casos incidentes de la enfermedad referidos a la población general, y no sólo los que acuden a un determinado centro sanitario, a fin de evitar el principal sesgo que puede encontrarse en los estudios de factores pronósticos: la selección por el grado de la patología. Este sesgo fue relatado en el comentario sobre los sesgos de la experiencia profesional y volverá a ser comentado en el siguiente apartado. En los países con listas de espera para consultas especializadas, la determinación de factores pronósticos no podrá realizarse adecuadamente y los valores obtenidos nunca deben ser comparados con los de países u hospitales en los que los pacientes sean atendidos poco tiempo después de manifestarse la enfermedad. En los centros donde los pacientes son atendidos rápidamente, los posibles estudios de cohortes pueden considerarse como cohortes de ini-
PRONÓSTICO
257
ció, Si en algunos centros sanitarios los pacientes son atendidos por termino medio seis meses desde el comienzo clínico de la enfermedad, las cohortes no son de inicio, aunque los pacientes sean incluidos inmediatamente después de ser recibidos en el centro. Serán cohortes de casos prevalentes, lo que resta un gran valor a los resultados. En el apartado sobre sesgos insistiremos en este tema.
Sesgos Además de los sesgos habituales en ciencias de la salud, comentados en el Capítulo 6, la determinación de factores pronósticos está sujeta a una serie de sesgos específicos que comentamos a continuación. La mayoría son de selección, pero no debe descuidarse el de información o medida y el control de los posibles factores de confusión. Sesgos de selección. Este tipo de sesgos se producen cuando los individuos que participan en el estudio no son representativos de todos los individuos afectados de la enfermedad. Los más importantes son los siguientes: I. II. III. IV
Diferencias en el estadio y complicaciones de la enfermedad. Diferencias socioeconómicas. Sesgo de los casos prevalentes. Sesgo de los casos recidivantes.
I. Diferencias en el estadio y complicaciones de la enfermedad. En
el comentario realizado en este mismo apartado sobre la experiencia, analizábamos el sesgo de selección que se producía en el análisis de factores pronósticos, según que la labor profesional se realizara en centros hospitalarios o extrahospitalarios. Este mismo sesgo puede ocurrir en cualquier tipo de estudio: los extrahospitalarios infravalorarán las complicaciones respecto a los hospitalarios; además el tipo de pacientes en cuanto a la gravedad de la patología puede variar mucho dependiendo del centro hospitalario. Los centros hospitalarios de referencia en general atenderán los casos más graves y con más complicaciones. Centros internacionalmente famosos, como el Houston Hospital o la Clínica Mayo, reciben los casos más complejos del mundo, y sería lógico que las series de este tipo tuvieran los peores índices de supervivencia y de complicaciones. Cuando se escucha a algún facultativo de un hospital medio comentar que su servicio tiene cifras de supervivencia o de invalidez comparables a la Clínica Mayo, no se puede evitar una sonrisa, no porque esto no sea cierto, sino porque en general deberían ser mucho mejores habida cuenta del tipo de pacientes atendidos. En cualquier caso las series de hospitales distintos no son comparables. II. Diferencias socioeconómicas. En nuestro país, la mayoría de los hospitales son públicos y, salvo en casos muy concretos, este tipo de selección no es
258
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
demasiado importante, pero en otros países sí lo es. El acceso a algunos centros hospitalarios está prácticamente limitado a personas de altos recursos económicos, siendo este un factor importante en la evolución de los pacientes, puesto que, además de la atención sanitaria en el centro, los cuidados que pueden recibir cuando salgan del centro serán mejores, pudiendo contratar personal especializado privado, lo cual puede influir decisivamente en el curso de la enfermedad. III. Sesgo de los casos prevalentes. Cuando los estudios se realizan a partir de casos que llevan un tiempo de evolución, puede haberse iniciado el estudio en otro centro sanitario y, a la vista de sus complicaciones o no respuesta al tratamiento, ser derivado a otro centro en el que finalmente se incluye en algún estudio. Este esquema de derivación es muy frecuente, por lo que muchos estudios están basados en casos prevalentes. Un caso incidente es aquel que se puede seguir inmediatamente después de que la enfermedad se ha manifestado clínicamente. Aunque el paciente sea incluido en un estudio de seguimiento el mismo día en que es captado por un centro sanitario, si la enfermedad ha comenzado hace tiempo, ya es un caso prevalente. Supongamos que una unidad de coronarias realiza un estudio de seguimiento de los pacientes ingresados, hay dos tipos de pacientes que no estarán representados: los casos de muerte súbita y los casos subclínicos que no acuden a ningún centro sanitario o que no se diagnostican adecuadamente. Los posibles factores pronósticos asociados con los casos de muerte súbita o los casos subclínicos no podrán ser reconocidos. En un estudio completo de la enfermedad se debe intentar incluir todos los casos, aunque ello no siempre es posible, como en los subclínicos, pero se debe intentar recoger información sobre las muertes súbitas, siempre y cuando se pueda demostrar la causa. Un ejemplo de sesgo de casos prevalentes muy conocido, y que ya comentamos en el Capítulo 6, es el siguiente: en las leucemias agudas linfocíticas (L.A.L) se identificó como factor de riesgo (5) el antigeno HLA-2, al haberse encontrado una asociación entre la enfermedad y dicho factor. Los mismos autores un año más tarde comunicaron que el antigeno HLA-2 no sólo no era un factor de riesgo, sino que era un factor pronóstico favorable. La paradoja se produjo porque al encontrar una asociación positiva entre el antigeno y la enfermedad, el antigeno era más frecuente en los enfermos que en los sanos. Después comprobaron que era más frecuente en los enfermos, porque sus portadores tenían una supervivencia mayor que los que contraían la enfermedad y no tenían el antigeno. Al morir estos antes, daba la falsa impresión de que eso estaba asociado con los enfermos en el sentido de riesgo. El sesgo se produjo por haber estudiado casos prevalentes en lugar de casos incidentes. Sesgo de los casos recidivantes. Nos referimos a enfermedades que pueden recidivar, como tuberculosis, litiasis renal, esclerosis múltiple, lmfomas etc. Un caso recidivante tiene más posibilidades de ser incluido en el estudio que un caso con un solo episodio, lo cual hace que se sobrevalore la probabi-
PRONÓSTICO
259
lidad de recidiva. Por ejemplo si un paciente ha padecido cinco artritis gotosas, será atendido en un centro sanitario cinco veces y tendrá una probabilidad de entrar en un estudio cinco veces mayor que un paciente que ha padecido solamente un episodio de la enfermedad. Sesgos de información o de medida. El pronóstico de un paciente depende de muchos factores, en primer lugar de que la enfermedad y sus complicaciones sean debidamente diagnosticadas. En esto influyen, además del servicio hospitalario donde se encuentre el paciente, la cualificación del personal de los servicios centrales y la organización del hospital. Entre los distintos hospitales suele haber diferencias entre estos elementos que influirán en los resultados. ANÁLISIS DE FACTORES PRONÓSTICOS Según el tipo de estudio realizado, el análisis estadístico de los factores pronósticos debe ser distinto. Series de casos. En los estudios con series de casos, solamente cabe un análisis descriptivo, que puede servir de base para generar hipótesis. Estas se comprobarán mediante los correspondientes estudios analíticos, preferentemente de cohortes. Casos y controles. En los estudios de casos y controles podemos calcular la razón de predominio (OR) de los pacientes en presencia del factor pronóstico. Dependiendo del planteamiento de los datos, el OR puede tener un significado u otro. No se puede generalizar como en el caso del riesgo relativo. Ejemplo 9.1. En la esclerosis múltiple, un porcentaje importante de pacientes sufren invalidez permanente por lo que se sospecha que un factor F puede ser un factor pronóstico desfavorable para la invalidez. Con objeto de comprobarlo se lleva a cabo un estudio de casos y controles. Los resultados obtenidos son los siguientes:
260
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Observe que todos los participantes están afectados por la enfermedad en estudio, y los casos son los que han fallecido o tienen alguna complicación o secuela, invalidez en este caso. Los controles son afectados que no tienen la complicación, no inválidos en este ejemplo. Como la razón de ventaja OR es mayor de uno, el factor es de pronóstico desfavorable para la invalidez. Los pacientes en los que dicho factor está presente tendrán más probabilidades de invalidez que aquellos en los que el factor no esté presente. Siempre y cuando se hayan controlado adecuadamente los sesgos descritos en el apartado anterior y los posibles sesgos de confusión. Cohortes de comienzo. Los individuos participantes en una cohorte de comienzo están todos afectados de la enfermedad de interés, ingresando en la cohorte cuando la enfermedad se manifiesta clínicamente. En este tipo de estudios si han sido controlados adecuadamente los sesgos de selección y de medida comentados anteriormente. Los métodos estadísticos a aplicar son muy variados. Una técnica estadística muy útil en la determinación de factores pronósticos es el análisis de supervivencia (7), aunque matemáticamente esta técnica puede aplicarse a todo tipo de estudios. Para que los resultados sean válidos solamente tiene sentido su aplicación en los estudios prospectivos, como los de cohortes o los estudios prospectivos de intervención (ensayos clínicos). También puede ser aplicada en cohortes retrospectivas si estamos seguros de conocer todos los datos sobre factores de interés pronóstico y el comienzo clínico de la enfermedad de todos los pacientes, El análisis de la supervivencia no sólo es válido para analizar mortalidad, sino que también tiene en ciencias de la salud otras muchas aplicaciones, como estimar el período de tiempo antes de la curación, el período de tiempo antes de una complicación, etc. Además del análisis de la supervivencia se puede medir si un factor es de pronóstico favorable o desfavorable mediante el análisis de tablas 2 x 2 . Ejemplo 9.2. En el cáncer de colon se considera un factor de pronóstico desfavorable que el tumor infiltre la capa muscular y ganglios linfáticos locales. Con objeto de comprobarlo y medir el riesgo de muerte prematura respecto a los que no tienen infiltrada dicha capa, se sigue una cohorte de pacientes afectados de carcinoma de colon durante cinco años. Los resultados obtenidos son los siguientes:
PRONOSTICO
261
CMGL significa capa muscular y ganglios linfáticos invadidos, RFP es el riesgo de morir en los cinco años siguientes al diagnóstico de la enfermedad. En este caso el 69% de los pacientes con CMGL fallecieron antes de los cinco años. La probabilidad de que un paciente en el que no este afectada la capa muscular y los ganglios linfáticos fallezca antes de los cinco años es del 14% y el riesgo relativo es 4,92. Esto significa que es 4,92 veces más probable fallecer antes de cinco años si la CMGL están afectadas que si no lo están. Las conclusiones anteriores son válidas sobre la población en la que se seleccionaron los pacientes. Fuera de dicha población aceptaremos que la infiltración de la capa muscular y de los ganglios linfáticos es un factor de mal pronóstico, no sólo por el resultado estadístico obtenido, sino también por lo que es más importante, la lógica patogénica del factor, pero la cuantificación del riesgo puede ser muy variable, dependiendo de las poblaciones, entre otras razones por las diferencias existentes entre los centros sanitarios. No debe olvidarse el control de los factores de confusión: si es uno solo puede controlarse mediante el análisis de tablas 2 x 2 (ver Capítulo 6); si se sospecha que hay dos o más factores de confusión, recomendamos su control mediante las adecuadas técnicas de análisis multivariante (8). LECTURAS RECOMENDADAS Sackett David L. Epidemiología clínica, Madrid Ediciones Díaz de Santos, 1989. Bemard Grenier. Decisión medícale, París Masson 1989.
BIBLIOGRAFÍA 1. Farreras Rozman. Mediana interna. 12.a edición. Barcelona EditoriaL Doyma, 1992, 190. 2. Recurrent renal calculi. Br Med J 1981, 282: 5. 3. Tversky A, Kahneman D. Judgment under uncertainty: Heuristics and biases. Science 1974; Vol:185, Pag: 124. 4. Sackett D.L et al. Epidemiología clínica. Madrid Edit Díaz de Santos, 1989; pág: 209. 5. Rogentine GN et al. HLA antigens and disease: acute lymphocytic leukemia, J Clin Invest 1972; 51:2420-2428. 6. Rogentibne et al. HLA antigens and acute lymphocytic leukemia: the nature of the association. Tissue Antigens 1973; 3:470-476, 7. Cox DR. Analysis of survival data. Londres-New York Editor Chapman and Hall 1984. 8. Álvarez Cáceres R, Estadística multivariante y no paramétrica con SPSS. Madrid Editorial Díaz de Santos, 1994.
Capítulo 10 TERAPÉUTICA
De todos los infortunios que afligen a la humanidad, el más amargo es tener conciencia de muchas cosas y control de muy pocas. Herodoto.
La terapéutica es el conjunto de decisiones cuyo objetivo es curar o paliar en lo posible una enfermedad. En este capítulo se estudiarán los factores que influyen en la mejoría de los pacientes, los tipos de terapéutica y la evaluación de la eficacia terapéutica, con especial atención a los ensayos clínicos y los posibles efectos perjudiciales de los tratamientos. El Capítulo 11 estará dedicado íntegramente a los ensayos clínicos, aunque en este capítulo se comentarán algunos conceptos fundamentales sobre ellos. TERAPÉUTICA Una vez realizado el diagnóstico y el pronóstico de la enfermedad que aflige al paciente debemos decidir cómo podemos ayudarle. La terapéutica es el conjunto de medidas destinadas a modificar la historia natural de la enfermedad en beneficio del paciente. El primer objetivo de la terapéutica es conseguir la curación definitiva y sin secuelas del enfermo, pero esto no siempre es posible. Muchas veces nos tenemos que conformar con aliviar sus sufrimientos. La terapéutica, junto con el diagnóstico y el pronóstico, completa la tríada de decisiones clínicas con significados y métodos de estudio muy distintos pero que se deciden conjuntamente y a veces de manera muy rápida. Un error en cualesquiera de ellas puede ser catastrófico para el paciente. La mayoría de las enfermedades evolucionan espontáneamente a la curación. Incluso en el caso de ser potencialmente graves existen casos de curación espontánea. Por ejemplo, en ocasiones se encuentran, en exámenes de rutina, pacientes que han tenido un infarto de miocardio subclínico. La presencia de ondas Q profundas en el electrocardiograma y el resultado de algunas autop-
264
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
sias así lo demuestran, viviendo muchos años después del infarto sin haber recibido atención sanitaria. Los médicos, cuando atendemos a los pacientes nunca estamos solos; nos acompañan dos colegas: la doctora Naturaleza y el doctor Tiempo. Ellos son los responsables de muchos de nuestros éxitos profesionales. Al aplicar cualquier medida terapéutica debemos estar seguros de que es capaz de superar a nuestros dos colegas y sobre todo estar seguros de que no va a ser perjudicial. La primera ley que debe tener en cuenta un médico es que no debe hacer daño al paciente. Es evidente que nuestras actuaciones siempre tienen la mejor intención, pero esto no es suficiente. Los ejemplos de desastres producidos por los tratamientos son muchos. Recordaremos por su gravedad los miles de muertos asintomáticos producidos por el clofibrato (1) y las malformaciones producidas por la talidoamida; los dos anteriores son ejemplos de efectos indeseables graves de la terapéutica, Sin consecuencias tan graves como los anteriores, los casos de efectos secundarios que precisan ser atendidos en centros de urgencia son innumerables. Dependiendo de los centros sanitarios, entre el 4 y el 7% de los ingresos hospitalarios son por causas yatrogénicas (2); medicamentos de uso tan corriente como el ácido acetilsalicílico o la digoxina son responsables de muchos de ellos. Además de efectos tan graves como la muerte, las malformaciones congénitas o afectaciones que precisen hospitalización, los casos de efectos secundarios que causen trastornos atendidos en domicilio como tos, pirosis gástrica, cefaleas, etc, son innumerables. Debemos reflexionar profundamente antes de atiborrar al paciente de fármacos o recomendar una intervención quirúrgica de los posibles efectos indeseables, los cuales en muchos casos son difíciles de conocer por ser poco frecuentes. En la valoración de una terapéutica debemos sopesar los potenciales beneficios y perjuicios que puede producir. Conocer rigurosamente las propiedades benéficas de los tratamientos y sus efectos indeseables es muy complejo, siendo una de las principales actividades de la investigación en ciencias de la salud y en la que más dinero se invierte. TIPOS DE TRATAMIENTO El deseo de todo1 médico es curar definitivamente y sin secuelas a sus pacientes. Si ello no es posible, el tratamiento deberá encaminarse a procurar que las complicaciones, secuelas y sufrimientos sean los menos posibles. Dependiendo de los objetivos, los tratamientos pueden ser: Curativos. Sintomáticos. 1
Hay muchos licenciados y doctores en medicina que hacen su trabajo rutinariamente y sin ilusión, y puede que su deseo no sea hacer todo lo posible por sus pacientes, pero esos que son muchos, esos, no son médicos; por eso la palabra todos es adecuada.
TERAPÉUTICA
265
Preventivos. Paliativos. Tratamiento curativo. Las medidas encaminadas a la curación definitiva de la enfermedad constituyen el tratamiento curativo. El tratamiento de una neumonía bacteriana con un antibiótico al que el germen causal es sensible, la extirpación completa de un tumor, etc., son tratamientos curativos. Siempre que existan posibilidades con base científica de efectuar un tratamiento curativo debe aplicarse; en caso de duda la decisión debe ser a favor del paciente, Tratamiento sintomático. Las medidas encaminadas a aliviar los síntomas de las enfermedades constituyen el tratamiento sintomático. Los antipiréticos, analgésicos y antiácidos son fármacos cuyo objetivo es aliviar síntomas. La mayoría de las veces el tratamiento sintomático es una parte de las medidas terapéuticas aplicadas a un paciente. Tratamiento preventivo. Las medidas terapéuticas encaminadas a prevenir las enfermedades o sus complicaciones constituyen el tratamiento preventivo. En el Capítulo 8 dedicado a la prevención, se diferenciaba entre los distintos tipos de tratamiento preventivo. Aquí nos referiremos a la prevención terciaria, que es el tratamiento destinado a prevenir las complicaciones más frecuentes de una determinada enfermedad, El avance en el conocimiento de la historia natural de la enfermedad y sus complicaciones han supuesto un fuerte auge de la prevención terciaria, El tratamiento anticoagulante en pacientes con una arritmia cardíaca o que han sufrido una fractura de cadera son ejemplos de tratamiento preventivo terciario. Tratamiento paliativo. El conjunto de medidas destinadas a combatir los síntomas y conseguir una vida agradable en los enfermos terminales constituye el tratamiento paliativo. Aunque la atención a pacientes terminales es un tratamiento sintomático, tiene una serie de características especiales, que merecen que les sea dedicado un espacio individualizado. En este tipo de pacientes médicamente desahuciados, el principal objetivo del tratamiento es aliviar el sufrimiento del paciente, careciendo de importancia algunos efectos secundarios como la posible adicción a algunos medicamentos. En general el tratamiento global de un paciente consta de más de uno de los tipos anteriores. Por ejemplo, si un paciente padece una fractura de cadera, el tratamiento curativo es el quirúrgico, cuyo objetivo es que la fractura cure dejando las menos secuelas posibles. Los medicamentos y acciones cuyo fin es mejorar la sintomatología, como los analgésicos, tranquilizantes, etc, constituyen el tratamiento sintomático. Las acciones terapéuticas cuyo objetivo es evi-
266
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
tar complicaciones, como la administración de medicamentos hipocoagulantes para evitar tromboembolismos, son el tratamiento preventivo.
FACTORES QUE MEJORAN LAS ENFERMEDADADES Hay varios factores que influyen en el curso de la enfermedad mejorando la sintomatología e incluso curándola. Estos factores son varios y su conocimiento es muy importante para poder evaluar la eficacia real de cualquier acción terapéutica. Los factores conocidos más importantes que mejoran el curso de la enfermedad son los siguientes: I. Historia natural. II. Placebo. III. Cuidados. IY Terapéutico. I. Historia natural. Muchas enfermedades evolucionan hacia la mejoría y a la curación de manera espontánea. Este factor al que hemos llamado natural es el efecto atribuido alegóricamente a la doctora Naturaleza y al doctor Tiempo. Enfermedades como la gripe, el catarro común, faringitis, etc, curan sin secuelas en pocos días en más del 99% de los casos, aunque no apliquemos ninguna medicación. Además del tratamiento sintomático, cualquier medicación parecerá muy efectiva puesto que en la inmensa mayoría de los casos curarán en poco tiempo. II. Efecto placebo. En múltiples estudios se ha comprobado que el hecho de someter a tratamiento a un paciente mejora la sintomatología respecto a otros pacientes a los que no se les aplica ningún tratamiento, aunque la sustancia administrada no contenga ningún principio químico activo. El efecto placebo es muy conocido y es independiente del factor natural. Un ejemplo bastante demostrativo del efecto placebo es el de un trabajo de Fischer (3) en el que cuarenta y seis pacientes afectados de prurito crónico fueron tratados secuencialmente con antihistamínico, placebo y nada. En los períodos tratados con placebo decían tener la misma intensidad pruriginosa que en los períodos tratados con antipruriginosos y menos que cuando no se les administraba ningún tratamiento. En este estudio el efecto placebo era tan eficaz como los fármacos supuestamente activos. III. Efecto cuidados. Los pacientes a los que se les presta mucho tiempo y atenciones aunque no se les administre medicación mejoran su sintomatología respecto a los pacientes a los que se dedica una atención suficiente para encauzar su problema clínicamente pero sin atenciones excesivas. A este efec-
TERAPÉUTICA
267
to independiente de los factores natural y placebo le denominaremos factor cuidados. En el mundo anglosajón se le conoce como efecto Hawthorne (4). IV. Efecto terapéutico. El efecto de las medidas médicas o quirúrgicas destinadas a curar o mejorar las enfermedades es el factor terapéutico. Este efecto, para que pueda ser considerado eficaz, debe ser independiente del resto de los efectos que pueden influir en la mejoría o curación de una enfermedad. En la Figura 10.1 se han representado los factores que influyen en la curación o mejoría de los pacientes. En la representación gráfica se ha dado la misma importancia a todos los factores, pero la influencia real de cada factor varía en cada enfermedad e incluso con cada paciente. Los factores anteriores actúan de manera conjunta. Cualquier evaluación de la eficacia terapéutica de un tratamiento debe ser cuidadosamente estudiada para destacar sus verdaderos efectos terapéuticos. Cualquier terapia tendrá un porcentaje de mejorías e incluso de curaciones aunque en sí misma no tenga ningún valor terapéutico, debido a la influencia de los otros factores. Este es el secreto de las llamadas medicinas alternativas, homeopatía, curanderos, charlatanes, pulseras magnéticas, hierbas milagrosas, etc. Estos embaucadores hacen una gran propaganda de los éxitos conseguidos, pero no sabemos cuántos pacientes han sido tratados ni cuántos fracasos han tenido. Los factores natural, placebo e interés, unidos a una cierta confianza en estos métodos, que suele ser grande en los pacientes que acuden a estas terapias, consiguen un importante porcentaje de mejorías, que por supuesto los
Figura 10.1. Factores que influyen en la curación o mejoría de los pacientes.
268
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
pacientes considerarán como éxito de los curanderos, pulsera magnética o la terapia que sea. En el apartado siguiente estudiaremos los métodos de estudio apropiados para medir el efecto terapéutico independientemente del efecto de otros factores.
EVALUACIÓN DEL EFECTO TERAPÉUTICO Uno de los campos de investigación al que se dedica más tiempo y dinero en ciencias de la salud es el relacionado con el tratamiento de las enfermedades. En el estudio de los tratamientos, el diseño experimental que se utilice debe permitir medir el efecto terapéutico del tratamiento, reduciendo al mínimo posible la probabilidad de confusión con los otros efectos que influyen en la curación de los pacientes. En la evaluación terapéutica hay que tener en cuenta los siguientes elementos: Los posibles sesgos. Los grupos de control. El sistema de cegadas. El tipo de estudios.
Sesgos en la evaluación terapéutica En la evaluación terapéutica, además de los sesgos generales a tener en cuenta en todo trabajo científico, hay algunos sesgos específicos que deben ser debidamente controlados. Sesgos de selección. Uno de los factores que más influyen en la evaluación terapéutica es que los pacientes del grupo experimental y del grupo control sean diferentes en alguna característica que influya en el curso de la enfermedad. Las diferencias entre los grupos que hay que tener en cuenta principalmente en la evaluación terapéutica son las siguientes: I. En el estadio y complicaciones de la enfermedad. II. Nivel socioeconómico de los pacientes. III. Atenciones clínicas. IV. Cumplimiento de la medicación. I, Las diferencias en el estadio de la enfermedad y las complicaciones acompañantes existentes entre los grupos control y experimental pueden influir notablemente en los resultados. En los estudios multicéntricos debe tenerse especialmente en cuenta esta circunstancia. Si entre los centros que intervienen en el ensayo existen diferencias importantes en las listas de espera de la especialidad de interés, los resul-
TERAPÉUTICA
269
tados del estudio pueden estar sesgados. Como ya indicamos anteriormente, una diferencia de meses en la recepción de los pacientes después del inicio clínico de la enfermedad, y la consecuente aplicación de la terapia, puede alterar los resultados terapéuticos, creando diferencias incluso más importantes que las debidas a los tratamientos. II. Otra característica a tener en cuenta es que entre los pacientes de los dos grupos no haya grandes diferencias socioeconómicas, ya que esta característica puede influir en los resultados. Las personas con alto nivel socioeconómico pueden procurarse más cuidados sanitarios y acudir a centros sanitarios más modernos, lo cual puede influir en el curso de la enfermedad. III. Los cuidados y atenciones dispensadas por parte del personal sanitario a los dos grupos deben ser iguales. Si a un grupo se le dispensan más atenciones que a otro, este hecho por sí sólo puede influir en los resultados. IV Un efecto muy interesante es que los pacientes que cumplen las indicaciones terapéuticas mejoran en mayor grado que los pacientes no cumplidores. Lo curioso es que esto es independientemente de que la medicación sea activa o sea un placebo. Este efecto no debe confundirse con que el tomar una medicación eficaz aumenta la probabilidad de mejoría o de curación respecto a los que no la toman, lo cual es evidente. El efecto cumplimiento es independiente de todos los demás, incluido el terapéutico. Los pacientes cumplidores mejoran más incluso en supervivencia (5). No se conoce con certeza cuál es el mecanismo que produce este beneficioso efecto. Podría ocurrir que los pacientes cumplidores sean más disciplinados y, además de cumplir la medicación, cumplieran otras medidas dietéticas y de hábitos que pueden influir en el curso de la enfermedad. También podría influir en el cumplimiento un mayor deseo de mejorar y curar; este deseo siempre ha sido considerado de un valor curativo reconocido. Sesgos de información. Las evaluaciones analíticas y del curso clínico de la enfermedad deben ser iguales en los dos grupos. Cuando los controles son históricos o de referencia es difícil asegurar que todos los medios que influyen en el curso de una enfermedad sean iguales. Además del personal del servicio sanitario donde se lleve a cabo el estudio, la cualificación del personal de los servicios generales, los aparatos disponibles, etc, son factores muy importantes en la valoración clínica de los pacientes. En los estudios multicéntricos, aunque sean con controles concurrentes, deben tenerse en cuenta las diferencias que puedan existir entre los centros sanitarios que intervienen en el estudio, siendo necesario realizar estudios de concordancia entre los observadores que intervienen en el estudio y controles de los aparatos de medida. Otro sesgo de información y medida es achacar a la terapia efectos que en realidad son debidos a los factores natural, placebo o cuidados; esto puede
270
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
ocurrir en las series terapéuticas, en estudios no controlados y en estudios con controles históricos o de referencia. La elección cuidadosa de un grupo de control a ser posible concurrente, la aplicación de un sistema de cegadas adecuado y la realización de un estudio que asigne los pacientes a los grupos mediante técnicas aleatorias, permiten eliminar la mayoría de los sesgos. Grupos de control En la mayoría de los estudios sobre terapéutica hay dos grupos: el grupo al que se administra la terapia que queremos evaluar, al cual denominaremos grupo experimental, y el grupo de referencia que nos servirá para comparar los resultados, al que denominaremos grupo de control. En algunos estudios puede haber más de dos grupos, aunque estos suelen ser poco frecuentes. En este capítulo en general consideraremos que sólo hay dos grupos, aunque los conceptos generales son válidos para todos los estudios en los que se pretenda evaluar la eficacia terapéutica de una determinada terapia, independientemente del número de grupos. Los individuos sometidos a un estudio en el que se evalúe la eficacia terapéutica de un tratamiento farmacológico son sometidos a varias revisiones y se les dispensa una gran atención médica. Aunque la medicación no tenga ningún valor terapéutico, un porcentaje importante de los pacientes mejorarán debido a la acción conjunta de los efectos natural, placebo y cuidados. Para poder evaluar el efecto terapéutico de una determinada terapia es necesario un grupo control, en el que se les dispensa las mismas atenciones y el trato es igual que los que toman la medicación activa. De hecho, en la mayoría de los ensayos clínicos los médicos encargados del estudio no saben qué pacientes toman placebo y cuáles medicación activa. De esta manera, si existen diferencias entre los grupos serán debidas al efecto terapéutico, excepto una pequeña probabilidad de que las diferencias sean debidas al azar. Supongamos que a un grupo de cien pacientes afectados de rinitis alérgica se les trata durante siete días con un fármaco con propiedades antialérgicas. Si al final del tratamiento cincuenta y dos mejoran su sintomatología y objetivamente el médico comprueba que la irritación y mucosidad nasal han disminuido, los resultados anteriores no nos permiten afirmar que el medicamento es efectivo. Los factores natural, placebo y cuidados habrán influido en mayor o menor medida, al no haber un grupo de control no podemos evaluar el verdadero efecto terapéutico del fármaco. La evaluación completa del efecto terapéutico sin grupos controles no es posible. En los párrafos anteriores hemos visto que cuando no hay más control que la evaluación de los pacientes antes y después del tratamiento, aunque haya mejorías o curaciones no podemos saber a cuál de los varios factores que pueden influir en la mejoría se deben. Los grupos de control son necesarios para
TERAPÉUTICA
271
poder evaluar el efecto de una terapia. La única excepción es el caso de enfermedades en las que todos los casos fallezcan o queden secuelas graves. Si una enfermedad mata a todos los pacientes y una medicación cura o evita secuelas en algún paciente, debemos considerar la medicación efectiva. Aun así podría haber equivocaciones si el diagnóstico no se hace con una seguridad absoluta. Podría ocurrir que en el grupo de tratamiento hubiera algún falso positivo; la mayor supervivencia de estos puede equivocarnos. No debe olvidarse que en muchos casos los pacientes supuestamente afectados de enfermedades graves que más tiempo viven y que curan de forma milagrosa son los falsos positivos. Otra circunstancia en la que es difícil tener grupos de control es en las enfermedades raras, debido a la dificultad de reunir pacientes. En el caso de enfermedades para las que exista una o más terapias seguras, la comparación no puede realizarse por razones éticas (6) entre el fármaco que se quiera evaluar y un placebo. En estos casos el grupo de control debe estar formado por pacientes a los que se les administre una terapia de valor reconocido. Los estudios con grupo control tratado con placebo solamente son posibles si para la enfermedad en cuestión no existe una medicación efectiva. El único tipo de control que merece confianza es el concurrente, aunque tampoco garantiza la ausencia de sesgos, pero por lo menos son menos frecuentes. También comentaremos los controles históricos y de referencia, que a pesar de su valor científico prácticamente nulo son todavía muy utilizados. Los grupos de control pueden ser: Concurrentes. Históricos. De referencia. Grupos de control concurrentes. Un grupo control concurrente es el que se estudia al mismo tiempo que el grupo al que se le ha administrado el fármaco a estudio. En el grupo de control ideal las diferencias con respecto al grupo experimental deben ser solamente que en un grupo se administra un fármaco cuyo efecto se quiere estudiar y en el otro se administra un placebo u otro fármaco dependiendo de los casos. Si la diferencia de los factores a estudio y el grupo control son evaluados al mismo tiempo (a esto se le denomina grupo control concurrente), con el mismo plan de visitas y con medios diagnósticos y aparatos de medida iguales, las diferencias entre los dos grupos serán debidas a la diferencia de factores terapéuticos, excepto la influencia de algunos efectos aleatorios cuya probabilidad puede ser calculada en cada caso. Los estudios con grupo de control concurrente son los únicos que garantizan la posibilidad de evaluación del factor terapéutico. Aun así existen posibles sesgos e influencias aleatorias que pueden alterar los resultados. Controles históricos. Consideraremos controles históricos los resultados clínicos de pacientes afectados de la enfermedad en estudio, tratados anterior-
272
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
mente con terapias distintas a la que se este evaluando en el mismo centro donde se lleva a cabo la evaluación. Si los facultativos son los mismos pero el centro sanitario es distinto, el grupo control debe considerarse de referencia. Las comparaciones con controles históricos están sujetas a muchos factores que pueden hacer que saquemos conclusiones erróneas. Si los controles están alejados en el tiempo, los medios diagnósticos pueden haber cambiado, En el caso de que en la actualidad la enfermedad se pueda diagnosticar antes y, por lo tanto, el tratamiento pueda realizarse en un momento más temprano de la historia natural de la enfermedad, cualquier terapia, aunque no tenga diferencias con la utilizada en los controles históricos, parecerá mejor debido a que los pacientes vivirán más tiempo y/o tendrán menos complicaciones, pero el tiempo ganado en supervivencia o en llegar a la curación puede no ser debido al cambio de terapia sino a que el tratamiento se realiza más precozmente. Otra causa de posibles confusiones en la comparación con controles históricos es el mayor celo profesional con aumento de las atenciones a los pacientes del grupo en el que se ensaya la nueva terapia. El hecho de ensayarla casi siempre implica que los facultativos creen que es mejor que la antigua. Los estudios con controles históricos no son ciegos (en este mismo apartado analizaremos los distintos tipos de cegadas), lo que impide controlar efectos como el del factor cuidados y el efecto placebo. Los estudios con controles históricos deben evitarse, puesto que aunque los controles sean recientes y podamos considerar que los pacientes no son tratados precozmente en el grupo en el que se estudia la nueva terapia, los estudios no pueden ser ciegos y el control de los efectos cuidados y placebo puede alterar decisivamente los resultados. En un estudio (7) se revisaron los resultados de cincuenta ensayos aleatorizados y cincuenta y seis con controles históricos. En los ensayos con controles históricos el porcentaje de mejorías del grupo con la nueva terapia era del 79%. En los ensayos con grupo concurrente sólo se encontraron mejorías en el 20%. Las conclusiones del trabajo fueron que los avances en diagnóstico y terapéutica eran los responsables de la mayoría de las diferencias encontradas, y no la terapia específica para la enfermedad de interés. Controles de referencia. Cuando el grupo control está formado por pacientes tratados en otro centro sanitario con una terapia distinta a la que se quiere ensayar, esto puede ser debido a que el centro en el que se realiza el estudio no tenga experiencia suficiente con pacientes de la enfermedad de interés. El uso de controles de referencia puede inducirnos a errores importantes debido a la gran cantidad de factores que debemos controlar. En primer lugar debemos estar seguros de que el tratamiento se aplica en la misma fase de la historia natural de la enfermedad si en un centro sanitario se tarda meses en atender a un paciente tras la manifestación clínica de la enfermedad, debido a las listas de espera en las consultas especializadas, en las pruebas diagnósti-
TERAPÉUTICA
273
cas y en la aplicación del tratamiento. Dependiendo de los países en los que se lleven a cabo los estudios, las sucesivas listas de espera pueden hacer que el retraso sea de meses e incluso más de un año esto influye de manera decisiva en los resultados, pudiendo evaluar indebidamente una terapia. Otro factor a tener en cuenta es que los medios diagnósticos sean similares. Un diagnóstico más temprano de un centro respecto al otro, se seguirá de un tratamiento relativamente precoz, lo que nos equivocará en la evaluación de la terapia. Los estudios con control de referencia no son ciegos, lo que impide un control adecuado de los factores cuidados y placebo. Las diferencias socioeconómicas y poblacionales, si los centros no atienden al mismo tipo de pacientes, también pueden influir. Si tomamos como referencia los controles de la Clínica Mayo, además de todos los factores comentados, habría una diferencia socioeconómica de los pacientes de ambos grupos y las debidas a las posibles diferencias entre la enfermedad en Estados Unidos y España. Los controles de referencia no deben utilizarse salvo en el caso de que no haya otros, y en este caso deben tomarse como una información orientativa. Los estudios con grupo control se denominan controlados, pero hay que indicar en la metodología claramente el tipo de control utilizado. Cegadas En un estudio sobre evaluación terapéutica hay cuatro estamentos que intervienen en él: los pacientes, los facultativos que deciden la terapia, los facultativos encargados de la vigilancia de los pacientes y el equipo de evaluación de los datos. En algunas ocasiones el facultativo que aplica el tratamiento y el que realiza el seguimiento es el mismo, pero en otras no. Se conoce con el nombre de cegada el que alguno de los estamentos que intervienen en el estudio no conozca el grupo al que pertenecen los pacientes. Los pacientes no deben conocer el grupo al que pertenecen. Si un paciente supiera que está tomando un placebo, su confianza en el tratamiento sería menor que, los pacientes que saben que están tomando la sustancia activa; relacionarían cualquier síntoma con el no estar tomando la medicación. Incluso en los ensayos quirúrgicos, cuando no se tiene la seguridad de que una intervención sea efectiva a los pacientes del grupo control se les somete a una intervención simulada. Un ejemplo interesante es el tratamiento quirúrgico de la insuficiencia coronaria previamente a las actuales técnicas de comunicación arterial. Se realizaba una intervención que consistía en ligar la arteria mamaria interna. Los pacientes intervenidos mejoraban respecto a los no intervenidos, por lo que se creía que la intervención era eficaz, hasta que se realizaron dos ensayos clínicos controlados (20-21) con operación simulada en el grupo control y se evidenció que no existían diferencias entre los dos grupos. Las mejorías obtenidas antes del ensayo eran reales pero debidas a los efectos placebo y cuidados.
274
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En los estudios en los que los facultativos saben el grupo al que pertenecen los pacientes, las atenciones clínicas a los pacientes del grupo control suelen ser mayores, siendo éste un factor que puede alterar los resultados. Por otra parte, la asignación a los pacientes al grupo del estudio podría estar condicionada por la presencia de complicaciones u otras circunstancias que alteraran el equilibrio de los grupos. La asignación de los pacientes a los grupos debe realizarse aleatoriamente sin que el facultativo que ha decidido el tratamiento ni los encargados del seguimiento del paciente sepan a qué grupo pertenecen. Entre los encargados del control del estudio, de forma permanente debe haber un listado de los pacientes en el que se indique a qué grupo pertenece por si hay una emergencia. Los estudios en los que los pacientes y los facultativos encargados de asignar y seguir el tratamiento desconocen el grupo al que han sido asignados los pacientes son denominados doble ciego, pero debe tenerse en cuenta que puede haber otros tipos distintos de doble ciego como comentaremos más adelante. El conocimiento por parte de los encargados de evaluar los resultados de los grupos de los que proceden los datos podría influir en los métodos a emplear, siendo aconsejable que no conozcan los grupos de procedencia. En la metodología del estudio debe quedar claramente reflejado quiénes de los cuatro estamentos intervinientes conocían o desconocían el grupo a que pertenecían los pacientes. La nomenclatura simple ciego, doble ciego, etc, sin especificaciones puede llevar a generar conceptos erróneos sobre el desarrollo de la prueba. Por ejemplo, si en un estudio ni los pacientes ni los evaluadores de los datos conocían los grupos a que pertenecen los pacientes es un doble ciego. Sin embargo, por doble ciego sin especificaciones se sobreentiende que ni el paciente ni el médico que asigna los tratamientos conocen el grupo terapéutico al que pertenecen los pacientes. Por simple ciego se sobreentiende que el paciente no sabe a qué grupo pertenece, pero también es un simple ciego un estudio en el que el único que desconoce los grupos de asignación es el evaluador de los datos. Insistimos en la necesidad de relatar detalladamente en la metodología los estamentos cegados y no fiarnos de la terminología simple ciego, doble ciego, etc, que en ocasiones puede ser mal entendida. En los ensayos quirúrgicos es más difícil conseguir cegadas en los cirujanos, aunque puede conseguirse si el que realiza el seguimiento del paciente es distinto del que realiza la intervención. Cegar al paciente evita que los asignados al grupo control tengan la sensación de no estar recibiendo el mejor tratamiento, pudiéndose crear un efecto antiplacebo. Por otra parte, los asignados al grupo experimental tendrán la sensación de estar recibiendo una medicación efectiva. Los grupos estarán claramente desequilibrados en cuanto a la sensación sicológica de los pacientes. Esta cegada evita el desequilibrio de los grupos en cuanto al efecto placebo.
TERAPÉUTICA
275
Cegar al facultativo que asigna los tratamientos evita que los grupos puedan estar desequilibrados en cuanto al tipo de pacientes, ya que la tendencia será administrar la terapia aparentemente más segura a los pacientes clínicamente más deteriorados, que además suelen ser los de más edad. La diferencia entre que la asignación sea aleatoria o por criterio médico es lo que distingue a los estudios de intervención, prospectivos, con control concurrente de asignación aleatoria (EIPCCAA) de las cohortes terapéuticas, siendo con mucha diferencia preferibles los primeros. Cegar a los facultativos que realizan el seguimiento evita que puedan dispensarse mayores cuidados a los pacientes que toman el placebo o la terapia aparentemente menos efectiva. Esta cegada evita el desequilibrio en cuanto al efecto cuidado. Cegar a los evaluadores de los datos evita que al ser estos procesados, si no se observan diferencias entre los grupos, se realicen varias pruebas estadísticas que por efectos aleatorios puedan alterar los resultados, puesto que los evaluadores podrían esperar encontrar diferencias a favor del grupo experimental.
Tipo de estudios En la evaluación terapéutica el tipo de estudios utilizados es un factor de una importancia principal. En este libro consideraremos como ensayo clínico a cualquier estudio que pretenda evaluar una terapéutica. En algunas ocasiones se entiende como ensayo clínico únicamente a los estudios de intervención, prospectivos, con control concurrente y asignación aleatoria EIPCCAA, lo cual es erróneo. Los tipos de estudios más utilizados son: I. Estudios de intervención con control concurrente y asignación aleatoria (EICCAA). II. Cohortes terapéuticas. III. Series de casos. Los únicos que garantizan una evaluación del factor terapéutico adecuada son los primeros y aun estos no están exentos de errores, entre otros los debidos a factores aleatorios; este tipo de estudios serán estudiados con detalle en el próximo capítulo. En la actualidad todavía hay muchos facultativos que utilizan como referencia otro tipo de estudios, como los de cohortes y las series de casos. Estudios de intervención con control concurrente y asignación aleatoria. Estos estudios consisten en la asignación aleatoria de los pacientes a los grupos de que conste el estudio, generalmente dos: el grupo experimental y el grupo de control. Después de ser asignados a los grupos, los pacientes son seguidos concurrentemente y evaluados clínicamente durante el tiempo suficiente para poder apreciar diferencias, si es que las hay, en algún parámetro de interés clínico, sintomatología, supervivencia, etc. En el Capítulo 11 se ampliará el análisis de este tipo de estudios.
276
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Cohortes terapéuticas. Los estudios de cohortes para la evaluación terapéutica consisten en dos o más grupos de pacientes (habitualmente dos). La terapia aplicada en cada grupo es distinta. Una vez formados los grupos son seguidos y evaluados durante el tiempo que se estime conveniente. La diferencia fundamental entre estos estudios y los anteriores es que en los de cohortes la asignación del tratamiento a los pacientes no es aleatoria, sino que el facultativo asigna los pacientes a los grupos. El que los pacientes no sean asignados aleatoriamente puede originar grupos de pacientes con características diferentes que pueden alterar los resultados. La cegada aplicable es la de la evaluación de los datos y en algunos casos la del paciente; por todo ello los sesgos de selección y de información son muy frecuentes. El control de los factores placebo y cuidados no puede ser realizado eficazmente. Algunos autores como Femstein (8) apoyan la utilización de este tipo de estudios en los casos en que no se disponga de EIPCCAA. Los resultados de los estudios de cohortes en la evaluación terapéutica deben ser interpretados con muchas precauciones. En el caso de enfermedades que evolucionen a la muerte o invalidez en su totalidad o inmensa mayoría, si una terapia demuestra que puede evitar la muerte y la invalidez a un porcentaje apreciable de los pacientes, los resultados podrían considerarse válidos, aunque siempre habría que investigar si la causa real de las mejorías es la terapia, falsos positivos o que haya surgido una forma menos virulenta de la enfermedad asociada a alguna característica de los pacientes desequilibrada en los grupos, sobre todo en enfermedades infecciosas. Un ejemplo de estudio de cohortes terapéuticas fue el realizado por Modan y colaboradores en 1975 para intentar dilucidar la duda sobre si la utilización de anticoagulantes en el infarto agudo de miocardio mejoraba la supervivencia. En este estudio los médicos asignaban los pacientes a los grupos. Intervinieron 2.330 pacientes y 22 hospitales. Las primeras conclusiones indicaban una clara disminución de la mortalidad en los 21 primeros días de tratamiento en el grupo tratado con anticoagulantes. Cuando los datos fueron revisados y estudiados con más detenimiento se observó que había diferencias importantes entre los dos grupos; entre otros desequilibrios, en el grupo no tratado con anticoagulantes se habían incluido la mayoría de las personas mayores de 60 años. La conclusión definitiva fue que los resultados del estudio no eran concluyentes debido a los sesgos de selección que contenían. Series de casos. Los estudios más frecuentes son estos. Consisten en la descripción de datos clínicos según los cuales se evalúan terapias tomando como comparación controles históricos o de referencia e incluso a los mismos pacientes antes y después de la terapia; a estos últimos se les denomina ensayos clínicos autocontrolados. Algunos facultativos los toman como controles de referencia para evaluar sus terapias.
TERAPÉUTICA
277
Las series de casos tienen un valor informativo para conocer lo que ocurre en otros centros sanitarios. En caso de algún resultado espectacular es recomendable estudiarlo con detenimiento. La comparación de series entre hospitales, ya sean pronosticas o terapéuticas, están sujetas a numerosos sesgos y los errores que se pueden cometer son numerosos. No son aconsejables como referencia y las comparaciones que se realicen no tienen ningún valor científico, debido a la cantidad de factores diferentes que pueden influir en los resultados, además de la diferencia en terapia, como distintos medios diagnósticos diferencias en los servicios generales, características de los pacientes diferentes, etc. EFECTOS INDESEABLES DE LA TERAPÉUTICA Un facultativo, cuando indica una terapia a un paciente es porque está convencido de que va a ser beneficiosa, pero a veces no sólo es ineficaz sino que es perjudicial, causando molestias mayores que la enfermedad que motivó el tratamiento, por ejemplo, hemorragia gastroduodenal tras tomar un comprimido de ácido acetilsalicílico por una cefalea. En ocasiones los efectos perjudiciales son dramáticos, como en los casos de los hiperlipémicos tratados con clofibrato (1) o las malformaciones congénitas causadas por la talidoamida, Dependiendo de los centros sanitarios, entre el cuatro y el siete por ciento de los ingresos son debidos a efectos indeseables de las terapias (2) aplicadas. Al indicar una terapia deben tenerse en cuenta los posibles riesgos que puede tener, Todo tratamiento puede causar efectos perjudiciales más o menos graves y en mayor o menor porcentaje, a los que se denomina efectos secundarios. Si el porcentaje de pacientes con efectos secundarios ante una determinada terapia es apreciable, lo más probable es que dicha terapia no llegue a comercializarse, excepto en el caso de que la enfermedad a tratar sea grave y no haya otras alternativas, como en el caso de la quimioterapia o la radioterapia, que aunque tienen efectos secundarios desagradables prácticamente en todos los pacientes, se aplican porque los beneficios obtenidos son mayores que los perjuicios. El primer problema que plantean los efectos secundarios es su descubrimiento y comprobar la asociación con la terapia. Si los efectos secundarios son frecuentes, probablemente durante la realización de los ensayos clínicos se hayan podido evidenciar, pero en el caso de que sean infrecuentes su relación con la terapia puede tardar años, o incluso pasar desapercibida. Un interesante ejemplo de efecto secundario producido muchos años después de aplicado el tratamiento es la aparición de adenocarcinoma de la vagina en mujeres jóvenes debido a que sus madres habían sido tratadas con estilbestrol (9) durante el primer trimestre de embarazo. Si una terapia produce por término medio una complicación grave por cada tres mil pacientes tratados, y en los ensayos clínicos han participado dos mil
278
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
pacientes, la probabilidad2 de encontrar una o más complicaciones es 0,487 y la probabilidad de no encontrar ninguna es 0,517. Aun en el supuesto de que apareciera algún caso, probablemente no se relacionaría con ella, La única manera de comprobar un hecho de esta naturaleza sería mediante estudios científicos, preferiblemente nuevos ensayos clínicos. Los estudios utilizados en la determinación de efectos secundarios son: EIPCCAA, Cohortes. Casos y controles. Series de casos. EIPCCAA. Son los únicos que proporcionan una cierta validez de los resultados, aunque siempre hay que tener en cuenta factores como los aleatorios que pueden inducirnos a error. El problema de este tipo de estudios en la determinación de efectos indeseables de las terapias es que si la proporción es pequeña son necesarios muchos casos para poder realizar comprobaciones con suficiente potencia estadística. El hecho de que un facultativo sospeche que su paciente tenga efectos secundarios causados por una determinada terapia es una evidencia importante pero no concluyente. El problema es demostrar la relación causa (terapia) efecto (efecto secundario). Si la probabilidad de que ocurra un efecto secundario es pequeña, el número de participantes debería ser enorme para que la probabilidad de encontrar varios efectos secundarios fuera aceptable. Ejemplo 10.1. Existe la hipótesis de que un fármaco produce efectos secundarios graves (agranulocitosis) en el uno por mil de los tratamientos; para comprobar esto se quiere realizar un ensayo clínico. Si el grupo en el que se utiliza el fármaco sospechoso de causar agranulocitosis va a constar de cinco mil pacientes, suponiendo que se produzca una agranulocitosis por cada mil trata2 Un efecto secundario que ocurre en un caso cada tres mil es un suceso raro. Por lo tanto, las probabilidades de que ocurra un número de casos determinado debe calcularse aplicando la ley de Poisson:
En la expresión anterior P(r) es la probabilidad de que ocurran un número determinado de sucesos (f), es el parámetro de Poisson que en este caso es igual al número de casos 2000 por la probabilidad de que ocurra un suceso (efecto secundario) 0,00033, e es la base de los logaritmos neperianos cuyo valor es 2,7182...
TERAPÉUTICA
279
mientes ¿cuál es la probabilidad de que en el grupo experimental se observen al menos cinco agranulocitosis? Aplicando la ley de Poisson, la probabilidad de que en el grupo control aparezcan 5 o más casos de agranulocitosis es 0,56. Los EIPCCAA para el análisis de efectos secundarios en ocasiones son difíciles de realizar. Cuando la probabilidad del efecto secundario es pequeña, aun en el caso de grupos gigantescos, la probabilidad de encontrar un número de efectos indeseables que permita realizar comprobaciones estadísticas no es muy grande. En algunos casos la terapia es cara y/o complicada de administrar y los estudios con grupos grandes son prácticamente imposibles de realizar por su coste. Tampoco es posible reunir grupos grandes en el caso de enfermedades raras. Cohortes. Como ya indicamos anteriormente la diferencia de este tipo de estudios con el anterior es que en los estudios de cohortes la asignación a los grupos la realiza el facultativo, en lugar de ser aleatoria. Esta aparentemente pequeña diferencia, que en realidad es muy grande, es suficiente para que no se puedan controlar muchos sesgos y el número de conclusiones erróneas sea importante. Un ejemplo de la difícil interpretación de este tipo de estudios (10) son los realizados para comprobar si las pacientes que tomaban anticonceptivos orales tenían una probabilidad mayor de tener tromboflebitis venosas que las pacientes que utilizaban otros métodos anticonceptivos. Según las conclusiones del estudio, las pacientes que tomaban anticonceptivos tenían una probabilidad mayor de padecer tromboflebitis que las que no los tomaban, pero entre los grupos se encontraron desequilibrios en variables que podrían haber influido en los resultados, como fumar, multiparidad, etc. Casos y controles. Los estudios de casos y controles son los únicos posibles en el caso de efectos secundarios raros. Ante un estudio de casos y controles siempre deben de tomarse los resultados con muchas precauciones, puesto que los posibles sesgos de selección y de información son muy difíciles de eliminar en su totalidad, Si el efecto secundario es raro en el estudio, es posible que tengan que entrar casos de distintos centros sanitarios, lo que implica posibles sesgos de información debidos a varios factores como cambio de servicios generales, de facultativos, etc. Los sesgos de selección debidos a diferencias en los pacientes, elección de los controles, etc, son también muy frecuentes. Un ejemplo histórico de los errores que se pueden cometer con los estudios de casos y controles fue el de la relación entre el cáncer de mama y la reserpina. Nada menos que tres estudios (11-12-13) de casos y controles fueron publicados simultáneamente denunciando la asociación entre la reserpina y el cáncer de mama. Entre los autores había investigadores famosos como: Shapiro S. Armstrong B. y Dolí R. entre otros. El revuelo fue enorme porque muchas
280
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
pacientes tomaban reserpina y en Estados Unidos era una de los pocos fármacos antihipertensivos utilizados. Después de numerosos estudios se llegó a la conclusión de que no existía asociación entre la reserpina y el cáncer de mama. Este ejemplo real debe hacernos reflexionar sobre los numerosos sesgos que acompañan a los estudios de casos y controles y lo cuidadosos que debemos ser al leer las conclusiones de este tipo de estudios, y lo extremadamente riguroso que se debe ser al realizarlos. Lo cierto es que en los efectos secundarios poco probables son los estudios que más rápido podemos realizar. Si los estudios están bien diseñados y las asociaciones son muy fuertes las posibilidades de error son menores. Series de casos. Las series de pacientes tratados con una determinada terapia no suele ser una fuente de información importante en la caracterización de efectos secundarios, en primer lugar porque las series no suelen ser muy grandes. Si el efecto secundario es poco probable, en las series se recogerán pocos y si es frecuente lo más probable es que ya haya sido referido en los ensayos clínicos. El hecho de que no haya grupos de control y los numerosos sesgos posibles hacen que las series de casos no sean adecuadas para concluir una asociación causal entre una terapia y un determinado efecto secundario. Pueden servir para generar hipótesis pero no para comprobarlas. LA DECISIÓN TERAPÉUTICA. ÁRBOLES DE DECISIÓN Una vez realizado el diagnóstico y el pronóstico de una enfermedad, el médico debe decidir el tratamiento que debe aplicarse. En muchas de las actuaciones clínicas habituales la pauta de tratamiento es relativamente sencilla de decidir, pero en otras la decisión es muy difícil, por ejemplo, decidir si un paciente afectado de cáncer debe o no debe ser intervenido quirúrgicamente, amputar o no un miembro por isquemia, etc. Al recomendar una terapia no espere obtener los mismos resultados que los obtenidos por los que han realizado los ensayos clínicos. En estos estudios los controles médicos suelen ser muchos y el factor cuidado puede influir en los resultados. En las decisiones terapéuticas intervienen varias circunstancias; las más importantes son las siguientes: Primeras pautas terapéuticas aprendidas. Experiencia personal. Información de laboratorios. Bibliografía y congresos. Primeras pautas terapéuticas aprendidas. Este es uno de los condicionantes más importantes de la decisión terapéutica. En general al médico le
TERAPÉUTICA
281
cuesta mucho trabajo cambiar las primeras pautas terapéuticas aprendidas en la facultad de medicina y en sus primeras prácticas con pacientes. Experiencia personal. Otro factor de suma importancia en la decisión terapéutica es la propia experiencia personal. En el caso de patologías frecuentes en las que la decisión terapéutica no es demasiado trascendente para el paciente, un facultativo experimentado puede tener suficiente información para decidir una terapia de forma inmediata. Los problemas surgen en algunos casos con enfermedades graves en los que las posibilidades terapéuticas son varias, algunas agresivas y con riesgos. En estos casos la experiencia personal suele ser insuficiente para tomar decisiones. Para realizar un cálculo de probabilidades adecuado es necesario conocer la evolución de muchos casos similares. La experiencia personal está muy influida por el tratamiento aplicado a casos cuya evolución ha sido muy buena o muy mala y también por los casos más recientes. Una terapia aplicada a un paciente que ha evolucionado hacia la muerte o complicaciones graves, aunque haya sido por causas inesperadas y la terapia haya sido correcta, impresionará al médico encargado del caso y le creará un sentimiento adverso hacia dicha terapia, sobre todo si la ha aplicado en pocas ocasiones. Por el contrario, una evolución muy favorable de un paciente ante una nueva terapia animará al facultativo a repetirla, aunque la relación entre la terapia y la mejoría no hayan sido evaluadas científicamente. En general la experiencia personal por sí sola en muchas ocasiones no es suficiente para decidir una terapia en casos graves y con varias alternativas. El relativamente pequeño número de casos y las implicaciones emocionales pueden alterar la toma de decisiones. Es aconsejable consultar la bibliografía en casos similares, siempre y cuando los trabajos estén basados en estudios sólidos, como EICCAA. Información de laboratorios farmacéuticos. Los laboratorios farmacéuticos cumplen una misión de extraordinaria importancia en la investigación biomédica, invirtiendo grandes cantidades de dinero, pero no debemos olvidar que son empresas y, como tales, su objetivo es ganar dinero. Si disponen de información sobre efectos favorables de un medicamento nos la van a proporcionar, pero probablemente no nos van a proporcionar trabajos en los que no se haya podido demostrar su eficacia, produciéndose en algunos casos sesgos de selección. Por supuesto que en el caso de efectos indeseables están obligados a informar de ello, Las técnicas de marketing aliadas con datos favorables, aunque sean de escasa magnitud, combinadas con los escasos conocimientos científicos y estadísticos de muchos profesionales de las ciencias de la salud consiguen efectos muy favorables para los laboratorios. Es aconsejable que cuando lea información terapéutica se fije en la magnitud de los efectos terapéuticos (la P de probabilidad por sí sola es poco importante) y en el tipo y calidad de los estudios realizados.
282
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Bibliografía y congresos. La bibliografía y los congresos nos permiten disponer de la experiencia de colegas de todo el mundo, Al consultar la bibliografía debe tenerse en cuenta que no sólo las terapias pueden curar o mejorar a los pacientes, El entorno hospitalario y el tipo de los pacientes es muy importante, la virulencia de algunas enfermedades puede variar de unas latitudes a otras, en HIV se conocen varias cepas del virus y parece que algunas tienen mayor probabilidad que otras de desarrollar el SIDA en menos tiempo, Antes de tomar una decisión basándose en datos de otros hospitales a veces lejanos, tenga en cuenta que los datos de un estudio realizado en otro centro no tienen por qué ser iguales en el suyo. En cualquier caso siempre debe tener presente el tipo de estudio, siendo siempre preferibles los ensayos clínicos controlados concurrentemente con asignación aleatoria y la magnitud de los efectos terapéuticos encontrados. La decisión terapéutica suele ser una mezcla de todas las anteriores, pero debemos acostumbrarnos a tomar decisiones científicas valorando cuantitativamente las probabilidades de cada resultado y abandonar las decisiones racionales con mezclas viscerales cuyo origen ni nosotros mismos sabemos. Algunos a esto lo llaman el arte de la decisión y siempre nos muestran los éxitos pero nunca las equivocaciones. En caso de enfermedad, personalmente prefiero un médico científico que aplique los tratamientos con más probabilidades de mejorar o curar mi enfermedad que depender de la idea genial de un médico artista que puede o no producirse y que por otra parte nunca ha sido científicamente evaluada.
Árboles de decisión Una técnica que puede servir de ayuda en la toma de decisiones terapéuticas es la elaboración de árboles de decisión. Estos consisten en un gráfico en el que se reflejan las probabilidades de los sucesos que pueden ocurrir al aplicar una determinada terapia, por ejemplo, probabilidad de supervivencia, de complicaciones, de curación, etc. En general los árboles de decisión aplicados a problemas reales suelen ser muy complejos. La informática nos puede ayudar a obtener rápidamente las probabilidades finales para un paciente concreto según sus características. Ejemplo 10.2. Árbol de decisión en abdomen agudo. En este ejemplo hipotético evaluaremos mediante un árbol de decisión, la posibilidad de operar o no de forma inmediata. El árbol se construirá bajo la hipótesis de que la opción clínica ante un abdomen agudo es intervención clínica inmediata o esperar ocho horas y realizar la intervención quirúrgica en caso de que no haya mejoría clínica. Si operamos de inmediato hay una probabilidad del uno por mil de que el paciente fallezca el resultado clínico sería desastroso, Hay una probabilidad del veinte por ciento de que el paciente tenga una apendicitis o una peritonitis. Por lo tanto, la intervención es necesaria y el resultado clínico sería bueno. Hay un ochenta por ciento de probabilidad de que el paciente tenga un cuadro seudo-
TERAPÉUTICA
283
apendicular, no siendo necesaria la intervención, por lo tanto, lo consideramos un mal resultado clínico. Si la intervención quirúrgica es innecesaria consideramos el resultado clínico malo, aunque el resultado sea un éxito quirúrgico. Si esperamos ocho horas hay un treinta por ciento de probabilidad de que el paciente empeore, un cuarenta por ciento de que se mantenga estacionario y un treinta por ciento de probabilidad de que mejore. Si esperamos ocho horas y el paciente empeora, se procederá a la intervención quirúrgica. Hay un noventa por ciento de probabilidad de que la intervención esté indicada y por lo tanto el resultado clínico sea bueno, un diez por ciento de probabilidad de que padezca un cuadro en el que la intervención no sea necesaria y por lo tanto el resultado clínico sea malo, y una probabilidad del uno por mil de que fallezca. Si esperamos ocho horas y el paciente mantiene su estado estacionario será intervenido quirúrgicamente; hay un treinta por ciento de probabilidad de que la intervención esté indicada y por lo tanto el resultado clínico sea bueno, y un setenta por ciento de probabilidad de que la intervención quirúrgica no esté indicada y, por lo tanto, el resultado clínico sea malo. Si el paciente mejora no será intervenido quirúrgicamente; en este caso hay una probabilidad del uno por ciento de que el paciente padezca un cuadro clínico susceptible de intervenirse quirúrgicamente, y hay una probabilidad del noventa y nueve por ciento de que la intervención quirúrgica no esté indicada y, por lo tanto, el resultado clínico sea bueno. Valoraremos los resultados clínicos de cero a uno. Si el resultado clínico es bueno lo valoraremos con un uno, si es la muerte con un cero y si el resultado clínico es malo lo valoraremos con 0,3. La pregunta es ¿cuál es la decisión correcta? A partir de las probabilidades anteriores, construimos el siguiente árbol de probabilidades.
Figura 10.2. Árbol probabilístico en abdomen agudo.
284
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
En la Figura anterior los nodos indican una acción determinada: el es operar de inmediato, el nodo B es esperar, el nodo C es operar tras ocho horas de espera y habiendo empeorado el paciente, el nodo D es operar tras ocho horas de espera y seguir el paciente igual, el nodo E es no operar tras ocho horas de espera por haber mejorado el paciente. La suma de las probabilidades de todas las ramas que salen de un nodo deben de ser igual a uno. Si operamos inmediatamente la probabilidad de obtener un buen resultado clínico es 0,2 por 0,999. 0,2 es la probabilidad de que esté indicada la intervención y 0,999 es la probabilidad de que la intervención tenga un buen resultado quirúrgico; la probabilidad es 0,1998. Si operamos inmediatamente, la probabilidad de que la intervención no esté indicada es 0,8 y la probabilidad de que la intervención tenga un buen resultado quirúrgico es 0,999. La probabilidad de obtener un mal resultado clínico es el producto de 0,8 por 0,999 = 0,7992. Observe que esta probabilidad es la de obtener un mal resultado clínico porque hemos intervenido innecesariamente a una persona, aunque la intervención quirúrgica sea un éxito. El resto de las probabilidades se calculan de la misma manera. A partir del árbol de probabilidades los resultados pueden visualizarse de una manera sencilla. Pero aún podemos obtener más información a partir del árbol probabilístico. Podemos calcular el peso de cada nodo; los nodos con más peso son los que indican las mejores soluciones. Si las valoraciones de los resultados clínicos las hemos realizado de cero a uno, el máximo peso que puede tener un nodo es uno y el mínimo, cero.
Figura 10.3. Árbol de decisión en abdomen agudo.
TERAPÉUTICA
285
En la Figura anterior, empezando por las ramas periféricas, multiplicamos la probabilidad por el valor clínico. Comenzamos por las ramas del nodo A. 0,1998 es el resultado de multiplicar la probabilidad obtenida anteriormente por la valoración clínica. Al ser un buen resultado clínico la valoración es uno, que al multiplicarlo por la probabilidad obtenida anteriormente, queda inalterado su valor. El valor de la segunda rama se ha obtenido multiplicando la probabilidad obtenida anteriormente, 0,7992, por la valoración clínica, que al ser un mal resultado clínico es 0,3. El resultado del producto es 0,24, que es la valoración actual de esta rama. El valor de la tercera rama es el producto de la valoración clínica por la probabilidad. Como en este caso la probabilidad es cero, al multiplicar por cero el resultado siempre es cero y, por lo tanto, el valor de la rama será cero. La suma de todos los valores de las ramas de un nodo nos da el valor del nodo. En este caso el valor del nodo A es
Repitiendo el procedimiento en las ramas del resto de los nodos, obtenemos un valor de 0,93 para el nodo C, un valor de 0,51 para el nodo D y un valor de 0,9903 para el nodo E. El valor del nodo B, es la suma ponderada de los valores de los nodos dependientes de él la ponderación se realiza según la probabilidad de cada nodo. El valor ponderado del nodo C es su valor 0,51 por su probabilidad 0,3; el producto es 0,279. El valor ponderado del nodo D es su valor 0,51 por su probabilidad 0,4; el producto es 0,2. El valor ponderado del nodo E es su valor 0,9903 por su probabilidad 0,3; el producto es 0,2973. La suma de los tres valores ponderados es igual al valor del nodo B:
El valor del nodo A es 0,44 y del nodo B 0,78; la opción de esperar ocho horas parece mucho más ventajosa desde el punto de vista clínico. Todavía podíamos haber complicado más el árbol anterior haciendo otra espera en el caso de que el paciente siguiera igual. De hecho el valor del nodo D es relativamente pequeño, lo que podría indicar una decisión clínica precipitada. Evidentemente el uso de los árboles de decisión se realiza cuando existen dudas diagnósticas. Si el cuadro de abdomen agudo es clarísimo, la opción adecuada es operar de inmediato. En los casos reales las ramificaciones y posibilidades son muchas más. Cuando un facultativo toma una decisión, en la mayoría de los casos lo hace
286
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
según un montón de conocimientos desordenados, con un mal conocimiento de las probabilidades. Además es frecuente que la toma de decisiones no sea sistemática; a veces se encuentra presionado por la demanda y puede no haber descansado mucho. Nos guste o no, como en todos las disciplinas en las que hay que tomar decisiones, la forma más efectiva es calculando todas las probabilidades y decidiendo a partir de esa probabilidad particularizada para cada paciente. Es evidente que los árboles de decisión y sus cálculos no los vamos a realizar a mano en la sala de urgencias, pero con la ayuda de un ordenador podemos tener una valoración precisa en cuestión de segundos, CUMPLIMIENTO DE LA TERAPIA En este capítulo se han comentado varios temas relacionados con la terapia, pero por muy grande que sea la probabilidad de éxito según los ensayos clínicos, si un paciente no cumple nuestras prescripciones no puede beneficiarse de ella. Actualmente hay autores (14) que han publicado varios artículos sobre este interesante tema. Como caso curioso, en un estudio (15) realizado para comprobar el contenido de medicamentos en orina en pacientes esquizofrénicos hospitalizados, a los que la medicación se les administraba directamente por el personal del centro, se encontró que sólo el 76% habían ingerido su medicación. El preguntar al paciente si ha tomado la medicación o decirle que traiga el frasco y contar las pastillas no parecen métodos muy eficientes. Si queremos comprobar que el paciente sigue las pautas terapéuticas debemos comprobarlo analíticamente. No obstante, esto puede ser muy caro e incómodo para el paciente. Las recomendaciones más importantes para mejorar el cumplimiento son las siguientes: I. Acordar con el paciente la hora de la cita. II. Medicación con pocos efectos secundarios si es posible. III. Avisar a los que faltan a alguna cita. IV. Evitar los tratamiento a largo plazo. I. Según algunos autores (16), acordar la cita para las siguientes consultas aumenta notablemente el cumplimiento de éstas. Las citas periódicas son muy importantes para el cumplimiento de la terapia en ellas se debe recordar al paciente la necesidad de cumplir la terapia, explicándole las consecuencias que puede tener su enfermedad si no se controla. Es muy importante mejorar los métodos de citación de los pacientes e intentar ajustarse a los horarios de citación establecidos. II. En mi experiencia muchos pacientes, ante efectos secundarios como sequedad de boca, rubefacción, visión borrosa, etc, rechazan la medicación y en muchos casos, aunque se les explique que no tiene importancia y que desa-
TERAPÉUTICA
287
parecerán con el tiempo, no vuelven a tomarlos. Ante varias opciones terapéuticas es preferible optar por la que menos efectos secundarios tenga. III. Aunque muchos médicos rechazan llamar a los pacientes que han faltado a una cita, puede mejorar el cumplimiento de la terapia el acordar otra cita en un horario que le convenga al paciente. Aunque éste es un tema delicado y no debemos presionar al paciente, las razones para no acudir pueden ser muchas, incluso haber cambiado de médico. En cualquier caso un recordatorio nunca está de más. IV Los tratamientos a largo plazo se cumplen en pocas ocasiones. En caso de pacientes crónicos como hipertensos, se les debe recordar periódicamente la importancia del tratamiento, realizar controles periódicos de tensión arterial, etc. Especial precaución debe tenerse con los regímenes dietéticos; en este caso la inmensa mayoría no los cumplirán. Deben evitarse, a no ser que sean estrictamente necesarios y, aun en estos casos, debe recomendarse alguna excepción periódica y nunca recomendar regímenes drásticos, TERAPÉUTICA Y COSTE SANITARIO Uno de los capítulos que más influyen en el gasto sanitario es el farmacéutico, aunque en este libro cuando hablamos de terapia nos referimos a cualquier tipo de tratamiento, y de hecho todos los tratamientos deben ser evaluados clínica y económicamente, incluidos los quirúrgicos. Entre 1987 y 1988 participamos en varios estudios (17-18-19) sobre el aumento del gasto farmacéutico en los últimos años en general y de un medicamento en particular: la hormona del crecimiento. El coste de este medicamento por sí solo llegó a ser el 10% del presupuesto farmacéutico total de la comunidad de Madrid. Tan grave era el problema que se creó una comisión para controlar su dispensación a cargo del INSALUD. El problema no es si el medicamento es efectivo o no, que sí lo es. Podemos entrar en consideraciones sobre si un paciente de pequeña estatura, aunque no enano, tiene derecho a que se le pague un tratamiento carísimo para que pueda crecer algunos centímetros importantísimos para él. Las respuestas a este tipo de cuestiones no son sencillas. En el futuro se repetirán estos problemas con medicamentos muy caros y muy efectivos. El problema es que los presupuestos no pueden crecer al mismo ritmo. El número de personas mayores aumentará en los próximos años muy fuertemente, con el consiguiente aumento del gasto farmacéutico y sanitario, la pandemia del SIDA que precisará tratamientos carísimos, etc. El problema de la investigación en terapéutica en los próximos años por parte de los sistemas públicos y las empresas de seguros, no será la eficacia de la medicación, sino si los beneficios sociales y sanitarios justifican el coste. ¿Se
288
E L MÉ TODO CIÉ NTÍFICO E N LAS CIÉ NCIAS DE LA SALUD
debe invertir cifras millonarias en medios disgnósticos y tratamientos carísimos en pacientes desahuciados para ganar dos o tres meses de vida, en muchas ocasiones de baja calidad? Entre la ciudadanía existe la idea de que mientras haya vida hay que hacer todo lo posible para conservarla, esta es una premisa válida si el dinero fuera infinito, pero, aceptando que el dinero disponible para sanidad es limitado, el gasto excesivo en personas con nulas posibilidades de sobrevivir inevitablemente supone no poder invertir dinero en otros cometidos sanitarios que pueden ser más rentables desde el punto de vista social, vital y sanitario. En un futuro próximo deberán responderse preguntas como la anterior; esperamos al menos que las respuestas se obtengan mediante estudios científicos. LECTURAS RECOMENDADAS Friedman Lawrence M et al. Fundamentals of clinical trials, second edition. PSG Publishing Company, INC, Littleton Massachusetts, 1985. Sackett David L et al. Epidemiología clínica. Editorial Díaz de Santos 1989.
BIBLIOGRAFÍA 1. World Health Organization. Trial on primary prevention of ischaemic heart disease using clofibrate to lower serum cholesterol: Mortality follow-up. Report of the Committee of Principal Investigators. Lancet 1980; 2:379. 2. Caranasos GJ, Stewart RB, Cluff LE. Drug-induced illness leading to hospitalization. JAMA 1974; 228:713. 3. Fischer RW. Comparison of antipruritic drugs administered orally. JAMA 1968; 203:418-419. 4. Fletcher RH. Epidemiología clínica, Ediciones Consulta, Barcelona 1989. 5. Coronary Drug Project Research Group. Influence of adherence to treatment and response of cholesterol on mortality in the Coronary Drug Project. N Engl J Med 1980; 303:1038. 6. Gehan EA. The evaluation of therapies. Historical control studies. Stat Med 1984; 3:315-324. 7. Sacks H, Chalmers TC, Smith H Jr. Randomized versus historical controls for clinical trials. Am J Med 1980; 72:233-240. 8. Feinstein AR. The role of observational studies in the evaluation of therapy Stat Med 1984; 3:341-346. 9. Arthur I et al. Adenocarcinoma de la vagina: Relación entre la terapia materna con estilbestrol y la aparición de tumores en mujeres jóvenes. The New England Journal of Medicine 1971; 248:878-881. 10. Royal College of General Practitioners. Oral Contraceptives and Health: An interim report. Tunbngde Wells; Pitman, 1974. 11. Boston Collaborative Drugs Surveillance Program. Reserpine and breast cancer. Lancet 1974; 2:669. 12. Armstrong B et al. Retrospective study of the association between use of rauwolfia derivatives and breast cancer in English women. Lancet 1974; 2:672. 13. Heinonem OP, Shapiro Set al. Reserpine use in relation to breast cancer. Lancet 1974; 2:675. 14. Sackett DL. Epidemiología clínica, Ediciones Díaz de Santos, Madrid 1989, pág. 259.
TERAPÉUTICA
289
15. Nelson AA, Jr, Gold BH, Hutchinson RA, Benezra A. Drug default among schizophrenic patients. Am J Hosp Pharm 1975; 32:1237. 16. Fletcher S, Appel F et al. Management of Hypertension: Effect of improving patient compliance for follow-up care. JAMA 1975; 233:242. 17. Alvarez Cáceres R et al, Estudio del gasto farmacéutico en el Insalud de Madrid en el período 1987-1988. Infter segur soc 1989; 13:121-128. 18. Martínez López FJ, Alvarez Cáceres R. Hormona de crecimiento y gasto farmacéutico en el Insalud de Madrid 1987-1988. Infter segur soc 1989; 13:200-205. 19. Martínez López FJ, Alvarez Cáceres et al. El coste de nuevas tecnologías: análisis déla utilización de hormona del crecimiento en el Insalud de Madrid. Infter segur soc 1990; 14:87-96. 20. Cobb LA et al. An evaluation of internal-mammary artery ligation and a dauble-bulind technic. New Engl J Med 1959; 260:1115-1118. 21. Diamond EG, Kittle CF, Crockett JE. Comparison of internal mammary artery ligation and sham operation for angina pectoris. Am J Cardiol 1960; 5:484-486.
Capítulo 11 ENSAYOS
Duda siempre de ti mismo, hasta que los datos no dejen lugar a dudas. Louis Pasteur.
En el capítulo anterior se analizaron los aspectos generales de la terapéutica, incluyendo una introducción a los ensayos clínicos, sesgos, cegadas y grupos de control. En este capítulo se estudian en mayor amplitud los ensayos clínicos: concepto, fases, tipos y consideraciones éticas, con particular atención a los aspectos estadísticos y a los estudios de intervención, prospectivos, con control concurrente y asignación aleatoria. ENSAYOS CLÍNICOS El concepto de ensayo clínico no está claro en la bibliografía y, dependiendo de los autores, su significado es distinto. Algunos autores, al referirse a ensayo clínico, entienden "estudios clínicos de intervención, prospectivos, con control concurrente y asignación aleatoria1". En este libro consideraremos como ensayo clínico a todo estudio realizado con el objetivo de evaluar una terapia en el que participen seres humanos. El primer ensayo clínico del que tenemos noticias es el realizado por Lind a bordo del barco Salisbury mediante el cual pudo evidenciar que los cítricos mejoraban rápidamente el escorbuto. Amberson fue el primero en utilizar la asignación aleatoria en ensayos clínicos (1). Este mismo autor introdujo el concepto de cegadas. En la actualidad los ensayos de intervención prospectivos 1
En castellano la palabra que especifica azar es aleatorio, y asignación al azar puede sustituirse por asignación aleatoria. La palabra inglesa que significa aleatorio es random. En ocasiones se encuentra en textos castellanos la inexistente palabra en este idioma "randomizado", que además suena horriblemente. En los textos castellanos debe usarse aleatorio y en los textos en inglés randomized.
292
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
con control concurrente y asignación aleatoria son considerados como los más adecuados para comprobar el efecto de una terapéutica. Aunque la mayoría de las nuevas terapias están basadas en productos farmacéuticos, también es un ensayo clínico cualquier estudio que trate de evaluar una terapia, por ejemplo, una nueva técnica quirúrgica como comparar los efectos de la cirugía radical de mama con la nucleoectomía selectiva en el cáncer de mama (2), etc. El estudio de una terapia consta de varias partes o fases, en cada una de las cuales puede haber uno o más estudios científicos. La legislación española (3) es prácticamente igual a la existente en todos los países de la Europa comunitaria, Estados Unidos, Canadá y Japón, respetando la declaración de Helsinki de 1964 y la revisión de Tokio de 1975. Según la legislación española son ensayos clínicos todos los estudios clínicos en los que participen seres humanos, incluidos los estudios con voluntarios para estudios de farmacocinética y ajuste de dosis y los realizados después de que el medicamento esté comercializado para farmacovigílancia y evaluación de efectos secundarios.
FASES DE ESTUDIO DE UNA TERAPIA Ante la hipótesis de una nueva terapia que puede ser efectiva frente a una enfermedad para la que exista o no una terapia reconocida, deben realizarse estudios previos en animales si ello es posible. En algunas enfermedades la experimentación en animales no es posible por ser exclusiva de seres humanos. En los primeros tiempos de la investigación del SIDA no se había conseguido reproducir el síndrome en animales, por lo que cualquier prueba debía realizarse directamente en seres humanos. Si la nueva terapia se supone efectiva frente a una enfermedad grave en la que todos o casi todos los afectados mueren por su causa, hay una permisividad mayor en la realización de los ensayos clínicos, ya que los perjuicios de la experimentación, no pueden ser mayores que los causados por la enfermedad. Aun así hay que ajustarse a unas reglas éticas. Las fases de un estudio clínico para valorar la eficacia de un producto farmacéutico son las siguientes: 1. Fase preclínica. 2. Fase I. 3. Fase II. 4. Fase III. 5. Fase IV 1. Fase preclínica. Ante la hipótesis de que una terapia puede mejorar las existentes frente a una determinada enfermedad se ponen en marcha experimentos preclínicos con animales en los que se evalúan la toxicidad y la farma-
ENSAYOS CLÍNICOS
293
cocinética del nuevo medicamento, o los riesgos de la nueva intervención quirúrgica dependiendo del tipo de terapia. 2. Fase I. Una vez que en la fase previa se haya demostrado en el laboratorio que una terapia es efectiva frente a una determinada enfermedad y que puede ser útil en humanos, se prueba en estos. En la primera fase del estudio clínico se realizan estudios para conocer la farmacocinética, potencial toxicidad y tolerancia a distintas dosis. Los participantes en esta primera fase suelen ser voluntarios jóvenes y sanos, en muchas ocasiones estudiantes. Los grupos suelen ser de cincuenta a cien personas. Con objeto de evitar que sustancias extrañas o ciertos hábitos puedan alterar las pruebas farmacológicas, en ocasiones los pacientes son internados en un centro en el que se les controla la comida y la bebida. Teniendo en cuenta que estos grupos son pequeños, únicamente se podrían detectar efectos secundarios muy frecuentes. No siempre es posible probar un fármaco en humanos sanos. Si la terapia es potencialmente tóxica y causante de efectos secundarios potencialmente graves, no se prueba en personas sanas, ni aunque sean voluntarios. Es el caso de la quimioterapia, iodo radiactivo, AZT, etc. Estas sustancias pueden ser útiles en el caso de enfermedades graves en las que su uso está indicado a pesar de los efectos secundarios. En el caso de sustancias tóxicas después de la fase preclínica se pasa directamente a la fase II. 3. Fase II. Una vez comprobado que la toxicidad es aceptable y las pruebas farmacocinéticas han sido realizadas, en esta fase se prueba la nueva terapia por primera vez con pacientes afectados de la enfermedad frente a la cual la terapia se cree efectiva. En caso de haber otras terapias frente a la enfermedad se suelen realizar comparaciones con ella. En esta fase las pruebas suelen realizarse con grupos de cincuenta a doscientos pacientes; el número puede variar dependiendo de la frecuencia de la enfermedad y del coste de la terapia. El objetivo fundamental de la fase II es evaluar el efecto sobre la enfermedad y ajustar las dosis; también continuar los estudios sobre la farmacocmética y la tolerancia. 4. Fase III. Esta es la fase más conocida y definitiva del estudio. Si el número de pacientes y el coste de la terapia lo permiten, suelen participar un número de dos a cuatro mil pacientes. El coste de la terapia desde su inicio hasta llegar a esta fase puede ser de cientos de millones de pesetas; no podemos arriesgarnos a que la muestra sea pequeña, de todas las maneras como indicamos en el estudio de los efectos secundarios en el capítulo 10. Aunque las muestras sean grandes, los efectos secundarios raros o con un tiempo de latencia largo, en muchas ocasiones no pueden ser evidenciados en esta fase.
294
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
El diseño experimental más utilizado en esta fase son los estudios de intervención, prospectivos, con control concurrente y asignación aleatoria (EIPCCAA). A partir de un número de pacientes que puede ser grande, estos se asignan aleatoriamente a los grupos, Habitualmente hay dos grupos de pacientes. Auno de ellos se le administra el fármaco en estudio; a este grupo le denominaremos grupo experimental. Al otro grupo, denominado grupo control, se le administra un placebo si frente a la enfermedad no existe una terapéutica con efectividad reconocida. En el caso de que exista una o más terapéuticas de eficacia reconocida, al grupo control se le suele administrar la más eficiente de las conocidas. En algunos casos se realizan ensayos clínicos con más de dos grupos comparándose simultáneamente varias terapéuticas. Aunque ello es posible y los métodos estadísticos actuales son muy eficientes para evaluar este tipo de estudios, se realizan pocos. 5. Fase IV. Una vez realizada la fase III, si se considera que los resultados son buenos y el nuevo fármaco puede ser comercializado, se realizan estudios sobre series de pacientes que toman el fármaco. Estos estudios pueden realizarse incluso muchos años después de que el fármaco haya sido comercializado, y suelen ser de larga duración. El objetivo de los estudios en esta fase es comprobar la efectividad del tratamiento y detectar efectos secundarios a largo plazo. Los ensayos clínicos quirúrgicos tienen algunas diferencias importantes respecto a los farmacológicos. No todas las técnicas quirúrgicas son sometidas a estudios clínicos completos. Un ensayo clínico quirúrgico debe constar de las mismas fases que los farmacológicos, exceptuando la primera fase, puesto que no se experimenta la técnica en individuos sanos. HIPÓTESIS Y OBJETIVOS En un ensayo clínico debe quedar claramente expresada la hipótesis y el objetivo principal del estudio; a continuación también deben especificarse las hipótesis y los objetivos secundarios. Las hipótesis deben enunciarse conceptual y operativamente. Aunque mediante un ensayo clínico se pretenda demostrar varias hipótesis, una debe ser la principal y en función de ella se diseñará el estudio. Hipótesis principal. La hipótesis principal se debe enunciar en sus dos aspectos conceptual y operativo. La hipótesis conceptual es una afirmación abstracta de lo que se va a evaluar; la hipótesis operativa expone paramétricamente el enunciado de la hipótesis conceptual. Supongamos un nuevo fármaco frente a las cefaleas vasculares que el fabricante cree superior al resto de los existentes en efectividad. La hipótesis principal de un estudio clínico que pretenda demostrarlo puede ser: "El nuevo fár-
ENSAYOS CLÍNICOS
295
maco es más eficaz frente a las cefaleas vasculares y con menos efectos secundarios que los existentes". La hipótesis operativa podría ser: "El fármaco alivia el dolor antes de diez minutos desde que se ingirió y el número de episodios de cefalea mensuales disminuyen en un 90%". Objetivo principal. El objetivo del ensayo clínico debe expresar de forma clara y concreta el plan del estudio para demostrar las hipótesis principales. Siguiendo con el ejemplo anterior, el objetivo podría ser: "Demostrar que en un año de tratamiento el número y la duración de episodios de cefalea vascular serán menores que otra u otras terapias con las que se va a comparar el nuevo fármaco". Hipótesis y objetivos secundarios. Lo más frecuente es que en un ensayo clínico se contrasten varias hipótesis, la principal y las secundarias; cada una de ellas debe enunciarse conceptual y operativamente. Por cada hipótesis secundaria enunciada debe especificarse su correspondiente objetivo secundario. En el ejemplo del nuevo fármaco efectivo frente a las cefaleas, una hipótesis secundaria podría ser que el coste de la nueva terapia es menor que otra con la que se va a realizar la comparación. La hipótesis operativa debe expresar paramétricamente la diferencia económica entre los tratamientos. El objetivo secundario en este caso sería el cálculo del coste de ambos tratamientos en un período determinado de tiempo. Otra hipótesis secundaria podría ser que los efectos secundarios de la nueva terapia son menores, etc. VARIABLES MÁS FRECUENTEMENTE UTILIZADAS EN LOS ENSAYOS CLÍNICOS El éxito comercial de un fármaco no depende exclusivamente de que sea o no eficaz. A parecida eficacia, la comodidad en la posología, disminución de los efectos secundarios y coste económico son variables que pueden ser muy importantes. Las variables de interés planteadas en los ensayos clínicos pueden ser múltiples. Las más frecuentes son las siguientes: Mortalidad total. La mortalidad total es la ocurrida por todas las causas. Excepto en enfermedades de rápida evolución, los estudios en los que se quiera evaluar esta variable pueden durar muchos años. Mortalidad específica. La mortalidad específica es la ocurrida por una causa determinada, por ejemplo gripe. Al igual que en la mortalidad total, salvo enfermedades de rápida evolución, los estudios que evalúan mortalidad específica suelen ser muy largos. En los primeros estudios del efecto del clofibrato se observó que las tasas de mortalidad por insuficiencia coronaria eran menores que en los hiperlipémicos no tratados, hasta que se comprobó que la
296
E L MÉ TODO CIÉ NTIFICO E N LAS CIÉ NCIAS DE LA SALUD
mortalidad total era mayor en los tratados con clofibrato que en los no tratados. Éste es un ejemplo muy claro de que el estudio aislado de la mortalidad específica puede ser engañoso. El estudio de la mortalidad específica es recomendable hacerlo junto al de mortalidad total, Síntomas. En muchos estudios clínicos una de las variables de interés es la mejoría de un determinado síntoma, por ejemplo, cefalea, sensación de angustia, estado de ánimo, etc. Parámetros clínicos. Conseguir que un parámetro de interés clínico mantenga sus valores en un intervalo determinado es el objetivo de muchos tratamientos. Los fármacos más utilizados en éste aspecto son los siguientes: antihipertensivos, antilipémicos, antidiabéticos, antiuricémicos, etc. En muchos estudios clínicos la variable de interés es comprobar que un parámetro clínico se encuentra en unos determinados niveles, por ejemplo, glucemia basal entre 70 y 120 mg/100 ml. Incidencia de una enfermedad. Una de las maneras de comprobar que un tratamiento preventivo es eficaz es comprobar que la enfermedad que trata de evitar tiene una menor incidencia en los tratados que en los no tratados. Por ejemplo, la eficacia de la vacuna de la gripe puede estudiarse, comparando la incidencia de la gripe en dos grupos, uno vacunado y otro no. Coste. El aumento del gasto farmacéutico y la necesidad de ahorrar en este apartado ha generado una gran competitividad entre las distintas casas comerciales. El conseguir medicamentos más baratos es uno de los campos de investigación más importantes en la industria farmacéutica. Efectos secundarios. El cumplimiento de las pautas terapéuticas es uno de los factores decisivos en el éxito de una determinada terapia. Hay muchos medicamentos muy efectivos pero con una alta tasa de incumplimiento debido a los efectos secundarios, lo que en la práctica determina una marcada disminución de su eficacia, Por ejemplo, los antidepresivos tricíclicos y AZT. Conseguir fármacos sin efectos secundarios, aunque sean un poco menos eficaces puede mejorar el cumplimiento y por tanto, la efectividad de la terapia. Posología. Un fármaco muy eficaz, pero con una posología complicada por la frecuencia de las dosis o porque la vía de administración sea traumática, suele tener bajas tasas de cumplimiento, Conseguir el mismo efecto con una dosis menos frecuente es una de las líneas de investigación prioritarias de la industria farmacéutica. Recientemente el conseguir antibióticos efectivos con una dosis única cada veinticuatro horas ha sido una de las principales líneas competitivas de los últimos años. Una vía de administración no agresiva es otro de los aspectos importantes de la posología que pueden ayudar a mejorar el cumplimiento. Conseguir una insulina efectiva por vía oral o sublingual sería un gran éxito comercial.
ENSAYOS CLÍNICOS
297
CRITERIOS DE INCLUSIÓN Y DE EXCLUSIÓN Una vez definidos las hipótesis y los objetivos, el siguiente paso debe ser definir la población de referencia del estudio. Los lectores del artículo en el que se relaten los resultados del ensayo clínico estarán interesados en conocer el tipo de pacientes en los que se ha probado el fármaco; edad, sexo, enfermedades y tratamientos concomitantes, son algunas de las características de los pacientes que es importante conocer. Criterios de inclusión. En el protocolo de todo ensayo clínico deben figurar claramente las características que deben cumplir los participantes. A estas características se las denomina criterios de inclusión. Por ejemplo, si queremos evaluar la eficacia de un método anticonceptivo oral, los criterios de inclusión podrían ser mujeres de 18 a 42 años, sexualmente activas, que no estén embarazadas al comienzo del tratamiento y físicamente sanas. Criterios de exclusión. Los criterios de exclusión especifican qué individuos deben ser excluidos del estudio aunque cumplan los criterios de inclusión. En este apartado no deben repetirse los individuos no incluidos en los criterios de inclusión. Si en los criterios de inclusión se indica que deben ser incluidos pacientes entre dieciocho y setenta años, no debe especificarse en los criterios de exclusión menores de dieciocho y mayores de setenta años; esto ya se sobreentiende. Los criterios de exclusión definen algunas características específicas que no deben incluir los participantes en el ensayo. Por ejemplo, si no estamos seguros de las posibles interacciones de un fármaco experimental con sulfonilureas, excluiremos del ensayo a los individuos que tomen dicho fármaco; si el nuevo fármaco tiene una estructura química similar a los betalactámicos, excluiremos a los pacientes alérgicos a este fármaco, etc. VALIDEZ DE LOS ENSAYOS CLÍNICOS Al igual que en los demás estudios científicos (ver capítulo 6), hay que estudiar la validez de los estudios clínicos. Un estudio tiene validez interna si está exento de errores aleatorios y de sesgos. El problema es que en la mayoría de las ocasiones, no podremos saber con toda seguridad que los resultados de nuestros estudios reflejan la realidad de la población estudiada. A continuación serán comentados los errores aleatorios y los sesgos específicos de los ensayos clínicos. Errores aleatorios Los errores aleatorios son debidos a la influencia del azar y pueden afectar al cálculo de los intervalos de confianza y a los contrastes de hipótesis.
298
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Intervalos de confianza. Si los individuos que participan en un ensayo clínico pueden ser considerados como una muestra representativa de una población de pacientes más amplia, debemos calcular intervalos de confianza. No siempre es posible considerar a los participantes en un ensayo clínico como una muestra representativa de una población. Para ello deben cumplirse las reglas del muestreo (4). La población estadística de la que puedan ser considerados representativos los integrantes de un ensayo clínico será la de pacientes asignados al centro sanitario donde se realiza el ensayo que cumplan los criterios de inclusión y que no cumplan los criterios de exclusión. Si este se realiza en varios centros simultáneamente, la población de referencia será la suma de las poblaciones de pacientes asignadas a los centros participantes que cumplan los criterios de inclusión y que no cumplan los criterios de exclusión. Habitualmente se calculan intervalos de confianza del 95%. En un ensayo clínico esto significa que la probabilidad de incluir el verdadero resultado de la población de referencia es del 95%, supuesto que los participantes en el ensayo clínico constituyan una muestra representativa de dicha población. Por ejemplo, si en un ensayo clínico se han comparado dos fármacos A y B que reducen el nivel de colesterol y un intervalo de confianza del 95% para la diferencia entre los colesteroles observados de los dos grupos es (23 - 41), esto quiere decir que hay una probabilidad del 95% de que el fármaco B reduzca el colesterol basal entre 23 y 41 mg/100 ml más que el A (la diferencia entre los colesteroles básales de los grupos ha sido realizada considerando como minuendo el valor del grupo A) en la población de referencia. Contraste de hipótesis. El contraste de hipótesis estadísticas sólo debe realizarse cuando los participantes en un ensayo clínico son una muestra probábilística de una determinada población y los resultados del contraste son aplicables a dicha población. Habitualmente en los ensayos clínicos la hipótesis nula representa que no hay diferencias significativas entre los grupos y la hipótesis alternativa que sí las hay. Ho No hay diferencias entre los grupos. H1 Hay diferencias entres los grupos.
α
En otras ocasiones la hipótesis nula indica que la diferencia entre los dos grupos es menor o igual que un determinado valor; en este caso la hipótesis alternativa enuncia que la diferencia entre los dos grupos es mayor que un determinado valor. Ho La diferencias entre los grupos es menor que c. H1 La diferencias entre los grupos es mayor que c. α En todo estudio de contraste de hipótesis debe establecerse el riesgo de error que aceptamos en caso de rechazar la hipótesis nula, a esta probabilidad la deno-
ENSAYOS CLÍNICOS
299
minamos alfa. En la tabla siguiente exponemos las posibles decisiones que se pueden tomar en un contraste de hipótesis y los errores que se pueden cometer.
En un ensayo clínico, el error tipo I es encontrar diferencias significativas por azar; sería el caso de dos tratamientos con efectos iguales en la población de referencia, pero por azar las diferencias observadas en la muestra son estadísticamente significativas. La probabilidad de que esto ocurra es a, que se suele representar por P. Cuando junto a los resultados significativos de un ensayo clínico observemos P < 0,05, esto quiere decir que la probabilidad de que en realidad no haya diferencias entre los dos tratamientos y que las diferencias encontradas en la muestra sean por azar es menor del cinco por ciento. El error tipo II es la probabilidad de que en realidad haya diferencias entre los grupos pero en los resultados obtenidos en la muestra no haya diferencias significativas. La probabilidad de que esto ocurra es β; si la muestra es pequeña, la potencia de la prueba será débil. Esto tiene una trascendencia extraordinaria en todos los ensayos clínicos, pero especial en los ensayos clínicos en los que se pretende demostrar que no hay diferencias entre dos tratamientos. Dedicamos un apartado a este tipo de ensayos clínicos, a los que denominaremos ensayos clínicos negativos. En el cálculo de la predeterminación del tamaño de la muestra debe considerarse la probabilidad de cometer error tipo I y error tipo II. Sesgos y su control En el Capítulo 10 comentamos los sesgos más frecuentes en los estudios clínicos. Sesgos y su selección. Los sesgos de selección desequilibran los grupos en alguna variable que puede influir en el resultado del estudio, por ejemplo, más hombres que mujeres, desequilibrios en edad, etc. La asignación aleatoria disminuye la probabilidad de los sesgos de selección. Cuando conocemos alguna variable que puede influir en los resultados, la asignación aleatoria la realizamos de forma estratificada para asegurar que dicha variable estará equilibrada en los grupos.
300
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
La mayoría de los ensayos clínicos son realizados en centros hospitalarios, lo que produce un importante sesgo de selección cuando la enfermedad de interés no es de exclusivo tratamiento hospitalario, ya que la población de pacientes hospitalarios no representa a los pacientes en general (ver capítulo 6). Por ejemplo, los pacientes hipertensos controlados a nivel hospitalario suelen tener hipertensiones rebeldes al tratamiento, en muchas ocasiones presentan una patología múltiple y no son representativos de los pacientes hipertensos de la población general; lo mismo podríamos decir de los bronquíticos crónicos, diabéticos, gotosos, faringitis, etc. Para que el ensayo sea representativo de los pacientes en general debe incluir en la muestra una proporción igual que en la población de los distintos tipos y grados de pacientes. Sesgo de información. La diferencia entre las atenciones dispensadas a los grupos y la diferencia de las medidas realizadas en distintos centros sanitarios o por distintos profesionales son algunos motivos importantes de sesgos de información. Estos sesgos pueden controlarse mediante las cegadas (ver capítulo 10) y por la adecuada concordancia entre las medidas realizadas. En los estudios multicéntricos debe ponerse especial atención a los distintos aparatos de medida y facultativos que intervendrán en el estudio, mediante estudios de concordancia. Sesgos de confusión. En ocasiones podemos achacar al tratamiento un efecto que no tiene, un ejemplo típico es el factor cuidados (ver Capitulo 10), aunque un tratamiento sea inefectivo si dispensamos muchas atenciones al paciente, estas pueden mejorar e incluso curar al paciente, independientemente del tratamiento, a este efecto le denominamos factor cuidados, y es un típico factor de confusión, que puede controlarse con las cegadas. Otros factores de confusión pueden estar presentes como en todo estudio científico y pueden controlarse mediante el adecuado análisis de los datos. Validez interna Si un estudio está exento de errores aleatorios y de sesgos, el estudio es representativo de la población de referencia y por lo tanto, tiene validez interna. El problema es que no podemos tener la seguridad absoluta de la ausencia de errores. Si el estudio es multicéntrico, la población de referencia es la de influencia de los centros sanitarios participantes. Por ejemplo, supongamos que se realiza un estudio multicéntrico en el que participa un hospital de Nueva York, un hospital de Londres y otro de Madrid. La población de referencia no es la suma de los enfermos de Nueva York, Londres y Madrid, sino la suma de los enfermos de la población atendida por los correspondientes hospitales. Si el hospital de Madrid atiende al barrio de Chamartín, se considerará que los enfermos de dicho barrio forman parte de la población de referencia del ensayo clínico si las leyes del muestreo han sido respetadas, pero no toda la población de Madrid.
ENSAYOS CLÍNICOS
301
Validez externa Las conclusiones de un ensayo clínico son científicamente válidas en el ámbito donde se realizó (suponiendo que se hayan controlado adecuadamente los sesgos y los errores aleatorios), y deben considerarse como hipótesis de trabajo válido en otras poblaciones similares. Alguien puede pensar que si un determinado tratamiento se ha demostrado efectivo para disminuir la tensión arterial en Francia también será efectivo en España. En la mayoría de los casos los resultados son exportables, sobre todo los que se refieren a mecanismos bioquímicos determinados, pero hay que estar atentos a posibles excepciones, debidas a factores ambientales, alimenticios, genéticos, etc. En el caso de las enfermedades infecciosas las variaciones pueden ser grandes; un antibiótico efectivo frente al 20% de las cepas de estafilococo dorado en España puede tener una efectividad mucho más grande frente al mismo germen en países africanos. En cualquier caso siempre debemos tener una actitud vigilante que nos puede ayudar a descubrir excepciones muy instructivas. TIPOS DE ENSAYOS CLÍNICOS Hemos considerado como ensayos clínicos a cualquier estudio que trate de probar la eficacia de un determinado tipo de tratamiento. Los ensayos clínicos más importantes y más eficaces son los estudios de intervención, prospectivos, controlados, concurrentes y de asignación aleatoria (EIPCCAA), que serán estudiados ampliamente en el próximo apartado. Otros ensayos clínicos frecuentemente utilizados, son los siguientes: Cohortes terapéuticos. Series terapéuticas con control no concurrente. Estudios autocontrolados. En el Capítulo 10 se comentaron las características de los estudios clínicos no intervenidos y con control no concurrente, insistiendo sobre los múltiples sesgos existentes. En este capítulo y en este mismo apartado, ampliaremos los conceptos sobre los estudios autocontrolados y sobre los EIPCCAA. en el apartado siguiente. Los estudios autocontrolados constan de un solo grupo; son series terapéuticas. En estos estudios el análisis estadístico consiste en comparar una o más variables antes y después de un tiempo determinado de haber aplicado un tratamiento. Este tipo de estudios tienen un campo de aplicación muy limitado además, la interpretación de los resultados no puede ser concluyente, En el Capítulo 10 indicamos que existen varios factores que pueden influir en la mejoría de los pacientes: el curso natural de la enfermedad, el efecto placebo, el efecto cui-
302
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
dados y el efecto terapéutico. Al no disponer de controles ni de cegadas, el efecto terapéutico demostrado no puede considerarse que depende exclusivamente del tratamiento aplicado, no pudiendo evaluarse el verdadero efecto del tratamiento. Por ejemplo, si un grupo de pacientes es tratado con un fármaco hipocolesterolémico y al cabo de tres meses son comparados los niveles de colesterol basal antes y después de aplicado el tratamiento encontrándose una diferencia de 10 mg/100 ml, el problema es considerar si el descenso observado es debido al fármaco o a otros factores. ESTUDIOS DE INTERVENCIÓN, PROSPECTIVOS, CONTROLADOS, CONCURRENTES Y DE ASIGNACIÓN ALEATORIA (EIPCCAA) Según la definición dada al principio del capítulo, ensayo clínico es todo estudio en el que se realicen evaluaciones terapéuticas con seres humanos. Estas evaluaciones pueden realizarse mediante series de casos, estudios de cohortes, etc, en el Capítulo 10 estudiamos estos casos y fueron especificados sus ventajas y sus inconvenientes; también en dicho capítulo fueron considerados los distintos tipos de grupo control. En este capítulo nos vamos a referir a los estudios de intervención prospectivos con grupo control concurrente y asignación aleatoria EIPCCAA. Son de intervención porque el estudio y los grupos son diseñados por los investigadores, a diferencia de la simple observación como en el caso de una cohorte en la que queremos estudiar factores de riesgo. Son temporalmente prospectivos, comienzan con dos grupos de pacientes y se evalúan las diferencias tras un tiempo determinado de estudio; las evaluaciones pueden ser varias. No es necesario que en el estudio entren todos los pacientes a la vez. A partir de una fecha determinada los nuevos pacientes que cumplan los criterios de inclusión y que no tengan ningún criterio de exclusión serán incorporados al estudio; su tiempo de comienzo es el de incorporación. Son controlados porque constan de un grupo experimental y un grupo control (en algunas ocasiones pueden tener más de dos grupos). A los pacientes del grupo experimental se les administra la terapia que se quiere evaluar. Si contra la enfermedad de interés no existe ninguna terapia reconocida, al grupo control se le administra un placebo. En caso de que exista tratamiento contra la enfermedad de interés, al grupo control se le administrará una de las terapias reconocidas. Son concurrentes porque el grupo control y el grupo experimental se estudian al mismo tiempo. Cuando se incorpora un paciente al estudio mediante técnicas aleatorias se decide si se incorpora al grupo experimental o al grupo control. Son de asignación aleatoria porque la incorporación a los grupos se realiza mediante técnicas aleatorias, a veces complejas, para evitar desequilibrios en los grupos que puedan alterar los resultados. En la mayoría de los casos los
ENSAYOS CLÍNICOS
303
médicos que administran los tratamientos y que siguen a los pacientes no saben a qué grupo pertenecen los pacientes. ASIGNACIÓN ALEATORIA El procedimiento mediante el cual se asignan al azar los pacientes a los grupos se denomina asignación aleatoria. Si el ensayo se realiza cegando al facultativo que decide el tratamiento, a éste se le entregan unos sobres dentro de los cuales pone grupo A o grupo B, sin que sepa si A corresponde al grupo experimental o placebo. Por lo tanto, se entiende que los métodos de asignación aleatoria que vamos a describir los debe realizar el equipo que prepara los sobres. Los tipos de asignación aleatoria son: Asignación aleatoria simple. Asignación aleatoria balanceada. Asignación aleatoria estratificada.
Asignación aleatoria simple Si consideramos que ninguna de las características de los pacientes puede influir en los resultados, nos limitaremos a asignar los pacientes a los grupos por simple azar, por ejemplo, tirando una moneda al aire, mediante tablas de números aleatorios los pares grupo A y los impares grupo B, etc. Este método tiene el problema de que por azar los grupos pueden estar desequilibrados. Aunque una moneda esté perfectamente equilibrada pueden salir diez caras seguidas, es un suceso raro, pero posible. Según algunos autores (5), si los grupos no están equilibrados en cuanto al número de casos puede afectar a la exactitud de los cálculos.
Asignación aleatoria balanceada La asignación aleatoria balanceada consiste en asignar aleatoriamente los pacientes a los grupos al azar, garantizando que los dos grupos tendrán el mismo número de pacientes. Hay varias técnicas para conseguir grupos balanceados; a continuación describiremos una mediante un ejemplo. Ejemplo 11.1. En un ensayo clínico son necesarios dos grupos de quince pacientes cada uno. Paso 1. Preparamos permutaciones de grupos de letras con la A y la 5, que corresponden a los dos grupos de que consta el ensayo clínico. Con seis letras todos los posibles grupos que podemos formar son permutaciones con repetición de dos letras que se repiten tres veces cada una, cuyo número se obtiene según la siguiente expresión:
304
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
Las veinte permutaciones posibles son las siguientes:
Las permutaciones las hemos numerado por orden correlativo. Paso 2. Elegimos un número al azar del uno al veinte; supongamos que el número elegido es el 12. La secuencia de asignación a los seis primeros pacientes la realizaremos según la doceava permutación. Al primer paciente le corresponderá el grupo B, al segundo el B, al tercero el A al cuarto él A, al quinto B y al sexto él A. Seguimos sacando números del uno al veinte hasta completar el número de pacientes deseado. En este ejemplo necesitamos treinta pacientes; por lo tanto, necesitaremos sacar cinco números ya que cada número nos proporciona la secuencia de seis pacientes. No tiene ninguna influencia el que se repita algún número. El número de letras de cada grupo es indiferente. Si se precisan grupos grandes es aconsejable que los grupos de letras también lo sean, en cuyo caso el cálculo de las permutaciones debe realizarse mediante ordenador porque las equivocaciones son muy frecuentes.
Asignación aleatoria estratificada y balanceada Si alguna característica del paciente puede influir en los resultados, debe garantizarse el equilibrio en cuanto a dicha variable se refiere. Por ejemplo si el hábito de fumar puede influir en los resultados garantizar el mismo número de fumadores que de no fumadores en cada grupo; en este caso hay dos estratos. Si las variables de interés son fumar o no y ser sedentario o no serlo, el número de estratos es el producto de las categorías de cada estrato, en este caso 2 x 2 = 4. La asignación se realiza de la misma manera que describimos en el caso de la asignación balanceada, para cada uno de los estratos. Ejemplo 11.2. En un ensayo clínico se necesitan dos grupos de cien pacientes cada uno. Se considera que las variables sexo y fumar pueden influir en los resultados; por lo tanto se debe garantizar que en los dos grupos el número de fumadores y no fumadores y de hombres y mujeres debe ser el mismo.
ENSAYOS CLÍNICOS
305
Teniendo en cuenta las dos variables anteriores, hay cuatro estratos; para cada uno de los estratos se elige mediante el azar una secuencia de letras a partir de la tabla de permutaciones del ejemplo anterior. Mujeres no fumadoras Mujeres fumadoras Hombres no fumadores Hombres fumadores
ABABAB .. ABBBAA .. BBAAAB .. BBBAAA...
Basándose en la secuencia anterior, se asignan los pacientes a los grupos garantizándose el equilibrio. Observe que si hay más pacientes de un estrato que de otro, que es lo que suele ocurrir habitualmente, la representación en los grupos será proporcional a su representación en la población de enfermos, excepto pequeñas diferencias debidas al azar. TIPOS DE EIPCCAA Fundamentalmente hay dos tipos de estudios de intervención, prospectivos, con control concurrente, de asignación aleatoria (EIPCCAA): Estudios en paralelo. Estudios cruzados. Estudios en paralelo Los estudios en paralelo son los más frecuentes. A partir de una muestra de pacientes mediante asignación aleatoria se forman dos grupos. A los integrantes de un grupo se les administra el tratamiento experimental y a los integrantes del otro grupo el tratamiento control. Los pacientes asignados a un grupo son sometidos a un solo tratamiento durante todo el ensayo. La Figura 11.1 esquematiza un estudio en paralelo. Estudios cruzados Los estudios cruzados son menos frecuentes que los paralelos. A partir de un grupo de pacientes, mediante asignación aleatoria se forman dos grupos: A
Figura 11.1. Ensayo clínico en paralelo.
306
EL MÉTODO CIENTÍFICO EN LAS CIENCIAS DE LA SALUD
y B. A los pacientes del grupo A se les administra el tratamiento experimental y a los del grupo B el tratamiento control. Al cabo de un tiempo se cruzan los tratamientos: a los pacientes del grupo A se les administra el tratamiento de control y a los pacientes del grupo B el tratamiento experimental. De esta manera a todos los pacientes se les administra el tratamiento experimental y el tratamiento control en alguna fase del estudio. Los estudios cruzados tienen la ventaja de que cada paciente es control de sí mismo, la variabilidad es menor y el tamaño de la muestra es menor que en los estudios paralelos. El principal inconveniente es que el primer período de tratamiento puede influir en el segundo, aunque en la mayoría de los casos, al producirse el cruce, durante un período de tiempo no se administra tratamiento; a este período se le denomina período de limpieza. La aplicación de tratamientos cruzados no es posible en la mayoría de los casos, por ejemplo, en los casos en los que la variable principal sea la supervivencia o en enfermedades de corta duración. La utilización más adecuada es en enfermedades crónicas, por ejemplo, comparación de analgésicos en artrosis, antihistamínicos en alérgicos, etc. En la figura 11.2 se esquematiza un estudio cruzado.
Figura 11.2. Ensayo clínico cruzado,
Algunos autores (6-7) han estudiado de manera monográfica los estudios cruzados.
PREDETERMINACIÓN DEL TAMAÑO DE LA MUESTRA La predeterminación del tamaño de la muestra es un capítulo de la mayor importancia en cualquier estudio científico. En los ensayos clínicos debemos considerar tres parámetros: a) la probabilidad de cometer error tipo I (a); b) la probabilidad de cometer error tipo II (β); c) la diferencia entre los grupos que queremos detectar (8), si es que entre los grupos existen diferencias.
ENSAYOS CLÍNICOS
307
Las expresiones para predeterminar el tamaño de la muestras incluidas en este apartado son válidas para un diseño con dos grupos seleccionados mediante muestreo aleatorio y con muestras relativamente pequeñas2. En el caso de más de dos grupos o de enfermedades raras en las que el tamaño de la muestra incluya más del cinco por ciento de los casos en el ámbito donde se realiza la prueba, recomendamos consultar la bibliografía especializada (4). Supongamos que de una enfermedad, a la que denominaremos W existen dos mil casos en el mundo y en una ciudad donde existe un solo centro sanitario hay setenta casos. Si en el hospital se realiza un estudio con treinta pacientes afectados de la enfermedad W, el tamaño muestral debe referirse a los setenta casos de la población asignada al centro sanitario y, por lo tanto, deberán utilizarse las técnicas adecuadas a muestras relativamente grandes. Es un error muy frecuente considerar la población mundial o del país donde se realiza el estudio como referencia, lo cual no tiene ninguna base ni científica ni estadística, siendo éste uno de los muchos usos inadecuados de la estadística (8). Ejemplo 11.3. Supongamos que queremos realizar una comparación entre dos grupos tratados con dos fármacos antiglucémicos; el estudio queremos realizarlo con α