269 38 8MB
Spanish Pages [499] Year 2007
ZZZPHGLOLEURVFRP EPIDEMIOLOGÍA CLÍNICA Una ciencia básica para la medicina clínica
DAVID L. SACKETT - R. BRIAN HAYNES PETER TUGWELL
ZZZPHGLOLEURVFRP EPIDEMIOLOGÍA CLÍNICA Una ciencia básica para la medicina clínica Traducción: Dr. F. PÉREZ GALLARDO
Ediciones DÍAZ DE SANTOS, S. A.
Título original: «Clinical Epidemiology: A Basic Science for Clinical Medicine»
© 1985 David L. Sackett, R. Brian Haynes y Peter Tugwell © 1989 Ediciones Díaz de Santos, S. A. «No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright»
Edita: Ediciones Díaz de Santos, S. A. Juan Bravo, 3A. 28006 Madrid ISBN en lengua inglesa: 0-316-76595-3 ISBN en lengua española: 978-84-87189-15-9 Depósito legal: M. 18.012-1989
Diseño de cubierta: Little, Brown Fotocomposición: MonoComp, S. A. Conde de Vilches, 31. 28028 Madrid Impresión: LAVEL. Los Llanos, nave 6. Humanes (Madrid)
Este libro está dedicado a H. L. Mencken, Kurt Vonnegut, Jr., Douglas Adams y a la nueva indumentaria del emperador.
David. L. Sackett, M.D.
R. Brian Haynes, M.D.
Profesor de Epidemiología clínica y Bioestadística Profesor de Medicina Me Master University Hamilton, Ontario, Canadá
Profesor asociado de Epidemiología clínica y Bioestadística Profesor asociado de Medicina Me Master University Hamilton, Ontario, Canadá
Peter Tugwell, M.D. Profesor de Epidemiología clínica y Bioestadística Profesor de Medicina Me Master University Hamilton, Ontario, Canadá
Contenido
PREFACIO...............................................................................................
xi
AGRADECIMIENTOS ..........................................................................
xvii
PARTE 1.a DIAGNÓSTICO................................................................
3
1. 2. 3. 4. 5.
Estrategias del diagnóstico clínico ............................................. El examen clínico......................................................................... La selección de las pruebas diagnósticas ................................. La interpretación de los datos diagnósticos ............................. Diagnóstico precoz ....................................................................
PARTE 2.a 6. 7. 8. 9.
5 23 63 79 179
PRONÓSTICO Y TRATAMIENTO ...........................
203
Hacer un pronóstico ................................................................... Decidir sobre la mejor terapia ................................................... Cumplimiento............................................................................... Decidir si su tratamiento ha causado daño..............................
205 221 259 291
PARTE 3.a
MANTENERSE AL DÍA ...............................................
317
Introducción: Cómo examinar su propia actuación ................ Cómo usar una biblioteca ........................................................ Cómo leer una revista clínica..................................................... Creación y uso de su propia biblioteca .................................. Cómo conseguir el máximo y entregar todo lo posible en la educación médica continuada ..................................................
319 353 371 423
ÍNDICE.....................................................................................................
461
10. 11. 12. 13. 14.
433
Prefacio
Este libro tuvo sus orígenes en la práctica clínica, cuando sus autores luchaban con el diagnóstico y tratamiento de sus pacientes y se iban quedando rezagados con sus lecturas clínicas. Todos nosotros hemos sido capacitados en medicina interna, y todos nosotros creíamos que estábamos practicando el Arte (derivado de las creencias, juicios e intuiciones que nosotros no podíamos explicar) así como la Ciencia (derivada del conocimiento, la lógica y la experiencia previa que nosotros podíamos explicar), de la medicina clínica. En diferentes momentos y en situaciones diferentes, cada uno de nosotros nos dimos cuenta que había, en realidad, una ciencia para el arte de la medicina. Para D.L.S., esta comprensión ocurrió cuando la «crisis de los misiles de Cuba» le transformó de novato nefrólogo y fisiólogo del túbulo renal, en reacio epidemiólogo de campo del Servicio de Salud Pública de los Estados Unidos. Aunque obligado a aprender epidemiología (la mayor parte de ello por vez primera), él siguió siendo un clínico en el fondo y fue sorprendido repetidamente por el grado hasta el cual su creciente conocimiento de los principios epidemiológicos podían arrojar luz tanto sobre las enfermedades de los pacientes individuales, como sobre el diagnóstico y la conducta de tratamiento de sus clínicos. Además, se dio cuenta que la aplicación de estos principios epidemiológicos (y unos cuantos más de bioestadística) a las creencias, juicios e intuiciones que comprenden el arte de la medicina, podía mejorar sustancialmente la exactitud y eficacia del diagnóstico y el pronóstico, la eficacia del tratamiento, y la eficacia en mantenerse al día, y, de importancia especial, la capacidad de enseñar a los demás cómo hacer estas cosas. La oportunidad de explorar esta «ciencia del arte de la medicina» retornó con la creación de una nueva escuela de medicina en la MacMaster University, a la cual se unió D.L.S. en 1967 y donde él formó equipo con los otros autores. En cuanto a R.B.H., la necesidad de una ciencia básica adicional para la medicina clínica, entró en su conciencia durante una conferencia de preempleo sobre los conceptos freudianos de la enfermedad psiquiátrica. Cuando él sumisamente pidió la prueba de uno de estos conceptos, el conferenciante objetó que el propósito de la conferencia consistía en transmitir el contenido, no el defenderlo (y admitió entonces que él mismo, XI
XII
PREFACIO
tampoco lo creía). Esta necesidad de un planteamiento más sistemático para reunir e interpretar la prueba clínica, fue reforzada repetidamente durante la capacitación postgraduada preliminar de R.B.H. en el Este de Canadá, más ruidosamente en una lucha ocurrida entre dos de sus instructores sobre cómo debía él medir la presión arterial en sus pacientes. Estas experiencias impulsaron a R.B.H. a combinar su capacitación de postgraduado en medicina interna, con el trabajo de graduado en epidemiología clínica de modo que podía aplicar esta última ciencia básica adicional a la interpretación de los fenómenos clínicos. La carrera resultante combinada en epidemiología clínica y práctica clínica, ha conducido a muchas cosas, incluyendo la colaboración que ha producido este libro. Como un estudiante de medicina británico, P.T. fue atraído a la epidemiología clínica por los retos de intentar aplicar los principios de la epidemiología de la población al cuidado de los pacientes individuales. Sin embargo, cuando él buscó la guía en su carrera, de un epidemiólogo mundialmente conocido de Londres, fue informado que ¡era «amoral» intentar combinar la epidemiología con la práctica clínica! Desalentado de su plan de carrera inicial, ingresó en su capacitación de postgraduado tradicional en medicina interna, pasó tres años emocionantes en África, y terminó como residente Jefe de Medicina en MacMaster. Estimulado por los intentos de combinar la epidemiología orientada clínicamente y la medicina clínica que estaban en marcha allí, P.T. satisfizo su reavivado interés, completando su capacitación tanto en epidemiología clínica como en reumatología. Ahora él es director del Departamento de Epidemiología Clínica y Bioestadística en MacMaster, practica como reumatólogo experto y colabora con D.L.S. y R.B.G. en proyectos tales como el presente. Nuestra convicción común puede ser expresada como sigue. Los actos importantes que nosotros efectuamos como clínicos, requieren la particularización, para el paciente individual, de nuestras experiencias previas (tanto como clínicos individuales como colectivamente), con grupos de pacientes similares. Por ejemplo, la evaluación racional de un síntoma, signo o resultado de una prueba de laboratorio en el paciente de hoy, demanda nuestra valoración crítica de cómo se ha conducido anteriormente este hallazgo clínico en grupos de pacientes con el mismo diagnóstico diferencial. De la misma manera, la selección racional de un tratamiento para el paciente de hoy, requiere nuestra valoración de cómo les fue a los pacientes similares con diversos tratamientos, en el pasado. Si como media, ellos disfrutaron de mejores resultados clínicos y menos efectos secundarios con un tratamiento que con otros, nosotros prescribiremos probablemente ese régimen en nuestro paciente de hoy. Si la práctica clínica racional necesita la proyección de los hallazgos diagnósticos, los pronósticos, y las respuestas terapéuticas de grupos de
PREFACIO
XIII
pacientes al paciente individual, entonces las estrategias y tácticas usadas para comprender a los grupos de pacientes (esto es, las tácticas y estrategias de la epidemiología y la bioestadística), deben ser útiles para el clínico. Además, sería posible tomar un conjunto de estrategias epidemiológicas y bioestadísticas desarrolladas para estudiar la «distribución y los determinantes de la enfermedad» en grupos y poblaciones, refundirlos en una perspectiva clínica y usarlos para mejorar nuestra actuación clínica. Este libro resume nuestros intentos iniciales para hacerlo así. Aquí, nosotros tratamos los tres retos con los que se enfrenta cada clínico todos los días: alcanzar el diagnóstico correcto, escoger el tratamiento que hace más bien que daño, y mantenerse al día con respecto a los avances útiles en medicina. En cada caso, nosotros propondremos algunas aplicaciones prácticas de la epidemiología y la bioestadística orientada clínicamente que pueden ayudarle a usted a mejorar la exactitud, la eficacia, y el disfrute de sus esfuerzos. Aunque muchos de los planteamientos sugeridos en este libro son nuevos, no hay nada nuevo en la tesis de que la epidemiología se merece un lugar junto con las otras ciencias básicas de la medicina. Uno puede identificar (o por lo menos inferir), consejos similares de Hipócrates, Sydenham y otros héroes de la antigüedad. En tiempos más recientes, John Paul de la Yale University, en su libro de 1958 titulado Clinical Epidemiology, sugirió que la epidemiología debería estar en la «misma relación con la práctica de la medicina preventiva, como lo hacen algunas de las ciencias médicas básicas más familiares, con la medicina curativa» (1). Aquí, como en otra parte (2, 3), nosotros hemos ampliado la tesis del Dr. Paul para indicar que la epidemiología sirve apropiadamente como una ciencia básica para toda la medicina clínica. Así lo han hecho otros epidemiólogos clínicos, comenzando por Alvan Feinstein en Yale y Robert Fletcher, Suzzane Fletcher y Edward Wagner en la University of North Carolina, y puesto de manifiesto por la rápida aparición y crecimiento de los departamentos y unidades de epidemiología clínica, en los centros de las ciencias de la salud en todo el mundo. Las contribuciones de estos grupos a la educación de los profesionales de la salud y la investigación sanitaria, están empezando a tener un impacto considerable. Por favor, admita que este no es un libro para los «hacedores» de investigación. El no contiene discusiones sobre cómo plantear las hipótesis científicas, preparar muestras aleatorias, efectuar mediciones de resultados ciegos, o efectuar análisis actuariales (estos y otros asuntos metodológicos relacionados serán presentados en un libro compañero sobre Clinical Research Methods). Este libro, es más bien un libro para los «usuarios» de la investigación hecha por los demás. Por otra parte, él está organizado en
XIV
PREFACIO
términos de actos clínicos (diagnósticos, tratamiento, mantenerse al día), no en temas epidemiológicos. Por consiguiente, asuntos tales como la significación estadística, se plantean solamente cuando ellos pueden ayudar a alcanzar una mejor decisión clínica, y entonces solamente dentro del contexto del problema clínico a resolver. Los ejemplos clínicos abundan en estas páginas, y representan generalmente a los pacientes reales, a los que nosotros estamos tratando de ayudar cuando descubrimos la utilidad de la aplicación particular de una estrategia general de epidemiología o bíoestadística. Dada la heterogeneidad de nuestra audiencia, es seguro que usted encontrará misteriosos algunos de nuestros ejemplos, y otros supersimplificados (¡incluso otros, tratados con enfoques exclusivos para Ontario meridional!), y corre el riesgo de aprender más de lo que usted quiere conocer realmente sobre algunos de nuestros pacientes favoritos. Además, todos nosotros somos aún bastante novatos en este juego de enlazar los planteamientos de «grupo» como la epidemiología y la bioestadística a los pacientes y a los clínicos individuales, y la historia (¡así como los críticos de libros!), revelarán sin duda algunos errores espectaculares en nuestros intentos iniciales. Nosotros esperamos, no obstante, que nuestras equivocaciones no le impedirán disfrutar, así como dominar las lecciones a aprender. Si, en el análisis final, la práctica de esta «ciencia del arte de la medicina» consiste en hacer más bien que daño a los pacientes y a los clínicos, deben añadirse cinco ingredientes adicionales al estudio de este libro. Primero, sus elementos deben ser integrados con los de las otras ciencias básicas (tales como morfología, fisiología y bioquímica), tal como ellas son aplicadas; si los planteamientos presentados aquí constituyeran la única base científica para la acción clínica, nosotros estaríamos sustituyendo simplemente una tiranía nueva no lograble de «rigor metodológico», por la vieja tiranía no enseñable del «arte clínico». Segundo, este planteamiento del diagnóstico, el tratamiento y el mantenerse al día debe ser alimentado por un cuerpo creciente de nuevo conocimiento válido y clínicamente útil originado en una investigación clínica sólida y relevante; sin este nuevo conocimiento, el planteamiento descrito en este libro podía degenerar rápidamente en nihilismo y parálisis terapéutica. Tercero, la epidemiología clínica debe continuar produciendo nuevas tácticas y estrategias para identificar y resolver problemas en el diagnóstico, tratamiento y mantenerse al día; de otro modo, esta ciencia básica correrá el riesgo de subordinación a la tecnología clínica y de información. Cuarto, esta ciencia básica adicional para la medicina clínica, debe ser aplicada con abundante humildad, reconociendo que mucha de su justificación nace de su capacidad de explicar y enseñar, no de reemplazar, al arte de la medicina.
PREFACIO
XV
Finalmente, nosotros deseamos que a medida que usted usa las tácticas y estrategias de la epidemiología clínica que presentamos en este libro, ¡añadirá suficiente regocijo, irreverencia y alegría de tener tanta distracción en su aplicación, como nosotros hemos tenido en su desarrollo! D. L. S. R. B. H. P. T. Bibliografía 1. Paul, J. R. Clinical Epidemiology (2nd ed). Chicago: University of Chicago Press, 1966. P. xii. 2. Sackett, D. L. Clinical epidemiology. Am. J. Epidemial. 89:125, 1969. 3. Sackett, D. L. Three cheers for clinical epidemiology. Int. J. Epidemial. 13:117, 1984.
Agradecimientos
Este libro nunca se hubiera acabado sin la incansable Jane Sicurella, quien organizó el desarrollo del manuscrito, coordinó sus revisiones por colegas de todo el mundo, y gentil, pero eficazmente hizo que los autores cumpliesen su palabra. Este libro nunca se hubiera comenzado sin el compromiso y apoyo de cinco hombres que abogaron por el desarrollo de la epidemiología clínica en MacMaster: John Evans, Jack Hirsh, Bill Spaulding, Janck Laidlaw y Fraser Mustard. Alvan Feinstein, quien vivió y trabajó con nosotros cuando estábamos precisamente comenzando, trajo ciencia y arrojo a nuestro bisoño departamento (e hizo todo lo posible para hacernos presentable a la nobleza universitaria). El es el padre (¿Padrino?), de la epidemiología clínica moderna y todos los que practican esta ciencia básica están en deuda con él. El primer borrador de este libro fue escrito mientras que D.L.S. estaba con un año sabático en Trinity College, Dublín, donde él recibió tanto aliento como santuario por parte de James McCormick y sus colegas. A lo largo de sus seis borradores, Barbara, Jo Anne, Jane y nuestros hijos, inspiraron nuestro esfuerzo y perdonaron nuestra preocupación. Gracias, también, a Wayne Taylor por las tablas 7.7 y 7.8. Don Rosenthal, David Cadman, Irene Uchida, Kack Laidlaw, Bob Volpe y sus pacientes, contribuyeron a las láminas en color que aparecen en el capítulo 1, y nosotros le agradecemos esto a ellos. Este manuscrito fue mecanografiado y vuelto a mecanografiar, se trató su texto y se volvió' a procesar, principalmente por Fio O'Dowd, y con paciencia y buena voluntad que fueron probadas penosamente; Jane Wright y Karla Gatto, también ayudaron en estas tareas. Lin Richter Paterson, entonces en Little Brown, nos colocó en el carril apropiado, y Jim Krosschell nos mantuvo allí. Mi querida Jane Macneil ganó nuestro aprecio y ramilletes, cuando como nuestra Editora del Libro, protegió nuestro estilo, así como nuestro mensaje. Finalmente, los siguientes colegas fueron maravillosamente útiles al leer los primeros borradores de este libro, indicándonos gentilmente los párrafos que eran poco inteligentes, irrelevantes, completamente equivocados, o realmente torpes, y nos ofrecieron consejo afectuoso sobre cómo mejorarlo: XVII
XVIII
AGRADECIMIENTOS
Robert Armstrong, Sikhar Banerjee, Claude Benedict, John Cairns, David Churchill, Dave Davis, Tony Dixon, Alian Donner, Murray Enkin, Ted Evans, Ernie Fallen, John Feightner, Bill Feldman, Ed Gibson, Ray Gilbert, Bill Goldberg, Charlie Goldsmith, Paul Griner, Gord Guyatt, David Hawkins, Jack Hirsh, Russell Hull, Mark Levine, Wendy Levinson, Paul Links, Praveen Mathur, Barbara Meneil, Al Mulley, Fraser Mustard, Vic Neufeld, John Norris, Dan Offord, Vince Rudnick, Brian Schmitt, Harry Shannon, David Smith, Bill Spaulding, Dave Streiner, Stephen Walter, Andy Wielgosz, Barry Wilson y David Young. A ellos les corresponde el mérito por aquellas partes del libro que son claras, útiles y eficaces. Sólo los autores son responsables del resto.
EPIDEMIOLOGÍA CLÍNICA
PARTE PRIMERA
Diagnóstico
NOTA Las indicaciones y dosificaciones de todos los medicamentos señalados en este libro, han sido recomendadas en la literatura médica y están de acuerdo con las prácticas de la comunidad médica general. Las medicaciones descritas no tienen necesariamente la aprobación específica de la Food and Drug Administration para el uso en las enfermedades y dosificaciones en las cuales son recomendadas. Las instrucciones del envase de cada medicamento, deben ser consultadas para su uso y dosificación tal como está aprobado por la FDA. Debido a que cambian los estándares es aconsejable mantenerse al corriente de las recomendaciones revisadas, especialmente aquellas relacionadas con los medicamentos nuevos.
Figura 1
Figura 2
Figura 3
Figura 4
Figura 5
Figura 6
1 Estrategias del diagnóstico clínico
La primera parte del libro trata sobre el diagnóstico, el proceso crucial que etiqueta a los pacientes y clasifica sus enfermedades, que identifica (¡y a veces, sella!) sus destinos o pronósticos probables, y que nos impulsa hacia tratamientos específicos en la confianza (a menudo, infundada) que éstos harán más bien que perjuicio. Los dos primeros capítulos se enfocan sobre el diagnóstico clínico, en los que nuestra atención está dirigida hacia los signos y los síntomas que constituyen una enfermedad. El segundo par de capítulos amplía el foco para incluir el diagnóstico paraclínico: la selección e interpretación de las pruebas diagnósticas suministradas por los químicos clínicos, los radiólogos, los anatomopatólogos, y similares. Como veremos, la combinación de los datos clínicos y paraclínicos (y especialmente el uso de los primeros para interpretar los segundos), constituye un reto importante para aquellos que han de convertirse en buenos clínicos. Este primer capítulo suministrará algunas definiciones y descripciones de las cuatro estrategias que nosotros usamos en el diagnóstico clínico. El segundo considera las tácticas que nosotros usamos para identificar los síntomas y los signos, y cómo esta actividad humana, típicamente falible, puede ser convertida en más exacta. El tercer capítulo presenta algunas estrategias para decidir si buscar o no un signo o síntoma dado, y si pedir o no una prueba diagnóstica paraclínica determinada, y el cuarto presenta un rango de tácticas de sencillas a complejas, para interpretar con poder y discernimiento estos signos, síntomas y pruebas diagnósticas paraclínicas. El capítulo final en esta sección forcejea con la base lógica y los resultados de nuestros intentos de lograr un diagnóstico precoz. Algunas definiciones Las discusiones sobre las definiciones pueden llegar a ser tan pesadas y pedantes que pueden destruir, más bien que despertar, el interés del lector 5
6
EPIDEMIOLOGÍA CLÍNICA
(¡el primer borrador de este capítulo no fue una excepción!). Sin embargo, nosotros necesitamos decirle a usted qué es lo que queremos decir cuando usamos ciertas palabras. Casi todos nosotros, la mayor parte del tiempo, vemos a los pacientes porque ellos están enfermos. Nosotros les ayudamos a ellos, sobre todo, cuando reconocemos que su enfermedad tiene tres elementos (13): el padecimiento o trastorno objetivo, la dolencia y la situación difícil. El padecimiento o trastorno objetivo El trastorno anatómico, bioquímico, fisiológico o psicológico cuya etiología (si es conocida), mecanismos de mala adaptación, presentación, pronóstico y tratamiento, leemos en los libros de texto. Aunque este elemento es generalmente llamado padecimiento, la utilidad de este término ambiguo es entorpecida por la incapacidad, tanto del paciente como de los científicos sanitarios, de estar de acuerdo sobre su aplicación a las situaciones específicas (3). De acuerdo con ello, nosotros llamaremos a este elemento de la enfermedad de un paciente, el trastorno objetivo, cuando él se convierte en el objetivo del proceso diagnóstico. La dolencia El conjunto de síntomas (manifestaciones del trastorno objetivo que son percibidas por el paciente) y signos (manifestaciones observadas por el clínico) mostrados por el paciente como resulado de tener y responder al trastorno objetivo. Nosotros llamaremos a este conjunto la dolencia. La situación difícil El tercer elemento de una enfermedad es la manera social, psicológica y económica en la cual los pacientes están situados en el medio ambiente. Taylor (13) llama a esto la situación difícil y también lo llamaremos así nosotros. El acto del diagnóstico clínico se enfoca sobre el segundo elemento de una enfermedad (la dolencia) con el fin de identificar el primero (el trastorno objetivo), mientras que no se pierde de vista el tercero (la situación difícil). Dicho más formalmente, el acto del diagnóstico clínico es la clasificación con un propósito: un esfuerzo para reconocer la clase o grupo al cual pertenece la dolencia de un paciente, de modo que, basado en nuestra
ESTRATEGIAS DEL DIAGNÓSTICO CLÍNICO
7
experiencia anterior con esa clase, los actos clínicos subsiguientes que nosotros podemos llevar a cabo, y el paciente está dispuesto a seguir, maximizarán la salud del paciente. Si la definición anterior es cierta, siguen dos consecuencias lógicas. Primero, debido a que el diagnóstico y «los actos clínicos subsiguientes» tienen su base racional en nuestra experiencia anterior con grupos de pacientes, se deduce que las estrategias y las tácticas de entender la distribución y los determinantes de la salud y el padecimiento en grupos (esto es, epidemiología), le pueden ser útiles a usted como clínico. Segundo, desde el punto de vista del diagnóstico clínico, la mayor parte de los textos médicos * y cursos van hacia atrás: comienzan con los trastornos objetivos y van hacia atrás, a la dolencia, exactamente lo inverso del proceso diagnóstico. Procediendo de la dolencia al trastorno objetivo, el proceso diagnóstico se puede enfocar sobre diferentes componentes del último. Generalmente, nosotros pensamos sobre el diagnóstico procediendo desde los síntomas y signos a enfocar en uno u otro «laboratorio» con el fin de documentar las alteraciones de mala adaptación en la estructura, la función y/o la respuesta a los estímulos. De forma alternativa, especialmente en el cuidado primario, el diagnóstico puede venir desde los síntomas y signos para enfocar sobre el pronóstico y el plazo operativo se convierte en «vigilar y esperar». Finalmente, el diagnóstico puede enfocarse sobre un «ensayo terapéutico» para identificar el trastorno objetivo sobre la base de su respuesta a una terapia específica. Las anteriores definiciones conciernen al diagnóstico en su modo más común. Por supuesto, el mismo o similar proceso puede ser llevado a cabo de otros modos y para otros objetivos. Nosotros podemos buscar proteger a los pacientes, o aquéllos que les rodean, detectando sus trastornos antes de que ellos enfermen. Este diagnóstico presintomático puede lograrse pidiendo a los ciudadanos que viven bien, a que sean voluntarios para ciertas pruebas (como en el «screening» de hipertensión en la plaza del mercado) o probándolos por un trastorno presintomático en los pacientes que han ido a un clínico en busca de ayuda con otro trastorno, no relacionado, pero sintomático (hallazgo de casos de cáncer de colon en un paciente que viene a la consulta con una bursitis del subdeltoides). Nosotros discutiremos estas estrategias para diagnóstico precoz en el capítulo 5. * Las excepciones son unos cuantos libros sobre diagnóstico diferencial y la primera sección de textos tales como el Harrison (9), Harvey (8) o Gorol, May y Mulley (7), los cuales comienzan con dolencias (capítulo sobre dolores de espalda, bulto en el cuello, heces negras, convulsiones) y siguen a los trastornos objetivos (secciones sobre hernia de disco, adenoma de tiroides, úlcera duodenal y meningioma).
8
EPIDEMIOLOGÍA CLÍNICA
Además, el diagnóstico (o por lo menos las pruebas diagnósticas) es aplicado a veces para determinar no si está presente un trastorno, sino cuan grave es él; un caso a propósito sería la busca de lesión en un órgano objetivo, el corazón, los ojos, y los riñones en un paciente con diabetes. Finalmente, este mismo proceso puede usarse para comprobar lo apropiado de la terapia, como en la determinación periódica de los signos, los síntomas y los niveles de hormonas en los pacientes previamente tratados con terapéutica de yodo radiactivo. Este capítulo trata principalmente sobre el diagnóstico clínico de la dolencia sintomática, y nosotros nos ocuparemos ahora de ello, considerando cuatro estrategias para hacerlo (11). Las cuatro estrategias del diagnóstico clínico ESTRATEGIA # 1
Anote su diagnóstico de los pacientes de las láminas 1 a 6*. ¿Saltó a su mente un diagnóstico individual cuando miró cada figura †? Si nosotros le hubiésemos pedido a usted que nos dijera por qué está seguro de que la lámina 2 es psoriasis, ¿se lanzaría usted a describir la distribución, la configuración y las características descamativas de la dermatitis? o hubiera afirmado simplemente: «¡Porque a eso es a lo que se parece la psoriasis!», o «¿qué otra cosa podía ser?». Si le ajusta bien el último zapato, usted ha estado ejecutando la estrategia del reconocimiento del modelo. A veces es llamado también el método de la forma o, informalmente, la tía Minnie. Esto es debido a que si usted vio a su tía Minnie andando por la calle, incluso alejado a docenas de metros, y de espaldas, usted sabría al instante que era ella por sus grandes zancadas, el modo como oscila sus brazos, ese sombrero característico que lleva siempre y sus botas Wellington. El reconocimiento del modelo es la realización instantánea de que la presentación del paciente se ajusta con una imagen anteriormente aprendida
(o modelo de la enfermedad). Es, generalmente, visual y, si este libro incluyese el movimiento, así como las imágenes fijas, nosotros podíamos haber incluido el parkinsonismo, la miastenia grave, la catatonía y la rabia. * Nosotros esperamos que usted es el tipo de lector que está dispuesto a estudiar las tablas y las figuras, porque nosotros las usaremos a lo largo de este libro para presentar piezas clave de evidencia. El texto, en cambio, está interesado mayormente en las inferencias sobre esta evidencia, y usted no sabrá cómo aplicar estas estrategias y tácticas, si ignora las figuras y las tablas. † Usted puede comparar sus diagnósticos con los nuestros, chequeando la nota a pie de la página 9.
ESTRATEGIAS DEL DIAGNÓSTICO CLÍNICO
9
El reconocimiento del modelo puede ser también auditivo, como el habla de un paciente con paladar hendido o paralizado. Además, se ha afirmado que la voz del mixedema permite a veces su diagnóstico por teléfono. El reconocimiento del modelo por el olor es menos común (los seres humanos no son muy buenos percibiendo olores y la sociedad actual ordena que nosotros no debemos despedir demasiados), pero los ejemplos incluyen la acidosis diabética, la insuficiencia hepática y el olor a «pies sudorosos» de la acidemia isovalérica. Quizás nosotros consideramos ahora que husmear a los pacientes es de mala educación (por lo menos si ellos son adultos; algunos neonatólogos afirman que los lactantes con sepsis inminente pueden ser olfateados). O puede ser que las ocasiones para husmear con provecho diagnóstico están simplemente disminuyendo; uno de nuestros «asistentes», allá en la escuela de medicina, diagnosticaba la fiebre tifoidea olfateando el aire cuando él entraba en las enormes salas de caridad de aquella época. El reconocimiento del modelo también puede producirse mediante el tacto, como el ganglio del dorso de la mano, el cáncer duro pétreo de la mama o la próstata, o el lipoma subcutáneo. Finalmente, el reconocimiento del modelo por el gusto, diagnosticaba la diabetes sacarina en los días anteriores a los laboratorios modernos de química y los remilgos desplazaron esta prueba de la orina*. El reconocimiento del modelo es reflejo, no es de reflexión. Nosotros lo hacemos, pero no le podemos explicar a los demás por qué o cómo lo hacemos. Debido a que es «no verbal» puede ser mejor «aprendido» en los pacientes, y no «enseñado» en las salas de conferencias y su uso comprensiblemente aumenta con la experiencia clínica. Puede ser (¡y ha sido!) argumentado que el reconocimiento del modelo es solamente el comienzo, y no el final, del proceso diagnóstico y que termina en varios diagnósticos posibles más bien que en uno solo, o seguro. Nosotros sostenemos que hace ambos, evidentemente, y llamaríamos como nuestro primer testigo al médico rural que coge el lindano cuando ve liendres, y el libro más grueso de la casa, cuando él palpa un ganglio. Sin embargo, nosotros volveremos más tarde al reconocimiento del modelo como un medio para comenzar una estrategia de diagnóstico diferente. * Thomas Willis, el médico del siglo XVII que describió el círculo arterial en la base del cerebro, escribió que la orina diabética «era maravillosamente dulce, como si ella estuviese impregnada con miel o azúcar», en su capítulo: «de la mucha evacuación por la orina y su remedio; y especialmente de la diabetes o el mal de la meada, cuya teoría y método de curar es averiguado» (14). † Los pacientes que se muestran en las láminas 1 a 6, tienen síndrome de Down, psoriasis, hipertiroidismo, neurofibromatosis (¿ve usted las manchas de café con leche?), sífilis primaria, y herpes zóster de la rama oftálmica del quinto par craneal, respectivamente.
10
EPIDEMIOLOGÍA CLÍNICA
ESTRATEGIA #2
Un paciente con dolor torácido es examinado por el ayudante de un médico, quien se refiere a una serie de figuras incluyendo la que se muestra en la figura 1.1. Observe que cada punto de decisión (o cuadrado) en la figura plantea una o más cuestiones inequívocas, cuyas respuestas determinan la dirección subsiguiente de la investigación diagnóstica. Observe también que las varias sendas pueden terminar en pruebas confirmatorias de la etiología del dolor, en el manejo específico, o en el envío a otro clínico. La figura 1.1 es un ejemplo de la estrategia del diagnóstico de múltiples ramificaciones o arborización: la progresión del proceso diagnóstico a lo largo de todos, menos uno, de un gran número de caminos preestablecidos potenciales, por un método en el cual la respuesta a cada investigación diagnóstica determina automáticamente la próxima investigación a desarrollar y, finalmente, al diagnóstico correcto.
La estrategia de arborización es sumamente lógica; en realidad, es mejor que así sea, porque su algoritmo debe ser captado en su integridad antes de que aparezca el paciente. De acuerdo con ello, el método de múltiples ramas debe incluir todas las causas relevantes del problema que se presenta o sus tratamientos, uniéndolas por caminos que rivalizan con el proceso diagnóstico idealizado de un experto. Como se deduce del ejemplo de la figura 1.1, el método de las múltiples ramas se enfoca a menudo sobre los síntomas y es usado principalmente cuando el diagnóstico es delegado por aquellos que tradicionalmente lo han llevado a cabo (p. ej., médicos) a aquéllos que no lo han hecho tradicionalmente (enfermeras) (12). Su utilidad, sin embargo, se extiende más allá de la delegación de la responsabilidad para evaluar los síntomas que se presentan (4), como aparece en la figura 1.2. En esta figura, el algoritmo trata con un signo (un hematocrito persistentemente elevado) más bien que un síntoma y fue preparado para ayudar a los médicos a tratar con un problema relativamente infrecuente, no para ayudar a las enfermeras prácticas a tratar con uno relativamente común. Finalmente, el método de la arborización múltiple puede tratar con un amplio conjunto de trastornos en los cuales la clasificación y actuación ulterior es el objetivo, no el tratamiento. Esto se aplicaría a las regiones en las que los pacientes y los métodos están apartados por el espacio, el tiempo o el dinero, y que lo que se requiere es clasificar en la periferia, las enfermedades que necesitan (y pueden beneficiarse) del traslado y aquellos que pueden ser atendidos localmente. Un ejemplo impresionante de esto se ve en la figura 1.3. Como se muestra, unos cuantos signos y síntomas distinguen entre los trastornos amenazadores de la vida y los trastornos nutricionales inocuos, alergias e infecciones (estas últimas por virus, bacte-
ESTRATEGIAS DEL DIAGNÓSTICO CLÍNICO
Figura 1.1.
Jr. M. D.).
11
Parte de un algoritmo de dolor torácico (Cortesía de Harold C. Sox,
12
EPIDEMIOLOGÍA CLÍNICA
Figura 1.2. Algoritmo para un hematocrito elevado persistentemente. (De P. Cutler, Problem Solving in Clinical Medicine. Baltimore: Williams & Wilkins, 1979.)
rias, hongos, artrópodos y gusanos). Más importante, el algoritmo distingue aquellos pacientes que requieren envío urgente o precoz, de aquellos que pueden ser cuidados localmente. Este último ejemplo subraya la eficacia del planteamiento de múltiples ramas. Si usted fuese un estudiante de segunda enseñanza enfrentado con 200 exantemas, sin laboratorio, y el dermatólogo más próximo a cuatro días de distancia, ¿desaprovecharía usted un algoritmo como este?
ESTRATEGIAS DEL DIAGNÓSTICO CLÍNICO
13
Figura 1.3. Un algoritmo para los exantemas en Tanzania. (De B. J. Essex, Diagnostic Pathways in Clinical Medicine. Edinburgh: Churchill Livingston, 1976. R 134.)
14
EPIDEMIOLOGÍA CLÍNICA
ESTRATEGIA # 3
Vete y haz una historia y un examen físico completos Todos ustedes han recibido tal orden, ¿no es así? En realidad, la mayoría de ustedes apenas podían aguardar hasta que usted se daba una vuelta y ordenaba lo mismo a algún otro, ¿no es así?*. Uno de nosotros siguió fielmente esta orden como un reluciente nuevo oficinista clínico, y el trabajo de 34 páginas que resultó, provocó dos opiniones opuestas del residente jefe. La primera aplaudía, «estas hojas son el mejor trabajo que han hecho jamás en el servicio». La segunda se lamentaba, «pero, ¿quién demonios quería vadear a través de ellas?». Cuando su autor protestó, «¿no quería usted una historia y un examen físico completos?», el residente jefe (revelando un talento latente para los chistes con final absurdo) contestó, «¡sí, pero no tan completa!». No obstante las anécdotas, las historias clínicas y los exámenes físicos completos pueden ser terriblemente acabados, como lo confirman las guías promulgadas por diferentes escuelas de medicina o publicadas en los libros de texto sobre diagnóstico físico. Por ejemplo, uno de los últimos indica que «las partes de la historia clínica siguen un esquema estándar difiriendo solamente en pequeños detalles de una institución a otra» (5) y pasa a señalar los componentes de la historia anterior de enfermedades infecciosas. Fechas y complicaciones del sarampión, rubéola, parotiditis, tos ferina, varicela, viruela, difteria, tifoidea, paludismo, hepatitis, escarlatina, fiebre reumática, corea, gripe, neumonía, pleuresía, tuberculosis, bronquitis, amigdalitis, enfermedades venéreas y otras. Dé fechas de tratamiento quimioterápico y antibiótico con cualquier tipo de reacción a ellos. Curiosamente, estos mismos textos expresan ambivalencia sobre toda la tarea. Por ejemplo, el prefacio a la sección anterior indica: «Ordinariamente, los apartados sobre la historia pasada no tienen gran valor diagnóstico». ¿Qué pasa aquí? Lo que está pasando aquí es la estrategia clínica del diagnóstico exhaustivo: la búsqueda laboriosa, constante, de (pero sin prestar atención inmediata a ello) todos los hechos médicos sobre el paciente, seguido del cribado de los datos para el diagnóstico. * Para aquellos de ustedes que están comenzando precisamente en la escuela de medicina, estos pollos están siendo incubados; ¡nosotros confiamos en que las maldiciones caerán sobre ellos!
ESTRATEGIAS DEL DIAGNÓSTICO CLÍNICO
15
La estrategia exhaustiva representa al diagnóstico como un proceso de dos estadios. Primero, recoge todos los datos que pueden ser posiblemente pertinentes y, solamente cuando esto se ha terminado, procede al segundo estadio de buscar a través de ellos para el diagnóstico; crea el banco de datos primero y, solamente entonces, plantea la cuestión diagnóstica. Esto explica la confusión del autor del trabajo de las 35 páginas. Si se usa la estrategia exhaustiva, cuanto más extenso sea el trabajo, mejor. Esto explica también por qué el método exhaustivo es referido a veces como «buscando el caballito»*. La mayoría de los estudiantes de medicina piensan, probablemente, que la estrategia exhaustiva es el «camino apropiado» para diagnosticar. Así también, desgraciadamente, piensan algunos de sus maestros y los autores de algunos libros sobre diagnóstico clínico. También es trágicamente cierto que muchos laboratorios clínicos se comportan como si el método exhaustivo fuera el «método correcto» y nos entierran en resultados de pruebas de laboratorio que no hemos solicitado, cuando nosotros hemos pedido una o unas pocas pruebas. No es así. La estrategia de la exhaustividad es el método del novicio y es abandonada con la experiencia. Por ejemplo, algunos de nuestros colegas han grabado en vídeo una muestra al azar de médicos de familia e internistas, cuando ellos estaban estudiando una serie de pacientes programados (1). Cuando se pusieron las cintas y a estos clínicos se les preguntó por qué buscaban ellos síntomas y signos específicos y qué estaban pensando en cada momento del trabajo, ocurrieron dos cosas curiosas. Primera, a pesar de sus exactos y eficientes diagnósticos, muchos de ellos empezaron pidiendo disculpas por no emplear el método exhaustivo («¡yo sé que no estoy haciendo esto del modo apropiado, pero mi práctica está tan ocupada, que yo me he deslizado por algunos atajos!»). Segunda, aunque el método exhaustivo nunca fue usado como la estrategia diagnóstica subyacente, a menudo estos clínicos, y de forma completamente abrupta, conectaban y desconectaban durante sus trabajos * «Buscando el caballito» procede de un cuento de Navidad de dos hermanos, uno de los cuales era un pesimista incurable, y el otro un optimista incurable. El día de Navidad, al pesimista le dieron una habitación llena de juguetes nuevos, brillantes, y al optimista una habitación llena de estiércol. El pesimista abrió la puerta de su habitación llena de juguetes, suspiró y se lamentó: «Un montón de éstos son movidos por motor, y sus baterías se agotarán; y yo supongo que se los tendré que enseñar a mis primos, quienes romperán algunos y se quedarán con otros; y su pintura se caerá; y se estropearán. ¡En conjunto, yo realmente deseo que no me hubieran dado ustedes esta habitación llena de juguetes!». El optimista abrió la puerta de su habitación llena de estiércol y, con un grito de alegría se tiró en el estiércol y empezó a cavar en él. Cuando sus padres, horrorizados, lo sacaron del excremento y le preguntaron por qué demonios se había revolcado en él, gritó alegremente: «¡Con todo este estiércol, tiene que haber algún caballito aquí en algún sitio!».
16
EPIDEMIOLOGÍA CLÍNICA
diagnósticos. Cuando se les preguntó por qué hacían estos recortes en la estrategia exhaustiva, contestaron que lo usaban para descartar posibilidades diagnósticas remotas, para establecer relación con el paciente, y ¡para mantener al paciente ocupado mientras ellos estaban pensando sobre alguna
otra cosa! Para el clínico experimentado, el método exhaustivo es como el apéndice vermiforme: un vestigio innecesario y en ocasiones doloroso. A propósito, su contrapartida del laboratorio, el «screening» de ingreso en el hospital, ha sido desacreditado también. Durbridge y sus colegas en Adelaida, Australia (6), sometieron alternativamente a 1.500 ingresos a una batería de alrededor de 50 pruebas de rutina, tan pronto como ellos ingresaban, suministrando a los clínicos de los pacientes experimentales con todos los resultados. Estas pruebas exhaustivas no produjeron mejoría en la morbilidad, mortalidad, duración de la monitorización, incapacidad, opiniones médicas del progreso de los pacientes o duración de la estancia. El «screening» de los ingresos, sin embargo, aumentó el costo total del cuidado de estos pacientes en alrededor del 50 por 100 y fue seguido por una satisfacción disminuida del paciente. ¿Debe eliminarse del curriculum médico la historia clínica y el examen físico completos? Por razones que se aclararán enseguida, nosotros sostenemos la paradójica posición de que todos los estudiantes de medicina deberían ser enseñados cómo hacer una historia y un examen físico completos y, una vez que ellos han dominado sus componentes, no hacer nunca ninguna.
ESTRATEGIA #4
Imagínese que la lectura de este libro es interrumpida por el teléfono. Su servicio de urgencia local está al aparato y, dependiendo de su especialidad, dice la enfermera: 1. «Tenemos un hombre de cincuenta y seis años de edad con dolor torácico y dificultad en la respiración.» Anote en este cuadro lo que está pasando por su cabeza.
ESTRATEGIAS DEL DIAGNÓSTICO CLÍNICO
17
2. «Tenemos una embarazada de ocho meses, primípara de veintiocho años de edad, que está manchando y tiene grave dolor en el cuadrante inferior derecho.» Anote en este cuadro lo que está pasando por su cabeza.
3. «Tenemos una niña de dos años de edad, con fiebre de 40° C y una oreja roja, que ha tenido un ataque epiléptico.» Anote en este cuadro lo que está pasando por su cabeza.
4. «Tenemos un niño de doce años de edad con dolor en el cuadrante inferior derecho, dolor al rebote, sonidos intestinales hipoactivos y un recuento de 12.000 leucocitos.» Anote en este cuadro lo que está pasando por su cabeza.
5. «Acabamos de suturar las muñecas acuchilladas de un estudiante universitario de diecinueve años de edad.» Anote en este cuadro lo que está pasando por su cabeza.
18
EPIDEMIOLOGÍA CLÍNICA
Nosotros hemos leído el mensaje sobre el hombre de cincuenta y seis años de edad con dolor torácico y dificultad de la respiración, a grupos que han totalizado varios centenares de estudiantes y clínicos y sus reacciones son completamente uniformes. Tan pronto como ellos oyen esta información fragmentaria, estos estudiantes y clínicos responden de uno o dos modos (a menudo en ambos). Primero, ellos pueden exclamar los diagnósticos, por ejemplo, empezando por infarto de miocardio y embolia pulmonar, entonces, una pausa, luego, neumotórax y una mezcla de otras catástrofes intratorácicas. Alternativamente, ellos gritan opciones de tratamiento, «llévelo a la unidad coronaria», «póngale un monitor», «ingrésele en una sala» y así sucesivamente. Esta es la estrategia hipotético-deductiva, la que usan virtualmente todos los clínicos, prácticamente todas las veces. Consiste en la formulación, a partir de las primeras pistas sobre el paciente, de una lista corta de diagnósticos o acciones potenciales, seguidos por la realización de aquellas maniobras clínicas (historia y examen físico) y par aclínicas (p. ej., laboratorio, rayos X), lo que reducirá más la longitud de la lista.
¿De dónde vienen estas hipótesis? Nosotros sabemos poco sobre esto, pero Campbell (2) sugiere que muchas, si no la mayoría, nacen de nuestra opinión de las etiquetas diagnósticas como «ideas explicativas» que unen nuestra comprensión de la biología humana, con la enfermedad de nuestros pacientes. También, y especialmente con la experiencia, muchas hipótesis brotan por el reconocimiento del modelo, de tal modo que generan múltiples posibilidades más bien que una sola muy alta probabilidad. Cuando Barrows, Norman, Neufeld y Feightner (1), grabaron en vídeo muestras al azar de médicos de familias e internistas, trabajando con pacientes programados con pericarditis, úlcera duodenal, neuropatía periférica o esclerosis múltiple, ellos documentaron que la primera hipótesis fue generada en una media de veintiocho segundos después de escuchar la molestia principal (variando de once segundos en el paciente de la esclerosis múltiple, a cincuenta y cinco segundos en el paciente de la neuropatía periférica). Las hipótesis correctas (estos clínicos fueron exactos alrededor del 75 por 100 de las veces), fueron generadas en una media de seis minutos en estos trabajos diagnósticos de media hora (en menos de un minuto para el paciente de esclerosis múltiple, y menos de noventa segundos para el paciente de úlcera duodenal), y fueron generadas para cada caso una media de 5,5 hipótesis. Al mismo tiempo que ellos estaban produciendo esta lista de hipótesis, estos clínicos estaban actuando simultáneamente sobre aquellos trozos de historia y examen físico que los ayudaría más a ellos a acortar su lista, manteniendo sus hipótesis de trabajo en cualquier momento dado en alrededor de tres, y dirigiendo su historia y examen físico a estas tres
ESTRATEGIAS DEL DIAGNÓSTICO CLÍNICO
19
hipótesis. Significativamente, un límite de tres hipótesis de trabajo, más una cuarta para «cualquier otra cosa», ha sido propuesto independientemente por Campbell (2). Una vez que se ha creado una hipótesis de trabajo, sin embargo, la estrategia del diagnóstico hipotético deductivo se aparta de su pariente experimental. Mientras que la ciencia experimental avanza al buscar información (a través del «experimento crucial»), que refutará una hipótesis, las observaciones sobre los clínicos han documentado que la mayoría de los síntomas y signos que ellos buscan son seleccionados debido a que ellos apoyan más bien que refutan, una hipótesis de trabajo. Como descubriremos en el próximo capítulo, este enfoque sobre la evidencia confirmatoria (más que la refutatoria), puede conducir a error diagnóstico. Así pues, los clínicos experimentados usan el planteamiento hipotéticodeductivo. ¿En qué estadio comienzan los estudiantes de medicina a adoptar esta estrategia? Cuando el grupo de Barrows (10), grabó y analizó a los estudiantes de medicina que estudiaron los mismos pacientes programados que hemos descrito anteriormente, los resultados fueron dramáticos. ¡Los estudiantes de medicina emplean el planteamiento hipotético-deductivo a su llegada a la escuela de medicina! Independientemente de su duración en el programa de doctorado en medicina, ellos generaron la primera hipótesis veinte a cincuenta segundos después de oír la molestia principal, produjeron un total de seis hipótesis, y recogieron selectivamente información de la historia y del examen físico para apoyar sus hipótesis de trabajo. Las diferencias entre los estudiantes al comienzo y los que se están graduando (y entre los estudiantes y los clínicos experimentados), son cuantitativas, no cualitativas; con educación y experiencia adicional, los clínicos generan con más probabilidad la hipótesis correcta, la producen más pronto, y reúnen los datos de la historia y del examen físico más pertinentes sobre su hipótesis de trabajo. Sobre la base de estos y otros estudios similares, nosotros concluimos que el modelo hipotético-deductivo es la descripción actual más apropiada del proceso diagnóstico tal como es ejecutado, tanto por los clínicos experimentados como por los estudiantes más principiantes. ¿Cómo podemos hacer nosotros una mejor labor y cómo podemos ayudar a otros a aprender a mejorarla? Nosotros pensamos que la solución tiene dos elementos. Uno de éstos, fuera del objetivo de este libro, consiste en un dominio de los modelos dinámicos (pero no los hechos inertes), de la estructura, la función y la respuesta a los estímulos que comprenden las enseñanzas importantes de las otras ciencias básicas, ya que éstas suministran las hipótesis a ser probadas en el proceso diagnóstico. Así pues, un reconocimiento de donde se cruzan los modelos para el dolor y la función cardiopulmonar, conduce a las hipótesis de infarto de miocardio, embolia
20
EPIDEMIOLOGÍA CLÍNICA
pulmonar, neumotórax, aneurisma aórtico disecante, etc., en el primer paciente con dolor torácico y dificultad de la respiración. El segundo elemento, el foco de los tres capítulos próximos, es un dominio muy bien dirigido, pero sin sesgos, de la selección, adquisición e interpretación de los datos clínicos y paraclínicos, que abreviarán más la lista de hipótesis. Los capítulos 2 y 3 tratan, principalmente, sobre la captación de estos datos de la historia, el examen físico y los diversos laboratorios diagnósticos, y el capítulo 4, principalmente, sobre su interpretación. En resumen, pues, los planteamientos diagnósticos pueden ser descritos útilmente como un tipo o una combinación de cuatro tipos: el planteamiento del reconocimiento del modelo de los clínicos experimentados, el método de las arborizaciones múltiples del delegado, el método exhaustivo del novicio, y la estrategia más ampliamente usada, el planteamiento hipotético-deductivo. Todo esto suministra una oportunidad de atar cabos. ¿Qué queríamos decir cuando dijimos que todos los estudiantes de medicina deben ser enseñados cómo hacer una historia y un examen físico completos, pero deben ser enseñados también a nunca hacer una? Nosotros queríamos decir que la historia y el examen físico completos, es la suma de todo un conjunto de subrutinas que lo abarca todo, cada una de las cuales puede (si son realizadas e interpretadas correctamente) suministrar una prueba clave de una o más hipótesis de trabajo. Nosotros necesitamos conocer todas estas subrutinas y saberlas al dedillo, de modo que podamos, selectiva y eficazmente, conectar cada una de ellas cuándo y dónde nosotros las necesitemos. Para aquellos de ustedes que están empezando precisamente su capacitación clínica, confiamos que lo anterior le convenza de la necesidad de aprender, pero no usar habitualmente, todas las subrutinas, y también le proporcione a usted con algún tiempo adicional durante su estudio del paciente para llegar a conocer realmente a sus pacientes. Para aquellos de ustedes que están ya en la práctica clínica, esperemos que lo que antecede clarifique nuestras afirmaciones anteriores y también apague cualquier culpa residual que usted pueda albergar todavía sobre su abandono de la «historia y el examen físico completos». Bibliografía 1. Barrows, H. S., Norman, G. R., Neufeld, V. R., and Feightner, J. W. The clínica] reasoning of randomly selected physicians in general medical practice. Clin. Invest. Med. 5: 49, 1982. 2. Campbell, E. J. M. Personal communication, 1976. 3. Campbell, E. J. M., Scadding, J. G., and Roberts, R. S. The concept of disease. Br. Med. J. 2: 757, 1979.
ESTRATEGIAS DEL DIAGNÓSTICO CLÍNICO
21
4. Cutler, P. Problem Solving in Clinical Medicine. Baltimore: Williams & Wilkins, 1979. P. 104. 5. DeGowin, E. L., and DeGowin, R. L. Bedside Diagnostic Examination. New York: Macmillan, 1969. Pp. 13,21. 6. Durbridge, T. C, Edwards, F., Edwards, R. G., and Atkinson, M. An evaluation of multiphasic screening on admission to hospital. Précis of a repon to the National Health and Medical Research Council. Med. J. Aust. 1: 703, 1976. 7. Goroll, A. H., May, L. A., and Mulley, A. G. Primary Care Medicine. Philadelphia: Lippincott, 1981. 8. Harvey, A. M., Johns, R. J., McKusick, V. A., Ownes, A. H., Jr., and Ross, R. S. (eds.). The Principies andPractice of Medicine (20th ed.). New York: Appleton-CenturyCrofts, 1980. 9. Isselbacher, K. J., Amams, R. D., Braunwalt, E., Petersdorf, R. G., and Wilson, J. D. (eds.). Harrison's Principies of Internal Medicine (9th ed.). Toronto: McGraw-Hill, 1980. 10. Neufeld, V. R., Norman, G. R., Feightner, J. W., and Barrows, H. S. Clinical problemsolving by medical students: A cross-sectional and longitudinal analysis. Med. Ed. 15: 315, 1981. 11. Sackett, D. L. Clinical diagnosis and the clinical laboratory. Clin. Invest. Med. 1: 37, 1978. 12. Sox, H. C., Jr., Margulies, 1., and Sox, C. H. Psychologically mediated effects of diagnostic tests. Ann. Intern. Med. 95: 680, 1981. 13. Taylor, D. C. The components of sickness: Diseases, illnesses and predicaments. Lancet 2: 1008, 1971. 14. Willis, T. Of the Too Much Evacuation by Uriñe, and Its Remedy; and Especially of the Diabetes or Pissing Evil, Whose Theory and Method of Curing, Is Inquired Into. In R. H. Major (ed.), Classic Description ofDisease (3rd ed.). Springfield: Thomas, 1945. P. 240.
2 El examen clínico
Independientemente de cuál de las precedentes estrategias diagnósticas empleemos, nosotros vamos a efectuar un examen clínico (esto es, una historia y un examen físico) aunque sea breve, cada vez que nos encontramos con un paciente. La exactitud de este examen clínico es crucial, porque sirve de base para la mayoría de nuestros juicios sobre el diagnóstico, el pronóstico y la terapéutica. Como actos clínicos esenciales, hacer la historia y un examen físico reciben una gran atención, mayormente en la forma de «cómo hacerlo», en los textos de diagnóstico físico. Nosotros no tenemos la intención de añadir otra más aquí. Más bien, desarrollaremos tres temas clave que son generalmente omitidos en tales textos: 1), el poder potencial de las observaciones clínicas para determinar el diagnóstico, pronóstico y la sensibilidad terapéutica de los pacientes; 2), la magnitud y las causas de los errores e inconsecuencias del examen clínico, que mina su poder, y 3), los modos de minimizar estos errores e inconsecuencias y de este modo comprender así el potencial completo del examen clínico. El poder de las observaciones clínicas El examen clínico es mucho más poderoso que la evaluación de laboratorio para establecer el diagnóstico, el pronóstico y los planes terapéuticos para la mayoría de los pacientes, en la mayor parte de los sitios. En la práctica general, Crombie (11) documentó que el 88 por 100 de los diagnósticos fueron establecidos al final de una breve historia y un examen físico inferior al de rutina. En una clínica de medicina general, Sandler (45), demostró que al 56 por 100 de los casos le habían sido asignados diagnósticos correctos al final de la historia, y que esta cifra se elevó al 73 por 100 al final del examen físico. Incluso cuando los pacientes son enviados a centros especializados, después de estudios exhaustivos en otra parte, la atención se enfoca de nuevo apropiadamente sobre la «historia» del paciente y el examen físico. En realidad, cuando a un colega en gastroenterología se le llamó a 23
24
EPIDEMIOLOGÍA CLÍNICA
consulta sobre un paciente que había sido sometido ya a una gran batería de estudios endoscópicos, radiográficos y bioquímicos en otro sitio, él manifestó: «¡todo lo que nos queda que hacer a nosotros es una historia y un examen físico!». Progresos tales como el escáner de TC y el radioinmunoensayo, han aumentado ciertamente nuestro poder diagnóstico, y la provisión de pruebas diagnósticas con números difíciles, ha conducido a una confianza comprensible en el laboratorio clínico. Sin embargo, nosotros no debemos olvidar nunca que los datos clínicos que recogemos en la sala de exploración y en la cabecera del enfermo, son generalmente mucho más útiles que cualquiera de los que podamos obtener rellenando fichas de laboratorio y peticiones. Para subrayar este punto, le ofrecemos los siguientes ejemplos. Nuestra primera ilustración del poder del examen clínico para el establecimiento de un diagnóstico, se deriva de la enfermedad isquémica del corazón: la probabilidad de la estenosis de la arteria coronaria, clínicamente importante, puede ser determinada con un alto grado de exactitud por las simples observaciones clínicas de la edad, el sexo y los síntomas, solamente. Ciertos estudios clinicopatológicos cuidadosos han establecido ahora (15), por ejemplo, que un hombre de sesenta años de edad con dolor torácico retroesternal al ejercicio, que es aliviado por un descanso de cinco a quince minutos (angina típica), tiene un 94 por 100 de probabilidad de presentar, por lo menos, un 75 por 100 de estenosis en, al menos, una arteria, en la angiografía. A la inversa, una mujer de treinta años de edad con dolor torácico no anginoso, tiene menos del 1 por 100 de probabilidad de tal estenosis coronaria. Si el hombre necesita o no una angiografia, depende de las posibilidades terapéuticas (cirugía «bypas» de la arteria coronaria), no para el diagnóstico. El diagnóstico ha sido establecido ya, tan seguramente como es razonable desear, a partir de la historia solamente, especialmente considerando el riesgo (aunque pequeño) y el gasto (grande) de la angiografia. En la situación de la mujer, sería difícil justificar la angiografia, ya que el riesgo de provocar complicaciones compite con la probabilidad de que ella tiene una enfermedad de la arteria coronaria significativa. Si ella está preocupada con un ataque cardíaco, debe ser profusamente tranquilizada, y la angiografia debe efectuarse solamente si ella necesita ser «desclasificada». Por otra parte, aunque nosotros disponemos de una plétora de pruebas no agresivas, que podían ser aplicadas en tales situaciones, son igualmente innecesarias para fines diagnósticos en estos dos pacientes. Como le mostraremos en el capítulo 4, estas «probabilidades de pruebas preliminares» de estos pacientes de enfermedad de la arteria coronaria son ya tan extremas, que las pruebas ulteriores pueden, en realidad, ser engañosas. Nosotros conseguimos mucha más información
EL EXAMEN CLÍNICO
25
de nuestras observaciones clínicas en los dos casos indicados anteriormente, que la que podamos conseguir posiblemente de las pruebas no agresivas disponibles actualmente. Aunque tales pruebas son útiles cuando no estamos seguros del diagnóstico del paciente (por ejemplo, cuando las probabilidades que favorecen la enfermedad de la arteria coronaria clínicamente significativas son 50:50 ó 60:40), nosotros debemos aprender a confiar en nuestro examen clínico, cuando es digno de esta confianza. Nuestro segundo ejemplo tiene que ver con el poder de las observaciones clínicas para determinar el pronóstico. Cuando Boyd y Feinsteín (6), calcularon el valor pronóstico relativo de las observaciones clínicas sencillas, frente a la programación más complicada mediante cirugía y biopsia, en la enfermedad de Hodgkin, aparecieron los sorprendentes resultados de la tabla 2.1. Los cuatro niveles pronósticos que resultan de las etapas anatómicas de Ann Arbor, mostrados a la izquierda, presentan un rango de supervivencia de cinco años del 53 por 100 (70 — 17 por 100). En cambio, el panel de la derecha de la tabla 2.1, muestra el mayor valor pronóstico de algunas observaciones clínicas simples, tales como el dolor o el tumor localizado, la fatiga generalizada y la pérdida de peso. Así pues, el pequeño número de Tabla 2.1. Valores pronósticos relativos de los datos clínicos y anatómicos en la enfermedad de Hodgkin.
* Etapas anatómicas de Ann Arbor. Datos modificados de N. F. Boyd y A. R. Feinstein. Symptoms as an Índex of growth rates and prognosis in Hodgkin's disease. Clin, invest. Med. 2:25, 1978.
26
EPIDEMIOLOGÍA CLÍNICA
pacientes que no tenían síntomas locales ni sistémicos de su enfermedad cuando fueron diagnosticados por primera vez, tenían un excelente pronóstico de cinco años. Los pacientes con síntomas locales de larga duración (que sugieren lento crecimiento del tumor sin propagación a distancia), síntomas locales de corta duración y síntomas sistémicos, fue progresivamente menos probable que sobrevivieran cinco años; así pues, solamente el 14 por 100 de los pacientes de Hodgkin con síntomas locales, seguidos de síntomas sistémicos antes del diagnóstico, estaban vivos cinco años más tarde. Así pues, el rango de supervivencia delineado por una historia clínica cuidadosa, 86 por 100 (100 — 14 por 100), fue mayor que el producido por el enfoque anatómico, mucho más laborioso, y si estos resultados son confirmados en otra serie independiente de pacientes de Hodgkin, su importancia clínica será acentuada. La tabla 2.2 muestra el pronóstico de estos mismos pacientes cuando se valoraron por una combinación de los estados de Ann Arbor y de los estados clínicos. Aunque este sistema combinado funciona mejor que el de los estados anatómicos, el mejor grupo pronóstico así producido (pacientes sin síntomas sistémicos y solamente con enfermedad localizada aislada) no tuvo tan buen pronóstico (77 por 100), como el mejor grupo (100 por 100) definido solamente por la historia clínica. Así pues, se observó que un sistema de estados clínicos era superior para la valoración del pronóstico en estos pacientes. Por supuesto, no se puede obtener una conclusión de este estudio, sobre el valor de los síntomas para seleccionar las intervenciones terapéuticas, ya que éstas estuvieron basadas solamente sobre el sistema de Tabla 2.2. Proporción (y %) de pacientes de Hodgkin con supervivencia de cinco años, basada en una combinación de las etapas sintomáticas y de Ann Arbor.
Datos modificados de N. F. Boyd y A. R. Feinstein. Symptoms as an Índex of growth rates and prognosis in Hodgkin's disease. Clin. Invest. Med. 2:25, 1978.
EL EXAMEN CLÍNICO
27
etapas de Ann Arbor. No obstante, cuando nosotros nos enfrentamos con el hecho de que el proceso de estados de Ann Arbor es complicado, difícil de aplicar, agresivo y caro, mientras que el de estados clínicos es inmediato, sencillo, fácil de aplicar, no agresivo y barato, la dependencia estándar sobre el primero es, en verdad, paradójica. Irónicamente, tal es la fascinación del escalpelo y el microscopio, que nosotros consideramos a los datos de Ann Arbor como «sólidos» y la historia clínica como «blanda». ¡Ciertamente, los datos clínicos deberían ser juzgados por su poder, no por su apariencia! Un ejemplo final, muy breve, ilustra el poder de las observaciones clínicas sencillas, para pronosticar quién responderá y quién no, a la terapia. En un ensayo reciente, en Canadá, de medicamentos activos sobre las plaquetas, entre pacientes con amenaza de accidente cerebrovascular (8), se observó que la aspirina reducía el riesgo de accidentes cerebrovasculares subsiguientes, o la muerte, en un 50 por 100 en los hombres, pero que las mujeres no respondían a este tratamiento en absoluto. De nuevo, una observación clínica sencilla puede distinguir a los pacientes en los que la terapia puede ser dramáticamente beneficiosa, de aquéllos en los cuales sería inútil. Por lo tanto, algunas observaciones clínicas (a menudo muy sencillas) son determinantes poderosos del diagnóstico, el pronóstico y las respuestas terapéuticas. Nosotros apostaríamos a que esto es así para la mayoría de las enfermedades, aunque usted no podría decir eso por la lectura de la mayoría de los libros de textos médicos actuales, porque en ellos predomina el enfoque de laboratorio. Claramente, nosotros necesitamos indagar estas observaciones clínicas clave, porque su identificación aumentará vivamente nuestra eficacia y eficiencia como clínicos. Este proceso de averiguación identificará al mismo tiempo las otras observaciones clínicas (a menudo laboriosas) que, debido a que carecen de sentido o son desesperadamente inexactas, son simplemente una pérdida de tiempo. Por ejemplo, un grupo de cirujanos ortopedas ha efectuado una serie de estudios de reproducibilidad y validez de las valoraciones clínicas sobre los pacientes enviados a una clínica ortopédica, con dolores de espalda (53). Cuando dos o más clínicos examinaron a cada paciente, ellos observaron que coincidían estrechamente sobre ciertos hallazgos. Nosotros los hemos señalado en la tabla 2.3. El grado de acuerdo sobre estos signos es impresionante y fue logrado a través del refinamiento progresivo de los criterios clínicos, sustituyendo las mediciones actuales por «impresiones clínicas». Además, algunos de estos signos físicos (tal como flexión limitada y levantar la pierna extendida) son importantes hallazgos pronósticos y, por tanto, no son de mero interés métrico.
28
EPIDEMIOLOGÍA CLÍNICA
Tabla 2.3. Reproductividad de ciertos hallazgos físicos en pacientes con dolor de espalda.
Datos modificados de G. Waddell, C. J. Main, E. W. Morris, y Col. Normality reliability in the clinical assessment of backache. Br. Med. J. 284:1519, 1982.
Esta misma serie de estudios mostró que la «mirada atenta» detectó solamente los ejemplos más graves de pérdida de lordosis, inclinación (a un lado) y flexión limitada; fueron logrados altos niveles de fiabilidad entre los observadores, solamente cuando fueron empleados una cinta métrica y criterios explícitos. De igual importancia fue la documentación que varios signos clínicos, comúnmente usados, eran tan poco fiables y tan poco manejables para las mediciones útiles, que tuvieron que ser descartados completamente; éstos incluyeron los espasmos musculares, los movimientos cautelosos y la localización anatómica del dolorimiento. Así pues, este estudio sistemático identificó algunas técnicas de valoración clínica que nosotros adoptaríamos y algunas otras técnicas que podemos abandonar igualmente. La necesidad de mediciones clínicas fiables, reproducibles, va más allá de la necesidad de datos poderosos diagnósticos, pronósticos y del tratamiento. Nosotros debemos evitar también ser engañados por observaciones clínicas mal recogidas o con sesgo que nos lleven a hacer diagnósticos incorrectos. Las consecuencias de tales diagnósticos equivocados pueden ser devastadoras. Por ejemplo, dos pediatras (4) siguieron la pista a 93 estudiantes de segunda enseñanza de Seattle, Washington, que habían sido diagnosticados de tener lesión orgánica de corazón. Uno de los pediatras, un cardiólogo, examinó a estos estudiantes y determinó su capacidad de ejercicio. El segundo pediatra, un epidemiólogo que estaba «ciego» sobre
EL EXAMEN CLÍNICO
29
Tabla 2.4. El grado de incapacidad en la no enfermedad cardíaca.
Datos modificados de A. B. Bergan y S. J. Stamm. The morbidity of cardiac nondisease in school children. N. Eng. J. Med. 276:1008, 1967.
los hallazgos de su colega cardiólogo, entrevistó (pero no examinó) a cada estudiante y su familia, y determinó el grado hasta el cual había sido reducida su actividad social y física. Los resultados de sus valoraciones se muestran en la tabla 2.4. Dos observaciones sorprendentes aparecieron en este estudio. Primero, las actividades físicas y sociales fueron restringidas tan frecuentamente entre los niños mal diagnosticados con corazones normales, como entre los niños diagnosticados correctamente, con enfermedad cardiaca congénita o adquirida. Segundo, debido a que 75 (81 por 100) de los 93 niños calificados de tener enfermedad de corazón, tenían realmente corazones normales, la cantidad de incapacidad por la enfermedad no cardiaca, excedió grandemente de la enfermedad cardiaca real. ¿Qué nos parece todo esto? Se nos ocurren dos conclusiones inevitables. Primero, nosotros necesitamos conocer qué datos buscar en nuestros exámenes clínicos y cuáles ignorar. Segundo, cuando los datos clínicos son apropiados, nosotros necesitamos conocer cómo obtenerlos de un modo exacto y fiable. Es esta segunda conclusión la que suministra el foco para el resto de este capítulo. Nosotros empezaremos esta segunda sección, con algunos ejemplos de las incoherencias entre las observaciones de dos clínicos que examinaron el mismo enfermo una vez, o cuando un clínico examinó el mismo paciente dos veces; esto es, empezaremos con diversos ejemplos de desacuerdo clínico. Describiremos luego algunas de las causas conocidas del desacuerdo clínico y, finalmente, consideraremos los métodos para reducir el desacuerdo, teniendo presente el consejo de Feinstein (22): «Para avanzar el arte y la ciencia en el examen clínico, el equipo que más necesita perfeccionar un clínico, es a sí mismo».
30
EPIDEMIOLOGÍA CLÍNICA
¿Con qué frecuencia ocurre el desacuerdo clínico? Desacuerdos clínicos sobre las historias del paciente
Suponga que usted ve a un viajante de cuarenta y seis años de edad, que ha sido sometido a una vagotomía gástrica proximal y piloroplastia por una úlcera duodenal, y está valorando su respuesta a la cirugía. El no tiene dolor, tiene buen apetito, y no ha sido molestado por náuseas, reflujo, vómitos, plenitud epigástrica o disfagia. Sin embargo, usted obtiene una historia de vaciamiento rápido tan grave como para hacer que tuviera que cancelar algunas citas de negocios y perder así algunas ventas. Una nota de una consulta reciente con su cirujano, en cambio, indica que el vaciamiento rápido es leve. Un elemento crucial en nuestra decisión de si recomendar la cirugía a un paciente con úlcera péptica, es la valoración de los resultados de operaciones similares realizadas en otros pacientes con úlcera péptica. ¿Fueron aliviados sus síntomas? ¿Produjo la intervención nuevos síntomas, igualmente incapacitantes? ¿Fueron capaces los pacientes de volver a realizar una función completa en casa y en el trabajo? Las estimaciones exactas de los resultados de la intervención quirúrgica de tales pacientes deben basarse en historias hechas cuidadosa y exhaustivamente; así pues, nuestras conclusiones sobre el valor de la operación depende de la pericia, objetividad y solidez con la cual han sido hechas estas historias. ¿Cuan consistentes son tales historias? Si dos clínicos entrevistan al mismo paciente, ¿estarían de acuerdo o en desacuerdo sobre los resultados de la operación de la úlcera péptica? Desgraciadamente, incluso los clínicos experimentados disienten a menudo. Cuando dos cirujanos británicos experimentados (28), usando el mismo conjunto de criterios clínicos, entrevistaron independientemente el mismo grupo de pacientes que habían sido operados de úlcera péptica, ellos coincidieron en si la intervención había tenido éxito, en menos de dos tercios de los casos. Así pues, por lo menos uno de estos clínicos expertos estaba equivocado sobre el éxito de la operación de un paciente, al menos, un tercio de las veces, ¿Significa esto que nosotros no podemos estar seguros sobre las afirmaciones de que una forma de cirugía es superior a la otra? Bien, los clínicos que realizaron el estudio británico se preguntaron si los resultados de las operaciones de úlceras efectuadas en diferentes centros podrían ser comparados jamás, mientras que persistiese este grado de desacuerdo clínico. Nosotros volveremos a este ejemplo cuando discutamos las estrategias para reducir los desacuerdos clínicos. Otros ejemplos de desacuerdo clínico sobre las historias de los pacientes
EL EXAMEN CLÍNICO
31
abundan. Por ejemplo, cuando tres cardiólogos (43) entrevistaron a los mismos 57 hombres con dolor torácico, se consideró, por lo menos por un clínico, que el 54 por 100 tenía angina de pecho. Sin embargo, los tres cardiólogos coincidieron en la historia en solamente el 75 por 100 de los casos, y cuando un cardiólogo concluyó que un paciente dado tenía angina de pecho, los otros dos coincidieron con él en el 55 por 100 de las veces solamente. En vista de la importancia de la historia para pronosticar la estenosis coronaria clínicamente significativa, como se ha ilustrado al comienzo de este capítulo, tal desacuerdo clínico es una preocupación importante. Desacuerdos clínicos sobre los hallazgos físicos
Suponga a su paciente, una ejecutiva de treinta y ocho años de edad, con hipertensión primaria que tenía una presión arterial diastólica de quinta fase de 115 mm Hg, antes del tratamiento. Después de seis semanas de terapia de etapa dos (una tiazida y un betabloqueador) la presión diastólica ha caído a 95 mm Hg. Aunque sus exámenes del fondo de ojo de ella revelaron constantemente sólo cambios precoces en los cruces arteriovenosos, un oftalmólogo que la examinó unos cuantos días después de que usted la viese, comunicó una pequeña hemorragia en forma de llama cerca del disco izquierdo. ¿Es menos problema el desacuerdo clínico en el examen físico? La respuesta rápida es «no». Los clínicos que examinan al mismo paciente discrepan a menudo. En realidad, el clínico que examina al mismo paciente dos veces, a menudo discrepa con sus propios hallazgos anteriores. Por ejemplo, el examen del fondo de ojo es un componente universalmente aceptado del examen físico de un paciente sospechoso de padecer enfermedad cardiovascular o diabetes, y en los pacientes hipertensos puede suministrar un mejor índice pronóstico que la medición de la presión arterial. Sin embargo, cuando dos clínicos (2) examinaron cuidadosamente el mismo conjunto de cien fotografías de fondo de ojo, se produjo el desacuerdo documentado en la tabla 2.5. Usando el sistema de Keith-Wagener-Barker, de clasificación, ellos coincidieron en que el 46 por 100 de estos cien pacientes tenían poca o ninguna retinopatía (grado 0 o I) y que otros 32 tenían retinopatía moderada o grave (grado II o III). Así pues, ellos coincidieron entre sí en las tres cuartas partes de las veces y discreparon sobre si los pacientes tenían retinopatía, en alrededor de una cuarta parte de las veces. Si dos clínicos que observan el mismo paciente discrepan a menudo, ¿qué ocurre cuando un clínico examina al paciente dos veces? Es algo más
32
EPIDEMIOLOGÍA CLÍNICA
Tabla 2.5. Acuerdo entre dos clínicos que examinaron el mismo conjunto de 100 fotografías de fondo de ojo.
Datos modificados de N. Aoki, H. Horibe, Y. Ohno, y Col. Epidemiological evaluation of funduscopic findings in cerebrovascular diseases: III. Observer variability and reproducibility for funduscopic finding. Jpn. Circ. J. 42:11, 1977.
probable que los clínicos coincidan consigo mismo (acuerdo intraobservador) que con el otro clínico (acuerdo interobservador), pero no mucho. La tabla 2.6 resume los resultados de dos valoraciones clínicas independientes por el mismo clínico, con una separación de tres meses, del mismo conjunto de cien fotografías de fondo de ojo. El acuerdo global fue elevado, con 88 (69 + 19) de 100 pacientes que recibieron idéntica valoración en ambas ocasiones. Observe, sin embargo, que incluso cuando el clínico sabía que estaba en marcha un estudio, 11 Tabla 2.6. Acuerdo entre dos exámenes de las mismas 100 fotografías por un clínico.
Datos modificados de N. Aoki, H. Horibe, Y. Ohno, y Col. Epidemiological evaluation of funduscopic findings in cerebrovascular diseases: III. Observer variability and reproducibility for funduscopic finding. Jpn. Circ. J. 41:11, 1977.
EL EXAMEN CLÍNICO
33
pacientes que se juzgó que tenían poca o ninguna retinopatía cuando sus fotografías fueron revisadas la primera vez, se opinó que tenían retinopatía moderada o grave, cuando estas fotografías fueron reexaminadas posteriormente. Además, es probable que el acuerdo intraobservador e interobservador caería aún incluso más bajo en las condiciones más naturales de exámenes de rutina por observadores menos experimentados. Koran (37) ha revisado muchos otros ejemplos de desacuerdo entre los clínicos sobre sus observaciones y conclusiones clínicas, y el hallazgo general es altamente variable, pero la realización está por debajo de la óptima. Sin embargo, aunque virtualmente todas las valoraciones clínicas son inconsistentes hasta cierto punto, la mayor parte son demostrablemente más consistentes de lo que se podría esperar sobre la base del azar. Para comprender esto, y para determinar si las estrategias para mejorar el acuerdo clínico son eficaces, tendremos que averiguar un poco sobre la medición de este acuerdo*. Existen diversos métodos para hacer esto, y el más sencillo consiste en calcular la proporción de casos en los cuales el clínico está de acuerdo consigo mismo o con otro clínico. La tabla 2.7 muestra este cálculo para la situación en la que dos clínicos revisaron las mismas cien fotografías de fondo de ojo. Como ya se ha discutido, estos dos clínicos estaban de acuerdo en que 46 de los 100 pacientes tenían poca o ninguna retinopatía, y también coincidieron que 32 de ellos tenían retinopatía moderada o grave; así pues, ellos coincidieron en (46 + 32)/100, o 78 por 100 de estos pacientes. Pero esta descripción de su acuerdo es más bien superficial, porque si el segundo clínico simplemente lanzaba al aire una moneda (más bien que estudiar cada fotografía de fondo de ojo) y decía «poca o ninguna retinopatía» si la moneda caía «cara», y «moderada a grave retinopatía» si la moneda caía «cruz», él hubiera coincidido con el primer clínico parte de las veces, por suerte solamente. ¿Cuan grande sería este acuerdo? La respuesta se muestra en la tabla 2.8. El segundo clínico que tiraba la moneda, llamaría a la mitad de las fotografías «poca o ninguna retinopatía», y a la otra mitad «retinopatía moderada o grave». Así pues, la mitad (28) de las 56 fotografías juzgadas por el primer clínico, que mostraban poca o ninguna retinopatía, serían * Para comprender esto y otros diversos principios, que forman una ciencia básica de la medicina clínica, usted necesitará vencer cualquier tipo de numerofobia y luchar con los números que los clínicos aplican a diversas mediciones clínicas. Nosotros le ayudaremos a lograr esto, manteniendo las matemáticas sencillas, y los ejemplos clínicos no ambiguos, y le llevaremos a usted a través de ellos en pasos pequeños y ordenados. También le suministraremos abundancia de oportunidades para probar sus crecientes proezas, y limitaremos los asuntos metodológicos delicados, a notas de pie de página.
34
Tabla 2.7.
EPIDEMIOLOGÍA CLÍNICA
Cálculo del acuerdo observado en una tabla 2x2*.
* Los datos de esta tabla han sido dispuestos en dos líneas horizontales y en dos columnas verticales (los totales están fuera de la tabla y no son contados) y tales tablas son llamadas a menudo tablas «2 x 2» o «dos por dos». Datos modificados de N. Aoki, H. Horibe, Y. Ohno, y Col. Epidemiological evaluation of funduscopic findings in cerebrovascular diseases: III. Observer variability and reproducibility for funduscopic finding. Jpn. Circ. J. 41:11, 1977.
Tabla 2.8. Cálculo de acuerdo al azar, cuando un segundo clínico tira una moneda al aire.
EL EXAMEN CLÍNICO
35
Tabla 2.9. Cálculo de acuerdo al azar, en una tabla 2 x 2 .
llamadas también «poca o ninguna retinopatía» por el segundo clínico que tiraba la moneda (y así aparece en la celda a de la tabla), y la mitad (22) de las 44 fotografías juzgadas por el primer clínico, que mostraban moderada o grave retinopatía, también serían llamadas «moderada o grave retinopatía» por el segundo clínico que tiraba la moneda (y así aparece en la celda d). Así pues, el acuerdo entre estos dos clínicos sobre la base del azar solamente (la suma de las celdas a y d, dividida por el número total de fotografías) es (28 + 22)/100 ó 50 por 100. ¿Podemos nosotros extrapolar este ejemplo artificial a un planteamiento general para la determinación del grado de acuerdo que nosotros esperaríamos sobre la base del azar solamente, en situaciones clínicas reales? Sí, nosotros podemos. Si volvemos a la tabla 2.7, nosotros podemos determinar el acuerdo al azar, simulando que el segundo clínico tiraba de nuevo una moneda, pero que esta vez él obtenía 58 caras y 42 cruces. Así pues, él llamaría a una fotografía «poca o ninguna retinopatía» el 58 por 100 (58/100) de las veces y llamaría «moderada o grave retinopatía» el 42 por 100 (42/100) de las veces*. El resultado se muestra en la tabla 2.9. * Observe que nosotros dividimos el número, de caras por el total general para obtener el porcentaje de fotografías que serían calificadas de «poca o ninguna retinopatía» por el segundo clínico. Esto es un cálculo sencillo en este ejemplo, en donde el total general es 100, pero dará un porcentaje diferente cuando el total está por encima o por debajo de 100. La necesidad de esta división, por consiguiente, debe ser tenida presente siempre que se hagan estos cálculos.
36
EPIDEMIOLOGÍA CLÍNICA
Si estuviera actuando solamente al azar, nosotros esperaríamos el 58 por 100 (32,5) de las 56 fotografías juzgadas por el primer clínico que mostraban poca o ninguna retinopatía, también se llamaría «poca o ninguna retinopatía» por el segundo clínico (y esto aparece en la celda á) y 42 por 100 (18,5) de las 44 fotografías juzgadas por el primer clínico que mostraban moderada o grave retinopatía, también sería llamada «moderada o grave retinopatía» por el segundo clínico (y así aparece en la celda d). Así pues, el acuerdo entre estos dos clínicos, que nosotros esperaríamos sobre la base de la suerte, solamente (la suma de las celdas a y d divididas por el número total de fotografías) es 32,5 + 18,5/100 ó 51 por 100*. ¡Sorpresa! El acuerdo esperado es 51 por 100, no 50 por 100. Esto es debido a que ambos clínicos juzgaron que más de la mitad de estas fotografías mostraban poca o ninguna retinopatía (56 por 100 fue juzgado así por el primer clínico y 58 por 100 por el segundo). Solamente cuando uno (o ambos) juzgaron que estaba presente un hallazgo clínico en el 50 por 100 de las veces, será igual al 50 por 100 el acuerdo esperado sobre la base del azar. He aquí una oportunidad de probar su comprensión de lo que hemos hecho precisamente. ¿Qué porcentaje de acuerdo esperaría usted sobre la base del azar solamente, si ambos clínicos juzgaron que un hallazgo clínico estaba presente en el 60, 70, 80 y 90 por 100 de los pacientes? Las respuestas están en la nota de pie de esta página †. Volviendo a nuestro ejemplo de la tabla 2.7, el acuerdo observado fue del 78 por 100 y el acuerdo esperado sobre la base del azar sólo fue del 51 por 100. ¿Hay un modo de combinar estos datos en un índice útil clínicamente? Un modo de hacerlo se muestra en la figura 2.1. La barra superior de esta figura representa el acuerdo observado del 78 por 100 entre los dos clínicos, descrito en la tabla 2.7. En la barra de en medio, este 78 por 100 está roto en sus dos componentes, el 51 por 100 de acuerdo esperado sobre la base del azar solamente, y el resto (78 — 51 = 27 por 100) el acuerdo real más allá del azar. En la barra inferior de la figura 2.1, este acuerdo real más allá de la suerte (27 por 100) es comparado con el acuerdo potencial más allá de la suerte (100 — 51 = 49 por 100). Finalmente es calculada la proporción del acuerdo real con respecto al * Si usted proyecta tales cálculos por su cuenta, he aquí dos modos de comprobar su trabajo. Primero, los valores esperados en las celdas a, b, c y d deben sumar los mismos totales que los números realmente observados. Segundo, usted debe conseguir los mismos valores esperados, independientemente de si usa el primero o el segundo clínico, como el lanzador de la moneda al aire (si el primer clínico es el que tira la moneda, el valor esperado en la celda a es (56/100 x 58 = 32,5). † El porcentaje de acuerdo esperado sobre la base de la suerte solamente, en estos ejemplos es 52, 58, 68 y 82 por 100 respectivamente.
EL EXAMEN CLÍNICO
37
Figura 2.1. Desarrollo de un índice útil de acuerdo clínico.
potencial más allá del azar (27/49 por 100 = 0,55). El resultado, 0,55, representa la proporción de acuerdo potencial más allá de la suerte que fue realmente logrado, y esta proporción lleva el nombre de «kappa» (25). He aquí otra oportunidad de probar su comprensión de lo que está midiéndose aquí. Vea si usted puede calcular la «kappa» para la tabla 2.10 (46). Las respuestas correctas (y los cálculos clave) están en la nota de pie de página*. ¿Son estos niveles «kappa», bajos o altos? Aunque la mayoría de los clínicos los considerarían decepcionalmente bajos, ellos son aproximadamente del nivel usual para la mayoría de los componentes del examen clínico (13). Por ejemplo, la proporción del acuerdo potencial más allá del azar que es realmente logrado, es del 0,51 para la presencia o ausencia de un pulso de la arteria dorsal del pie (40), y de 0,50 a 0,62 para la presencia o ausencia de diversos signos de obstrucción crónica del flujo de aire (52). * En la tabla 2.10, el acuerdo observado es (72 + 47 + 20)/183 = 76 por 100. El acuerdo esperado sobre la base del azar, para las celdas individuales, es como sigue: normal = (79/183) x 78 = 33,7; grado I = (67/183) x 70 = 25,6; grado II = (37/183) x 35 = 7,1. Por consiguiente, el acuerdo total esperado sobre la base del azar es (33,7 + 25,6 + 7,1)/183 = 36 por 100. Así pues, el acuerdo real más allá del azar es 76 % - 36 % = 40 %, y el acuerdo potencial más allá del azar es 100 % - 36 % = 64 %. Como resultado, kappa es 40 %/64 % = 0,625.
38
EPIDEMIOLOGÍA CLÍNICA
Tabla 2.10. Acuerdo sobre la gravedad de la bisinosis.
Datos modificados de R. S. Schilling, J. P. Hughes, y I. Dingwall-Fordyce. Disagreement between observers in an epidemiological study of respiratory disease. Br. Med. J. 1:65, 1955.
Desacuerdos clínicos en la interpretación de las pruebas diagnósticas
Las observaciones junto a la cabecera del enfermo no son las únicas que están sujetas a desacuerdos clínicos. Suponga otro paciente suyo: una directora de escuela de cincuenta y cinco años de edad ha sido sometida a la mamografía rutinaria anual. El informe recibido señala, «sospechoso de malignidad». Usted le enseña su mamograma, sin revelar el contenido del informe, a otro radiólogo, que le dice que está «dentro de los límites normales». El problema del desacuerdo clínico se extiende a las interpretaciones de las pruebas diagnósticas, siempre que estas interpretaciones impliquen a los seres humanos, como es el caso de los rayos X, los electrocardiogramas, los especímenes de anatomía patológica y similares. Tres ejemplos son resumidos en la tabla 2.11. Como se muestra en esta tabla, la interpretación de las mamografías, un paso crucial en la detección precoz del cáncer de mama curable, está sujeta al mismo desacuerdo que otros juicios clínicos. Debido a que la mayoría de las mamografías son normales, el acuerdo esperado sobre la base del azar solamente es muy alto (en este caso, 91 por 100). De este modo, el acuerdo potencial más allá del azar fue solamente 9 por 100 y el acuerdo real más allá del azar fue 6 por 100. Así pues, el «kappa» fue 6/9 por 100 = 0,67. ¡En este ejemplo no solamente discreparon los radiólogos entre sí, sino que uno de ellos dejó de recomendar el envío al especialista de las mujeres que se demostró posteriormente tenían cáncer de mama (8 casos), casi tan a menudo como recomendó correctamente el envío al especialista (11 casos)! (9).
Tabla 2.11. Desacuerdo clínico en la interpretación de los materiales diagnósticos.
* Datos modificados de J. Chamberlin, S. Ginks, P. Rogers, y col. Validity of clinical examination and mammography as screening tests for breast cáncer. Lancet 2:1026, 1975. b Datos modificados de H. Blackburn, G. Blomgvist, A. Freiman, y col. The exercise electrocardiogratn. Differences in interpolation. Repon of a technical group on exercise electrocardiography. Am. J. Cardiol. 21:871, 1986. c Datos modificados de V. F. Fairbanks. Is the peripheral blood film reliable for the diagnosis of iron-deficiency anaemia? Am. J. Clin. Pathol. 55:447, 1971. Nivel de hemoglobina 11.6 g/dl o menos y nivel de hierro en suero menor de 12,5 µmol/L (70 mg/dl). d
40
EPIDEMIOLOGÍA CLÍNICA
Discrepancias similares son comunes en la interpretación de las angiografías coronarias (14, 55). Cuando la decisión para efectuar una operación de «bypass» coronario está pendiente de un hilo, cualquier grado de inconsecuencia en el diagnóstico es motivo de preocupación. Igualmente inquietante es el grado de inconsistencia documentado en la interpretación de los electrocardiogramas de ejercicio (5), el segundo ejemplo de la tabla 2.11, especialmente cuando uno contempla la frecuencia con la que éstos son realizados y el impacto potencial de su interpretación sobre la capacidad de obtener empleo y seguro por parte de los que se someten a ello, así como sobre su función social y emocional. El tercer ejemplo de la tabla 2.11 revela inconsecuencias incluso entre aquellos que tienen la última palabra (por lo menos en las conferencias clinicoanatomopatológicas). En la interpretación de las extensiones de sangre, tres anatomopatólogos clínicos mostraron desacuerdo sustancial entre sí y con sus propias interpretaciones anteriores, de la misma extensión de sangre (17). Además, los tres fallaron al informar sobre los cambios sugerentes de deficiencia en hierro en el 60 por 100 de las mujeres cuyos niveles de hemoglobina variaron de 6,8 a 11,6 g/dl, y cuyos niveles de hierro en suero fueron menores de 12,5 µmol/L (70 mg/dl). El ejemplo de la mamografía añade una nueva dimensión a nuestra discusión del desacuerdo clínico. Mientras que los ejemplos anteriores midieron justamente el acuerdo entre los clínicos y para un clínico consigo mismo, sobre síntomas gastrointestinales o signos del fondo de ojo, el ejemplo de la mamografía añade la dimensión del diagnóstico definitivo, confirmado por un «patrón oro» aceptado, de la confirmación histológica y el curso clínico posterior. Por consiguiente, nosotros podemos hablar ahora sobre exactitud y sesgo, así como consistencia y podemos proceder a un nivel más elevado de comprensión sobre el problema del desacuerdo clínico. Los ejemplos que nosotros hemos descrito hasta este momento han tratado, principalmente, sobre la cantidad de acuerdo entre dos o más clínicos y entre dos o más exámenes por el mismo clínico en diferentes ocasiones. Estos dos elementos pueden ser designados útilmente consistencia inter-observador e intra-observador. Una definición general de la consistencia sería entonces la extensión hasta la cual coinciden entre sí los exámenes múltiples del mismo paciente o espécimen. Como hemos visto, no hay mucha consistencia para la mayoría de las observaciones clínicas y nosotros deberemos buscar modos de aumentar cualquier consistencia que exista. Sin embargo, usted probablemente ha reconocido ya que un alto grado de consistencia entre los clínicos puede ser no solamente difícil de alcanzar, sino que en algunos casos puede ser logrado con una pérdida de exactitud.
EL EXAMEN CLÍNICO
41
Por ejemplo, es a menudo posible convencer a los neófitos que ellos oyen un cuarto tono cardiaco, incluso en pacientes con una fibrilación auricular (en cuyo caso no es posible un S4). El nivel de consistencia podía ser alto en tales circunstancias, pero todas las observaciones serían incorrectas. Este ejemplo permite introducir dos conceptos adicionales: exactitud y sesgo. La proximidad de una observación clínica al estado clínico verdadero se designa exactitud, y sesgo es cualquier desviación sistemática de una observación del estado clínico verdadero. Debido a que estos términos adicionales, exactitud y sesgo, nos ayudarán cuando discutamos las estrategias para mejorar la calidad de nuestros exámenes clínicos, suministraremos un ejemplo para unirlos. El verdadero nivel de cumplimiento de las medicaciones, por un paciente, puede ser determinado aplicando un patrón oro, tal como las mediciones repetidas de los niveles séricos del medicamento. Sin embargo, cuando a sus médicos se les pide que los tasen como sumisos o no sumisos, estas valoraciones son desesperadamente inexactas. En realidad, los clínicos estudiados por Gilbert y su equipo (27) no fueron más exactos que hubieran sido si ellos hubiesen tirado una moneda al aire. Sin embargo, estas mismas investigaciones han observado que, aunque las estimaciones de los clínicos del cumplimiento de los pacientes son inexactas, no están sesgadas. Es decir, los clínicos sobreestiman el cumplimiento de algunos pacientes y subestiman el cumplimiento de un número groseramente similar de otros pacientes. Debido a que sus estimaciones clínicas de cumplimiento no fueron sesgadas, no fue posible mejorar la exactitud de estos clínicos, haciendo que ellos ajustaran sus estimaciones (es decir, haciéndoles ajustar sus estimaciones hacia arriba o abajo, para llevarlas más cerca de la verdad). Por otra parte, las estimaciones de los pacientes de su propia obediencia, aunque razonablemente exactas, generalmente están sesgadas hacia arriba. Esto es, los pacientes generalmente sobrevaloran su cumplimiento en el 20 por 100, aproximadamente (29). De acuerdo con esto, los clínicos que quieren conocer si sus pacientes están tomando menos del 80 por 100 de sus medicinas, corrigen este sesgo de la estimación de los pacientes, preguntándoles: «desde que yo le vi a usted la última vez, ha dejado de tomar alguna de sus píldoras?». Como podemos ver por lo que antecede, la consistencia entre y dentro de los clínicos es un situación deseable, pero insuficiente; nosotros necesitamos exactitud también, y cuando la inexactitud es el resultado del sesgo, nosotros podemos corregir éste si conocemos su magnitud y dirección. Para muchas valoraciones clínicas no hay, ¡qué lástima!, patrón oro de exactitud. Así pues, ni la exactitud ni el sesgo de estas valoraciones pueden ser medidos directamente y nosotros nos quedamos con la consistencia
42
EPIDEMIOLOGÍA CLÍNICA
como la única medida de cuan bien estamos cumpliendo nosotros. Aunque esta situación no es muy satisfactoria, nosotros podemos luchar por lo menos por la consistencia en tales valoraciones, dándonos cuenta de que las valoraciones que no son consistentes, no pueden ser exactas. Desacuerdos clínicos sobre la realización del diagnóstico y las recomendaciones terapéuticas
Suponga que se le pide a usted que vea a un contable de cincuenta y dos años de edad, con articulaciones dolorosas, que ha «hecho la ronda» de tres especialistas. Sus pruebas sanguíneas y las radiografías no muestran ningún cambio diagnóstico. Las dosis altas de aspirina le han suministrado poco alivio, y su trabajo, movilidad y sueño continúan siendo afectados. Un especialista sugirió que estaría justificado un ensayo de terapia de oro para lo que parecía una artritis reumatoide, mientras que los otros dos juzgaron que él había tenido una osteoartritis y que la terapia con oro estaba contraindicada. Los desacuerdos clínicos son más sorprendentes, cuando se aplican al diagnóstico o a las decisiones de tratamiento. Nuestro contable artrítico está clamando alivio y nosotros no podemos ponernos de acuerdo sobre lo que él tiene o cómo debe ser tratado. Un ejemplo clásico de este problema fue comunicado hace varias décadas y tenía que ver con la recomendación de la tonsilectomía (3). Entre 389 escolares de once años de edad, con amígdalas intactas que fueron examinados por un grupo de médicos, fue recomendada la tonsilectomía en 174 (45 por 100). Los 215 niños restantes a los que no se había recomendado la tonsilectomía fueron reciclados para una segunda opinión (sin revelar la primera opinión) y la tonsilectomía fue recomendada en 99 (46 por 100). Los 116 niños restantes a los que se les había dado ya una patente limpia de sanidad tonsilar en dos ocasiones separadas, fueron examinados una tercera vez; ¡la tonsilectomía fue recomendada en 51 (44 por 100) de ellos! Para nosotros, el hallazgo más notable de este estudio no fue la inconsistencia en el diagnóstico y las recomendaciones terapéuticas hechas por estos clínicos cuando ellos examinaron repetidamente a los mismos niños, sino la consistencia en la proporción de niños a los cuales fue recomendada la tonsilectomía en cada uno de los tres ciclos de examen: 45, 46 y 44 por 100. Aunque nosotros nos damos prisa en reírnos de las locuras médicas de antaño, los ejemplos contemporáneos revelan que la situación no ha cambiado. Cuando tres farmacólogos clínicos evaluaron recientemente a 60 pacientes ingresados en el hospital, porque sus clínicos habían diagnosticado reacciones adversas a las medicaciones, al alcohol o las drogas «recread-
EL EXAMEN CLÍNICO
43
vas», los farmacólogos estuvieron de acuerdo con el diagnóstico, solamente en la mitad de los pacientes (34). Además, en un tercio de estos casos los farmacólogos discreparon entre sí sobre si había ocurrido en absoluto alguna reacción adversa relacionada con la medicación o el alcohol. Desacuerdos clínicos sobre la calidad del cuidado médico
Finalmente, el énfasis creciente sobre las auditorías médicas y el seguro de la calidad, mueve a presentar un ejemplo final del desacuerdo clínico en este campo lleno de retoños. En un estudio de Brook (7) se les pidió a clínicos experimentados que revisaran las historias de pacientes con infección del tracto urinario, hipertensión, úlcera gástrica o duodenal, y que suministraran un juicio de colega sobre la calidad del cuidado que ellos habían recibido. El grado de acuerdo más allá del azar, varió de solamente 0,15 a 0,56 (media: 0,27). La etiología del desacuerdo clínico Habiendo descrito la magnitud y los tipos de desacuerdo clínico, más algunas propiedades generales de las mediciones clínicas, nosotros estamos dispuestos a considerar las causas del desacuerdo clínico con la esperanza de que ellas señalarán estrategias para mejorar la exactitud, así como la consistencia de nuestras mediciones clínicas y conclusiones. Estas causas pueden ser clasificadas útilmente de acuerdo con su fuente: el examinador, el examinado y el examen (resumido en la tabla 2.12). El examinador Variación biológica de los sentidos
El examen clínico comienza invariablemente con los sentidos —vista, oído, tacto, olfato y (raramente) el gusto—. Las variaciones en la agudeza y apreciación de los sentidos (por ejemplo, daltonismo, presbicia y presbiacusia) conducirán a desacuerdos entre los clínicos. Menos ampliamente reconocido, sin embargo, es un factor responsable de las inconsistencias en los resultados de los exámenes efectuados por el mismo clínico —variación biológica en los sentidos del examinador. Esto ha sido documentado en un estudio (26) que contrasta cómo los mismos médicos actúan cuando están descansados y cuando están cansados, como se resume en la tabla 2.13.
44
EPIDEMIOLOGÍA CLÍNICA
Tabla 2.12. La etiología del desacuerdo clínico. El examinador 1. Variación biológica de los sentidos. 2. La tendencia a registrar inferencia más bien que evidencia. 3. Entrampado por los esquemas de clasificación diagnóstica. 4. Entrampamiento por expectativa anterior. 5. Simple ignorancia. El examinado 1. Variación biológica en el sistema que se está examinando. 2. Efectos de la enfermedad y las medicaciones. 3. Memoria y rumiación. 4. Echar a cara o cruz. El examen 1. Ambientes perjudiciales para el examen. 2. Interacciones perjudiciales entre los examinadores y el examinado. 3. Función o uso incorrecto de las herramientas diagnósticas.
En este estudio, la capacidad de los internos para detectar simples arritmias cardiacas, tales como latidos prematuros cardiacos auriculares y ventriculares y taquicardia supraventricular en la misma tira del electrocardiograma, se deterioraba marcadamente después de una noche ocupada en llamadas nocturnas (duración media del sueño 1,8 horas), y fue acompañado por descensos sustanciales en la percepción, la cognición y el humor. Tabla 2.13. Efecto de la falta de sueño sobre la perspicacia clínica.
Datos modificados de R. C. Friedman, J. T. Bigger, y D. S. Koranfield. The intern and sleep loss. N. Engl. J. Med. 285:201, 1971.
EL EXAMEN CLÍNICO
45
La tendencia a registrar inferencias más que evidencias
Esta causa de desacuerdo clínico ha sido discutida en detalle por Feinstein (22, 23). Las descripciones por los pacientes de sus síntomas y el aspecto, sonido y palpación de los hallazgos físicos, entran en la conciencia del clínico como evidencia sensorial. Debido a que el proceso diagnóstico traduce y sintetiza esta evidencia en una o más conclusiones, es comprensible que las últimas tienden a servir como medio de intercambio entre los clínicos y en las historias clínicas. Así pues, nosotros tendemos a hablar de dolor «pleurítico» más que de dolor torácico «inspiratorio» y de «hematuria», más que de orina «rojiza». Al reemplazar la evidencia por la inferencia, sin embargo, nosotros corremos el riesgo de aumentar el error diagnóstico; aunque los clínicos, a menudo, están de acuerdo sobre la evidencia sensorial, ellos discrepan a menudo sobre la inferencia que se extraiga de aquélla. Limitar la historia clínica a deducciones tiene otro inconveniente importante: puede, tanto dirigir erróneamente el proceso diagnóstico como oscurecer el punto original de partida. Por ejemplo, a uno de nosotros se le pidió una vez que viera a un hombre con riñones poliquísticos, hipertensión resistente a los medicamentos, reacciones anteriores múltiples a los medicamentos, y un exantema, recientemente aparecido. Se juzgó rápidamente que el exantema era debido a los medicamentos y fue seguida esta inferencia, más bien que la descripción detallada de las lesiones de la piel, que existía en las notas clínicas. Las seis semanas siguientes fueron empleadas laboriosamente en alterar, una a una, las medicaciones antihipertensoras del paciente, y la no desaparición del exantema fue considerado que representaba solamente que el medicamento culpable no había sido eliminado todavía de su complejo régimen antihipertensor. Fue solamente cuando se completó una revisión total, aunque sin éxito, de todos sus medicamentos, cuando se reexaminó la inferencia original inadecuada y se comprendió lo inadecuado de la inferencia original. Se comenzó el proceso diagnóstico de nuevo completamente, y se reconoció la compatibilidad de la evidencia original con la tiña corporis, se llevaron a cabo estudios fúngicos apropiados (con resultados confirmatorios) y se inició la terapia apropiada. Una inferencia precipitada había cerrado la mente de este clínico a otras posibilidades y le había hecho desperdiciar varias semanas en un tratamiento infructuoso del diagnóstico erróneo. Este riesgo debe ser tenido presente siempre que nosotros usemos la estrategia del diagnóstico de reconocimiento del modelo, o si nosotros aceptamos una hipótesis única demasiado rápidamente cuando usamos el planteamiento hipotético-deductivo.
46
EPIDEMIOLOGÍA CLÍNICA
Entrampados en los esquemas de clasificación diagnóstica
Los esquemas corrientes de clasificación diagnóstica pueden aumentar el riesgo de desacuerdo clínico de dos modos. Primero, ellos suministran «puntos de interrupción» arbitrarios, confusos y frecuentemente inconsistentes en una distribución lisa y continua de un atributo tal como la presión arterial, la masa corporal o la tolerancia a la glucosa. Como consecuencia de ello, nosotros nos ocupamos en discusiones infructuosas sobre si un paciente es «realmente» hispertenso, obeso o diabético. (Los asuntos relacionados con la definición de «normalidad» y sus perversiones son discutidas en el capítulo siguiente.) Segundo, el desacuerdo clínico surge cuando son aplicados diferentes criterios diagnósticos a la misma entidad clínica por diferentes grupos de clínicos. Considere el «ataque cardiaco». ¡Dependiendo del grupo de médicos con quien hable usted, puede ser cualquiera de cinco entidades distintas! Para el anatomopatólogo, el «ataque cardiaco» es un diagnóstico anatómico, que requiere cambios específicos visibles y microscópicos en el miocardio. Para el químico clínico, en cambio, el «ataque cardiaco» es a menudo un diagnóstico bioquímico, que requiere una elevación en un momento apropiado de una o más de las enzimas cardiacas en las muestras de sangre extraídas de los pacientes. Para el electrocardiografista, sin embargo, el «ataque cardiaco» es un diagnóstico electrofisiológico, que requiere (en el caso de un infarto transmural, por ejemplo) corrientes de lesión, ondas Q y cambios ST-T en electrocardiogramas en serie. Para no ser menos, para algunos supuestos cardiólogos preventivistas, el «ataque cardiaco» es un diagnóstico etiológico, que consiste en hiperlipidemia, adicción al tabaco, un tipo A de personalidad, una mala historia familiar, inactividad física y similares*. Finalmente, para el clínico que sale de la cama en la mitad de la noche para atender al paciente con un ataque cardiaco, es un diagnóstico clínico que consiste en ciertos síntomas (dolor, asfixia, sudor, etc.) y signos (galope, estertores, contracciones ventriculares prematuras, etc.). Así pues, el «ataque cardiaco» puede ser un diagnóstico anatómico, bioquímico, electrofisiológico, etiológico o clínico. Aunque estas diferentes * Aquellos para los que esta definición del diagnóstico les parece inverosímil, debían recordar simplemente el anuncio repetido, muy difundido en las revistas de medicina de los años 1970, que encabezaba una fotografía de un hombre de edad mediana, sonriente, con aspecto sano, con el título escalofriante de «este hombre está enfermo y no lo sabe». La página 2 del anuncio, revelaba su diagnóstico: «El tiene seriamente elevados los niveles de lípidos». Irónicamente, estos anuncios recomendaban el clofibrato, un medicamento que luego se demostró que aumentaba la mortalidad de tales individuos (41).
EL EXAMEN CLÍNICO
47
definiciones pueden convergir, y a menudo así ocurre, tienen lugar muchas discusiones acaloradas e irresueltas sobre si determinados pacientes han tenido «realmente» ataques cardiacos, y a menudo los desacuerdos surgen por quedarse entrampados por los diferentes esquemas de clasificación diagnóstica. Se nos ocurre la analogía con la discusión entre unos ciegos sobre la naturaleza de un elefante, pero en nuestra situación diagnóstica, nosotros no estamos tratando exactamente sobre las patas, costados, trompa y cola de la bestia, sino con sus huellas y sus efluvios, también. Engaño por expectativas anteriores
Nosotros tendemos a encontrar lo que esperamos o confiamos encontrar. El poder y la consistencia de esta causa para el desacuerdo clínico fueron bien demostrados en el ejemplo de la tonsilectomía descrito anteriormente (3). Como usted recordará, los clínicos recomendaron consistentemente la amigdelostomía en alrededor del 45 por 100 de los mismos niños que ellos habían juzgado que no necesitaban esta operación, en uno o incluso en dos exámenes anteriores recientes. Que la expectativa aún influye sobre el diagnóstico clínico es evidente en la era electrónica. La introducción de la monitorización del corazón fetal suministró una oportunidad de oro para demostrar el poder de la expectativa (¡y la confianza!) en los exámenes clínicos. En un estudio precoz de monitorización por Day, Madden y Wood (12), los resultados de la monitorización fueron ocultados a los clínicos que estaban siguiendo un grupo de mujeres en el parto. La exactitud de las valoraciones clínicas fueron determinadas posteriormente, comparándolas con los resultados del monitor. Ahora todo el mundo sabe que la tasa «normal» del corazón fetal es 140 latidos por minuto y, efectivamente, cuando el monitor fetal registró latidos de 130 a 150 hubo acuerdo cercano con las anotaciones de los clínicos en las gráficas. Sin embargo, cuando el monitor registró latidos cardiacos fetales por encima de 150 por minuto, los clínicos tendieron a registrarlos como más bajos (más «normal») de lo que fueron realmente. De igual modo, cuando el monitor documentó menos de 130 latidos del corazón fetal por minuto, los clínicos tendieron a registrarlos más altos (de nuevo más «normales») de lo que fueron en realidad. Es razonable discutir que estos clínicos no solamente esperaban que los índices de latido cardiaco fetales fueran normales, sino que ellos confiaban en que fueran normales también; las cifras anormalmente altas o anormalmente bajas de los latidos cardiacos fetales significan dificultades tanto para los pacientes como para los clínicos. La confianza debe jugar también un papel poderoso en la determinación de los resultados de todo tipo de exámenes clínicos, especialmente
48
EPIDEMIOLOGÍA CLÍNICA
cuando los hallazgos anormales producen angustia en nuestros pacientes (¿ha reaparecido el tumor?) o más tarea para un clínico ya muy sobrecargado de trabajo (¿tiene el paciente necesidad de un examen clínico de hipertensión?). Por muy sesgado que sea, el deseo de denegar incluso lo obvio, y de «vigilar y aguardar», en tales casos es ciertamente comprensible, aunque a menudo peligroso clínicamente. Simple ignorancia
Finalmente, el desacuerdo clínico es inevitable cuando los examinadores no saben dónde y cómo mirar, escuchar, tocar y saborear, o cómo interpretar lo que ellos ven, oyen, sienten, huelen y saborean. A veces, los resultados son, simplemente, inofensivamente divertidos. Uno de nosotros recuerda un interno que muy orgullosamente exponía un carcinoma anular que él había encontrado en una de sus primeras sigmoidoscopias; cuando se le sugirió que la lesión era, en realidad, un cervix erosionado, su humillación se hizo pareja con el alivio y perplejidad de la paciente (y una endoscopia subsiguiente «a través de los canales apropiados» fue normal). Otras veces, los resultados pueden tener consecuencias trágicas. La interpretación errónea de los sonidos normales fisiológicos del corazón, que condujeron al diagnóstico de enfermedad cardiaca orgánica en el niño normal de la tabla 2.4, es un ejemplo de la interpretación exagerada de los hallazgos normales. La interpretación disminuida de los hallazgos anormales, también puede conducir a desacuerdos clínicos desgraciados, como puede muy bien haber sido el caso en el ejemplo de los latidos fetales cardiacos. Dado que ninguno de nosotros ha conocido a clínicos en ejercicio que aspiren a la incompetencia en el examen físico, nosotros concluimos que algo defectuoso existe aquí en la enseñanza y capacitación de las pericias clínicas. Una pista para la causa es la proporción de clínicos, incluso en estados avanzados de capacitación, que afirman que nadie los ha vigilado nunca a ellos en la preparación de hacer una historia y en la realización de un examen físico. El examinado Variaciones biológicas del sistema que se está examinando La mayoría de los clínicos reconocen que los atributos clínicos, tales como peso, presión arterial y pulso, variarán de una hora a otra y de un día a
EL EXAMEN CLÍNICO
49
otro, dependiendo de factores tales como la posición, la dieta, la ingestión de líquidos, el estrés, el ejercicio, etc. Además, nosotros reconocemos que si la presión arterial es sorprendentemente baja o alta un día, «por regresión hacia la media» (44) tenderá a volver a un nivel más usual en un examen subsiguiente; esto es por lo que nosotros necesitamos varias visitas antes de estar dispuestos a diagnosticar una hipertensión moderada. Sin embargo, nosotros podemos no darnos cuenta de que esta misma variación biológica es también la regla en muchas mediciones «exactas», incluyendo los electrocardiogramas, la presión diastólica final del ventrículo izquierdo y las fracciones de vaciamiento (39, 49). De ello se desprende que tal variación conducirá a inconsistencias en las descripciones clínicas de los pacientes y, cuando las variaciones cruzan una frontera crítica, en el diagnóstico. Efectos de la enfermedad y las medicaciones Esta causa de desacuerdo actúa cuando la enfermedad o su tratamiento afectan a la capacidad del paciente para suministrar una historia exacta y conveniente, o alteran las manifestaciones clínicas de la enfermedad. En algunas situaciones, el efecto es permanente; así, los accidentes cerebrovasculares dañan a menudo la memoria o la comunicación, y en muchos pacientes hipertensos la presión arterial vuelve a lo normal después de un infarto de miocardio. En otras circunstancias, los cambios son temporales, como en los efectos de la insuficiencia cardiaca sobre la auscultación cardiaca, o los efectos del alcohol (y su retirada) sobre la historia clínica. Igualmente, debido a que los analgésicos pueden enmascarar los signos físicos y anublar el recuerdo de los pacientes con abdomen agudo, su uso está contraindicado hasta que se haya establecido un diagnóstico. Memoria y rumiación Los pacientes, especialmente aquellos que tienen enfermedad crónica o grave, tienden a rumiar sobre eventos pasados en busca de una causa convincente de sus molestias. Volver a hacer la historia refuerza la rumiación y puede hacer que el paciente consulte informes o a otros miembros de la familia, y a menudo reorganice memorias sueltas en pautas ordenadas de sucesos recordados. Así, las historias seriadas pueden mostrar una evolución sustancial u otro cambio, que resulta en desacuerdos flagrantes sobre la presentación o cronología de importantes sucesos anteriores de la salud (y no pequeña consternación de los estudiantes y de los médicos, durante las rondas de sala, de los profesores).
50
EPIDEMIOLOGÍA CLÍNICA
Echar a cara o cruz
Cuando los clínicos disienten sobre cuál de dos regímenes de tratamiento es mejor para un paciente dado, puede ser que los regímenes en disputa sean igualmente eficaces (¡o inútiles!). Los mecanismos de enfermedad subyacentes en el trastorno del paciente pueden ser resistentes a todas las intervenciones, por una parte, o responder igualmente a ambos, por otra parte. Esta causa de desacuerdo ha sido designada como echar a cara o cruz (35), y nosotros la reexaminaremos en cada uno de los dos capítulos siguientes. El examen Ambientes perjudiciales para el examen El ambiente en el cual se efectúa el examen, puede afectar tanto a los sentidos como a los sentimientos. Los intentos de auscultación cardiaca en aviones a reacción son inútiles y los niveles de ruido en un servicio de urgencia lo inundan todo, excepto los sonidos de Korotkov más fuertes. La luz artificial o débil puede hacer imposible la detección de ictericia o cianosis. A un paciente con escalofríos, en una sala de exploración fría, no le resultará agradable ni una entrevista clínica prolongada, ni el frío del acero de los instrumentos de diagnóstico. Finalmente, la intimidad puede ser un requisito previo para la revelación de información sobre la familia (por ejemplo, epilepsia, consanguinidad o locura), la historia de operaciones (por ejemplo, un aborto ilegal o la exposición a enfermedades venéreas). Interacción perjudicial entre los examinadores y el examinado
Aunque la comunicación eficaz entre los clínicos y los pacientes está generalmente reconocida como un requisito previo para el manejo apropiado, tanto en las revistas médicas orientadas conductualmente (31), como biológicamente (36), el efecto de una comunicación defectuosa sobre los desacuerdos clínicos no ha sido a menudo cuantificado. Un estudio de una muestra aleatoria de 155 entrevistas realizadas a pacientes en la práctica privada de un médico de familia, reveló que un quinto de los entrevistados falló al no poner de manifiesto datos importantes, tales como melena o frecuencia urinaria, en la historia de la enfermedad presente del paciente o en la historia pasada (48). Sorprendentemente, los investigadores observaron que tales lapsus fueron máximos, no cuando los pacientes estaban
EL EXAMEN CLÍNICO
51
reñidos con sus médicos, sino cuando ellos colmaban a sus médicos con elogios excesivos. Además, los pacientes con diferentes antecedentes étnicos se sabe que enfocan sus síntomas en sitios diferentes del cuerpo; el fallo de los clínicos en reconocer esto y la distancia social entre ellos y sus pacientes ha sido presentado como una explicación de las amplias variaciones en la incidencia de los diagnósticos no orgánicos comunicados entre diferentes grupos étnicos que vivían en ambientes sociales y económicos (56) idénticos. Por otra parte, los efectos de la aprensión del paciente sobre la adquisición de información clínica en un ambiente no familiar, puede ser sustancial, como sabe cualquier clínico que ha intentado tranquilizar a un paciente asustado, etiquetado como hipertenso en un programa de screening en la plaza pública. Igualmente, los exámenes dolorosos, tales como la palpación de una masa abdominal dolorosa, puede alterar y oscurecer hallazgos clínicos importantes.
Función o uso incorrecto de las herramientas diagnósticas
Un manómetro de mercurio con un depósito bajo en mercurio o un manómetro aneroide con un pinchazo oculto, puede dar lecturas bajas falsas de la presión arterial. En realidad, Perlman y sus colegas (42) encontraron que 40 (13 por 100) de 310 manómetros aneroides examinados en siete hospitales de Michigan, producían errores de ≥ 7 mm Hg, en comparación con manómetros de mercurio. El uso de un manguito de anchura inapropiada de un esfigmomanómetro aneroide, o el desinflado demasiado rápido del manguito, puede conducir también a errores sistemáticos y se ha demostrado que algunos individuos escogen ciertos números terminales (dígitos 8, 0 ó 2), más que otros (dígitos 4 ó 6), cuando comunican la medida de la presión arterial (33). Se han identificado defectos similares en la fabricación, mantenimiento y uso de otras herramientas diagnósticas; ejemplos clásicos son: cambios en los cables, calibración equivocada y/o velocidad errónea en los trazados del ECG. Cómo evitar el desacuerdo clínico y aprender de las equivocaciones de uno mismo
En la sección previa de este capítulo, nosotros hemos considerado la potencia de algunas observaciones clínicas y la impotencia de otras, hemos presentado métodos para mejorar las propiedades de medida de estas observaciones, y hemos documentado las fuentes de desacuerdo y error en
52
EPIDEMIOLOGÍA CLÍNICA
las valoraciones clínicas. En esta sección final, consideraremos seis estrategias para evitar o minimizar la presentación de desacuerdo clínico. ¿Cuándo importa realmente el desacuerdo clínico?
Mejorar la consistencia y la exactitud de nuestras observaciones clínicas requiere, por lo menos, una inversión inicial de tiempo y esfuerzo mientras que nosotros perfeccionamos nuestro planteamiento. Asumiendo que ninguno de nosotros tiene una reserva de tiempo en la que sumergirse para este tipo de actividad, es obvio que nosotros debemos ser eficaces en este proceso. Para empezar, nosotros podemos muy bien revisar las observaciones clínicas que hacemos ordinariamente y eliminar de nuestro repertorio aquellas valoraciones que no tienen mérito, tales como nuestro propio juicio del cumplimiento del paciente con el régimen que hemos prescrito (27). Como táctica más general, nosotros hemos sugerido que el «método exhaustivo» sea abandonado como un planteamiento diagnóstico. De manera parecida nosotros deberíamos reservar las estrategias para reducir el desacuerdo clínico para aquellos detalles cruciales de la historia del paciente, el examen físico y la evaluación diagnóstica que son más importantes para el diagnóstico del paciente, el manejo o el pronóstico, como se ilustra en los casos siguientes. Un paciente de cincuenta años de edad va a someterse a colecistectomía selectiva y, a su ingreso en el hospital, afirma que él piensa que «pudo haber tenido un ataque cardiaco hace unos meses». En este caso, tanto el hecho como la cronología de su evento cardiaco son cruciales. Si él tuvo un infarto de miocardio y se produjo en los tres meses anteriores, su riesgo de tener otro posoperatoriamente se acerca al 30 por 100 (50), mientras que posponer la intervención selectiva hasta seis meses después de este infarto reduce este riesgo alrededor del 4 por 100. Nuestro segundo caso se refiere a un niño con escarlatina, fiebre y artralgia, quien tiene un dudoso soplo cardiaco nuevo. El examen cardiaco es crucial en este caso. Si el niño tiene carditis, los criterios de Jones (51) para la fiebre reumática son cumplidos con todas sus implicaciones de recidiva, pronóstico y profilaxis antiestreptocócica diaria. En nuestro caso final, un joven atleta presenta inflamación de la pantorrilla después de la inmovilización por un desgarro de los ligamentos de la rodilla, y un venograma revela evidencia dudosa de una trombosis profunda en el muslo ipsolateral. En este caso, la interpretación del venograma es crucial. Si este paciente tiene una trombosis venosa profunda proximal, se le ha terminado la temporada, y es necesario un curso de siete a diez días de dosis completa de heparina intravenoa, más tres meses de anticoagulantes orales (32).
EL EXAMEN CLÍNICO
53
Tabla 2.14. Seis estrategias para prevenir o minimizar el desacuerdo clínico. 1. Acomodar el ambiente diagnóstico a la tarea diagnóstica. 2. Buscar la corroboración de los hallazgos clave. a. Repetir los elementos clave de su examen. b. Corroborar los hallazgos importantes con documentos y testigos. c. Confirmar los hallazgos clínicos clave con pruebas apropiadas. d. Pedir a colegas «ciegos» que examinen su paciente. 3. Informar la evidencia así como la inferencia, haciendo una clara distinción entre las dos. 4. Usar las ayudas técnicas apropiadas. 5. Haga sus valoraciones de los datos sin elaborar, de las pruebas diagnósticas, en «ciego». 6. Aplique las ciencias sociales, así como las ciencias biológicas, de la medicina.
En estos casos, un detalle específico en la historia, en el examen físico o en la interpretación de una prueba diagnóstica, tiene un efecto crucial sobre el pronóstico y el tratamiento del paciente. Cuando surgen tales elementos en la evaluación clínica de un paciente, deben tomarse medidas para prevenir, o al menos minimizar, tanto la inexactitud como la inconsistencia en la determinación de su presencia y significancia. Las estrategias para prevenir o minimizar el desacuerdo clínico son resumidas en la tabla 2.14; ellas han sido obtenidas en diversas fuentes (13), incluyendo una serie importante de Feinstein (19-22).
Acomodar el ambiente diagnóstico a la tarea diagnóstica
Escoja un sitio con luz, calor, silencio e intimidad apropiadas para las tareas diagnósticas a llevar a cabo. Esto puede significar mover al paciente a un lugar más apropiado; si tal transporte se convierte en un requisito previo rutinario para un examen clínico apropiado, está justificado la modificación de la sala de exploración. Buscar la corroboración de los hallazgos clave
Esto puede realizarse de las cuatro maneras indicadas en la tabla 2.14. Repetir los elementos clave de su examen. La justificación para repetir su historia y su examen físico, va más allá de la esperanza de que «algo puede surgir». Primero, su paciente, estimulado por la entrevista anterior, puede
54
EPIDEMIOLOGÍA CLÍNICA
haber recordado y reorganizado ahora eventos históricos importantes o síntomas cardinales clave. En realidad, este fenómeno puede explicar parcialmente por qué la historia del médico que «atiende» es a menudo más informativa que la historia inicial hecha por el oficinista clínico. Segundo, la variación biológica y, especialmente, la regresión hacia la media (la tendencia de los resultados extremos de laboratorio o los hallazgos físicos, a revertir hacia valores menos extremos en los exámenes repetidos) (44) puede haber ocurrido en los sistemas corporales sometidos a examen, permitiendo una decisión más clara sobre si los hallazgos previos (tales como presión arterial), fueron, o no, normales. Tercero, si usted llevó a cabo los exámenes previos cuando estaba fatigado, un segundo examen cuando usted ha descansado puede descubrir hallazgos clave que previamente fueron pasados por alto. Finalmente, un examen repetido puede revelar puntos clave que simplemente no fueron observados en un examen anterior, un fenómeno que está bien documentado al estudiar las radiografías (54). Corroborar los hallazgos importantes con documentos y testigos. Los puntos clave en la historia y en el examen físico, son documentados a veces en registros clínicos o de salud. ¿Tuvo su paciente asfixia neonatal? ¿Tuvo diabetes durante su primer embarazo? ¿Recibió anticoagulantes cuando enfermó en sus vacaciones? A menudo, estos asuntos clave pueden ser confirmados enseguida con una llamada telefónica apropiada, o el examen de antiguos registros. En un estudio, en el cual fueron comparadas las historias actuales con los registros hospitalarios antiguos, se observó que incluso eventos dramáticos tales como hematemesis y melenas, fueron a menudo olvidados o inventados (10). Otra información importante, tal como las características de los déficit neurológicos transitorios o uso de medicación anterior, pueden confirmarse a menudo hablando con los miembros de la familia u otros testigos. En realidad, los pacientes pueden contribuir a mejorar sus historias llevando un diario de los síntomas. Tal planteamiento se ha observado que disminuye sustancialmente la comunicación insuficiente de los síntomas intestinales revelados durante las historias rutinarias (38). Finalmente, la comparación de los resultados de las pruebas diagnósticas actuales con las pasadas (especialmente las radiografías), pueden hacer mucho para eliminar los desacuerdos clínicos sobre la presencia, duración y evolución de procesos importantes de enfermedad. Confirmar los hallazgos clínicos clave con pruebas diagnósticas apropiadas.
A medida que se dispone más ampliamente de pruebas diagnósticas no agresivas, tales como ultrasonido y escáner (¡y confiamos en que más
EL EXAMEN CLÍNICO
55
reproductibles!), y que mejoran la seguridad y aceptación de las pruebas agresivas tales como la endoscopia fibroóptica, la mediastinoscopia, la peritoneoscopia y la culdoscopia, los clínicos pueden acudir de manera creciente a procedimientos distintos de la autopsia para la confirmación de sus hallazgos y diagnósticos. Como veremos en la sección final de este libro, esta estrategia de confirmación puede ser de considerable valor en la educación continuada de uno mismo en las pericias diagnósticas clínicas, así como en el cuidado del paciente. Sin embargo, si aplica esta estrategia, usted tiene que decidir si le dice algo, y cuánto, aquéllos que efectúen estas pruebas confirmatorias, como discutiremos a continuación. Pida a colegas «ciegos» que examinen su paciente. Es útil a menudo pedir a un colega que repita una porción clave de una historia o un examen físico, para determinar si son confirmadas sus observaciones. Tal estrategia se ha observado que es completamente valiosa, por ejemplo, en la evaluación de pacientes con enfermedad cardiaca valvular sospechada (18). Para que esta estrategia sea útil, sin embargo, es vital que al segundo examinador se le hable solamente del área a ser interrogada o examinada y no de su conclusión provisional. Así pues, su petición debe ser «ausculta este corazón y dime lo que piensas», más bien que: «yo creo que este hombre tiene una estenosis aórtica; por favor, ausculta y dime si estás de acuerdo». Prologar la petición de un examen repetido con una afirmación de sus propias conclusiones, degrada al segundo examen de una prueba de acuerdo clínico a una prueba de amistad. Registrar la evidencia, así como la inferencia Cuando las notas clínicas llevan consigo acontecimientos sensorios (elevación paraesternal derecha, fuerte S1 y P2, débil ruido de apertura, grado 2/6 de soplo diastólico precoz decreciente con acentuación pesistólica oído mejor en el vértice), así como la correspondiente inferencia (estenosis mitral), se acumulan diversos beneficios. Primero, el acuerdo entre los exámenes y los examinadores aumenta. Por ejemplo, Feinstein (23) ha documentado sustancialmente mayor acuerdo entre los clínicos para los elementos acústicos del diagnóstico cardiaco, que para los diagnósticos en sí. Igualmente, los cirujanos británicos citados al comienzo de este capítulo mostraron que una discusión detallada y un acuerdo sobre la pieza de evidencia requerida para una conclusión de que la cirugía de la úlcera había tenido éxito, tendía a mejorar el acuerdo sobre esta inferencia. Segundo, el registro de evidencia, así como de inferencia, suministra a menudo información crucial para la comparación con los hallazgos poste-
56
EPIDEMIOLOGÍA CLÍNICA
dores y así suministra una base mucho más firme para juzgar el curso y la evolución de la enfermedad del paciente. Tercero, la comunicación entre los varios clínicos que pueden estar practicando el cuidado en equipo sobre el mismo paciente es obviamente aumentada. Finalmente, el registro de la evidencia le permite a los clínicos volver a seguir sus pasos a los datos clínicos iniciales, cuando las pruebas diagnósticas posteriores o los acontecimientos demuestran que la inferencia diagnóstica original estaba equivocada. Usar ayudas técnicas apropiadas
Aunque el estetoscopio es universalmente aceptado como una ayuda técnica en la auscultación, no puede decirse lo mismo de otras ayudas técnicas para otras mediciones clínicas importantes. Las mediciones de distancia y tamaño, todavía confían en la anchura de los dedos, marcas imaginarias (tales como la línea medioclavicular), huevos, frutos y vegetales, a pesar del consenso de que el uso de la cinta métrica o una regla conduce a datos clínicos más precisos y útiles. Igualmente, aunque el ECG es una ayuda técnica de rutina para la confirmación y cuantificación de las arritmias cardiacas, nosotros ignoramos a menudo las oportunidades para la aplicación útil de otras ayudas técnicas. Por ejemplo, el manguito de la presión arterial no mide la presión en absoluto; mide la presión del aire. Así pues, puede ser usado para cuantificar el dolorimiento abdominal (muy útil cuando se está siguiendo un abdomen agudo [47], especialmente cuando estamos compartiendo las responsabilidades clínicas con otros miembros del equipo), para medir el asimiento u otra fuerza muscular en la artritis (30), o como un oscilómetro vulgar en la evaluación junto a la cabecera del enfermo de la enfermedad vascular periférica. Hay que tener cuidado de evitar el sustituto de la exactitud que puede resultar cuando reemplazamos el juicio humano con números o «hard copy». Sin embargo, cuando nosotros podemos documentar un signo clínico importante mediante la aplicación rápida de un dispositivo técnico barato que mejora la exactitud o la secuencia de la medición clínica, nosotros debemos hacerlo. Disponer la interpretación independiente de los datos de las pruebas diagnósticas de observación
Muchas de las pruebas diagnósticas que nosotros pedimos, tales como ECG, radiografías, especímenes de biopsias y parecidos, requieren valora-
EL EXAMEN CLÍNICO
57
ción e interpretación de la observación. Estas valoraciones pueden ser sesgadas fácilmente por las expectativas previas (¿recuerda el ejemplo de la tasa de latido cardiaco fetal?). Este riesgo es especialmente elevado, cuando estos datos son interpretados por el mismo clínico que examinó previamente el paciente, sin ayuda de un observador independiente «ciego». Los clínicos que interpretan sus propias pruebas, sin confirmación independiente, es probable que encuentren exactamene lo que ellos desean —esté ello allí, o no—. Las situaciones comunes en las que ocurre esto son el servicio de urgencias, cuando la velocidad puede ser la esencia, y el clínico puede no querer, o ser capaz de esperar a una segunda opinión, y las consultas de los médicos que tienen sus propios ECG, rayos X y otros aparatos diagnósticos. Aunque la interpretación por el clínico que examina puede ser asunto de necesidad en algunas circunstancias, esto debe ir seguido posteriormente por una interpretación independiente. Por supuesto, «la ceguera» del intérprete de la prueba puede ser llevada demasiado lejos. El anatomopatólogo clínico no aplicará las tinciones especiales a menos que el raro diagnóstico que las requiere sea anotado en la petición. Sin duda, debe existir una comunicación eficaz entre el clínico y el lector de la prueba, si ellos han de alcanzar una interpretación correcta de la prueba del paciente en cuestión. Menos claro está, sin embargo, la cantidad de información que el observador independiente debe tener a mano cuando se interpreta una prueba. Quizás el mejor compromiso entre la ceguera y la insensatez es el sugerido por Spodick (49), que ha subrayado los beneficios de escribir dos interpretaciones independientes de cada ECG, la primera sin información, salvo la edad del paciente y el sexo, y la segunda con la información clínica pertinente disponible. Nosotros volveremos a este punto más adelante y extensamente, cuando consideremos la interpretación de las pruebas diagnósticas. Por ahora, nosotros sugerimos simplemente que el «sesgo de expectativa» se reduzca, teniendo una segunda persona, preferentemente un experto en pruebas diagnósticas, que interprete los datos de la prueba de observación. Aplicar las ciencias sociales, así como las ciencias biológicas de la medicina
El clínico que se toma el trabajo de escuchar al paciente y presta gran atención a la relación enfermo-médico, está haciendo mucho más que practicar el arte de la medicina: el clínico está practicando buena medicina científica. Una comprensión del impacto de los factores interpersonales y de conducta, tanto en el diagnóstico como en el tratamiento, es fundamental en la práctica de la medicina científica. Si nosotros dejamos de
58
EPIDEMIOLOGÍA CLÍNICA
Tabla 2.15. Ocho pericias requeridas para obtener una historia exacta y útil. Establecer comprensión. Establecer información. Entrevistar con lógica. Escuchar. Interrumpir. Observar las indicaciones no verbales. Establecer una buena relación. Interpretar la entrevista. Modificado de J. Anderson, D. L. Day, M. A. C. Dowling, y col. The definition and evaluation of the skills required to obtain a patient's history of illness: The use of videotape recording. Postgrad. Med. 46:606. 1970.
reconocer tales elementos básicos, como la relación entre no «tener simpatía» por ciertos pacientes, asignándoles a ellos mal pronóstico y prescribiéndoles múltiples medicamentos (16), corremos el riesgo de reducir la calidad de nuestro cuidado clínico. Anderson y sus colegas (1) en el Departamento de Medicina del King's College Hospital Medical School, ha identificado ocho pericias requeridas para obtener una historia segura y exacta (tabla 2.15). La mayoría de estas pericias son abiertamente de comportamiento y es estimulante descubrir que la aplicación de las respuestas empáticas a los pacientes pueden ser aprendidas, así como heredadas (24). Esto no quiere decir que la creación de una relación paciente-clínico cálida mejora siempre la calidad de una historia médica. En realidad, como ya hemos indicado, un estudio ha documentado que los pacientes que más admiran y respetan a sus clínicos pueden retener información clave sobre la presentación y gravedad de los efectos secundarios de la medicación (48). Al terminar este capítulo, nosotros volvemos a un buen consejo de Feinstein (22): «Para avanzar el arte y la ciencia en el examen clínico, el equipo que más necesita perfeccionar un clínico es a sí mismo». Nosotros debemos ser educados, así como humildes, cuando el curso clínico posterior de nuestro paciente, la operación o la autopsia muestra que nosotros erramos en nuestro diagnóstico original. En realidad, si nosotros fuésemos a llevar a cabo una documentación sistemática básica de nuestros propios éxitos y fracasos en el diagnóstico, podíamos identificar áreas en las cuales necesitamos mejorar nuestras pericias clínicas y descubrir si estamos haciendo progresos para reducir nuestra tasa de desacuerdo clínico.
EL EXAMEN CLÍNICO
59
Esta documentación es sólo uno de los elementos de un planteamiento para revisar nuestro funcionamiento clínico, que debe servir como el punto de partida para nuestra educación continuada. Nosotros hemos dedicado el tercio final de este libro a éste y otros aspectos de «estar al día» y usted puede querer saltar al capítulo 10 sobre el examen del funcionamiento. Por otra parte, usted puede escoger concentrarse en las estrategias para decidir qué síntomas, signos y pruebas de laboratorio merecen la pena ser capturadas, en cuyo caso usted puede querer pasar al próximo capítulo sobre la selección de las pruebas diagnósticas.
Bibliografía 1. Anderson, J., Day, D. L., Dowling, M. A. C, etal. The definition and evaluation of the skills required to obtain a patient's history of illness: The use of videotape recordings. Postgrad. Med. 46: 606, 1970. 2. Aoki, N., Horibe, H., Ohno, Y., et al. Epidemiológica! evaluation of funduscopic fmdings in cerebrovascular diseases: III. Observer variability and reproducibility for funduscopic findings. Jpn. Circ. J. 41: 11, 1977. 3. Bakwin, H. Pseudodoxia pediátrica. N. Engl. J. Med. 232: 691, 1945. 4. Bergman, A. B., and Stamm, S. J. The morbidity of cardiac nondisease in school children. N. Engl. J. Med. 276: 1008, 1967. 5. Blackburn, H., Blomgvist, G., Freiman, A., et al. The exercise electrocardiogram: Differences in interpretation. Report of a technical group on exercise electrocardiography. Am.J.Cardiol. 21: 871, 1968. 6. Boyd, N. F., and Feinstein, A. R. Symptoms as an index of growth rates and prognosis in Hodgkin's disease. Clin. Invest. Med. 2: 25, 1978. 7. Brook, R. H. Quality ofCare Assessment: A Comparison of Five Methods of Peer Review. Washington: Government Printing Office. D. H. E. W. HRA-74-3100, 1973. 8. Canadian Stroke Study Cooperative Group. A randomized trial of aspirin and sulfinpyrazone in threatened stroke. N. Engl. J. Med. 299: 53, 1978. 9. Chamberlain, J., Ginks, S., Rogers, P., et al. Validity of clinical examination and mammography as screening tests for breast cáncer. Lancet 2: 1026, 1975. 10. Corwin, R. G., Krober, M., and Roth, H. P. Patient's accuracy in reporting their past medical history, a study of 90 patients with peptic ulcer. J. Chronic Dis. 23: 875, 1971. 11. Crombie, D. L. Diagnostic process. J. Coll. Gen. Practit. 6: 579, 1963. 12. Day, E., Madden, L., and Wood, C. Auscultation of foetal heart rate: An assessment of its error and significance. Br. Med. J. 4: 422, 1968. 13. Department of Clinical Epidemiology and Biostatistics, McMaster University. Hamilton, Ontario. Clinical disagreement: II. How to avoid it and how to learn from one's mistakes. Can. Med. Assoc. J. 123: 613, 1980. 14. Detre, K. M., Wright, E., Murphy, M. L., et al. Observer agreement in evaluating coronary angiograms. Circulation 52: 979, 1975. 15. Diamond, G. A., and Forrester, J. S. Analysis of probability as an aid in the clinical diagnosis of coronary artery disease. N. Engl. J. Med. 300: 1350, 1979. 16. Ehrlich, H. J., and Bauer, M. L. Therapists' feelings toward patients and patient tréatment outcomes. Soc. Sci. Med. 1: 283, 1967.
60
EPIDEMIOLOGÍA CLÍNICA
17. Fairbanks, V. F. Is the peripheral blood film reliable for the diagnosis of iron deficiency anaemia? Am. J. Clin. Pathol. 55: 447, 1971. 18. Feinstein, A. R., and DiMassa, R. The unheard diastolic murmur in acute rheumatic fever. N. Engl. J. Med. 260: 1331, 1959. 19. Feinstein, A. R. Scientific methodology in clinical medicine: I. Introduction, principies and concepts. Ann. Intern. Med. 61: 564, 1964. 20. Feinstein, A. R. Scientific methodology ín clinical medicine: II. Classification of human disease by clinical behavior. Ann. Intern. Med. 61: 757, 1964. 21. Feinstein, A. R. Scientific methodology in clinical medicine: III. The evaluation of therapeutic response. Ann. Intern. Med. 61: 944, 1964. 22. Feinstein, A. R. Scientific methodology in clinical medicine: IV. Acquisition of clinical data. Ann. Intern. Med. 61: 1162, 1964. 23. Feinstein, A. R. Clinical Judgment. Baltimore: Williams & Wilkins, 1967. 24. Fine, V. K., and Therrien, M. E. Empathy in the doctor-patient relationship: Skill training for medical students. J. Med. Educ. 52: 757, 1977. 25. Fleiss, J. L. StatisticalMethodsfor Rates andProportions. New York: Wiley, 1973. Pp. 143-147. 26. Friedman, R. C., Bigger, J. T., and Koranfield, D. S. The intern and sleep loss. N. Engl. J. Med. 285:201, 1971. 27. Gilbert, J. R., Evans, C. E., Haynes, R. B., andTugwell, P. Predicting compliance with a régimen of digoxin therapy in family practice. Can. Med. Assoc. J. 123: 119, 1980. 28. Hall.R., Horrocks, J. C.,Clamps, S. E., etal. Observervariationinassessmentofresults of surgery forpeptic ulcer. Br. Med. J. 1: 814, 1976. 29. Haynes, R. B., Taylor, D. W., Sackett, D. L., et al. Can simple clinical measurements detect patient noncompliance? Hypertension 2:151, 1980. 30. Helewa, A., Goldsmith, C. H., and Smythe, H. A. The modified sphygmomanometer— an instrument to measure muscle strength: A validation study. J. Chronic Dis. 34: 353, 1981. 31. Hoorneart, F., andPierloot, R. Transference aspects of doctor-patient relationship inpsychosomatic patients: I. Br. J. Med. Psychol. 49: 261, 1976. 32. Hull, R., Delmore, T., Genton, E., et al. Warfarin sodium versus low-dose heparin in the long-term treatment of venous thrombosis. N. Engl. J. Med. 301: 855, 1979. 33. Kantor, S., Winkelstein, W., Jr., Sackett, D. L., et al. A method for classifying blood pressure: An empirical approach to the reduction of misclassification due to response instability. Am. J. Epidemiol. 84: 510, 1966. 34. Karch, F. E., Smith, C. L., Kerzner, B., et al. Adverse drug reactions—a matter of opinión. Clin. Pharmacol. Ther. 19: 489, 1976. 35. Kassirer, J. P., and Pauker, S. G. The toss-up. N. Engl. J. Med. 305: 1467, 1981. 36. Kirscht, J. P. Communication between patients and physicians. Ann. Intern. Med. 86: 499, 1977. 37. Koran, L. M. The reliability of clinical methods, data and judgments. N. Engl. J. Med. 293: 695, 1975. 38. Manning, A. P. How trustworthy are bowel histories? Comparison of recalled and recorded information. Br. Med. J. 2: 213, 1976. 39. McAnulty, J. H., Kremkau, E. L., and Rosch, J. Spontaneous changes in left ventricular function between sequential studies. Am. J. Cardiol. 34: 23, 1974. 40. Meade, T. W., Gardner, M. J., Cannon, P., et al. Observer variability in recording the peripheral pulses. Br. Heart J. 30: 661, 1968.
EL EXAMEN CLÍNICO
61
41. Oliver, M. F., Heady, J. A., Morris, J. N., and Cooper, J. W.H.O. cooperative trial on primary prevention of ischaemic heart disease using clofibrate to lower serum cholesterol: Mortality followup. Lancet 2: 379, 1980. 42. Perlman, L. V., Chiang, B. N., Kellor, J., et al. Accuracy of sphygmomanometers in hospital patients. Arch. Intern. Med. 125: 1000, 1970. 43. Rose, G. A. Ischemic heart disease. Chest pain questionnaire. Milbank Mem. Fund. Q. 43: 32, 1965. 44. Sackett, D. L. Clinical diagnosis and the clinical laboratory. Clin. Invest. Med. 1: 37, 1978. 45. Sandler, G. The importance of the history in the medical clinic and the cost of unnecessary tests. Am. Heart J. 100: 928, 1980. 46. Schilling, R. S., Hughes, J. P., and Dingwall-Fordyce, I. Disagreement between observers in an epidemiological study of respiratory disease. Br. Med. J. 1: 65, 1955. 47. Shafer, N. Technique for quantitating abdominal pain. J.A.M.A. 201: 558, 1967. 48. Snyder, D., Lynch, J. J., and Gruss, L. Doctor-patient communication in a family practice. J. Fam. Pract. 3: 271, 1976. 49. Spodick, D. H. On experts and expertise: The effect of variability in observer performance. Am. J. Cardiol. 36: 592, 1975. 50. Steen, P. A., Tinker, J. H., and Tarhan, S. Myocardial reinfarction after anesthesia and surgery. J.A.M.A. 239: 2566, 1978. 51. Stollerman, G. H., Markovitz, M., Taranta, A., et al. Jones criteria (revised) for guidance in the diagnosis of rheumatic fever. Circulation 32: 664, 1965. 52. Stubbing, D. C., Matthew, R. N., Roberts, R. S., and Campbell, E. J. M. Some physical signs in patients with chronic airflow obstruction. Am. Rev. Respir. Dis. 125: 549, 1982. 53. Waddell, G., Main, C. J., Morris, E. W.,etal. Normality reliability in the clinical assessmentof backache. Br. Med. J. 284: 1519, 1982. 54. Yerushalmy, J., Harkness, J. T., Cope, J. H., et al. The role of dual reading in mass radiography. Am. Rev. Tuberc. 4: 443, 1950. 55. Zir, L. M., Miller, S. W., Dinsmore, R. E., et al. Interobserver variability in coronary angiography. Circulation 53: 627, 1976. 56. Zola, I. K. Pathways to the doctor—from person to patient. Soc. Sci. Med. 7: 677, 1973.
3 La selección de las pruebas diagnósticas
Los dos capítulos anteriores se enfocaron sobre la producción de hipótesis diagnósticas y la recogida de los datos clínicos acerca de ellas. ¿Pero, qué datos clínicos merecen ser recogidos? La respuesta a esta pregunta es el contenido de este capítulo. Antes de presentar los datos que ayudarán a decidir si merece la pena recoger una porción dada de datos diagnósticos, nosotros queremos subrayarle dos puntos surgidos en los dos capítulos anteriores. Primero, los datos diagnósticos van más allá de aquéllos que son producidos en el laboratorio de química clínica, el departamento de radiología o el servicio de anatomía patológica. En realidad, como le hemos mostrado al comienzo del capítulo anterior, los datos clínicos obtenidos haciendo una historia juiciosa y realizando un examen clínico determinado son a menudo mucho más poderosos que cualquiera obtenido en el laboratorio diagnóstico, y son, generalmente, completamente suficientes para establecer un diagnóstico definitivo. Segundo, aunque nosotros pensamos, generalmente, en recoger datos diagnósticos en un esfuerzo para hacer un diagnóstico, los mismos datos pueden ser buscados para cuatro propósitos diferentes (aunque interrelacionados). 1. Para juzgar la gravedad de la enfermedad, más bien que su causa, o además de ésta. Así pues, nosotros buscamos la insuficiencia cardiaca en un paciente sospechoso de tener un infarto de miocardio, tanto para fortalecer nuestra hipótesis diagnóstica, como para estimar la gravedad del daño cardiaco. 2. Para predecir el curso clínico subsiguiente y el pronóstico de la enfermedad y el paciente. Este propósito está estrechamente ligado al anterior, y es adecuado cuando nosotros buscamos extensiones locales y metástasis distantes de un cáncer primario, recientemente diagnosticado. 63
64
EPIDEMIOLOGÍA CLÍNICA
3. Para estimar la respuesta probable a la terapia en el futuro. Esto es por lo que nosotros buscamos las lesiones curables quirúrgicamente en la hipertensión recientemente detectada, o para los receptores estrógenos en el cáncer de mama recientemente diagnosticado. 4. Para determinar la respuesta real a la terapia en el presente. Así pues, nosotros repetimos algunos de los mismos estudios de la función tiroidea que nosotros usamos anteriormente para establecer el diagnóstico de la enfermedad tiroidea, pero ahora con el fin de determinar la suficiencia de la terapia, su cumplimiento y la respuesta a la misma, que nosotros establecimos como resultado de nuestro diagnóstico inicial. Independientemente de la razón de buscar los datos diagnósticos, el criterio predominante a usar cuando decidimos qué datos buscar, debe ser la utilidad de una parte dada de los datos diagnósticos para el clínico que los busca y el paciente que los produce. Así pues, como clínicos que deciden si se debe seguir un signo clínico, síntoma u otras pruebas diagnósticas dadas, es nuestra responsabilidad averiguar y valorar críticamente la evidencia sobre la utilidad de esta prosecución. Esta advertencia reta tanto a la capacitación clínica contemporánea (hasta el punto que nosotros enseñamos a los alumnos qué pensar y hacer, más bien que cómo pensar y por qué hacerlo) y le ofrece al clínico juicioso una tarea enorme; la valoración crítica de la utilidad de cada elemento en la multitud de las medidas clínicas que nosotros hacemos en respuesta a los problemas presentados por los pacientes que buscan nuestra ayuda. Esta tarea se convierte en mayor aún cuando nosotros reconocemos la velocidad con la cual son lanzadas sobre nosotros nuevas pruebas diagnósticas y toda una tecnología diagnóstica nueva. ¿Qué tiene que hacer entonces el clínico ocupado? Dos cosas, y este libro intentará ayudarle en ambas. Primero, la sección final sobre cómo mantenerse al día le ayudará al clínico atareado a ser más eficiente en encontrar, tamizar, valorar, almacenar y aprender la información clínica importante. Segundo, este capítulo ayudará al clínico ocupado a aprender cómo decidir qué datos diagnósticos merecen la pena proseguir. Esta segunda decisión puede hacerse de dos maneras. Primero, el clínico ocupado puede dejar la valoración clínica a los «expertos» y simplemente buscar o evitar los datos diagnósticos sobre la base de las recomendaciones de otros. Todos nosotros hacemos esto cuando nos enfrentamos con lo que constituye (para nosotros) un problema que se presenta raramente y esto ciertamente tiene sentido. Averiguar y valorar críticamente las opciones diagnósticas de una enfermedad que nosotros encontramos solamente dos veces en una década, es una pérdida de nuestro tiempo y es sensato remedar sin discernimiento las actividades diagnósticas de colegas respetables que encuentran dichas enfermedades dos veces por
LA SELECCIÓN DE LAS PRUEBAS DIAGNOSTICAS
65
semana. ¿Pero qué sobre las enfermedades que nosotros encontramos dos veces a la semana? Este capítulo está escrito para ayudar al clínico atareado a valorar críticamente las opciones diagnósticas de tales enfermedades (tanto las opciones de que se dispone ya hoy, como aquéllas que estarán disponibles en el futuro). Tal valoración crítica debe ser puesta en acción cada vez que se nos dice que una parte dada de los datos clínicos es realmente útil en el diagnóstico (¡para excluir!), un trastorno que nosotros encontramos comúnmente (o, por lo menos, considerarlo), en nuestra práctica clínica. Los datos clínicos en cuestión pueden ser un síntoma u otro elemento de la historia del paciente, un signo físico o una prueba de laboratorio y a nosotros nos pudo haber hablado sobre su importancia un maestro, un colega, un consultor, un laboratorio diagnóstico, un libro de texto, una revista clínica o un bombero de visita. Así pues, la valoración clínica empieza actuando sobre la evidencia de la utilidad del signo clínico, el síntoma u otra prueba diagnóstica. Aunque tal evidencia es presentada a veces en un libro de texto o en un artículo clínico, a menudo es simplemente resumido o interpretado en una sesión de educación continuada, o en conversaciones con colegas, consultantes y aquéllos que actúan en los laboratorios de diagnóstico. Debido a que nosotros debemos examinar la evidencia real con el fin de decidir si las afirmaciones de utilidad diagnóstica están justificadas, nosotros no debemos titubear en pedir a estos defensores que nos las den (o al menos nos digan dónde encontrarlas). Para decidir si un signo, síntoma, prueba de laboratorio, radiografía u otra información dada es útil, los clínicos deben valorar la evidencia disponible, usando las ocho guías que se señalan en la tabla 3.1, las cuales se derivan de un cierto número de fuentes (2, 4, 5, 10, 14, 17, 18). ¿Ha habido una comparación «en ciego» independiente con un «patrón oro» del diagnóstico?
Los pacientes que se demuestra (por la aplicación de una prueba de referencia aceptada o «patrón oro» del diagnóstico, tal como una biopsia) que tienen el trastorno objetivo de interés, más un segundo grupo de pacientes que no tienen (por la aplicación de este mismo patrón oro) el trastorno objetivo, deben haber sido sometidos a la entrevista específica, el examen físico, u otras pruebas diagnósticas y hacer que lo interpreten clínicos que no saben (esto es, que están «ciegos») si un paciente dado tuvo realmente la enfermedad. Después, los resultados de estas pruebas diagnósticas deben ser comparados con el patrón oro.
66
EPIDEMIOLOGÍA CLÍNICA
Tabla 3.1. Ocho guías para decidir la utilidad clínica de una prueba diagnóstica. 1. ¿Ha habido una comparación «en ciego» independiente con un «patrón oro» del diagnóstico? 2. ¿Ha sido evaluada la prueba diagnóstica en una muestra de pacientes de la enfermedad que incluya un espectro apropiado de leves y graves, tratados y no tratados, más individuos con trastornos diferentes, pero confundidos ordinariamente? 3. ¿Fue adecuadamente descrito el marco para esta evaluación, así como el filtro a través del cual pasaron los pacientes del estudio? 4. ¿Ha sido determinada la reproducibilidad del resultado de la prueba (precisión) y su interpretación (variación del observador)? 5. ¿Ha sido definido acertadamente el término normal tal como se aplica en esta prueba? 6. Si la prueba está aconsejada como parte de un grupo o serie de pruebas, ¿ha sido determinada su contribución individual a la validez global del grupo o de la serie? 7. ¿Han sido descritos los métodos para llevar a cabo la prueba con suficiente detalle para permitir su replicación exacta? 8. ¿Ha sido determinada la utilidad de la prueba?
Las estrategias y tácticas para esta comparación son cubiertas en detalle en el próximo capítulo. Brevemente, funciona como sigue: primero, el patrón oro se refiere a un diagnóstico definido obtenido mediante biopsia, cirugía, autopsia, seguimiento a largo plazo u otro estándar reconocido. Si usted no puede aceptar el patrón oro (dentro de lo razonable, es decir, ¡nada es perfecto!), entonces usted debe preguntarse si los datos diagnósticos merecen la pena ser recogidos*. Si usted acepta el patrón oro, entonces considere la prueba diagnóstica: ¿Tiene algo que ofrecer que no tenga el patrón oro? Por ejemplo, es menos arriesgada, menos desagradable o embarazosa para el paciente, menos costosa o aplicable más pronto en el curso de la enfermedad. Los datos diagnósticos obtenidos en la historia clínica o en el examen físico, son especialmente importantes a este respecto, porque de ellos se dispone inmediatamente. De nuevo, si la prueba diagnóstica propuesta no ofrece ventaja teórica sobre el patrón oro, ¿por qué leerla con más detalle? Si usted ha aguantado sobre la prueba diagnóstica a lo largo de todo lo que antecede, debe comparar entonces los resultados de la prueba con el patrón oro y formar un juicio sobre la validez global de la prueba diagnóstica, usando cualquiera de los planteamientos (cinturón amarillo, * Por supuesto, el patrón oro no debe incluir el resultado de la prueba diagnóstica como uno de sus componentes, ya que el «sesgo incorporado» resultante invalida toda la comparación (17).
LA SELECCIÓN DE LAS PRUEBAS DIAGNOSTICAS
67
verde, azul, marrón o negro) del capítulo próximo que usted prefiera. Si los niveles de inclusión o exclusión, los valores pronósticos, las tasas de probabilidades o cualquier otra cosa, parece prometedor, usted puede seguir adelante. Si, en cambio, la nueva prueba no es mejor que las existentes, tendría que ser más segura, más fácil, más rápida, menos dolorosa o embarazosa o menos cara para que usted decida usarla. Usar una nueva prueba diagnóstica, simplemente porque es nueva, es ostentoso, pero estúpido. Habiendo comprobado y encontrado una comparación apropiada con un patrón oro, ¿qué hay sobre el elemento de «ceguera»? Esto significa simplemente que aquellos que están llevando a cabo o interpretando la prueba diagnóstica no deben saber si el paciente que se está probando tiene o no tiene realmente la enfermedad de interés; esto es, ellos deben estar «ciegos» sobre el verdadero estado de la enfermedad de cada paciente. Igualmente, aquellos que están aplicando el patrón oro, no deben conocer el resultado de la prueba diagnóstica de ningún paciente. Es solamente cuando la prueba diagnóstica y el patrón oro son aplicados de manera ciega cuando nosotros podemos estar seguros que el sesgo consciente o inconsciente (en este caso, el sesgo de «sospecha diagnóstica») ha sido evitado. Como usted puede recordar, este sesgo fue discutido en el capítulo anterior, en el examen clínico. La discusión anterior se aplica exactamente cuando un signo, síntoma u otra prueba diagnóstica es usada para diagnosticar la causa de la enfermedad de un paciente, la gravedad de esa enfermedad y la respuesta del paciente a la terapéutica. Cuando se usa para predecir el curso clínico subsiguiente del paciente y el pronóstico, o la respuesta probable del paciente a la terapéutica, sin embargo, el clínico que está considerando la utilidad de tales datos diagnósticos debe guiarse también por las reglas de evidencia que se aplican para hacer el pronóstico, y éstas son presentadas en el capítulo 6. ¿Ha sido evaluada la prueba diagnóstica en una muestra de pacientes de la enfermedad que incluya un espectro apropiado de leves y graves, tratados y no tratados, más individuos con trastornos diferentes, pero confundidos ordinariamente?
Una enfermedad florida (tal como una artritis reumatoide de larga duración) presenta, generalmente, un reto diagnóstico mucho menor que la misma enfermedad en una forma precoz o leve, y el valor real de un signo clínico, un síntoma u otra prueba diagnóstica descansa a menudo en su valor pronóstico en casos dudosos. Además, el valor diagnóstico aparente
68
EPIDEMIOLOGÍA CLÍNICA
de algunas pruebas reside realmente en su capacidad para detectar las manifestaciones de la terapia (tales como depósitos radioopacos en las nalgas de los antiguos sifilíticos), más bien que la enfermedad y el usuario potencial debe estar satisfecho que no están siendo confundidos los dos. Finalmente, así como un pato no es confundido, a menudo, con un yak, incluso en ausencia de un análisis cromosómico, la capacidad de una prueba diagnóstica para distinguir entre trastornos no confundidos entre sí, ordinariamente, en primer lugar, es una aprobación escasa para su aplicación amplia. De nuevo, el valor clave de una prueba diagnóstica descansa a menudo en su capacidad para distinguir entre trastornos por otra parte confundidos comúnmente, especialmente cuando su pronóstico o terapia difieren claramente. Es esta propiedad diferencial lo que hace a las determinaciones de la familia T4 tan útiles para distinguir a los pacientes angustiosos, temblorosos, sudorosos, en aquellos con función tiroidea anormal y aquellos otros que tienen otros trastornos.
¿Fue adecuadamente descrito el marco para esta evaluación, así como el filtro a través del cual pasaron los pacientes del estudio?
En el capítulo 12, usted conocerá cómo la proporción de hipertensos con lesiones curables quirúrgicamente varía en casi diez veces, dependiendo de si las mismas pruebas diagnósticas fueron aplicadas a los hipertensos en la práctica general o en un centro de cuidado terciario. Debido a que el valor pronóstico de una prueba cambia con la prevalencia de la enfermedad objetivo, el artículo u otra evidencia que aconseja la prueba, debe comunicarle a usted lo suficiente sobre el sitio del estudio y el filtro de selección de los pacientes, para permitirle a usted calcular el valor predictivo probable de la prueba diagnóstica en los pacientes de su propia práctica. La selección de los sujetos control que no tienen la enfermedad que nos interesa debe ser descrita también. Aunque los auxiliares técnicos de laboratorio y los conserjes pueden ser sujetos de control apropiados, en el comienzo del desarrollo de una nueva prueba diagnóstica (especialmente con el descenso del uso de los estudiantes de medicina como animales de laboratorio), la comparación definitiva con el patrón oro demanda igual cuidado en la selección de los pacientes con la enfermedad objetivo, y aquellos que no la padecen. El clínico que proyecta el uso de la prueba diagnóstica merece alguna seguridad de que las diferencias en los resultados de la prueba son debidas a un mecanismo de la enfermedad, y no simplemente a diferencia de edad, sexo, dieta, movilidad, etcétera, de los casos y de los sujetos control.
LA SELECCIÓN DE LAS PRUEBAS DIAGNOSTICAS
69
¿Ha sido determinada la reproducibilidad del resultado de la prueba (precisión) y su interpretación (variación del observador)?
Como usted aprendió en el capítulo 2, sobre el diagnóstico clínico, la validez de una prueba diagnóstica exige tanto la ausencia de desviación sistemática de la verdad (esto es, la ausencia de sesgo), como la presencia de precisión (la misma prueba aplicada al mismo paciente, sin cambio alguno, debe producir los mismos resultados). La descripción de una prueba diagnóstica debe comunicar a los usuarios potenciales hasta qué extremo pueden esperar ellos que los resultados de la prueba sean reproducibles. Esto es especialmente cierto cuando se requiere habilidad en la realización de la prueba (por ejemplo, el ultrasonido muestra ordinariamente enormes variaciones en la calidad de sus resultados cuando es realizada por diferentes operadores), o en la interpretación (como usted puede recordar del capítulo 2, la variación del observador es un problema importante para las pruebas que implican rayos X, electrocardiografía y parecidos). ¿Ha sido definido acertadamente el término normal tal como se aplica a esta prueba?
Si el artículo u otra fuente usa la palabra «normal», sus autores deben informarle a usted qué quieren decir con eso. Además, usted debe convencerse a sí mismo que la definición de ellos es clínicamente sensata. Varias definiciones diferentes de «normal» son usadas en la medicina clínica y nosotros sostendríamos que algunas de ellas conducen, probablemente, a más perjuicio que provecho. Nosotros hemos relacionado seis definiciones de normal en la tabla 3.2, la mayoría definidas por Murphy (13, 14). Quizás la definición más frecuente de normal asume que los resultados de la prueba diagnóstica (o alguna manipulación aritmética de ellos) para cada uno, o un grupo de personas presumiblemente normales, o para una población de «referencia» cuidadosamente caracterizada, se acomodarán a una distribución teórica específica conocida como la distribución normal o gaussiana. Una de las propiedades agradables de esta distribución gaussiana es que su media, más o menos dos desviaciones estándar, incluye el 95 por 100 de su contenido, dejando un 2,5 por 100 en cada uno de los extremos más altos o más bajos. Por esta razón, la «media, más o menos dos desviaciones estándar», se convirtió en un modo tentador de definir lo normal hace varios años y ha entrado en el uso general. Es una lástima que así ocurriera, porque tres consecuencias lógicas de su uso han conducido a enorme confusión y la creación de un nuevo campo de la medicina, el diagnóstico de la falta de enfermedad (11). Primero, los
70
EPIDEMIOLOGÍA CLÍNICA
Tabla 3.2. Seis definiciones de normal en el uso clínico común. Propiedad.
Término.
Consecuencias de su aplicación clínica.
La distribución de los resultados de la prueba diagnóstica tiene una cierta forma.
Gaussiana.
Debe obtener en ocasiones valores menores de hemoglobina, etc.
Se encuentra dentro de un percentil preestablecido de los resultados previos de la prueba diagnóstica.
Percentil.
Todas las enfermedades tienen la misma prevalencia. Los pacientes son normales, solamente hasta que ellos son estudiados.
No lleva consigo riesgo adicional de morbilidad o mortalidad.
Factor de riesgo.
Asume que alterar un factor de riesgo, altera el riesgo.
A lo que se aspira social o políticamente.
Culturalmente deseable.
Confusión sobre el papel de la medicina en la sociedad.
Rango de resultados de las pruebas más allá de los cuales está, con probabilidad conocida, presente o ausente una enfermedad específica.
Diagnóstica.
Necesidad de conocer los valores predictivos que se aplican en su práctica.
Rango de resultados de las pruebas más alia de los cuales la terapia hace más bien que daño.
Terapéutica.
Necesidad de estar al día de los nuevos conocimientos sobre terapia.
resultados de las pruebas diagnósticas no se ajustan a la distribución gaussiana (realmente, nosotros deberíamos estar agradecidos que no se ajusten; ¡la distribución gaussiana se extiende al infinito en las dos direcciones, necesitando pacientes ocasionales con hemoglobinas imposiblemente altas y otros en el lado menos de cero!). Segundo, si el 2,5 por 100 de los resultados, los más altos y los más bajos de las pruebas diagnósticas, se llaman anormales, entonces todas las enfermedades tienen la misma frecuencia, una conclusión que es también absurda clínicamente.
LA SELECCIÓN DE LAS PRUEBAS DIAGNOSTICAS
71
La tercera consecuencia perjudicial del uso de la definición gaussiana de normal, está compartida por su sustitución más reciente, el percentil. Reconociendo el fracaso de los resultados de las pruebas diagnósticas a acomodarse a una distribución teórica como la gaussiana, algunos laboratorios han sugerido que nosotros ignoremos la forma de la distribución y simplemente nos refiramos (por ejemplo) al 95 por 100 más bajo de los resultados de la prueba, como normal. Aunque la definición de percentil evita el problema de los valores negativos de la prueba, conduce todavía a la conclusión de que todas las enfermedades son de igual prevalencia y contribuye todavía al «síndrome del límite más alto» de la no enfermedad, porque su uso significa que los únicos pacientes «normales» son los que no se han estudiado aún suficientemente (14). Esta inevitable consecuencia surge como sigue: si el rango normal de una prueba diagnóstica dada se define como que incluye el 95 por 100 más bajo de los resultados de la prueba, entonces la probabilidad de que un paciente dado sea llamado «normal» cuando se sujeta a esta prueba, es 95 por 100 ó 0,95. Si este mismo paciente es sometido a dos pruebas diagnósticas independientes (independiente en el sentido de que ellas estén probando órganos o funciones totalmente diferentes), la probabilidad de que este paciente sea llamado normal es ahora (0,95) x (0,95) = 0,90. En realidad, la probabilidad de que cualquier paciente sea llamado normal es 0,95 elevado a la potencia del número de pruebas diagnósticas independientes realizadas en él. Así pues, un paciente que es sometido a 20 pruebas, tiene solamente 0,95 a la potencia 20, o alrededor de una probabilidad en tres, de que sea llamado normal; un paciente que es sometido a 100 de tales pruebas, tiene solamente seis probabilidades en mil de ser llamado normal al final del trabajo diagnóstico*. Otras definiciones de normal, al evitar los peligros anteriores, presentan otros problemas. El planteamiento del factor de riesgo está basado en estudios de precursores o predictores estadísticos de acontecimientos clínicos subsiguientes; según esta definición, el rango normal del colesterol del suero, o de la presión arterial, consiste en aquellos niveles que no llevan consigo riesgo adicional de morbilidad o mortalidad. Desgraciadamente, sin embargo, muchos de estos factores de riesgo muestran aumentos continuos en el riesgo a través de su rango de valores; en realidad, antes de los estudios más recientes que asocian el colesterol bajo con el riesgo de cáncer, se sugirió que el colesterol del suero, «normal» según esta defini* Esta consecuencia de tales definiciones ayuda a explicar los resultados del ensayo aleatorio de pruebas múltiples de screening en los ingresos hospitalarios señalados anteriormente (capítulo 1), que no encontró beneficio para el paciente, pero aumentó los costos del cuidado de la salud cuando se efectuaron tales screening (3).
72
EPIDEMIOLOGÍA CLÍNICA
ción, podía estar por debajo de 150 mg/dl (8). Se pone de manifiesto otro defecto de esta definición de riesgo, cuando nosotros examinamos las consecuencias de actuar sobre un resultado de una prueba que está más allá del valor normal: ¿cambiará realmente el riesgo la alteración de un factor de riesgo? La experiencia reciente con el tratamiento de los niveles anormales de colesterol con clofibrato (en el cual la mortalidad subió, no bajó con el tratamiento) subraya el peligro de esta asunción (15). Un enfoque relacionado define lo normal como aquello que es culturalmente deseable, suministrando una oportunidad para lo que H. L. Mencken llamó «la corrupción de la medicina por la moralidad», mediante la «confusión de la teoría del sano, con la teoría del virtuoso» (12). Uno ve tal definición, en su forma benigna, en los márgenes del movimiento de estilo de vida actual (por ejemplo, «es mejor estar delgado que grueso» y «ejercicio y buena aptitud física son mejores que vida sedentaria y falta de buen estado físico») (9) y, en su forma maligna, en el sistema de cuidado de la salud del III Reich. Tal definición tiene el potencial de un daño considerable y también puede servir para subvertir el papel de la medicina en la sociedad*. Dos definiciones finales son de alta relevancia y utilidad para el clínico, porque ellas se enfocan directamente sobre los actos clínicos de diagnóstico y terapia. La definición diagnóstica identifica un rango de los resultados de las pruebas diagnósticas más allá de los cuales está presente una enfermedad específica (con probabilidad conocida). Es esta definición la que se usa en la primera guía para valorar críticamente una prueba diagnóstica; comparación con un patrón oro. La «probabilidad conocida» con la cual una enfermedad está presente, se conoce formalmente como el valor predictivo positivo (y usted lo encontrará en el capítulo siguiente, tanto por este nombre como por sus alias, la probabilidad posterior o probabilidad de enfermedad después de la prueba, siguiendo a una prueba positiva). Esta definición diagnóstica es la que nosotros subrayaremos aquí y en el capítulo siguiente, donde le mostraremos a usted que la probabilidad conocida con la cual una enfermedad está presente o ausente, depende de dónde colocamos los límites para el rango normal de resultados de las pruebas diagnósticas. Así pues, esta definición tiene valor clínico real, y es una mejoría clara sobre las definiciones descritas anteriormente. Sin embargo, requiere que los clínicos sigan con atención la extensión y limitación diagnóstica.
• Mencken (12) ofreció un punto de vista mordaz similar sobre lo último. «El verdadero fin de la medicina no consiste en hacer virtuosos a los hombres: es la protección y el rescate de las consecuencias de sus vicios».
LA SELECCIÓN DE LAS PRUEBAS DIAGNOSTICAS
73
La definición final de normal fija sus límites en el punto más allá del cual los tratamientos específicos han mostrado concluyentemente que producen más provecho que daño. Esta definición terapéutica es atractiva debido a su vínculo con la acción. La definición terapéutica del rango normal de la presión arterial, por ejemplo, evita los riesgos de etiquetar a los pacientes como enfermos, a menos que ellos vayan a ser tratados. Así pues, en los comienzos de los años sesenta, los únicos niveles de presión arterial diastólica que mostraban concluyentemente que se beneficiaban por los medicamentos antihipertensores, fueron aquéllos que eran superiores a 130 mm Hg (fase V). Luego, en 1967, el primero de una serie de ensayos aleatorios de la Administración de Veteranos de los Estados Unidos, demostró las ventajas claras de iniciar la medicación en los 115 mm Hg, y el límite más alto de la presión arterial normal, mediante la definición terapéutica, cayó a dicho nivel (20). En 1970, el límite superior de la presión arterial normal fue bajado a 105 mm Hg, con la publicación y aceptación del segundo informe del ensayo de la Administración de Veteranos (21), y cuando este libro va a la imprenta está en marcha un activo debate sobre si el límite superior de esta definición terapéutica debe ser bajado a 90 mm Hg (1, 7, 16, 19). Obviamente, el uso de esta definición terapéutica requiere que los clínicos se mantengan al día en los avances terapéuticos y así ayuda a integrar las tres secciones de este libro. Cuando valore la evidencia sobre la utilidad de una (nueva) prueba diagnóstica, entonces, usted debe convencerse a sí mismo que los autores han definido lo que ellos quieren decir por normal y que ellos lo han hecho así, de una manera sensata y clínicamente útil.
Si la prueba es aconsejada como parte de un grupo o serie de pruebas, ¿ha sido determinada su contribución individual a la validez global del grupo o de la serie? En muchas circunstancias, una prueba diagnóstica individual examina solamente una de las diversas manifestaciones del trastorno subyacente. Por ejemplo, en el diagnóstico de la trombosis venosa profunda, el pletismógrafo de impedancia examina el vaciado venoso, mientras que el escáner de la pierna con fibrinógeno-I125, examina el movimiento de los factores de coagulación en el sitio de la trombosis (6). Además, la pletismografía es mucho más sensible en la trombosis venosa proximal que en la distal, mientras que lo contrario es cierto para el escáner de la pierna. Como consecuencia de ello, estas pruebas son mejor aplicadas en serie. Si la pletismografía de impedancia es positiva, está hecho el diagnóstico y el tratamiento empieza enseguida; si la pletismografía es negativa, comienza el
74
EPIDEMIOLOGÍA CLÍNICA
escáner de la pierna y la decisión diagnóstica y el tratamiento aguardan sus resultados. Siendo esto así, es clínicamente absurdo basar un juicio del valor del escáner de la pierna en una simple comparación de sus resultados, solamente contra el patrón oro de la venografía. Más bien, su acuerdo con la venografía entre pacientes sintomáticamente apropiados con pletismograña de impedancia negativa es una valoración apropiada de su validez y utilidad clínica. Otra apreciación válida compararía la combinación de escáner de la pierna y la pletismografía de impedancia con el patrón oro de la venografía. En resumen, cualquier componente individual de un grupo de pruebas diagnósticas debe ser evaluado en el contexto de su uso clínico. ¿Han sido descritos los métodos para llevar a cabo la prueba con suficiente detalle para permitir su replicación exacta?
Si los proponentes de una prueba diagnóstica han concluido que usted debería usar su prueba, ellos tienen que decirle a usted cómo hacerla, y su descripción debe cubrir tanto los asuntos relacionados con el paciente como la mecánica para realizar e interpretar la prueba. ¿Existen requisitos especiales de líquidos, dieta o actividad física? ¿Qué medicamentos concomitantes deben ser evitados? ¿Cuan dolorosa es la técnica y qué se hace para aliviarle? ¿Qué precauciones deben tomarse durante y después de la prueba? ¿Cómo debe ser transportado y almacenado el espécimen para su ulterior análisis? Estas medidas y precauciones deben ser descritas, si usted y su paciente se han de beneficiar de esta prueba diagnóstica. ¿Ha sido determinada la utilidad de la prueba?
El criterio último para una prueba diagnóstica o cualquier otra maniobra clínica es si el paciente es mejorado por ello. Si usted coincide con este punto de vista, debe examinar la evidencia para ver si sus patrocinadores han ido más allá de las cuestiones anteriores de exactitud, precisión, y parecidas, para explorar las consecuencias a largo plazo del uso de la prueba diagnóstica. Además de decirle a usted lo que les ha ocurrido a los pacientes correctamente clasificados por la prueba diagnóstica, sus patrocinadores deben describir la suerte de los positivos falsos (pacientes con resultados positivos de la prueba que realmente no tienen la enfermedad) y los negativos falsos (pacientes con resultados negativos que tienen realmente la
LA SELECCIÓN DE LAS PRUEBAS DIAGNOSTICAS
75
enfermedad). Además, cuando la ejecución de una prueba requiere un retraso en la iniciación de la terapia definitiva (mientras que la técnica está siendo reprogramada, la prueba se está incubando o las preparaciones están esperando ser observadas), las consecuencias de este retraso deben ser descritas. Por ejemplo, uno de nosotros forma parte del grupo que ha estudiado el valor de las pruebas no agresivas en el diagnóstico de los pacientes con trombosis venosa de la pierna, sospechada clínicamente y nosotros ensayamos la norma de retener los anticoagulantes a los pacientes con pletismografía de impedancia negativa (una prueba rápida), hasta que, y a menos que ellos presentaran escáneres de la pierna con fibrinógeno-I125 positivos (6). Esta última prueba tarda de varias horas a varios días para hacerse positiva, cuando los trombos venosos son pequeños o están confinados a la pantorrilla, y es importante, por consiguiente, determinar y comunicar si algunos pacientes sufren eventos embólicos clínicos durante este intervalo (afortunadamente ellos no lo sufrieron). Además, estas investigaciones de la pletismografía de impedancia y el escáner de la pierna, contra el patrón oro de la venografía, han incluido documentación de las consecuencias de tratar a los positivos falsos y de retener el tratamiento a los negativos falsos. La semejanza de este planteamiento con la definición terapéutica de la normalidad merece ser señalada*. Aplicando las guías anteriores, usted deberá ser capaz de decidir si un signo, síntoma u otra prueba diagnóstica, será útil en su práctica, si no lo será, o si todavía no ha sido evaluado apropiadamente. Dependiendo del contexto en el cual usted está considerando la prueba, una u otra de las ocho guías será la más importante y usted puede proceder con ella. Si esto ha sido satisfecho en una forma creíble, usted puede seguir adelante con las otras; si la guía más importante no le ha satisfecho a usted, puede descartar esa evidencia y pasar a otra evidencia más pertinente. Así pues, usted puede mejorar la eficacia con la que usa el escaso tiempo de estudio. Cuando está intentando escoger el más útil de un conjunto de signos, síntomas u otras pruebas diagnósticas competidoras para el mismo trastorno objetivo, estas guías le suministran a usted con una base para compararlas entre sí. Sobre la base de esta comparación, puede escoger una o varias que mejor satisfacen sus requisitos clínicos, y puede ahorrarse usted, el paciente y aquéllos que en definitiva pagarán la factura por la ejecución de técnicas innecesarias.
* A este propósito, nosotros pensamos que es una lástima que el término eficacia diagnóstica se ha deslizado en la literatura especialmente, dado que es usado como un sinónimo de exactitud más que de utilidad.
76
EPIDEMIOLOGÍA CLÍNICA
Las ocho guías que nosotros hemos presentado aquí, constituyen cuestiones justas a preguntar a cualquiera que está patrocinando la prosecución de signos, síntomas u otros datos específicos en un esfuerzo para diagnosticar una enfermedad dada. La aplicación de estas guías le permitirá a usted producir una corta lista de datos diagnósticos útiles a buscar en la enfermedad con la que usted se encuentra. Además, estas guías deberán ayudarle también a decidir si ha de reemplazar o suplementar sus búsquedas diagnósticas actuales por otras nuevas y cuándo hacerlo. Habiendo decidido qué signos, síntomas y otros datos diagnósticos buscar, ¿cómo interpretaría usted los resultados de esta búsqueda? De esto es de lo que trata el capítulo siguiente.
Bibliografía 1. Australian National Blood Pressure Study Management Committee. The Australian therapeutic trial in mild hypertension. Lancet 1: 1261, 1980. 2. Department of Clinical Epidemiology and Biostatistics, McMaster University, Hamilton, Ontario. How to read clinical journals: II. To learn about a diagnostic test. Can. Med. Assoc. J. 124:703, 1981. 3. Durbridge, T. C, Edwards, F, Edwards, R. G., and Atkinson, M. An evaluation of multiphasic screening on admission to hospital. Précis of a report to the National Health and Medical Research Council. Med. J. Aust. 1: 703, 1976. 4. Galen, R. S., and Gambino, S. R. Beyond Normality: The Predictive Valué and Efficiency of Medical Diagnoses. New York: Wiley, 1975. 5. Griner, P. F, Mayewski, R. J., Mushlin, A. I., and Greenland, P. Selection and interpretation of diagnostic tests and procedures: Principies and application. Ann. Intern. Med. 94:553, 1981. 6. Hull, R., Hirsh, J., Sackett, D. L., et al. Combined use of leg scanning and impedance plethysmography in suspected venous thrombosis. An alternative to venography. N. Engl. J. Med. 296: 1497, 1977. 7. Hypertension Detection and Followup Cooperative Group. Five-year findings of the Hypertension Detection and Followup Program: I. Reduction in mortality of persons with high blood pressure including mild hypertension. J.A.M.A. 242: 2562, 1979. 8. Kannel, W. B., Dawber, T. R., Glennon, W. E., and Thorne, M. C. Preliminary report: The determinants of clinical significance of serum cholesterol. Mass. J. Med. Technol. 4: 11, 1962. 9. Lalonde, M. A New Perspective on the Health of Canadians. A Working Document. Ottawa: Government of Canadá, 1974. 10. McNeil, B. J., Varady, P. D., Burrows, B. A., and Adelstein, S. J. Measures of clinical efficacy: Cost-effectiveness calculations in the diagnosis and treatment of hypertensive renovascular disease. N. Engl. J. Med. 293: 211, 1975. 11. Meador, C. K. The art and science of nondisease. N. Engl. J. Med. 272: 92, 1965. 12. Mencken, H. L. A Mencken Chrestomathy. Westminster: Knopf, 1949. 13. Murphy, E. A. The normal, and the penis of the sylleptic argument. Perspect. Biol. Med. 15: 566, 1972.
LA SELECCIÓN DE LAS PRUEBAS DIAGNOSTICAS
77
14. Murphy, E. A. The Logic of Medicine. Baltimore: Johns Hopkins, 1976. 15. Oliver, M. F., Heady, J. A., Morris, J. N., and Cooper, J. W.H.O. cooperative trial on primary prevention of ischaemic heart disease using clofibrate to lower serum cholesterol: Mortality followup. Lancet 2: 379, 1980. 16. Peart, W. S., and Miall, W. E. MRC working party on mild to modérate hypertension. MRC mild hypertension trial. Lancet (letter) 1: 104, 1980. 17. Ransohoff, D. F, and Feinstein, A. R. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. N. Engl. J. Med. 299: 926, 1978. 18. Sackett, D. L. Clinical diagnosis and the clinical laboratory. Clin. Invest. Med. 1: 37, 1978. 19. United States Public Health Service Hospitals Cooperative Study Group. Smith, W. M. Treatment of mild hypertension: Results of a ten-year intervention trial. Circ. Res. 40 (Suppl.): 98, 1977. 20. Veterans Administration Cooperative Study Group. Effects of treatment on morbidity in hypertension: I. Results in patients with diastolic blood pressures averaging 115 through 129 mm Hg. J.A.M.A. 202: 1028, 1967. 21. Veterans Administration Cooperative Study Group. Effects of treatment on morbidity in hypertension: II. Results in patients with diastolic blood pressures averaging 90 through 114 mm Hg. J.A.M.A. 213: 1143, 1970.
4 La interpretación de los datos diagnósticos
Los dos capítulos anteriores se enfocaron sobre la producción de hipótesis diagnósticas y la recogida de datos clínicos sobre las mismas. Este capítulo se enfocará sobre las estrategias y las técnicas para interpretar los datos diagnósticos, tanto los datos clínicos que proceden de la historia y del examen físico (donde, como usted debe recordar, son confirmados la gran mayoría de los diagnósticos), como los datos paraclínicos que vienen del laboratorio de química clínica, el departamento de rayos X, el servicio de anatomía patológica y otros laboratorios diagnósticos. La importancia de los datos clínicos merece ser subrayada. Aunque la mayoría de las explicaciones de cómo interpretar los datos diagnósticos se limitan a sí mismas a los informes de laboratorio, los mismos principios de estrategias y tácticas se aplican igualmente a los asuntos de la historia clínica y a los hallazgos del examen físico. Además, los síntomas y los signos producen, generalmente, pruebas de las hipótesis diagnósticas mucho más poderosas que las que nosotros podemos derivar jamás del laboratorio clínico.
Así pues, aunque nosotros usaremos una prueba de laboratorio, la determinación de la cinasa de creatina como el ejemplo repetido para ilustrar los diferentes modos de interpretar los datos diagnósticos que siguen, nosotros le ayudaremos a recordar sus más amplias aplicaciones, incluyendo diversos ejemplos de la historia y del examen físico también. Además, aunque emplearemos una definición «diagnóstica» de normal a todo lo largo de este capítulo, estas mismas estrategias y tácticas se aplican también a la definición «terapéutica». Por tanto, nosotros podemos interpretar los signos, los síntomas y los resultados de las pruebas de los pacientes con trombosis venosa profunda sospechada, en términos, bien de probabilidad de que ellos tienen verdaderamente trombosis venosa profunda, o bien de probabilidad de que ellos se beneficiarán verdaderamente de la terapia anticoagulante. 79
80
EPIDEMIOLOGÍA CLÍNICA
Se ha escrito mucho sobre la interpretación de las pruebas diagnósticas, y es muy fácil ahogarse en los gráficos, las tablas, las curvas, las fórmulas y la jerga técnica asociada. Nosotros hemos intentado eliminar lo no esencial, las porciones pedantes y hemos sintetizado el resto en cinco trozos del tamaño de un bocado, cada uno de los cuales es independiente, digerible en una sola sentada y contiene algunas características que pueden ser aplicadas en el buen uso clínico. El primer trozo, por ejemplo, es sencillo, pero poderoso, y está hecho enteramente con gráficos y no usa matemáticas o jerga técnica nueva. Los trozos posteriores se convierten en progresivamente complejos y necesitan que usted aprenda alguna terminología nueva y use algunas matemáticas, necesitando finalmente un calculador manual. Para ayudarle a usted a seguir la pista, hemos etiquetado también estos trozos con la jerarquía de los cinturones que se le conceden a los estudiantes de las artes marciales*. Trozo # 1: Cinturón amarillo: Haciéndolo con gráficas. Trozo #2: Cinturón verde: Haciéndolo con una sencilla tabla. Trozo #3: Cinturón azul: Haciéndolo con una tabla compleja. Trozo #4: Cinturón marrón: Haciéndolo con matemáticas sencillas en su cabeza. Trozo # 5: Cinturón negro: Haciéndolo con matemáticas más complejas y un calculador manual. Usted puede parar en el cinturón que quiera, y puede incluso saltar del cinturón amarillo al cinturón marrón. Los cinturones negros (¡y sus pacientes!) obtendrán el máximo de los datos diagnósticos, pero incluso los cinturones amarillos pueden beneficiarse. Trozo #1: Cinturón amarillo: Haciéndolo con gráficas
En la Royal Infirmary de Edimburgo, todos los pacientes de menos de setenta años de edad, que se sospecha han tenido un infarto de miocardio en las últimas cuarenta y ocho horas, son admitidos en la unidad de cuidados coronarios. Como la mayoría de las unidades coronarias, ésta se llenó de enfermos poco después de que abriera en 1966, y los que la tenían a su cargo reconocieron la necesidad de diferenciar, tan rápidamente como fuera posible, entre aquellos pacientes que realmente habían tenido un * ¡En vista del ataque de las nuevas pruebas diagnósticas y la andanada de resultados de laboratorio no pedidos, que asaltan al clínico de primera línea, la analogía con el arte de la autodefensa es especialmente apropiada!
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
81
infarto de miocardio (y debían permanecer en la unidad) y aquellos que no lo tuvieron (y podían ser trasladados a otro sitio) (33). El staff pensó que las elevaciones en el nivel de cinasa de creatina (CPK en el pasado, CC ahora) les podía ayudar a diagnosticar el infarto de miocardio más pronto que por la medición de las enzimas que se elevaban más tarde, como el aspartato aminotransferasa (GOT anteriormente, ASP ahora). Por consiguiente, ellos midieron la CC al ingreso, y en las dos mañanas siguientes, en 360 pacientes consecutivos que fueron admitidos en su unidad coronaria y que vivieron lo suficiente para que se les tomase las muestras de sangre. Un clínico que estaba «ciego» sobre los resultados de la CC, revisó los electrocardiogramas, las historias clínicas y los informes de autopsia de todos los 360 ingresados*. Los pacientes con ondas Q patológicas, elevación ST e inversiones subsiguientes de la onda T, o autopsias positivas fueron designados infartos «muy probables», y aquellos con menos cambios diagnósticos del ECG (en general, solamente anormalidades ST y de la onda T) fueron etiquetados «posibles». Estos dos grupos totalizaron 230; los 130 pacientes restantes se juzgó que no tenían infarto de miocardio. Cuando ellos examinaron los niveles de CC más altos alcanzados por cada uno de los 230 pacientes que tuvieron infarto y los 130 pacientes que no lo tuvieron, los resultados fueron como los que aparecen en la figura 4.1. En el extremo superior de la escala CC hay 35 pacientes en los que se presentó un infarto, pero ninguno de aquellos en los que no hubo infarto, que tenían niveles máximos de 480 unidades internacionales (UI) o más alto. En el extremo inferior de la escala, solamente 2 pacientes en los que se presentó un infarto, pero 88 en los que no hubo infartos tuvieron niveles máximos de CC menores de 40 UI†. Aunque nosotros podemos proceder directamente desde aquí a una discusión de los «niveles diagnósticos de CC», convirtamos estos grupo de números en gráficos que serán más fáciles de seguir. Primero, convertiremos estos números en porcentajes, que los harán más fáciles de comparar (y serán convenientes más adelante). Esto se hace para usted en la fig. 4.2.
* Si usted no está seguro por qué es crucial que este clínico estuviera «ciego» sobre los resultados de CC, nosotros le sugeriríamos que vuelva al capítulo anterior y revise la primera guía para decidir si usar una prueba diagnóstica particular. † ¡Ay!, la cinasa de creatina se mide de modos distintos en los diferentes laboratorios clínicos (las determinaciones usadas en este texto fueron llevadas a cabo en la mitad de los años sesenta, usando una preparación comercial a 30° C). Como consecuencia de ello, es muy improbable que usted pueda aplicar directamente los niveles de CC y las interpretaciones que aparecen aquí, a su propia práctica y hospital. Hable con su químico clínico local para ver si existe un modo de traducir nuestras cifras para adaptarse a su situación local.
82
EPIDEMIOLOGÍA CLÍNICA
Figura 4.1. Niveles máximos de CC, cuando está presente o ausente el infarto de miocardio: datos crudos.
Figura 4.2. Niveles máximos de CC cuando el infarto de miocardio está presente y ausente: datos crudos convertidos en porcentajes.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
83
Figura 4.3. Un diagrama de barras de los niveles máximos de CC cuando el infarto de miocardio está presente y ausente.
En esta figura, los 35 pacientes de infarto con niveles máximos de 480 CC o más altos constituyeron el 15 por 100 de todos los pacientes de infarto, mientras que los 88 pacientes sin infarto, cuyos niveles máximos de CC estuvieron por debajo de 40, abarcaron el 67 por 100 del grupo de pacientes en los que estuvo ausente el infarto*. Debido a que la mayoría de los clínicos encuentran que los gráficos y otras ilustraciones son más fáciles de manejar que las tablas de números, nosotros hemos dado un paso adelante y convertido los porcentajes de la figura 4.2, en el gráfico de barras que se muestra en la figura 4.3. Ahora los porcentajes son más fáciles de comprender. Los niveles de CC entre los pacientes con infarto hacen un pico una vez entre 80 y 160 UI (a propósito, el grupo de «posible» infarto) y, de nuevo, más allá de 480 (un grupo de infartos «muy probables»). En el lado derecho, los pacientes en los cuales no hay infartos, están agrupados por debajo de 40 UI. * Sí, nosotros sabemos que 88/130 está más cerca del 68 por 100 que del 67 por 100, pero nosotros queremos que aquellos tres pacientes que tienen niveles más bien altos de CC, pero sin infartos, estén representados como 1 por 100 cada uno de ellos, de modo que nosotros hemos redondeado las cosas para mantener el porcentaje total del 100 por 100.
84
EPIDEMIOLOGÍA CLÍNICA
Finalmente, los números y las líneas entre las barras pueden ser eliminados, y los resultados finales ordenados aparecen en la figura 4.4. Desgraciadamente, y como en la mayoría de los datos clínicos, existe un cierto grado de solapamiento; los niveles máximos de CC desde menos de 40, hacia arriba hasta 320, fueron encontrados tanto cuando los infartos estuvieron presentes como cuando no los hubo. No obstante, ¿podemos aprovecharnos nosotros del hecho que solamente los pacientes de infarto mostraron niveles máximos de CC de 320 o más? Seguro que podemos. Nosotros pudimos establecer una línea divisoria (o corte) entre los niveles normales y anormales de CC en 320 UI y producir la situación que se muestra en la figura 4.5. Estableciendo el corte (al cual hemos etiquetado, y), en 320 UI, nosotros podemos confiar que cada paciente sospechoso de infarto (en ausencia de lesión de músculo esquelético por la reanimación, inyección intramuscular, etcétera), con un nivel de CC de 320 o más alto, tiene un infarto de miocardio. Así pues, cuando el nivel es de 320 o más, podemos «dictaminar» un infarto. ¿Hemos ganado nosotros mucho por haber elegido un corte, por encima del cual residirán solamente los pacientes con infarto? Sí y no. Por una parte, nosotros podemos diagnosticar con confianza por lo menos algunos pacientes con infarto, y tratarlos de acuerdo con ello. Por otra parte, este corte determinante recoge solamente alrededor de un tercio ([35 + 8 + 7 + 15 + 19]/230 = 37%) de los 230 pacientes con infarto y no podemos distinguir el 63 por 100 restante de aquellos que no tienen infartos. Así, de un total de 360 ingresos en la unidad de cuidados coronarios (230 con infarto y 130 sin él), nosotros hemos logrado un diagnóstico firme (refiriéndonos atrás a la figura 4.1) en (35 + 8 + 7 + 15 + 19)/360, o el 23 por 100 de todos los ingresos. Un segundo problema con este corte «absoluto», más allá del cual solamente están situados los pacientes con infarto, se hace patente cuando nosotros pensamos sobre los siguientes 360 ingresos en la unidad y los 360 siguientes después de ellos. ¿Producirán ellos un rango idéntico de resultados de CC? Casi, pero no completamente. Los grupos subsiguientes de pacientes se comportarán, por término medio, como el primer grupo. Los infartos leves se agruparán entre las 80 y las 160 UI, y los graves a 460, o más allá, y los pacientes sin infarto se amontonarán por debajo de 40 UI. Sin embargo, el rango de resultados de CC puede convertirse en mayor, nunca en menor, a medida que son examinados más pacientes. Cuanto más pacientes observamos, más probable es que encontremos pacientes, quienes, aunque no tienen ni infarto ni lesión de los músculos esqueléticos, presentan resultados
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
85
Figura 4.4. Un histograma de los niveles máximos de CC cuando está presente y ausente el infarto de miocardio.
Figura 4.5. miocardio.
Un corte absoluto para los niveles máximos de CC en el infarto de
86
EPIDEMIOLOGÍA CLÍNICA
Figura 4.6. Un corte en el 99 % de los niveles máximos de CC en el infarto de miocardio. de CC más y más altas. Tales pacientes serán completamente raros, comprendiendo no más del 1 por 100, o, a lo más, el 2 por 100 del total, pero se presentarán y cuanto más pacientes examinemos, mayores serán nuestras oportunidades de encontrar a estos «alejados». Como consecuencia de ello, si nosotros nos adherimos a una definición «absoluta» de nuestro corte determinante y, más allá del cual solamente residen los pacientes con infarto, nosotros nos veremos forzados a mover el corte a niveles siempre más extremos; inevitablemente, este corte y nos ayudará a diagnosticar una porción cada vez más reducida de los pacientes que nosotros encontramos. ¿Existe alguna salida de este dilema? Sí, si nosotros relajamos nuestro corte, exactamente un poquito. Teniendo presente que los valores extremos serán completamente raros (comprendiendo solamente el 1-2 por 100 de todas las observaciones), ¿qué ocurriría si nosotros revisamos nuestros cortes de modo que ellos excluyan el 99 por 100 de los pacientes con y sin infartos, más bien que todo el 100 por 100 de ellos? El muy útil resultado aparece en la figura 4.6. Ahora, el corte determinante y, al desviarse para permitir que el 1 por 100 de los pacientes más altos que no tienen infarto se deslice por encima del corte, ha bajado el corte a 280 UI y ahora comprende el 42 por 100,
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
87
más bien que el 37 por 100 de todos los infartos. Además, ha aparecido un segundo corte, al incluir el 1 por 100 más bajo de todos los pacientes de infarto. Este segundo corte, que nosotros hemos designado x, puede ser usado para excluir los infartos de miocardio cuando el nivel máximo de CC permanece por debajo de 40 UI. Por debajo de este corte están solamente el 1 por 100 de los infartos, pero si están el 67 por 100 de los pacientes sin infarto, de modo que nosotros hemos ganado muchísimo. Refiriéndonos de nuevo a la figura 4.1, de nuestros 360 pacientes originales, que nosotros podemos incluir o eliminar como infartos de miocardio en (35 + 8 + 7 + 15 + 19 + 13 + 88)/36O, o el 51 por 100 de ellos, a costa de haber perdido dos infartos (cuyos niveles máximos de CC fueron menores de 40 UI) y sobrediagnosticando un paciente que estaba libre de infarto (pero que tenía niveles de CC de 280 UI, o más alta). Así pues, ¡estos sencillos niveles de inclusión y exclusión pudieron manejar más de la mitad de los pacientes que se presentaron con infarto de miocardio sospechado clínicamente! No existe nada consagrado sobre escoger un corte del 99 por 100; puede ser del 98, 96 ó 99,5 por 100, si usted lo desea. El factor importante para decidir dónde situarlo, debe ser su juicio clínico sobre qué es mejor para los pacientes afectados. Por ejemplo, si el tratamiento de un trastorno era inocuo y el exceso de diagnóstico no produjo ni vergüenza ni angustia entre aquellos pacientes que fueron falsamente etiquetados, usted puede querer relajar el corte y de inclusión para excluir solamente el 95 por 100 de los pacientes que no tienen el trastorno objetivo. Por otra parte, si los pacientes sufrieron realmente al ser etiquetados con el trastorno objetivo (por ejemplo, cáncer, enfermedad venérea o esquizofrenia), el papel del corte y determinante debe ser establecido muy alto, de modo que excluya al 99 ó 99,5 por 100 de los que no están enfermos. De modo similar, si el diagnóstico y la terapia precoz fueran esenciales para obtener resultados clínicos satisfactorios, como en muchos programas de «screening» neonatales (por ejemplo, fenilcetonuria, hipotiroidismo neonatal), usted querría un corte x de exclusión suficientemente bajo, de modo que su uso recoja virtualmente o absolutamente, todos los pacientes con el trastorno objetivo (esta es la razón por lo que muchos lactantes que resultan positivos en el «screening» para estos trastornos, se observa en pruebas ulteriores, que son normales; nosotros no queremos perder ningún caso). Consideremos brevemente cómo estos cortes de inclusión y exclusión se acomodan a las estrategias diagnósticas que nosotros hemos descrito en el capítulo 1. Primero, el corte y de inclusión es al que nosotros recurrimos cuando estamos diagnosticando por el reconocimiento del modelo, ¿no es así? Nosotros estamos buscando la confirmación de que nuestra «instantánea» diagnóstica era correcta. Segundo, cuando nosotros estamos usando la estrategia hipotético-
88
EPIDEMIOLOGÍA CLÍNICA
deductiva, nosotros debemos estar buscando aquellos síntomas, signos clínicos y pruebas de laboratorio que nos ayudan a reducir nuestra lista de hipótesis. Aunque los cortes de inclusión (y) pueden ayudar, nosotros ganaremos más usando aquí los cortes de exclusión (x), porque ellos se encontrarán más frecuentemente y cuando se encuentren eliminarán hipótesis de nuestra lista. Esta atención a los cortes de exclusión ayudarán también a vencer nuestra tendencia corriente, descrita en el capítulo 1, a proseguir lo meramente compatible, más bien que los signos y resultados decisivos de las pruebas. Así pues, ahí tiene. Si usted comprendió lo anterior, usted se deberá conceder a sí mismo un cinturón amarillo en diagnóstico. Puede hacerse todo con gráficas y no necesita ninguna terminología nueva o matemáticas. En resumen, hacerlo con gráficos: 1. Escoja los síntomas, los signos o las pruebas en donde el solapamiento entre los pacientes que tienen y que no tienen el trastorno objetivo, es tan pequeño como sea posible. Si usted no sabe qué síntomas, signos o pruebas son estas, pregúntele a sus colegas clínicos, radiólogos o de laboratorio, que afirman ser expertos en la subespecialidad relevante (¡y rápidamente se enterará si ellos lo son)! 2. Vea si usted puede encontrar gráficos como la figura 4.3 a 4.6; si no, usted debe ser capaz de construirlas a partir de los datos sin procesar, tales como los de la figura 4.1 (sencillamente siga los pasos que nosotros hemos efectuado para producir las figuras ulteriores de la serie). Los grupos de pacientes de los que se han originado estas figuras no deben ser simplemente montones de casos clásicos, por una parte, y estudiantes de medicina jóvenes y robustos, por otra; ¡la mayoría de nosotros puede señalar la diferencia entre estos dos grupos sin ninguna prueba diagnóstica en absoluto! Como usted debe recordar del capítulo anterior, los grupos de pacientes deben ser aquéllos en los cuales el trastorno objetivo se sospecha realmente, como un apartado legítimo de la lista de las hipótesis. 3. Decida si usted quiere establecer los cortes estrictos (99 por 100), o sueltos (95 por 100), para sus niveles de inclusión y exclusión (recordando que usted puede mezclarlos y, por ejemplo, establecer el y en 100 por 100 y el x en 95 por 100). 4. Añada estos cortes a los gráficos e identifique los resultados de las pruebas diagnósticas que correspondan a los cortes y de inclusión y a los cortes x de exclusión.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
89
5. Si usted lleva una libreta de notas de bolsillo de los valores normales, usted puede añadir sus cortes de inclusión y exclusión a las otras diferentes «perlas» en este respecto. Además, como le mostraremos a usted en el capítulo 10, estos cortes (especialmente cuando se aplican a síntomas y signos) pueden formar un punto de partida para revisar su propia actuación clínica. Por muy sencillo que sea, usted no puede remediar haberse dado cuenta de que «haciéndolo con gráficos» deja un gran montón de pacientes en el medio, con demasiados síntomas, signos clínicos o resultados de pruebas de laboratorio para descartar el trastorno objetivo, pero no los suficientes para incluir el trastorno objetivo. Hay dos modos diferentes de manejar este gran grupo de pacientes del medio, de modo que usted debe tomar una decisión ahora sobre a dónde ir desde aquí. Si usted quiere aprender (más) sobre sensibilidad, especificidad, valor pronóstico, curvas de COR * y todo eso, usted puede continuar leyendo este libro de modo continuado y seguir a través de los cinturones verde y azul con tablas sencillas y complejas. Si, en cambio, usted ya sabe lo que quiere saber sobre estas cosas y quiere saltar adelante a una estrategia más poderosa (la que nosotros pensamos se convertirá en el planteamiento estándar de la mayoría de los que hagan diagnósticos en 1990), salte los cinturones verde y azul y vaya directamente al cinturón marrón (pág. 140), donde usted aprenderá (más) sobre cómo usar las proporciones de probabilidad, para interpretar los síntomas, los signos y los resultados de las pruebas de laboratorio. Trozo # 2: Cinturón verde: Haciéndolo con una sencilla tabla
En la figura 4.7, nosotros hemos desplazado los pacientes con infarto de miocardio (trazo continuo), sobre el mismo lado que los pacientes sin infartos de miocardio (línea de trazos). Observe que las dos líneas se cruzan en 80 UI. Seleccionando este valor de 80 UI, como corte, nosotros podemos lanzar a los pacientes de infarto nuevamente donde estuvieron y preparar la figura 4.8 †. * COR es un acrónico de Características Operativas de Receptores (o Respuestas), y viene de los primeros tiempos del radar y otras estrategias de imágenes, cuando los intérpretes tenían que distinguir «señales» causadas por los aeroplanos del «ruido» causado por otras fuentes. † Existen, por supuesto, muchos modos de escoger los cortes. La propiedad útil de este corte particular es que minimiza el número de pacientes que son etiquetados falsamente de tener un trastorno objetivo dado (cuando ellos no lo tienen), o de no tenerlo (cuando sí lo tienen). Esta propiedad guía también la selección de corte cuando las líneas se cruzan varias veces; use la intersección que minimiza el etiquetado falso.
90
EPIDEMIOLOGÍA CLÍNICA
Figura 4.7. La intersección de los valores CC en los pacientes en los cuales está presente o ausente el infarto de miocardio.
Figura 4.8. Uso de un corte en 80 UI de CC en el diagnóstico de infarto de miocardio.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
91
Colocando el corte en 80 UI, por encima del cual el resultado de la prueba CC será designado positivo y por debajo del cual será negativo, nosotros hemos creado cuatro grupos de pacientes: a) pacientes de infarto con resultados positivos (los positivos verdaderos); b) pacientes que aunque ellos no tienen infartos, tienen resultados positivos (los positivos falsos); c) pacientes de infarto con resultados de prueba negativa (los negativos falsos); y, d) pacientes sin infarto cuyos resultados de la prueba son negativos (negativos verdaderos). La prueba CC ha clasificado correctamente a los pacientes de los grupos a y d. Las pruebas del a son positivas, y están diciendo la verdad; tales pacientes (y tales resultados de la prueba) son mencionados a menudo como «positivos verdaderos». De modo similar, los resultados negativos de la prueba en el grupo d también están diciendo la verdad; ellos no tienen infarto. Así pues, ellos son llamados «negativos verdaderos». Sin embargo, los resultados de la prueba CC han suministrado una imagen falsa de los pacientes de los grupos b y c. En el grupo b, el resultado de la prueba es positivo, pero los pacientes no tienen infarto; así pues, estos pacientes y sus resultados de la prueba son llamados «positivos falsos». En el grupo c, se crea la otra imagen falsa; los pacientes del grupo c tienen infartos, pero sus resultados de la prueba son negativos. De acuerdo con ello, son llamados «negativos falsos». Estas relaciones pueden ser mostradas también usando una sencilla («2 x 2» o «cuádruple») tabla, y dado que esto es lo que constituye todo el trozo, nosotros hemos producido la tabla 4.1. Esta tabla corresponde exactamente con la figura 4.8; los pacientes con infarto están a la izquierda, los que no tienen infarto están a la derecha. La mitad superior de la tabla se refiere a los resultados positivos de la prueba CC, los de la mitad inferior son negativos. Los cuatro espacios cuadrados interiores, llamados celdas, Tabla 4.1. Haciéndolo con una sencilla tabla.
92
EPIDEMIOLOGÍA CLÍNICA
son designados a, b, c y d, porque ellas corresponden exactamente a los grupos a, b, c y d de la figura 4.8*. Una vez que usted está pensando cómodamente sobre la tabla (más que sobre los gráficos del trozo anterior), nosotros podemos proceder a colocar los pacientes en ella. Vuelva atrás a la figura 4.1 y añada nuestro corte en 80 UI (esto simplemente exige una línea horizontal que corta a través del número 80 en la escala de CC). Entre los pacientes de infarto, todos aquellos que están por encima de este corte (positivos verdaderos) pertenecen a la celda a de nuestra nueva tabla, y los pacientes con infarto por debajo del corte (negativos falsos), van a la celda c. Por otra parte, los pacientes que no tienen infarto, aquellos que están por encima del corte, son positivos falsos y pertenecen a la celda b y aquellos que están por debajo del corte son los negativos verdaderos y pertenecen a la celda d. Cuando nosotros mismos hicimos esto, los resultados semejaron a la tabla 4.2. Así pues, usando este corte en estos pacientes, nosotros tenemos 215 pacientes verdaderos de infarto de miocardio con resultados positivos de la prueba en la celda a, 16 pacientes positivos falsos con resultados de la prueba positivos pero sin infarto en la celda b, 15 pacientes de infarto negativos falsos con resultados de la prueba negativos en la celda c, y 114 pacientes negativos verdaderos sin infarto y con resultados negativos de la prueba en la celda d. Habiendo rellenado la tabla, nosotros podemos efectuar ahora algunas sencillas manipulaciones en ella y producir algunos índices clínicamente útiles del valor de hacer las determinaciones de CC en los pacientes en los cuales nosotros sospechamos infarto de miocardio. Este «haciéndolo con una sencilla tabla» se comienza en la tabla 4.3. Esta tabla ha continuado la suma que nosotros comenzamos en la tabla 4.2 y muestra ahora: (a + c): El número total de pacientes con infartos, independientemente de sus resultados de las pruebas = 230. (b + d): El número total de pacientes que no tienen infartos, independientemente del resultado de sus pruebas = 130. (a + b): El número total de pacientes con resultados positivos de las pruebas, esta vez, independientemente de si ellos tienen o no infartos = 231.
* Nosotros seguiremos la orientación de las filas y las columnas que aparecen en la tabla 4.1 a lo largo de este libro, pero usted se encontrará con artículos que cambian las localizaciones de los pacientes afectados y no afectados, giran la tabla entera noventa grados, etcétera. Es importante, por consiguiente, comprobar cómo están orientadas y dispuestas tales tablas antes de intentar interpretarlas.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
93
Tabla 4.2. Rellenando una sencilla tabla.
(c + d): El número total de los pacientes con resultados negativos de las pruebas, independientemente de si ellos tienen o no infartos = 129. (a + b + c + d): La suma total de todos los pacientes investigados = (a + c) + (b + d) o (a + b) + (c + d) = 360. ¿Y qué? ¿Qué hemos conseguido nosotros convirtiendo nuestros atractivos gráficos en esta achaparrada tabla? Da la casualidad que nosotros hemos hecho posible la aclaración de dos intuiciones importantes sobre los signos, los síntomas y las pruebas de laboratorio. Primero, este planteamiento de la tabla nos permite describir de un modo conciso, económico y fácilmente recordable cuan «buenos» son estos datos clínicos para ayudarnos a decidir si los pacientes tienen el trastorno objetivo. Segundo, el planteamiento de esta tabla nos permite reconocer una inconstancia crucial de los datos diagnósticos, la cual, a menos que nosotros la comprendamos, nos causa una gran pérdida de tiempo y esfuerzo diagnóstico.
94
EPIDEMIOLOGÍA CLÍNICA
Tabla 4.3. Preparados para producir algunos índices de utilidad clínica. Infarto de miocardio Presente Resultado de la
Positiva ( ≥ 80 UI)
prueba CC
Negativa (< 80 UI)
Ausente
215
16 a
b
a + b
c
d
c + d
15
114 a + c
230
231
b + d
129
a + b + c + d 130
360
Empecemos con la descripción concisa de cuan «buena» es realmente la prueba CC (o para ese asunto, cualquier prueba diagnóstica). Para ayudarnos a recordar las diversas mediciones de cuan «buena» es una prueba y para contribuir a comunicar éstas mutuamente, han sido desarrollados una serie de términos médicos para designar a cada uno de ellos y nosotros las introduciremos seguidamente. En la tabla 4.3 encontramos los resultados positivos y negativos de la prueba diagnóstica, en las filas superiores e inferiores respectivamente. Las columnas verticales representan lo que tiene el paciente «realmente», basado en toda la información restante sobre ellos, incluyendo los datos de la autopsia. Debido a que esta otra información se consideró que era más sólida o más cierta que los resultados de CC, las columnas verticales de esta tabla y las similares, se consideran como representativas del patrón oro. Así pues, en la tabla 4.3 el patrón oro de los electrocardiogramas seriados, el curso clínico, y los resultados de la autopsia nos dicen si los pacientes tienen o no realmente infartos*. ¿Cuan buena es la prueba CC en los pacientes con infarto? Bien, entre los 230 que tenían infarto —esto es (a + c), en la parte baja de la columna de la izquierda—, los 215 pacientes de la celda a tenían resultados positivos, y 215/230 o a/(a + c), resulta 0,93 ó 93 por 100. Así pues, el 93 * Como usted puede haber imaginado ya (¡o protestado!), la selección y definición de los patrones oro son arbitrarios y representan un consenso de expertos contemporáneos. Aunque los patrones oro actuales tienden a ser definidos en términos de anatomía patológica, ellos están evolucionando para incluir elementos importantes del curso clínico subsiguiente y del pronóstico de los pacientes con diferentes resultados de las pruebas diagnósticas.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
95
por 100 de los pacientes con infarto tenían pruebas CC positivas y el término taquigráfico para esta propiedad es sensibilidad. Aunque usted verá que, en general, el término sensibilidad se usa para indicar esta «positividad en la enfermedad» o proporción de pacientes con el trastorno objetivo que tienen un resultado positivo de la prueba, el término sensibilidad tiene otros significados científicos*, y usted puede querer usar algunos de los sinónimos de a/(a + c). Ellos incluyen: 1.
La tasa PiD (con disculpas para el gonococo y otras causas de «pelvic inflamatory disease» (enfermedad inflamatoria pélvica), por «Positivity in Disease», positividad en la enfermedad, PeE. Este sinónimo tiene la ventaja de ser un acrónimo (sus iniciales le recuerdan a usted su definición).
2.
La tasa de positivos verdaderos o tasa de PV, basada en la celda a como la residencia para los resultados positivos verdaderos de las pruebas. Este término se usa a menudo en las discusiones más avanzadas del diagnóstico (usted la encontrará si estudia para cinturón azul), pero sufre (junto con la sensibilidad) de no dejar claro cuál debe ser el denominador de la tasa; se supone que sea (a + c) o (positivos verdaderos más positivos falsos).
Reconociendo que la medida de la capacidad de una prueba diagnóstica para detectar la enfermedad cuando está presente, puede recibir cualquiera de los tres nombres (sensibilidad = tasa PeE = tasa PV), usted puede hacer su elección y reetiquetar las tablas y discusiones subsiguientes que le convenga a usted. Eso en cuanto a la capacidad de la prueba para detectar el trastorno objetivo cuando está presente. ¿Qué hay sobre la capacidad complementaria para identificar correctamente la ausencia de un trastorno objetivo? Observe de nuevo la tabla 4.3. Entre 130 pacientes que no tenían infartos (esto es, b + d) en la parte inferior de la segunda columna, los 114 enfermos de la celda d tenían resultados negativos de la prueba, y 114/130 o d(b + d) es igual a 0,88 ó 88 por 100.†. Así pues, el 88 por 100 de los pacientes que no tenían infartos, tenían pruebas CC negativas, y el término taquigráfico para esta propiedad es especificidad.
* El otro significado de sensibilidad, con el cual usted está probablemente más familiarizado, es la capacidad de un método analítico para detectar cantidades muy pequeñas de alguna sustancia diana. † La discrepancia del 1 por 100 entre las figuras 4.2,4.3 y 4.6 y este valor del 88 por 100 es debida al redondeo de los porcentajes totales en las cifras anteriores.
96
EPIDEMIOLOGÍA CLÍNICA
Tabla 4.4. La sensibilidad y especificidad de la prueba CC en el infarto de miocardio.
De nuevo, aunque especificidad es el término más comúnmente usado para esta propiedad, también ella tiene otro significado científico * y usted puede querer usar sinónimos de d/(b + d): 1. La tasa NiH (con disculpas para Bethesda, hogar de los National Institutes of Health), por «Negativity in Health», Negatividad en la Salud, NeS. Otro acrónimo, la «S», no siempre es correcto, porque aunque se refiere a pacientes que no tienen el trastorno objetivo, ellos no están necesariamente sanos. 2. La tasa de negativo verdadero o tasa de NV, basada en la celda d como residencia de los resultados negativos verdaderos de la prueba. Es la contrapartida de la tasa de PV y tienen ventajas y desventajas similares. Como con la sensibilidad, escoja el término que usted encuentre más sensato para d/(b + d) y úselo, recordando que la especificidad = tasa NeS = tasa NV = d/(b + d). La tabla 4.4 resume dónde hemos llegado hasta ahora. * El otro significado científico de especificidad es la capacidad de un método analítico para detectar una sustancia diana individual y no otras.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
97
Así pues, la prueba CC tiene una sensibilidad (tasa PeE, tasa PV) del 93 por 100, y una especificidad (tasa de NeS, tasa de NV) del 88 por 100. ¿Es esto bueno o malo? ¿Cómo se compara con otros datos diagnósticos? Para ayudarle a usted a averiguarlo, hemos resumido la sensibilidad y la especificidad de 10 síntomas, signos o pruebas de laboratorio, y éstos aparecen en la tabla 4.5. Esta tabla contiene muchas lecciones para nosotros (además de documentar en su penúltima entrada, que la CC del suero es una prueba diagnóstica totalmente buena). Las dos primeras entradas muestran cuan útiles pueden ser una historia clínica y un examen físico cuidadoso, bien dirigidos, en el diagnóstico tanto de un amplio grupo de lesiones estructurales del tracto gastrointestinal superior, como de una lesión anatómica específica en un vaso coronario específico. La tercera entrada nos recuerda que nosotros usamos los datos diagnósticos por razones distintas de las diagnósticas, y la alta sensibilidad de la cuarta entrada documenta el poder de cualquier prueba cuya sensibilidad se acerca al 100 por 100; si la prueba es negativa (en este caso, si la vena retiniana late), el paciente no tiene el trastorno objetivo y tales pruebas son muy útiles para descartar hipótesis diagnósticas. Una comparación de las diversas pruebas diagnósticas para el cáncer de próstata, nos recuerda de nuevo que un examen físico adecuado, cuidadoso, puede suministrar datos más útiles que los que nosotros obtendremos del laboratorio. Estas pruebas, más la prueba de la supresión de la dexametasona que sigue, subraya la especificidad y por eso parece constituir pruebas relativamente poderosas para «incluir» sus trastornos objetivos respectivos (llegaremos a esto en un minuto). El diagnóstico de la trombosis venosa profunda revela cómo puede ser usada una combinación de dos pruebas diagnósticas diferentes, y las entradas para la enfermedad pancreática muestran cómo pueden usarse la sensibilidad y la especificidad para comparar dos pruebas diagnósticas diferentes para la misma situación. Finalmente, la última entrada ilustra otro uso de las pruebas diagnósticas; la confirmación de un diagnóstico entre los pacientes con pruebas de «screening» positivas. Observe cómo el corte para un resultado positivo de la prueba ha sido bajado para incluir virtualmente todos los embarazos afectados. Pero, ¡aguarde un minuto! ¡Toda esta charla sobre las tasas de sensibilidad y especificidad (tasa PeE y tasas NeS; tasas de PV y NV) resuelve el problema erróneo! ¡Cuando nosotros usamos clínicamente las pruebas diagnósticas, no sabemos realmente quién tiene y quién no tiene el trastorno objetivo; si lo supiéramos, nosotros no necesitaríamos la prueba diagnóstica! Nuestro interés clínico no es vertical de sensibilidad y especificidad, sino horizontal del significado de los resultados positivos y negativos de la prueba. Volvamos a la tabla 4.3 y clasifiquémoslos.
Tabla 4.5. Sensibilidades y especificidades de algunas pruebas diagnósticas.
100
EPIDEMIOLOGÍA CLÍNICA
La fila superior de esta tabla presenta 231 resultados positivos de la prueba, mostrado por el total (a + b). De éstos, los 213 de la celda a tuvieron verdaderamente infarto. De acuerdo con ello, a/(a + b) o 215/231, o 0,93 ó 93 por 100 de los pacientes con pruebas de CC positivas tuvieron infartos. Esta es la proporción de pacientes con resultados de la prueba positivos que tienen el trastorno objetivo y su nombre taquigráfico es el valor de predicción positivo. Sus sinónimos son: 1. El valor de predicción de una prueba positiva (¡un modo bastante más largo de decir la misma cosa!). 2. La probabilidad posprueba * de enfermedad después de una prueba positiva. Esta designación kilométrica es una que usted puede no querer usar ahora, pero que encontrará si va a por el cinturón marrón. 3. La probabilidad posterior de enfermedad, después de una prueba positiva. Este es otro conjunto de términos del cinturón marrón. 4. La probabilidad de enfermedad posprueba, después de una prueba positiva, es el término que nosotros usaremos aquí. La segunda fila de la tabla 4.3 presenta 129 resultados negativos de la prueba, mostrados por el total (c + d). De éstos, los 114 en la celda d no tenían infartos. Así pues, d¡(c + d), ó 114/129, ó 0,88, ó 88 por 100 de los pacientes con resultados negativos de CC no tenían infartos. Esta proporción de pacientes con resultados negativos de las pruebas, que no tienen el trastorno objetivo, recibe el nombre taquigráfico de valor de predicción negativo. Sus sinónimos son análogos a los que ya hemos encontrado: 1. 2.
El valor de predicción de una prueba negativa. La verosimilitud posprueba de no enfermedad, después de una prueba negativa. 3. La probabilidad posterior de no enfermedad, después de una prueba negativa f4. La probabilidad posprueba de no enfermedad, después de una prueba negativa. * A diferencia de sensibilidad, especificidad, los valores de predicción o probabilidades (los cuales pueden ser expresados en decimales o porcentajes), las verosimilitudes se expresan como oportunidades. Debido a que éstas pueden ser desconocidas para muchos lectores, los usaremos escasamente y a menudo describirán pacientes en términos de sus probabilidades, antes y después de la prueba, de un trastorno objetivo. t Usted puede querer usar el complemento de este término, la probabilidad posprueba, probabilidad posterior de enfermedad después de una prueba negativa. Esta es la proporción c/(c + d), o, en este caso, 15/129 = 0,12 ó 12 por 100, y usted observará que el 12 por 100 (calculado aquí), más el 88 por 100 (calculado precisamente en el texto) = 100 por 100. Usted puede no querer usar éste ahora, pero un recuerdo de su origen será útil cuando (y si) usted tome el cinturón marrón.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
101
Nosotros hemos actualizado la tabla 4.3 para incluir todos estos términos, y ello aparece en la tabla 4.6. ¡Ahora eso parece mucho más útil clínicamente!*. Más del 90 por 100 de los pacientes con resultados de CC de 80 UI, o más, tienen infartos; y casi el 90 por 100 de los pacientes con resultados de CC menores de 80 UI no tienen infartos. ¿Correcto? ¡No totalmente! Aquí es donde nosotros conseguimos la segunda intuición, muy importante, sobre los datos diagnósticos: su inconstancia. Los valores de predicción de los signos, síntomas y pruebas de laboratorio diagnósticos, no son constantes, sino que deben cambiar con la proporción de pacientes que tienen realmente el trastorno objetivo, entre aquéllos que son sometidos a la evaluación diagnóstica. Para mostrarle a usted por qué es esto así, retrocedamos y empecemos con una característica adicional de la tabla 4.6. La tabla contiene 360 pacientes, ingresados consecutivamente en una unidad de cuidados coronarios, con sospecha de infarto de miocardio. De estos 360 pacientes (que, por cierto, representan la suma de las celdas a, b, c y d), 230 o (a + c), resultó que tenían infarto de miocardio. Esto es, (a + c)/(a + b + c + d), ó 230/360, ó 0,64, ó 64 por 100. Esta proporción de pacientes enfermos entre todos los pacientes probados, (a + c)/(a + b + c + d), también tiene unos cuantos nombres: prevalencia, la probabilidad de enfermedad antes de la prueba, la probabilidad anterior de la enfermedad, o la probabilidad de enfermedad antes de la prueba. Usted usará, por ahora, los términos prevalencia y probabilidad de preprueba; usted encontrará los
otros, si va por el cinturón marrón. Ahora suponga que un grupo de clínicos, en otro hospital que no tenía unidad de cuidados coronarios, se impresionaran tanto con la realización de la prueba CC de Edimburgo, que ellos decidieran usarla rutinariamente en todos sus ingresos hospitalarios (salvo aquéllos con traumatismos de los músculos esqueléticos), en los cuales el infarto de miocardio fue considerado incluso remotamente. Por supuesto, nosotros esperaríamos que la prevalencia, o probabilidad preprueba de infarto de miocardio sería mucho más baja entre estos ingresos generales que en la unidad coronaria. La proporción (a + c)/(a + b + c + d) puede ser 10 por 100, más bien que 64. ¿Y qué? ¿Importaría realmente? Bien, si los niveles de CC entre los ingresos generales con y sin infarto de miocardio fueron como los de los pacientes de la unidad de cuidados coronarios (esto es, si el corte de 80 UI * A propósito, el hecho de que el valor de predicción positivo y la sensibilidad (ambos 93 por 100), y la especificidad y el valor de predicción negativo (ambos 88 por 100), son idénticos, es casualidad, debido al hecho de que las celdas b y c son virtualmente iguales. Esto ocurre raramente, y usted no debe derivar ninguna generalización de ello.
Tabla 4.6. La sensibilidad, la especificidad y los valores de predicción de la prueba CC en los ingresos de una unidad de cuidados coronarios.
Tabla 4.7. La sensibilidad, la especificidad y los valores de predicción de la prueba CC en el infarto de miocardio en los ingresos de un hospital general.
104
EPIDEMIOLOGÍA CLÍNICA
produjo una sensibilidad del 93 por 100 y una especificidad del 88 por 100), el uso de la prueba CC en los ingresos hospitalarios generales produciría los resultados decepcionantes mostrados en la tabla 4.7. En esta tabla, la sensibilidad es del 93 por 100 y la especificidad es del 88 por 100, como antes (usted puede compararlos con la tabla 4.6, si lo desea). Sin embargo, los valores de predicción han cambiado dramáticamente, y ahora, ¡la mayoría de los pacientes con pruebas CC positivas no tienen infartos! La explicación es honesta, aunque quizás no inmediatamente obvia y puede ser comprendida comparando las entradas en la celda b de las tablas 4.6 y 4.7. Aunque la especificidad (la tasa NeS, la tasa NV) fue la misma, 88 por 100 en ambas tablas, el número de pacientes que no tenían infartos (b + d) se elevó de 130 en la tabla 4.6 a 2.070 en la tabla 4.7. Debido a que el 12 por 100 de estos pacientes termina en la celda b (dado que el 88 por 100 de ellos van a la celda d), la celda b se elevó de 16 pacientes en la tabla 4.6 a 248 pacientes en la tabla 4.7, y por eso excedió los 215 pacientes en la celda a de ambas tablas*. Aunque la caída del valor de predicción positivo (probabilidad posprueba de enfermedad) es el efecto más dramático de una caída de la prevalencia (probabilidad preprueba de enfermedad), usted puede haber notado una elevación concomitante en el valor de predicción negativo (probabilidad posprueba de no enfermedad) del 88 por 100 en la tabla 4.6, a 99 por 100 en la tabla 4.7. La explicación de este cambio es análogo a la de la caída en el valor de predicción positivo y se enfoca sobre la celda d. ¿Es esta inconstancia un fenómeno generalizable? Desgraciadamente, sí lo es. A medida que cae la prevalencia, el valor de predicción positivo debe caer junto con ella, y el valor de predicción negativo debe elevarse†. * Lo anterior asume no cambio en la sensibilidad y especificidad de la prueba diagnóstica, cuando cambia la prevalencia. Aunque faltan datos convincentes, la sensibilidad podía disminuir con los cambios en la prevalencia, si, por ejemplo, los infartos entre los ingresos generales hospitalarios fueran menos graves, así como menos frecuentes. La especificidad pudo caer también, si, por ejemplo, más pacientes sin infarto, en las salas generales, han recibido accidentalmente inyecciones intramusculares (las cuales pueden producir resultados positivos falsos de la prueba CC). Si cayó la sensibilidad, la celda a se haría más pequeña y la celda c más grande y ambos valores de predicción caerían aún más. De modo similar, una caída en la especificidad haría a la celda b más grande y la celda d más pequeña, y ambos valores de predicción caerían. La enseñanza es: cuando la prevalencia cae, la sensibilidad y la especificidad pueden cambiar, pero el valor de predicción debe cambiar. † Para usar nuestros otros términos: A medida que cae la probabilidad de preprueba o probabilidad de enfermedad, debe caer junto con ella la probabilidad de posprueba o la probabilidad de enfermedad después de una prueba positiva y la probabilidad posprueba o probabilidad de no enfermedad, después de una prueba negativa, debe elevarse; o, a medida que la probabilidad anterior de enfermedad cae, debe caer junto con ella la probabilidad posterior de enfermedad, después de una prueba positiva y la probabilidad posterior de no enfermedad después de una prueba negativa, debe elevarse.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
105
Incluso un signo, síntoma o prueba de laboratorio excelente, con una sensibilidad y una especificidad del 95 por 100, perderá valor de predicción positivo y ganará valor de predicción negativo, a medida que cae la prevalencia. Nosotros mostramos esto en la tabla 4.8 para un rango de valores de prevalencia. Un examen de esta tabla sugiere que, a medida que cae la prevalencia, parece que usted aprende mucho más de la ausencia de un signo, síntoma de una prueba de laboratorio negativa, que de la presencia de un signo o síntoma, o una prueba positiva. Eso sería agradable si fuera cierto y realmente se acomodaría muy delicadamente en el planteamiento hipotético deductivo del diagnóstico, porque ayudaría a acortar nuestra lista de hipótesis, demostrando que algunas de ellas son insensatamente improbables y deben ser eliminadas. A la vista de este último punto, ¿por qué decimos nosotros que solamente parece ser cierto que nosotros aprendemos más de los datos diagnósticos negativos que de los positivos en prevalencia baja? Mire ahora a la línea de la parte baja de la figura 4.8. Es un complemento de la fila que está encima de ella y da la probabiliad de que el paciente tiene la enfermedad después de un resultado negativo de la prueba (así pues, las dos últimas filas de cada columna siempre suman 100 por 100). Ahora, compare las entradas en esta última fila con las de la fila de la parte superior (la prevalencia o probabilidad de enfermedad antes de la prueba). En la parte media de la tabla ellas están muy separadas. Por ejemplo, cuando la probabilidad preprueba (prevalencia) de la enfermedad es de 50 por 100, la ausencia de un signo, un síntoma o de una prueba negativa excelente la cae en el 45 por 100, a una probabilidad posprueba de enfermedad de solamente el 5 por 100, y una hipótesis diagnóstica anterior completamente plausible, ahora merece rechazo. Sin embargo, la caída de la probabilidad de preprueba a posprueba, después de los datos diagnósticos negativos, se convierte en progresivamente más pequeña a medida que nos movemos hacia la probabilidad de preprueba más bajas (prevalencia). Así pues, cuando una hipótesis diagnóstica es extraordinariamente improbable, es decir una probabilidad de preprueba (prevalencia) del 5 por 100, la ausencia de un signo, síntoma o resultado negativo de la prueba clave, aquélla cae solamente 4,7 por 100, a una probabilidad posprueba de 0,3 por 100 y usted ha aprendido muy poco. Por eso, por tanto, es por lo que nosotros decimos que parece ser cierto que con una baja prevalencia (o baja probabilidad de preprueba) de la enfermedad, usted aprende más de los datos diagnósticos negativos que de los positivos. ¿Qué ocurre si el signo, síntoma o prueba de laboratorio no es excelente? ¿Qué ocurre si son datos diagnósticos más típicos, cuya sensibilidad (tasa PeE, tasa de PV) es del 85 por 100 y cuya especificidad (tasa NeS,
Tabla 4.8. El efecto de la prevalencia sobre el valor predictivo de un signo, síntoma, o prueba de laboratorio excelente (porcentajes)*. Prevalencia Probabilidad preprueba o probabilidad anterior de enfermedad
99
95
90
80
70
60
50
40
30
20
10
5
1
0,5
0,1
Valor predictivo de una prueba positiva (Probabilid ad posterior de enfermedad después de un resultado positivo de la prueba)
99,9
99,7
99,4
99
98
97
95
93
89
83
68
50
16
9
2
Valor predictivo de una prueba negativa (Probabilid ad posterior de no enfermedad después de un resultado de la prueba negativo)
16
50
68
83
89
93
95
97
98
99
99,4 99,7
99,9
99,97 99,99
(Probabilidad posterior deenfermedad después de un resultado de la prueba negativo)
84
50
32
17
11
7
5
3
2
1
0,6 0,3
0,1
0,03
* Tanto la sensibilidad como la especificidad son iguales a 95% en cada caso.
0,01
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
107
Figura 4.9. El efecto de la prevalencia sobre los valores predictivos de una prueba diagnóstica típica.
tasa de NV), es del 90 por 100? Nosotros hemos preparado un gráfico comparando esta situación con la de la tabla 4.8, que aparece en la figura 4.9. Una comparación de los resultados de estas dos capacidades diferentes de la prueba, representada en la figura 4.9, confirma (¡esperamos!) su intuición de que el cambio (elevación o caída) de la probabilidad de enfermedad preprueba a posprueba es silenciada (y usted aprende menos), cuando la sensibilidad (tasa NeE, tasa de PV) y/o la especificidad (tasa NeS, tasa de NV) son disminuidas. Una consecuencia de lo anterior es que usted consigue el máximo de un signo, síntoma o prueba de laboratorio (esto es, usted logra la mayor elevación o caída de la probabilidad de enfermedad de preprueba a posprueba), cuando la probabilidad de preprueba (prevalencia o probabilidad antes de la prueba) de la enfermedad es del 40 al 60 por 100. Esto se muestra en la figura 4.10.
108
EPIDEMIOLOGÍA CLÍNICA
Figura 4.10. Las ventajas de una probabilidad preprueba de 40 % a 60 % En el ejemplo que se muestra en esta figura, la sensibilidad y la especificidad de la prueba diagnóstica es del 75 y 85 por 100, respectivamente. Dado que la línea de trazos que corre diagonalmente a través de la tabla, representa una prueba diagnóstica completamente inútil (sensibilidad y especificidad ambas iguales al 50 por 100) cuanto más «arqueadas» están las curvas (esto es, cuanto más altas son la sensibilidad y la especificidad) mayor será el cambio de probabilidad de preprueba a posprueba del trastorno objetivo. Por otra parte, para cualquier prueba diagnóstica, el cambio de probabilidad prueba a posprueba del trastorno objetivo es máximo cuando la probabilidad preprueba es del 50 por 100. A este nivel, la presencia del hallazgo clínico o de un resultado positivo de la prueba afianza virtualmente el diagnóstico, y los datos diagnósticos negativos eliminan eficazmente el trastorno objetivo de su lista de hipótesis. Dicho de otro modo, un signo, síntoma o prueba de laboratorio es del máximo uso diagnóstico para usted cuando está en un dilema «50:50» y no puede decidir si el
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
109
paciente tiene el trastorno objetivo o no. ¡Gracias a Dios, nuestras tablas y fórmulas convergen con nuestro sentido común!*. ¿Cómo consigue usted la máxima probabilidad de preprueba (prevalencia) al 40 por 100, al 60 por 100? Triunfar ha sido, durante mucho tiempo, uno de los misterios que, debido a que fueron difíciles de estudiar y articular, fueron llamados tradicionalmente el «arte» de la medicina. Así pues, cuando preguntados (¡por qué demonios!) nuestros maestros han hecho las preguntas clave al enfermo, buscando el signo físico patognomónico, o pedido la prueba de laboratorio definitiva, la mayoría de ellos refunfuñaron sobre Osler, «presentimientos irlandeses», Avicena, Willie Sutton y el «juicio clínico». Lo que ha ocurrido realmente es el cumplimiento de un elemento de «la ciencia del arte de la medicina». Estos diagnosticadores han obtenido, sin que nosotros (o incluso, a veces ellos) nos diésemos cuenta de ello, puntos específicos en la historia y el examen físico del paciente, que han significado una probabilidad preprueba del trastorno objetivo en un rango del 40 al 60 por 100. Nosotros ilustraremos esto con un problema diagnóstico común en el cuidado primario y la medicina interna: el paciente ambulatorio con dolor torácico episódico. La lista de hipótesis para tales pacientes incluye, generalmente, la enfermedad de la arteria coronaria, y nosotros consideramos a menudo pedir un electrocardiograma de ejercicio. Una prueba de ejercicio positiva sugiere enfermedad de la arteria coronaria grave (y nosotros podemos querer proceder a una angiografia coronaria y «bypass» aortocoronario), y una prueba de ejercicio negativa nos tranquilizará, así como al paciente, y dirigiremos nuestro esfuerzo diagnóstico en otra dirección. ¿Lo hará? La tabla 4.9 resume la especificidad y sensibilidad del electrocardiograma de ejercicio en la estenosis de la arteria coronaria (el patrón oro para este trastorno objetivo fue la arteriografía coronaria) (2). Los pacientes de esta tabla tenían varios síndromes de dolor torácico y fueron sometidos tanto a electrocardiografía de ejercicio, como a arteriografía coronaria. Usando la segunda, como el patrón oro, el ECG de ejercicio tenía una sensibilidad del 60 por 100, y una especificidad del 91 por 100 cuando se seleccionó para el corte 1 mm de la depresión del segmento ST†. * Aquellos que se maravillan sobre el sentido común de esta situación, pueden querer considerar si la nueva información tiene un impacto mayor cuando nosotros estamos inseguros sobre un asunto, que cuando nosotros estamos casi seguros sobre ello. † Por supuesto, existen más cosas en el ECG de ejercicio que el grado de depresión del segmento ST, pero en los pacientes que inspiraron los ejemplos B y C, estos otros componentes no fueron útiles. Ellos lograron sus tasas de latidos cardiacos de acuerdo con la edad, en cargas de trabajo apropiadas, sus respuestas de presión arterial fueron normales, tampoco mostraron ninguna arritmia y ambos se quejaron de ligero dolor en la parte anterior del cuello, dos minutos antes del final de sus pruebas, que desaparecían tan pronto como ellos bajaban de la bicicleta.
110
EPIDEMIOLOGÍA CLÍNICA
Tabla 4.9. La sensibilidad y especificidad del ECG de esfuerzo en la estenosis de la arteria coronaría.
Consideremos ahora tres pacientes ambulatorios con dolor torácico episódico, en los cuales nosotros estamos considerando pedir un ECG de ejercicios. El paciente A es un hombre de cincuenta y cinco años de edad, ligeramente hipertenso, con una historia de cuatro semanas de dolor opresivo subesternal que se irradia al cuello, la mandíbula inferior y a lo largo del interior del brazo izquierdo. Se produce al subir escaleras, o al andar cuesta arriba, y desaparece a los 3 a 5 minutos de descanso. El tuvo un episodio leve mientras se estaba desnudando para su exploración y cuando su dolor estaba desapareciendo, usted piensa que está oyendo un galope S4. Usted decide que él tiene la clásica angina de esfuerzo y considera pedir un ECG de ejercicio para averiguar el diagnóstico. El paciente B es un hombre de treinta y cinco años de edad que, por otra parte, está sano y no tiene factores de riesgo coronario. El ha tenido «pirosis» durante años, y ahora comunica una historia de seis semanas de un dolor, no en el ejercicio, dolor de apretones, profundo, debajo de la
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
111
parte baja del esternón y el epigastrio, que se irradia directamente hasta la espalda. Se presenta con más probabilidad cuando se tumba después de una comida pesada. El resto de su historia y su examen físico son negativos. Usted piensa que su dolor es debido a un espasmo esofágico, y perseguirá este diagnóstico, pero juzga que un ECG de ejercicio descartará una enfermedad coronaria significativa y de ese modo resolverá la incertidumbre de ambos. El paciente C es un hombre de cuarenta y cinco años de edad, con una historia pasada negativa y sin factores de riesgo coronarios, salvo el hábito de fumar un paquete de cigarrillos al día. El comunica una historia de tres semanas de dolor precordial y subesternal, generalmente pasajero y del tipo de pinchazo, pero en ocasiones como si un gran peso estuviera sobre su pecho; no está relacionado con el ejercicio. En el examen físico usted encuentra una unión costocondral que está ligeramente abultada, pero que apretando sobre ella no produce el dolor del paciente. Usted concluye que él puede tener angina atípica y se pregunta si no podría ayudar un ECG de ejercicio. ¿Cuáles son sus cálculos de las probabilidades, antes de la prueba, de estrechamiento de la arteria coronaria significativo, en cada uno de estos pacientes? Pruebe a apuntarlas en el margen o, si usted está compartiendo este libro con otros, sobre un trozo de papel. Realmente, nosotros sabemos bastante sobre sus probabilidades antes de la prueba. Basado en los angiogramas o en las autopsias de varios miles de pacientes con angina típica y atípica, y con síndromes dolorosos no anginosos (7), sus probabilidades preprueba de estenosis coronaria significativa deben ser: para el paciente A, muy altas (por lo menos del 90 por 100); para el paciente B, muy bajas (alrededor del 5 por 100); y para el paciente C, intermedias (alrededor del 50 por 100). ¿Cuan cercanas fueron sus estimaciones de probabilidad antes de la prueba, con estas cifras publicadas? Como indicamos en el capítulo 2 sobre desacuerdo clínico, los clínicos pueden no estar de acuerdo entre sí muy considerablemente cuando se les pidió que estimaran la probabilidad de trastornos específicos, a partir de los signos y síntomas del paciente (10). Sin embargo, la exactitud de tales predicciones se eleva, a medida que los clínicos obtienen más experiencia sobre el trastorno objetivo específico que ellos están intentando predecir (12). Además, estas predicciones se hacen más exactas cuando la información relevante es organizada en tablas (8), algoritmos (13) o árboles de decisión computerizados (6, 12, 29). Existen aquí dos mensajes. Primero, si usted es ya un «experto» en el trastorno objetivo, está probablemente sobre terreno sólido para obtener probabilidades preprueba a partir de los datos clínicos, por lo menos para su propio ambiente. Segundo, si usted no es un experto, entonces usted puede,
112
EPIDEMIOLOGÍA CLÍNICA
o bien convertirse en uno, enviar su paciente a uno que lo es, o hacer uso de las tablas útiles de probabilidades preprueba, cada vez más frecuentes y de los algoritmos que se encuentran en los libros de texto, artículos de revistas y, cada vez más, en ordenadores. Existe aquí un terreno intermedio. Si usted no está completamente seguro de su estimación de probabilidades preprueba, pero puede especificar con toda confianza un rango dentro del cual debe estar situada, usted puede calcular el valor de predicción o probabilidad posprueba, para el punto central de este rango, así como para sus extremos. En economía esto se llama «análisis de la sensibilidad» (no confundir con la «sensibilidad» de una prueba diagnóstica), y le permite a usted determinar cuánto de la probabilidad posprueba es afectada por la incertidumbre de la probabilidad preprueba. En muchos otros casos, la incertidumbre sobre la probabilidad preprueba de enfermedad puede ser crucial, y nosotros suministraremos un ejemplo de un análisis de sensibilidad más adelante. Por ahora, volvamos al ejemplo del ECG de ejercicio. Dadas las estimaciones de los estudios anteriores, y la sensibilidad y especificidad del ECG de ejercicio, mostrado en la tabla 4.9, ¿cuan útil será el ECG de ejercicio en estos tres pacientes? Una vez más, nosotros le sugerimos que interrumpa la lectura y anote su estimación de la utilidad del ECG de ejercicio en cada paciente. Nosotros pensamos que el ECG de ejercicio es inútil en el diagnóstico de los pacientes A y B, ni siquiera debería ser llevado a cabo en ellos (por lo menos con propósitos diagnósticos). En el paciente C, sin embargo, nosotros pensamos que el ECG de ejercicio será extraordinariamente valioso. Las razones de nuestros juicios, si no son ya obvias, deben estar claras en la tabla 4.10. El panel A de esta tabla nos muestra que la probabilidad preprueba del paciente A del 90 por 100 está muy poco influida por los resultados del ECG de ejercicio, independientemente de cuáles sean ellos. Nosotros sabíamos que este hombre, casi seguramente, tenía enfermedad coronaria significativa antes de la prueba; incluso si ella es negativa, la probabilidad sigue siendo del 80 por 100 de que él tiene enfermedad coronaria significativa*. El paciente A no necesita un ECG de ejercicio. En realidad, la decisión clínica importante para él es mucho más probable que sea, si nosotros podemos ir directamente a la coronariografía (dependiendo de nuestro * Debido a que la probabilidad posprueba de no enfermedad después de una prueba diagnóstica negativa (o valor de predicción negativo) es d/(c + d), nosotros restamos el resultado de 100 por 100 para obtener la probabilidad posprueba de que el paciente tiene la enfermedad a pesar de la prueba negativa. Por otra parte, nosotros podemos conseguir el mismo resultado tomando c/(c + d).
Tabla 4.10. La utilidad del ECG de esfuerzo en tres pacientes.
Tabla 4.10. (Continuación)
Panel C: Paciente C
116
EPIDEMIOLOGÍA CLÍNICA
juicio sobre los riesgos y los beneficios fundamentales de averiguar si el paciente es un candidato apropiado para uno o más injertos de «bypass»). El paciente B tampoco necesita un ECG de ejercicio. Nosotros ya hemos estimado que su probabilidad de preprueba de enfermedad coronaria significativa es solamente del 5 por 100, y tampoco el resultado del ECG de ejercicio alterará la probabilidad de manera importante. Incluso si su ECG de ejercicio es positivo, las probabilidades son todavía tres a uno contra que él tenga enfermedad coronaria significativa. Esto está confirmado en el panel B de la tabla 4.10. Puede parecer bastante arrogante (especialmente para los lectores todavía en la fase de capacitación en la subespecialidad), por nuestra parte, desdeñar el ECG de ejercicio para el paciente B. Después de todo, él tuvo dolor torácico (de algún tipo), y por cada 1.000 pacientes como él, nosotros omitiremos 30, que realmente tienen enfermedad cardiaca coronaria significativa y cuyos ECG de ejercicio serán positivos (celda a del panel B de la tabla 4.10). ¿No hemos perjudicado a esos 30 pacientes, evitando las pruebas ulteriores, especialmente dado que el ECG de ejercicio es tan seguro? La respuesta está en sopesar el bien potencial que nosotros le hacemos a esos 30 pacientes que tienen realmente enfermedad coronaria significativa y un ECG de ejercicio positivo, frente al daño potencial que nosotros hacemos a los otros dos grupos; primero, las 20 personas en la celda c, a los que se dará certificados de buena salud, negativos falsos (ellos han tenido enfermedad coronaria, pero ECG de ejercicio negativos), y segundo, las 86 personas de la celda b que recibirán etiquetas alarmantes de enfermedad coronaria grave, positivos falsos, cuando ellos no la tienen. Como aprenderá en el capítulo 5, cuando a usted se le dice que tiene una enfermedad (cuando usted no la tiene), es frecuentemente tan incapacitante como tenerla realmente, y casi siempre más incapacitante que no saber que usted tiene una enfermedad (cuando usted la tiene). A nuestro juicio, el daño que nosotros le hacemos a los 86 pacientes de la celda b y a los 20 de la celda c, pesan más que el bien que nosotros hacemos a los 30 de la celda a, y eso es por lo que nosotros negaríamos el ECG de ejercicio a tales pacientes. Volveremos a esta contienda en la última parte de este capítulo. Sin embargo, el paciente C puede beneficiarse realmente (¡por lo menos con fines diagnósticos!), sometiéndose a un ECG de ejercicio, como se muestra en el panel C de la tabla 4.10. Nosotros estimamos su probabilidad preprueba de estenosis de coronaria significativa del 50 por 100. Si su ECG de ejercicio es positivo, dicha probabilidad se eleva un 37 por 100, de 50 a 87 por 100, y nosotros hemos establecido su diagnóstico. Por otra parte, si su ECG de ejercicio es negativo, su probabilidad de preprueba de estenosis de la arteria coronaria significativa cae un 19 por 100, del 50 baja al 31 por
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
117
100, y es mejor que nosotros busquemos en otra parte la explicación de su dolor. Este último hallazgo, una probabilidad posprueba del 31 por 100, debe causar tres tipos de preguntas inquietantes en el lector juicioso. Primero, y recordando nuestra discusión anterior sobre la incertidumbre de nuestras estimaciones clínicas de probabilidades preprueba, ¿cuan sólida es esta probabilidad de posprueba del 31 por 100? Segundo, ¿en qué probabilidad posprueba debemos parar nosotros el proceso diagnóstico (cuan baja tiene que ser para rechazar el diagnóstico, y cuan alta para aceptarlo)? Tercero, ¿tenemos que cuantificar realmente nuestra incertidumbre diagnóstica de este modo? Consideremos estas preguntas inquietantes por orden. Primero, ¿cuan exacta es esta probabilidad posprueba del 31 por 100, después de un ECG de ejercicio negativo, o más concretamente, cuánto es influida por la inexactitud de nuestra estimación clínica de la probabilidad preprueba de este paciente? Para contestar esto, repitamos nuestros cálculos usando rangos sensitivos clínicamente para la probabilidad preprueba, tomado de los informes publicados o de nuestras propias probabilidades de preprueba que hemos apuntado anteriormente. El rango de probabilidades de prepruebas publicada es suministrado por Diamond y Forrester (7), quienes nos dicen que la media (y el error estándar) para las estimaciones de preprueba de individuos tales como el paciente C son de 0,46 (±0,018). Da la casualidad que el rango incluido en esta media, más y menos dos errores estándar, abarcará las probabilidades preprueba media del 95 por 100 de tales muestras de dichos pacientes (nosotros no entraremos en las matemáticas de esto aquí; el lector interesado es remitido a cualquier libro de texto estándar de estadística, tal como el Fleiss (11). De este modo, las probabilidades preprueba serían tan bajas como 0,46 — 2 (0,018) = 0,42 ó 42 por 100, o tan altas como 0,46 + 2 (0,018 = 0,50 ó 50 por 100. Esta última probabilidad preprueba del 50 por 100 estableció el punto de partida en el panel C de la tabla 4.10. Si nosotros conectamos la otra cifra extrema de 0,42 en la misma prueba diagnóstica, la probabilidad de posprueba después de un ECG de ejercicio negativo se convierte en 0,24 ó 24 por 100, y nosotros mostramos esto en la tabla 4.11. Como se muestra en el panel A de la tabla, la probabilidad posprueba de estenosis coronaria significativa, después de un ECG de ejercicio negativo es del 24 por 100, un poquito más bajo que el resultado del 31 por 100 en el panel C de la tabla 4.10, donde la probabilidad preprueba fue más alta del 50 por 100. Dependiendo de lo que es su «umbral» para ulteriores pruebas o tratamiento, esta estrecha diferencia entre 31 y 24 por 100 puede, o no, importar; nosotros discutiremos esto ulteriormente, cuando lleguemos a esta segunda inquietante pregunta. Antes de hacer eso, consideremos la situación frecuente en la que
Tabla 4.11. preprueba.
La utilidad del ECG de esfuerzo para un rango de probabilidades
Panel B
Tabla 4.11. (Continuación)
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
121
nosotros no tenemos estimaciones tan bien investigadas, disponibles, de probabilidad preprueba. ¿Qué ocurre cuando nosotros tenemos solamente nuestra propia experiencia y sólo podemos reducir el rango de probabilidades preprueba verosímiles, entre el 30 y el 70 por 100? El resultado se muestra en los paneles B y C de la tabla 4.11. Este análisis de sensibilidad muestra que el ECG de ejercicio suministra información considerable incluso en individuos con probabilidades de preprueba tan bajas como el 30 por 100 (panel B), o tan altas como el 70 por 100 (panel C). En el último caso, sin embargo, con una probabilidad preprueba del 70 por 100, una prueba de ejercicio negativa difícilmente descarta la enfermedad coronaria, la probabilidad posprueba permanece relativamente alta en 51 por 100. Esta probabilidad posprueba es más de tres veces la producida por una prueba negativa en una persona con una probabilidad preprueba supuesta del 30 por 100, y nosotros tendríamos potencialmente una grave equivocación en tal caso. Más bien que terminar nuestra respuesta a esta primera inquietante pregunta con una nota pesimista, terminaremos alentándole a usted, que los clínicos experimentados producen rangos más reducidos de probabilidades preprueba de trastornos con los cuales ellos están familiarizados, que el 30 a 70 por 100 que nosotros usamos en este ejemplo. Por otra parte, existen a menudo bases de datos útiles de probabilidades preprueba y se está haciendo más fácil encontrarlos. Finalmente, incluso cuando las probabilidades preprueba variaron entre el 30 y el 70 por 100, si la prueba de ejercicio fue positiva, el diagnóstico clínico fue esencialmente confirmado en ambos extremos del rango. Un mensaje final de alegría especialmente si usted encontró que todos estos cálculos eran aburridos: ¡la ayuda está de camino! Si usted se aguanta hasta el cinturón marrón, nosotros le mostraremos cómo omitir todos estos cálculos y convertir las probabilidades preprueba en probabilidades posprueba con una regla recta y un nomograma. Nuestra segunda pregunta inquietante procede de la primera: ¿en qué probabilidad posprueba paramos nosotros el proceso diagnóstico de un trastorno objetivo dado y, o bien la aceptamos como confirmada o la rechazamos como excluida? Contestaremos a esto considerando las líneas de acción abiertas ante nosotros, cuando recibimos un informe de ECG de ejercicio negativo del paciente C, cuya probabilidad posprueba, como se calcula en el panel C de la tabla 4.10, es del 31 por 100. Nosotros podemos hacer cuatro cosas en este asunto. 1. Nosotros podemos aumentar nuestra propia sofisticación en la interpretación de los datos diagnósticos y ver si el ECG puede ser interpretado más que como precisamente «negativo». Por ejemplo, si nosotros tuviéramos un cinturón marrón y pudiéramos valorar
122
EPIDEMIOLOGÍA CLÍNICA
su ECG de ejercicio con matemáticas sencillas en nuestra cabeza, nosotros podríamos reconocer que un ECG de ejercicio que muestra menos de 0,5 mm de depresión del segmento ST significa que su probabilidad posprueba de estenosis coronaria grave es, en realidad, solamente del 17 por 100 (alrededor de la mitad de lo que parece ser, usando nuestro cinturón verde). Nosotros confiamos que esta sorpresa le mostrara a usted cuanta información descartemos cuando reduzcamos un amplio espectro de los resultados de las pruebas diagnósticas a la dicotomía positivo/negativo. Nosotros también confiamos que esta sorpresa despertará su apetito por las últimas partes de este capítulo. 2. Nosotros podríamos ir por el patrón oro y hacerle una angiografía al paciente C. Esto no es una alternativa muy atractiva, en términos de comodidad, riesgo, costo y el hecho (de nuevo confirmado en el panel C de la tabla 4.10) que dos tercios de tales pacientes tendrían angiogramas negativos. 3. Nosotros podríamos aplicar otras pruebas no agresivas para la enfermedad coronaria, con la esperanza de que ellas cambiarían decisivamente aún más la probabilidad posprueba. Suponga, por ejemplo, que nosotros realizamos la angiocardiografía con radionúclidos en el paciente C, y que es también negativa. ¿Podemos hacer uso de esta información? Sí, nosotros podemos, si pudiéramos encontrar información como la que se muestra en la tabla 4.12. En esta tabla, ambas pruebas han sido aplicadas a los mismos pacientes, con (panel I) y sin (panel II) estenosis de la arteria coronaria. Por ejemplo, en el panel I, donde todos los pacientes mostraron tener ≥ 70 por 100 de estenosis de la arteria coronaria en un arteriograma coronario ulterior, los 276 pacientes de la celda a tenían estudios de radionúclidos positivos y ECG de ejercicio positivos. Los 61 pacientes de la celda c tenían resultados negativos para ambos estudios, y los pacientes de las celdas señaladas por una x tenían un resultado positivo en una prueba y resultado negativo en la otra. Nosotros podemos combinar entonces los resultados de los estudios de estos dos paneles en una sencilla tabla (2 x 2), de dos modos diferentes, y esto se muestra en la tabla 4.13. En el panel I de esta tabla, la combinación de las dos pruebas se designa «positiva» solamente si ambas pruebas individuales son positivas, y la combinación se designa «negativa», si una o las dos pruebas individuales son negativas. En el panel II, que logra el máximo con los resultados de las pruebas del paciente C (ambas de las cuales fueron negativas), la combinación de las dos pruebas es llamada «positiva», si cualquiera de las dos pruebas, o ambas, son
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
123
Tabla 4.12. La combinación de la angiocardiografía con radionúclidos y el ECG de ejercicio en el diagnóstico de la estenosis de la arteria coronaria. Panel I: Pacientes con ^ 70% de estenosis
Panel II: Pacientes con < 70% de estenosis
positivas, pero la combinación es llamada «negativa» solamente si ambas pruebas individuales son negativas. Tanto el ECG de ejercicio del paciente C, como su angiocardiograma con radionúclidos son negativos, y su probabilidad preprueba de estenosis coronaria grave (basado en su historia inicial y el examen físico) fue del 50 por 100. Si nosotros aplicamos el panel II de la tabla 4.13 a su situación, nosotros encontramos un valor de predicción negativo del 83 por 100. Así pues, su probabilidad de estenosis coronaria grave es ahora 100 — 83 = 17 por 100, y nosotros, en realidad, hemos ganado algo aplicando una segunda prueba diagnóstica. Una vez más, los hechos de la situación y nuestro sentido común están de acuerdo.
Tabla 4.13. Dos modos diferentes de combinar dos pruebas diagnósticas.
Panel II
126
EPIDEMIOLOGÍA CLÍNICA
Antes de que nosotros dejemos este asunto, compare la sensibilidad y la especificidad de los paneles I y II de la tabla 4.13. Exigir que ambas pruebas diagnósticas sean positivas, como en el panel I, maximiza la especificidad y minimiza el «etiquetado» de positivo falso de pacientes inocentes, pero paga el precio de un gran número de diagnósticos «equivocados» negativos falsos. Este último defecto es evitado exigiendo que ambas pruebas diagnósticas sean negativas, como en el panel II. Esta maximiza la sensibilidad y minimiza los diagnósticos «equivocados» de negativos falsos satisfactoriamente, pero observe cómo el etiquetado de positivos falsos se eleva en esta situación (y se convertirían incluso en más altos a medida que caen la probabilidad preprueba o prevalencia de la estenosis coronaria). Volviendo a nuestro asunto principal, hemos identificado tres estrategias para tratar con una situación diagnóstica ambigua: hacerse más sofisticado en la interpretación del resultado de la prueba diagnóstica a mano, aplicar el patrón oro o aplicar una segunda prueba diagnóstica. La cuarta, y final, estrategia compara sencillamente la probabilidad corriente de este diagnóstico con las probabilidades corrientes de otros diagnósticos de la «lista corta». 4. Finalmente, nosotros podemos comparar la probabilidad de posprueba del 31 por 100, con las probabilidades que nosotros hemos asignado a las otras hipótesis diagnósticas de nuestra lista corta. Si el dolor torácico salta ahora a la cabeza, con una probabilidad del 65 por 100, nosotros quizás queramos vigilar y esperar. Esta última opción guarda la respuesta a nuestra segunda pregunta inquietante: usted elimina (o acepta) una hipótesis diagnóstica cuando su probabilidad (convenientemente moderada por considerar el daño que usted hará si se equivoca) es sustancialmente más baja (o más alta) que la probabilidad de otras hipótesis diagnósticas en su lista corta. Si el perjuicio que usted puede hacer al fallar un diagnóstico es grande, usted necesitará una probabilidad más baja (95 por 100) antes de que usted lo acepte como establecido; eso es por lo que insistimos en el diagnóstico histológico, antes de que nosotros le digamos a los pacientes que ellos tienen cáncer, y por lo que le decimos a los pacientes que vuelvan repetidamente para más determinaciones de presión arterial, antes de que los etiquetemos como hipertensos.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
127
Cuando el error diagnóstico acarrea menos castigos, nosotros descansamos y podemos rechazar una hipótesis diagnóstica en el 40 por 100, o aceptarla en el 60 por 100. Todo lo precedente subraya nuestra tercera pregunta inquietante: ¿tenemos que cuantificar realmente nuestra incertidumbre diagnóstica de este modo? Solamente si queremos mejorar como clínicos. Por supuesto, nosotros tratamos con incertidumbre en cada cosa que hacemos. ¡Nosotros no podemos estar seguros sobre la historia del paciente, nuestro examen físico, los resultados de las pruebas de laboratorio, el diagnóstico, el pronóstico del paciente, o si el tratamiento actuará (incluso si el paciente toma la medicina que le hemos prescrito)! ¿Cómo debemos tratar esta incertidumbre? ¿Debemos, simplemente, negarla y comportarnos como si la incertidumbre no existiera? Esta solución, además de ser irracional, requiere una estructura autoritaria poderosa para asegurar que la incertidumbre, cuando ocurre, es culpa de la inexperiencia o la pereza. Alternativamente, ¿debemos reconocer nosotros la incertidumbre, pero vestirla con palabras no amenazadoras, más bien que con números rigurosos? «Raramente», «dudoso», «a menudo» y «clásico» son menos amenazadores para sus autores y la audiencia que el 5, 20, 60 y 85 por 100, respectivamente. Una razón de nuestra comodidad con las palabras, en vez de con los números, como expresión de incertidumbre, es la ilusión de precisión que ellas comunican en nuestras notas clínicas y discusiones. Aunque esta solución ha sido criticada durante siglos*, su naturaleza paradójica fue revelada sólo recientemente por Bryant y Norman (4). Como hemos indicado anteriormente en el capítulo 2, cuando estos investigadores reunieron 30 de tales términos de informes diagnósticos, consiguieron 16 clínicos para estimar lo más cerca posible al 5 por 100, la probabilidad de enfermedad correspondiente a cada una de estas palabras, y los persuadieron a repetir el mismo ejercicio una semana más tarde, surgieron dos hallazgos importantes: Primero, el grado de acuerdo intraclínico fue enorme (la correlación entre las primeras y las segundas estimaciones del mismo clínico fue +0,96). Segundo, el grado de acuerdo interclínico fue catastrófico. «Dudoso» significó tan bajo como el 5 por 100 para algunos clínicos, pero tan alto como el 80 por 100 para otros, y «clásico» se extendió desde tan bajo como el 60 por 100 hasta el 90 por 100. En realidad, 21 de las 30 palabras mostraron rangos de significado por encima del 50 por 100. Aquí, entonces, está la paradoja: ¡nosotros sabemos lo que
* Durante el apogeo posrevolucionario de los hospitales de París, Pierre Charles Alexander Louis pidió el abandono de los términos a menudo, raramente y muchos (1).
128
EPIDEMIOLOGÍA CLÍNICA
queremos decir cuando decimos «dudoso» o «clásico», pero nadie más lo sabe! La enseñanza para los radiólogos (y muchos otros profesionales de la salud que interpretan los datos diagnósticos para sus colegas), maestros, y cualquier clínico que practique en grupos, está clara: Louis tenía razón, y estos términos deben ser abandonados. Nosotros no podemos ignorar más tiempo esta incertidumbre, ni podemos aceptarla como el arte de la medicina. Es hora de ser dueño de la ciencia del arte de la medicina y hacer frente a esta incertidumbre. Ciertamente, es una ilusión, y la incertidumbre puede ser cuantificada dentro de ciertos límites en beneficio del paciente. Nosotros nos hacemos eco de uno de los protagonistas del capítulo 2, David Spodick: «... los médicos deben estar satisfechos con terminar, no en certidumbres, sino más bien en probabilidades estadísticas. El médico moderno, pues, tiene derecho a sentirse seguro dentro de los confines estadísticos, pero nunca presumido. La certeza absoluta queda para ciertos teólogos —y médicos con mente parecida» (34). Así pues, ahí tiene. Si usted quiere hacerlo con una sencilla tabla: 1. Identifique la sensibilidad y especificidad del signo, síntoma o prueba diagnóstica que usted planea usar. Se han publicado ya muchas, y los subespecialistas que se merezcan el pan que se comen, deben, o bien conocerlas para su especialidad o ser capaces de encontrarlas para usted. Dependiendo de si usted está considerando un signo, síntoma o una prueba diagnóstica de laboratorio, usted querrá encontrar un subespecialista clínico, un radiólogo, un anatomopatólogo u otro profesional. 2. Comience su tabla, como se muestra en el panel superior de la tabla 4.14. Haga el total general (a + b + c + d) = 1.000. 3. Ahora, usando la información que tenga sobre el paciente antes de que usted aplique esta prueba diagnóstica, estime su probabilidad preprueba (prevalencia) del trastorno objetivo. El siguiente truco consiste en poner números apropiados al pie de las columnas (a + c) y (b + d). El modo más fácil de hacer esto consiste en expresar su probabilidad de preprueba como un decimal (por ejemplo, 33 por 100 = 0,33) y multiplicarlo por 1.000, o mover el decimal tres lugares a la derecha (en nuestro ejemplo, 0,33 se convierte en 330). Este resultado (a + c) y 1.000 menos este resultado es (b + d). 4. Ahora usted puede comenzar a rellenar las celdas dentro de la tabla. Multiplique la sensibilidad (expresada como un decimal) por (a + c) y ponga el resultado en la celda a. Usted puede calcular entonces la celda c, por simple resta. Esto se muestra en el segundo panel de la tabla 4.14.
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
Tabla 4.14. Haciéndolo con una sencilla tabla.
129
EPIDEMIOLOGÍA CLÍNICA
130
Tabla 4.14. (Continuación)
5. Igualmente, multiplique la especificidad (expresada como un decimal) por (b + d), ponga el resto en la celda d (¡cuidadosamente!) y calcule la celda b por resta. Esto se muestra en el tercer panel de la tabla 4.14. 6. Ahora usted puede calcular los valores de predicción (probabilidades posprueba, probabilidades posteriores, como hemos estado haciendo a lo largo de esta sección) y usted tiene su respuesta. Esto se muestra en el panel último de la tabla 4.14. Para ver si usted ha dominado el cinturón verde, ensaye el ejemplo siguiente: suponga que usted tiene un paciente alcohólico, con cirrosis portal probado por biopsia, quien, en el curso de unas cuantas semanas comienza a perder energía, ganar peso y acumular ascitis. El niega que toma alcohol y sus otros signos y síntomas no están alterados. Su diagnóstico diferencial incluye hepatoma (su estimación de la probabilidad de que él tiene esto es del 25 por 100) y usted pide algunas pruebas de laboratorio, incluyendo una determinación de α-fetoproteína. Si esta prueba tiene una sensibilidad del 98 por 100 y una especificidad del 90 por 100 para el hepatoma en pacientes con cirrosis, ¿cuál es la probabilidad posprueba de un diagnóstico en su paciente, si la prueba resulta positiva? Nuestra respuesta está en la nota al pie de la página 177. Si usted ha resuelto el ejemplo anterior, se ha merecido su cinturón verde y ha alcanzado un nivel de comprensión un poquito más allá del nivel de inclusión y exclusión del cinturón amarillo. Usted puede hacer ya
LA INTERPRETACIÓN DE LOS DATOS DIAGNÓSTICOS
131
más que la mayoría de los clínicos y puede querer pararse aquí, por lo menos durante un rato. Por el contrario, si usted quiere seguir adelante, empiece el cinturón azul y aprenda cómo manejar tablas ligeramente más complejas con cortes múltiples. Con ello, usted encontrará modos más poderosos de combinar dos o más pruebas diagnósticas, comprenderá cómo actúa una curva COR y aprenderá a aprovecharse del grado de positividad y negatividad de las pruebas diagnósticas. Trozo # 3: Cinturón azul: Haciéndolo con una tabla más compleja
Examine la tabla 4.15. Ella amplía las tablas que nosotros hemos usado para el cinturón verde en varias líneas, más bien que solamente dos. Como consecuencia de ello, aquéllas conservan mucho de la información que nosotros presentamos anteriormente en la figura 4.1. Varios de los cortes en esta tabla pueden parecer familiares. El corte en 40 es el corte x, o de exclusión, de la figura 4.6, y lo encontró anteriormente cuando usted estuvo consiguiendo su cinturón amarillo «haciéndolo con figuras». El corte en 80 es el que nosotros hemos usado en la sección anterior «haciéndolo con una sencilla tabla», y el corte a 280 es la y, o corte de exclusión, de nuevo en la figura 4.6. Finalmente, usted observará que los cortes no necesitan estar equitativamente espaciados (los tres de la parte inferior están separados en 40 UI, pero hay un salto de 200 al de la parte superior). Tabla 4.15. Haciéndolo con una tabla más compleja.
132
EPIDEMIOLOGÍA CLÍNICA
¿A dónde vamos desde aquí? ¿Cómo producimos sensibilidad y especificidad de esta tabla más compleja? Nosotros lo hacemos, creando una serie de sencillas tablas, cada una de las cuales usa un corte diferente de la tabla compleja, como se muestra en la tabla 4.16. El panel de la izquierda de esta tabla reproduce simplemente la tabla 4.15 y muestra el número de pacientes con y sin infartos que tienen diversos niveles de CC. Los paneles de la derecha de la tabla 4.16 muestran todas las tablas sencillas que pueden ser producidas de la compleja. Así pues, cuando el corte es situado a ≥ 280, la celda a contiene los 97 pacientes con infarto cuyos niveles de CC fueron ≥ 280, y la celda c contiene los 133 pacientes de infarto (118 + 13 + 2 = 133), cuyos niveles de CC fueron ), está basada en una muestra total de n pacientes, es: p (1 − p ) / n, el error estándar de nuestro 10 por 100, basado en 48 pacientes, es: 0,10 ( 0,90 ) / 48 = 0, 043 , o, 4,3 por 100. Así pues: 10% - 2 (4,3%) = 1,4 y 10% + 2 (4,3 %) = 18,6 %.
208
EPIDEMIOLOGÍA CLÍNICA
Tabla 6.1. Guías para leer artículos para conocer sobre el curso clínico y el pronóstico de la enfermedad. 1. 2. 3. 4. 5. 6.
¿Fue reunida una «cohorte de comienzo»? ¿Fue descrito el modelo de referencia? ¿Se logró el seguimiento completo? ¿Se desarrollaron y usaron criterios de resultados objetivos? ¿Fue «ciega» la valoración del resultado? ¿Se llevó a cabo un ajuste de factores pronósticos extraños?
Del Department of Clinical Epidemiology and Biostatistics, McMaster University, Hamilton, Ontario. How to read clinical journals: III. To learn the clinical course and prognosis of disease. Can. Med. Ássoc. J. 124:869, 1981.
pronóstico de las enfermedades que ellos están describiendo. Por ejemplo, las tasas de recuperación espontánea publicadas para la escoliosis, varían en siete veces (17); los riesgos de recidiva durante diez años después de un primer cálculo urinario, oscilan entre el 20 por 100 (6) (en cuyo caso usted puede muy bien decidir evitar un estudio del cálculo después de un primer ataque cólico) a casi el 100 por 100 (1) (en cuyo caso usted puede hacerlo ahora también); y las tasas publicadas de riesgo de cáncer en la colitis ulcerosa varían en tres veces del 3 por 100 (5) a casi el 10 por 100 (14). Con esta gran inconsecuencia en las revistas clínicas, ¿cómo las vamos a usar nosotros prudentemente para hacer decisiones clínicas sobre el curso clínico y el pronóstico de la enfermedad humana? Da la casualidad que la mayoría de las inconsecuencias entre los estudios publicados sobre el curso clínico y el pronóstico se deben a los diferentes modos (muchos de ellos equivocados) como sus autores escogieron y siguieron a los pacientes. No obstante, los requisitos para el estudio apropiado del curso clínico y pronóstico son relativamente sencillos e implican el tipo de «sentido común aplicado» que nosotros hemos pedido a todo lo largo de este libro, y que puede ser interpretado en un breve grupo de estándares o guías de los lectores, que pueden ser aplicadas rápidamente a los artículos publicados. Las seis guías para leer tales artículos pueden ser planteadas como preguntas y están indicadas en la tabla 6.1; de nuevo, debido a que ellas se enfocan sobre cómo fue llevado a cabo el estudio clínico, ellas son aplicadas a la sección de «pacientes y métodos» del artículo (2). ¿Fue reunida una «cohorte de comienzo»?
Los pacientes deben haber sido identificados en un momento precoz y uniforme (comienzo) en el curso de su enfermedad (tal como cuando ellos
HACER UN PRONÓSTICO
209
desarrollaron por vez primera síntomas inequívocos o recibieron su primera terapia definitiva), de modo que aquellos que sucumbieron o se recuperaron completamente están incluidos con aquellos cuya enfermedad persistió. Muchos estudios del pronóstico están hechos hacia atrás. Por ejemplo, varios estudios del riesgo de recidiva de cálculo preguntan a los pacientes sintomáticos actualmente, si ellos han tenido cálculos anteriormente, no dándose cuenta que los formadores de cálculos recurrentes (con historias pasadas positivas) tienen múltiples oportunidades de estar incluidos en tales estudios, pero los pacientes sin recidiva (con historias pasadas negativas) tienen solamente una ocasión de ser incluidos; ¡no es de extrañar que las tasas de recidiva varíen a todo lo largo del mapa! De modo parecido, en un estudio reciente del riesgo de cáncer en la colitis ulcerosa, el estímulo para incluir a varios pacientes en el estudio fue su desarrollo de cáncer (4). Claramente, ellos no habían sido seguidos desde el comienzo de su colitis ulcerosa y dado que los pacientes de colitis que permanecieron libres de cáncer no pudieron ser inscritos mediante este mecanismo, el riesgo aparente de cáncer en los pacientes de colitis ulcerosa tenía que convertirse en falsamente elevado (9). El fallo en comenzar un estudio de curso clínico y pronóstico con una cohorte de comienzo tiene un efecto impredictible sobre sus resultados. En la mayoría de los casos, el efecto sería hacer que el pronóstico apareciese más oscuro de lo que realmente es. Sin embargo, la deformación en el sentido opuesto también puede ocurrir. Suponga que nosotros queremos saber más sobre el pronóstico de los pacientes después de un infarto de miocardio, y leemos un artículo sobre un grupo de tales pacientes que han sido reunidos en una unidad de cuidados coronarios. Tal estudio no podía incluir, por supuesto, pacientes de infartos de miocardio que murieron antes de que ellos pudieran ser ingresados en la unidad de cuidados coronarios. Debido a que estas muertes precoces constituyen más de la mitad de los que morirán dentro del primer año de su infarto de miocardio, un estudio limitado a los pacientes de la unidad de cuidados coronarios pintaría un pronóstico falsamente sonrosado. Así pues, el fallo en reunir una cohorte de comienzo apropiada de pacientes que están en un momento uniforme y precoz del curso de su enfermedad, constituye generalmente un defecto fundamental en los estudios de pronóstico. Además, la aplicación de esta guía a un artículo puede aumentar su eficacia al leer la literatura clínica: si los autores de un artículo fallaron en reunir una cohorte de comienzo, descártelo pronto y váyase a hacer otra cosa. De este modo, usted puede enfocar su tiempo precioso de lectura sobre artículos más útiles y valiosos. ¿Qué ocurre si ninguno de los artículos está basado en una cohorte de comienzo? ¿Qué pasa entonces? Nuestras elecciones son tres: primero,
210
EPIDEMIOLOGÍA CLÍNICA
nosotros podemos abandonar la busca y volver a la opinión del experto; segundo, nosotros podemos decidir si el fallo en reunir una cohorte de comienzo es probable que deforme el pronóstico en una dirección más favorable (o menos favorable) y reconocer que sus resultados son demasiado optimistas (o pesimistas); finalmente, nosotros podemos considerar si nuestra decisión de manejo está afectada por las revisiones clínicamente sensatas del pronóstico hacia arriba y hacia abajo y actuar de acuerdo con ello. ¿Fue descrito el modelo de referencia?
Los caminos por los cuales entraron los pacientes en la muestra del estudio deben ser descritos. Debe ser posible para usted, el lector, ser capaz de decir si los resultados se aplican a los pacientes de su práctica. ¿Vinieron ellos de un centro de cuidados primarios, fueron todos los hospitales en una región definida explorados para los casos, o fueron ellos reunidos en un centro de cuidados terciarios que atrajo a los desesperados, los ricos o los raros? Es en este conjunto de pacientes en el que se debaten a menudo los estudios del curso y el pronóstico de la enfermedad, porque es aquí donde los cuatro tipos de sesgo son más omnipresentes (8). Debido a que la reputación de un centro clínico importante resulta en parte por su experiencia particular en un área especializada de medicina clínica, será probable que los casos problemas se beneficiarán de su experiencia (sesgo centrípeto) y sus expertos pueden ingresar preferentemente y mantener la pista de estos casos sobre otros menos retadores o menos interesantes (sesgo de popularidad). En cualquier caso, la selección que ocurre en cada etapa del proceso de referencia puede producir muestras de pacientes en los centros de cuidados terciarios que son muy diferentes de las que se encuentran en la población general (sesgo del futro de referencia). Finalmente, los pacientes difieren en su acceso financiero y geográfico a la tecnología clínica que los identifica como elegibles para estudios del curso y pronóstico de la enfermedad; si este grado de acceso está ligado al riesgo de un resultado específico (tal como ocurriría, por ejemplo, si los pacientes más ricos cuya depresión era más probable que respondiera a los medicamentos tenían mayor acceso a las pruebas de supresión con dexametasona, que los pacientes más pobres con peores pronósticos), el sesgo de acceso diagnóstico resultante deformaría las conclusiones del estudio. Por ejemplo, el pronóstico de las convulsiones febriles es de enorme importancia para los pacientes, los clínicos y los padres igualmente. ¿Son ellas casi siempre inocuas o son heraldos de ataques no febriles posteriores?
HACER UN PRONÓSTICO
211
Figura 6.1. El riesgo de convulsiones no febriles, después de las convulsiones febriles. ■ = estudios de clínicas y hospitales de la especialidad; • = estudios en la población general. (Adaptado de J. H. Ellenberg and K. B. Nelson. Sample selection and the natural history of disease. Studies of febrile seizures. J.A.M.A. 243:1337, 1980.) ¿Deben los clínicos tranquilizar y observar, o deben etiquetar a estos niños como epilépticos y comenzar con anticonvulsivos? Un elemento clave de esta decisión clínica es la tasa con la cual los niños con convulsiones febriles no complicadas pasan a tener convulsiones no febriles. Los clínicos que buscan respuesta a esta cuestión en la literatura clínica no pueden ser culpados de separarse sumamente confusos. Como se muestra en la figura 6.1, los riesgos publicados de convulsiones subsiguientes no febriles siguiendo a convulsiones febriles, varían casi en cuarenta veces, de 1,5 a 58,2 por 100 (3). En esta figura, nosotros hemos dibujado las tasas de las convulsiones no febriles subsiguientes (junto con sus intervalos de confianza del 95 por 100), comunicadas en los estudios de niños entre siete meses y siete años de edad, cuyas primeras convulsiones fueron acompañadas de fiebre, pero no fueron consideradas como sintomáticas de ninguna enfermedad aguda neurológica. Podemos señalar que, aproximadamente, cada uno de estos estudios se basó sobre una cohorte de comienzo; no obstante, sus resultados variaron tremendamente. Sin embargo, cuando estos estudios son separados por un segundo factor de muestreo, la fuente (estructura del muestreo) de la cual se
212
EPIDEMIOLOGÍA CLÍNICA
escogieron los pacientes, surge un segundo principio importante. Los diez estudios mostrados a la izquierda de la figura 6.1 y representados por cuadrados densos, tuvieron lugar en clínicas y hospitales de la especialidad. Ellos incluyeron niños enviados con convulsiones febriles y siguieron a estos niños con respecto a la subsiguiente presentación de ataques no febriles. Sus resultados varían casi en 10 veces, del 6 al 58,2 por 100. Por otra parte, los cinco estudios de la derecha de la figura 6.1, representados por círculos negros, usaron estructuras de muestreo basadas en la población o la geografía. Así pues, ellos recorrieron todas las fuentes posibles de información en una región completa: todos los registros de hospital general y clínica de referencia, los registros de las consultas de los clínicos de cuidado primario, e incluso los resultados de las encuestas periódicas de las familias elegibles, también. Cuando las investigaciones siguieron hacia adelante, estas cohortes de comienzo basadas en población fueron documentadas tasas de convulsiones no febriles muy similares (y mucho más bajas) subsiguientes (4,6, 3, 3, 3 y 1,5 por 100) cuyos intervalos de confianza del 95 por 100 se solaparon. Un modelo similar fue observado en la recidiva de las convulsiones febriles; los estudios basados en clínicas comunicaron tasas del 12 al 75 por 100, mientras que las tasas basadas en la población estuvieron todas agrupadas entre el 29 y el 35 por 100. Estas diferencias sistemáticas en los resultados de los estudios basados en la población y en la clínica de la especialidad, sobre el curso clínico y el pronóstico de los ataques febriles se explican sobre bases clínicamente razonables: cuanto más grave o prolongada es la convulsión febril, más probable es que el niño sea enviado a un hospital o a una clínica de la especialidad. Así pues, las muestras de los estudios basados en clínicas y hospitales se convierten en progresivamente afectadas por sobrerrepresentación de niños con pronósticos relativamente peores. Lo que antecede es un ejemplo del sesgo del «filtro de referencia» en el cual «la selección que ocurre en cada estado en el proceso de referencia puede producir muestras de pacientes que son muy diferentes de aquéllas encontradas en la población general» (9). En este caso particular, el envío estuvo influido por la gravedad de la enfermedad, y debido a que la reputación de un centro clínico generalmente se produce por su experiencia particular en un área especializada de la medicina clínica, le serán enviados casos problemas que se beneficiarán, probablemente, de su especial competencia. Aunque esto produce generalmente excelente cuidado clínico, a menudo, como hemos visto, mutila la capacidad de ese centro para generalizar a partir de sus estudios del curso clínico y el pronóstico de los enviados. Así pues, los sesgos de muestreo pueden deformar tanto a la duración como a las tasas de resultados pronósticos importantes. A pesar de este
HACER UN PRONÓSTICO
213
serio inconveniente, el estudio de las cohortes de comienzo en los centros de cuidados terciarios produce información útil a otros clínicos que trabajan en tales ambientes. Así pues, los clínicos que ven convulsiones febriles en el cuidado terciario, deberían basar sus afirmaciones pronosticas en el lado izquierdo, no en el lado derecho de la figura 6.1. Además, los estudios en el cuidado terciario pueden suministrar información útil sobre la importancia potencial de los subgrupos pronósticos, siempre que los sesgos del muestreo afecten a cada uno de los subgrupos pronósticos igualmente; sin embargo, esto puede ser igualmente difícil de mostrar y arriesgado de asumir. Estos sesgos de muestreo son en su mayor parte responsables del caos que caracteriza a la mayoría de las discusiones sobre el curso y el pronóstico de la enfermedad humana, cuando las experiencias en el cuidado terciario son extrapoladas al cuidado primario, y estos errores no son casualmente evitados. Menos el estudio del tipo de Framingham, en el que es reunida una gran población de individuos y seguida estrechamente durante décadas, el enfoque de muestreo que merece la pena buscar es el que ha reunido sistemáticamente casos elegibles de todas las instalaciones clínicas en un área de captación dada, mediante el examen cuidadoso de las historias clínicas antiguas, o mejor aún, mediante la continua vigilancia de casos nuevos. En resumen, una comprensión de cómo fueron reunidos los pacientes para el estudio, más información adicional sobre su edad, sexo, gravedad, comorbilidad, etc., le ayudará a usted a decidir si ellos se asemejan lo suficiente a sus propios pacientes, para que usted aplique los resultados de sus seguimientos en su propia práctica. ¿Se logró el seguimiento completo?
Todos los miembros de la cohorte de comienzo deben ser considerados al final del periodo de seguimiento, y su estado clínico debe ser conocido. Esto se debe a que los pacientes no desaparecen de un estudio por razones triviales. Más bien, ellos dejan el estudio debido a que rechazan la terapia, se recuperan, se mueren, se retiran a zonas de sol o simplemente se cansan de ser seguidos. Todas estas razones están ligadas a resultados pronósticos importantes y si usted va a usar los resultados de un artículo para hacer juicios pronósticos sobre sus propios pacientes, usted se .merece conocer cómo les fue a todos los miembros de su cohorte de comienzo. Por supuesto, es difícil para los autores lograr la perfección; ellos con seguridad perderán unos cuantos miembros de su cohorte de comienzo.
214
EPIDEMIOLOGÍA CLÍNICA
Existen, sin embargo, algunas reglas empíricas toscas que usted puede aplicar aquí. Nosotros le sugeriríamos los siguientes pasos: 1. Identificar el resultado pronóstico de mayor relevancia para usted y su paciente. 2. Ver si usted puede reconstruir el quebrado a partir del cual el riesgo (o tasa) de este resultado fue generado. Esto es, ver si usted puede construir un quebrado cuyo numerador contiene todos los pacientes que desarrollaron el resultado pronóstico y cuyo denominador contiene todos los pacientes tanto con, como sin ese resultado. 3. Ahora, tome el número de pacientes que fueron «perdidos en el seguimiento»: a) Sume este número de ambos, el numerador y el denominador del quebrado con el que ha actuado en el paso 2 y recalcule la tasa. Esto le dará a usted el resultado «más alto» que aplicaría si todos los pacientes perdidos han desarrollado el resultado pronóstico. b) Repita lo anterior, pero esta vez sume el número de los pacientes perdidos exactamente al denominador del quebrado que usted ha preparado en el paso 2 y recalcule la tasa. Esto le dará a usted el resultado «más bajo» que aplicaría si ninguno de los pacientes perdidos desarrollaron el resultado pronóstico. 4. Ahora compare los resultados «más alto» y los «más bajo». ¿Están ellos tan cercanos que su decisión sobre qué decir (y qué hacer) al paciente sería lo mismo, independientemente de cuál de ellos fuera cierto? Si es así, dé gracias a sus buenas estrellas (!y de los autores!) y siga. Sin embargo, si su decisión sobre cómo manejar al paciente fuera completamente diferente si es aplicado el resultado más alto o el más bajo, usted debe rechazar el artículo y buscar algo mejor. Trabajemos con un ejemplo para mostrar cómo funciona esto y hacer un comentario adicional. Suponga que un estudio de pronóstico logra un seguimiento del 92 por 100 de 71 pacientes (esto es, 6 pacientes han perdido el seguimiento, dejando a 65 pacientes para el análisis). Suponga, además, que 39 de estos 65 pacientes experimentan una recaída durante el seguimiento, con una tasa de recaída de 39/65 = 60 por 100. Nosotros determinaríamos el resultado «más elevado» sumando los 6 pacientes perdidos tanto al numerador como al denominador, así: (39 + 6)/(65 + 6) = 45/71 = 63 por 100; determinaríamos el resultado «más bajo» sumando los 6 pacientes perdidos, exactamente al denominador, así: 39/(65 + 6) = 39/71 = 55 por 100. Debido a que la tasa de recaída más alta de 63 por 100 y la tasa de recaída más baja de 55 por 100, están muy cerca, nuestra decisión sobre cómo manejar a nuestro paciente probablemente no cambia-
HACER UN PRONÓSTICO
215
ría, independientemente de lo que ocurrió a los pacientes que fueron perdidos en el estudio. Suponga, por otra parte, que la tasa de letalidad observada en este mismo estudio fue 1/65 ó 1,5 por 100. El resultado «más alto» asume que todos los pacientes perdidos murieron y se convierte en: (1 + 6)/(65 + 6) = 7/71 = 10 por 100. El resultado «más bajo» asume que todos los pacientes perdidos vivieron y se convierte en: 1/(65 + 6) = 1/71 = 1.4 por 100. La tasa de letalidad más alta es siete veces más baja y podía en realidad influir, por lo menos, en lo que nosotros decimos (si no en lo que nosotros hicimos) al paciente. En este caso, nosotros podemos querer buscar más aún una estimación más exacta y precisa de la tasa de letalidad para esta enfermedad. El punto adicional revelado en este ejemplo es que cuanto más bajo es el riesgo de un resultado pronóstico, mayor es el efecto potencial de los pacientes que son perdidos en el seguimiento.
¿Se desarrollaron y usaron criterios de resultado objetivo?
Los resultados pronósticos deben ser expresados en términos objetivos, explícitos, de modo que usted como lector del informe subsiguiente, será capaz de relacionarlos con su propia práctica. Suponga que usted se encuentra con un artículo sobre el pronóstico de los pacientes con ataques isquémicos transitorios. Si el artículo describe el riesgo de «ictus subsiguiente» sin presentar los criterios explícitos, objetivos, de lo que constituye un «ictus», usted está en un apuro. ¿Están restringidos dichos «ictus» a alteraciones graves de la sensibilidad o el poder motriz, de tal modo que sus víctimas requieran asistencia para vestirse, alimentarse y lavarse? ¿O son la mayoría de estos «ictus» simplemente cambios triviales transitorios de la sensibilidad o de los reflejos superficiales o profundos? Las implicaciones de estas definiciones diferentes, para aconsejar a los pacientes o iniciar la terapia, son enormes. No solamente debe describir un artículo los criterios explícitos, objetivos, de los resultados, sino que debe suministrar seguridad de que estos criterios fueron aplicados de una manera consecuente. Como usted recordará del capítulo 2, incluso los clínicos experimentados estarán en desacuerdo consigo mismo o con otros clínicos, sobre las manifestaciones clave de la enfermedad. Como consecuencia de ello, lo que es un «ictus» leve para un clínico, es simplemente una variante normal para otro, y el pronóstico aparente del paciente estará determinado no por la biología sino por el azar del sorteo en el que es elegido para realizar la exploración final. Todo esto nos conduce a la guía siguiente.
216
EPIDEMIOLOGÍA CLÍNICA
¿Fue «ciega» la valoración del resultado?
El examen de los resultados pronósticos importantes debe haber sido efectuado por clínicos que estuvieron «ciegos» con respecto a las otras características de estos pacientes. Esto es esencial si se han de evitar fuentes adicionales de sesgo. Primero, el clínico que sabe que un paciente posee un factor pronóstico de presunta importancia, puede llevar a cabo búsquedas más frecuentes o más detalladas de los resultados pronósticos relevantes (sesgo de sospecha diagnóstica). Segundo, el anatomopatólogo y otros que interpretan los especímenes diagnósticos pueden tener sus juicios influidos dramáticamente por el conocimiento previo de las características clínicas del caso (sesgo de expectación). El sesgo de expectación debe ser familiar a los lectores del capítulo 2, porque él aparecía destacadamente allí (¿recuerda las amígdalas?). Con el fin de reducir el sesgo de expectación, muchos centros clínicos reconocen la necesidad, incluso en la práctica de rutina, de una valoración inicial en «ciego» de las pruebas diagnósticas, tales como los electrocardiogramas y las radiografías (11). Así, en un informe publicado sobre pronóstico, el sesgo de sospecha diagnóstica habría sido evitado sometiendo a todos los pacientes a los mismos estudios clínicos diagnósticos, idealmente a intervalos prescritos y, sobre todo, al final del estudio. ¿Qué ocurre si el resultado es la muerte? Seguramente, la ceguera no es un prerrequisito para valorar un resultado tan «riguroso». Aunque la información del hecho de la muerte es una tarea inequívoca (y no necesita, por tanto, estar en ciego), asignar una causa de muerte está sujeto a sesgos, tanto de sospecha diagnóstica como de expectación, y debía, por tanto, haber sido hecha en ciego.
¿Se llevó a cabo un ajuste de factores pronósticos extraños?
Suponga que usted quería saber si la duración de la colitis ulcerosa de su paciente fue un determinante importante del riesgo de desarrollar cáncer. Para conseguir una respuesta clara a esta cuestión, a usted le gustaría estar seguro que no habría interferencia de otros factores que podían, tanto acompañar la duración de la enfermedad, como afectar al pronóstico (tal como una edad temprana de comienzo o más cursos de un rango amplio de medicamentos). El fallo de satisfacer este estándar puede resultar en asignar papeles causales a factores que son simplemente «marcadores» de otros factores de verdadera importancia.
HACER UN PRONÓSTICO
217
Por supuesto, es imposible, generalmente, para el lector clínico llegar a familiarizarse suficientemente con el zapateado matemático usado para ajustar los factores pronósticos extraños, para ser capaz de decir si, por ejemplo, los autores debían haber usado un análisis de función discriminatoria, más bien que una regresión múltiple escalonada; esta es una de esas situaciones en las que usted debe (y generalmente puede) confiar en que la revista ha dispuesto que el artículo fuera revisado y aprobado previamente por un bioestadístico sensato. Sin embargo, es mucho menos probable que el artículo haya sido sometido a un examen metodológico sofisticado, si no fue intentado un ajuste de los factores pronósticos extraños y el lector es dejado, por consiguiente, con la responsabilidad de decidir si era necesario un procedimiento de ajuste (pero no cuan bien fue efectuado). Nosotros le podemos dar a usted dos «reglas empíricas» para aplicar a los «modelos predictivos» que surgen a menudo de estos ajustes multivariados. Primero, si el artículo concluye que algunas constelaciones de síntomas, signos y resultados de laboratorio predicen exactamente un cierto pronóstico, usted debe pedir evidencia de que los autores han confirmado el poder de predicción de la constelación en una segunda muestra independiente de pacientes (muestra de prueba). Esto es debido a que los enfoques multivariantes usados aquí fallarán en distinguir los factores pronósticos importantes, de las idiosincrasias no importantes de la muestra de pacientes particular (muestra de instrucción), a la cual son aplicados. Usted quiere estar seguro que la constelación actúa entre los pacientes de la muestra de prueba, así como en los pacientes de la muestra de instrucción antes de que usted la aplique a los pacientes en su propia práctica. La segunda regla empírica tiene que ver con los números de pacientes que deberían haber sido incluidos en la muestra de instrucción y de prueba: debe haber, por lo menos, diez pacientes para cada factor pronóstico que estudiarán los autores. Así pues, un estudio de si algunas combinaciones de presión arterial, glucosa en sangre, nivel inicial de conciencia, capacidad de andar, sentido de la posición, reflejos tendinosos y poder muscular sobre el pronóstico del paciente con «ictus», debería incluir, por lo menos, 10 pacientes para cada uno de estos 7 factores, o al menos 70 pacientes en total para separarlos realmente y producir resultados que con probabilidad sean ciertos y clínicamente útiles. Esta sección ha presentado seis guías que un clínico ocupado puede aplicar a un artículo sobre el uso clínico y pronóstico de la enfermedad. Su aplicación debe producir dos resultados: primero, muchos, si no la mayoría de los artículos sobre pronóstico con que usted tropieza, pueden ser descartados previamente, aumentando la eficacia con la que usted emplea su tiempo precioso de lectura. Esto será así especialmente si usted aplica rigurosamente la primera guía (¿fue reunida una cohorte de comienzo?), ya
218
EPIDEMIOLOGÍA CLÍNICA
que la mayoría de los estudios defectuosos sobre curso clínico y pronóstico fallan en esta prueba inicial. El segundo resultado de la aplicación de estas guías consiste en que los artículos que son aceptables le suministrarán a usted con información pronostica que es válida, consistente y aplicable a su propia práctica clínica. A medida que usted prepara su método para los trastornos que encuentra más frecuentemente en su práctica, acumulará gradualmente un cuerpo de información pronostica muy útil, que le permitirá decidir con considerable confianza, qué decirle (y hacer por) a una proporción siempre creciente de los pacientes que usted encuentra. Pero, ¿qué hay sobre los trastornos para los cuales faltan todavía «buenos datos»? (cuando se escribió este libro esta situación se aplicaba todavía al riesgo de evolución de la escoliosis leve y al riesgo de cáncer en la colitis ulcerosa) ¿Qué debe hacer usted entonces? Nosotros le sugeriríamos que considere hacer tres cosas: Primero, si la situación clínica lo justifica, usted puede informar al paciente que la respuesta a su pronóstico no está clara, pero que sus límites pueden ser especificados. Segundo, hasta el grado en que usted pueda influir en el desarrollo de la investigación clínica apropiada, usted puede subrayar a los investigadores clínicos la necesidad de una respuesta válida para este problema clínico práctico. Finalmente, usted puede despejar cualquier ilusión que sus colegas y estudiantes puedan tener, de que el resultado pronóstico particular ha sido resuelto. Parafraseando a Josh Billings: «¡No es que nosotros no sepamos lo que nos produce (¡y a nuestros pacientes!) la molestia. Es que nosotros sabemos que no es así!» (10). Si usted decide que la enfermedad del paciente es lo suficientemente grave para justificar la intervención, y usted necesita hacer algo, el siguiente reto es: «¿hacer qué?». El próximo capítulo se ocupará de esta cuestión y le ayudará a escoger qué intervención es la más probable que haga más bien que daño.
Bibliografía 1. Coe, F. L., Keck, J., and Norton, E. R. The natural history of calcium urolithiasis. J.A.M.A. 238: 1519, 1977. 2. Department of Clinical Epidemiology and Biostatistics, McMaster University, Hamilton, Ontario. How to read clinical journals: III. To learn the clinical course and prognosis of disease. Can. Med. Assoc. J. 124: 869, 1981. 3. Ellenberg, J. H., and Nelson, K. B. Sample selection and the natural history of disease. Studies of febrile seizures. J.A.M.A. 243: 1337, 1980.
HACER UN PRONÓSTICO
219
4. Greenstein, A. J., Sachar, D. B., Smith, H., et al. Cáncer in universal and left-sided ulcerative colitis: Factors determining risk. Gastroenterology 11: 290, 1979. 5. Mottet, N. K. Histopathologic Spectrum of Regional Enteritis and Ulcerative Colitis. Philadelphia: Saunders, 1971. Pp. 217-235. 6. Recurrent renal calculi. Br. Med. J. 282: 5, 1981. 7. Rogala, E. J., Drummond, D. S., and Gurr, J. Scoliosis: Incidence and natural history. A prospective epidemiological study. J. Bone Joint Surg. (Am.) 60: 173, 1978. 8. Sackett, D. L. Biases in analytic research. J. ChronicDis. 32: 51, 1979. 9. Sackett, D. L., and Whelan, G. Cáncer risk in ulcerative colitis: Scientific requirements forthe study of prognosis (editorial). Gastroenterology 78: 1632, 1980. 10. Shaw, H. W. Josh Billings: Hiz Saying. London: Hotten, 1869. 11. Spodick, D. H. On experts and expertise: The effect of variability in observer performance. Am. J. Cardiol. 36: 592, 1975. 12. Tversky, A., and Kahneman, D. Judgment under uncertainty: Heuristics and biases. Science 185: 1224, 1974.
7 Decidir sobre la mejor terapia
Este capítulo analiza las tres decisiones principales que determinan el tratamiento racional de cualquier paciente: 1. Identificar el objetivo último del tratamiento. ¿Es el objetivo final conseguir la curación, la mitigación, la mejoría sintomática o qué? 2. Escoger el tratamiento específico. ¿Requiere el paciente algún tratamiento en absoluto? ¿Qué clases de evidencias, de qué fuentes, deben determinar la elección de un tratamiento específico a usar para alcanzar esta meta? 3. Especificar el objetivo del tratamiento. ¿Cómo sabrá usted cuándo interrumpir el tratamiento, cambiar su intensidad o cambiar a algún otro tratamiento? Por ejemplo, cuando está considerando a un paciente con hipertensión esencial sin síntomas, pero moderadamente grave (presión arterial diastólica de quinta fase de 110 mm Hg), usted puede tomar estas tres decisiones como sigue: 1. Objetivo último del tratamiento. Prevenir lesión (adicional) del órgano diana, del cerebro, ojo, corazón, riñón y grandes vasos, que causarían incapacidad o muerte prematura. 2. Elección de tratamiento especifico. Sobre la base de ensayos clínicos aleatorios de cuidados escalonados, versus, placebo, los medicamentos antihipertensores (una tiacida, más, si es necesario, un bloqueador adrenérgico y un vasodilatador directo). 3. Meta del tratamiento. Una presión diastólica de quinta fase (brazo derecho, sentado) de menos de 90 mm Hg o tan cerca a ella como sea tolerable, a la vista de los efectos secundarios del medicamento. Estas tres decisiones primarias, cuando se llevan a cabo conscientemente y son anotadas concienzudamente en la historia clínica, pueden conducir a un manejo del paciente coherente, constante, incluso cuando la 221
222
EPIDEMIOLOGÍA CLÍNICA
responsabilidad es compartida por varios clínicos o un equipo completo. El fallo de tomar y registrar estas decisiones, por otra parte, puede conducir a un caos del tratamiento. Cuando el objetivo último del tratamiento no está claro, o no especificado, los tratamienos específicos seleccionados pueden, en realidad, frustrar o aplazar su logro. Este tipo de caos del tratamiento trastorna a veces el cuidado del terminalmente grave. Que el objetivo último del tratamiento de tales pacientes es paliativo (por ejemplo, eliminar el dolor y conservar la dignidad) es generalmente reconocido, pero este reconocimiento falla a veces al no estar documentado claramente en la historia clínica. Como consecuencia de ello, el manejo se convierte en caótico cuando el paciente tiene un pico febril, incluso si él permanece completamente cómodo y especialmente cuando el clínico responsable no está de servicio. Se hacen radiografías, se cuentan los leucocitos y se hace fórmula leucocitaria; se hacen cultivos de sangre, de orificios y excretas; y se inyectan antibióticos. En resumen, el paciente moribundo es importunado, dañado y robado en su dignidad. Incluso reina un caos más espectacular cuando el corazón del paciente se para. Cuando nosotros fallamos al hacer racionalmente la segunda decisión principal y nuestra selección de los tratamientos específicos está basada en el consejo autoritario o nuestra convicción de que tal terapia parece actuar o debe actuar (en oposición a la sólida evidencia de que actúa), no solamente puede ser aplicado un tratamiento sin valor, sino que a veces es manifiestamente dañino. La terapia de hoy, cuando se deriva por inducción de los factores biológicos o de la experiencia clínica no controlada, puede convertirse en una broma pesada mañana; algunos de nosotros somos lo suficientemente viejos para recordar las risitas sobre la aceptación ingenua por parte de nuestros antepasados de la sangría, cuando nosotros enganchábamos a nuestras pacientes de úlceras a las máquinas de congelar el estómago. Finalmente, si nosotros fallamos al enfrentarnos con la tercera decisión primaria y no identificamos las metas precisas del tratamiento, ¿cómo sabremos nosotros cuándo parar, modificar o cambiar nuestra terapia? Lo que antecede puede crear la impresión de que mientras que nosotros identifiquemos las tres decisiones principales, decidir sobre la mejor terapia es un asunto sencillo. No lo es. Esto es debido a que hay dos elementos adicionales que afectan profundamente a estas tres decisiones primarias. El primer elemento adicional es la escasez de evidencia de alta calidad, sobre los riesgos y los beneficios de los tratamientos específicos. Como consecuencia de ello, nosotros no solamente debemos calcular la validez y aplicabilidad de la evidencia disponible, sino que también debemos extrapolar más allá de lo que se sabe que es cierto de otros pacientes, a lo que es probable que sea cierto para nuestro paciente. La ciencia de este arte de
DECIDIR SOBRE LA MEJOR TERAPIA
223
valoración y extrapolación es joven, pero exuberante, y comprende mucho de este capítulo y el capítulo 12: Cómo leer una revista clínica. El segundo elemento adicional que afecta profundamente las tres decisiones primarias de tratamiento, es el mayor rol que los pacientes pueden (y para muchos de nuestros lectores, deben) jugar al tomar estas decisiones. Dado que cualquier decisión sobre el objetivo último del tratamiento se hace en beneficio del paciente, la mayoría de los clínicos implican, e incluso se someten a los deseos del paciente (o de aquellos de la familia de un paciente incapacitado) en esta decisión. Además, cuando se valoran los riesgos y los beneficios de tratamientos específicos, la perspectiva del paciente sobre estos riesgos (especialmente si implican negociaciones entre la cantidad y la calidad de vida) puede ser no solamente útil, sino crucial. Finalmente, como le mostraremos a usted en el capítulo 8, sobre cumplimiento, la implicación de los pacientes en la identificación y monitorización del logro de los objetivos y metas del tratamiento puede tener un efecto beneficioso sobre su cumplimiento con el régimen de tratamiento. Como con otros elementos de la valoración y extrapolación crítica de la evidencia clínica, la ciencia del arte de determinar e incorporar las preferencias y «utilidades» de nuestros pacientes en nuestras decisiones de tratamiento, está en su infancia (11). No obstante, nosotros y nuestros pacientes podemos beneficiarnos de aprender sobre ello, y una porción ulterior de este capítulo mostrará cómo el «análisis de la decisión» puede ayudarnos a integrar estos elementos.
Decidir sobre el objetivo último del tratamiento Los siguientes seis objetivos, individualmente o en combinación, comprenden los objetivos últimos del tratamiento. 1.
Curación (por ejemplo, matar el microbio, extirpar el tumor, desensibilizar al paciente fóbico). 2. Prevenir una recidiva (por ejemplo, dar antibióticos profilácticos después de la recuperación de una fiebre reumática aguda, o tranquilizantes mayores después del alta de una esquizofrenia). 3. Limitar el deterioro estructural o funcional (por ejemplo, reconstruir, rehabilitar). 4. Prevenir las complicaciones ulteriores (por ejemplo, dar diuréticos a los hipertensos asintomáticos y aspirina a los que están amenazados de un accidente cerebrovascular). 5. Mejorar los síntomas comunes (por ejemplo, sustituir la hormona, dar analgésicos, antidepresivos y medicamentos antiinflamatorios).
224
EPIDEMIOLOGÍA CLÍNICA
6. Permitir morir con comodidad y dignidad (por ejemplo, suspender más pruebas diagnósticas y enfocar sobre el alivio de los síntomas ordinarios y la conservación de la dignidad). Para decidir sobre cuál de los objetivos anteriores hay que seguir, nosotros creemos que es útil considerar los mismos tres elementos de una enfermedad que hemos introducido en el capítulo primero de este libro (22). 1. El padecimiento o trastorno objetivo. El trastorno anatómico, bioquímico, fisiológico o psicológico, cuya etiología (si es conocida), mecanismos de mala adaptación, presentación, pronóstico y manejo, nosotros leemos en los libros médicos de texto. 2. La dolencia. Los signos, síntomas y conducta exhibida por el paciente como consecuencia del trastorno objetivo y respondiendo a éste. 3. La situación difícil. La manera social, psicológica y económica en la cual está situado el paciente en el ambiente. La necesidad de valorar correctamente el elemento del padecimiento es patente. Los clínicos son disgustados y los pacientes, generalmente, son castigados cuando la enfermedad es diagnosticada erróneamente y, como consecuencia de ello, incorrectamente tratada (un caso especial, el diagnóstico de no enfermedad, el cual se tratará más adelante). Con el desarrollo de la terapia específica de la enfermedad, la necesidad de conocer exactamente lo que está siendo tratado se convierte en muy importante. Además, conocer la enfermedad incluye conocer el pronóstico, cuando es tratada y no tratada, su riesgo de recaída y recidiva, sus incapacidades permanentes y sus resultados finales. Este conocimiento define los límites de las opciones potenciales (curación, mejoría, paliación, etc.) de la terapia. Una vez que son identificadas las opciones, las utilidades y las preferencias del paciente, influyen en la elección final entre aquéllas. Así como la valoración correcta de la dolencia fue la clave para producir las hipótesis diagnósticas apropiadas en la sección previa de este libro, tal valoración es a menudo la clave para establecer también los objetivos del tratamiento. Dado que la mayoría de los pacientes quieren tratamientos para mejorar sus síntomas, una valoración exacta de su dolencia es esencial para cualquier objetivo del tratamiento que se refiera a la mejoría sintomática. Finalmente, nosotros necesitamos valorar la situación difícil del paciente con el fin de identificar los límites de nuestras opciones de tratamiento. Aunque la pobreza y la mala vivienda requieren intervención política y social, más bien que terapia médica, tales situaciones difíciles limitan claramente nuestros tratamientos médicos y debe ser considerado antes de
DECIDIR SOBRE LA MEJOR TERAPIA
225
que nosotros digamos a un diabético septuagenario, sin dinero, que siga una dieta cara, que se analice la sangre y la orina frecuentemente con costosas «tiritas» y que compre jeringas de insulina desechables. Una síntesis del padecimiento, la dolencia y la situación difícil, y las opciones de los objetivos del tratamiento identificarán aquellos objetivos que merecen la pena proseguir en el caso individual. Generalmente, ellos serán alguna combinación de los objetivos tomados de las tres primeras opciones (curación, prevenir una recidiva, limitar el deterioro estructural o funcional), más los dos siguientes (prevenir complicaciones ulteriores o mejorar los síntomas actuales); en ocasiones, sin embargo, el último objetivo (permitir morir con comodidad y dignidad) tiene prioridad sobre los otros tres. Una vez que se han establecido los objetivos de la terapia, nosotros estamos listos para proceder al paso siguiente, escoger el tratamiento preciso para lograr aquéllos. Como usted verá, los resultados de este paso próximo pueden motivar que nosotros retrocedamos y revaloremos nuestros objetivos originales de terapia. Escoger el tratamiento específico
Los fabricantes modernos han introducido máquinas extrañas que pueden seleccionar, agujerear, taladrar, doblar, acoplar y soldar materiales sin elaborar, en mercancías terminadas, todo ello por sí mismas; ellas afilan sus propias herramientas cuando se embotan, reemplazan trocitos de ellas mismas cuando se desgastan e incluso perciben y corrigen sus propias equivocaciones. Un problema que ellas no han sido capaces de superar, sin embargo, consiste en la tentación casi irresistible que ellas ofrecen a los seres humanos que las atienden, a ajustar, reestablecer y, de otro modo, chapucear con ellas, incluso cuando están funcionando perfectamente bien. Los resultados son a menudo desastrosos. Desesperados, algunos directores de planta han instalado avisos bien a la vista a lo largo de sus cadenas automatizadas de montaje: ¡SI NO ESTA ROTO, NO LO REPARE! Nosotros pensamos que la analogía es apropiada y que el primer elemento al escoger el tratamiento específico tiene que ser decidir si se requiere algún tratamiento. Existen dos suertes de circunstancias en las cuales los pacientes «no están rotos» y nosotros no debemos intentar «repararlos». La primera es debida a los errores diagnósticos de positivos falsos que etiquetan a los pacientes como enfermos, cuando en realidad ellos no lo están, y nosotros hicimos alusión a esto en la sección anterior de este capítulo. Muy bien resumido por Meador (13), estas «no enfermedades» pueden ser subclasificadas como síndromes miméticos (mujeres gruesas
226
EPIDEMIOLOGÍA CLÍNICA
con cara redonda, con labio superior peludo, pero con esteroides normales, que no tienen la enfermedad de Cushing), síndromes de límite más alto-más bajo (valores de laboratorio limítrofes), síndromes de variación normal (niños bajos de padres bajos que no tienen enanismo), síndromes de error de laboratorio, síndromes de sobreinterpretación radiográfica, síndromes de ausencia congénita de órganos (riñones que «no funcionan» y vesículas biliares que no están allí), y síndromes de sobreinterpretación errónea de los hallazgos físicos. El síndrome de límite más alto-más bajo es completamente frecuente, especialmente en los laboratorios automatizados que informan sobre 6, 12 u 80 constituyentes diferentes de la sangre, cuando se ha pedido solamente uno. El resultado es una alta tasa de resultados de pruebas de laboratorio (en términos de la historia del paciente y del examen físico) inesperados e inexplicablemente anormales*. La mayoría de estos resultados «anormales» son falsos. Por ejemplo, cuando el equipo de Bradwell siguió cuidadosamente a 100 pacientes con resultados de pruebas de laboratorio anormales, inexplicables e inesperados (adicionalmente 74 fueron inesperados, pero se explicaron posteriormente), el 71 por 100 de ellos tenían resultados normales cuando se repitieron las pruebas poco tiempo más tarde (2). Aunque estos pacientes no fueron tratados en el ínterin, ¡cualquier terapia establecida entre tales resultados, los iniciales y los repetidos, hubiera parecido eficaz! La segunda circunstancia en la que los pacientes «no están rotos» y no necesitan «arreglo» es cuando el tratamiento es peor que la enfermedad o cuando su enfermedad es trivial, autolimitada, o bien está dentro de los poderes de recuperación y reparación del cuerpo y la mente del paciente. Esta segunda circunstancia debe ser identificada cuando ocurre porque no reclama tratamiento. Basado en propuestas de los colegas clínicos que leyeron los borradores preliminares de este capítulo, nosotros hemos preparado una lista de pacientes «que no están rotos, de modo que no necesitan ser arreglados», en la tabla 7.1. Cuando nosotros operamos y medicamos a tales pacientes, solamente reforzamos sus conductas de «rol de enfermo», gastamos su dinero y aumentamos su riesgo de enfermedad iatrogénica. Habiendo decidido que la enfermedad del paciente sí justifica tratamiento y habiendo seleccionado la meta de este tratamiento, usted debe escoger ahora el medicamento específico, la operación, el entablillado, el ejercicio o la conservación que mejor logre este fin. ¿Cómo (diablos) decide
* Para una discusión más completa de por qué ocurre inevitablemente esto, cuando los laboratorios clínicos usan definiciones inapropiadas del rango normal, ver pág. 69.
DECIDIR SOBRE LA MEJOR TERAPIA
227
Tabla 7.1. Situaciones en pacientes que «no están rotos, de modo que no necesitan ser arreglados». 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
Pupila de Adié. Manchas de café con leche. Manchas de Campbell de Morgan. «Inversión de letras» en niños de 4 años de edad. Enfermedad no de Cushing. No enanismo. Pitiriasis rosada (excepto antipruríticos). Embarazo. Ptosis del riñón (en un normotenso). Pequeños grados de escoliosis estable. Cálculos biliares silenciosos. Divertículos del colon sin síntomas. Hernia de hiato sin síntomas. Hipopotasemia asintomática en hipertensos tratados con tiacidas (sin enfermedad cardíaca). 15. Hipotensión sin síntomas. 16. Hiperuricemia sin síntomas. 17. Hernia umbilical en la infancia.
usted cuál prescribir? A nosotros nos parece que hay tres modos de escoger una terapia: 1.
Sobre la base del análisis retrospectivo de su propia experiencia clínica no controlada, la de los demás, o la extensión de los conceptos corrientes de los mecanismos de la enfermedad, usted puede llegar lógicamente a la terapia que parece que actúa o debe actuar; nosotros llamaremos a esto el método de la inducción. 2. Sobre la base del análisis prospectivo de los ensayos clínicos aleatorios formales, diseñados para mostrar los tratamientos inútiles o peligrosos, usted puede seleccionar las terapias que resisten con éxito los intentos formales para demostrar su falta de valor; a esto le
llamamos nosotros el método de deducción. 3. Sobre la base de las recomendaciones de sus profesores, consultantes, colegas, anuncios o representantes farmacéuticos, usted puede aceptar simplemente un tratamiento por/e; nosotros llamaremos a esto el método de la renuncia (o para acoplar con la rima y la cadencia de los otros dos, el método de la seducción). No será una sorpresa, a estas alturas del libro, saber que nosotros preferimos el método deductivo (o más correctamente, el hipotético-deducti-
228
EPIDEMIOLOGÍA CLÍNICA
Tabla 7.2. Seis guías para distinguir la terapia útil de la inútil e incluso perjudicial. 1. 2. 3. 4. 5. 6.
¿Fue la asignación de los pacientes a los tratamientos realmente aleatoria? ¿Fueron comunicados todos los resultados clínicos relevantes? ¿Eran los pacientes del estudio reconociblemente similares a los suyos propios? ¿Fueron consideradas la significación clínica y estadística? ¿Es factible en su práctica la maniobra terapéutica? ¿Fueron contabilizados todos los pacientes que entraron en el estudio a su terminación?
vo) para seleccionar el tratamiento específico. La mejor información sobre si un tratamiento dado hace más bien que daño a los pacientes con un trastorno dado, son los resultados de un ensayo clínico aleatorio, en el cual los pacientes con el trastorno dado fueron asignados aleatoriamente para recibir, bien el tratamiento dado o un placebo (o la terapia convencional) y entonces fueron seguidos en relación con los resultados clínicamente relevantes de su enfermedad y su tratamiento. Afortunadamente, los ensayos clínicos aleatorios están convirtiéndose en mucho más comunes y han demostrado dramáticamente la eficacia de muchos tratamientos y la inutilidad o incluso la peligrosidad de otros varios. Sin embargo, la evaluación apropiada de la terapia requiere más que precisamente información, y este capítulo suministrará otras cinco guías para escoger las afirmaciones terapéuticas. Nosotros hemos listado estas seis guías en la tabla 7.2, y las discutiremos brevemente a continuación. Antes de hacer esto, sin embargo, nosotros tenemos unas cuantas cosas más que decir sobre los métodos de inducción y seducción. ¿Por qué somos nosotros tan duros con respecto al método de inducción? Después de todo, este método constituye la estrategia más importante para proponer las ideas de tratamiento que consiguen ser probadas en ensayos clínicos aleatorios, y muchas de estas ideas de tratamiento demuestran ser poderosamente eficaces. El defecto fatal del método de inducción consiste en que es a menudo incapaz de descubrir las conclusiones erróneas sobre la eficacia, incluso cuando las observaciones sobre las cuales opera son totalmente exactas (14). Considere un ejemplo. Los clínicos juzgan frecuentemente sobre la eficacia de un tratamiento moderno comparando su experiencia clínica corriente (resultados de los pacientes que reciben el nuevo tratamiento) con su experiencia clínica anterior (resultados de los pacientes tratados por otros métodos antes de que el nuevo tratamiento estuviera disponible). Si los resultados en los pacientes de hoy son mejores que en los de ayer, la nueva terapia se juzga eficaz y superior a la antigua. El uso de las
DECIDIR SOBRE LA MEJOR TERAPIA
229
«comparaciones históricas» de esta forma es arriesgada, como lo muestra el auge y la caída de la «congelación gástrica» (16). Reconociendo que enfriar el estómago a 5o ó 10° C, reduce marcadamente la secreción de ácido, un antiguo presidente del American College of Surgeons, bajó a —10° C la temperatura del refrigerante que entraba en los balones gástricos colocados en el estómago de los pacientes de úlcera péptica. Los primeros pocos pacientes así tratados experimentaron una brusca reducción de sus síntomas ulcerosos y mostraron a rayos X la curación de sus úlceras. Cuando fueron contrastados estos resultados con la experiencia anterior, impresionaron tanto a los innovadores, que ellos pagaron el último tributo al uso de los controles históricos; en su informe memorable sobre su éxito inicial, ellos afirmaban: «desde abril de 1961, ningún paciente con úlcera duodenal enviado para intervención electiva ha sido operado en el servicio quirúrgico del autor principal. Esta circunstancia por sí misma indica la confianza en el método por parte de los pacientes, así como de los cirujanos» (23). Los años siguientes vieron la venta de 2.500 máquinas de congelar el estómago y una controversia creciente sobre la eficacia del procedimiento. Finalmente, se llevó a cabo (18) un ensayo aleatorio apropiado. En este ensayo la cirugía subsiguiente por úlcera de estómago, hemorragia gastrointestinal u hospitalización por dolor intratable tuvo lugar en 30 (44 por 100) de los 68 pacientes asignados aleatoriamente al tratamieno fingido, y en 35 (51 por 100) de los 69 pacientes randomizados para la congelación del estómago. Estos resultados publicados varios años después del informe prometedor inicial, sonó el toque de difunto para el congelado del estómago y éste fue abandonado rápidamente. Mientras tanto, a decenas de miles de pacientes de úlcera se les congeló el estómago basándose en estos controles históricos, pagando el precio de nuestra confianza en la inducción como un método de seleccionar el mejor tratamiento. Un segundo enfoque inductivo evita el problema de las «comparaciones históricas» comparando a los pacientes contemporáneos que han recibido o no han recibido un tratamiento particular. Aunque los pacientes que son comparados aquí no son asignados aleatoriamente para recibir o no recibir el tratamiento, ellos generalmente parecen comparables, y es posible «ajustados» estadísticamente frente a cualquier diferencia en los factores de riesgo que son reconocidos. Este enfoque puede conducirnos por mal camino también, como usted recordará del capítulo 5, sobre diagnóstico precoz; cualquier tratamieno comenzado precozmente en el curso de una enfermedad, parecerá bueno, incluso cuando es inútil. Otro error en este segundo enfoque inductivo es descubierto cuando nosotros intentamos determinar la eficacia de un tratamiento comparando pacientes que tomaron toda su medicina, con aquellos que tomaron poca o ninguna de ella. A primera vista, esto parece un enfoque bastante bueno, ya que los dos
230
EPIDEMIOLOGÍA CLÍNICA
Tabla 7.3. Mortalidad en hombres con enfermedad cardíaca coronaria que tomaron y no tomaron su medicina.
* Ajustado para 40 factores de riesgo y otras características de línea de base. Adaptado de Coronary Drug Project Research Group, Influence of adherence to treatment and response of cholesterol on mortality in the Coronary Drug Project. N. Engl. J. Med. 303:1038, 1980.
grupos de pacientes deben tener la misma enfermedad y ser bastante homogéneos; de otro modo, a ellos no se les hubiera prescrito la misma medicación. Los resultados sorprendentes de tal enfoque se muestran en la tabla 7.3. En este estudio particular, los hombres que habían sobrevivido a un infarto de miocardio y habían comenzado con la misma medicación, fueron seguidos cuidadosamente por infartos recidivantes o muerte (3). Además, se hicieron mediciones para ver cuan bien fueron tomando sus medicinas. Como se ve en la tabla 7.3, el 26 por 100 de los 882 hombres que tomaron menos del 80 por 100 de sus medicinas murieron, comparado con solamente el 16 por 100 de los 1.813 hombres que tomaron, por lo menos, el 80 por 100 de sus medicinas. Así pues, a aquellos que estuvieron altamente expuestos a esta medicación les fue mucho mejor que a aquellos que no lo fueron. Incluso después del ajuste estadístico para los 40 factores de riesgo y otras características de la línea de base, aquellos que tomaron sus medicinas fueron en un 38 por 100 menos probable que murieran de infarto que aquellos que no tomaron sus medicinas, y esta diferencia en mortalidad fue extraordinariamente significativa estadísticamente. Esto parece como una evidencia muy convincente de que esta medicación es altamente eficaz. ¡Hasta que nosotros supimos que era un placebo! Estos resultados proceden del grupo placebo de un ensayo de varios medicamentos que bajaban los lípidos, y esta misma sorprendente relación entre la mortalidad
DECIDIR SOBRE LA MEJOR TERAPIA
231
y el cumplimiento se observó tanto en los pacientes con terapia activa como en los del grupo placebo. Los pacientes que siguieron las instrucciones fielmente parecen destinados a resultados más sonrosados, independientemente de si su tratamiento actuó. Como consecuencia de ello, las comparaciones entre los pacientes cumplidores y los no cumplidores constituyen otro enfoque engañoso para determinar si un tratamiento hace más bien que daño. El defecto de todos estos enfoques inductivos consiste en que ellos fallan en limitar suficientemente el error. Ellos buscan evidencia confirmatoria de que el tratamiento puede ser bueno, pero fallan en la realización de los experimentos cruciales que mostrarán si el tratamiento es malo. La ventaja crucial del enfoque hipotético deductivo es que él suministra, en el ensayo controlado aleatorio, la oportunidad científica rigurosa de demostrar que las afirmaciones terapéuticas son basura. Han sido tales ensayos aleatorios los que han demostrado la inutilidad de tratar las úlceras pépticas con congelación gástrica (alrededor de 15.000 pacientes fueron refrigerados, antes de que este tratamiento fuera abandonado), la hipercolesterolemia no familiar asintomática con clofibrato (5.500 muertes prematuras han sido atribuidas a este régimen sólo en los Estados Unidos) y la angina de pecho con ligadura de la arteria mamaria. Nosotros nos reímos de la ingenuidad de nuestros predecesores, que aprobaron y prescribieron estos tratamientos, pero, ¿hay alguna razón para creer que nosotros somos más inteligentes que ellos? Pocos lectores afirmarían ser clínicos más sagaces que Willian Osler, sin embargo, él aconsejó el uso del opio en el tratamiento de la diabetes (0,5-2 granos tres veces al día) (7). Si nosotros somos tan crédulos con nuestros predecesores, es nuestro deber para con nuestros pacientes minimizar nuestras aplicaciones de terapia inútil y peligrosa, basando nuestro tratamiento, siempre que sea posible, sobre los resultados de ensayos clínicos controlados aleatorios apropiados*. ¿Tenemos algo bueno que decir sobre el modo final para escoger un tratamiento: el método de la renuncia (a alguna autoridad que le dice a usted qué hacer, pero no por qué) y la seducción (por un anuncio hábil o un representante de medicamentos embaucador)? No mucho. Por supuesto, si la enfermedad que usted está tratando es una que encuentra muy raramente y no es probable que vea nuevamente, abdicar en favor de algún experto que ha publicado cómo él o ella trata esta entidad, ciertamente ahorra tiempo y probablemente limita el daño. Pero basar su tratamiento de los problemas encontrados ordinariamente en el consejo de algún
* Un método de «a medio camino» para determinar la eficacia en un paciente individual será descrito en las págs. 310 y 311.
232
EPIDEMIOLOGÍA CLÍNICA
«experto» que publicó recomendaciones de tratamiento pero sin evidencia de apoyo, le pone a usted a la par con el doctor de pies desnudos. Después de todo, fueron estos mismos expertos los que aconsejaron las cataplasmas de trementina y las sanguijuelas. Los expertos que merecen el pan que se comen, citarán evidencia apropiada de ensayos clínicos aleatorios para respaldar sus afirmaciones, y usted puede encontrar estos ensayos y aplicarles las guías de la tabla 7.2. Lo mismo vale para los representantes farmacéuticos. Los útiles quitarán importancia a los testimonios y la farándula, y le dará o le enviará separatas sobre ensayos aleatorios de sus productos, publicados en revistas que tienen comité de examen. Los otros lo inundarán a usted con farmacocinética, le subrayarán cuántos de sus colegas están ya en la carroza triunfal, y le ofrecerán declaraciones que harían sonrojar a un vendedor de autos usados. Además, aunque los representantes farmacéuticos constituyen una fuente importante de información sobre los nuevos medicamentos, ¿por qué querría ser usted el primer clínico de la manzana de casas en usarlo? Incluso si su eficacia está bien probada por ensayos clínicos aleatorios controlados, tales ensayos son demasiado pequeños para detectar los efectos secundarios raros pero devastadores, y a menos que no exista tratamiento alternativo eficaz, es una buena idea esperar hasta que el nuevo medicamento ha sido usado durante cierto tiempo*. Y ahora, sobre las guías del lector (mostradas en la tabla 7.2) para su uso en la clasificación de las declaraciones sobre terapia. Una vez más, ellas constituyen «sentido común aplicado» y están diseñadas para aumentar la eficacia, así como la exactitud de su lectura. Las guías 1 y 6 tratan principalmente sobre validez (¿son verdaderas las conclusiones del artículo?; las guías 2, 3 y 5 tratan en su mayor parte sobre la aplicabilidad (¿son las conclusiones del artículo relevantes para nuestros propios pacientes?), y la guía 4 trata tanto sobre la validez (significación estadística), como sobre la aplicabilidad (significación clínica).
* Si, por ejemplo, un medicamento produce un efecto secundario grave en 1/1.000 (0,1 por 100 o 0,001), de aquellos que lo toman, la «regla de tres» nos dice que con el fin de estar 95 por 100 seguro de encontrar por lo menos un efecto secundario, nosotros necesitamos seguir (1/0,001) x 3, o sea a 3.000 pacientes. Eso es mucho mayor que cualquier ensayo clínico, para encontrar una reacción adversa grave. Así pues, aunque los ensayos aleatorios son el único modo seguro para determinar la eficacia de un medicamento, es necesaria la vigilancia posmarketing para determinar su seguridad (21).
DECIDIR SOBRE LA MEJOR TERAPIA
233
¿FUE LA ASIGNACIÓN DE LOS PACIENTES A LOS TRATAMIENTOS REALMENTE ALEATORIA? Cada paciente que entró en el estudio debió haber tenido la misma probabilidad conocida (típicamente el 40 por 100) de recibir uno u otro de los tratamientos que se estaban comparando: así pues, la asignación a un tratamiento debió haber sido efectuada por un sistema análogo al de tirar una moneda al aire. Es generalmente fácil decidir si se hizo esto, ya que los términos claves tales como ensayo aleatorio o asignación randomizada deben aparecer en el resumen, la sección de métodos, o incluso en el título de los artículos*. Como consecuencia de ello, el lector clínico ocupado tiene la opción de aplicar esta guía rigurosamente; si usted está leyendo una revista a la que está suscrito, por el método de la «vigilancia» para «mantenerse al día con la literatura clínica» (más bien que buscando la literatura clínica para decidir cómo tratar el problema presentado por un paciente específico), descarte en seguida todos los artículos sobre terapia que no sean ensayos aleatorios. Aunque el ensayo aleatorio puede producir a veces una conclusión incorrecta sobre la eficacia (especialmente, como veremos pronto, cuando es un ensayo pequeño), es con mucho la mejor herramienta y la más disponible corrientemente para identificar las maniobras clínicas que hacen más bien que daño. ¿Podemos nosotros tener confianza alguna vez de que un tratamiento es eficaz en ausencia de un ensayo aleatorio? Solamente cuando la terapia tradicional es seguida invariablemente por la muerte. Por ejemplo, antes de 1946 el resultado de la meningitis tuberculosa fue invariablemente fatal. Entonces, cuando se dispuso de pequeñas cantidades de estreptomicina para su uso en los seres humanos, unas cuantas víctimas de los Estados Unidos tratadas con este nuevo medicamento, sobrevivieron (9); esta notable supervivencia después de la estreptomicina se repitió al poco tiempo en el Reino Unido (15). Así pues, la capacidad de mostrar y reproducir que los pacientes con una enfermedad anteriormente fatal, generalmente, pueden sobrevivir después de un nuevo tratamiento, constituye suficiente evidencia por sí misma de su eficacia. Insistir sobre la evidencia de los ensayos clínicos aleatorios puede aumentar la eficacia con la que uno lee una revista a la que está suscrito, porque ello conducirá al rechazo precoz de la mayoría de los artículos * Tenga cuidado con los «parecidos» a la randomización. Por ejemplo, algunos informes describen cómo fueron asignados los pacientes «al azar» para una terapia u otra; a menudo, éstos no son ensayos aleatorios, y los autores de tales informes pudieron haber dicho también que los pacientes fueron asignados «a la conveniencia del investigador», «sin sesgo consciente» o incluso «arriesgadamente».
234
EPIDEMIOLOGÍA CLÍNICA
relacionados con terapia. La regla requiere alguna modificación, sin embargo, cuando se lee en torno a un paciente en particular. En este último caso, ocurrirá a menudo que no se han publicado jamás ensayos aleatorios controlados; ¿qué debe hacer el lector clínico entonces? Son apropiadas dos tipos de acciones cuando se está leyendo sobre un paciente específico. Primero, la busca inicial de literatura debe indagar cualquier ensayo aleatorio que exista. Segundo, en ausencia de ensayos clínicos aleatorios publicados, los lectores clínicos tendrán que usar los resultados de investigaciones subexperimentales. Antes de aceptar las conclusiones de tales estudios, los clínicos deben convencerse a sí mismos de que los resultados mejorados de los pacientes después de la terapia son sencillamente tan grandes, que los mismos no pueden explicarse por uno o más sesgos en la reunión de los pacientes del estudio, en la valoración o en la interpretación de sus respuestas a la terapia. Esta segunda regla es obviamente una llamada al juicio y debe ser moderada por el recuerdo de que este mismo tipo de evidencia subexperimental apoyó el uso anterior del clofibrato, la ligadura de la arteria mamaria y la congelación gástrica. Así pues, la situación es familiar para los clínicos que necesitan actuar en presencia de información incompleta. Como en otras circunstancias similares, es quizás mejor realizado volviendo a la tabla 7.1 y considerar tanto la certeza de la causa como las consecuencias de los cursos alternativos de acción que están abiertos; ¿necesita el paciente alguna intervención? Si es así, ¿ha demostrado en ensayos aleatorios alguna de las intervenciones disponibles que hace más bien que daño? Si no se ha observado ninguna, ¿cuál de entre ellas es probable que produzca la mejor negociación entre el beneficio y el riesgo? Las guías que siguen pueden ayudar a formar este juicio último, así como ayudar en la valoración crítica de los ensayos aleatorios apropiados. ¿FUERON COMUNICADOS TODOS LOS RESULTADOS CLÍNICOS RELEVANTES? La tabla 7.4 resume los resultados de un ensayo aleatorio importante del clofibrato en hombres con colesterol sérico elevado (17). Algunos de los resultados de la terapia aparecen altamente favorables. Por ejemplo, el colesterol sérico —un riesgo coronario clave— bajó casi el 10 por 100, suministrando algunos evidencia biológica de beneficio. Sin embargo, algunos lectores reconocerán una afirmación de beneficio terapéutico basado en este cambio del colesterol, como un ejemplo de un «juego de sustitución» en el cual un factor de riesgo es sustituido por su resultado clínico asociado (25), y querrán buscar ulteriormente para ver si hubo cambios reales en la presentación de acontecimientos coronarios agudos.
DECIDIR SOBRE LA MEJOR TERAPIA
235
Figura 7.4. Resultados clínicamente relevantes en un ensayo randomizado de clofibrato en la prevención de enfermedad cardíaca coronaria.
Tal evidencia está disponible también en la tabla 7.4, donde observamos reducciones tanto en los infartos de miocardio no fatales (línea 2 de la tabla), como en todos los infartos, tanto fatales como no fatales (línea 3 de la tabla). Así pues, parecería que la eficacia del clofibrato está apoyada en este estudio. Sin embargo, cuando nosotros consideramos todos los resultados clínicos relevantes, especialmente desde el punto de vista del paciente (20), nosotros debemos considerar los efectos del clofibrato sobre la calidad de vida y la mortalidad total, y esta última aparece con efectos inquietantes en la línea 4 de la tabla; la mortalidad total se elevó con la terapia de clofibrato, un resultado que ha afectado profundamente tanto al uso como a la disponibilidad de este medicamento. Así pues, debido a que nuestro juicio de la utilidad del clofibrato u otros agentes puede depender, de un modo crucial, sobre los resultados clínicos escogidos para comparación, los lectores deben estar seguros de que todos los resultados clínicamente relevantes fueron comunicados. Además, debido a que el desacuerdo clínico es ubicuo en medicina, los lectores deben reconocer también la necesidad de criterios explícitos, objetivos, sobre los resultados clínicos de interés y su aplicación por los observadores que están «ciegos» sobre si el paciente bajo escrutinio estaba en tratamiento activo o en el grupo control.
¿ERAN LOS PACIENTES DEL ESTUDIO RECONOCIBLEMENTE SIMILARES A LOS SUYOS PROPIOS? Esta guía tiene dos elementos. Primero, los pacientes del estudio deben ser reconocibles, esto es, su estado clínico y sociodemográfico debe ser descrito
236
EPIDEMIOLOGÍA CLÍNICA
con suficiente detalle para que usted sea capaz de reconocer la similaridad entre ellos y los pacientes de usted. Segundo, los pacientes del estudio deben ser similares a los pacientes de su práctica. Dicho de otro modo, usted debería preguntarse a sí mismo, «¿son los pacientes de este estudio tan diferentes de los míos que yo no puedo aplicar los resultados del estudio en mi práctica?». Este requisito va más allá de la cuarta guía general para leer las revistas clínicas descritas en el capítulo 12 (el sitio) para abarcar las características precisas de los pacientes individuales, más bien que las características generales de su red de referencia. Cuando ambos elementos, la reconocibilidad y la similaridad son satisfechos, los lectores clínicos serán capaces de predecir con confianza los resultados clínicos a esperar por la aplicación de la terapia específica sobre los pacientes específicos de su práctica. ¿FUERON CONSIDERADAS LA SIGNIFICACIÓN CLÍNICA Y ESTADÍSTICA? La significación clínica se refiere aquí a la importancia de la diferencia en los resultados clínicos entre los pacientes tratados y los del control, y se describe generalmente en términos de la magnitud de un resultado. Suponga que el grupo de tratamiento activo en un ensayo aleatorio de la aspirina en la amenaza de accidente cerebro vascular tiene un 50 por 100 menos de tales accidentes y muertes que el correspondiente grupo control. Esta reducción del 50 por 100 se convierte en clínicamente significativa cuando su publicación conduce a cambios en la conducta clínica*; así pues, es confirmado como que es clínicamente significativo cuando los clínicos pescriben la aspirina a los pacientes con amenaza de accidente cerebrovascular. En contraste, la significación estadística nos dice si las conclusiones que los autores han deducido son probablemente ciertas (independientemente de si ellas son o no clínicamente significativas). Suponga que usted lee un artículo que informa sobre un ensayo clínico aleatorio con doble ciego, que compara un medicamento nuevo (llamémosle medicamento A) con un placebo que parece idéntico (llamémosle medicamento B) para el control de un trastorno clínico importante. Basado en sus resultados (y excluyendo por el momento la posibilidad de que el medicamento A empeore a los pacientes), los autores del artículo obten-
* Aunque nosotros hemos definido la significación clínica desde la perspectiva del clínico, por supuesto podía ser definida también desde la perspectiva del paciente en términos de «diferencias importantes en la calidad de vida».
DECIDIR SOBRE LA MEJOR TERAPIA
237
drán una de dos conclusiones: o bien el medicamento A es mejor que el medicamento B, o el medicamento A no es mejor que el medicamento B. Ellos comunicarán esta conclusión en su artículo e intentarán convencernos de que ello es correcto. Por supuesto, todos nosotros reconocemos que existe una respuesta cierta a la cuestión planteada por este ensayo, y que o bien el medicamento A es mejor realmente que el medicamento B, o que el medicamento A no es realmente mejor que el medicamento B. El ensayo clínico contenido en el artículo es un intento de llegar a la verdad, y cuando nosotros comparamos las conclusiones del autor con el verdadero estado de la cuestión en la tabla 7.5, pueden quedar claros algunos conceptos estadísticos muy desconcertantes. Si el equipo que realizó el ensayo concluye que el medicamento A es mejor que el medicamento B, y en verdad, realmente es mejor, como aparece en la celda w de esta tabla, entonces ellos han deducido una conclusión positiva verdadera correcta y todo está bien. De modo similar, ellos pueden obtener una conclusión negativa verdadera, correcta, de que el medicamento A no es mejor que el medicamento B, cuando en realidad no lo es como aparece en la celda z. La dificultad surge cuando ellos obtienen las conclusiones erróneas de las celdas x e y. En la celda x, ellos han obtenido una conclusión positiva falsa errónea de que el medicamento A es mejor que el medicamento B, cuando en verdad, no es mejor. Inversamente, en la celda y, ellos han obtenido una conclusión negativa falsa errónea de que el medicamento A no es mejor que el medicamento B, cuando en realidad es mejor. Estas relaciones entre las conclusiones obtenidas de un ensayo, por una parte, y el verdadero estado de la cuestión, por otra, puede ser considerado útilmente como un intento para «diagnosticar» la verdad. El ensayo clínico es la prueba diagnóstica y nosotros podemos interpretarlo como positivo (el medicamento A es mejor que el medicamento B) o negativo (el medicamento A no es mejor que el medicamento B). Nosotros confiamos que nuestras conclusiones son positivas verdaderas y negativas verdaderas (celdas w y x, respectivamente), y esperamos evitar las conclusiones erróneas que conducen a interpretaciones positivas falsas (celda x) y negativas falsas (celda y). Como usted puede ver en la tabla 7.5, pueden hacerse dos tipos de conclusiones erróneas. Da la casualidad que estos errores tienen denominaciones y uno de ellos corresponde a un viejo amigo. Esto se muestra en la tabla 7.6. Con una aptitud especial para los nombres emocionantes, los estadísticos han decidido denominar al error positivo falso de concluir que el medicamento A es mejor que el medicamento B, cuando, en verdad, no lo
238
EPIDEMIOLOGÍA CLÍNICA
Tabla 7.5. Comparación de las conclusiones obtenidas en un ensayo clínico, con la situación verdadera de las cosas.
PV = positivo verdadero; PF = positivo falso; NF = negativo falso; NV = negativo verdadero.
es, «error de tipo I». Lo que es excitante, sin embargo, es que al informar sobre los resultados de un ensayo, los autores casi siempre nos dicen el tamaño del riesgo en que ellos han incurrido en este error positivo falso, ¡porque esto es lo que el valor P significa! El valor P (o a, como es llamado antes de que el estudio comience) es la probabiliad de una conclusión positiva falsa de que el medicamento A es mejor que el medicamento B, cuando, en verdad, no lo es. Así pues, cuanto más pequeño es el valor P, más cómodo estamos nosotros sobre una conclusión de que la terapia experimental es realmente mejor que el control o la terapia placebo. Como usted puede ver en la tabla 7.6, la conclusión negativa falsa errónea tiene un nombre excitante también, y es el «error de tipo II». El tamaño del riesgo de obtener esta conclusión errónea también puede ser calculada y es llamada (3. Lo que es realmente interesante sobre esta columna de la tabla es la celda w, la cual es igual a (1 — f3). Ello nos dice la probabilidad que los autores concluirían que el medicamento A es estadísticamente más significativo que el medicamento B, cuando en verdad es realmente mejor. Esta probabilidad de deducir una conclusión positiva verdadera cuando usted debe hacerlo se llama el «poder» del estudio, y volviendo al capítulo 4 sobre pruebas diagnósticas, usted puede ver que el poder de un estudio científico es análogo a la sensibilidad de una prueba diagnóstica. Puede ser útil pensar de este modo sobre el particular a medida que nosotros seguimos.
DECIDIR SOBRE LA MEJOR TERAPIA
239
Tabla 7.6. Denominación de las conclusiones erróneas de un ensayo clínico.
No debe ser ninguna sorpresa que estas relaciones sean usadas tanto en la planificación como en la interpretación de los ensayos aleatorios. Al planificar tal ensayo, los investigadores pueden decidir de antemano justamente cuan grande es el riesgo que ellos están dispuestos a correr de obtener conclusiones erróneas de ambos tipos (esto es, de cometer errores de tipo I, positivos falsos, y errores de tipo II, negativos falsos); al hacer esto, ellos deciden a menudo correr un riesgo del 5 por 100 de concluir que la terapia convencional y la experimental producen resultados clínicos diferentes cuando en verdad ellos no los producen (un error de tipo I positivo falso o error a de 0,05) y correr un riesgo del 20 por 100 de concluir que la terapia convencional y experimental no producen resultados clínicos diferentes, cuando en realidad sí lo hacen (un error de tipo II negativo falso o error p de 0,20). Si P es 0,20, entonces el poder del estudio es 1 — 0,20 ó 80 por 100; esto es, si en verdad la terapia convencional y la experimental producen realmente resultados diferentes, el estudio tendrá una oportunidad del 80 por 100 de descubrirlo y etiquetarlo como estadísticamente significativo. O, por analogía, la sensibilidad del estudio para hallar una diferencia real, si verdaderamente existe, es del 80 por 100. La mayoría de los autores deciden establecer el riesgo de positivo falso (a) en 0,05 y el riesgo de negativo falso (p) en 0,20, de modo que estos valores para a y P son referidos a veces «niveles convencionales de significación
240
EPIDEMIOLOGÍA CLÍNICA
estadística». A estas decisiones sobre los riesgos, se añaden entonces los juicios sobre la tasa esperada de acontecimientos de resultados en los pacientes asignados a la terapia convencional y el grado de diferencia en los resultados entre estos pacientes tratados convencionalmente y aquellos asignados a la terapia experimental, que sería considerada clínicamente significativa (como hemos notado anteriormente, esto consiste típicamente en partir por la mitad la tasa de acontecimientos). Entonces, debido a que estos cinco elementos (a, P, la diferencia clínicamente significativa, la tasa de acontecimientos en pacientes con terapia convencional, y el número de pacientes en cada grupo de tratamieno) están interrelacionados, se sigue que si usted conoce o establece cuatro, usted puede calcular el quinto. Así pues, si usted establece a, (3 y la diferencia clínicamente significativa, y si usted conoce la tasa de acontecimientos que ocurre en la terapia convencional, puede ser calculado el número de pacientes requeridos para mantener esta relación; en realidad, así es como los investigadores clínicos deciden rutinariamente cuántos pacientes necesitan ellos en un ensayo aleatorio. Existen, por supuesto, varias vueltas adicionales más en la discusión anterior, pero ellas son de interés para los que hacen la investigación y este libro es para los que usan la investigación. Así pues, nosotros estamos contentos si le hemos convencido a usted que es posible, antes de comenzar un ensayo terapéutico, definir cuántos sujetos son requeridos para demostrar clínicamente diferencias significativas en niveles convencionales de significación estadística. Así termina la lección de estadística. De ella nosotros podemos derivar dos criterios muy útiles para interpretar un artículo sobre un ensayo clínico. Primero, si la diferencia es estadísticamente significativa, ¿es clínicamente también significativa? Suponga que los autores concluyen que el medicamento A es mejor para los pacientes que el medicamento B, y han calculado que el valor P es de 0,02. Esto significa que su riesgo de haber concluido erróneamente que el medicamento A es mejor, cuando en verdad no lo es, es solamente del 2 de 100. Esto parece bastante bueno y usted puede asumir que la diferencia en los resultados del medicamento A y el medicamento B es real. La cuestión se convierte entonces en: «¿es clínicamente importante, también?». ¿Es la diferencia lo suficientemente grande como para que usted quiera exponer a sus pacientes a sufrir los rigores del tratamiento con el medicamento A? Si es así, ¡caza a la vista! Por otra parte, los autores pueden haber puesto tantos pacientes en su ensayo que incluso una diferencia clínicamente trivial sería estadísticamente significativa. En este caso, usted no usaría el medicamento A en ningún caso. Este criterio, entonces, le ayudará a usted a decidir si aplicar los resultados de un ensayo «positivo».
DECIDIR SOBRE LA MEJOR TERAPIA
241
El segundo criterio se aplica a los resultados de un ensayo «negativo»: si la diferencia no es estadísticamente significativa, ¿fue el ensayo lo suficientemente grande para mostrar una diferencia clínicamente importante si ésta se
produjo? Esto nos vuelve a nuestra lección de estadística, donde nosotros señalamos que es posible para los autores determinar con anticipación cuan grande debe ser su estudio. Desgraciadamente, los autores de la mayoría de los ensayos que alcanzan conclusiones «negativas» no pudieron o no quisieron poner pacientes suficientes en sus ensayos para detectar diferencias clínicamente significativas. Esto es, los errores p de tales ensayos son muy grandes, y su poder (o sensibilidad) es muy bajo. En realidad, cuando Freiman y sus colegas revisaron una larga lista de ensayos que habían alcanzado conclusiones «negativas», encontraron que la mayoría de ellos tenían demasiado pocos pacientes para demostrar reducciones del riesgo del 25 o incluso del 50 por 100 (6). ¿Cómo puede usted aplicar este segundo criterio? Las tablas 7.7 y 7.8 le deben ayudar a usted. Las filas de estas tablas representan las tasas de acontecimientos entre los pacientes en el grupo control o de tratamiento placebo, y las columnas muestran las tasas de acontecimientos entre los pacientes en tratamiento experimental. Usted puede, simplemente, tomar estas tasas de los informes publicados e identificar la celda donde ellas se entrecruzan. La entrada en esa celda da el número mínimo de pacientes requeridos en cada uno de los grupos de tratamiento en un estudio para que los resultados sean razonablemente seguros (con un P de 0,05) de que una reducción relativa del riesgo del 25 (tabla 7.7) o del 50 por 100 (tabla 7.8) no habría sido errada si hubiera ocurrido*. Por una reducción relativa del riesgo del 50 por 100, nosotros queremos decir dividir por la mitad la tasa de acontecimientos. Así pues, una reducción del 0,40 al 0,20 es una reducción relativa del riesgo del 50 por 100, y una reducción del 0,40 al 0,30 es una reducción relativa del riesgo del 25 por 100.
* Si usted quiere comprender por qué hablamos nosotros sobre a en las tablas 7.7 y 7.8, esta nota es para usted. Estas tablas tratan el ensayo «negativo» conviniendo un problema p en un problema a. Más bien que ir a través de los cálculos molestos de un análisis /?, nosotros hemos establecido simplemente tablas que contrastan los resultados del ensayo realmente observados, con los resultados teóricos que hubieran ocurrido si el grupo experimental disfrutara de reducciones relativas del riesgo del 25 por 100 (tabla 7.7) o del 50 por 100 (tabla 7.8), con las tasas observadas entre los pacientes control. Ya que los estudios tenían números de pacientes en cada grupo que fueron iguales o mayores que los listados en las tablas, los resultados de estos estudios son incompatibles con reducciones relativas del riesgo del 25 o el 50 por 100, y ellos fueron lo suficientemente grandes para mostrar diferencias clínicamente significativas, si ellas habían ocurrido.
Tabla 7.7. ¿Fue el ensayo lo suficientemente grande para mostrar una reducción relativa del riesgo de ≥ 25 por 100, si ha ocurrido?*
* Esta tabla muestra cuántos pacientes serian necesarios por grupo para estar seguro (a = 0,05, 1), de que usted no ha errado una reducción relativa del riesgo del 25 por 100 en el grupo experimental. (Una reducción de 0,40-0,30 es una reducción relativa del riesgo del 25 por 100 como lo es una reducción del 0,20 al 0,15.)
Tabla 7.8. ¿Fue el ensayo lo suficientemente grande para mostrar una reducción relativa del riesgo de ≥ 50 por 100 si ha ocurrido?*
* Esta tabla muestra cuántos pacientes serían necesarios por grupo para estar seguro (a = 0,05, 1), de que usted no ha errado una reducción relativa del riesgo del 50 por 100 en el grupo experimental. (Una reducción de 0,40-0,20 es una reducción relativa del riesgo del 50 por 100 como lo es una reducción del 0,20 al 0,10.)
244
EPIDEMIOLOGÍA CLÍNICA
Así pues, si el tamaño de los grupos de tratamieno en el informe del ensayo exceden los de la tabla 7.7 y 7.8, usted puede estar bastante seguro de que el ensayo fue en verdad lo suficientemente grande para detectar las diferencias clínicamente importantes si ellas hubiesen ocurrido. Intentemos un ejemplo. Cuando Hill y sus colegas realizaron su ensayo aleatorio del cuidado de los pacientes con sospecha de infarto de miocardio, en su domicilio, versus, en el hospital (8), observaron una tasa de letalidad del 20 por 100 de 6 semanas en 79 pacientes con infartos que fueron escogidos al azar para ser tratados en casa. Esta tasa no fue estadísticamente significativa diferente de la tasa de letalidad de 6 semanas del 18 por 100, que habían documentado en los otros 71 pacientes de infarto que fueron escogidos al azar para ser tratados en el hospital. ¿Podemos concluir nosotros que es seguro tratar tales pacientes coronarios en casa? ¿Fue este ensayo lo suficientemente grande para mostrar una diferencia clínicamente significativa (es decir, mejores resultados en un 25 ó 50 por 100 en los enfermos coronarios hospitalizados), si ésta hubiera ocurrido? Si nosotros seguimos la pista a estos resultados (ambos alrededor del 20 por 100) en la tabla 7.7, nosotros vemos que el ensayo necesitó 261 pacientes por grupo para confiar que no había errado una reducción del riesgo del 25 por 100 en la tasa de letalidad de 6 semanas de los pacientes coronarios tratados en el hospital; en la tabla 7.8, nosotros vemos que el ensayo necesitaba 45 pacientes por grupo para tener confianza de que no había errado una reducción del riesgo del 50 por 100 en la tasa de letalidad de 6 semanas de los coronarios hospitalizados. Así pues, el ensayo fue demasiado pequeño para descartar un 25 por 100 de mejoría, pero lo suficientemente grande para descartar una mejoría del 50 por 100 en la tasa de letalidad de 6 semanas de los pacientes coronarios tratados en el hospital. Como consecuencia de ello, la cuestión importante tratada en este estudio fue contestada sólo parcialmente, y la controversia continúa (¡como debe ser!). Aquellos que deseen leer más sobre la interpretación de los ensayos «negativos», pueden consultar las referencias (4) y (6). ¿ES FACTIBLE EN SU PRACTICA LA MANIOBRA TERAPÉUTICA? Los requerimientos aquí son cuatro. Primero, la maniobra terapéutica tiene que ser descrita con suficiente detalle, para que los lectores la puedan replicar con precisión: ¿Quién hizo qué a quién, con qué preparado y a qué dosis, administrado en qué circunstancias, con qué ajuste de dosis y titulaciones, con qué búsquedas y respuestas de los efectos secundarios y la
DECIDIR SOBRE LA MEJOR TERAPIA
245
toxicidad, durante cuánto tiempo y con qué criterios clínicos para decidir que la terapia debía ser aumentada, graduada o suspendida? Segundo, la maniobra terapéutica debe ser clínica y biológicamente prudente. Por ejemplo, la dosis, vía y duración de la terapia medicamentosa deben estar de acuerdo con el conocimiento existente sobre farmacocinética y farmacodinámica. De modo similar, las combinaciones de las diferentes modalidades de tratamiento deben tener sentido clínico. Tercero, la maniobra terapéutica tiene que estar disponible. Los lectores deben ser capaces de administrarla apropiadamente y sus pacientes deben encontrarla accesible, aceptable y de coste asequible. Cuarto, cuando se lee la descripción de la maniobra en el informe publicado, los lectores deben observar si los autores evitaron dos sesgos específicos en su aplicación: la contaminación (en la cual los pacientes control reciben accidentalmente el tratamiento experimental; el resultado es una reducción espuria de las diferencias en los resultados clínicos entre los grupos experimentales y control) y la cointervención (la realización de actos diagnósticos terapéuticos adicionales sobre el grupo experimental y no sobre los pacientes control; el resultado es aumento espurio en la diferencia de los resultados clínicos observados entre los grupos experimental y control). Una vez más, debe ser aparente que la cointervención es evitada por medio de «ciego», tanto de los pacientes del estudio como de sus médicos en cuanto a quién está recibiendo qué tratamiento (19). ¿FUERON CONTABILIZADOS TODOS LOS PACIENTES QUE ENTRARON EN EL ESTUDIO, A SU TERMINACIÓN? El lector astuto observará cuántos pacientes entraron en el estudio (generalmente, el número de pacientes experimentales y control serán casi idénticos) y los contará a su terminación, para estar seguros de que ellos se corresponden. Por ejemplo, el panel A de la tabla 7.9, describe los resultados clínicos en 151 pacientes de un ensayo aleatorio de terapia quirúrgica, versus, médica de la estenosis carotídea bilateral (5). Entre los 79 pacientes quirúrgicos y los 72 pacientes médicos «disponibles para el seguimiento» fue comunicada una reducción del riesgo de ataque isquémico transitorio continuado, accidente cerebrovascular o muerte del 27 por 100 (P = 0,02), una diferencia que es tanto clínica como estadísticamente significativa. Sin embargo, la lectura más detallada del informe revela que 167, no 151, pacientes entraron en este estudio, y que 16 de ellos «no estuvieron disponibles para el seguimiento» debido a que ellos sufrieron accidente cerebrovascular, o murieron durante su hospitalización inicial, y, así pues, fueron excluidos del análisis anterior. Además, 15 de
246
EPIDEMIOLOGÍA CLÍNICA
Tabla 7.9. Terapia quirúrgica, versus, médica en la estenosis carotidea bilateral. Panel A: Resultados en los pacientes «disponibles para el seguimiento».
Panel B: Resultado en todos los pacientes randomizados.
estos 16 pacientes habían sido asignados originalmente a cirugía; 5 de ellos habían muerto y 10 habían sufrido accidente cerebro vascular durante la cirugía o poco después de ella. Solamente un paciente asignado aleatoriamente a la terapia médica sufrió tal destino. La reintroducción de estos 16 pacientes en el análisis produjo el panel B de la tabla 7.9; la reducción de riesgo de la cirugía es ahora solamente del 16 por 100 y no es ya estadísticamente significativa (P = 0,09). Los autores del informe que antecede fueron cuidadosos al incluir información de los resultados de todos los pacientes que entraron en el ensayo, haciendo posible la construcción e interpretación de ambos paneles de la tabla 7.9. Sin embargo, ¿qué puede hacer el lector cuando no son representados los resultados de los sujetos que faltan? Un planteamiento (que se reconoce que es conservador y, por consiguiente, sujeto a conducir al error del tipo II) consiste en asignar arbitrariamente un mal resultado a todos los sujetos que faltan del grupo de los que le fue mejor, y buenos resultados a todos los miembros que faltan del grupo al que le fue peor. Si esta maniobra falla en cuanto a suprimir la significación clínica y estadística de los resultados, el lector puede aceptar las conclusiones del estudio.
DECIDIR SOBRE LA MEJOR TERAPIA
247
Estas, entonces, son guías que le ayudarán a usted a aplicar el enfoque deductivo para seleccionar los tratamientos específicos. ¿Cómo convertimos todo lo anterior en un conjunto de tácticas prácticas para el clínico ocupado? Nosotros sugeriríamos lo siguiente: 1. Basado en la finalidad de su tratamiento, identifique los regímenes potenciales que pueden lograr la finalidad (farmacológica, quirúrgica, psicoterapéutica, nutricional, física, etc.). 2. Empiece con el que le parece a usted como el «mejor» (por cualquier razón) y busque artículos que informen sobre ensayos aleatorios controlados de su eficacia. Algunas de las tácticas para seguirle la pista a estos y otros artículos se discuten en el capítulo 11, sobre cómo usar una biblioteca. Otras incluyen comprobar su propia biblioteca (capítulo 13), preguntando a los colegas y consultantes* y buscando ayuda de los bibliotecarios del hospital o de referencia (por ejemplo, el College of Family Physicians of Canadá opera una biblioteca central que suministra a sus miembros con búsquedas de literatura y separatas). 3. Si usted encuentra un ensayo aleatorio controlado con las tácticas anteriores, usted puede entonces valorar la evidencia del artículo, aplicando las guías señaladas en la tabla 7.2 y descritas en el capítulo 12 sobre cómo leer una revista clínica. Si el ensayo demostró que el tratamiento hizo más bien que mal, usted puede proceder a seleccionar un objetivo del tratamiento (de modo que usted sabrá cuándo parar, modificar su dosis, cambiar a otro tratamiento) y avanzar con él. Si, por el contrario, el ensayo encontró el tratamiento como inútil o dañino, usted le ha hecho a su paciente (y a usted mismo) un enorme servicio, aunque ello signifique que usted tendrá que empezar de nuevo con el «mejor» tratamiento siguiente. En cualquier caso, usted debe considerar añadir una copia del artículo relevante a su propia biblioteca. 4. Si usted no puede encontrar ningún ensayo aleatorio controlado del «mejor» tratamiento (y esto será el caso a menudo), se enfrenta con cuatro alternativas: a) usted puede considerar, sucesivamente, los «mejores» tratamientos siguientes y repetir los pasos 2 y 3; b) usted puede intentar determinar la eficacia del «mejor» tratamiento en su propio paciente concreto. El método para hacer esto está a mitad de camino entre la inducción y la deducción, y está basado en el * Los consultantes que son dignos de su nombre, sabrán si los tratamientos usados en su campo han sido probados en ensayos controlados aleatorios y deben ser capaces de citar los artículos relevantes; ellos pueden ayudar también a menudo a interpretar los artículos (mientras que usted se limita a los tipos de cuestiones planteadas en la tabla 7.2).
248
EPIDEMIOLOGÍA CLÍNICA
algoritmo para decidir si un paciente ha tenido una reacción adversa, que nosotros describiremos en el capítulo 9. De acuerdo con ello, nosotros presentaremos este enfoque allí en la página 310; c) usted puede revalorar el objetivo último del tratamiento que estableció con anterioridad. Si, por ejemplo, usted buscó una cura y encuentra ahora que los tratamientos «curativos» en voga son inútiles o perjudiciales, puede desear reenfocar su objetivo para limitar el deterioro estructural o funcional y mejorar los síntomas actuales; y d) usted puede practicar inducción, renuncia o seducción y esperar que el tratamiento que usted escoja ayude o, por lo menos, no haga daño. Habiendo realizado estos pasos por vez primera para un determinado tratamiento, usted habrá establecido una «línea de base» de comprensión del mismo. Si usted mantiene su propia pequeña biblioteca (capítulo 13), puede archivar sus artículos y notas para futura referencia. Este proceso le alertará también a buscar evidencia más reciente y más definitiva a medida que usted examina sus revistas de suscripción y da un vistazo a otras. En realidad, usted puede planificar y desarrollar su propio programa de educación continuada, llevando a cabo este proceso para cada uno de los tratamientos que usted prescribe más frecuentemente. Finalmente, algunas decisiones clínicas son demasiado complejas para permitir decisiones de tratamiento sencillas. Esto ocurre cuando la elección entre dos alternativas de tratamiento se parece a tirar la moneda al aire, o especialmente cuando los tratamientos plantean riesgos sustanciales, así como beneficios. Ha sido sugerido que tales decisiones pueden ser hechas mucho más racionalmente y, por consiguiente, más útiles para los pacientes, concretándolas mediante un enfoque sistemático llamado análisis de la decisión.
En esta estrategia, la cual puede ser usada tanto para hacer decisiones diagnósticas (como le mostramos a usted antes, en el capítulo 4), como decisiones terapéuticas, todos los cursos relevantes de acción y sus consecuencias son trazados y evaluados con el fin de identificar (si existe) el curso individual de acción que mejor sirve al paciente (24). Los hechos fueron éstos: 1. Una madre de familia de 63 años de edad con 6 hijos adultos y una historia de diez años de angina de pecho estable, ha sido sometida a una sustitución total de cadera, hace ocho años, por osteoartritis primaria. Aunque ella tuvo embolia pulmonar posoperatoria, el resultado ortopédico fue excelente y ella estaba libre de dolor y completamente móvil hasta hace un año.
DECIDIR SOBRE LA MEJOR TERAPIA
249
2. Durante los últimos doce meses, ella ha experimentado un dolor creciente en su cadera al transportar peso, y en el momento de la consulta estaba confinada en gran parte en una silla de ruedas, aunque podía andar, con un bastón o muletas, cortas distancias en su casa. 3. Hace ocho meses ella sufrió un infarto de miocardio anterior subendocárdico no complicado. Aunque en su recuperación no hubo ninguna complicación, su angina de pecho estable de larga duración persistió y limitaba frecuentemente su capacidad para ir con muletas. 4. Su cirujano ortopédico revisó su caso y concluyó que ella tenía, probablemente, una holgura aséptica de su componente femoral y explicó los riesgos y los beneficios de la nueva operación como sigue: a) Si solamente requería sustitución del componente acetobular (y las oportunidades de esto se estimaron en solamente el 25 por 100), la probabilidad de un buen resultado (permitiendo andar normalmente de nuevo) era del 80 por 100; sin embargo, esto dejaba una probabilidad de un resultado malo (confinada en su silla de ruedas) del 20 por 100. Además, los buenos y malos resultados precedentes se aplicaban solamente a los supervivientes de la cirugía y la enfermedad cardiovascular de esta paciente sugería un riesgo de morir en el periodo perioperatorio de hasta el 5 por 100. b) Si, como era más probable (se juzgó que sus probabilidades eran del 65 por 100), el componente femoral necesitaba sustitución, la probabilidad de un buen resultado se juzgó que era más baja, del 60 por 100, con un 40 por 100 de probabilidades de mal resultado. Una vez más, lo anterior se aplicaba solamente a los supervivientes, y la duración aumentada y extensión de esta técnica más difícil se consideró que doblaba el riesgo de muerte perioperatoria al 10 por 100. c) Si ambos componentes necesitaban sustitución (la probabilidad de que esto sería necesario era del 10 por 100), las oportunidades de un buen resultado caían ligeramente por debajo de la mitad, al 45 por 100, y la probabilidad de que la paciente terminaría en una silla de ruedas era del 55 por 100, incluso si ella sobrevivía a la cirugía. El riesgo de muerte perioperatoria se juzgó que era muy alto para esta técnica combinada, del 15 por 100. d) Finalmente, si no se efectuaba la cirugía, ella permanecería lo mismo que estaba ahora (las oportunidades de esto se juzgó que eran del 20 por 100) o empeoraría y estaría confinada permanentemente en su silla de ruedas (se juzgó que las probabilidades de este resultado eran del 80 por 100).
250
EPIDEMIOLOGÍA CLÍNICA
Siguió un acalorado debate en el equipo de cuidado primario, entre algunos miembros que aconsejaban la cirugía y otros que preocupados por los riesgos de muerte perioperatoria se manifestaban contra la cirugía. Además, aunque ellos querían implicar a la paciente en esta decisión, temían que influirían sobre la conclusión de la paciente según el modo como ellos le presentaran a ella los hechos de la situación. Que estaba ocurriendo este debate a pesar del acuerdo dentro del equipo sobre los riesgos y beneficios de la cirugía, nos sugirió que un análisis de decisión formal podía producir dos resultados útiles. Primero, podía suministrar una solución objetiva del debate. Segundo, le permitiría al equipo implicar a la paciente en la discusión, sin influir injustamente sobre su opinión. El equipo* accedió a nuestra propuesta y nosotros seguimos adelante. Este o cualquier otro análisis de decisión formal comienza por la identificación de todas las alternativas de acción, tratamiento, cambios clínicos y resultados que le pueden ocurrir al paciente en cuestión. Sobre esta base fue construido un árbol de decisión que muestra estos elementos en su propia secuencia de tiempo. Esto se muestra para nuestro paciente en la figura 7.1. Los sitios donde el árbol se ramifica («nodulos») son cuadrados («nodulos de elección») cuando ellos están bajo el control del clínico, y redondos («nodulos de azar») cuando no lo están. Nosotros podemos colocar ahora las probabilidades de los diversos riesgos y beneficios operativos en el árbol de decisión y el resultado se muestra en la figura 7.2. Observe que las probabilidades de buenos y malos resultados son multiplicadas por las probabilidades de sobrevivir a la cirugía en los nodulos de azar A2, A3 y A4, y que la suma de todas las probabilidades en cualquier nódulo de azar son iguales siempre a 1,0 (en el nódulo de azar A2, por ejemplo: (0,8 x 0,95) + (0,2 x 0,95) + (0,05) = 0,76 + 0,19 + 0,05 = 1,0). El paso próximo en el análisis de decisión nos fuerza a asignar números a la calidad de la vida, representado por cada uno de los resultados del árbol. Como nosotros hemos subrayado anteriormente en el capítulo 4, los clínicos y los pacientes hacen estos juicios continuamente y ellos afectan mucho a nuestras decisiones clínicas, a menudo de una manera crucial. Todo lo que hace el análisis de decisión es forzarnos a asignar número (llamados «utilidades») a estos juicios. En este caso, esta asignación de utilidades fue efectuada tanto por el paciente como por los miembros del equipo. Aunque hay algunos métodos
* La doctora Ruth St. Amand hizo la mayor parte del trabajo, ¡y nosotros se lo agradecemos a ella!
DECIDIR SOBRE LA MEJOR TERAPIA
251
Figura 7.1. Árbol de decisión para una paciente específica con una artroplastia suelta y enfermedad cardíaca coronaria.
Figura 7.2. El árbol de decisión con las probabilidades en su lugar.
252
EPIDEMIOLOGÍA CLÍNICA
Figura 7.3. El árbol de decisión completado.
complejos para determinar estos valores de utilidad, nosotros hemos usado un método muy sencillo que es preguntarle a cada persona. «Si nosotros asignamos una "calidad de vida" de 1,0 a un buen resultado quirúrgico (andar completamente bien) y un 0,0 a estar muerto, ¿qué números le asignaría usted a los otros resultados?». Los resultados, aunque variaron algo, siempre mantenían la misma graduación: buen resultado, igual que ahora, peor, mal resultado y muerte. Nosotros hemos introducido un grupo de utilidades en el árbol, y esto se muestra en la figura 7.3. Ahora nosotros nos movemos hacia atrás a lo largo del árbol de decisión «plegando hacia atrás», de la derecha a la izquierda. Si nosotros multiplicamos las utilidades por las probabilidades de su presentación, y las sumamos en cada nódulo de azar, podemos asignar utilidades a los nodulos de azar A2, A3, A1 y B. Por ejemplo, la utilidad del nódulo de azar oportunidad A2, es la utilidad de vivir con un buen resultado (1,0) veces la probabilidad de sobrevivir a la sustitución acetabular y tener un buen resultado (0,76), más la utilidad de vivir con un mal resultado (0,25) veces la probabilidad de sobrevivir y tener un mal resultado (0,19) más la utilidad de morir durante o poco después de la cirugía (0,0) veces la probabilidad de morir por la cirugía (0,05). Esta suma es 0,808 y nosotros hemos insertado esta utilidad en el balón sobre el nódulo de azar de la figura 7.4.
DECIDIR SOBRE LA MEJOR TERAPIA
253
Figura 7.4. Plegando hacia atrás un árbol de decisión.
De manera parecida nosotros podemos calcular la utilidad de lo siguiente: nódulo de azar A 3 (1 x 0,54) + (0,25 x 0,36) + (0 x 0,1) = 0,54 + 0,09 + 0 = 0,630 nódulo de azar A 4 (1 x 0,38) + (0,25 x 0,47) + (0 x 0,15) = 0,38 + 0,12 + 0 = 0,500 nódulo de azar B (0,40 x 0,2) + (0,20 x 0,8) - 0,080 + 0,160 = 0,240 Aparece inmediatamente que cualquier operación, independientemente de si era una técnica fácil o difícil, es preferible a no operar, debido a que las utilidades del nódulo A2 (0,808), A3 (0,630) y A4 (0,500), todos excedieron la utilidad del nódulo B (0,240). Nosotros podemos confirmar esto doblando hacia atrás la rama operativa una vez más, sumando los productos de las utilidades de los nodulos A2, A3 y A4 veces sus probabilidades respectivas: (0,808 x 0,25) + (0,630 x 0,65) + (0,500 x 0,10) = 0,202 + 0,410 + 0,050 = 0,662
254
EPIDEMIOLOGÍA CLÍNICA
El resultado (0,662) es la utilidad o calidad de vida que nuestro paciente logrará como media, sometiéndose a cirugía, y es sustancialmente mayor que la calidad de vida que ella logrará como media, rechazando la cirugía (0,240). De acuerdo con esto, a menos que nuestra paciente sea extremadamente «contraria al riesgo» extremadamente bajo, pero riesgo real de muerte precoz por la cirugía (11, 12), el curso de acción preferido es operar. Cuando el equipo de cuidado primario trabajó sobre este análisis de decisión, algunos de sus miembros objetaron a algunas de las utilidades y probabilidades que se estaban usando. Además, después que la paciente había ponderado las alternativas y las había discutido con su familia, ella revisó sus utilidades de manera ascendente, tanto en cuanto a su situación actual como a su posible estado futuro. Debido a que el método de análisis de decisión nos permite incluir cambios clínicamente sensibles en cualquiera de estas entradas, nosotros volvimos a calcular el paso de «plegar hacia atrás» con las utilidades y las probabilidades alternativas que ellos propusieron. Ninguna de las propuestas alternativas se opuso a la preferencia original por la cirugía, y la mayoría de ellas hicieron la decisión de operar, incluso más fuerte, no más débil, dado que ellas incluyeron afirmaciones de que las estimaciones de mortalidad por la cirugía eran demasiado altas, que la probabilidad de una sustitución acetabular «fácil» era del 0,5 más bien que del 0,25, y que nosotros debíamos revisar el nódulo de azar B para incluir el riesgo (aunque bajo), de morir aun sin cirugía. Como consecuencia de ello, cesó el debate y el equipo acordó de forma unánime (¡con la paciente!), que debería ser efectuada una operación. Así pues, la estrategia de análisis de decisión fue capaz de simplificar una decisión de tratamiento compleja y establecer la plataforma para la decisión final sobre terapia*.
Identificar los objetivos del tratamiento
Cuando escribió sobre la importancia de los objetivos educativos precisos, Mager introdujo un caballito de mar paseante (al cual nosotros encontraremos en el capítulo 14) y expresó: «Si usted no está seguro adonde va, usted está expuesto a terminar en cualquier otro sitio» (10). Así ocurre también con los regímenes de tratamiento. A menos que usted exprese su objetivo de tratamiento desde el comienzo, usted no sabrá cuándo parar, cambiar de dosificación, añadir un segundo tratamiento, y así sucesivamente.
* La cirugía fue bien. Solamente necesitaba sustitución del acetábulo y el resultado fue excelente a los seis meses.
DECIDIR SOBRE LA MEJOR TERAPIA
255
Algunos objetivos de tratamiento son fáciles de establecer y monitorizar, tal como la presión arterial, los niveles T4 y la desaparición de síntomas específicos. Otros pueden ser mucho más difíciles, tales como el tamaño y difusión de los tumores profundos, la función de las familias y la presentación de signos neurológicos «suaves». La clave consiste en unirlos tanto a los fines del tratamiento como a la terapia específica y hacerlos tan fáciles de observar como sea posible. Por ejemplo, al tratar la hipertensión esencial sin síntomas, los fines del tratamiento son limitar el deterioro estructural y funcional, y prevenir síntomas posteriores. Aunque nosotros podíamos definir objetivos tales como «evitar la hipertrofia ventricular izquierda por criterios de voltaje» o «mantenimiento al aclaramiento de la creatinina por encima de 90 ml por minuto», estos objetivos son demasiado caros y molestos para ser monitorizados en cada visita. Más bien, nosotros nos aprovechamos del vínculo (establecido en los ensayos aleatorios controlados que demuestran eficacia de los medicamentos antihipertensores), entre la disminución de la presión arterial y la limitación del deterioro estructural y funcional, y la prevención de complicaciones posteriores. Como consecuencia de esta prima adicional de los ensayos aleatorios, nosotros podemos «sustituir» la reducción de la presión arterial por medidas más complejas. Así pues, nosotros podemos usar las sencillas mediciones de la presión arterial para la monitorización y ajustes del tratamiento de semana en semana, y pedir electrocardiogramas y aclaramientos a intervalos mucho más grandes. Además de su valor obvio cuando se comparte la responsabilidad clínica, precisamente los objetivos de tratamiento especificados nos pueden ayudar a evitar la submedicación, un problema frecuente cuando el objetivo del tratamiento consiste en permitir que el terminalmente crítico muera con comodidad y dignidad (1). Recordado por una entrada prominente en la gráfica del paciente, que nuestro objetivo del tratamiento consiste en el alivio del dolor (del cáncer metastásico, por ejemplo), nosotros estamos más dispuestos a reconocer la rareza de la depresión respiratoria producida por los opiáceos, la irrelevancia de la preocupación sobre la adición a largo plazo, y la desconsideración de hacer que el paciente pida a la enfermera (más bien que al contrario), si se deben dar más antidolorosos. Finalmente, implicar al paciente en el establecimiento y monitorización del progreso hacia el objetivo del tratamiento, puede tener un efecto muy favorable sobre el cumplimiento con el régimen de tratamiento. Por supuesto, si los pacientes no toman su medicina, todos sus esfuerzos en el diagnóstico, el pronóstico, el establecimiento de objetivos del tratamiento, la selección de terapia específica y la identificación de los objetivos del tratamiento se irán por la cañería. El próximo capítulo está diseñado para ayudarle a usted a evitar este fallo frecuente.
256
EPIDEMIOLOGÍA CLÍNICA
Bibliografía 1. Ángel, M. The quality of mercy. N. Engl. J. Med. 306: 55, 1982. 2. Bradwell, A. R., Carmalt, M. H., and Whitehead, T. P. Explaining the unexpected abnormal results of profile investigations. Lancet 2: 1071, 1974. 3. Coronary Drug Project Research Group. Influence of adherence to treatment and response of cholesterol on mortality in the Coronary Drug Project. N. Engl. J. Med. 303: 1038, 1980. 4. Detsky, A. S., and Sackett, D. L. The "negative" randomized trial: Does the absence of proof constitute the proof of absence? In press. 5. Fields, W. S., Maslenikov, V., Meyer, J. S., et al. Joint study of extracranial arterial occlusion: V. Progress report of prognosis following surgical or nonsurgical tests for transient ischemic attacks and cervical carotid artery lesions. J.A.M.A. 211: 1993, 1970. 6. Freiman, J. A., Chalmers, T. C, Smith, H., Jr., et al. The importance of beta, the type II error, and sample size in the design and interpretation of the randomized control trial. Survey of 71 negative trials. N. Engl. J. Med. 299: 690, 1978. 7. Harvey, A. M., and McKusick, V. A. Osler's Textbook Revisited. New York: AppletonCentury-Crofts, 1967. P. 194. 8. HUÍ, J. D., Hampton, J. R., and Mitchell, J. R. A randomized trial of home versus hospital management forpatients with suspected myocardial infarction. Lancet 1: 837, 1978. 9. Hinshaw, H. C, Feldman, W. H., and Pfuetze, K. H. Treatment of tuberculosis with streptomycin: Summary of observations on 100 cases. J.A.M.A. 132: 778, 1946. 10. Mager, R. F. Preparing Instructional Objectives (2nd ed.). Belmont: Fearon, 1975. 11. McNeil, B. J., and Pauker, S. G. The patient's role in assessing the valué of diagnostic tests. Radiology 132: 605, 1979. 12. McNeil, B. J., Pauker, S. G., Sox, H. C. Jr., et al. On the elicitation of preferences for alternative therapies. N. Engl. J. Med. 306: 1259, 1982. 13. Meador, C. K. The art and science of nondisease. N. Engl. J. Med. 272: 92, 1965. 14. Medawar, P. B. Induction and Institution in Scientific Thought. Philadelphia: American Philosophical Society, 1969. 15. Medical Research Council. Streptomycin treatment of tuberculosis meningitis. Lancet 1: 582, 1948. 16. Miao, L. L. Gastric Freezing: An Example of the Evaluation of Medical Therapy by RandomizedClinicalTrials. In J. P. Bunker, B. A. Barnes, andF. Mosteller(eds.), Costs, Risks & Benefits ofSurgery. New York: Oxford, 1977. 17. Oliver, M. R, Heady, J. A., Morris, J. N., and Cooper, J. W.H.O. cooperative trial on primary prevention of ischemic heart disease using clofibrate to lower serum cholesterol: Mortality follow-up. Lancet 2: 379, 1980. 18. Ruffin, J. M., Grizzle, J. E., Hightower, N. C, et al. A cooperative double-blind evaluation of gastric "freezing" in the treatment of duodenal ulcer. N. Engl. J. Med. 281: 16, 1969. 19. Sackett, D. L. Design, Measurement, and Analysis in Clinical Trials. In J. Hirsch, J. F. Cade, A. S. Gallus, E. Schonbaum (eds.). Platelets, Drugs and Thrombosis. Basel: Karger, 1975. 20. Sackett, D. L., and Gent, M. Controversy in counting and attributing events in clinical trials. N. Engl. J. Med. 301: 1410, 1979. 21. Sackett, D. L., Haynes, R. B., Gent, M., and Taylor, D. W. Compliance. In W. H. W. Inman (ed.), Monitoring for Drug Safety. Lancaster: MTP, 1980.
DECIDIR SOBRE LA MEJOR TERAPIA
257
22. Taylor, D. C. The componente of sickness: Diseases, illnesses, and predicamento. Lancet 2: 1008, 1979. 23. Wagensteen, O. H., Peter, E. T., Nicoloff, D. M., et al. Achieving "physiological gastrectomy" by gastric freezing: A preliminary repott of an experimental and clinical study. JAMA. 180: 439, 1962. 24. Weinstein, M, and Fineberg, H. Clinical Decisión Analysis. Philadelphia: Saunders, 1980. 25. Yerushalmy, J. On Inferring Causality from Observed Associations. In F. J. Ingelfinger, A. S. Relman, and M. Finland (eds.), Controversy in Infernal Medicine. Philadelphia: Saunders, 1966.
8 Cumplimiento
Aplicando la «ciencia básica para la medicina clínica» descrita en los capítulos precedentes, nosotros nos encontraremos crecientemente más capaces de reunir información clínica más exacta y fiable, de seleccionar e interpretar las pruebas diagnósticas útiles, de hacer pronósticos auténticos e identificar y aplicar tratamientos, que harán más bien que daño. Ahora viene el punto crítico. Todos los esfuerzos anteriores, no importa cuan cuidadosamente hayan sido planeados o con cuánta laboriosidad fueron ejecutados, habrán sido en balde si nuestros pacientes no cumplen o no pueden cumplir los regímenes que nosotros les hemos prescrito. El punto decisivo es el «cumplimiento». «El grado hasta el cual la conducta del paciente en términos de tomar los medicamentos, seguir las dietas o ejecutar los cambios en el estilo de vida coinciden con la prescripción clínica» (21). Debido al papel central que el cumplimiento juega en hacer o romper, casi cada encuentro clínico, nosotros creemos que merece su propio capítulo en este libro. Este capítulo documentará la magnitud del problema del cumplimiento y presentará un enfoque para identificar y aplicar estrategias eficaces, para detectar y mejorar el bajo cumplimiento. Al hacerlo así nosotros resumiremos (y hasta cierto punto pondremos al día), un libro anterior que dos de nosotros ayudamos a editar, Compliance in Health Care (24). La magnitud del bajo cumplimiento Intente contestar las siguientes preguntas sobre sus propios pacientes: 1. ¿Qué porcentaje de citas que ellos obtuvieron por sí mismos, mantienen? _____% 2. ¿Qué porcentaje de citas que yo preparo para ellos son mantenidas por ellos? ____ % 3. Si yo prescribo un régimen a corto plazo para curar una enfermedad intercurrente (digamos, antibiótico oral para la otitis media), 259
260
EPIDEMIOLOGÍA CLÍNICA
¿qué proporción de pacientes cumplirá un curso de terapia de diez días? ____ % 4. ¿Qué proporción de mis pacientes cumplirán con un régimen de medicación a largo plazo (tal como diuréticos para la hipertensión o antiácidos para úlcera péptica?_____% 5. ¿Qué proporción de mis pacientes se colocan los cinturones de seguridad? ____ % Cuando nosotros examinamos la literatura sobre cumplimiento en 1974, y de nuevo en 1979, los resultados fueron bastante serios (48). Los pacientes conservaron alrededor del 75 por 100 de las citas que ellos pidieron para sí mismos, pero solamente el 50 por 100 de las citas que nosotros preparamos para ellos. Aunque el cumplimiento con las medicaciones durante corto plazo para la curación fue del 75 por 100 en los primeros días, menos del 25 por 100 de los pacientes ambulatorios completaron un curso de diez días de terapia antibiótica por una faringitis estreptocócica u otitis media. El cumplimiento de la medicación fue sorprendentemente bajo incluso entre los pacientes ingresados. Cuando los pacientes de úlcera hospitalizados fueron suministrados con antiácidos en la cabecera de la cama, y fueron mantenidos bajo discreta vigilancia, se documentó que ellos consumieron menos del 45 por 100 de sus regímenes prescritos (45)*. Además, a pesar de la administración directa de la medicación oral por el staff del hospital a los esquizofrénicos hospitalizados, solamente el 76 por 100 de sus orinas contenía el medicamento prescrito o sus metabolitos (42). El cumplimiento con medicaciones durante larga duración fue generalmente alrededor del 50 por 100, independientemente de si el propósito era prevenir o aliviar los síntomas. El cumplimiento de las recomendaciones sobre el estilo de vida fue peor todavía; solamente alrededor del 30 por 100 de los pacientes cumpliría incluso el consejo dietético más modesto, y menos del 10 por 100 de los fumadores de cigarrillos que no tenían lesión importante de algún órgano dejaría de fumar, siguiendo el consejo de sus clínicos. Finalmente, excepto en las jurisdicciones donde las leyes que requerían el uso de cinturones de seguridad fueron rigurosamente aplicadas, solamente alrededor del 20 por 100 de los conductores se los abrochaban regularmente, cuando se estaba escribiendo este libro. ¿Qué tal coinciden estos resultados publicados, con sus estimaciones basadas en su propia experiencia? Si sus estimaciones son mucho más * ¿Sabían estos pacientes de úlcera, no cumplidores, algo que sus clínicos no sabían sobre la eficacia de este régimen? Nosotros debemos recordar siempre, que el cumplimiento es una preocupación racional, solamente cuando el tratamiento produce una diferencia (¡buena o mala!).
CUMPLIMIENTO
261
optimistas y nosotros sospechamos que estas serán, entonces preste mucha atención a la sección posterior sobre cómo detectar el bajo cumplimiento. Por favor, pare aquí por un momento y anote lo siguiente: 1. Los métodos para medir el cumplimiento que usted usa actualmente o ha usado en su práctica clínica. (¿En qué proporción de sus pacientes valora usted el cumplimiento?). 2. Cualquier otro método que piense usted que puede ser usado. 3. Para cada uno de los métodos «diagnósticos» que usted ha señalado, dé su estimación de la «sensibilidad» con la cual ellos detectan los problemas del bajo cumplimiento y la «especificidad» con la cual ellos identifican el alto cumplimiento. Como usted puede ver por el cometido que nosotros le hemos dado a usted, los principios para interpretar las pruebas diagnósticas pueden ser aplicados a las estrategias que nosotros usamos para detectar el bajo cumplimiento. Existen siete métodos que han sido empleados en un esfuerzo para diagnosticar el bajo cumplimiento: el juicio clínico, monitorizar la existencia a las citas programadas, monitorizar el logro del objetivo del tratamiento, buscar los resultados terapéuticos o los efectos secundarios, contar las píldoras, determinar los niveles de los medicamentos y entrevistas a los pacientes. Nosotros revisaremos las «características operativas» de cada uno de estos métodos e identificaremos aquellos que puedan ser aplicados más útilmente en las circunstancias clínicas usuales.
JUICIO CLÍNICO Quizás el método más común que los clínicos han empleado para la valoración del cumplimiento de nuestros pacientes, es nuestro juicio clínico, basado en «conocer al paciente». Este método parece altamente atractivo, porque nosotros estamos completamente dispuestos a producir estimaciones de cumplimiento de nuestros pacientes, a menudo con facilidad y considerable confianza. Sin embargo, los diversos estudios que han examinado el valor de tales estimaciones (4, 8, 40, 41) las han encontrado defectuosas. Al ser informados de manera uniforme sobre el rendimiento desconsolador de los clínicos en estos estudios, algunos médicos de familia en nuestra ciudad opinaron que ellos lo podían superar, especialmente porque tenían relaciones continuadas con sus pacientes. Por consiguiente, ellos fueron invitados a identificar hasta 10 pacientes en cada una de sus consultas, a los cuales habían prescrito digoxina y en los cuales pensaban que podían
262
EPIDEMIOLOGÍA CLÍNICA
Tabla 8.1. Comparación de las estimaciones del médico de familia sobre el cumplimiento y el cumplimiento real de los pacientes con digoxina.
Adaptado de J. R. Gilbert, C. E. Evans, R. B. Haynes, y P. Tugwell. Predicting compliance with a régimen of digoxin therapy in family practice. Can. Med. Assoc. J. 123:119, 1980.
estimar exactamemte el cumplimiento, basado en sus juicios clínicos originados durante sus relaciones de larga duración con estos pacientes. Una vez que fueron identificados estos pacientes y obtenidas las estimaciones de sus médicos sobre el cumplimiento, fueron las enfermeras a sus casas y les preguntaron sobre su toma de la medicina, contaron sus píldoras y les tomaron muestras de sangre (por lo menos seis horas después de la última dosis supuesta), para niveles de digoxina. Los resultados de este estudio (19), se muestran en la tabla 8.1. Nosotros no hemos calculado las mediciones usuales de rendimiento para esta tabla, debido a que nosotros confiamos que usted estará dispuesto a hacerlo*. Aquí hay algún espacio para hacerlo: Prevalencia del juicio clínico (o probabilidad preprueba) de bajo cumplimiento. Sensibilidad del juicio clínico. Especificidad del juicio clínico. Probabilidad de bajo cumplimiento cuando el doctor lo predijo.
* Realmente, nosotros las hemos hecho, y usted puede comprobar sus respuestas consultando las págs. 285 y 286.
CUMPLIMIENTO
263
Probabilidad de alto cumplimiento cuando el doctor lo predijo. Exactitud global. Proporción de probabilidad del juicio clínico de bajo cumplimiento. Proporción de probabilidad del juicio clínico de alto cumplimiento. Las proporciones de probabilidad producidas en la tabla 8.1, suministran un resumen sucinto del poder del juicio clínico en el diagnóstico del cumplimiento. En 0,68 para el juicio de bajo cumplimiento y 1,05 para un juicio de alto cumplimiento, el «juicio clínico» es no solamente inútil para esta tarea, ¡sino que va en la dirección equivocada! Nosotros debemos correr la cortina de la caridad temporalmente, sobre la ulterior discusión de nuesta capacidad de predecir el cumplimiento, basándonos en nuestro juicio clínico. MONITORIZAR LA ASISTENCIA A LAS CITAS PROGRAMADAS Monitorizar la asistencia es la táctica individual más importante para determinar el cumplimiento, porque el abandono del cuidado constituye una de las formas más frecuentes y más graves de no cumplimiento. Además, para ese pequeño número de trastornos para los cuales el tratamiento es administrado en la visita (por ejemplo, inyecciones de depósito de penicilina en la profilaxis de la fiebre reumática o fenotiazinas para las psicosis), monitorizar la asistencia es la única medida de cumplimiento requerida. En los regímenes autoadministrados, en cambio, la asistencia es necesaria pero no un requisito previo suficiente de cumplimiento. Así pues, muchos pueden presentarse, pero pocos pueden cumplir con los regímenes de autoadministración (20). Finalmente, aquellos que fallan en su asistencia raramente cumplen con ningún régimen. Monitorizar la asistencia es administrativamente sencillo, si su práctica está organizada para ello. Para monitorizar la asistencia eficazmente, usted debe tener un libro de asistencia diaria y una regla mediante la cual a los pacientes que requieren visitas de seguimiento, se les da siempre una hora específica para su próxima cita. Así pues, debe darse una cita incluso si (o mejor especialmente sí), es programada con mucha antelación; si los pacientes no pueden estar seguros de su programa con tanta antelación, son aleccionados para que llamen más adelante, si es necesario, para cambiar su cita.
264
EPIDEMIOLOGÍA CLÍNICA
Muchas clínicas y consultas fallan en dar a los pacientes horas específicas para sus próximas visitas. Para situaciones tales como hipertensión, a los pacientes simplemente se les dice que llamen dentro de dos o tres meses para una cita de seguimiento. Desgraciadamente, cuando un paciente falla en seguir este consejo, en la mayoría de las consultas su ausencia no será notada y el no cumplimiento puede ponerse de manifiesto solamente cuando él o ella sufre una complicación evitable del trastorno original. MONITORIZAR EL LOGRO DEL OBJETIVO DEL TRATAMIENTO En el capítulo anterior, nosotros pedíamos que se establecieran objetivos explícitos de tratamiento para cada paciente. Si usted puede especificar un objetivo medible y su terapia es eficaz, entonces el fallo en lograr el objetivo puede alertarle a usted sobre la posibilidad del no cumplimiento. (Y si usted no puede especificar un objetivo de tratamiento medible, ¡entonces usted debe estar más preocupado con ese fallo que con el cumplimiento!) Nosotros debemos ser cuidadosos sobre cómo interpretar la respuesta del paciente a la terapia. Solamente en situaciones en las cuales el cumplimiento perfecto garantiza el éxito clínico, estará la respuesta terapéutica altamente correlacionada con el cumplimiento. Sin embargo, la mayoría de los tratamientos tienen éxito sólo parcialmente y acusar al paciente de bajo cumplimiento cuando fracasa un tratamiento, no es justo ni racional. Finalmente, muchos trastornos muestran remisiones y exacerbaciones espontáneas que son independientes del tratamiento y así del cumplimiento. La tabla 8.2 muestra estas posibilidades. Desde la perspectiva del cumplimiento, nosotros queremos mover a los pacientes de la celda a (no en la meta, debido al bajo cumplimiento) a la celda d (en la meta, con alto cumplimiento), mediante una maniobra que aumenta su observancia del tratamiento. Por el contrario, mejorar el cumplimiento de los pacientes de las otras celdas (en las cuales el problema es tratamiento inadecuado o infraprescripción asociado con alto cumplimiento (celda b) o diagnóstico incorrecto o sobreprescripción, independientemente del cumplimiento (celda c), sería no solamente inapropiado, sino que podía conducir a efectos tóxicos o adversos sin un aumento correspondiente del beneficio. Si los tres métodos que nosotros hemos descrito hasta ahora para detectar el bajo cumplimiento han sido seguidos sucesivamente, todo lo que usted sabrá en este momento es si su paciente ha logrado o no el objetivo del tratamiento (esto es, usted sabrá a qué línea horizontal de la tabla 8.2 pertenece su paciente, pero no si ellos pertenecen a la columna derecha o izquierda). Mientras que usted haya establecido un diagnóstico
CUMPLIMIENTO
265
Tabla 8.2. Correlación del cumplimiento con el logro del objetivo del tratamiento.
firme antes de comenzar el tratamiento, si el paciente está en el objetivo del cumplimiento no es realmente un problema y usted no necesita preocuparse más sobre ello. Sin embargo, existen tres excepciones a esta generalización. Primero, si su diagnóstico inicial fue equivocado, entonces usted está concediéndose a sí mismo ramos de flores por su éxito terapéutico, cuando debería estar tirándose trozos de ladrillos a sí mismo por tratar al paciente, sin necesidad, de un trastorno que él no tiene (¡en este caso, por supuesto, al paciente no cumplidor le va mejor!). Segundo, incluso las enfermedades crónicas pueden remitir a veces y esto le ocurre tanto a los no cumplidores, como a los cumplidores. Tercero, si la situación de un paciente está ya bien controlada cuando él toma solamente la mitad de la medicación que usted le prescribe, una elevación rápida en el cumplimiento al 100 por 100 (tal como puede ocurrir si ellos son hospitalizados por un trastorno no relacionado), podía conducir a una toxicidad catastrófica. No obstante, la necesidad de mediciones de cumplimiento exigente entre los «pacientes con éxito» es a duras penas tan obligatoria como entre los pacientes que han fallado en alcanzar el objetivo del tratamiento. Así pues, este tercer método puede simplemente ayudarnos a estrechar la búsqueda del paciente no cumplidor, y- puede ser oportuna y eficaz para reservar las valoraciones más precisas de los pacientes que no han alcanzado los objetivos del tratamiento a pesar de prescripciones de tratamiento adecuadas. Una ilustración práctica de esta relación entre cumplimiento y logro del objetivo del tratamiento entre los pacientes hipertensos, se muestra en la
266
EPIDEMIOLOGÍA CLÍNICA
Tabla 8.3. Relación entre el cumplimiento y el control de la presión arterial diastólica (PAD) en los pacientes hipertensos.
Adaptado de R.B. Haynes. Influence on Compliance, en K. C. Mezey (ed.), Fixed Drug Combinations: Rationale & Limitations. New York: Gruñe & Stratton, 1980.
tabla 8.3. Como usted puede ver en esta tabla, la asociación entre cumplimiento y control de la presión arterial está lejos de ser perfecta. ¿Calculó usted la sensibilidad y especificidad del logro del objetivo del tratamiento, como una prueba diagnóstica de bajo cumplimiento? Cuando nosotros lo hicimos así, la sensibilidad fue del 64 por 100 (38/59), .y la especificidad del 57 por 100 (43/75). ¿Qué hay sobre las proporciones de probabilidad? Nosotros calculamos que el fallo en lograr el objetivo del tratamiento sería solamente alrededor de 1,5 veces más probablemente observado en un paciente no cumplidor, que en uno cumplidor, y que la proporción de probabilidad del logro del objetivo del tratamiento fue de 0,6 que es también un valor más bien poco impresionante. Como consecuencia de ello, en este ejemplo la probabilidad de bajo cumplimiento es 21/64 = 0,33, si la presión arterial está controlada y 38/70 = 0,54, si no lo está. Sin embargo, nosotros tendríamos que aplicar medidas adicionales de cumplimiento para evitar etiquetado erróneo de casi la mitad de los 70 pacientes que serían llamados no cumplidores por su fallo en alcanzar el objetivo de la presión arterial. No obstante, enfocando estas medidas adicionales sobre aquellos que no han alcanzado el objetivo del tratamiento, identificará tanto a un grupo sustancial de no cumplidores, como también se enfocará sobre los no cumplidores en el riesgo más alto de complicaciones por el trastorno.
CUMPLIMIENTO
267
BUSCAR LOS RESULTADOS TERAPÉUTICOS O LOS EFECTOS SECUNDARIOS Algunos regímenes producen efectos farmacológicos o efectos secundarios claros, la ausencia de los cuales sugiere bajo cumplimiento (por ejemplo, frecuencia urinaria con los diuréticos, boca seca con los anticolinérgicos, heces oscuras con hierro oral). Sin embargo, el enlace entre estos efectos y el objetivo del tratamiento puede ser tenue (la hipotensión postural con los medicamentos antihipertensores que puede ocurrir sin alcanzar el objetivo de la presión arterial, y viceversa), y como se ve en la celda b de la tabla 8.2, el alto cumplimiento con un régimen inadecuado (o con una medicación oral que es absorbida malamente), no producirá efectos secundarios ni el logro del objetivo del tratamiento. Además, como se documentó en el capítulo 5, muchos efectos secundarios aparecen como resultado del acto de ser medicado, más bien que de la medicación en sí. De acuerdo con ello, este enfoque tiene las mismas limitaciones que los anteriores, más la desventaja adicional de que no se coextiende con el objetivo del tratamiento. CONTAR LAS PÍLDORAS Pedirle a los pacientes que traigan sus píldoras en cada visita, es una buena idea por varias razones, y algunas veces esto incluye medir el cumplimiento. Sin embargo, para ser exactos, este método requiere mantener la pista de cuántas píldoras fueron dispensadas con cada receta, las fechas en que cada prescripción o nuevo envase fue comenzado, si el paciente ha dejado detrás de sí escondites de medicación en otros sitios, si las píldoras son compartidas con un pariente y así sucesivamente. Además, los pacientes que no quieren que usted sepa su verdadera tasa de cumplimiento pueden olvidar traer sus píldoras o incluso «tirar» algunas de ellas. No obstante, los recuentos de las píldoras que son mucho más altos de lo que debieran ser (¡siempre que los cálculos de usted sean correctos!), son prueba de bajo cumplimiento, y esta práctica merece la pena a menudo, especialmente durante las visitas domiciliares a los pacientes que han fallado en sus citas. MEDICIONES DEL NIVEL DE MEDICAMENTO Los niveles del medicamento en el suero, especialmente los medicamentos con largas vidas medias, pueden ser muy útiles, tanto para titular las dosis a los niveles terapéuticos óptimos, como para medir el cumplimiento. Los métodos analíticos modernos, están permitiendo que se pueda medir cualitativa y cuantitativamente un amplio grupo de medicamentos en la orina,
268
EPIDEMIOLOGÍA CLÍNICA
la sangre, la saliva, el aliento y otros efluvios. Además, como nosotros sabremos dentro de un poco, cuando los resultados de estas mediciones son comunicados a los pacientes como parte de un proceso de negociación, el resultado puede ser bruscas elevaciones en el cumplimiento. Por otra parte, las mediciones directas de los medicamentos en los líquidos orgánicos, son a menudo caras, incómodas de obtener, inasequibles a muchos ambientes de la práctica y comunicadas solamente mucho tiempo después de que el paciente ha abandonado la consulta. Además, estas mediciones a menudo reflejan el cumplimiento solamente para la dosis inmediatamente precedente. Así pues, aunque nosotros debemos dar la bienvenida a la era de las mediciones de cumplimiento con «tiras reactivas», ello no resolverá todos nuestros problemas de mediciones de cumplimiento. PREGUNTAR AL PACIENTE A Hipócrates no le gustó mucho este planteamiento. Uno de sus menos bien conocidos aforismos afirma: «el médico debe estar alerta sobre el hecho de que los pacientes mienten a menudo, cuando ellos afirman que han tomado ciertas medicinas» (31). ¿Es cierto este consejo y perdemos nuestro tiempo preguntándole a los pacientes sobre su cumplimiento? Considere el cumplimiento de los pacientes hipertensos con sus medicaciones prescritas, en el sexto mes de la terapia. El patrón oro para determinar su verdadero cumplimiento fue un recuento de las píldoras realizado en visita sorpresa a su casa, en que se comparó la cantidad de medicación que los pacientes tenían a mano, con la cantidad que debían tener si hubieran tomado su medicina como se les prescribió. En esta misma visita domiciliaria fue preguntado el paciente; «¿ha dejado de tomar algunas de sus píldoras de la presión arterial?» Si él decía «sí», se les pedía que estimasen el número medio de tabletas olvidadas, por día, semana o mes, durante el mes anterior. La tabla 8.4 compara los resultados de preguntar a los pacientes sobre su cumplimiento (prueba diagnóstica), con los resultados de sus cuentas de píldoras (patrón oro). Vea si usted puede producir algún índice útil de la exactitud de preguntar a los pacientes sobre su cumplimiento. Cuando nosotros seguimos nuestro propio criterio y calculamos la sensibilidad, la especificidad y el valor de predicción de «preguntar al paciente», usando el mismo corte 80 por 100 tanto para la cuenta de las píldoras (patrón oro) y el autoinforme (prueba diagnóstica), nosotros fuimos agradablemente sorprendidos. Aunque la sensibilidad del autoinforme es baja (37 por 100), su especificidad es muy alta (95 por 100). Como consecuencia de ello, cuando casi la mitad de un grupo de pacientes están
CUMPLIMIENTO
269
Tabla 8.4. Cumplimiento auto-comunicado, versus, cumplimiento según el recuento de píldoras en 127 pacientes hipertensos.
Adaptado de D. L. Sackett, R. B. Haynes. E. S. Gibson. y col. Randomized clinical trial of strategies for improving medication compliance in primary hypertension. Lancel 1:1205, 1975.
tomando menos del 80 por 100 de sus píldoras, preguntar al paciente puede ser muy útil; el 95 por 100 de aquellos que admitían tomar menos píldoras del 80 por 100 de sus medicinas, están diciendo la verdad. Nosotros llevamos a cabo este análisis un paso más adelante, y calculamos las proporciones de probabilidad para cada nivel de autoinforme. Los resultados se muestran en la tabla 8.5. Una vez más, «preguntar al paciente» surge como una herramienta diagnóstica poderosa y nosotros podemos comparar ahora este método de detectar al paciente no cumplidor, con otros varios. La tabla 8.6, compara las mediciones de medicamento en la orina, caras pero objetivas (panel A), con el método más rápido, pero posiblemente «más débil» de preguntar al paciente (panel B). El resultado puede sorprender a algunos lectores. Esta tabla revela que la entrevista rápida al enfermo puede ser tan buena como la más lenta (y a menudo inasequible), de medir el nivel de medicamento para detectar al paciente no cumplidor. Para maximizar la sensibilidad de este enfoque, especialmente cuando los pacientes pueden ser renuentes a admitir un bajo cumplimiento, nosotros debemos comenzar haciendo esta confesión socialmente aceptable. De acuerdo con ello, cuando nosotros aplicamos esta prueba diagnóstica a nuestros pacientes, usamos la siguiente manifestación: «la mayoría de la gente tiene dificultades en tomar todas sus píldoras. ¿Tiene usted dificultades en tomar
270
Tabla 8.5.
EPIDEMIOLOGÍA CLÍNICA
Proporciones de probabilidad para el cumplimiento auto-comunicado.
todas las suyas?» Si la respuesta es «sí», nosotros procedemos a determinar el porcentaje de medicaciones tomadas en los últimos días (recordando que los pacientes empiezan a olvidar tomar la medicación después de alrededor de cuarenta y ocho horas). El porcentaje exacto no es crucial aquí, porque los pacientes que admiten haber olvidado alguna píldora, generalmente tienen un cumplimiento completamente bajo. Por ejemplo, entre los pacientes hipertensos cuyas cuentas de píldoras probaron que ellos estuvieron tomando menos del 80 por 100 de sus medicamentos antihipertensores, nosotros observamos que el cumplimiento medio entre aquellos que admitieron olvidar algunas píldoras ¡fue del 26 por 100! Para resumir la detección del paciente no cumplidor: El juicio clínico no es mejor que tirar una moneda al aire, y buscar los efectos terapéuticos o los efectos secundarios conduce a menudo a equivocaciones. La realización de recuentos de las píldoras y los niveles de medicamento es exacto pero también caro, y puede no ser asequible para la mayoría de los regímenes en la mayoría de los ambientes. Basándose en nuestro conocimiento corriente, el planteamiento de detectar al paciente no cumplidor que mejor combina la exactitud y la practicabilidad es como sigue: a) sígale la pista a los pacientes que han fallado citas o han abandonado el tratamiento (porque es este grupo el que generalmente tiene el cumplimiento más bajo); b) además, concéntrese en aquellos pacientes que, a pesar de un tratamiento vigoroso, han fallado en alcanzar el objetivo del tratamiento (la línea más alta de la tabla 8.2); c) mediante una entrevista no amena-
CUMPLIMIENTO
271
Tabla 8.6. Comparación de las mediciones de medicamento en orina, con preguntarle al paciente.
Adaptado de R. B. Haynes. Influence on Compliance, en K. C. Mezey (ed.), Fixed Drug Combination: Rationale & Limitations. New York: Gruñe & Stratton, 1980.
zante con los pacientes que no han alcanzado el objetivo del tratamiento (o si es fácilmente disponible, la cuenta de las píldoras o la medición directa de los medicamentos en los líquidos del organismo), identificar a los no cumplidores (celda a de la tabla 8.2). Habiendo identificado a los pacientes no cumplidores, ¿cómo hacer para que ellos tomen sus medicinas?
272
EPIDEMIOLOGÍA CLÍNICA
Tabla 8.7. Requisitos previos lógicos y éticos de cualquier intervención para mejorar el cumplimiento. 1. 2. 3. 4. 5.
El diagnóstico de la enfermedad debe ser correcto. La enfermedad no debe ser trivial. La terapia debe ser eficaz. La intervención en el cumplimiento debe ser eficaz. El enfermo debe estar informado y bien dispuesto.
Adaptado de A. R. Jonsen. Ethical Issues in Compliance. En R. B. Haynes, D. W. Taylor, y D. L. Sackett (eds.), Compliance in Health Care, Baltimore: Johns Hopkins, 1979; R. J. Levine. Ethical Considerations in the Development y Application of Compliance Strategies for the Treatment of Hypertension. En R. B. Haynes, M. E. Mattson, y T. O. Engebretson, Jr. (eds.), Patiení Compliance lo Prescribed Antihypertensive Medication Regimens. Washington, D. C: Government Printing Office, N. I. H. N.° 80-2102, 1980; D. L. Sackett, R. B. Haynes, E. S. Gibson, y A. L. Johnson. The problem of compliance with antihypertensive therapy. Practical Cardiology. Mayo: 35, 1976.
MEJORAR EL BAJO CUMPLIMIENTO Antes de que nosotros lancemos un programa a veces completamente caro, y a menudo intensivo, para mejorar el cumplimiento de un paciente, debemos satisfacernos a nosotros mismos de que los requisitos previos señalados en la tabla 8.7 han sido cumplidos (30, 33, 47). Debido a que la mayoría de las estrategias para mejorar el cumplimiento son en sí mismas intervenciones, y debido a que el propósito de mejorar el cumplimiento es aumentar el beneficio terapéutico, nosotros sostenemos que las estrategias para mejorar el cumplimiento deben ser pensadas como maniobras terapéuticas en sí mismas. Así pues, ellas deben estar sujetas al mismo examen vigoroso que nosotros aplicamos a cualquier tratamiento. Los requisitos previos establecidos en la tabla 8.7 son en su mayor parte patentes. No tiene sentido intentar aumentar el cumplimiento con un tratamiento incorrecto, o ineficaz —en realidad ello puede añadir daño a la lesión del paciente—. Por la misma razón, usar una estrategia para mejorar el cumplimiento, que fue inútil, derrocharía el tiempo tanto del paciente como del médico. El requisito final, que el paciente esté informado y bien dispuesto a participar en el proceso, es un asunto de ética (y ley) más que de lógica. En la mayoría de las circunstancias, los pacientes tienen el derecho de rechazar el tratamiento, y están protegidos frente al abuso y la violencia. Todas las estrategias que nosotros describiremos más adelante están diseñadas para estas circunstancias y la mayor parte de ellas tienen éxito porque estimulan la participación activa de los pacientes, más bien que ganan la cooperación por coacción. Hay por supuesto, situaciones de psicosis o contagio, en la
CUMPLIMIENTO
273
Tabla 8.8. Guías de los lectores para examinar artículos sobre estrategias para mejorar el cumplimiento. 1. ¿Hubo un grupo de comparación asignado aleatoriamente, que no recibió la estrategia para mejorar el cumplimiento? 2. ¿Hubo por lo menos una medición creíble del cumplimiento? 3. ¿Hubo por lo menos una medición del resultado del tratamiento? 4. ¿Fueron consideradas tanto la significación clínica como la estadística? a. Si se observó un efecto estadísticamente significativo sobre el cumplimiento, ¿fue lo suficientemente grande que valiese la pena el esfuerzo implicado en aplicar la estrategia? b. Si no se observó un efecto estadísticamente significativo sobre el cumplimiento, ¿hubo por lo menos 50 pacientes en cada grupo (intervención y control)?* 5. (Para régimen a largo plazo). ¿Fueron seguidos los pacientes por lo menos seis meses? * Este estándar suministra cierta protección contra las conclusiones negativas falsas, asegurando un número lo suficientemente grande de sujetos estudiados, para detectar un beneficio importante clínicamente. Adaptado de R. B. Haynes, D. W. Taylor, J. C. Snow, y D. L. Sackett. Annotated and Indexed Bibliography on Compliance Therapeutic and Preventive Regimens. En R. B. Haynes. D. W. Taylor, y D. L. Sackett (eds.), Compliance in Health Core. Baltimore: Johns Hopkins, 1979.
que los pacientes plantean tan graves amenazas a ellos mismos o a los demás, que las leyes locales suprimen nuestros requisitos previos de consentimiento informado, voluntario. Las técnicas de mano dura que son aplicadas a veces en estas situaciones, están en agudo contraste con los procedimientos más positivos y facilitadores que siguen. En realidad, aproximadamente el 80 por 100 de los pacientes no cumplidores que nosotros hemos contactado con ofertas de suministrar las estrategias para mejorar el cumplimiento, han aceptado nuestra ayuda de buena gana (23). Esto en cuanto al quinto requisito previo de la tabla 8.7. Debido a que las partes anteriores de este libro fueron dedicadas a hacer diagnósticos y pronósticos, y escoger tratamientos eficaces, nosotros asumiremos que los lectores ya conocen cómo satisfacer los primeros tres requisitos previos. Esto nos deja al cuarto requisito previo: que la estrategia de mejorar el cumplimiento debe ser eficaz. Muchas de las guías que nosotros hemos aplicado en el capítulo anterior para la evaluación de las afirmaciones de que un tratamiento era eficaz, pueden ser aplicadas también a la valoración de las estrategias de cumplimiento. Con el fin de seleccionar las estrategias eficaces de la floreciente literatura sobre cumplimiento, nosotros hemos modificado estas guías. El resultado aparece en la tabla 8.8.
274
EPIDEMIOLOGÍA CLÍNICA
Las guías del lector de esta tabla harán a nuestro examen de la literatura rápidamente creciente sobre el cumplimiento del paciente, eficaz y eficiente (25). Por ejemplo, nuestra aplicación de estas guías cuando nosotros preparamos este capítulo, redujo el número de artículos que nosotros revisamos en detalle, de más de 1.000 a menos de 20. Usted puede lograr esta misma eficacia cuando revise la literatura actual y futura sobre estrategias de mejoría del cumplimiento. Como una línea de base, lo «mejor de la cosecha» de los estudios que cumplieron nuestros estándares metodológicos, cuando nosotros escribimos este capítulo, es resumido a continuación. MEJORAR EL CUMPLIMIENTO DE LAS CITAS DE CONSULTAS Las personas que se ha observado que tienen una enfermedad, mediante el «screening» o el hallazgo de casos, requieren a menudo una consulta para ulterior valoración y tratamiento. Los dos únicos estudios de estrategias para mejorar el cumplimiento, con citas de consulta que satisfacen todas las guías, son resumidos en la tabla 8.9. Hoehn-Saric y colaboradores (27) aconsejaron a los pacientes que iban a ser enviados a cuidado psiquiátrico ambulatorio sobre qué esperar y cómo obtener el máximo de la terapia. Este consejo condujo a mejorías tanto en la asistencia a las citas, como en cooperación en las sesiones de terapia y fue seguido de mejoría en sus resultados clínicos.
Tabla 8.9. Mejorar el cumplimiento mediante citas de consultas.
a Cifras obtenidas restando el porcentaje de los pacientes que se juzgaron como cumplidores, en el grupo control, del porcentaje de cumplimiento en el grupo de intervención; ambas cifras son estadísticamente significativas (P