274 30 2MB
Spanish Pages [307] Year 2008
Métodos de estudio en Medicina Comunitaria
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA UNA INTRODUCCIÓN A LOS ESTUDIOS EPIDEMIOLÓGICOS Y DE EVALUACIÓN J.H. Abramson Catedrático de Medicina Social The Hebrew University-Hadassah School of Public Health and Community Medicine Jerusalén Traducción ANTONIO DURAN
ERRNVPHGLFRVRUJ
Título original: «Survey Methods in Community Medicine» © 1984 Longman Group Limited © 1990 Ediciones Díaz de Santos, S. A. «No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright» ISBN en lengua inglesa: 0-443-030685 ISBN en lengua española: 978-84-87189-35-7 Depósito legal: M. 903-1990 Edita: Díaz de Santos, S. A. c/Juan Bravo, 3A. 28006 Madrid Diseño de cubierta: J. Luis Tellería Traducción: Antonio Duran Fotocomposición: Didot, S. A. c/Nervión, 3-5.° - Bilbao Impresión: Lavel. Pol. Los Llanos, nave 6, Humanes (Madrid)
A Sidney L. Kark
Contenido
Prólogo 1 Primeros pasos 2 Tipos de investigaciones 3 Etapas de una investigación 4 Formulación de los objetivos 5 Objetivos de los estudios de evaluación 6 La población estudio 7 Grupos de control 8 Métodos de muestreo 9 Las variables
XI 1 5 24 29 40 53 61 74 85
10 11 12 13 14 15 16 17 18 19 20 21 22 23
93 100 105 116 122 127 138 153 159 165 171 183 190 197
Definición de las variables Definiciones de las enfermedades Escalas de medición Escalas compuestas Métodos de recogida de los datos Fiabilidad Validez Entrevistas y cuestionarios auto-cumplimentados Elaboración de un cuestionario Recogida de las opiniones de expertos El uso de las fuentes documentales Planificación del análisis Decisiones relacionadas con la codificación Planificación de los registros IX
X
24 25 26 27 28 29 30 31
CONTENIDO
Pre-tests y otros preparativos prácticos Recogida de los datos Procesamiento de los datos Interpretación de los hallazgos Comprobación de que las asociaciones tienen sentido Generalización a partir de los hallazgos Elaboración de un informe Métodos de estudio en la Atención Primaria de Orientación Comunitaria Índice
205 209 213 224 230 250 256 262 283
Prólogo
El propósito de este libro es proporcionar una guía sencilla y sistemática para la planificación y realización de investigaciones relacionadas con la salud, la enfermedad y los servicios sanitarios, diseñadas bien para ampliar los horizontes del conocimiento científico, o con fines más directamente prácticos, como el de proveer información necesaria para servir de base a la inmediata toma de decisiones y a la acción. No constituye un compendio de técnicas investigadoras detalladas ni de métodos estadísticos, sino un ABC para el diseño, realización y análisis de estudios. Para esta tercera edición, el texto ha sido de nuevo revisado y actualizado por completo, lo que de alguna manera ha contribuido a hacerlo más largo. Se han añadido dos capítulos nuevos. Uno es extenso y versa sobre métodos de estudio en Atención Primaria de Orientación Comunitaria. Lo escribí intentando dar respuesta a las necesidades de aquellos médicos y demás profesionales sanitarios que prestan atención primaria de salud a individuos o familias de la comunidad, al tiempo que se esfuerzan por «tratar a su comunidad como a un paciente» valorando las necesidades de salud de ésta y poniendo en marcha programas para hacerles frente. El segundo describe los métodos para recoger las opiniones de expertos, incluyendo profesionales y hombres de la calle particularmente bien informados sobre una comunidad específica y sus problemas; se pone un cierto énfasis en la Técnica de Grupo Nominal. Espero que el libro resulte de utilidad a médicos y no-médicos cuando planifiquen investigaciones de grupos y poblaciones, como estudios de salud, estudios prospectivos, comparaciones de casos y controles, ensayos profilácticos y terapéuticos, estudios del uso de los servicios médicos, u otros trabajos epidemiológicos o de evaluación. Si bien se ha centrado el contenido sobre la Medicina Comunitaria, quizá sirva también en la planificación de otros tipos de investigación médica y de salud pública. A pesar del título, además de a los métodos de estudio se presta atención a los experimentales. Si hemos evitado el más correcto título de Métodos de investigación en Medicina Comunitaria, ha sido para no repeler a lectores que, estando interesados en realizar trabajos en este campo con fines pragmáticos, conciben la «investigación» como una actividad de torre de marfil, alejada de las suyas, más mundanas. Jerusalén, 1984
J.H.A. XI
1 Primeros pasos El propósito de la mayoría de las investigaciones efectuadas en medicina comunitaria —y, en general, en el campo de la salud— es recoger información que proporcione bases para la acción, ya sea inmediata o a largo plazo. El investigador1 percibe un problema que, de acuerdo con su criterio, requiere solución, valora que un determinado estudio en particular contribuirá a tal fin y se embarca en llevarlo a cabo. Si un golpe de mente creativo le bendice y se ve acompañado de una módica cantidad de suerte, además de planificar su estudio con sensatez, puede muy bien ocurrir que sus hallazgos resulten de interés científico amplio. Si la inspiración es menor, pero selecciona un problema de importancia práctica y planifica su estudio con sensatez, los hallazgos serán útiles, aunque de interés menos general quizá. Si lo que le preocupa, por contra, es un problema carente de significación teórica ni práctica, lo que encuentre no va a servir para otra cosa que para su auto-gratificación; es el único caso en el cual puede resultar innecesaria una planificación sensata. Antes de poder iniciar la planificación, debe identificarse el problema. Alguien ha dicho que «si la necesidad es la madre de la invención, la de la investigación es ser consciente de los problemas»2. El interés del investigador en un problema determinado puede provenir de su preocupación por temas prácticos o de la curiosidad intelectual, de un «presentimiento» intuitivo o de un razonamiento cuidadoso, de su propia experiencia o de la de otros. La inspiración, por su parte, proviene muchas veces de la lectura, no sólo sobre el tema en el cual está interesado el investigador, sino sobre cosas parecidas: una idea para estudiar el alcoholismo puede surgir de los resultados de un estudio sobre el tabaco (conceptualmente relacionado con él por tratarse ambos de adicciones) o sobre la delincuencia (que, como el alcoholismo, es, al menos en ciertas culturas, una forma de conducta social desviada). Ahora bien; aunque el propósito fundamental es recoger información que contribuya a la solución de un problema, las investigaciones pueden tener también una función educativa y ser realizadas para este fin. Un estudio puede asimismo estimular el interés del público sobre un tema particular (la gente dice al investigador: ¿Por qué me está usted preguntando estas cosas?), lo que constituye una manera de influir sobre la actuación de las personas. Es posible
2
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
igualmente poner en pie un auto-estudio comunitario, encabezado por los miembros participativos de una comunidad, como forma de motivar la acción de ésta (si bien, por lo general, no suelen producir una información demasiado exacta ni sofisticada).
Primeros pasos 1. Clarificar el propósito 2. Formular el tema
El primer paso, pues, antes de planificar el estudio, es clarificar su propósito —el «por qué» del mismo. (No nos referimos aquí a las motivaciones psicológicas que mueven al investigador —búsqueda de prestigio, promoción, las gratificaciones que conlleva solucionar un problema, etc., de las cuales puede no darse ni cuenta, y a veces más vale que sea así). ¿Se busca, por ejemplo, obtener información que sirva de base de una decisión sobre utilización de recursos; o identificar personas sometidas al riesgo de contraer una enfermedad específica para luego poder emprender actuaciones preventivas; o arrojar luz sobre un aspecto específico de la etiología: o educar al público sobre aspectos concretos de la nutrición infantil, etc?. Si de lo que se trata es de un estudio de evaluación, ¿preocupa el bienestar de la gente servida por un consultorio, centro de salud u hospital específicos, o el propósito principal es ver si un tratamiento o un tipo de programa sanitario concreto es suficientemente bueno como para aplicarlo también en otros lugares? El investigador, por tanto, debe tener clara la razón por la cual se embarca en el estudio. En la mayoría de los casos, de hecho, afortunadamente la tiene desde el principio, pero hay veces en que la formulación del problema a resolver es menos sencilla. En cualquier caso, si necesita solicitar ayudas o fondos para su estudio, habrá de describir el propósito con cierto nivel de detalle, y justificar cómo va a ir actuando. Tendrá que revisar los trabajos previos sobre el tema, describir lo que se sabe en ese momento y explicar el significado de la investigación que propone. Es lo que se conoce como «justificar la acción». Toda idea preconcebida introduce cierta posibilidad de efectuar hallazgos sesgados, por lo cual el investigador debe ser honesto consigo mismo a la hora de clarificar sus propósitos. Si pretende estudiar un servicio sanitario determinado porque piensa que es atroz y quiere recoger datos que le ayuden a condenarlo, tiene precisamente que tomarse un cuidado especial en asegurar su objetividad a la hora de recopilar e interpretar la información; en este tipo
PRIMEROS PASOS
3
de situaciones, lo mejor que puede hacer es «dar marcha atrás» y plantearse conscientemente recoger información favorable al servicio. Con un propósito claro en su mente, un investigador puede, en términos generales, formular el tema que se propone estudiar. En muchos casos, resulta fácil y casi una tautología. Por ejemplo: si la razón por la cual se plantea el estudio es que en una población la mortalidad infantil es indebidamente alta, y la información disponible sobre sus causas resulta insuficiente para planificar un programa de actuaciones, formulará en términos amplios el tema a estudiar como «las causas de la mortalidad infantil en una población definida en un momento dado». Si la razón de la investigación es que la educación sanitaria sobre el consumo de tabaco está teniendo poco efecto y se considera que ciertos nuevos métodos pueden ser más eficaces, la investigación debe ser un estudio comparativo entre diversas técnicas educativas para reducir dicho hábito. Habrá casos, no obstante, en que la formulación del tema será más complicada, y el investigador afrontará dificultades para definir de modo preciso qué tipo de estudio se necesita para resolver el problema, a la vista de las limitaciones prácticas. Pongamos como ilustración el surgido realmente en un programa de tuberculosis; el grado de participación pública en unas actividades de screening con rayos X quedó corto respecto de lo considerado como deseable, habiendo motivos para pensar que la tasa de TBC era más alta entre las personas que no acudieron al mismo que entre las que sí lo hicieron. Se decidió, pues, realizar una investigación para obtener información capaz de contribuir a mejorar la situación, pero hubo que pensarse con mucho cuidado las cosas antes de poder formular el tema del estudio. Las alternativas eran: estudiar las razones de la no-participación y estudiar las de la participación. Por distintos motivos se decidió que este último abordaje sería más útil3. Otro ejemplo, esta vez teórico; un investigador que quisiera descubrir si existe relación entre la mononucleosis infecciosa y el desarrollo posterior de la enfermedad de Hodking, tendría ante sí dos opciones: determinar la ocurrencia previa de mononucleosis infecciosa entre los pacientes con un Hodking, o el desarrollo subsiguiente de esta enfermedad entre quienes tuvieron antes la mononucleosis. Su decisión se basará, inter alia, en consideraciones como la facilidad para obtener, y la exactitud de, la información respectiva conseguible. En etapa tan temprana, la decisión sobre el tema a estudiar debe ser considerada provisional. Cuando luego llega la hora de planificar y «pre-testar» los métodos, muchas veces salen a la luz dificultades con las cuales no se había contado, obligando a cambiar el tema, o llevando incluso a tener que tomar la decisión de que no hay forma práctica de solucionar el problema sometido a investigación.
4
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y referencias 1. Nuestro investigador puede, por supuesto, pertenecer a cualquier sexo. En todo el texto, por favor, léase «él» como «él o ella» y «suyo» como «suyo o suya», etc. Véase, por ejemplo, (primeras dos sentencias del capítulo 4): «Tras decidir qué estudiar y sabiendo por qué él o ella quieren hacerlo, el(la) investigador(a) están ahora en condiciones de formular los objetivos de su estudio. Es decir, él o ella pueden formular el conocimiento que quieren obtener de realizarlo —(a qué preguntas quiere él o ella dar respuesta?». 2. Geitgey, D.A. y Metz, E.A. (1969) Nursing Research, 18, 339. 3. Rosenstock, I.M. y Hochbaum, G.M. (1961) American Journal of Public Health, 51, 266.
2
Tipos de investigaciones Antes de seguir adelante y discutir la planificación detallada de una investigación, permítasenos explicar unos cuantos términos de uso común al hablar de los diversos tipos de investigaciones. Estudios y experimentos Las investigaciones pueden dividirse en estudios y experimentos. Puesto que es más fácil definir un estudio en negativo, como una «investigación noexperimental», comenzaremos definiendo qué es un experimento. Un experimento es una investigación en la cual quien la realiza, deseando estudiar los efectos de la exposición a o la privación de un factor definido, decide él mismo qué sujetos (personas, animales, ciudades, etc.) serán expuestos al o privados del factor en cuestión. Si compara los expuestos a los no-expuestos, se dice que está llevando a cabo un experimento controlado; cuanto más cuidado ponga en asegurar que los dos grupos son similares en otros aspectos, mejor controlado estará su experimento (ver páginas 64-70). Por ejemplo, en uno controlado sobre el efecto de determinados suplementos vitamínicos, habrá de decidir quién sí y quién no recibirá los citados suplementos; en un estudio, por contra, comparará personas que tomaron las vitaminas con otras que no lo hicieron. Si el investigador trata de reforzar la objetividad en su experimento realizando sus observaciones sobre los efectos sin conocer quién las ha tomado y quién no, se dice que se trata de un experimento «ciego». Si, además, los sujetos tampoco saben si han recibido las vitaminas (cosa que puede conseguirse utilizando tabletas «simuladas»), se tratará de un experimento «doble ciego». En un experimento doble ciego para comprobar la eficacia del rezar por alguien, se rezaría por algunos pacientes y por otros, no; para evitar hallazgos sesgados, habría que ocultar a los pacientes que se ha rezado por ellos, y a los médicos encargados de valorar sus progresos clínicos en cuáles casos se ha solicitado la intercesión divina1. Un investigador que quiere llevar a cabo un experimento no siempre posee el control pleno de la situación. Igual no está en su mano decidir quién será expuesto al factor o privado de él, o le resulta imposible asegurar que el grupo experimental y el de control son similares inicialmente, o no se encuentran
6
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
sometidos a influencias distintas (aparte de la del factor experimental). Se trata de dificultades muy frecuentemente encontradas al estudiar los efectos de la atención de salud (ver página 65). Sí que puede, sin embargo, decidir a quién se van a aplicar las mediciones o cuándo se las llevará a cabo (por ejemplo, antes y después de la exposición), poniendo en pie un estudio parecido a un experimento, aunque le falte algo para serlo auténticamente. Cuando no es factible realizar uno de verdad, vale la pena efectuar cuasi-experimentos de este tipo, si bien hay que interpretar sus hallazgos con precaución2. En los experimentos que someten a prueba los beneficios o peligros de un tratamiento, o de cualquier otro procedimiento, la necesidad de decidir a quién será administrado y a quién se le retirará plantea problemas éticos3. Por beneficioso que dicho experimento pudiera resultar a largo plazo para la humanidad, podría ser dañino para los sujetos experimentales o para los controles. Los sujetos deben, por tanto, saber que están participando en él y las consecuencias que podrían derivarse de hacerlo, dando su consentimiento libremente. En algunos países dicho «consentimiento informado» resulta esencial, de no haber contraindicaciones válidas, tipo escrúpulos ante la idea de sembrar la alarma entre pacientes aquejados de enfermedades posiblemente fatales con dudas sobre lo eficaz de su tratamiento. Cuando se somete a toda una comunidad a un procedimiento experimental, lo mismo que cuando éstos se llevan a cabo en países subdesarrollados, surgen problemas especiales3. Bradford Hill ha dicho que, en este terreno de la ética, sólo existe una Regla de Oro, a saber: «que no caben las generalizaciones ... hay que hacer frente al problema cada vez, con cada nuevo ensayo que se plantee»4. Por lo general, las objeciones se desvanecen si a los controles se les aplica un tratamiento reconocidamente bueno y existen dudas genuinas sobre el valor comparativo del nuevo. Actualmente son muchas las instituciones con comités éticos para revisar y sancionar los estudios propuestos con sujetos humanos. Se ha argumentado que también debería haber problemas éticos con no realizar un ensayo controlado, en la medida en que ello podría conducir a usar tratamientos ineficaces o peligrosos3, y con la forma de llevar a cabo los que se efectúan —«Los estudios que científicamente carecen de sentido, son no-éticos. Habría que aceptar como máxima que todo estudio con implicación de sujetos humanos deficiente o inadecuadamente diseñado —o sea, que no pueda lograr hechos científicos (esto es, observaciones reproducibles) relevantes para el tema en estudio— resulta por definición no-ético. Más aún, cuando un estudio es en sí mismo no-válido desde el punto de vista científico, las restantes cuestiones éticas se vuelven irrelevantes. No tiene sentido obtener un "consentimiento informado" para llevar a cabo un estudio inútil»5. Manipular animales o seres humanos no constituye un rasgo esencial de los experimentos. El investigador que estudia la bacteriuria en el embarazo punzando vejigas de mujeres encintas a través de sus paredes abdominales para
TIPOS DE INVESTIGACIONES
7
obtener orina que luego habrá de examinar, lo que lleva a cabo es un estudio, no un experimento. El término experimento natural se aplica muchas veces a circunstancias en las cuales, como resultado de cambios o diferencias ocurridas «naturalmente», resulta fácil observar los efectos de un factor específico. Por ejemplo, si una hambruna devasta una región o un país, puede facilitar el estudio de los efectos del hambre sostenida. Los «experimentos naturales» son estudios, no experimentos. Se los puede llamar también «experimentos de oportunidad». Como se dijo antes, un estudio es una investigación en la que se recoge sistemáticamente información, pero en la cual no se usa el método experimental. Para recalcar este hecho, se emplea a veces el término «estudio observacional» —que es mejor evitar, tanto porque en los experimentos también se usan técnicas observacionales, como porque en los estudios, a su vez, se utilizan asimismo otras técnicas que no son de observación. Hay gente (mejor les valdría cuidar más estas cosas) que utiliza a veces la palabra «estudio» en referencia únicamente a ciertos tipos específicos de ellos, como los basados en entrevistas o cuestionarios, o los que se realizan sobre la población en general, o el de tipo domiciliario (ver página 19). Un estudio no es necesariamente una operación breve; puede implicar la vigilancia a largo plazo (ver página 18) de la situación de un grupo o población.
Tipos de investigaciones Estudios
Descriptivos Analíticos
Experimentos
Los estudios pueden ser descriptivos o analíticos. Los primeros se plantean describir una situación; por ejemplo: la distribución de una enfermedad en una población en relación al sexo, la edad u otras características. Uno analítico, o explicativo, por su parte, intenta explicar la situación —esto es, estudiar los procesos determinantes (¿por qué ocurre la enfermedad en estas personas?, ¿por qué hay algunas que no consiguen hacer un buen uso de los servicios sanitarios?, ¿es posible atribuir el descenso en incidencia de la enfermedad a la introducción de medidas preventivas?). Se los lleva a cabo formulando y poniendo a prueba hipótesis capaces de ayudar a explicar la situación; dichas hipótesis, entre otras cosas, pueden estar basadas en inferencias realizadas a partir de los resultados de estudios descriptivos previos. La distinción entre
8
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
estos dos tipos de estudios no es siempre tajante, pudiendo un estudio único combinar ambos propósitos. Un estudio descriptivo amplio, por ejemplo, puede estar planeado de modo que proporcione también información para comprobar una hipótesis específica. Es posible utilizar un estudio analítico, por su parte, para explicar la situación local de una población específica en la cual está interesado el investigador, o para obtener resultados de aplicabilidad más general, como actualizar el conocimiento de la etiología de una enfermedad. A veces resulta útil categorizar los estudios, sean descriptivos o analíticos, como de sección transversal o longitudinales. Un estudio de sección transversal («instantáneo», «estático», «de prevalencia», «naturalista») proporciona información sobre la situación existente en un momento dado, en tanto que uno longitudinal («de lapso temporal»6) aporta datos referidos a acontecimientos o cambios que ocurren durante un cierto periodo cronológico. Un estudio sobre el aumento de peso en niños puede llevarse a cabo tanto comparando los pesos de niños de edades diferentes, con lo cual cada pequeño sería pesado una única vez (sección transversal), como comparando los pesos de los mismos niños conforme van haciéndose mayores, con lo que habría que pesarlos más de una vez (longitudinal). Un estudio longitudinal en el que se sigue —sobre todo si dicho seguimiento se refiere a sus cambios en el estado de salud— durante un cierto tiempo a un grupo de individuos (no entraremos ahora en cómo fueron seleccionados), puede ser llamado de cohortes («de seguimiento», «de incidencia», «dinámico»). Si el grupo comprende personas nacidas en un momento definido concreto, se llamará de cohorte de nacimientos. Nótese que el calificativo estudio de cohortes puede ser también utilizado de modo más restrictivo para referirse a uno prospectivo analítico (ver página 12) comparando la experiencia subsiguiente de grupos que inicialmente difirieron en su exposición a un factor etiológico sospechado. No debe confundirse «estudio de cohortes» con «análisis de cohortes»7. Es preciso insistir sobre que las consideraciones éticas afectan tanto a los estudios como a los experimentos, si bien en los primeros resultan por lo general menos agudas. Son cuestiones importantes: la necesidad de «consentimiento informado», si la participación en el estudio requiere que los sujetos aporten su tiempo, su sangre, etc.; la confidencialidad de la información colectada; la confidencialidad de los registros médicos y otros documentos que el investigador desee utilizar; la justificación de gastar recursos en estudiar una situación, y no en mejorarla; y, finalmente, el tema de la acción a emprender si el estudio revelase que los individuos se beneficiarían de determinada asistencia médica o cualquier otra intervención. Una ilustración horrible de lo que decimos la constituyó el estudio Tuskagee, en Alabama. Se trató de un estudio de cohortes comenzado en 1932 con el objetivo de arrojar luz sobre los efectos de la sífilis no tratada. Fueron identificados y sometidos a seguimiento unos 400 sifilíticos negros no-tratados (la mayoría de ellos pobres y sin educación), comparándose
TIPOS DE INVESTIGACIONES
9
su evolución con la de controles apareados según edad, libres con seguridad de la citada enfermedad. Se decidió no aplicar tratamiento alguno a los procesos luéticos. Hacia 1938-39 se supo que cierto número de hombres habían recibido de vez en cuando terapia con arsénico, o con derivados del mercurio, y que muy poquitos otros estaban sometidos a un tratamiento más intensivo. En interés de la ciencia, «para compensar por estos hechos, se añadieron al estudio catorce nuevos sifilíticos jóvenes no tratados». El tratamiento les siguió siendo negado incluso cuando se supo que la penicilina era eficaz y se podía disponer fácilmente de ella, a finales de los 40 y principios de los 50. A los participantes se les daban gratis ciertos beneficios, como el tratamiento gratuito de cualquier patología (excepto la sífilis), comidas calientes sin tener que pagar por ellas y un entierro gratis (tras su correspondiente autopsia, también gratis). En 1954, estaba ya más que claro que la esperanza de vida de los hombres no tratados y de edades comprendidas entre 25 y 50 años se reducía en un 17%. Hacia 1963, en el grupo sifilítico habían muerto un 14% más varones que en el de control. En 1972 el escándalo alcanzó nivel público, realizándose posteriormente pagos compensatorios. Estudios epidemiológicos La epidemiología es la ciencia que se ocupa de la ocurrencia, la distribución y los determinantes de los estados de salud y enfermedad en grupos y poblaciones humanos. Los estudios epidemiológicos, por tanto, se ocupan de la salud de los grupos de población. Pueden versar sobre la distribución de enfermedades o características de interés para la salud en dichos grupos (estudios descriptivos), o sobre los factores que influyen en dicha distribución (estudios analíticos y experimentos). Poseen tres usos fundamentales. En primer lugar, sirven para un fin diagnóstico. Lo mismo que un doctor cuidando a un individuo necesita un diagnóstico del estado de salud de su paciente, el médico u otro profesional sanitario encargado del cuidado de una comunidad (u otro grupo definido de gente) precisa de un diagnóstico comunitario8 o diagnóstico de grupo. Los estudios epidemiológicos proporcionan la información requerida sobre los determinantes de la salud en dicha comunidad o grupo específico. En segundo lugar, pueden arrojar luz sobre la etiología, la historia natural de las enfermedades y el crecimiento y el desarrollo. Dicho conocimiento resulta de interés más general y posee una aplicabilidad mucho más amplia que la situación local concreta. Y en tercero, contribuyen a la evaluación de la atención sanitaria, tanto en situaciones locales específicas (¿está funcionando bien el programa de detección de casos de tuberculosis?), como generales (¿previene esta vacuna la aparición de tal enfermedad?). Los tres usos tienen importancia clara para la medicina comunitaria. Los estudios epidemiológicos, pues, juegan un papel obvio a la hora de dar respuesta
10
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
a lo que Kark ha llamado las preguntas cardinales a afrontar por todo médico comunitario9: ¿Cuál es el estado de salud de la comunidad? ¿Cuáles son los factores responsables de dicho estado de salud? ¿Qué están haciendo al respecto el sistema sanitario y la propia comunidad? ¿Qué más puede hacerse, qué se propone y qué se espera conseguir? ¿Qué medidas se precisan para lograr una vigilancia sanitaria continuada de la comunidad y evaluar los efectos de lo que se está haciendo? El papel de los estudios epidemiológicos en Atención Primaria de Salud de Orientación Comunitaria (la gente que la practica se esfuerza por integrar la atención a los individuos con el cuidado a la comunidad en su conjunto) será descrito en el capítulo 31. Los estudios de salud de una población, se ha dicho, «pueden constituir el alfa y el omega de la asistencia sanitaria, por ser vehículo tanto del descubrimiento de las necesidades como de la evaluación de los resultados del cuidado y el tratamiento»10. Dichos estudios epidemiológicos y de evaluación aportan una estructura organizada a la práctica de la medicina comunitaria, y no es exagerado referirse a ellos como actividades patrón (Vigilancia de la Salud y Evaluación de Programas).* Tipos de estudios epidemiológicos 1. Estudios descriptivos 2. Estudios analíticos Basados en grupos De sección transversal Con base individual
Retrospectivos Prospectivos
3. Experimentos: estudios de intervención Los estudios epidemiológicos descriptivos pueden ser de sección transversal (¿cuánta gente padece ceguera ahora en esta población?) o longitudinales (por ejemplo, estudios sobre la «historia natural» de la enfermedad —¿qué sucede * N del T. Se trata de un juego de palabras intraducible al castellano: en inglés, "To shape" significa modelar, dar forma, conformar un patrón... Las iniciales de lo incluido en el paréntesis (Surveillance of Health and Programme Evaluation) forman dicha palabra.
TIPOS DE INVESTIGACIONES
11
una vez que se desarrolla una retinopatía diabética?). Pueden apoyarse en estadísticas vitales, registros médicos u otros datos, obtenidos de modo rutinario o mediante estudios especiales. Los estudios analíticos pueden tener una base grupal o individual. Los primeros son comparaciones de grupos de población; se les ha llamado estudios de «grupos de grupos»11. Por ejemplo, podemos tomar un conjunto de países y compararlos en relación a sus tasas de enfermedad coronaria y su consumo medio de grasas animales o fibra dietética. Se dispone de información de cada país, no de cada individuo. De igual modo, podemos comparar datos de una misma población en momentos distintos, por ejemplo analizando los cambios en la incidencia de esquizofrenia en relación con determinados cambios medibles del entorno social. Las inferencias extraídas de ese tipo de comparaciones inducen a engaño muchas veces, y deben ser tomadas como pistas más que como conclusiones definitivas. Encontrar que las poblaciones con un consumo de cerveza más alto tienden a padecer una mayor tasa de mortalidad por cáncer de recto12 no quiere decir necesariamente que los individuos que beben más cerveza estén más predispuestos a desarrollar este tumor; habría que comprobarlo con un estudio de base individual, o quizá con un experimento —eso sí, bastante placentero. El hecho de que el estudio comparativo de 18 países desarrollados de Europa y América del Norte haya demostrado la existencia de una fuerte correlación positiva entre mortalidad infantil y número de doctores por 10.000 habitantes en los distintos países13 tampoco implica necesariamente la conveniencia de mantener a los niños pequeños alejados de los médicos. Bajo ningún concepto, sin embargo, deben desdeñarse los estudios de grupo. Dolí y Peto han señalado al respecto, por ejemplo, que si bien las sorprendentes correlaciones observadas al comparar países entre el cáncer de colon y el consumo de carne, y entre el cáncer de mama y el consumo de grasa, podrían no significar que comer carnes o grasas sea un factor etiológico fundamental, muestran desde luego que las grandes diferencias internacionales entre tasas de estas neoplasias no son básicamente genéticas en origen, lo cual sugiere que dichos cánceres son en gran medida evitables14. Los estudios analíticos de base individual son, por supuesto, como todos los epidemiológicos, estudios de grupos, sólo que utilizan información sobre cada individuo de los mismos. En su forma más simple, se los lleva a cabo para someter a prueba hipótesis orientadas a poner de manifiesto que un factor específico («causa») está relacionado con una enfermedad también específica («efecto»), midiendo la exposición de cada individuo a la causa y la presencia o no en ellos de dicha enfermedad. Existen tres tipos de estudios con base individual: de sección transversal, retrospectivos y prospectivos. En uno de sección transversal, se miden simultáneamente causa y efecto, estando ambas mediciones relacionadas con el mismo punto en el tiempo; ejemplo podría ser un estudio que relacionase la
12
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
constitución corporal con la hipertensión. El retrospectivo, por contra, «mira hacia atrás», en el sentido de que toma el efecto como punto de partida y se vuelve hacia la causa postulada; suelen compararse personas que tienen la enfermedad con controles que no la padecen, determinando si difieren en su exposición pasada al factor causal. El prospectivo, finalmente, parte de la causa y avanza hacia el efecto; se sigue a personas que están, respectivamente, expuestas y no-expuestas al factor, o difieren en su grado de exposición, para determinar el subsiguiente desarrollo de la enfermedad. La hipótesis «Pasar la gripe durante el embarazo puede causar anomalías congénitas» podría ser comprobada retrospectivamente, comparando las historias de enfermedad de madres que tuvieron niños malformados o normales, o prospectivamente, comparando la posterior ocurrencia de malformaciones entre los recién nacidos de mujeres que sí y mujeres que no padecieron gripe durante su gestación.
Los estudios retrospectivos y prospectivos requieren ambos datos referidos a más de un punto en él tiempo, siendo por tanto longitudinales o «de lapsos temporales»6. La dirección del abordaje (de la causa al efecto, o viceversa) suele determinar la selección de los individuos a quienes se va a estudiar, pero este rasgo no es esencial. Los dos abordajes pueden ser aplicados también al análisis de datos de individuos «no seleccionados», clasificados en el curso del estudio como casos y controles, o como «expuestos» y «no expuestos» a una causa sospechada. El método de sección transversal (de acuerdo con la definición antes dada) puede igualmente ser utilizado en comparaciones de casos y controles, o de gente «expuesta» y «no expuesta». (Hay autores que restringen el término «sección transversal» a los estudios realizados sobre una población «no seleccionada»15; en ese caso, podría usarse como sinónimo el término «estudio de prevalencia»). Es fácil distinguir entre sí estos tres tipos de estudio. No obstante, pueden aparecer en formas híbridas. En una comparación de casos y controles, por ejemplo, se podrían investigar algunas causas putativas retrospectivamente (usando las historias pasadas) y otras mediante sección transversal (usando el estatus en ese momento). A partir de ahí, cabría además realizar un seguimiento de los casos y los controles para investigar un efecto de la enfermedad —pongamos por caso, la susceptibilidad a otra patología (prospectivo). Por desgracia, los nombres de estos tipos de estudio dan lugar a una confusión enorme, porque en el lenguaje cotidiano «retrospectivo» y «prospectivo» tienen otros significados, y hay quien usa esos términos a veces para indicar
TIPOS DE INVESTIGACIONES
13
si el estudio está basado en datos previamente registrados o en observaciones realizadas una vez comenzada la investigación16. Prospectivo, sin embargo, según la definición dada antes, no significa necesariamente que el estudio deba ser desarrollado en el futuro; cabe llevar a cabo un estudio de ese tipo con registros recogidos con antelación —por ejemplo, una comparación entre las experiencias de mortalidad de personas obesas y no obesas, sobre la base de sus pesos cuando suscribieron una póliza de seguro de vida y su supervivencia desde aquel momento hasta la actualidad; este tipo de estudios pueden ser llamados «prospectivos históricos»17. Por el contrario, si un investigador congela grandes cantidades de muestras de suero sanguíneo con la intención de realizar posteriores tests de anticuerpos de un virus en las pertenecientes a las personas que —posteriormente también— desarrollaron un tumor específico, buscando compararlas con las muestras almacenadas de controles que no desarrollaron la neoplasia en cuestión, estará recogiendo material para un estudio retrospectivo, a llevar a cabo en algún momento en el futuro. Para superar esta confusión semántica, se manejan diversos nombres alternativos. A un estudio prospectivo analítico se le suele llamar «de cohorte», término que también puede aplicarse a los estudios longitudinales descriptivos (ver página 8) y que no debe ser confundido con el «análisis de cohorte»7. Otros nombres usados son los de «estudio de seguimiento», «estudio de incidencia» (ver página 19) y «estudio mirando hacia adelante». Un estudio prospectivo que empieza ahora y va hacia el futuro, puede ser llamado «prospectivo concurrente»6 o «de cohorte prospectivo»18, en tanto uno prospectivo histórico (utilizando registros antiguos) podría ser llamado «prospectivo no concurrente»6, «de cohorte retrospectivo»18, «estudio prospectivo en retrospectiva»19, o «diseño retrospectivo con direccionalidad hacia adelante»20. (Está claro que estos términos superan la confusión semántica). No existe una alternativa completamente satisfactoria al término «estudio retrospectivo». El de casos y controles (compara los casos con los controles) suele ser retrospectivo, por lo cual hay autores que tienden a considerar equivalentes19-21 ambos términos. Sin embargo, una comparación casos-controles puede ser también de sección transversal, como sucedería con cualquier investigación sobre la asociación entre una enfermedad y la obesidad (se considere a ésta causa o efecto), o prospectivo, caso de un estudio de seguimiento sobre la ocurrencia de malformaciones entre los hijos de mujeres que padecieron y no padecieron gripe durante el embarazo; o puede no tener nada que ver con la comprobación de una hipótesis etiológica, como ocurriría con uno sobre el valor de una prueba de screening o diagnóstica que se estuviese proponiendo. (Son términos similares «estudio de historia de casos», «estudio de casos de comparación» y «estudio de casos-referentes»; un estudio «caso-base» es una comparación de los casos con la población de la que están sacados). Ha habido quien ha propuesto el término «estudio de etrohoc» para sustituir de modo
14
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
inambiguo el término «estudio retrospectivo»22; «etrohoc» es «cohorte» escrito al revés, pero el término pone los pelos de punta a muchos epidemiólogos. Tanto los estudios de sección transversal como los retrospectivos y prospectivos, así como sus diversas formas híbridas, tienen todos ventajas y desventajas23. Los de sección transversal y los retrospectivos son por regla general más simples de realizar, porque requieren menos tiempo y menos sujetos, pero no suelen proporcionar una medida directa del riesgo que la causa postulada lleva asociado. La información que sobre dicha causa postulada proporcionan se recoge cuando la enfermedad ya está presente e incluso (si se trata de un estudio de casos y controles) diagnosticada, lo que puede sesgarla («sesgo de sospecha de exposición»). Especialmente en un estudio de sección transversal, puede resultar difícil saber si la exposición a la llamada causa precedió realmente al comienzo de la enfermedad. En los retrospectivos, basarse en lo que la gente recuerda y refiere de acontecimientos sucedidos mucho tiempo atrás puede dar pie a inexactitudes («sesgo de recuerdo»). Existen también problemas en la selección de casos y controles (ver páginas 55-56 y 61-64). Los prospectivos son preferibles en muchos sentidos, pero (excepto en el caso de los prospectivos históricos) suelen resultar más caros y difíciles y requieren mucho más tiempo. Si la enfermedad es rara, a veces resultan sencillamente impracticables. Los experimentos epidemiológicos se diseñan para comprobar hipótesis de causa y efecto. Se los llama también estudios de intervención. Como los de no-intervención, pueden tener base grupal o individual. Si se investiga el efecto del flúor sobre la caries dental, fluorando los suministros de agua de algunas ciudades y comparando la posterior ocurrencia de caries dental en ellas con la observada en otras ciudades consideradas controles, se está haciendo un experimento basado en grupos; no se dispone de datos sobre el consumo de flúor de cada individuo. Por el contrario, lo que se hizo cuando se comprobó la hipótesis de que administrar oxígeno a los niños prematuros causaba fibroplasia retrolenticular (una enfermedad que produce ceguera) administrando de forma continua oxígeno a unos niños y a otros no24, fue un experimento con base individual. Estudios de evaluación Los estudios evaluativos25 son los que disciernen acerca del valor de la atención de salud —se los realiza para medir cómo es de «buena» la asistencia. (Los criterios a utilizar se discutirán en el capítulo 5). Son fundamentalmente de dos tipos: revisiones y ensayos. Se los distingue por sus distintos propósitos. Una revisión de programa viene motivada por la preocupación por el bienestar de unos pacientes, una comunidad o una población específicos a los cuales se está prestando cuidados, y evalúa precisamente la atención que se les presta. Puede centrarse en un programa en particular que opera en un ámbito
TIPOS DE INVESTIGACIONES
15
geográfico concreto y con objetivos bien definidos, como podrían ser la detección de casos, las vacunaciones, el control de la hipertensión, la fluoración de unos suministros de agua, etc. Puede asimismo evaluar un servicio sanitario específico (unos servicios nacionales o regionales, un centro de salud, un consultorio con varios médicos, un hospital, etc.), una parte o aspecto de un servicio, o incluso el trabajo de un profesional individual. (El término «revisión de programa» sigue siendo válido en estos últimos ejemplos, puesto que cabe definir la palabra «programa» como «cualquier empresa organizada para eliminar o reducir uno o más problemas»26; de modo alternativo, puede utilizarse el término «revisión de servicio», o el no-específico de «revisión evaluativa».) Tipos de estudios de evaluación 1. Revisiones de programas 2. Ensayos a. De la atención que se presta a los individuos: Ensayos clínicos Ensayos de tests de screening y diagnósticos b. De la atención que se presta a grupos y poblaciones: Ensayos de programas Un rasgo esencial de una revisión de programa es que los hallazgos deben resultar útiles a cualquiera que fuese quien toma las decisiones sobre ese servicio o programa concreto. En consecuencia, se permite llevar a cabo la evaluación dentro del marco de asunciones aceptado por quien o quienes adoptan las decisiones (por ejemplo: llevar a cabo ciertos procedimientos tendrá efectos beneficiosos). Dichas asunciones, sobre las que se basa el programa, no son pues necesariamente cuestionadas o puestas a prueba. Los resultados de la evaluación pueden ser útiles y no necesariamente encontrarlos convincentes quienes pusieran en duda la validez de las referidas asunciones. Las revisiones de programas y de servicios son parecidas a las que los médicos hacen periódicamente de los tratamientos impuestos a pacientes específicos, y que les permiten decidir si continuar, modificar o detener la terapéutica. Constituyen una parte indispensable del proceso clínico, pese a que pocas veces pueden los profesionales obtener pruebas convincentes sobre en qué medida los cambios en la situación del paciente podrían ser atribuidos al tratamiento en cuestión.
16
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Un ensayo, por contra, intenta obtener conocimiento generalizable, susceptible de ser aplicado en otros entornos. Lo que discierne es el valor de un tipo de atención de salud. Para adecuarse a ese objetivo, debe llegar a conclusiones suficientemente bien sustanciadas como para resultar convincentes en general. Un ensayo clínico aprecia en qué medida vale la pena una forma de atención prestada a individuos. Los procedimientos objeto de la evaluación pueden ser preventivos (ensayos profilácticos), curativos (ensayos terapéuticos), rehabilitadores, educativos, etc. Es posible asimismo someter a comprobación el valor de pruebas diagnósticas y de screening. Un ensayo de programa discierne sobre el valor de un tipo de atención de salud encaminado a proporcionar bienestar a un grupo o población. Puede utilizarse el término no sólo para valorar programas dirigidos a problemas o categorías de población específicos (por ejemplo, un screening masivo, la lucha contra el tabaco, la limpieza del aire, el cuidado de pacientes aquejados de accidente vascular cerebral, o el de la tercera edad), sino también ensayos de formas organizativas (hospitales de día, centros de salud, etc.), el trabajo de categorías del personal sanitario (la enfermera-generalista, los facilitadores sanitarios, los callistas, etc.) u otras cosas. Al ensayo de programa que sometiera a comprobación uno que hubiera de ser aplicado al total de una comunidad definida se le llama ensayo comunitario27. De modo ocasional, es posible combinar un ensayo clínico y un ensayo de programa; al poner a prueba una forma nueva de tratamiento, el objetivo puede ser tanto determinar su valor para los individuos como evaluar el programa mediante el cual está siendo prestado al público. En un ensayo clínico o de programa no basta con simplemente demostrar un efecto beneficioso: debe haber evidencias que permitan hacerse una idea de hasta qué punto cabría atribuir dicho efecto al tipo de atención sometida a estudio. A tal efecto, resulta imprescindible esforzarse en eliminar o controlar la posible influencia de otros factores. Es importante distinguir entre revisiones de programas y ensayos de programas, puesto que las cuestiones que se plantean y los métodos que utilizan son diferentes. En las primeras no se cuestionan las asunciones básicas, por lo que no hacen falta tests que pongan a prueba de modo definitivo hipótesis de causa-efecto; resulta derrochador e incluso puede ir contra tí mismo usar técnicas de estudio excesivamente rigurosas. Los segundos, por el contrario, pueden no llegar a conclusión alguna si los métodos son insuficientemente rigurosos. Existen además otras diferencias, también con implicaciones sobre la planificación del estudio. Para resultar útil, una revisión tiene por regla general que ser rápida y hacérsela (en la medida de lo posible) sobre la marcha: los cambios en las circunstancias, el personal y las políticas suelen tener como resultado frecuentes cambios en los procedimientos de los distintos servicios, con lo cual muy poco beneficio práctico se saca de evaluar un programa en la forma en que se lo aplicaba varios años atrás. Si, por contra, se hace la valoración con
TIPOS DE INVESTIGACIONES
17
rapidez, puede avisar a tiempo de las inadecuaciones detectadas, proporcionando bases fácticas actualizadas para la toma de decisiones. En un ensayo, la velocidad es menos importante. Más cosas: la revisión se realiza en las instancias «orientadas a los servicios» —es su «raison d'etre»; la evaluación podría no ser vista como un objetivo importante del servicio, disponiéndose además de poco tiempo y pocos recursos para poner en pie procedimientos especiales de recogida de información. El ensayo, por contra, tiene más probabilidades de ser dirigido como un proceso investigador específico; no es infrecuente que el programa esté planteado como algo especial, a modo de prueba o de demostración. Puede haber estudios de evaluación de tipo híbrido, caso de un ensayo de programa llevado a cabo en el contexto de una revisión de servicio. Es lo que ocurre cuando alguien llama la atención sobre la necesidad de valorar un rasgo innovador introducido en un servicio en particular, o se están poniendo en cuestión algunas de las asunciones sobre las que se basa, o existe la intención de generalizar a partir de la experiencia del mismo. En circunstancias así, hacen falta tanto los exigentes métodos de estudio adecuados a un ensayo, como los menos rigurosos precisados para una revisión de otros aspectos del servicio. Al llevar a cabo un ensayo de programa en el entorno de un servicio ya establecido, suelen surgir dificultades, porque la evaluación y el servicio como tal plantean requerimientos que entran en competencia entre sí. Las revisiones de programa son por lo general estudios descriptivos. Los ensayos clínicos y de programas, tengan base individual o grupal, suelen sin embargo ser experimentos, cuasi-experimentos o estudios prospectivos. Cabe también utilizar estudios retrospectivos para evaluar procedimientos preventivos y terapéuticos. La publicación en 1979 de un informe sobre un estudio de casos y controles aportó pruebas más convincentes de las disponibles con anterioridad respecto del valor del screening con frotis y Papanicolau en el control del cáncer de cuello de útero. Se encontró que las pacientes con un cáncer de cérvix invasivo recientemente diagnosticado tenían, durante los cinco años anteriores, una frecuencia de menos de la mitad en frotis de ese tipo que sus cuidadosamente apareadas controles28. Las pruebas del efecto de los anticoagulantes en la prevención de la muerte en pacientes hospitalarios con infarto agudo de miocardio, fueron asimismo aportadas por un estudio retrospectivo, en el que se comparó el antecedente de uso de anticoagulantes entre los pacientes que murieron («casos») con el existente entre pacientes apareados individualmente que sobrevivieron («controles»). Fue un estudio realizado con los procedimientos que por lo general se emplean en los experimentos prospectivos bien diseñados, como la exclusión de pacientes que en el momento de ser admitidos en el hospital presentaban fuertes indicaciones a favor o contra del uso de los citados anticoagulantes 29. Se puede usar el término «evaluación incorporada» o «continuada» cuando
18
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
se ha planificado la misma con antelación, recogiéndose la información necesaria de un modo sistemático y como parte integral de la provisión de un servicio. El audit médico es una técnica utilizada fundamentalmente en las revisiones de servicios, por medio de la cual se evalúa la calidad de los mismos sobre la base de juzgar la de la atención que se presta a los individuos. Se lo discutirá con más detalle en el capítulo 20. Vigilancia La palabra vigilancia connota el mantenimiento de una mirada, sobre la marcha, al estado de un grupo o comunidad. Puede centrarse tanto en el estatus de salud, en términos de mortalidad, morbilidad, estado nutricional, crecimiento y desarrollo infantil u otros índices, como en los riesgos ambientales, los centros sanitarios o cualquier otro factor que afecte a su salud30. Proporciona información sobre nuevas y cambiantes necesidades, a la vez que una base sobre la que valorar los efectos de la atención sanitaria. Vigilancia demográfica31 es el término que hace referencia a la medición mantenida del tamaño de la población, su composición por edad y sexo y demás características demográficas. Aparte de servir para otros propósitos, constituye un prerrequisito para medir la salud de la comunidad, puesto que proporciona información sobre la población «denominador»32. Existe una confusión considerable sobre el uso de los términos «vigilancia» y «monitorización», que muchas veces se utilizan de modo intercambiable. Probablemente es mejor restringir «monitorización» para referirse a la práctica de echar un ojo de modo sistemático a las actividades de un servicio sanitario, respondiendo, por ejemplo a preguntas como: «¿qué estamos haciendo en el momento actual?» o «cuánto cuesta en recursos hacer qué para quién?»33. Ambas cosas se pueden efectuar mediante estudios especiales, ocasionales o periódicos —por ejemplo, estudios de morbilidad o censos— o colectando información de modo continuado, muchas veces como producto colateral de la provisión de un servicio. Se habla de «vigilancia incorporada» o «continuada» cuando un servicio sanitario ha puesto en pie procedimientos rutinarios a tal efecto, como la comprobación y registro de los nacimientos, defunciones y movimientos de población, la declaración de enfermedades infecciosas y el uso de registros diseñados para extraer con facilidad información diagnóstica para el análisis periódico de dichos datos. Otros términos El término «estudio exploratorio» se aplica muchas veces al estudio descriptivo diseñado para aumentar la familiaridad del investigador con el problema que desea estudiar. El objetivo puede ser formular dicho problema para investigarlo con más precisión, desarrollar hipótesis, clarificar conceptos o, como
TIPOS DE INVESTIGACIONES
19
antes se señaló, familiarizar al investigador con el fenómeno que quiere investigar o con el entorno en el cual va a desarrollar su trabajo. A veces, este tipo de estudio recibe el nombre de estudio piloto; es mejor, no obstante, restringir este término a otras connotaciones —en concreto, al tanteo de una investigación que se prepara con antelación y sirve para identificar los defectos del diseño del estudio. Al estudio descriptivo en el cual se valoran un número de características muy grande, es decir, se echan las redes a ver qué cae con la esperanza de que los resultados proporcionen hipótesis para una posterior comprobación, se le llama a veces sin tapujo «expedición de pesca». «Estudio metodológico» es el realizado con objeto de recoger información sobre la practicabilidad o la exactitud de un método de investigación (ver capítulos 15 y 16). En medicina comunitaria, la meta de ese tipo de estudios suele ser evaluar un proceso investigador para su uso en el diagnóstico comunitario. Un «estudio de morbilidad» es aquél, habitualmente descriptivo, que trata de la ocurrencia y distribución de una enfermedad o enfermedades en una población. Puede ser «de prevalencia»32, ocupándose entonces de todos los casos de la citada enfermedad presentes en la población en un momento dado en el tiempo o durante el periodo del estudio, o «de incidencia»33, en cuyo caso se ocupa sólo de los casos nuevos (sean pacientes o episodios de enfermedad) producidos o diagnosticados durante un periodo de tiempo dado. Un «estudio de morbilidad bi-etápico» es aquél en el cual se utilizan pruebas de screening (ver páginas 147-149) para identificar a las personas que podrían tener la enfermedad, diagnosticada luego mediante tests más exactos. El término «estudio domiciliario» suele referirse al de tipo descriptivo sobre malestar e incapacidad referidos, realizado entrevistando personas en sus propios domicilios, muchas veces mediante preguntas a un informador único acerca de los demás miembros que conviven con él o ella. Los «estudios CAP» versan sobre conocimientos, actitudes y prácticas. La «investigación de prácticas sanitarias» (investigación de servicios sanitarios, investigación operativa) se ocupa de los problemas organizativos —la planificación, la gestión, los servicios logísticos y de prestación de atención de salud. Trata temas de recursos humanos, organización, utilización de las instalaciones, calidad de la asistencia sanitaria, su coste, relaciones entre necesidad y demanda, y cosas así. Hace uso del análisis de sistemas, la simulación con computadora y demás técnicas sofisticadas de la investigación operativa34.
20
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y referencias
1. Joyce, C.R.B. y Welldon, R.M.C. (1965) Journal of Chronic Diseases 18, 367. 2. Para una discusión formal de los diversos diseños cuasi-experimentales y de sus ventajas e inconvenientes, ver Campbell, D.T. y Stanley, J.C. (1966) Experimental and Quasi-Experimental Designs for Research. Chicago: Rand McNally; o Campbell, D.T. (1969) En Program Evaluation in the Health Fields, ed. Schulberg, H.C., Sheldon A. y Baker, F., pp 165-185. New York: Behavioural Publications. 3. Ver Hill, A.B. (1977) A Short Textbook of Medical Statistics, pp. 221-225; en las páginas 248-253 se recogen la declaración de Helsinki y el pronunciamiento del British Medical Research Council sobre investigaciones con sujetos humanos. Para una discusión más detallada sobre los problemas éticos, ver Freund, P.A., ed. (1972) Experimentation with Human Subjects. London. George Alien and Unwin. El principio básico queda resumido de forma nítida en la siguiente conversación: «Mr. Ederer: «Si pudiera darle sólo un consejo mínimo a un médico asistencial que estuviese planificando un ensayo clínico, ¿qué le diría?» Dr. Davis: «Una respuesta de muy pocas palabras podría ser «No lo haga». Si está decidido a hacerlo, mi consejo sería que se pusiese desde el principio en el lugar del paciente, desarrollando el protocolo de modo que no le importase ser él mismo uno de los sujetos. Si no puede hacerlo, mejor que no empiece". Davis, M.D. (1975) American Journal of Ophthalmology, 79, 779. La OMS y el Council for International Organizations of Medical Sciences (Ginebra: CIOMS, 1982) han publicado una «Propuesta de directrices internacionales para la investigación biomédica que implica sujetos humanos». Afirman que, en la investigación con base comunitaria —por ejemplo, la investigación de servicios sanitarios y los ensayos realizados basándose en la comunidad— «cabe que fuese factible el consentimiento individual sobre una base persona a persona, con lo que la decisión última que el investigador deba adoptar descansará en la autoridad de salud pública responsable. Sin embargo, necesitará utilizar todos los medios posibles para informar a la comunidad afectada de los objetivos de la investigación, las ventajas que se espera obtener de ella y los posibles peligros o inconvenientes. Si es factible, debe darse a los individuos disidentes la opción de no participar. Cualesquiera que fuesen las circunstancias, hay que traducir, a todos los niveles posibles, al contexto comunitario las consideraciones y salvaguardas éticas que se aplican a la investigación con individuos". Por lo que respecta a la investigación en los países en desarrollo, las citadas directrices internacionales señalan: «Las comunidades rurales de los países en vías de desarrollo pueden no hallarse al tanto de los conceptos y técnicas de la medicina experimental... En los casos en que los miembros individuales de una comunidad no sean suficientemente conscientes de las implicaciones de su participación en un experimento como para dar a los investigadores directamente un consentimiento adecuadamente informado, es deseable que la decisión de si participar o no se produzca por mediación de un líder comunitario que goce de confianza. El intermediario debe dejar claro que la participación es enteramente voluntaria y que todo participante es libre de abstenerse o retirarse del experimento en cualquier momento». 4. Hill, A.B. (1960) Controlled Clinical Triáis, p.6. Oxford: Blackwell. 5. Rutstein, D.D. en Freund, P.A., ed. (1972), op. cit., pp. 383-401. 6. Lilienfeld, A.M. y Lilienfeld, D.E. (1980) Foundations of Epidemiology, 2nd ed., caps. 8 y 9. New York: Oxford University Press. 7. El análisis de cohorte se refiere a la investigación de datos de gente nacida en diferentes períodos específicos de tiempo (por ejemplo: 1910-1919), intentando conocer la morbilidad, mortalidad, etc., de cada cohorte de nacimientos o sus diversos subgrupos, y comparar gente nacida en diferentes periodos. Esto puede revelar un efecto de cohorte —es decir, pueden darse diferencias en la morbilidad, la mortalidad, etc. cuando se compara gente de la misma edad pertenecientes a diferentes cohortes de nacimiento, como resultado de las diferencias
TIPOS DE INVESTIGACIONES
8.
9. 10.
11. 12. 13. 14. 15. 16.
17. 18. 19. 20. 21. 22. 23.
21
en las experiencias de las mismas. En un estudio de sección transversal, las personas de 50 años de edad pueden ser menos y tener un coeficiente intelectual medio más bajo que las de 30 años, no porque fuesen más viejos, sino como consecuencia de pertenecer a cohortes distintas con experiencias previas también distintas. Los principios y métodos del diagnóstico comunitario han sido descritos por Morris, J.N. (1975) Uses of Epidemiology, 3rd ed. cap. 2. Edinburgh: Churchill Livingstone; y Tapp, J.W. (1974) En R.L. Kane (ed.) The Challenges ofCommunity Medicine, pp. 13-26. New York: Springer. Para discusiones y ejemplos de diagnósticos comunitarios en el contexto de la atención primaria de salud de orientación comunitaria, ver Kark, S.L. (1981) The Practice of Community-Oriented Primary Health Care. New York: Appleton-Century-Crofts; así como las referencias citadas en la nota 8 de la página 272. El uso de la información epidemiológica como base de la planificación y evaluación de servicios sanitarios se discute en cierto nivel de detalle en Dever, G.E- (1980) Community Health Analysis. Germantown, Maryland: Aspen. Kark, S.L. (1981), op. cit., p. 11. Acheson, R.M. y Hall, D.J. (1976) En Seminars in Community Medicine, Vol. 2: Health Information, Planning and Monitoring, ed. Acheson, R.M., Hall. D.J. y Aird, L. pp. 145164. London. Oxford University Press. Friedman, G.D. (1980) Primer of Epidemiology, 2nded. , pp. 175-176. New York: McGrawHill. Breslow, N.E. y Enstrom, J.E. (1974) Journal of the National Cáncer Institute, 53, 631. Cochrane, A.L., StLeger, A.S. y Moore, F. (1978) Journal of Epidemiology and Community Health, 32, 200. Dolí, R. y Peto, R. (1981) The causes of cáncer, pp. 1204-1205, Oxford: Oxford University Press. Friedman, G.D. (1980), op. cit., p. 52. Para evitar confusiones, Feinstein ha sugerido evitar por completo los términos «retrospectivo» y «prospectivo». Utilizando la raiz latina de la palabra «colectar», sugiere que al estudio basado en datos previamente recogidos se le llame «retrolectivo» y al que contiene datos cuya recogida se planifica con antelación, «prolectivo». Feinstein, A.R. (1977) Clinical Biostatistics, p. 91, St Louis: C.V. Mosby. Clark, V.A. y Hopkins, CE. (1967) Journal of Chronic Diseases, 20, 565. MacMahon, B. y Pugh, T.F. (1970) Epidemiology: Principies and Methods, pp. 41-44, Boston: Little, Brown. Sartwell, P.E. y Last, J.M. (1980) En Last, J.M. (ed) Maxcy-Rosenau Public Health and Preventive Medicine, 1 l t h ed., p. 9. New York: Appleton-Century-Crofts. Kleinbaum, D.G., Kupper, L.L. y Morgenstern, H. (1982) Epidemiologic Research, p. 58. Belmont, California: Lifetime Learning Publications. Mausner, J.S. y Bahn, A.K. (\91 A) Epidemiology: An íntroductory text, p. 313. Philadelphia: W.B. Saunders. Feinstein, A.R. (1977) op. cit., p. 197. Los usos de los estudios retrospectivos y prospectivos se discuten en todos los textos de epidemiología. Para compendio y bibliografía valiosos sobre el estudio de casos y controles, ver Ibrahim, M.A. (eds) (1979) Journal of Chonic Diseases, 32, 1. Ver también Schlesselman, J.J. (1982) Case-Control Studies: Design, Conduct, Analysis. New York: Oxford University Press. Los usos y las limitaciones de los estudios de sección transversal son descritos por Abramson, J . H . , en imprenta, en Holland, W.W., Detels, R. y Knox, E.G. (eds) Textbook of Public Health, Vol. 3. Oxford: Oxford University Press. Para un tratamiento especialmente completo de los pros y contras de los distintos diseños de estudios, ver Kleinbaum, D.G., Kupper, L.L. y Morgenstern, op. cit., capítulo 5. Este libro enumera 12 tipos de diseño, aparte de los estudios de cohorte, de sección transversal
22
24. 25.
26. 27.
28. 29.
30.
31.
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
y de casos y controles. La mayoría de ellos son híbridos, como el estudio de casos y controles anidado, o el estudio ambidireccional, en el que se identifica a todos los nuevos casos de una enfermedad mediante el seguimiento de una población, que luego se comparan (por sección transversal o retrospectivamente) con controles sanos sacados de la misma población. Kinsey, V.E. y Hemphill, F.M. (1955) American Journal of Ophthamology, 40, 166. Para una introducción corta a los estudios de evaluación, ver Kane, R.L., Henson, R. y Deniston, O.L. (1974) En Kane, R.L. (ed) op. cit. pp. 213-233. Para discusiones sobre los conceptos y las técnicas, ver: Alderson, M. (1976), op. cit., pp. 163-221. Shulberg, H.C., Sheldon, A. y Baker, F. (eds.) (1969). op. cit. Suchman, E.A. (1967) Evaluative Research: Principies and Practice in Public Service And Social Action Programs. New York: Russell Sage. Donabedian, A. (1975) A Guide to Medical Care Administration. Vol. 11: Medical Care Appraisal —Quality and Utilization. Washington, D.C.: American Public Health Association. Cochrane, A.L. (1972) Effectiveness and Efficiency. London: Nuffield Provincial Hospitals Trust. Thorner, R.M. (1971) HMSHA Health Reports, 86, 525. Sackett, D.L. (1980) En Last, J.M. (ed), op. cit. p. 1800. Kane, R.L., Henson, R. y Deniston, O.L. (1974) op. cit. Las ventajas y limitaciones de los ensayos comunitarios en comparación con los ensayos clínicos se discuten en Furquhar, J.W. (1978) American Journal of Epidemiology, 108, 103. Para ejemplos de ensayos comunitarios, ver Lilienfeld, A.M. y Lilienfeld, D.E. (1980), op. cit. capítulo 11. Clarke, E.A. y Anderson, T.W. (1979) Lancet, 2, 1. Los rasgos de los ensayos clínicos aleatorios aplicados en este estudio retrospectivo, descrito por Horwitz R.L y Feinstein, A.R. (1981) en un documento con el chispeante título de «La aplicación de los principios del ensayo terapéutico a la mejora del diseño de la investigación epidemiológica: un estudio de casos y controles que sugiere que los anticoagulantes reducen la mortalidad en los pacientes que padecen un infarto de miocardio» (Journal of Chronic Diseases, 34, 575) fueron: (a) Los casos (fallecimientos) y los controles (supervivientes) fueron tratados en el mismo hospital durante el mismo periodo, (b) Cada caso se apareó con un control mediante apareamiento individual —el superviviente de la misma edad, sexo y raza con la fecha de hospitalización más cercana, (c) Se excluyó a los pacientes que no hubieran podido ser elegibles para una ubicación aleatoria al grupo de los anti-coagulantes o de los no-anticoagulantes; es decir, aquéllos que murieron inmediatamente después de la admisión y los que, una vez admitidos, presentaban una fuerte indicación ya fuese a favor o en contra de usar anticoagulantes (por ejemplo, tromboflebitis o hemorragia), (d) A los pacientes a quienes les fueron prescritos por primera vez los anticoagulantes después de la primera serie de órdenes de los médicos —esto es, los que sufrieron una desviación respecto de la decisión individual—, fueron considerados aparte, (e) Se comparó a los casos y a los controles para valorar su similitud, tomando en cuenta en el análisis las diferencias, (f) Se estratificó a los casos y a los controles de acuerdo a la severidad del infarto y otros factores pronósticos, de cara a poder analizar separadamente al grupo de «alto riesgo del de «bajo riesgo». En el International Journal of Epidemiology, 5, 3 (1976) hay una buena recopilación de métodos de vigilancia; sobre la vigilancia epidemiológica y demográfica en los países en desarrollo, ver Frederiksen, H.S. et. al. (1971), Epidemographic Surveillance: A Symposium. Chapel HUÍ, N.C.: Carolina Population Center, University of North Carolina. La vigilancia comunitaria sobre el tema de las enfermedades cardiovasculares la revisa Gillum, R.F. (1978) Journal of Chronic Diseases, 31, 87. Para métodos de vigilancia de la nutrición, ver World Health Organization Technical Report Series No. 593 (1976). Un programa de vigilancia comunitaria del crecimiento infantil es descrito por Palti, H., Adler, B., Shamir, Z. y Kark, S.L. (1979) Journal of Epidemiology and Community Health, 33, 292. Información exacta del tamaño y la composición de la población a la que se sirve, es algo
TIPOS DE INVESTIGACIONES
23
raras veces fácil de obtener. Por lo general, no es posible conseguir datos adecuados a partir de los censos oficiales, por lo que un servicio de salud comunitaria se ve obligado a veces a desarrollar sus propios mecanismos de recogida de datos. Si la población servida es demasiado grande como para realizar sobre ella una buena vigilancia, se puede diseñar a estos efectos una «zona definida» (ver página 258). Si se presta el servicio a gente específica (no a todos los que vienen o a todos los vecinos de un determinado lugar), la información requerida puede conseguirse llevando un registro de las personas que pueden recibirlo. El uso de ese tipo de registro en medicina general está descrito en Eimerl, T.S. y Laidlaw, A.J. (ed) (1969) A Handbook for Research in General Practice, pp. 32-33. Edinburgh: Livingstone. 32. Ver nota, p. 90. 33. Moss, L. (1976) En Acheson, R.M., Hall, DJ. y Aird, L. (eds), op. cit., p. 126. Los significados de los términos «vigilancia» («surveillance») y «monitorización» («monitoring») los discuten Acheson, R.M. y Hall, D.J. en las pp. 159-162 del mismo libro. «Monitorización» denota a veces no sólo mirar, sino utilizar las observaciones como base para la continua modificación de metas, planes y actividades; Knox, E.G. (ed) (1979) Epidemiology in Health Care Planning, pp. 18-19 y 127-129. 34. Grundy, F. y Reinke, W.A. (1973) Health Practice Research and Formalized Managerial Methods. Geneva: World Health Organization. Para una introducción breve a la investigación en los servicios sanitarios, ver Lewis, CE. (1974) en Kane, R.L. (ed) op. cit., pp. 69-86. Morris, J.N. (1975), op. cit., pp. 71-97 define la investigación operativa como el «estudio sistemático, mediante la observación y el experimento, de la marcha tanto de los servicios sanitarios como de la salud».
3 Etapas de una investigación Las etapas de una investigación se pueden enumerar de acuerdo a una secuencia lógica, en la que cada una depende de la anterior. 1. Pasos preliminares Clarificar el propósito Formular el tema 2. Planificación 3. Preparación para la recogida de datos 4. Recogida de los datos 5. Procesamiento de los datos 6. Interpretación de los datos 7. Elaboración del informe Una vez tiene claro lo que pretende con el estudio y ha formulado su tema en términos generales (ver capítulo 1), el investigador puede ya articular un plan detallado (capítulos 4 al 23). Deberá preparar la recogida de los datos, someter a prueba los métodos propuestos y adoptar cuantos acuerdos prácticos considere necesarios (capítulo 24). Recogerá luego dichos datos (capítulo 25) y procederá a procesarlos (capítulo 26). Habrá llegado para él entonces el momento de sentarse a ver si sus hallazgos «tienen sentido», a la vez que decide sobre las implicaciones teóricas y prácticas de los mismos (capítulos 27-29). Por último, y a menos que sea un egoísta total, preparará un informe al objeto de comunicar sus hallazgos a los demás (capítulo 30). 24
ETAPAS DE UNA INVESTIGACIÓN
25
En la práctica, casi nadie, ni siquiera los investigadores más obsesivos, sigue este patrón de forma rígida. Ello responde a dos razones fundamentales. En primer lugar, a veces resulta conveniente solapar entre sí ciertas etapas. Por ejemplo, igual es sensato llevar a cabo algunos de los preparativos de la recogida de datos sin esperar a tener listo todo el plan del estudio, o resulta factible recoger e incluso analizar determinados tipos de información antes de planificar en su integridad otros aspectos. En segundo lugar, y es un tema más importante aún, las diversas fases pueden verse influenciadas no sólo por las anteriores a ellas, sino también por las que vienen después. Valga como ejemplo decir que al someter a comprobación los métodos, o incluso una vez comenzada la recogida de los datos, pueden surgir de pronto obstáculos no previstos que obliguen al investigador a «volver a mirar para a la pizarra». Otro ejemplo; en el esquema anterior, la interpretación de los hallazgos viene después de su procesamiento, cosa evidentemente lógica; también es cierto, sin embargo, que un elemento básico del método científico consiste en que las inferencias se extraen de los hechos, comprobándolas luego mediante la obtención de nuevos hechos; habitualmente, por tanto, excepto en las investigaciones más sencillas, el investigador interpreta los datos que ha procesado, decide qué otros análisis hacen falta, interpreta los nuevos hechos y así sucesivamente; «procesamiento» e «interpretación» tienen, pues, entre sí una influencia bidireccional y por regla general suelen ir uno de la mano de la otra. La «revisión de la literatura» está ausente del esquema anterior no porque carezca de relevancia, sino porque es precisamente tan importante efectuarla a lo largo de todo el estudio, que no tiene sentido plantearla como etapa separada. Las experiencias y pensamientos ya publicados de otros pueden no sólo señalar la presencia y naturaleza del problema a investigar sino resultar asimismo de enorme ayuda en todos los aspectos de la planificación, y en la interpretación de los hallazgos. Así pues, en el momento de comenzar su estudio el investigador debe estar ya —o tiene que conseguir ponerse cuanto antes— al tanto de toda la literatura importante publicada sobre el tema, pero es imprescindible que siga leyendo sobre él hasta concluirlo; debe conocer el modo de hacer un uso eficaz de las instalaciones de las bibliotecas1, fichando sus referencias de un manera organizada2. Esperar hasta el momento de escribir el informe para entonces leer y citar (o simplemente citar) una larga lista de publicaciones, intentando impresionar al lector con la erudición de uno, constituye una práctica de valor sólo limitado, porque se trata de un procedimiento susceptible de acabar volviéndose contra tí en la medida en que muchas veces resulta más que evidente que los documentos y libros citados en una extensa bibliografía tienen poco que ver con la investigación. Quizá no haga falta siquiera decirlo, pero el valor real de una investigación depende de que se la planifique de modo sensato, lo cual puede requerir una cantidad considerable de esfuerzo. Cuanto más atención se preste a sus detalles,
26
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
mayores las perspectivas de que el estudio resulte fructífero. La fase planificadora puede exigir más tiempo del investigador, o incluso de la duración total del trabajo, que ninguna otra fase del estudio. Fase de planificación 1. Formulación de los objetivos del estudio 2. Planificación de los métodos a. Población estudio
b. Variables
Selección y definición Muestreo Tamaño Selección Definición Escalas de medición
c. Métodos de recogida de datos d. Métodos de registro y procesamiento Un dilema afrontado frecuentemente por los investigadores a la hora de buscar financiación para su trabajo es que el éxito de su solicitud depende de la calidad del plan que presenten, con lo cual han de invertir cantidades considerables de tiempo en dicha planificación, sin seguridad alguna de que su estudio vaya de hecho a llevarse a cabo. El primer paso de la planificación consiste en formular los objetivos de la investigación. El investigador ya sabe por qué va a realizar el estudio y ha formulado el tema en términos generales (ver capítulo 1); ahora debe decidir cuáles son en detalle los objetivos del mismo, esto es: qué conocimiento concreto quiere que el estudio le reporte. (Nótese que a veces se usa el término «objetivo» para indicar lo que hemos llamado en la página 2 el «propósito» del estudio; nosotros hemos excluido específicamente esta connotación). Su decisión acerca de qué desea aprender con su trabajo va a determinarle la planificación posterior de la investigación, de igual modo que los métodos que utilice habrán de ser juzgados por su adecuación a dichos objetivos. La formulación de éstos se discutirá en los capítulos 4 y 5. El segundo paso consiste en planificar los métodos. Es necesario prestar atención a: (a) La población estudio (ver capítulos 6-8) ¿A quién se está proponiendo que se estudie? ¿Deberá investigarse a todos los miembros de la citada población
ETAPAS DE UNA INVESTIGACIÓN
27
o sólo a una muestra? Si a una muestra, ¿cómo se la va a seleccionar? ¿Cómo de grande van a ser la población estudio o la muestra? (b) Las variables a estudiar (Capítulos 14-20) ¿Qué características se van a medir? ¿Cómo van a definirse las variables? ¿Qué escalas de medición van a utilizarse? (c) Los métodos de recogida de datos (Capítulos 14-20) ¿Se los va a recoger mediante observación directa, a partir de fuentes documentales, o por entrevista o cuestionario auto-cumplimentado? ¿Cuáles son en detalle los procedimientos y preguntas a usar? (d) Los métodos de registro y procesamiento (Capítulos 21-23). ¿Cómo se van a registrar los datos? ¿Qué técnicas de procesamiento de los mismos se utilizarán? ¿Cuál es el plan de análisis? Los diversos elementos de la planificación resultan interdependientes, y deben ser considerados como aspectos diferenciados sobre los cuales concentrar la atención, más que como entidades discretas. Una decisión sobre las características a medir, por ejemplo, puede depender no sólo de los objetivos del estudio sino de la naturaleza de la población a estudiar y de la practicabilidad de los distintos métodos de recogida de datos; puede también ocurrir que considerar en detalle los métodos precisos para satisfacer los objetivos del estudio conduzca a tomar la decisión de reformular estos últimos. Algunos investigadores entienden que su tarea principal es diseñar el «formato» -una hoja estructurada donde registrar los hallazgos, o un cuestionariollegando a hacer de ello su primera (y a veces única) actividad planificadora. Desde nuestro punto de vista, se trata de un abordaje no recomendable. A modo de norma general, resulta útil tomarse como obligación escribir el plan del estudio, puesto que la memoria humana no es infalible. En el informe final del mismo, en cualquier caso, deberán siempre describirse sus objetivos y algunos aspectos de los métodos. Cuando es necesario solicitar fondos para la investigación, lo normal es tener que hacer referencia a dichos objetivos y métodos dentro de un protocolo detallado. Quizás no sea frívolo sugerir que, conforme el plan del estudio empieza a tener forma y del esfuerzo y los costes implicados va surgiendo un cuadro un poco más claro, el investigador debe plantearse de nuevo si su investigación sigue valiendo la pena —dicho de otra forma: ¿es aún la marcha de los acontecimientos acorde con la importancia del problema tomado como punto de partida? ¡Más vale desechar un estudio al principio que tener que admitir luego que no valió la pena hacerlo! ¿Ha de ser perfecto un estudio? En páginas posteriores prestaremos una atención bastante detallada a los diversos aspectos de lo que entendemos por planificación sensata—la cuidadosa
28
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
elección de las definiciones, el uso de métodos estandarizados y exactos de recogida de la información, etc. Cuanto mejores sean las técnicas de investigación, mayores las perspectivas de producir hallazgos útiles y más seguro estará el investigador de la reproducibilidad de lo que ha encontrado. No obstante, hay muy pocos estudios «perfectos». De modo casi invariable, dificultades prácticas, cosas que se te pasan y accidentes varios, provocan imperfecciones metodológicas. Lo importante es que el investigador sea consciente de estas imperfecciones, examine su impacto y las tenga en cuenta al interpretar sus hallazgos; si lo hace, el estudio tendrá sentido y posiblemente resultará útil. Al tiempo que se esfuerza en conseguir la perfección, pues, el investigador debe tener claro desde el principio que casi con seguridad va a ir menos lejos de lo que pretendía y deberá mostrarse dispuesto a llegar a compromisos con la realidad. De hecho, una insistencia indebida en la impecabilidad de las técnicas a cualquier precio puede muy bien arruinar un estudio. Hay mucha verdad en la frase que dice que «en la ciencia, como en el amor, concentrarse demasiado en la técnica tiene muchas probabilidades de conducir a la impotencia»3. Notas y referencias
1. Las publicaciones pertinentes pueden buscarse consultando índices acumulados, como el Index Medicus y el Science Citation Index, o mediante búsqueda con computadora. Si se conoce una fuente clave, puede utilizarse esta última publicación para encontrar otras que la hayan citado. Una forma conveniente de mantenerse al día en la literatura que va saliendo es echar un ojo a los temas semanales de Current Contents, que reproduce las páginas de contenidos y los títulos de los artículos de cientos de revistas médicas y de otras ramas de la ciencia. Existen series de separatas cubriendo la práctica clínica, las ciencias vitales (incluida la medicina clínica) y las sociales y de la conducta. Para alegría de los cazadores de copias, vienen listadas las direcciones de los autores. 2. Las listas de referencias con tarjetas (una referencia por tarjeta) resultan de gran utilidad. Hay que incluir los detalles bibliográficos completos (nombres de todos los autores, número de las páginas primera y última, etc.), para no tener que andar buscando otra vez el artículo cuando tenga que prepararse la lista de referencias del informe. Si se recogen fotocopias, reimpresiones o copias arrancadas de artículos, hay que ficharlas y ponerlas en el índice de modo ordenado. 3. Berger, P.L. (1969) Invitation to Sociology: A Humanistic Perspective, p. 24. Harmondswoth: Penguin Books.
4 Formulación de los objetivos Una vez ha decidido ya qué estudiar y conoce las razones de esa decisión, el investigador está ahora en condiciones de formular los objetivos de su estudio; es decir, puede hacer explícito qué conocimiento quiere que le proporcione el mismo —cuáles preguntas desea que el estudio responda. Descubrimientos afortunados casuales aparte —y son bastante menos infrecuentes de lo que algunos investigadores estarían dispuestos a admitir1— no va a aprender nada que no se haya planteado con antelación aprender. La formulación explícita de los objetivos de un estudio constituye un paso esencial en su planificación. Quizá resulte exagerado decir que «una pregunta bien hecha es una pregunta medio respondida»2, pero lo cierto es que una pregunta deficientemente formulada o no formulada tiene muchas probabilidades de quedarse sin respuesta. La especificación de los objetivos, pues, determina toda la posterior planificación de un estudio. «Si no sabes adonde vas, te resultará difícil seleccionar la forma adecuada de llegar allí»3. De hecho, «si no estás seguro de tu meta, puedes terminar en cualquier otro sitio»3. Los objetivos de un estudio descriptivo cuya meta es investigar las características de un grupo o población concretos —esto es, un estudio llevado a cabo con propósitos diagnósticos— suelen ser fáciles de determinar. Lo único que necesita el investigador es formular las características que desea medir. Puede tratarse de componentes del estado de salud de la población —muertes, enfermedades y lo que en inglés se llaman «demás D's desagradables*» (incapacidades, molestias, insatisfacciones y desviaciones respecto de las normas estadísticas o sociales), aspectos positivos de la salud (por ejemplo, estado de forma física, esperanza de vida, etc.), bienestar subjetivo, y toda una gran variedad de características somáticas y psicológicas (el peso, la tensión arterial, el ácido úrico en suero, los patrones de conducta, etc.) las cuales, aunque en sí mismas no son ni negativas ni positivas, pueden ser vistas como elementos intrínsecos del estado de salud, o como una expresión de la salud misma. Es * N del T. En inglés, multitud de palabras que designan problemas importantes de salud empiezan todas por la letra D: death, disease, disability, discomfort, dissatisfaction, deviation, etc. 29
30
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
posible utilizar cada uno de dichos componentes como indicadores de salud separados, o agregarlos para dar lugar a índices de salud compuestos4. El investigador podría querer también estudiar otras características de la población (demográficas, biológicas, sociales o culturales) o de su entorno, habitualmente con referencia especial a los rasgos susceptibles de tener un efecto nocivo, como el fumar cigarrillos y los riesgos ambientales para la salud. Asimismo, cabe que desease información sobre los servicios sanitarios prestados a la población, o sobre su uso. No es difícil formular este tipo de objetivos; por ejemplo: «determinar la tasa de mortalidad infantil en la población Y durante el periodo Z», «medir la tasa de incidencia de la rabia», «la de prevalencia de la sarna», «la tasa de letalidad de la tabes», «determinar la distribución de los valores del colesterol sérico», etc. Se lo puede hacer en términos bastante generales —por ejemplo, «medir la prevalencia de incapacidad» o «los hábitos de consumo de cigarrillos»— o de modo más específico, señalando cuáles funciones se van a investigar (la movilidad, la capacidad para el trabajo, la idoneidad para llevar a cabo ciertas funciones de la vida cotidiana, etc.) o qué componentes de la práctica de fumar (el número de cigarrillos, el tipo, los hábitos de inhalación, etc.). Cuanto mayor la especificidad de la formulación de los objetivos, más útiles resultan de cara a la posterior planificación del estudio. Nada infrecuentemente, un estudio se centra no en las características en las cuales realmente hay interés, sino en una o más de ellas asociadas a la primera. El investigador interesado en una enfermedad, por tanto, puede estudiar la ocurrencia de una característica que se sabe o se asume está asociada con dicha enfermedad. La característica (C) podría estar asociada con la enfermedad (D) por ser causa de D, o etapa previa en el proceso patológico que conduce a D, o manifestación de D, o consecuencia de D, o efecto de alguna característica o experiencia que es en sí misma un precursor o causa de D. (En el capítulo 28 se discute en detalle la interpretación de las asociaciones). Las circunstancias fundamentales en que puede llegar a ser de interés la información sobre la propia característica asociada son: (a) Si resulta fácil obtener información sobre C y difícil obtenerla sobre D, se puede utilizar C como medida aproximada («proxy») de D. Pongamos un ejemplo: un investigador está interesado en la ocurrencia de hipertrofia prostática en una comunidad; de no resultar factible llevar a cabo exámenes rectales para establecer el diagnóstico, podría investigar la prevalencia de un síntoma patrón específico considerado asociado con la enfermedad5 (la frecuencia mingitoria, la nicturia, el tenesmo, el chorro débil o el goteo postmiccional). Se estimaría así la tasa de prevalencia de D a partir de la tasa de prevalencia de C6. Si esta última constituye una aproximación deficiente, sin embargo, muchos individuos acabarían clasificados incorrectamente, lo que originaría problemas de interpretación (ver páginas 143-145).
FORMULACIÓN DE LOS OBJETIVOS
31
(b) La presencia de C puede también ser útil a modo de test de screening —es decir, como instrumento para discriminar las personas que probablemente padecen o no padecen la enfermedad. Una vez identificada la gente con C (digamos, una medición casual de la tensión arterial que da cifras altas), se las puede invitar a someterse a un examen más detallado, al objeto de determinar la presencia de D (la enfermedad hipertensiva). Para que posea sentido el uso de la asociación, C debe ser más fácil de estudiar que D; C y D deben hallarse presentes al mismo tiempo; y, por último, deben cumplirse además ciertas otras condiciones (ver páginas 148-149). El objetivo del estudio habría de ser formulado como «identificar a las personas que dan positivas a determinada prueba de screening de D». (c) Si C precede a D en el tiempo, igual resulta útil como marcador de riesgo 7 —esto es, para distinguir a quienes probablemente desarrollarán D en el futuro de aquellos que no es probable que lo hagan. La presencia de C identifica individuos o grupos vulnerables (grupos «de riesgo» o de «alto riesgo») con probabilidad especial de desarrollar el trastorno en cuestión y consecuentemente, con una necesidad especial de atención preventiva. C señala el aumento de riesgo, pero no necesariamente lo causa. Podría tratarse efectivamente de una causa, pero también de un precursor o una manifestación temprana del trastorno, o ser en sí misma efecto o correlato del factor que aumenta el riesgo. En un estudio sobre ancianos varones, por ejemplo, se encontró que entre los marcadores del riesgo de morir en el plazo de los siguientes 5 años, estaban los trastornos de memoria y la incapacidad para trabajar8. Resulta improbable que semejantes factores originen mortalidad; cualquier tipo de atención especial que se prestara a estos hombres debería ir dirigida contra factores distintos. Es también cierto, sin embargo, que un marcador de riesgo puede ser en sí causa de un aumento del mismo 9 —el propio estudio señalaba la presión diastólica alta entre los indicadores del riesgo de morir, además de significar presumiblemente una razón para dicho alto riesgo. Un estudio puede tener como objetivo «determinar la prevalencia de un (determinado) marcador de riesgo» o «identificar a la gente sometida a un riesgo especial de padecer un trastorno (especificado)». La valoración de los peligros para la salud —«Health hazard appraisal»9— constituye un ejemplo particular de uso de los marcadores de riesgo. (d) C podría interesarnos asimismo por ser causa de D —es decir: su presencia o gradación influiría en el riesgo de desarrollar D. Si resulta factible cambiar C y ese cambio reduce el riesgo de D, podría valer la pena intervenir directamente sobre C. En casos así, probablemente es mejor llamar a C factor de riesgo modificable (el adjetivo está referido tanto al factor como al riesgo). En general, se usa el término «factor de riesgo» sin otros calificativos, pero el problema es que desgraciadamente posee más de un significado; muchas veces se lo usa también para hacer referencia a cualquier causa de un trastorno
32
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
(modifícable o no) y, a veces, para denotar un marcador de riesgo. Un factor causal puede resultar, o no, útil como marcador de riesgo y puede, o no, ser modificable. El objetivo general de un estudio de factores de riesgo modificables habría de quedar enunciado como «determinar» la prevalencia de o «identificar» a la gente que posee factores especificados. Estudio de las asociaciones entre variables El tener que buscar información sobre las asociaciones existentes entre variables —esto es, sobre si diferentes características «van colgadas juntas»10 y en qué medida— responde no sólo a las aplicaciones prácticas antes enumeradas, sino a que pueden contribuir a nuestro conocimiento básico y, en ese sentido, a largo plazo, a introducir mejoras en la atención sanitaria. Incluso en un estudio descriptivo sencillo suele resultar interesante obtener información separada de los distintos grupos —grupos de edad específicos, ambos sexos, grupos étnicos distintos, partes de una ciudad, etc. En estudios de ese tipo, el objetivo se formularía correctamente como «medir X en la población Y, según edad, sexo, (etc.)». En uno de tipo «diagnóstico comunitario», las asociaciones puestas de relieve podrían apuntar las distintas necesidades de salud de las distintas partes de la población. Si, por ejemplo, los alcohólicos viven concentrados en un barrio, a lo mejor éste necesita un programa especial, sea cual fuese la razón por la cual dicha asociación entre alcoholismo y barrio se produjo —que incluso pudo ser simplemente fortuita. Los estudios analíticos, por su parte, tanto aquéllos cuyo objetivo es explicar el estado de salud de una población específica como los que buscan obtener un conocimiento nuevo sobre etiología e historia natural, tienen como función principal examinar asociaciones entre variables; lo mismo ocurre con muchos estudios metodológicos —por ejemplo, los que someten a prueba el valor de los tests de screening, y las pruebas diagnósticas y de los marcadores de riesgo— y con todos los experimentos. Como formulaciones posibles del objetivo del estudio al investigar una asociación, destacaremos «Examinar la asociación existente entre las tasas de mortalidad infantil y la región», «Determinar si existen diferencias entre las tasas de las regiones A y B» y «Poner a prueba la hipótesis de que las tasas de las regiones A y B difieren». Se llama hipótesis a la suposición sometida a prueba colectando hechos que conduzcan a su aceptación o rechazo. No son asunciones que haya que dar por sentadas, ni creencias que el investigador se plantee probar. Una hipótesis de investigación puede venir formulada como declaración en positivo —por ejemplo: «Las tasas de mortalidad infantil de las regiones A y B son diferentes» o «La tasa de la región A es mayor que la de la región B»— o en forma de declaración negativa (hipótesis nula) —por ejemplo: «No hay diferencia entre las tasas» o «La tasa de la región A no es mayor que la de la B». La comprobación estadística de una asociación requiere
FORMULACIÓN DE LOS OBJETIVOS
33
formular una hipótesis nula, a verificar frente a una alternativa específica11; dicha alternativa («Existe una diferencia entre las dos regiones» o «La tasa de la región A es mayor») depende de la hipótesis de investigación con que se esté operando. En consecuencia, si se tiene intención de realizar una comprobación estadística, resulta aconsejable hacer las hipótesis de investigación lo más específicas posibles en esta etapa, y no dejarlas implícitas (como sería «Estudiar la asociación entre mortalidad y región»). En un estudio retrospectivo diseñado para examinar una posible relación causal entre el hábito de fumar y una enfermedad concreta, las típicas hipótesis específicas habrían de ser que la proporción de fumadores es mayor entre los casos que entre los controles, que la proporción de grandes fumadores es mayor entre los casos que entre los controles, que la edad media en la cual se comenzó a fumar es menor entre los casos que entre los controles, etc. En uno prospectivo con el mismo propósito, las hipótesis deberían estar relacionadas con la incidencia de la enfermedad entre personas con diferentes hábitos de consumo de tabaco. El valor de las hipótesis epidemiológicas es aún mayor si tienen que ver no sólo con la ocurrencia combinada de la causa y el efecto postulados (por ejemplo: cuando una está presente, ¿tiende también el otro a estarlo?), sino que incorpora además la relación cuantitativa dosis-respuesta entre ambos (por ejemplo: ¿es la enfermedad más frecuente o más grave cuando existe una exposición más intensa a la causa?) o la relación tiempo-respuesta (la relación con el intervalo de tiempo transcurrido tras producirse la exposición). Como se verá luego (en el capítulo 28), para saber por qué existe una asociación entre dos variables, habitualmente necesitaremos análisis que tomen en cuenta la forma en que la asociación se ve influenciada por características diversas. En las páginas 85-88 se discute la selección de estas otras variables. Si el investigador quiere, puede hacer mención de ellas al formular los objetivos del estudio —por ejemplo diciendo que someterá a prueba la asociación «manteniendo constante el sexo y el grupo étnico» o «controlando» estas variables, o que va a comprobar la hipótesis separadamente en cada sexo y grupo étnico, o bien enumerando las variables «modificadoras» o «de confusión» que tomará en cuenta (estos términos quedarán más claros después). Recuérdese que sigue disponiendo de mucho tiempo para adoptar estas decisiones; la planificación del estudio está aún en sus primeras etapas, por lo cual puede repensar y reformular los objetivos del estudio tan frecuentemente como quiera. Estas complicaciones, por supuesto, son innecesarias en el caso de un simple estudio descriptivo, según antes se señaló. Como norma, es importante formular los objetivos del estudio explícitamente por escrito. Por conveniencia, se los suele presentar primero en términos muy generales —por ejemplo: «medir los hábitos de consumo de cigarrillos» o «examinar la asociación entre fumar y una enfermedad particular»— siguiéndose luego cada uno de estos objetivos generales de una serie de afirmaciones
34
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
concretas sobre los objetivos específicos relevantes, incluidas las pertinentes comprobaciones de hipótesis. Los objetivos recogidos deben satisfacer tres requisitos. En primer lugar, deben ser conformes con el propósito del estudio, algo normalmente fácil de conseguir en uno de tipo descriptivo; al planificar un estudio análitico o un experimento, sin embargo, pueden aparecer dificultades considerables para formular una hipótesis y es aquí donde el investigador creativo tiene que dar la talla12. En segundo lugar, el enunciado de los objetivos debe ser claro —no ambiguo y altamente específico—, sin dejar duda alguna sobre exactamente qué ha de ser medido. Tercero, los objetivos han de estar enunciados en términos mesurables, es decir: los objetivos deben ser realistas (preguntas respondibles, hipótesis comprobables) y estar formulados en términos operativos susceptibles de ser aplicados en la práctica. «Cualquier tonto puede hacer una pregunta; el truco está en hacer una que pueda ser respondida»13. Objetivos del estudio 1. ¿Son conformes con el propósito del estudio? 2. ¿Son claros? 3. ¿Están expresados en términos medibles?
A continuación veremos unos cuantos ejemplos imaginarios y otros cuantos reales. Dos de ellos son estudios de evaluación, y en el próximo capítulo discutiremos sus objetivos en detalle. 1. En una comunidad inglesa se realizó un estudio sobre diabetes. Su primer objetivo era «1. Establecer exactamente el número de diabéticos». Se trata de una afirmación clara, pero resultó incompleta, puesto que los investigadores midieron también la tasa de prevalencia de dicha enfermedad y establecieron la distribución por edad y sexo de los casos. El segundo objetivo era «2. Descubrir los casos no diagnosticados de diabetes». No es una afirmación completa, porque los investigadores no sólo querían identificar los casos, de cara a prestarles cuidados, sino también dar respuesta a ciertas preguntas sobre ellos; deberían haber seguido así: «para establecer la tasa de prevalencia de los hasta entonces casos desconocidos de diabetes, y comparar su distribución por edad y sexo con la de los casos conocidos». El siguiente objetivo era «3. Investigar posibles factores hereditarios», formulación demasiado inespecífica para resultar útil como punto clave al planificar el estudio. ¿Querían los investigadores examinar su presentación en conglomerados familiares entre la
FORMULACIÓN DE LOS OBJETIVOS
35
gente estudiada? ¿Querían saber si la prevalencia era mayor entre los recién nacidos de matrimonios cosanguíneos? ¿Estaban intentando echar un ojo, por si había asociación con la presencia de marcadores genéticos, como los antígenos HL-A? (O bien (como era realmente el caso), querían únicamente comparar la frecuencia de historia familiar positiva de diabetes entre los diabéticos conocidos, los recientemente descubiertos como tales y los no-diabéticos, controlando según edad y sexo? Un último ejemplo sacado de este estudio: «6. Repetir todo el estudio en fecha futura»; ¿desde cuándo es ésto un objetivo de un estudio? 2. El informe de un estudio realizado en Israel sobre parálisis cerebral en la adolescencia y la edad adulta14 dice: «Los objetivos primarios del estudio eran: 1. Conocer el grado y la naturaleza (del problema) y las necesidades específicas de los jóvenes y adultos afectados de parálisis cerebral mediante un estudio sociomédico. 2. Recoger datos epidemiológicos sobre los afectados por la enfermedad en cuestión». Este tipo de formulaciones pueden resultar interesantes como punto de partida a la hora de planificar un trabajo, o como frases de resumen en un informe, pero poseen poca utilidad a modo de guía de objetivos. Para este propósito se requiere entrar en muchos más detalles. (Eso no quita para que el estudio en sí fuera bueno, quedando claro que los investigadores realmente se habían planteado objetivos específicos y bien sopesados). «3. Introducir nuevas técnicas de evaluación dirigidas a la rehabilitación en general y a la adquisición de una vocación o cualificación en particular». ¿Qué es lo que se pregunta? (De hecho, el proyecto era un programa combinado de estudio y acción, cosa no planteada como objetivo del estudio) «4. Evocar el interés de las comunidades locales y de las instituciones públicas sobre problemas y necesidades de las personas afectadas de parálisis cerebral». Sin duda, es una afirmación laudable como propósito o como objetivo de actuación, pero no constituye lo que hemos llamado objetivo de un estudio. 3. Alguien planteó una vez que el objetivo de determinado trabajo era «estudiar los efectos de la vacunación contra el sarampión». Se trata de una formulación completamente no específica, de muy poca ayuda para el investigador a la hora de planificar su actuación. ¿En qué estaba interesado, en el desarrollo de cambios serológicos, en las diferencias en el título de anticuerpos entre niños vacunados y no vacunados, o en la diferencia en la subsiguiente incidencia de sarampión? De hecho —y para sorpresa de quien esto escribe— la obra resultó ser un trabajo descriptivo sobre la incidencia de fiebre, dolor en el lugar de la inyección y otras manifestaciones en momentos inmediatos posteriores a la vacunación. 4. La hipótesis «Existe una asociación entre tal enfermedad y la dieta», no queda expresada de modo suficientemente específico; en concreto, no viene formulada en términos mesurables. ¿En qué aspecto de la dieta está interesado el investigador —en la ingesta media diaria de calorías, proteínas, grasas y
36
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
otros nutrientes específicos, o en las cantidades medias consumidas de leche, carne y otros alimentos específicos, o en el número de veces a la semana en que se consumen habitualmente carne o pescado, o en el número medio de comidas realizadas al cabo de un día? Para medir cada uno de estos distintos aspectos, se requieren métodos también distintos. Alguien podría ser de la opinión de ir tomando esas decisiones conforme fuese entrando en detalle sobre cada una de las características a medir en el estudio, sin resultar preciso meterlas en la formulación de los objetivos. No es que sea especialmente erróneo hacerlo así, pero a nuestro entender y el de mucha gente, por tratarse de decisiones muy cercanas al meollo del problema que se quiere investigar se las debe tomar al comenzar la planificación. Su importancia es de orden distinto a la de las decisiones a adoptar sobre las diversas maneras de medir determinada característica —por ejemplo: elegir una técnica de medición de la ingesta calórica diaria (cuestionario, registros dietéticos llevados por la propia persona, pesado de los platos y de las sobras, etc.). Consideraciones similares son de aplicación cuando se utilizan otros términos vagos, como «estatus nutricional», «incapacidad», «salud emocional» o «stress». 5. Un documento reciente describía un estudio cuyo objetivo era determinar la «deseabilidad» de los exámenes médicos rutinarios en niños en edad escolar. Los objetivos que conllevan juicios de valor son siempre sospechosos, porque no vienen enunciados en términos objetivamente medibles. Es mejor no incluir nunca palabras como «bueno», «malo», «valioso», «deseable», «debería» y «habría que». La única forma de evaluar la efectividad de un procedimiento es juzgando sus efectos. En este estudio (sin duda, un ensayo de programa), los objetivos probablemente deberían haber sido «determinar la proporción de niños en los cuales se descubren trastornos crónicos previamente no diagnosticados», o «determinar qué proporción de los (varios) procesos crónicos detectados por los exámenes escolares estaban ya diagnosticados con anterioridad». Aún mejor medida de la efectividad lo constituiría el grado de mejora de la salud de los niños secundaria a dichos exámenes. De hecho, lo recogido en el informe era simplemente la prevalencia de distintas enfermedades según los hallazgos de unos exámenes escolares —información que arrojaba poca luz sobre el valor de estos últimos y que, por tanto, no satisfacía los propósitos del estudio. 6. Toda hipótesis que incluya la palabra «causa» (por ejemplo, la de que beber habitualmente café causa cáncer de vejiga) debe hacerse más específica antes de poder someterla a prueba. ¿Se está proponiendo determinar si la tasa de incidencia de la enfermedad en distintos países o en distintos momentos está correlacionada con el consumo medio de café per cápita (estudios analíticos basados en grupos), o determinar si los pacientes beben más café que los controles (estudio de sección transversal o retrospectivo), o si la incidencia de casos nuevos es mayor entre las personas que beben mucho café en comparación
FORMULACIÓN DE LOS OBJETIVOS
37
con las que beben poco, y todavía más baja entre quienes no beben nada (un estudio prospectivo o un poco probable experimento)? 7. Ha sido publicado un informe15 que describe un estudio de cohortes con un grupo grande de varones, llevado a cabo para determinar si el cambio y las incongruencias socio-culturales presentaban asociación con el aumento del riesgo de padecer enfermedad coronaria. En 1960, se procedió a medir 7 variables del estatus social: educación, ocupación profesional, ingresos, vivienda, características del barrio, religión, y pertenencia a asociaciones voluntarias. Cada una de ellas fue ponderada sobre una escala de 7 puntos, definiéndose el rango de estatus de cada sujeto como la diferencia entre las puntuaciones más alta y más baja asignadas a estas 7 variables. Se combinaron luego las puntuaciones, buscando obtener una única puntuación indicadora del estatus social. También se midieron el estatus educativo de la esposa y la clase social de origen de ambos cónyuges. «El estudio somete a prueba la hipótesis de que la incidencia de enfermedad coronaria, medida entre 1960 y 1965, se halla asociada positivamente con 5 tipos de incongruencia en el estatus social: un rango de estatus 3 puntos, la clase de origen diferente respecto de la clase social actual, la clase de origen de la esposa diferente respecto de la clase social actual, un estatus educativo del marido inferior al estatus educativo de su esposa, y una clase social de origen del marido inferior a la clase social de origen de su esposa. Este estudio investiga asimismo de forma prospectiva la relación existente entre cada variable del estatus social y la incidencia de enfermedad coronaria». Resulta un estudio complicado, pero la verdad es que sus objetivos están formulados con mucha claridad. Notas y referencias 1. Beveridge, W.I.B. (1957), en The Art of Scientific Investigation, 3rd edn. New York, Vintage Books, enumera una serie de descubrimientos basados en observaciones «casuales» no planificadas (la penicilina, la vacunación con patógenos atenuados, la anafilaxis, la conexión entre el páncreas y la diabetes, etc.). Este útil libro, que insiste en que «el instrumento más importante en la investigación debe ser siempre la mente del hombre», recalca las «cualidades mentales que debe tener la investigación científica, como la capacidad de reconocer la importancia de una observación casual o inesperada, de interpretar cualquier clave y desarrollar una hipótesis, y de seguir un hallazgo inicial de forma sistemática». 2. Isaac, S. y Michael, W.B. (1977) Handbook in Research and Evaluation for Education and the Behavioural Sciences, p. 2. San Diego: EdITS. 3. Mager, R.F. (1975) Preparing ¡nstructional Objecüves. Belmont, California: Fearon. 4. Jette, A.M. (1980) clasifica los indicadores de salud según sus usos en: (a) indicadores de salud genéricos, que miden la salud de la población; incluyen las tasas de mortalidad, las medidas de ocurrencia de enfermedades o de signos o síntomas de enfermedad, las medidas crudas de incapacidad, y combinaciones de estos componentes; y (b) indicadores de evaluación de la salud, que pueden medir cambios en el estado de salud de los individuos —por ejemplo, el de los pacientes con enfermedades crónicas— con lo cual pueden ser utilizados para evaluar la atención sanitaria; la mayoría de dichos indicadores están basados en mediciones finas de la capacidad funcional, o de las cosas que una persona realiza (un ejemplo
38
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
es el índice de Katz, ver página 106). Hay algunos indicadores que pueden servir para ambos fines. Journal of Chronic Diseases, 33, 567. Ware J.E. Jr., Brook, R.J., Davies A.R. y Lohr, K.N. (1981) American Journal of Public Health, 71, 620, proporcionan una «guía de la compra» — «lista de cosas en las que hay que pensar cuando se selecciona una medida del estado de salud». Con frecuencia, se usan de modo sinónimo «Indicador de salud» y «índice de salud». Algunos autores utilizan este último término para referirse únicamente a índices numéricos, usando una fórmula por regla general basada en dos o más indicadores. Ejemplo lo constituye el índice de problemas de salud («Valor Q») diseñado por la División of Indian Health en los Estados Unidos; se basa fundamentalmente en la tasa de mortalidad, la edad media en el momento de morir y el número medio de visitas a las consultas externas y de días de estancia hospitalaria por persona. Ver Haynes, M.A. (1972) En Reinke, W.A. (ed.) Health Planning: Qualitative Aspects and Quantitative Techniques, p. 158. Baltimore, Md: Johns Hopkins University. Para descripciones de indicadores de salud específicos y sus usos, ver Holland, W.W., Ipsen, J. y Kostrzewski, J. (eds.) (1979) Measurement of Levéis of Health. Copenhagen: World Health Organization; Jette, A.M. (1980) op. cit.; y las citas anotadas en la publicación periódica Clearinghouse on Helth Indexes. Kark, S.L. (1974) discute en Epidemiology and Community Medicine, pp. 9-128, New York: Appleton-Century-Crofts los elementos del estatus de salud de una comunidad. 5. Kark, S.L., Gofin, J., Abramson, J.H., Makler, A., Mainemer, N., Kark, E., Epstein, L.M. y Hopp, C. (1979) Israel Journal of Medical Sciences, 15, 732. 6. Sobre los métodos de estimación de los límites de confianza de la prevalencia de una enfermedad en una población a partir de la prevalencia de un atributo «proxy» en la población o en una muestra de ella, ver Peritz, E. (1971) Biometrics, 27, 223 (nota de corrección: 27, 1104) y Rogan, W.J. y Gladen, B. (1978) American Journal of Epidemiology, 107,71. La prevalencia de alcoholismo en una población se estima a veces con la fórmula de Jellinek, en la que la variable fundamental es el número de muertes por cirrosis hepática en un año dado; Saneck, M. (1979) En Holland, W.W., Ipsen, J. y Kostrzewski, J. (eds.) op. cit., p. 116; Bewley, B.R. y Bewley, T.H. (1979) En Hobson, W. (eds.) The Theory and Practice of Public Health, 5th edn., p. 484, Oxford: Oxford University Press. 7. Grundy, P.F. (1973) Lancet, 2, 1489, quien sugirió el uso del término «marcador de riesgo», recomienda usar «factor de riesgo» únicamente para referirse a lo que nosotros hemos llamado «factor de riesgo modificable». 8. Abramson, J.H., Gofin, R. y Peritz, E. (1982) Journal of Chronic Diseases, 35, 565. 9. La valoración de los peligros para la salud (o valoración de los riesgos para la salud), que se está haciendo cada vez más popular, consiste en el uso de una batería de información sobre la conducta en relación con la salud y sobre las características personales, para estimar las posibilidades de que un individuo adquiera determinadas enfermedades específicas, muera, etc. Se la ha utilizado fundamentalmente para capacitar a los individuos de cara a identificar peligros sobre los cuales puedan intervenir, motivándolos a que los disminuyan. La técnica parece ser prometedora como herramienta de uso en medicina comunitaria, tanto de cara a la identificación de individuos y grupos de alto riesgo, como en su vertiente de forma de disponer de criterios unificados y estables sobre los riesgos que un grupo o población posee de padecer enfermedades u otros procesos prevenibles. En 1982, una revisión de 200 programas, utilizando esta técnica, condujo a la conclusión de que la mayoría de ellos se excedían respecto del conocimiento científico existente para el cumplimiento de sus objetivos, pero sin embargo parecían conseguir proyecciones razonablemente exactas de los riesgos, al menos para los ciudadanos blancos de edades intermedias y de clase media en los Estados Unidos. Con mucha frecuencia, los programas estaban siendo estropeados por la introducción de datos inexactos. Una crítica importante realizable a este tipo de planteamientos es que el
FORMULACIÓN DE LOS OBJETIVOS
10. 11. 12.
13. 14. 15.
39
mensaje presentado al cliente se basa en la a veces cuestionable asunción de que si el individuo lleva a cabo ciertos cambios, su riesgo va necesariamente a descender —esto es, que los marcadores de riesgo son factores de riesgo modificables. La valoración de los peligros para la salud puede ser ofrecida como incentivo para hacer más atractiva la participación en un estudio sanitario. Wagner, E.H., Beery, W.L., Schoenbach, V.J. y Graham, R.M. (1982) American Journal of Public Health, 72: 347; Fielding, J.E. (1982) American Journal of Public Health, 72, 337. Ver Nota 1, p. 244. Ver Nota 12, p. 246. Para discusión de los elementos de las hipótesis epidemiológicas y la manera de elaborarlas, ver MacMahon, B. y Pugh, T.F. (1970) Epidemiology: Principies and Methods, pp. 29-39. Boston, Mass.: Little, Brown. Ver también Morris, J.N., (1975) Uses of Epidemiology, 3rd edn., pp. 233-261. Edinburgh: Churchill Livingstone. Lemkau, P.V. y Pasamanick, B. (1975) American Journal ofOrthopsychiatry, 27, 55. Margulec, I. (ed.) (1966) Cerebral Palsy in Adolescence and Adulthood: A Rehabilitation Study., p. 8. Tel Aviv: Jerusalem Academic Press. Shekelle, R.B., Ostfeld, A.M. y Paul, O. (1969) Journal ofChronic Diseases 22, 281.
5 Objetivos de los estudios de evaluación
Cuando evaluamos un tratamiento u otra forma de atención sanitaria, realizamos un juicio de valor. Podemos reducir el elemento subjetivo de dicho juicio basando nuestra valoración en hechos (recoger los cuales constituye la meta del estudio de evaluación) y utilizando criterios objetivos a la hora de aproximarnos a ellos. En la página 41 enumeramos las preguntas básicas que suelen efectuarse en estos estudios. Su formulación especifica las dimensiones de la asistencia habitualmente analizadas, bien como temas separados o como componentes de valoraciones globales. Proporcionan el marco para la toma de decisiones sobre los objetivos del estudio. En las preguntas, «atención» hace referencia a cualquier tipo de acción que estuviese evaluándose, incluida la atención dirigida a individuos, grupos y poblaciones, el screening y demás actividades diagnósticas, así como los programas sanitarios no personales. Discutiremos cada una de estas preguntas básicas por separado, considerando la posibilidad de aumentar su especificidad hasta llegar a convertirlas en criterios de evaluación perfectamente claros. A continuación, veremos con más detalle las aplicaciones de dichas preguntas a los ensayos clínicos, los ensayos de programas y las revisiones de programas (términos explicados en el capítulo 2); en las páginas 147-149 se discuten los ensayos de las pruebas de screening y los tests diagnósticos. La importancia relativa de las preguntas básicas y los métodos utilizados para darles respuesta difieren en los distintos tipos de estudios de evaluación. Pertinencia La primera cuestión plantea hasta qué punto esté, justificada (resulta «apropiada»1) la atención: ¿En qué medida es necesaria dicha atención? (difícilmente una prestación valdrá para nada si no se la necesita). Dicha pregunta posee relevancia en las revisiones de programas, pero no en los ensayos clínicos o de programa; la presencia de necesidad constituye una precondición para estos últimos —es su raison d' être— y nunca debe ser suscitada por el ensayo en sí. Su verdadero lugar suele estar en las revisiones de programas y servicios 40
OBJETIVOS DE LOS ESTUDIOS DE EVALUACIÓN
41
bien establecidos, supervivientes al momento en que fueron necesarios; raras veces se establecen programas nuevos si no hay necesidad de ellos. Las preguntas básicas de los estudios de evaluación 1. Pertinencia ¿En qué medida es necesaria la atención en cuestión? 2. Calidad a. ¿Cómo de satisfactorio es el resultado! Consecución de efectos deseables (efectividad) Ausencia de efectos indeseables (inocuidad) b. ¿Cómo de satisfactoriamente llevan a cabo sus actividades quienes prestan la atención? c. ¿Hasta qué punto son satisfactorios el seguimiento de hecho de los consejos, y la utilización de los servicios por parte de quienes reciben la atención? d. ¿Cómo de satisfactorios son las instalaciones y el entorno físico de prestación de los cuidados? 3. Eficiencia ¿Hasta qué punto es eficiente el uso de los recursos? 4. Satisfacción ¿Se muestra satisfecha la gente implicada? 5. Valor diferencial ¿Cómo difieren los rasgos anteriores entre las diferentes categorías o grupos, o en distintas circunstancias?
Para valorar este concepto —sobre el cual es imposible establecer estándares firmes— normalmente se recurre a la necesidad definida por los profesionales —esto es, el grado de necesidad que, a partir de ciertos hechos, los profesionales sanitarios infieren acerca de la naturaleza, el grado y la severidad de los problemas sanitarios conforme a lo revelado por estudios epidemiológicos de tipo «diagnóstico comunitario». Cabe tomar en cuenta problemas potenciales además de los ya existentes; si por ejemplo un programa de vacunaciones ha reducido la incidencia de una enfermedad, convendría no despreciar ese problema, porque en caso de detener el programa en cuestión podría producirse un recrudecimiento. Debe prestarse también atención al contexto más general
42
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
—¿cuál es la importancia relativa del problema que el programa intenta resolver, de qué recursos se dispone y cuáles son las prioridades para su uso, de qué otros servicios se dispone y, finalmente, qué abordajes alternativos podrían buscarse para solucionar el problema considerado? A veces se tiene también en cuenta la necesidad percibida (conforme la formulan los pacientes o el público) y la demanda expresada (es decir, las peticiones de cuidados, reflejadas en la utilización de los servicios, las listas de espera de quienes solicitan tratamiento, etc.) Calidad La calidad de la atención sanitaria2 puede ser juzgada a partir de información sobre sus efectos (evaluación de resultados), la forma en que se ejecutan las actividades (evaluación de proceso) o las instalaciones y el marco de prestación de dichos cuidados (evaluación de estructura). Valorar plenamente el resultado (pregunta 2a) depende de equilibrar bien los efectos deseables y los indeseables. El grado de consecución de los primeros se conoce como efectividad; puede venir expresada a nivel individual (recuperación de una enfermedad, restauración de una función, etc.), o a nivel de grupo o comunidad (cambios en las tasas de mortalidad y morbilidad, cambios en los conocimientos o en las prácticas comunitarias, cambios medioambientales, etc.). A veces se distingue la efectividad de la eficacia. Si bien hay distintas definiciones, cabe usar este último término para referirse a los beneficios observados cuando se aplica un procedimiento «como debe ser y con la seguridad de ser seguido de hecho por todos los implicados». Suele reservarse a los beneficios obtenidos a nivel individual, medidos mediante un ensayo clínico. La «efectividad», por contra, hace referencia a los beneficios observados a nivel poblacional o entre las personas a quienes se ha ofrecido el procedimiento o servicio en cuestión. El concepto de «eficacia» da respuesta a la pregunta «¿puede funcionar el procedimiento o servicio de que se trate?», en tanto el de «efectividad» responde a esta otra: «¿funciona?»3 . Un programa cuyo objetivo fuese el control de la hipertensión en una comunidad deberá utilizar drogas que se sepa que son eficaces; el programa comunitario, sin embargo, podría resultar o no efectivo. Para conseguir con una cierta facilidad criterios explícitos y claros de efectividad (o de eficacia) es preciso que las actividades que están siendo sometidas a evaluación posean metas bien definidas y determinadas con antelación, esto es: situaciones o condiciones cuya consecución se planteó en su momento como algo a lograr. (Las llamaremos aquí «metas» y no «objetivos» al objeto de no confundirlas con los objetivos del estudio; para algunos autores, se trata de conceptos claramente distinguibles4. El grado de cumplimiento de dichas metas constituye una medida objetiva de efectividad. A la luz de este método de
OBJETIVOS DE LOS ESTUDIOS DE EVALUACIÓN
43
evaluación, en ocasiones se define la efectividad como la medida en que se alcanzan objetivos preestablecidos a resultas de una o varias actividades» . Sólo será posible utilizar este abordaje de «consecución de metas» (discutido más ampliamente luego) cuando se conocen o se pueden inferir unas metas predeterminadas y es factible medir su grado de consecución. A este último efecto, deben venir expresadas en términos claros y específicos. No será fácil valorar la efectividad de un programa prenatal si su meta está expresada en términos tan generales como «promover la salud de la madre y el niño»; si dichas metas rezan, por contra —digamos— «reducir la tasa de nacidos muertos», «reducir el número de niños nacidos con el síndrome de Down», etc., la evaluación resultará más fácil. Y será especialmente fácil si se formulan las cosas a conseguir de un modo cuantitativo preciso4 —por ejemplo: «reducir la tasa de nacidos muertos a 15 por cada 1.000 nacimientos». De no ser posible el uso del modelo de consecución de metas, el investigador tendrá que formular sus propios criterios o manejar estándares5 o criterios formulados por consultores expertos (ver capítulo 19). Incluso si se utiliza el modelo citado, debe considerarse la necesidad de esos criterios (adicionales) para evitar el peligro de la «visión de túnel» —si el investigador se concentra únicamente en las metas preestablecidas, pudiera darse el caso de resultar incapaz de ver resultados beneficiosos no especificados como metas, y mostrarse ciego ante efectos adversos. De resultar posible, los criterios de efectividad a usar deben ser resultados finales —esto es, efectos sobre el estado de salud— incluso si la producción de dichos efectos no constituye una meta directa del procedimiento o programa sometido a evaluación. Podría ocurrir que un programa de detección de casos altamente fructífero obtuviese una evaluación negativa, si la detección de los nuevos casos no tuviese como resultado mejora alguna en el estado de salud. En última instancia, el verdadero criterio de efectividad viene constituido por el grado en que se consigue aliviar o prevenir el problema subyacente, concepto conocido a veces como «adecuación» de la intervención. Un programa capaz de hacer frente sólo a una pequeña parte de un problema grande debe ser considerado como inadecuado, por muy efectivo que sea el modo de llevar a cabo lo que hace. Si no se les busca, resulta fácil no percibir los efectos adversos6. Incluyen no sólo los efectos secundarios de la medicación («Los niños que la talidomida mutiló caminan en lenta procesión hacia las escuelas especiales para minusválidos, seguidos de aquellos otros a quienes la estreptomicina dejó sordos, por delante a su vez de los que terminaron ciegos a causa del oxígeno»7), sino también la sobredependencia, la ansiedad y otros efectos menos obvios. En una revista de salud pública apareció no hace mucho un editorial titulado «La amenaza del screening masivo», llamando la atención sobre la morbilidad causada entre niños con soplos cardiacos inocentes por hacerles verse a sí
44
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
mismos como pacientes de una enfermedad del corazón, o la incapacidad originada a otros, identificados como portadores de la triada de la célula falciforme8. Quedar etiquetado como hipertenso puede producir síntomas de depresión9. Valorar la ejecución de las actividades (Pregunta 2b) requiere disponer de información sobre los servicios prestados —¿de qué tipos? y ¿en qué cantidad?. Si hay ya un plan programado que especifica las actividades a realizar, esos mismos requisitos constituyen en sí instrumentos de medida disponibles. Si la intención que se tenía era establecer contacto con todas las personas ciegas conocidas al menos una vez al año, o examinar el estado de desarrollo de todos los niños al cumplir el primer año, o hacer una radiografía de tórax a todos los pacientes de neumonía una vez sometidos a tratamiento, ¿en qué medida se ha cumplido? Hay programas en los cuales puede ser un criterio útil la cobertura10 —¿qué proporción de la gente que podía o debía recibir un servicio (la población diana) lo recibió realmente? Un tercer abordaje, especialmente en los estudios sobre la calidad de la atención médica, consiste en realizar una formulación detallada de las actividades que se cree deberían ser llevadas a cabo, habitualmente en relación con un diagnóstico específico u otro problema médico, comparando lo que se está haciendo en la realidad con ese conjunto de estándares5 (ver Audit médico en el capítulo 20). Otra base más de evaluación viene constituida por la información sobre las actividades de los pacientes o el público (Pregunta 2c) —la utilización de los servicios (cuáles servicios y en qué cantidad), el grado en que la población sigue de hecho los consejos o instrucciones recibidos (posología de los medicamentos, grado de asistencia a las citas, persistencia con el tratamiento, etc.) y el nivel de participación comunitaria en el programa. A este respecto no suele disponerse de criterios tajantes. Cabe extender la valoración de las actividades (por parte de quienes prestan y reciben la atención), en el sentido de estudiar el conocimiento y las actitudes susceptibles de influir sobre la conducta final, o las relaciones y la comunicación entre proveedores y receptores. Finalmente, la información sobre las instalaciones y marcos físicos de prestación de cuidados (Pregunta 2d) proporciona también una base para valorar la calidad. ¿Se dispone de equipamiento, acomodo, personal adecuadamente cualificado, instalaciones de laboratorio, mecanismos organizativos y fiscalizadores idóneos, etc.? A veces, se usan como criterios normas recomendadas5; tal es el caso por ejemplo del número de camas hospitalarias. Eficiencia La eficiencia11 (o eficiencia económica) es una medida del coste en que se incurre, considerado en términos de recursos, para conseguir unos resultados. Viene determinada por el equilibrio entre lo que se introduce (en tiempo, recursos humanos, equipamiento, etc. o su equivalente monetario —recoger
OBJETIVOS DE LOS ESTUDIOS DE EVALUACIÓN
45
esta información es una de las tareas fundamentales de un estudio de eficiencia) y lo que se obtiene. Puede venir expresada en términos de coste medio por unidad de cuidado (coste por test, por día en un hospital, por paciente tratado, etc.) o cabe también comparar, lo cual es de mayor utilidad, el input con diversas medidas de efectividad (análisis de coste-efectividad). Lo que se obtiene, el output, se expresa a veces en términos monetarios (análisis de costebeneficio). Se trata de métodos que permiten comparar los costes respectivos de formas alternativas de conseguir fines similares y los beneficios susceptibles de obtenerse a un mismo coste por medios distintos. Para valorar la eficiencia se usan a veces como criterios los costes planificados de un programa. Cabe también recurrir a las normas y estándares5 (por ejemplo, sobre costes de un tratamiento hospitalario) recomendados por los administradores sanitarios. Satisfacción El que los pacientes o el público se muestren satisfechos de la asistencia sanitaria recibida no significa necesariamente que ésta sea de alta calidad. Tal satisfacción, sin embargo, aumenta las posibilidades de que la gente haga caso a las instrucciones que se les dan y utilice de modo correcto los servicios, además de ser en sí misma otro importante resultado-final. Medir la satisfacción requiere estudiar actitudes12 o actos a partir de los cuales éstas puedan ser inferidas, como cambiarse de médico o plantear una queja. Puede también dedicarse atención a la satisfacción de los profesionales sanitarios. Aunque difícilmente cabría plantear la gratificación de quienes trabajan en este ámbito como uno de los objetivos centrales de la atención de salud, «resulta razonable asumir que ni la mejor atención técnica podría ser mantenida si las personas que la prestan no están a gusto con el trabajo que hacen o las condiciones en las cuales lo llevan a cabo»13. Valor diferencial Los cuidados pueden tener un valor distinto en categorías de pacientes o grupos de población diversos, o en circunstancias diferentes. En nuestra lista, hemos recogido esta posible no-uniformidad como un item separado (Pregunta 5) por su importancia y la frecuencia con que resulta olvidada. En realidad, se trata de una pregunta planteable como prolongación de cada una de las demás: ¿en qué medida se necesitan los cuidados en los diversos grupos de la población?, ¿cómo varían la efectividad y la seguridad entre las diferentes categorías de pacientes o grupos de población?, ¿se están prestando los servicios de modo uniforme a todos los sectores? Dicho de una vez por todas, la igualdad en las prestaciones puede constituir una de las piedras angulares a la hora de evaluar un programa14. ¿Utilizan el servicio realmente quienes lo necesitan? —cabe la posibilidad, por ejemplo, de que las mujeres con bajo riesgo de padecer cáncer de cuello de útero estuviesen participando en un programa de screening mientras
46
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
las de alto riesgo se mantenían al margen15. Otra pregunta importante: ¿quién sigue bien las instrucciones recibidas y quién no? Y así sucesivamente. Puesto que hay que plantearse estas preguntas, resulta importante especificar las diversas características distintivas de estas categorías y grupos en el momento de formular los objetivos del estudio. Objetivos de los ensayos clínicos En un ensayo clínico, las cuestiones clave suelen ser la efectividad (eficacia) y la seguridad, así como (en el caso de los ensayos terapéuticos) su variación entre pacientes con características distintas. Cabe también concentrarse en el tema de la eficiencia, comparando por ejemplo los costes de las distintas formas de conseguir un beneficio similar. Valorar cómo se están haciendo las cosas, si la gente se ajusta a las instrucciones que recibe, la satisfacción de los implicados y las instalaciones y medios físicos, acostumbra a entenderse como subsidiario y sirve únicamente para explicar por qué el resultado ha sido —o no— satisfactorio. Serían, sin embargo, rasgos centrales en ensayos cuya intención fuese evaluar la viabilidad o aceptabilidad de un procedimiento. Para que un ensayo clínico obtenga conclusiones convincentes, su diseño y ejecución deben prestar atención meticulosa a los detalles, cuidando asimismo de modo riguroso que la medición sea exacta y se eviten los sesgos (ver capítulos 15 y 16). A menos que los efectos del tratamiento o procedimiento en cuestión fuesen muy marcados y específicos, demostrar convincentemente que pueden ser adjudicados al tratamiento en vez de estar causados por factores de confusión extraños, requiere adoptar precauciones especiales, como el uso de controles o la randomización (ver capítulo 7). Los resultados utilizados como criterios de efectividad en los ensayos clínicos suelen ser características de salud o cambios en las mismas, considerados como claramente deseables, ya sea en sí mismos o como indicadores aproximados o predictores de consecuencias favorables. A continuación veremos cuatro objetivos de estudios que pueden resultar ilustrativos, sacados de estudios experimentales en los cuales se ubicó a la gente de forma aleatoria entre los grupos sometidos a comparación. (Para los hallazgos, ver notas a pie de página. No hay premios) 1. Comparar las tasas de letalidad de pacientes con sospecha de infarto de miocardio tratados en casa, por una parte, y enviados al hospital, por otra16. 2. Comparar la prevalencia de síntomas de hipertrofia adenoidea, antes y después de la operación, entre unos niños a quienes se habían extirpado sólo las amígdalas y otros a quienes también se les habían quitado las adenoides17. 3. Comparar las tasas de seguimiento correcto de determinado tratamiento con medicación antihipertensiva a los seis meses de haberles sido impuesta la terapéutica, entre unos hombres tratados por sus médicos de cabecera y otros tratados por sus médicos de fábrica en horas laborables. Asimismo, comparar
OBJETIVOS DE LOS ESTUDIOS DE EVALUACIÓN
47
esas tasas entre varones expuestos y no-expuestos a un programa educativo (medios audiovisuales y folleto) sobre la hipertensión, sus efectos y su tratamiento18. 4. Comparar las proporciones de gente aquejada de resfriado común que resultaron curadas o mejoradas a los dos días de iniciado el tratamiento, unos con tabletas de antihistamínicos y otros con un placebo de aspecto indistinguible, controlando según la duración de los síntomas antes de recibir el citado tratamiento19. Objetivos de los ensayos de programas Las preguntas planteadas en los ensayos de programas son similares a las de los ensayos clínicos. Los temas clave suelen girar en torno a los resultados de la atención prestada y su variación entre grupos de población diferentes o en circunstancias distintas. En ciertas otras ocasiones, la atención se centra en la eficiencia económica. Excepto en el caso de los estudios cuyos temas centrales son la viabilidad o la aceptabilidad, las valoraciones realizadas de los procedimientos, el seguimiento correcto, la satisfacción, las instalaciones y el entorno físico, suelen tener el propósito específico de explicar la efectividad o su ausencia. Sólo es posible valorar de forma convincente la citada efectividad si los resultados usados como criterios son claramente deseables, ya sea como «resultados finales» en sí mismos o como verdaderas piedras angulares en esa dirección. Cuando no existe duda acerca de los beneficios a esperar de una actividad determinada (caso, por ejemplo, de las vacunaciones) se puede usar como criterio de efectividad una medida de la puesta en práctica del programa. Lo mismo que en los ensayos clínicos, la obligatoriedad de producir conclusiones bien fundamentadas comporta unas demandas considerables. No solo resulta importante prestar atención rigurosa a la exactitud y objetividad en las mediciones, sino que se necesitan pruebas de que es posible atribuir los efectos al programa en cuestión.
La necesidad de que hablamos queda ilustrada en esta figura, basada en el modelo de consecución de objetivos2. Cada meta del programa (M2) implica
48
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
una o más condiciones necesarias, denominadas sub-metas o metas intermedias (M1), que deben asegurarse si se quiere dar cumplimiento a la del programa. Las actividades A1 y A2 se llevan a cabo para conseguir dichas metas. A modo de ejemplo, digamos que si se quiere reducir la prevalencia de hipertensión (M2) como resultado de un tratamiento hipertensivo (A2), es preciso lograr una meta intermedia, identificar a los hipertensos existentes en la población (M1), resultado a su vez de actividades de screening (A1). Estas actividades (A1 y A2) que tratan de conseguir las metas M1 y M2 constituyen el programa. (Se trata, por supuesto, de una sobresimplificación; la mayoría de los programas constan de varias cadenas mucho mayores, con ramificaciones e interconexiones). A veces resulta también posible definir las «metas últimas» o «resultados finales» (M3) resultantes de la puesta en práctica del programa sin desagregarse en más actividades —por ejemplo: reducir la mortalidad secundaria a los accidentes vasculares cerebrales. Cualquier resultado inherentemente deseable —en este caso, M2 o M3— constituye un criterio de efectividad satisfactorio en un ensayo de programa. Cabría sin embargo que diversos factores extraños (X1, X2 y X3) contribuyesen a producir cada uno de los resultados. Si se quiere atribuir un resultado al programa, es necesario medir y realizar un seguimiento de los numerosos factores de confusión posibles, de lo cual puede deducirse la necesidad de grupos de control y observaciones seriadas. En ese caso, harán falta diseños experimentales o al menos cuasiexperimentales (ver capítulo 7). A continuación citaremos tres objetivos de estudio considerados ilustrativos: 1. Comparar los cambios en (a) actitudes frente al tabaco, y (b) prevalencia del hábito de fumar entre los muchachos de dos determinados cursos en dos escuelas concretas, uno de ellos expuesto a un programa anti-tabaco y el otro no, tras controlar según curso, pertenencia a algún club deportivo, hábitos tabáquicos de los padres (y otras variables)20. 2. Comparar los cambios en la prevalencia de (determinados) factores de riesgo cardiovasculares a lo largo de un período de 5 años en dos barrios cercanos (en uno de los cuales los médicos de familia y las enfermeras estaban desarrollando un programa comunitario al respecto), controlando según sexo, edad, clase social (y otras variables)21. 3. Comparar la incidencia de diarrea en centros infantiles de atención de día en los cuales se puso en marcha un programa de lavado de manos (lavarse las manos al salir del baño y antes de manejar cualquier tipo de alimentos o de comer) con la incidencia en otros centros de atención de día considerados de control. (A cada grupo le fueron asignados aleatoriamente dos centros)22. Objetivos de las revisiones de programas En una revisión de programa, las cuestiones clave son habitualmente la calidad, la eficiencia, o ambas. A veces se presta también atención especial a
OBJETIVOS DE LOS ESTUDIOS DE EVALUACIÓN
49
otras cuestiones: si estaba justificado o no, sobre todo cuando se trata de un programa establecido mucho tiempo atrás; la satisfacción del público; y finalmente, las diferencias entre grupos de población o categorías de pacientes, especialmente en lo referido a su necesidad de cuidados, amplitud y uso de los servicios, y su cobertura. Dadas las especiales características de las revisiones de programas (ver página 15), las mediciones del «proceso asistencial» y de la disponibilidad de equipamiento y otras instalaciones son más importantes que en los ensayos de programas. Por regla general, resulta mucho más fácil y rápido obtener datos de las actividades —a menudo como producto colateral del operar rutinario del propio programa; por ejemplo, mediante procedimientos de seguimiento incorporados al mismo— que del producto. Por otra parte, no se cuestiona la asunción de que las actividades planificadas del mismo resultan beneficiosas. En consecuencia, pueden utilizarse como criterios adecuados de calidad los indicadores de puesta en práctica de dichas actividades planificadas (A1 y A2 en la figura). De no existir registro de las actividades planificadas —cosa bastante frecuente en los servicios clínicos— cabe aplicar estándares arbitrarios, usando por ejemplo técnicas de auditoría médica (ver página 178). Este énfasis en la medición del «proceso» y la «estructura» no significa que las medidas del resultado no tengan cabida en una revisión de programa. Muy al contrario, disponer de información sobre los resultados puede ser valioso incluso en ausencia de evidencias rigurosas sobre que se tratase realmente de consecuencias del programa. Habitualmente tiende a creerse que los cambios (o su ausencia) son, al menos hasta cierto punto, reflejo de la efectividad del mismo. De ahí que se los utilice muchas veces como base para la toma de decisiones en torno a la necesidad de continuar o modificar un programa. De momento, y como mínimo, lo que está claro es su permanente capacidad de indicar si hace falta un estudio de evaluación más detallado. Los resultados intermedios (en el ejemplo, M1) suelen ser más fáciles de medir. Resulta más difícil hacer lo mismo con la consecución de las metas del programa y las finales (M2 y M,), puesto que hacerlo suele requerir disponer de información sobre una población diana con la cual no existe contacto rutinario, o con la cual se tuvo ese contacto pero ya no se dispone de él. Puede asimismo implicar un seguimiento a largo plazo, con las dificultades y el retraso correspondientes. No obstante, de disponerse de procedimientos de vigilancia que proporcionen datos sobre los resultados finales relevantes, como tasas de mortalidad, tasas de letalidad o cambios en el estado de salud de los pacientes o de la población, dicha información suele ser especialmente útil. Si el programa tiene metas predeterminadas, la información sobre el grado de su consecución resulta por supuesto particularmente significativa. En una revisión de programa, la valoración de la eficiencia, lo mismo que la de la calidad, poseen rasgos especiales. Aunque se pueden realizar estudios
50
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
detallados de los inputs, suele ponerse el énfasis en observaciones sencillas susceptibles de ser usadas como base para la toma de decisiones encaminadas a resaltar dicha eficiencia. Son observaciones relacionadas especialmente con las pruebas existentes de que se están llevando a cabo operaciones que comportan derroche —el uso evitable de medicamentos caros o no efectivos, un exceso de plantilla, retrasos, la subexplotación de un equipamiento costoso, actividades superfluas, hospitalización innecesaria, atención institucional indebidamente prolongada, etc. Al juzgar estas observaciones, no se hace uso necesariamente de estándares explícitos. Si se realizan estudios de costeefectividad, lo que se suele hacer es contrapesar los costes frente a ya sea estimaciones o valoraciones subjetivas de la efectividad, o frente a la ejecución de actividades que se asume son beneficiosas (tomadas como medida aproximada de la anterior). Puesto que, como norma general, no se somete a comprobación a las hipótesis en las revisiones de programas, la formulación de los objetivos del estudio no suele presentar dificultades. Notas y referencias
1. «Los directores de un programa están hablando de si resulta apropiado o no cuando preguntan: ¿Valen la pena los objetivos de nuestro programa, y poseen una prioridad mayor que otros posibles objetivos de este o de otros programas?» Deniston, O.L., Rosenstock, I.M. y Getting, V.A. (1968) Public Health Reports, 83, 323; reproducido en Schulberg, H.C., Sheldon, A. y Baker, F., eds. (1969) Program Evaluation in the Health Fields, pp. 219-239. New York. Behavioural Publications. En Acheson, R.M. (1978) se discuten los abordajes para definir la necesidad de atención de salud: Journal of Epidemiology and Community Health, 32, 10. 2. El documento clásico sobre evaluación de la efectividad de un programa, y que presenta el «modelo de consecución de objetivos» es el de Deniston, O.L., Rosenstock, L.M. y Getting, V.A. (1968), op. cit. (ver nota 1). Donabedian, A. (1966) Millbank Memorial Fund Quarterly, 44, 1966, discute métodos de valorar la asistencia médica; reproducido en Schulberg, H.C. et al., eds. (1969), op. cit., pp. 186-218. Para una lista de indicadores de la calidad de la atención médica, ver Donabedian, A. (1968) Medical Care, 6, 81. Ver asimismo las referencias recogidas en la nota 25 del capítulo 2 del presente texto. 3. Sackett, D.L. (1980) En Last, J.M. (ed.) Maxcy-Rosenau Public Health and Preventive Medicine, llthedn, p. 1800. New York: Appleton-Century-Crofts. 4. A veces se hace una distinción entre las metas y los objetivos: «las metas expresan condiciones del estado de salud y de los sistemas sanitarios consideradas deseables, en tanto que aspiraciones cuantificables pero no circunscritas en el tiempo», en tanto «los objetivos deben expresar niveles particulares del logro a conseguir... para un año específico»; Bureau of Health Planning and Resources Development (1970) Guidelines Concerning the Development of Health Systems Plans and Annual Implementation Plans, pp. 22 & 26. U.S. Department of Health, Education and Welfare. Según estas definiciones, una meta podría ser mantener la tasa de mortalidad por accidentes de tráfico por debajo de 15 por 100.000 al año, en tanto el objetivo sería reducirlo a un nivel determinado en un plazo concreto; Dever, G.E.A. (1980) Community Health Analysis, pp. 169-176. Germantown, Maryland: Aspen. 5. Para evaluar instalaciones, ejecución, resultados y costes se pueden usar como criterios las normas y estándares prescritos por una autoridad en tanto que «deseables». A veces se hacen distinciones entre lo que son normas y lo que son estándares. Donabedian, A. (1981) discute
OBJETIVOS DE LOS ESTUDIOS DE EVALUACIÓN
6.
7. 8. 9.
10. 11.
12. 13. 14. 15. 16.
51
dichos conceptos y el de «criterio», American Journal of Public Health, 71, 409. Los estándares pueden ser normativos o empíricos (ver página 179). Pueden especificar un «mínimo (mínimo aceptable), un nivel «ideal», el «nivel deseado conseguible», o un «máximo». Los métodos de estudiar las reacciones adversas a las terapéuticas han sido brevemente revisados por Sartwell, P.E.. (1974) International Journal of Health Services, 4, 89. En su libro Limits to Medicine: Medical Nemesis: The Expropriation of Health, Harmondsworth: Penguin Books, Illich, I. (1977) describe y documenta copiosamente la «actual pandemia yatrogénica». Morris, J.N.( 1975) Uses of Epidemiólogo, 3rd. edn.,p. 92. Edinburgh:ChurchillLivingstone. Bergman, A.B. (1977) American Journal of Public Health, 67. 601. Hubo un estudio comunitario en California que identificó las personas que eran normotensas y no estaban recibiendo asistencia médica contra la hipertensión, pero a las cuales se les había comunicado con anterioridad su supuesta condición de hipertensas. Dichas personas «maletiquetadas» tenían más síntomas de depresión y referían encontrarse peor de salud que los demás normotensos. La posible confusión por edad, sexo, educación, estado marital y grupo étnico fue controlada mediante apareamiento, controlándose asimismo el análisis según la presencia de otras patologías. Los clasificados erróneamente como hipertensos presentaban tantos síntomas de depresión como los calificados de tales de modo correcto. Bloom, J.R. y Monterossa, S. (1981) American Journal of Public Health, 71, 1228. El estudio de una muestra a escala nacional en Estados Unidos obtuvo hallazgos similares: los normotensos cuyos doctores les habían dicho que tenían la tensión alta presentaban al pasarles el cuestionario puntuaciones de bienestar general inferiores a las de los demás normotensos, cosa que también sucedía con los hipertensos «correctamente etiquetados», estuviesen o no recibiendo tratamiento. Monk, M. (1980) American Journal of Epidemiology, 112, 200. Tanahashi, T. (1978) discute la evaluación de la cobertura de los servicios sanitarios en Bulletin of the World Health Organization, 56, 295. La evaluación de la eficiencia está discutida en Deniston, O.L., Rosenstock, I.M., Welch, W. y Getting, V.A. (1968) Public Health Reports, 83, 603. Para el análisis de costeefectividad, ver Weinstein, M.C. y Stason, W.B. (1977) New England Journal of Medicine, 296, 716. Para ejemplos de análisis de coste-beneficio y coste-efectividad, ver Hagard, S. y Cárter, F.A. (1976) British Medical Journal, 1, 753 (tests rutinarios prenatales para el síndrome de Down); Collen M.F., Dales, L.G., Friedman, G.D., Flage, C.D., Feldman, R. y Siegelaub, A.B. (1973) Preventive Medicine, 2, 236 (chequeos multifásicos); Stason, W.B. y Weinstein, M.C. (1977) New England Journal of Medicine, 296, 732 (control de la hipertensión); y Cohn, E.J. (1973) American Journal of Public Health, 63, 1086 (control del paludismo). El abordaje mediante «análisis de sistemas», que aspira a conseguir una valoración del grado en el cual tiene lugar una ubicación óptima de recursos en una organización prestadora de cuidados, tomando en cuenta sus múltiples funciones por encima y por debajo del logro de metas específicas a ese nivel, es descrito por Etzioni, A. (1960) Administrative Science Quarterly, 5, 257; reproducido en Schulberg, H.C., Sheldon, A. y Baker, F., eds. (1969), op. cit., pp. 101-120. Para referencias sobre una escala para medir la satisfacción con la asistencia médica, ver nota 1 del capítulo 16. Donabedian, A. (1968), op. cit. Cochrane, A.L. (1972) Effectiveness and Efficiency. London: Nuffield Provincial Hospitals Trust. Kleinman, J.C. y Kopstein, A. (1981) American Journal of Public Health, 71, 73. Las proporciones de pacientes que murieron en las primeras seis semanas después del episodio fueron similares en los dos grupos (casa, 13 por ciento; hospital, 11 por ciento). El ensayo significó que tres cuartos de los pacientes fuesen vistos por 60 médicos generales de No-
52
17.
18.
19.
20.
21.
22.
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
ttingham. El cuarto restante fue considerado no adecuado para ser incluido en el ensayo, sobre bases médicas y sociales predeterminadas, por lo que se los envió al hospital; su tasa de letalidad fue del 26 por ciento. Hill, J.D., Hampton, J.R. y Mitchell, J.R.A. (1978) Lancet, 1, 837. Los síntomas atribuidos generalmente a la hipertrofia adenoidea (obstrucción nasal, ronquidos, rinorrea, etc) eran muy prevalentes en ambos grupos antes de la operación y desaparecieron prácticamente tras ella. Fueron igual de comunes en ambos grupos, tanto antes como después de la intervención. El estudio fue «ciego»; esto es, el examinador no sabía qué operación iba a sufrir o había sufrido cada niño. Hibbert, J. y Stell, P.M., Lancet, 1, 837. En este estudio sobre trabajadores del acero canadienses, el 53% de los hombres estaba «cumpliendo»; esto es: al menos el 80% de las pastillas prescritas para los seis meses de tratamiento faltaban de la botella y podía presumirse que habían sido consumidas. Tal criterio fue considerado idóneo, puesto que un análisis mostró que sólo una vez por encima de estos niveles de seguimiento se producía un descenso en la presión arterial. Las tasas de seguimiento correcto del tratamiento eran casi idénticas entre los hombres tratados por sus médicos de cabecera y los tratados en el trabajo, y entre los expuestos y no expuestos al programa educativo. Quienes recibieron el programa educativo aprendieron mucho acerca de la hipertensión; el 85% había retenido la información sanitaria, frente a un 18% sólo en el grupo de control. Sackett, D.L., Haynes, R.B., Gibson, E.S., Hackett, B.C., Taylor, D.W., Roberts, R.S. y Johnson, A.L. (1975) Lancet, 1, 1205. Un hallazgo inesperado lo constituyó el terrible incremento encontrado en el absentismo laboral entre los trabajadores a quienes se comunicó que padecían una hipertensión, especialmente en el grupo expuesto al programa de educación para la salud. Haynes, R.B., Sackett, D.L., Taylor, D.W., Gibson, E.S. y Johnson, A.L. (1978) New England Journal of Medicine, 299, 741. Las proporciones de curados y mejorados fueron muy similares entre los pacientes que tomaron tabletas de antihistamínicos y de placebo. Ello fue verdad en las personas que iniciaron el tratamiento el día del inicio de los síntomas, 1 día después, 2 días después y 3 ó más días después. Hill, A.B. (1962) Statistical Methods in Clinical and Preventive Medicine, pp. 105-119. Edinburgh; Churchill Livingstone. Usando como criterio una mayor consciencia de que «fumar es malo para la salud», el programa resultó efectivo. Si por el contrario el criterio eran los cambios en el hábito de fumar, fue inefectivo. Monk, M., Tayback, M. y Gordon, J. (1965) American Journal of Public Health, 55, 994; reproducido en Schulberg, H.C., Sheldon, A. y Baker, F. (1969), op. cit., pp. 345-359. La prevalencia de hipertensión, hipercolesterolemia, hábito de fumar y sobrepeso disminuyeron de modo más marcado en el vecindario expuesto al programa. Abramson, J.H., Gofin, R., Hopp, C, Gofin, J., Donchin, M. y Habib, J. (1981) Israel Journal of Medical Sciences, 17, 201. Este estudio fue llevado a cabo en la zona suburbana de Atlanta, Georgia. Durante las 35 semanas del ensayo, la incidencia de diarrea en los centros en que se procedía al lavado de manos fue la mitad de la observada en los centros controles. Con anterioridad al inicio del programa de lavado de manos, la incidencia era mayor en los centros experimentales que en los controles. Black, R.E., Dykes, A.C., Anderson, K.E., Wells, J.G., Sinclair, S.P., Gary, G.W., Jr., Hatch, M.H. y Gangarosa, E.J. (1981) American Journal of Epidemiology, 113, 445.
6 La población estudio Siempre que se empiézala a planificar una investigación, deben tomarse decisiones acerca de la población estudio, es decir: el conjunto de unidades individuales (sean éstas personas, familias, registros médicos, certificados, guarderías, muestras de leche, o cubos de la basura) que van a investigarse. En la discusión inmediata nos centraremos en las poblaciones estudio humanas. Las decisiones a adoptar son: 1. ¿Cuál es la población estudio? —o, si existe más de una (por ejemplo, grupos de casos y controles), ¿cuáles son las poblaciones estudio? Deben quedar clara y explícitamente definidas en términos de lugar, tiempo y cualquier otro criterio importante1. Si la población estudio comprende casos de una enfermedad, hay que formular los procedimientos a utilizar para la identificación de los mismos. Si es preciso elegir controles, deben especificarse los métodos con que seleccionarlos. La necesidad de dichos grupos de controles y los métodos para seleccionarlos se discutirán en el capítulo 7. 2. ¿Va a utilizarse el muestreo? De ser así, ¿cómo se la(s) va a seleccionar y cómo de grande(s) va(n) a ser la(s) muestra(s)? (Ver capítulo 8). Selección de la población estudio Muchas veces, el investigador habrá elegido implícitamente ya la población estudio en el momento mismo de definir el tema a investigar, como consecuencia de su interés en una comunidad o en un programa de salud específicos. En otros casos sin embargo, particularmente cuando se encuentra planificando un estudio analítico o un experimento, tendrá que seleccionarla a conciencia. Al hacerlo, deberá tomar en consideración cuestiones de idoneidad y de practicabilidad. La idoneidad de la población estudio hace referencia a lo adecuada que resulte para la consecución de los objetivos del estudio en cuestión. Si la hipótesis es que la enfermedad coronaria está relacionada con el consumo de grasas, habrá de tratarse de una población en la cual pueda esperarse suficiente variación en la ingesta de las mismas como para permitir que dicha hipótesis sea sometida a comprobación. Podría suceder, en sentido contrario, que la población tuviese demasiada variación y los objetivos fuesen de unas carac53
54
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
terísticas que se cumplieran mejor restringiendo el estudio a una categoría seleccionada, como un sexo determinado o un grupo de familias de una edad concreta y un tamaño y una composición determinados, buscando evitar los efectos de variables susceptibles de confundir la asociación que se quiere estudiar. Una tercera posibilidad es que el estudio encajase mejor en poblaciones muy concretas —entre vegetarianos o entre monjes, por decir algo— o en un grupo ocupacional sujeto a tensiones emotivas estacionales; la elección, además, de una población estudio idónea constituye uno de los factores con los cuales el autor se juega el ser original en el terreno de la investigación. Paradójicamente, sucede a veces que algunos procesos etiológicos se investigan mejor en poblaciones donde la enfermedad estudiada es rara; resultaría difícil estudiar si la infección asintomática del tracto urinario constituye una causa ocasional de anemia en una población que ya tuviese una alta prevalencia de anemia por infestación helmíntica o por deficiencia de hierro en la dieta. Al considerar si la población estudio es adecuada, conviene prestar atención a las características específicas de la misma susceptibles de afectar a la validez de posteriores generalizaciones a partir de los hallazgos. En concreto: 1. Poblaciones voluntarias. Las personas que se ofrecen de modo voluntario para participar en un estudio o someterse a un procedimiento pueden diferir en muchas cosas respecto de las que no lo hacen; en consecuencia, los hallazgos efectuados en una población voluntaria no necesariamente resultan aplicables al conjunto de la población. En determinadas circunstancias, quienes se sienten más inclinados a presentarse voluntarios poseen un mayor nivel de ansiedad respecto de su propia salud; en otras, justo al contrario, serán los más reacios a hacerlo. Es erróneo, pues, evaluar un procedimiento de vacunación aplicando la vacuna a voluntarios y comparando luego sus resultados con los obtenidos en personas ordinarias no vacunadas. Sería mucho más sensato llevar a cabo el experimento sólo entre voluntarios, inmunizando a algunos y a otros no. Incluso entonces, sin embargo, los resultados de dicho experimento con voluntarios, por bien fundamentados que estuviesen en lo referente a este grupo, podrían no ser aplicables directamente al conjunto de la población. En un ensayo preventivo, otro abordaje posible sería comparar los resultados obtenidos en el grupo de intervención y en el grupo de control que el investigador seleccionó, pero sin excluir los datos de la gente no dispuesta a participar en el ensayo. La mortalidad o la morbilidad (por decir algo) del total del grupo de intervención —incluidos los no participantes— se comparan entonces con el total del grupo de controles. Este paso previene contra la existencia de sesgo debido a diferencias entre los participantes y los no participantes2. En los ensayos comunitarios en que se pone un servicio al alcance de toda una población, lo que debe compararse con los resultados de la población de controles son los resultados del total de la primera, no sólo los obtenidos entre quienes participaron activamente.
LA POBLACIÓN ESTUDIO
55
2. Personas diagnosticadas de una enfermedad. No necesariamente son representativas de todas las afectadas por ella. Podría darse el caso de que los distintos grupos de población presentasen diferencias entre sí en cuanto a la disponibilidad y uso de los servicios médicos, con lo cual el establecimiento de los diagnósticos se vería influenciado por la disponibilidad de instalaciones diagnósticas, la gravedad de los síntomas, etc. Resulta particularmente fácil que los casos con síntomas leves y los asintomáticos se queden sin diagnosticar. Los casos de enfermedad detectados en un estudio de prevalencia, además, pueden no representar a todos los diagnosticados, puesto que la gente cuyo cuadro dura poco posee una probabilidad relativamente baja de encontrarse enferma en el momento del estudio. Entre este tipo de pacientes se incluyen quienes se recuperan con rapidez y los que fallecen al poco tiempo de comenzar el proceso, como por ejemplo los muertos de forma súbita e inesperada por enfermedad coronaria. 3. Poblaciones hospitalarias o poblaciones clínicas. Las personas que están recibiendo asistencia sanitaria no son, obviamente, representativas de la población general, ni necesariamente de todas las aquejadas de enfermedad. Quienes reciben tratamiento por una artritis reumatoide en un hospital pueden diferir de quienes lo reciben en régimen ambulatorio, y ambos grupos a su vez tener características distintas respecto de los pacientes afectados de la misma enfermedad sin estar siendo tratados. En un país en el cual no todos los partos ocurriesen en el hospital, la tasa de nacidos muertos podría —debido a lo selectivo de las admisiones— ser mayor para los partos hospitalarios que para el resto. Más aún, la oportunidad de entrar a formar parte de una población clínica puede variar según distintas enfermedades (u otras características) y según diversas combinaciones de características, lo cual puede dar lugar a asociaciones espúreas. Por ejemplo: si la gente que padece dos enfermedades específicas al mismo tiempo afronta una probabilidad especialmente alta de resultar hospitalizada, el estudio de los pacientes de este medio revelaría relación entre las dos enfermedades en cuestión incluso aunque dicha asociación no se produjese en el conjunto de la población. Si las dos enfermedades conllevasen oportunidades distintas de hospitalización, una tercera característica (otra enfermedad, o un factor etiológico sospechado) podría estar más frecuentemente asociada con una de las dos enfermedades. Así, el consumo de cigarrillos, los juanetes o cualquier factor adicional, sería visto más frecuentemente entre los pacientes hospitalarios afectados de bronquitis que entre los afectados de enfermedad coronaria, en ausencia de ninguna asociación semejante en el conjunto de la población. Este problema de la interrelación entre las tasas de admisión, conocido como la «falacia de Berkson»3 (sesgo berksoniano, sesgo de la tasa de admisión) puede surgir en cualquier población —no sólo hospitalaria ni clínica— donde los individuos con características diferentes tengan posibilidades distintas de resultar incluidos.
56
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
4. Poblaciones con buenos registros médicos. Muchas veces resulta tentador llevar a cabo estudios en consultorios o clínicas donde los profesionales mantienen buenos registros clínicos o están dispuestos a rellenar una documentación especialmente detallada, conforme a los propósitos del estudio. Se trata sin duda, además, de una condición esencial para hacer viables ciertos trabajos (por ejemplo, evaluar la actuación de los médicos de cabecera). Lo importante, sin embargo, es que los doctores seleccionados de esta forma podrían ser singulares también a otros respectos, y sus consultorios resultar atípicos. 5. Personas que residen en casa. Una población estudio que comprendiese sólo a las personas que residen en su casa excluiría a los ingresados en hospitales, residencias de ancianos e instituciones similares; ello podría conllevar la exclusión selectiva de personas afectadas por enfermedades u otros procesos de potencial interés para el investigador. En un país donde el servicio militar fuera obligatorio, por ejemplo, podría también significar una sobrerrepresentación de los adultos jóvenes declarados inútiles para el mismo. 6. Poblaciones autopsiadas. Las personas sometidas a autopsia no son, por razones obvias, necesariamente representativas de todas las que fallecen. A este nivel puede, además, ser también aplicable la falacia de Berkson; en concreto, jugó cierto papel en una famosa metedura de pata epidemiológica (el descubrimiento en 1929 de un aparente antagonismo entre la tuberculosis y el cáncer) que condujo a instituir un programa para tratar a los pacientes cancerosos con tuberculina4. 7. Grupos caracterizados por su conducta o su ocupación (fumadores, practicantes del «jogging», emigrantes, conductores de autobuses, etc.). Suele ser sensato pensar un poco en los factores selectivos susceptibles de conducir a pertenecer a estos grupos o ser excluido de ellos, y especialmente en si el estado de salud previo podría haber influido en algo al respecto. Se ha llamado a esto «sesgo de pertenencia (de ser miembro)»5. Los fumadores persistentes de cigarrillos pueden estar más sanos que los ex-fumadores, no porque el tabaco produzca salud sino porque la gente deja de fumar cuando se manifiestan sus enfermedades. El estado de salud mental de los inmigrantes igual es un reflejo de las características que condujeron a la emigración, y no de las tensiones o recompensas de la misma. Si en un determinado sitio se dan muchos casos en que una salud deficiente ha llevado a (por ejemplo) adoptar determinada ocupación sedentaria, o retirarse del trabajo, o destetar a los niños, las relaciones que posteriormente se detectasen entre salud y ocupación, retiro o lactancia materna, podrían ser malinterpretadas. 8. Poblaciones en las que los mismos individuos aparecen más de una vez. Si determinados individuos aparecen en diversas ocasiones en la misma población estudio, los hallazgos relacionados con ellos tendrían un efecto indebido sobre los resultados. Es el tipo de problemas presente en los estudios de, por
LA POBLACIÓN ESTUDIO
57
ejemplo, las características correlacionadas con la gastroenteritis, cuando se investigan todos los casos de esta enfermedad tratados en un hospital incluyendo hospitalizaciones repetidas de unos mismos pacientes. Una lista de mujeres que recibiesen cuidados prenatales podría incluir embarazos repetidos de las mismas madres, de igual modo que si se hace un estudio basado en los registros de las visitas médicas, habrá una sobrerrepresentación de los pacientes que consultan con frecuencia a sus médicos de cabecera. Si el estudio está relacionado con las personas más que con los episodios, puede decidirse limitar cada persona a una única aparición, utilizando por ejemplo el primer episodio, u otro cualquiera elegido al azar. Cabe también la posibilidad de usar procedimientos estadísticos para compensar por el sesgo6. Aparte de todo lo anterior, deben plantearse diversas cuestiones prácticas; ¿va a ser posible obtener la información precisa sobre la población que se propone como población estudio?, ¿es accesible, y el investigador ha hecho ya en cierto modo alguna «entrée»?, ¿parece probable que coopere en el estudio, o se va a mostrar resistente, posiblemente a consecuencia de haber sido «sobreinvestigada» en el pasado? Si lo que se propone es estudiar a los pacientes de una enfermedad determinada, ¿podremos identificar suficientes casos como para obtener conclusiones útiles? Otro problema: si se está planificando un estudio de seguimiento a largo plazo, ¿se desplaza tanto la población como para terminar haciendo difícil mantener el contacto con los sujetos? Digamos simplemente para concluir que responder a este tipo de preguntas exige a veces realizar un estudio exploratorio preliminar. Muestreo En muchas ocasiones se decide obtener información de sólo una parte —o muestra— de la población a investigar (es decir, se opta por seleccionar una población estudio que constituye una muestra de otra más amplia, a la cual cabe llamar entonces población «origen» o «diana»7). Una decisión así puede venirle forzada al investigador por la escasez de recursos. De modo adicional, además, el muestreo tiene la ventaja de significar potencialmente un uso mejor de los recursos disponibles; puesto que el número de individuos a estudiar está restringido, le resultará posible investigar a cada uno de ellos en mayor profundidad de lo que cabría en otras condiciones, así como realizar mayores esfuerzos para asegurar la obtención de la información concerniente a cada individuo. Con frecuencia, se decide buscar lo mejor de ambas opciones, obteniendo la información fácil de conseguir sobre el total de la población, y limitando ciertas partes del estudio —las que requieren investigaciones más intensivas— a una o más muestras. Siempre que se cumplan ciertas condiciones, no hay problema en aplicar los resultados obtenidos de una muestra a la población origen de donde fue seleccionada, con un grado de precisión ajustado a los requerimientos del
58
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
investigador. Existen técnicas estadísticas que hacen posible afirmar con cuál precisión y confianza pueden realizarse dichas inferencias. Las condiciones a cumplir son: (a) La muestra debe estar bien escogida, buscando que sea representativa de la población de donde se la extrajo. Los métodos de muestreo se discutirán en el capítulo 8. (b) La muestra debe ser suficientemente grande. Si se extraen de una misma población origen unas cuantas muestras representativas para investigarlas, debe esperarse que, debido al azar, haya diferencias entre los hallazgos de cada una de ellas; este problema de la variación muestral se ve minimizado cuando la muestra es grande (ver capítulo 8). (c) Debe haber una cobertura adecuada de la muestra. Excepto si, de hecho, se obtiene información sobre todos o casi todos los miembros de la muestra, cabe que los individuos estudiados fuesen no representativos de la población origen; es decir, podría darse un sesgo muestral. No es sólo cuestión de tamaño. Una muestra mal escogida, o inadecuadamente cubierta, seguirá estando sesgada por grande que fuese. Este hecho quedó contundentemente demostrado por la famosa encuesta de opinión del Literary Digest en 1936, que, aunque basada en 2.000.000 de papeletas electorales, fracasó estrepitosamente a la hora de predecir la arrolladura victoria de Roosevelt en las elecciones presidenciales. Las papeletas en cuestión constituían el 20% de las 10.000.000 de ellas enviadas a una muestra no representativa efectuada con los suscriptores de la citada revista y del teléfono. Poblaciones estudio «ocultas» Cuando un investigador se plantea comparar poblaciones (por ejemplo: aldeas distintas, o un grupo de casos y otro de controles) es obvio que debe manejar más de una población estudio. Resulta algo menos obvio, sin embargo, cómo en cualquier trabajo epidemiológico que haga uso de tasas se está jugando, de hecho, también con dos poblaciones estudio8. Dichas poblaciones son (a) las personas con determinada enfermedad o cualquier otra característica, que constituyen el numerador para el cálculo de la tasa; y (b) la población total sometida a riesgo, que constituye el denominador. Si el primero de ambos grupos se halla enteramente comprendido en el segundo, se requiere la misma información acerca de los dos, y esta información puede recogerse de una misma forma para todas las personas de la población en riesgo, entonces no hay problemas especiales. La cosa cambia mucho, no obstante, si para las poblaciones numerador y denominador se requieren métodos distintos de obtención de la información, o hace falta información adicional sobre alguna de ellas. En circunstancias así, aunque pudiera haberse especificado una única población estudio, de hecho habrá dos, a las cuales se tendrá que prestar consideración de modo separado al planificar el trabajo.
LA POBLACIÓN ESTUDIO
59
Supongamos por ejemplo que queremos estudiar los factores correlacionados con la mortalidad infantil, y que hemos seleccionado una única población (definida en términos de, digamos, la zona geográfica y el tiempo). Necesitamos de hecho, pues, información tanto de los niños que murieron durante el periodo que se investiga (el numerador de la tasa de mortalidad infantil) como de los nacidos en ese mismo tiempo (el denominador). Son dos poblaciones superpuestas. En la práctica, sin embargo, muchas veces deben utilizarse procedimientos distintos para conseguir la información de cada una de ellas, caso de los certificados de defunción y natalidad, respectivamente. Si tuviéramos que calcular tasas específicas —esto es, tomando en cuenta el sexo, el orden de nacimiento y otras características— necesitaríamos plantearnos la viabilidad de obtener datos paralelos referidos a ambas poblaciones. En la práctica, la mayor dificultad para llevar a cabo esos estudios suele ser la no disponibilidad de información sobre la población denominador. Podría asimismo decidirse recoger ciertos datos sobre la población numerador únicamente —por ejemplo, sobre la edad al morir y las causas de muerte— siempre que el plan del estudio tomase en cuenta dicha decisión. Pongamos otro ejemplo de población estudio «oculta». Muchas veces resulta imposible entrevistar o examinar a todos los miembros de la población estudio. Sobre todo en trabajos que requieren la cooperación de las personas a investigar, puede haber un número importante de gente que «no responde». Cuando existe una cobertura incompleta de la población estudio, sea ésta total o una muestra, aparece la posibilidad de sesgo, lo cual dificultará aplicar los hallazgos a la población estudio y por supuesto, mucho más, generalizar a poblaciones más amplias. Para comprobar si hay sesgo, conviene —de ser posible— comparar las características demográficas y de otro tipo consideradas importantes de, respectivamente, los individuos incluidos y omitidos (los que responden y los que no responden). Desde un punto de vista práctico, ello significa que durante la fase de planificación el investigador debe pensar en quienes no responden como una población estudio separada, puesto que podrían necesitarse esfuerzos específicos para conseguir información idónea (ya fuese sobre la totalidad o sobre una muestra representativa de ellos). De modo similar, los miembros de una población estudio que rehúsan participar en un ensayo habrían de ser vistos como una población «oculta»; como se dijo antes (ver «Poblaciones voluntarias», en este mismo capítulo) debe tenerse cuidado y asegurar que no se les pierde en el seguimiento.
60
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y referencias
1. Hay que guardar un registro escrito con los criterios a cumplir para ser incluido en la población estudio, formulándolos de modo explícito; por ejemplo, si queremos estudiar a los residentes de un barrio determinado, ¿qué constituye un «residente»? (se suele usar como criterio la estancia de seis meses). Si luego surgen problemas de definición imprevistos (por ejemplo, los estudiantes que viven en su casa sólo los fines de semana) deben registrarse también las nuevas decisiones que se tomen, para poderlas aplicar uniformemente. 2. Como ejemplo de las diferencias entre los participantes y los no participantes, digamos que en un ensayo llevado a cabo en Suecia dentro de un programa de prevención de las enfermedades coronarias, se encontró que los hombres que no habían participado tendían, a la altura de la finalización del mismo, a presentar más enfermedades crónicas, más alta prevalencia de alcoholismo y mayor frecuencia de condiciones sociales desfavorables. Consecuentemente, tenían una mortalidad mayor que los participantes. Wilhelmsen, L., Ljungberg, S., Wedel, H. & Werkó, L. (1976) Journal of Chronic Diseases, 29, 331. 3. En Fleiss, J.L. (1981) Statistical Methods for Rates and Proportions, 2nd edn, pp. 8-13. New York: John Wiley, así como en Lilienfeld, A.M. & Lilienfeld, D.E. (1980) Foundations of Epidemiology, 2nd edn, pp 199-202. New York: Oxford University Press, se recogen explicaciones algebraicas y ejemplos numéricos de la falacia de Berkson. Una demostración empírica de su importancia, basada en el análisis de datos obtenidos en distintos estudios en Ontario, la recogen Roberts, R.S., Spitzer, W.O., Delmore, T. & Sackett, D.L. (1978) Journal of Chronic Diseases 31, 119. Encontraron, por ejemplo, que había una asociación fuerte entre las enfermedades de los sistemas respiratorio y locomotor en los datos hospitalarios, pero no en la población general, y que la fatiga estaba asociada positivamente con las enfermedades alérgicas y metabólicas en la población general, pero negativamente en los datos de los hospitales. 4. Lilienfeld, A.M. & Lilienfeld, D.E. (1980), op. cit., pp. 203-204; y Mainland, D. (1963) Elementary Medical Statistics, 2nd edn, pp. 121-122. Philadelphia: W.B. Saunders. 5. El sesgo debido a la sobrerrepresentación de los visitantes frecuentes en un estudio basado en los registros de las visitas médicas puede controlarse mediante un procedimiento de ponderación. Es algo que han descrito Shepard, D.S. & Neutra, R. (1977) American Journal of Public Health, 67, 743, quienes muestran cómo a partir de un estudio de las visitas se pueden obtener estimaciones de los números y características de los pacientes hipertensos que acudían a un consultorio. 6. Sackett, D.L. (1979) Journal of Chronic Diseases, 32, 51. 7. El término «población origen» se utiliza aquí para referirse a la población una muestra de la cual va a investigarse. Puede, a su vez, haber sido seleccionada a conciencia sobre la base de considerársela típica de otra población más amplia a la que se espera poder generalizar los hallazgos. A esta última se la llama a veces «población de referencia». 8. Ver nota 1 del capítulo 9 sobre las tasas.
7 Grupos de control Los grupos de control en los estudios No todos los estudios necesitan grupo de control. Como decía Bradford HUÍ, «no tengo nada claro que, si estudiando las muertes en lactantes durante el primer mes de vida descubriésemos que cierto número de ellas tuvieron como causa haber dejado caer de cabeza al niño sobre el suelo de la cocina, hagan falta controles de ningún tipo para convencernos de lo pernicioso de dicho hábito. Por contra, si algunas de las restantes muertes corresponden a niños cuyas madres padecieron la gripe durante el embarazo, yo pediría insistentemente disponer de controles antes de concluir que ambos acontecimientos estuvieron relacionados»1. En las investigaciones donde no se procede a comprobar hipótesis alguna, sobran los controles. En los estudios epidemiológicos analíticos (ver páginas 10-12), la selección de los controles depende de la naturaleza del estudio. Los de casos y controles (retrospectivos o de sección transversal) sobre la asociación existente entre una causa postulada y una enfermedad, comparan al «grupo de estudio» con otro de controles (también llamado «grupo de comparación» o de «contraste») formado por personas no aquejadas de la misma. En los prospectivos, se compara la incidencia del proceso entre las personas expuestas al factor causal y la que se da entre las no expuestas al mismo, o entre la población total. Grupo de control ideal es aquél exactamente igual al de estudio a todos los respectos excepto en las características a estudiar. Como sucede con la mayoría de los ideales, también es difícil hacer realidad éste de grupo control. Los controles para los casos de una enfermedad particular, por ejemplo, se pueden escoger de dos maneras fundamentales. Una consiste en seleccionar pacientes con una o más enfermedades distintas, además de la que nos interesa. El que los controles sean pacientes tratados en el mismo consultorio u hospital de los casos no sólo simplifica la investigación, sino ofrece además cierta seguridad adicional sobre que ambos grupos serán similares, pues que estarán —al menos en cierta medida— extraídos de la misma población origen (o población «abarcada»), hallándose por tanto sometidos a los mismos factores de selección. En sentido contrario, sin embargo, si los controles son enfermos, constituirán obviamente un grupo seleccionado no necesariamente representativo de las 61
62
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
personas libres de la enfermedad estudiada; si el análisis revela diferencias interesantes entre el grupo de estudio y el de control, pudiera suceder que éstas tuviesen más que ver con la epidemiología de las patologías de los pacientes controles que con la enfermedad de interés, o incluso ser un reflejo de la falacia de Berkson (ver página 55). Como abordaje alternativo, puede decidirse seleccionar los controles de entre la población general para evitar los factores selectivos que estar enfermo y haber acudido en busca de atención médica comportan. Aquí, de nuevo, a veces resulta difícil estar seguro de la verdadera comparabilidad de ambos grupos. Puede no ser fácil definir la población origen de donde se extrajo el grupo de pacientes; más aún, incluso siendo posible hacerlo dichos pacientes podrían estar lejos de representar a la totalidad de las personas afectadas por la enfermedad en esa población, como resultado de la acción de factores selectivos relacionados con la disponibilidad y uso de los servicios médicos. Pocas veces es fácil encontrar una fuente de controles a la vez conveniente y libre de posibles sesgos. Los donantes de sangre, las víctimas de accidentes, los pacientes admitidos para someterse a determinada cirugía, los trabajadores de una fábrica concreta, los niños de una escuela, los residentes de una barriada en particular, los empleados de un hospital, los estudiantes de medicina, etc. —todos ellos, sin duda, son grupos seleccionados. En un país o ciudad que mantuviesen registros de población, éstos pueden constituir una fuente donde seleccionar los controles; sucede, sin embargo, que muchas veces están desfasados, especialmente en la información sobre domicilios. Cabe entonces la posibilidad de escoger al azar las viviendas, seleccionando luego los controles dentro de ellas (ver «Muestreo en dos etapas» en el capítulo siguiente), pero el método dista de ser sencillo. Es imposible, pues, recomendar nada sobre la mejor manera de buscar controles. Hay que valorar cada circunstancia y escoger con cuidado la menos mala de las alternativas. Siempre que sea posible, conviene utilizar más de un grupo de controles, viendo si las distintas comparaciones obtienen la misma conclusión. Una de las ventajas de los estudios prospectivos con seguimiento a una cohorte de población total, incluyendo tanto expuestos como no expuestos al factor causal, es que la cohorte llevará incorporado en su interior su propio grupo de control. Ni que decir tiene, a la hora de escoger un grupo de controles debe prestarse atención a si resulta factible obtener sobre ellos información comparable a la recogida acerca del grupo de estudio. En una investigación de casos y controles sobre una enfermedad fatal, en la cual obviamente la información sobre los casos muertos debe provenir de parientes de éstos, cabe plantearse si recurrir también a controles muertos (por otros procesos) para asegurar la comparabilidad2. Durante el análisis de los hallazgos, pueden hasta cierto punto tomarse en cuenta las diferencias entre los grupos de estudio y de control, siempre que se
GRUPOS DE CONTROL
63
utilicen métodos dependientes básicamente de estar comparando iguales (por ejemplo: hombres con hombres y mujeres con mujeres). Para reducir esas diferencias, sin embargo, a veces se decide escoger un grupo de control «apareado» al de estudio. Se hace esto para asegurar que los grupos sean similares respecto a posibles factores «de confusión» (ver página 236), susceptibles de oscurecer la relación estudiada o tener cualquier otro efecto engañoso sobre ella. El apareamiento resulta especialmente útil si los grupos son pequeños, puesto que el método alternativo (manejar los efectos de confusión durante el análisis) podría volverse luego impracticable. El apareamiento se puede realizar de dos maneras (que cabe, además, utilizar de forma combinada): (a) Se selecciona cada control por ser similar en cuestiones concretas a un miembro específico del grupo de estudio. Un «apareamiento individual» de este tipo puede resultar relativamente fácil cuando se decide, por ejemplo, escoger a un cónyuge, hermano, amigo3, vecino4, o compañero de trabajo, o a una persona de la misma edad y sexo; podría ser difícil de conseguir, no obstante, si lo que se busca es controlar más de dos o tres variables, y sobre cada una de ellas hace falta aparear de modo muy íntimo. En ese caso, el procedimiento requeriría disponer de una cantidad extremadamente grande de controles prospectivos, obligando a excluir a muchos sujetos para los cuales sería imposible encontrar controles adecuados. (b) Se selecciona a controles similares, como grupo, al de estudio (por ejemplo: en su distribución por edad y sexo). Se llama a esto «apareamiento de grupo o de frecuencia». Es factible lograrlo dividiendo a los controles potenciales en estratos (grupos de edad y sexo, por citar un criterio posible, como se ha dicho) y eligiendo luego aleatoriamente el número adecuado de individuos de cada estrato. Debe recordarse que una vez «controlada» una variable mediante apareamiento, no es posible ya estudiarla como variable independiente5. En un estudio de casos y controles por ejemplo, si se aparea según edad, pues, se hace imposible estudiar la relación entre ésta y la enfermedad en cuestión; comparar las edades de casos y controles proporcionará información únicamente de la efectividad del proceso de apareamiento. Asimismo, y por la misma razón, se hará difícil obtener información útil de las asociaciones existentes entre esa enfermedad y cualquier característica vinculada de modo cercano con la edad. Si se aparea según más variables de la cuenta, existe ciertamente el peligro de acabar haciendo los grupos tan similares que la diferencia para buscar la cual se diseñó la investigación resulte enmascarada («desapareada»); se llama a este fenómeno «sobreapareamiento». Usar muchas variables para aparear comporta adicionalmente el riesgo de dificultar la búsqueda de suficientes controles idóneos. Como norma, por tanto, sólo se debe aparear según aquellas variables que se crea tienen un efecto fuerte sobre la variable dependiente. En resumen:
64
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
aparear innecesariamente no sirve de nada, y puede incluso resultar contraproducente. Cualquiera que fuese el método usado para seleccionar los controles, es importante establecer normas estrictas que aseguren la objetividad. Cuando deba seleccionarse un control de entre un número de sujetos susceptibles de serlo, la selección será automática (ejemplo: el paciente admitido inmediatamente después del caso, o aquél de una edad más cercana ingresado en el mismo ala del hospital), o basada en una selección aleatoria (según se describe en el capítulo siguiente). Si se recurre al apareamiento individual, el grado de similitud requerido debe venir claramente formulado en relación a cada característica6. Finalmente, permítasenos insistir en que una vez seleccionados por la vía que fuese los controles, deben posteriormente compararse todas las posibles características relevantes de ambos grupos implicados, el de estudio y el de control, para determinar si existen entre ambos diferencias capaces de explicar los hallazgos de la investigación. Los controles en los experimentos El argumento «Yo era un canijo de 50 kilos y mírame ahora» no constituye prueba convincente de la efectividad de un determinado tipo de tratamiento; cabe, sin duda, que el cambio haya sido debido a la adolescencia, o a otros factores ajenos al tratamiento en cuestión. En el campo de la salud pública, sin embargo, no es infrecuente encontrarse con experimentos tipo «antes y después» parecidos a éste, sin controles externos. Se afirma por ejemplo: «La mortalidad infantil decayó tras el inicio del programa» aduciendo el hecho como prueba de efectividad, cuando lo cierto es que podría haber ocurrido un cambio similar sin dicho programa. Para resultar razonablemente convincentes, por tanto, hay que reproducir tales estudios en poblaciones distintas o en momentos distintos, preguntándose al final: ¿disminuye la mortalidad infantil invariablemente, o casi invariablemente, una vez instaurado un programa de este tipo? Conviene asimismo examinar los datos de los años anteriores al comienzo del programa; ¿existe alguna evidencia de que se estuviera produciendo ya un cambio en las tendencias temporales? A veces es posible prolongar el estudio y examinar qué sucede tras retirar el procedimiento experimental. Se trata de un aspecto particularmente idóneo en la evaluación de fármacos cuyos efectos sólo duran un cierto tiempo. En dichos experimentos, se compara la droga en cuestión con otra de control (un placebo o un medicamento de efectividad reconocida), administrando ambas a la misma persona. Estos «ensayos transversales» poseen la ventaja de no caber duda sobre la similitud de los grupos experimental y de control, puesto que están formados por las mismas personas7. En la mayoría de los experimentos, sin embargo, se requieren grupos de control distintos, y se comparan los hallazgos realizados en el grupo experi-
GRUPOS DE CONTROL
65
mental con los del grupo de control no expuesto al procedimiento. La mortalidad infantil descendió en la zona estudiada, pero ¿qué pasó en otras zonas similares? Este abordaje, basado en la comparación respecto de una población parecida de controles, constituye muchas veces el mejor método disponible para evaluar un programa o procedimiento. Sin grupo de control externo, se corre el riesgo de pensar que el cambio constituye un efecto específico de la intervención sometida a prueba, sin ser ése el caso8. Las principales circunstancias que pueden inducir a error a este nivel son: (a) Cambios debidos a otras causas. La gente puede recuperarse de una enfermedad por razones poco relacionadas con los cuidados que recibe. Ciertos cambios suceden porque la gente envejece, madura, se adapta a la incapacidad, se integra en un nuevo entorno social, o se ve sometida a acontecimientos y modificaciones externas que ejercen sobre ella una determinada influencia. Los precios de los alimentos pueden variar, de modo que de pronto se hacen asequibles ciertos productos bajos en calorías o en grasas saturadas, o puede haber una campaña publicitaria sobre el tema del tabaco, o ponerse en funcionamiento un nuevo servicio médico, puede empezar o finalizar una guerra, etc. (b) Efectos no específicos causados por la intervención o el experimento. La administración de, pongamos por caso, un fármaco puede tener un efecto placebo, no debido a ninguna acción farmacológica sino al simple hecho de haber tomado una medicina. Si los sujetos saben que están participando en un experimento, esa preocupación puede en sí misma producir cambios (el llamado efecto del conejillo de Indias). Todo ello no es más que una parte de la posible influencia de la situación experimental en su conjunto —las exploraciones y otros procedimientos llevados a cabo, el recibir información de los hallazgos de la investigación, las especiales relaciones que se establecen con los investigadores, etc.—, influencia a veces llamada «efecto Hawthorne». El nombre proviene de un estudio sobre la eficiencia industrial realizado en la Planta Hawthorne de Chicago en la década de 19209, que mostró cómo cada vez que se introducían cambios experimentales en las condiciones de trabajo —aunque fuese para empeorarlas— el rendimiento aumentaba. La producción mejoró tanto cuando se aumentó la iluminación como cuando se la redujo a los niveles de una noche con luz de luna. (c) Artefactos. El cambio podría no ser real, sino únicamente expresión de otro ocurrido en los métodos de medición —en los criterios o técnicas diagnósticos, en lo completo que estuviera el registro de notificación, en los procedimientos de laboratorio, etc. Incluso sin alterar dichos métodos, pueden surgir artefactos si las mediciones son muy poco fiables o las características a medir resultan verdaderamente inestables. Cuando se repiten mediciones en unos mismos sujetos, el segundo valor tiende a ser inferior al primero, si el inicial era alto, y viceversa. Una muestra de estudio seleccionada sobre la base de valores inicialmente altos de presión arterial, por tanto, tenderá a manifestar
66
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
cifras inferiores de la misma cuando se la examine una segunda vez, lo que podría ser erróneamente interpretado como efecto del tratamiento. Hay varias formas de superar este problema de «regresión hacia la media»10, siendo una de las más sencillas utilizar un grupo de control adecuado, seleccionado de la misma forma que el de intervención. Los principales diseños experimentales usados en la investigación evaluadora son: los de tipo «antes-después» («premedición-postmedición» o «preprueba-postprueba»), ya sea sin o (preferiblemente) con controles externos, y los de tipo «sólo postmedición», con controles. Esta última modalidad es de uso común, y en ella se centra la atención no en los cambios ocurridos respecto de un estatus basal sino en una comparación entre las tasas de mortalidad u otras medidas de resultado en ambos grupos (el experimental y el de control). Dependiendo de las circunstancias y de los objetivos del estudio, considerados en detalle, se puede exponer a un grupo control a un tratamiento o programa alternativo, a ninguna intervención, o —en tercer lugar— a un tratamiento con placebo. En los ensayos terapéuticos, a los controles se les suele administrar el tratamiento estándar habitual aplicado a la enfermedad en cuestión. Un experimento puede sin embargo, por supuesto, implicar más de una única comparación entre dos grupos, y estar diseñado para comparar los efectos de diversas formas de prestar cuidados, o de diversos tratamientos y de sus combinaciones y secuencia («diseño factorial»)11. Sea cual fuese el diseño experimental, los grupos a comparar deben ser similares. Se cuenta la historia de un capitán de barco que quiso someter a prueba un remedio contra el mareo durante las travesías, consiguiendo resultados que le entusiasmaron: «Prácticamente todos los controles terminaron enfermos, mientras ninguno de los sujetos tuvo problema alguno. El preparado es realmente magnífico». Un escéptico preguntó cómo había elegido a los controles y a los sujetos. «¡Oh, bueno!... Administré el preparado a mis marineros y utilicé a los pasajeros como controles»12. De modo similar, ha habido ensayos en los cuales una vacuna era aplicada a voluntarios (que pueden constituir un grupo altamente seleccionado), comparando luego la posterior incidencia de la enfermedad con la que se estaba dando en el seno de la población general; siempre han llevado a conclusiones erróneas. Los experimentos de este tipo son similares a los estudios donde se comparan poblaciones diferentes; por tanto, pues, conviene revisar todas las características de ambos grupos con la potencialidad de ser relevantes, buscando cuidadosamente cualquier no coincidencia que pudiera explicar los hallazgos del estudio. Siempre que sea posible, es bueno recurrir a la randomización. Se trata de un procedimiento mediante el cual se deja al azar la asignación de cada sujeto al grupo experimental o al de control, por ejemplo lanzando al aire una moneda, o usando una tabla de números aleatorios (sobre los métodos de asignación aleatoria, ver página 82). La randomización no garantiza que los grupos vayan
GRUPOS DE CONTROL
67
a ser idénticos, pero reduce la influencia de factores extraños asegurando que las únicas diferencias entre dichos grupos van a ser las debidas al azar. Los sujetos así asignados pueden ser personas o unidades de otro tipo, incluidos grupos de población. En un experimento sobre el efecto de la reconstrucción de un sistema de canalización de aguas negras en la incidencia de enfermedades diarreicas, por ejemplo, sería posible asignar aldeas enteras a uno u otro grupo. La asignación aleatoria debe ser utilizada con todos los sujetos incluidos en el estudio —sean voluntarios que se presentan a participar en un ensayo profiláctico o pacientes que en virtud de su diagnóstico, condición patológica u otras características, son considerados idóneos para participar en un ensayo terapéutico y han dado su consentimiento al respecto. Las reglas para excluir a alguien (demasiado viejo, demasiado enfermo, alta probabilidad de no aceptar cooperar, etc.) deben haber quedado sentadas con antelación. Si se produce alguna objeción a la hora de ubicar a un sujeto en cualquiera de los grupos, debe excluírselo del estudio sin más. Estas exclusiones no pueden sesgar los resultados de la comparación y siempre son aceptables, incluso aunque las razones para llevarlas a cabo fuesen discutibles. Por supuesto, es importante registrar tanto las reglas como las verdaderas razones por las cuales se las realiza, al efecto de dejar claro a qué tipos de sujetos no son aplicables los resultados del ensayo. Deben adoptarse precauciones para evitar divergencias respecto de una asignación estrictamente aleatoria. Puede no resultar fácil lograrlo, incluso usando sobres cerrados13. Como alternativa teóricamente adecuada a la randomización y por razones de conveniencia, se recurre a veces a un método sistemático de asignación de los sujetos, como ir incluyendo, alternativamente, un paciente en el grupo experimental y el siguiente en el de control. Estos métodos han sido objeto de fuertes críticas, sobre la base de que resultan demasiado fáciles de manipular por médicos clínicos guiados de buenas intenciones. En un ensayo controlado sobre terapia anticoagulante del infarto de miocardio en el cual el tratamiento del paciente se determinaba según se le admitiera en un día par o impar del mes, se descubrió que los médicos (convencidos del valor del tratamiento) se las habían estado ingeniando para que se admitieran más pacientes en los días impares14. Se haya utilizado una asignación aleatoria o sistemática, resulta siempre aconsejable, antes de empezar el ensayo, comparar las características de los grupos para ver si son similares. Tanto la acción del azar como desviaciones accidentales o intencionadas respecto del procedimiento de ubicación, aleatorio o sistemático, podrían dar origen a diferencias. Un ensayo a gran escala sobre el efecto de una ración extra de leche sobre la altura y el peso de los escolares llevado a cabo en Lanarkshire en 1930, por ejemplo, acabó invalidado por haber asignado a la gente de manera sesgada. Los 10.000 sujetos y los 10.000
68
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
controles fueron ubicados en uno y otro grupo mediante «sorteo de papeletas», o usando el sistema alfabético, pero se cometió el error de permitir a los profesores que separaban a los pequeños «mejorar» las selecciones si las consideraban desequilibradas. La consecuencia fue tener en el grupo experimental niños más pequeños y más delgados que los controles15. Para minimizar el sesgo en los ensayos clínicos, es fundamental realizar el seguimiento de todos los sujetos. La única excepción a esta regla son los pacientes a los cuales se descubra haber sido diagnosticados erróneamente; por regla general, puede retirárselos del estudio sin originar sesgo. A efectos de análisis, conviene retener a los sujetos en el grupo donde les toque incluso si mueren antes de recibir tratamiento (¡la randomización debe llevarse a cabo lo más tarde posible!), si se les deja de administrar la medicación a causa de sus efectos tóxicos, o si existe alguna otra desviación grave respecto del tratamiento del grupo que les tocó. De haber retirado a mucha gente y tener un número grande de sujetos sobre los cuales se carece de datos de seguimiento, y si dichas pérdidas son más numerosas en un grupo que en otro, hay que considerar muy seriamente la posibilidad de obtener resultados sesgados (ver página 225). En el análisis debe incluirse toda la información disponible sobre los sujetos perdidos hasta el momento de producirse esa pérdida16. Antes de asignar a los sujetos, puede decidirse utilizar un procedimiento de estratificación o de apareamiento similar a los descritos en relación con los estudios (en las páginas 62-63), de cara a asegurar que ambos grupos son similares a ciertos respectos. Por ejemplo, cabe dividir en principio a los sujetos en estratos según edad, sexo, gravedad de la enfermedad, o cualquier otra característica que se considere pronostica del resultado. Si en el ensayo clínico están tomando parte diversos centros terapéuticos, se suele estratificar a los sujetos según dichos centros. Las asignaciones aleatorias o sistemáticas (al grupo de tratamiento y al de control) pueden luego hacerse dentro de cada estrato. De modo alternativo, cabe ir colocando a los sujetos en parejas de individuos apareados —valga la redundancia— y realizar posteriormente una elección aleatoria en lo referente a la ubicación de cada miembro de cada pareja. Los procesos de apareamiento, pues, aseguran que los dos grupos sean similares respecto de determinadas características importantes, a la vez que permiten examinar el efecto modificador (ver página 235) de estas características sobre la efectividad y seguridad del tratamiento. En opinión de muchos estadísticos, por lo general es innecesario estratificar antes de randomizar, excepto en el caso de los estudios demasiado pequeños. En su lugar, y siempre que se hayan utilizado métodos estadísticos correctos, es posible recurrir a la «estratificación retrospectiva» cuando se analicen los resultados. Puede entonces estratificarse a los sujetos de acuerdo a características realmente relacionadas con el resultado, en lugar de según otras consideradas en principio como pronosticas16.
GRUPOS DE CONTROL
69
Un ensayo clínico aleatorio es un verdadero experimento, habitualmente del tipo «premedición-postmedición» o «postmedición sólo». Es la selección randomizada de los controles concurrentes lo que permite extraer inferencias convincentes sobre los efectos de los procedimientos terapéuticos, profilácticos, educativos o de otro tipo que se quiere someter a prueba. Por contra, comparar a pacientes que «ocurrió recibieron un tratamiento» con otros que «ocurrió» fueron sometidos a otro distinto, o con «controles históricos»17 tratados en su día con métodos diferentes, pocas veces puede conducir a conclusiones claras. Entre ambos extremos existen diversos diseños cuasi-experimentales18. Donde la selección de los controles suele constituir un problema importante es en los ensayos de programas; como anteriormente se señaló, se organizan estos ensayos para someter a comprobación hipótesis referidas a los efectos de programas asistenciales de grupos o poblaciones. Con frecuencia hay poco que decir sobre cuál grupo va a recibir atención de salud, además de que, en lo concerniente a los controles, las opciones son restringidas. Sólo ocasionalmente cabe la randomización -véase, por ejemplo, el tema de la fluoración de aguas potables en ciudades aleatoriamente seleccionadas, la ubicación aleatoria de fábricas en un programa de intervención, y la ubicación de familias elegidas al azar para recibir atención primaria de salud prestada por enfermeras generalistas en vez de por médicos. La mayoría de los ensayos de programas son, por tanto, cuasi-experimentos, en la medida en que el grupo o grupos de control son elegidos a conciencia buscando que resulten lo más similares posible al, (o los), de intervención. Cuanto mayor sea dicha similitud, y cuanto más convincentemente pueda ésta ser demostrada, más persuasivas serán las conclusiones. A la hora de elegir grupos de controles, pues, las dos consideraciones fundamentales a tener en cuenta son la similitud del grupo de intervención y la posibilidad de obtener datos satisfactorios. Bajo estas circunstancias, los diseños tipo «sólo postmedición» en los cuales se compara al grupo de intervención (tras exponerlo al programa) con una población de control, raras veces tienen mucho valor en los ensayos de programas. Sólo son útiles si cabe asumir que los grupos eran similares antes de instituir el programa19. El requisito mínimo es un diseño «premedición-postmedición» con mediciones «antes» y «después» para ambas poblaciones. Cuanto mayores las series temporales, mejor, porque permiten una comparación más completa de las tendencias en las mismas20. Si se está extendiendo un servicio a una población cada vez mayor, una maniobra posible es comparar los datos «de antes» de cada bloque de gente que vaya siendo admitida, con los datos contemporáneos «de después» correspondientes a la población admitida con anterioridad, y con sus propios datos «de después» más adelante. En un estudio en África, esta técnica demostró cómo una determinada reducción en la mortalidad infantil podía ser atribuida a los esfuerzos de un centro de salud . En otro estudio, realizado en una ciudad norteamericana, lo que se
70
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
demostró fue cómo un programa cuyo objetivo era aumentar la disponibilidad de atención médica (prestando cuidados gratuitos) pareció conducir a un aumento de enfermedad, medida en términos de salud percibida, número de síntomas, y limitación de las actividades secundaria a cualquier patología22. Notas y referencias
1. Hill,A.B.(l962) Statistical Methods in Clinical and Preventive Medicine, p. 365. Edinburgh: Livingstone. 2. Gordis, L. (1982) ha analizado este tema, llegando a la conclusión de que no parece haber una justificación clara para utilizar controles muertos para los casos muertos, así como que este procedimiento podría introducir sus propios sesgos. American Journal of Epidemiology, 115, 1. 3. Detre, K. y Wyshack, G (1971), en Journal of Chronic Diseases, 24, 83, describen un método mediante el cual se pide a los sujetos que elijan sus propios controles apareados. 4. Como ejemplo del uso de controles vecinos, en un estudio en Toronto «se obtuvieron 5 controles apareados por edad a cada caso. Se les apareó también según barrio y tipo de vivienda (casa o apartamento), con la esperanza de que ello comportase un apareamiento por nivel socioeconómico razonablemente cercano. Los controles se obtuvieron llamando de puerta en puerta, empezando en la cuarta puerta a la derecha del caso y procediendo de forma sistemática alrededor de la zona residencial o en el bloque de apartamentos». En dos tercios de las visitas, no había nadie en casa. Para hacerse una idea sobre si el procedimiento originaba sesgo en la selección de los controles, y por tanto influía sobre los hallazgos, se llevó a cabo posteriormente un análisis separado, comparando los casos sólo con «aquellos controles reclutados inmediatamente después de que el caso (u otro control) hubiese sido entrevistado —esto es: los controles obtenidos sin que mediara fallo alguno». Clarke, E.A. y Anderson, T.W. (1979) Lancet, 2,1. 5. Una variable que ha sido controlada mediante apareamiento puede seguir siendo estudiada como variable modificadora (ver página 247). En un estudio retrospectivo en el que se compara a los pacientes con enfermedad coronaria con controles apareados según edad, ya no es posible examinar la asociación entre la edad y la citada enfermedad, pero sí ver si el efecto aparentemente protector del beber con moderación es consistente en todos los grupos de edad. 6. El apareamiento individual requiere la formulación previa de una serie de criterios de apareamiento. Para cada variable, se puede decidir que el control debe pertenecer a la misma categoría que el caso (por ejemplo: el mismo intervalo de edad de 5 años: 30-34, 35-39, etc.; se llama a esto a veces apareamiento «por categorías» o «estratificado»), o debe tener un grado definido de similitud (por ejemplo: una edad que no discrepe en más de dos años respecto de la del caso; se habla entonces de apareamiento «de compás calibrador»). El apareamiento se hace más fácil (y menos exacto) reduciendo el número de variables de apareamiento, o relajando los requisitos. Sería el caso, por ejemplo, de valorar como aceptable una disparidad de edad de hasta 10 años. Otra alternativa es buscar en principio un apareamiento íntimo, pero aceptar uno menos cercano (usando criterios menos estrictos) en caso de necesidad. Algunas veces se utiliza un método llamado del apareamiento «más cercano disponible», esto es: se selecciona al control potencial más cercano (en, por ejemplo, la edad) al caso. El método tiene la ventaja de permitir encontrar siempre pareja, pero lógicamente resulta menos eficaz que los demás a la hora de controlar el efecto de confusión. Hay que sentar reglas claras, formulando explícitamente los procedimientos y las prioridades. Si un control potencial está apareado íntimamente según edad, pero menos íntimamente según nivel educativo, y hay otro justo al revés (más en nivel educativo y menos en edad), ¿a quién se debe escoger? Es importante también dejar sentados con claridad los
GRUPOS DE CONTROL
7. 8.
9. 10.
11.
71
procedimientos estándares a seguir caso de haber dos o más controles potenciales satisfaciendo los criterios por igual. Podría, por ejemplo, decidirse seleccionar al que estuviera más cerca del caso con respecto a una determinada variable de apareamiento (la edad), o al que mejor cumpliese uno o más criterios adicionales, que sólo serían de aplicación en esos casos. Cabe asimismo echar mano de los números aleatorios. Para cada caso es posible escoger uno o más controles apareados. Utilizar dos o tres controles por caso aumenta sin duda la eficiencia del estudio, pero aumentar la razón de apareamiento por encima de estas cifras produce poco beneficio adicional. Ver Kleinbaum, D.G., Kupper, L.L. y Morgenstern, H. (1982) Epidemiologic Research, p. 396. Belmont, California: Lifetime Learning Publications. Para una discusión detallada de los métodos anteriores y algunos otros, ver Anderson, S., Auquier, A., Hauck, W.W., Oakes, D., Vandaele, W. y Weisberg, H.I. (1980) Statistical Methods for Comparative Studies: Techniques for Bias Reduction, Cap. 6. New York: Wiley. El diseño de experimentos en los que el paciente es el control de sí mismo es discutido por Reid, D.D. (1960) Controlled Clinical Triáis, pp. 87-93. Oxford: Blackwell; y Hill, A.B. (1977) A Short Textbook of Medical Statistics, pp. 239-242. London: Hodder & Stoughton. Ederer, F (1975) cita ilustraciones de cómo se llega a conclusiones erróneas con los ensayos no controlados, y habla en concreto de la Segunda Ley del Profesor Hugo Muench, de la Universidad de Harvard: «Siempre cabe mejorar los resultados omitiendo los controles». American Journal of Ophthalmology, 79, 758. Roethlisberger, F.J. yDickson, W.J. (1939) Management and theWorker. Cambridge, Mass.: Harvard University Press. El término «regresión hacia la media» proviene del hallazgo en el siglo XIX de que aunque los padres altos tendían a tener hijos altos, los niños tendían a ser menos altos que sus padres; los hijos de padres pequeños, por el contrario, tendían a ser mayores que sus padres. El principio es que «si todas las moscas de una habitación cerrada están en el techo a las 8 en punto de la mañana, en algún momento de las siguientes 24 horas habrá más moscas debajo del techo que sobre el mismo»; Schor, S. (1969), Journal of the American Medical Association, 207, 120. Para una discusión detallada de cómo la regresión hacia la media puede conducir a conclusiones erróneas sobre la efectividad o inocuidad de un programa o procedimiento, ver Campbell, D.T. y Erlebacher, A. (1975) en Struening, E. L. y Guttentag, M. (eds.) Handbook of Evaluation Research, vol. 1, pp. 597-617, Beverley Hills, Calif.: Sage. Entre los procedimientos sugeridos para superar el problema, se incluyen (a) comparar los cambios en el grupo de estudio con los del grupo de control, seleccionado de la misma forma para una misma o similar población; (b) usar la media de dos o más mediciones al seleccionar el sujeto; (c) usar una medición para seleccionar los sujetos y luego otra medición posterior como línea basal sobre la que calibrar los cambios y (d) calcular el cambio esperado a causa de la regresión hacia la media, comparándolo con el cambio observado. Para las discusiones técnicas, ver Ederer, F. (1972) Journal ofChronic Diseases, 25, 277; Hardner, J.M. y Heady, J.A. (1973) Journal of Chronic Diseases, 26, 781; James, K.E. (1973) Biometrics, 29, 121-130; Healy, M.J.R. y Goldstein, H. (1978) Annals of Human Biology, 5, 277; y Chinn, S. y Heller, R.F. (1981) American Journal ofEpidemiology, 114, 902. Los tipos de diseño experimental están descritos en Controlled Clinical Triáis (1960). Oxford: Blackwell, lo mismo que por Selltiz, C, Wrightsman, L.S. y Cook, S.W. (1976) Research Methods in Social Relations, 3rd edn, pp. 131-143. New York: Holt, Rinehart & Winston. Este libro y el de A.B. Hill (1962) op. cit. (ver Nota 1 anterior), p. 3-353, describen unos cuantos ensayos terapéuticos y profilácticos bastante ilustrativos. Las ventajas e inconvenientes de los distintos diseños cuasi-experimentales han sido revisadas por Campbell, D.T. (1969). Ver Program Evaluation in the Health Fields, eds. Schulber, H.C., Sheldon, A. & Baker, F., pp. 165-185. New York: Behavioural Publications; Campbell, D.T. y Stanley,
72
12. 13.
14. 15. 16.
17.
18.
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
J.C. (1966) Experimental and Quasi-Experimental Designs for Research. Chicago: Rand McNally; e Isaac, S. y Michael, W.B. (1977) Handbook of Research and Evaluation for Education and the Bahaviour Sciences, pp. 36-52. San Diego: EDITS. Wilson, E.B., jun. (1952) An Introduction to ScientifwResearch, p. 42. New York: McGrawHill. Un investigador, escarmentado a partir de sus experiencias en ensayos clínicos de colaboración múltiple (esto es, llevados a cabo en muchos centros), avisa de que «usar únicamente la numeración consecutiva en los sobres constituye una protección inadecuada frente a la tentación de atentar contra la randomización. Los sobres, si se usan, deben tener una numeración seriada, ser opacos y estar sellados con un pegamento no soluble en agua para impedir que los intenten abrir con vapor; todos los sobres no abiertos deben ser devueltos al centro coordinador, quien debe comprobar la integridad del sellado. Más aún, este centro coordinador debe ratificar la elección únicamente después de que el centro clínico haya identificado por su nombre al paciente susceptible de ser elegido». Ederer, F. (1975) American Journal of Epidemiology, 102, 111. Wright, I.S., Marple, C.D. y Beck, D.F. (1954) Myocardial Infarction: Its Clinical Manifestations and Treatment with Anticoagulants, pp. 9-11. New York: Grunne and Stratton. «Student» (1931) Biometrika 23, 398. Para guía sencilla pero detallada en el diseño y análisis de un ensayo controlado aleatorio, ver Peto, R., Pike, C.M., Armitage, P., Breslow, N.E., Cox, D.R., Howard, S.V., Mantel, N., McPherson, K., Peto, J. y Smith, P.G. (1976) British Journal of Cáncer, 34, 585 y Peto R. et al (1977) British Journal of Cáncer, 35, 1. Los principales usos de las comparaciones con controles históricos se ha formulado que son (a) como ensayo piloto llevado a cabo por un médico que está convencido del mérito de un nuevo tratamiento y por tanto no puede, éticamente, usar la randomización, pero desea convencer a sus escépticos colegas de que conviene hacer un ensayo aleatorio; y (b) sembrar dudas acerca de las pretensiones de un ensayo aleatorio en marcha en ese momento —los controles aleatorios podrían, por ejemplo, haber salido peor parados de lo que la previa experiencia haría esperable, estando utilizándose este hecho como argumento en favor de la aparente superioridad del tratamiento experimental. Una fórmula de compromiso que se sugiere al investigador interesado en utilizar controles históricos es ubicar aleatoriamente dos tercios de sus pacientes al nuevo tratamiento y un tercio al grupo de control. De esa forma, podrá luego comparar a los pacientes experimentales tanto con los controles históricos como con los concurrentes. Peto, R. et al. (1976), op. cit. Los que se oponen a la «randomización a cualquier coste» («No se siente uno confortable cuando tiene en las manos un protocolo aleatorio que deja que sea el azar quien dicte la atención médica que un ser humano recibe») han sugerido utilizar cada vez más los diseños cuasi-experimentales —por ejemplo: el apareamiento retrospectivo individual de pacientes y controles una vez elegida la forma de tratamiento. Asimismo insisten en su petición de que se establezca un banco de datos para acumular experiencia clínica, proporcionando material para los estudios de evaluación basados en los métodos analíticos utilizados para controlar los efectos de confusión (ver página 237). «Hoy día, un ensayo controlado con 100 pacientes puede cambiar dramáticamente la conducta de los médicos, en tanto la experiencia con 100.000 puede ser pasada por alto». Weinstein, M.C. (1974) New England Journal of Medicine, 291, 1278. En sentido contrario, se ha señalado que los ensayos bien diseñados (con controles concurrentes, randomización y los demás rasgos de los buenos diseños experimentales) han tendido a mostrar que los anticoagulantes no presentan beneficio alguno en el tratamiento ni del infarto agudo de miocardio ni de la enfermedad cerebrovascular, en tanto «cuanto más bajos los estándares del ensayo, más común es el hallazgo de que el tratamiento anticoagulante oral es mejor que la ausencia de tratamiento». («Hay quienes dicen que los anticoagulantes
GRUPOS DE CONTROL
19.
20. 21. 22.
73
orales son eficaces matarratas y que ahí acaba su utilidad».) Breckenridge, A. (1976) British Medical Journal, 1, 419. Los méritos y los problemas de la randomización han sido estudiados por Feinstein, A.R. (1977), op. cit., pp. 105-121. La ausencia de información de partida sobre mortalidad, morbilidad, crecimiento y estatus nutricional constituye un problema serio en los ensayos acerca de nuevos patrones de prestación de atención primaria de salud a la gente ordinaria en países subdesarrollados. Incluso dejando de lado consideraciones éticas, resulta difícil recoger esos datos antes de que los trabajadores de salud comunitarios, sobre quienes se basan estos programas, empiecen a funcionar. En el Proyecto Narangwal de la India, por ejemplo (un importante estudio controlado sobre la efectividad comparativa de la atención nutricional, la asistencia médica y su combinación), no se dispuso de mediciones «anteriores» en las aldeas estudiadas. La información sobre nacimientos y muertes, por su parte, no se recogió de manera uniforme hasta el segundo año del proyecto. La validez de las conclusiones se restringe a saber que las aldeas eran similares en rasgos como el tamaño, la educación, la distribución de los grupos ocupacionales y el acceso a los servicios sanitarios previamente disponibles. Kielman, A.A., Taylor, CE. y Parker, R.L. (1978) American Journal of Clinical Nutrition, 31, 2040. Gillings, D., Makuc, D. y Siegel, E. (1981) American Journal of Public Health, 71, 38, describen una técnica estadística para comparar tendencias temporales y cambios en las mismas, mediante el uso de modelos de regresión por segmentos. Kark, S.L. y Cassel, J. (1952) South African Medical Journal, 26, 101 y 132; Kark, S.L. (1981) The Practice of Community-Oriented Primary Health Care, pp. 243-245. New York: Appleton-Century-Crofts. Diehr, P.K., Richardson, W.C., Shortell, S.M. y LoGerfo, J.P. (1979) Medical Care, 17, 989.
8 Métodos de muestreo
Las muestras escogidas simplemente por las buenas, o por «estar a mano», tienen pocas probabilidades de ser representativas. Cabe llamar a ese tipo de muestras «pedazos» o «muestras accidentales». Su uso no tiene cabida en la investigación que se realiza en medicina comunitaria, excepto posiblemente en estudios exploratorios en los cuales el investigador únicamente quiere conseguir una «impresión» de la situación. Hay veces en que se recurre a selecciones intencionadas, eligiendo una muestra que por determinadas razones se cree típica de la población. Una de dichas técnicas es el llamado muestreo «por cuotas», mediante el cual se decide a priori la composición general de la muestra en términos de —por ejemplo— edad, sexo y clase social; se determinan para, supongamos, hombres y mujeres de diferentes edades y clases sociales las cuotas o cantidades precisas, habiendo como único requisito a cumplir el de encontrar el número adecuado de personas. La desventaja de este método es no saber realmente nunca si existen diferencias entre las personas elegidas y la población total de cada categoría, con lo que las generalizaciones realizadas a partir de los hallazgos podrían ser incorrectas. El método recomendable es el del muestreo probabilístico1 cuyo rasgo distintivo consiste en que cada unidad individual de la población total (o unidad maestral) poseee una probabilidad conocida de resultar elegida. Ello permite realizar generalizaciones sobre la población «origen» con una precisión y confianza medibles (ver página 251). Discutiremos cuatro tipos de muestreo probabilístico: aleatorio, sistemático, estratificado y por conglomerados. Es posible realizar un muestreo probabilístico en más de una etapa (muestreo bi o multietápico). En lo referente a métodos de obtención de muestras, resulta importante sentar las reglas por adelantado, evitando toda posibilidad de que la selección se viera influenciada por el capricho o la conveniencia. En un estudio domiciliario, por ejemplo, los entrevistadores deben haber recibido con antelación las instrucciones sobre qué casas visitar. Si la inclusión en la muestra depende de alguna información a recoger durante la visita, deben darse al entrevistador las directrices concretas a seguir2.
74
MÉTODOS DE MUESTREO
75
Muestreo aleatorio El muestreo aleatorio (o «aleatorio simple») es una técnica que concede a cada unidad muestral la misma probabilidad de resultar seleccionada —esto es: son únicamente las leyes del azar quienes deciden cuáles unidades individuales de la población origen (o «diana») van a ser elegidas. Para evitar confusiones con el sentido coloquial de la palabra «aleatorio» («por las buenas» o «sin un sesgo consciente»), a veces se prefiere utilizar el término «muestreo aleatorio estricto». El procedimiento básico a seguir consiste en: 1. Preparar un marco muestral. Habitualmente es una lista con todas las unidades, estructuradas en cualquier orden, y de la cual hay que sacar la muestra. Su preparación puede requerir un esfuerzo considerable; pocas veces resulta fácil, por ejemplo, obtener una lista actualizada de las personas ancianas que viven en un vecindario. 2. Decidir el tamaño de la muestra. 3. Seleccionar al azar el número de unidades requeridas, extrayéndolas por lotes o (lo que es más conveniente) usando una tabla de números aleatorios. Este último método, muy sencillo aunque a veces algo tedioso, se explica en las páginas 80-81. La razón «número de unidades de la muestra/número de unidades del marco muestral» se conoce como razón o fracción muestral. Por lo general, se expresa en la forma «1 de cada n» (por ejemplo: «1 cada 3», «1 cada 4», etc.), o como porcentaje o proporción. El muestreo aleatorio no asegura que las características de la muestra y la población vayan a coincidir exactamente; siempre habrá diferencias debidas al azar. Sin embargo, de usarse métodos estadísticos adecuados, resulta posible calcular la probabilidad de que dichas divergencias se muevan dentro de unos ciertos límites (ver página 251). Puede ser aplicado no sólo en la selección de sujetos a partir de una población, sino también en la selección de momentos o lugares. En estos últimos casos, se usan como unidades muéstrales zonas o coordenadas de puntos; el marco muestral, por tanto, puede ser un mapa, en lugar de una lista. Muestreo sistemático En lugar de aleatoriamente, existe la posibilidad de recurrir a un sistema de selección predeterminado. La técnica habitual consiste de entrada en una lista, no necesariamente numerada, de todas las unidades a muestrear. Tras decidir el tamaño de la muestra requerido, el investigador calcula la razón muestral, expresada como «1 cada n», redondea n hacia el número entero más próximo y usa esa cifra (k) como intervalo muestral. Selecciona luego cada item que hace el orden k en la lista, comenzando en uno de ellos (del primero
76
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
al que hace k) elegido al azar. Constituye una técnica a veces más sencilla que el muestreo aleatorio simple. Dicha muestra puede ser considerada como esencialmente equivalente a otra aleatoria, a condición de que la lista no estuviese arreglada según sistema ni patrón cíclico alguno. Si de un listado de personas estructurado según edades decrecientes se selecciona una muestra sistemática 1 cada 30, la diferencia de edad entre aquélla cuyo miembro inicial seleccionado fuese el primero de la lista y aquella otra con el número 30 como primera selección podría resultar apreciable. Si se trata de una lista de domicilios de dos plantas enumerada de forma que pisos bajos y primeros fueran alternándose, una muestra sistemática 1 cada 2 (o cualquiera otra que usara un número par como intervalo muestral) contendría sólo pisos bajos, en un caso, o sólo primeros pisos, en el otro. Existen además métodos de muestreo sistemático que pueden usarse y no requieren listado previo de las unidades muéstrales. Por ejemplo, se puede decidir seleccionar a cada paciente que haga 3 en orden de admisión en el hospital, o a cada paciente cuyo número de identidad personal, número de la seguridad social, número de registro hospitalario o fecha de nacimiento (día del mes) acabe en dígitos predeterminados y escogidos al azar. Muestreo por conglomerados En esta modalidad, se selecciona una muestra aleatoria simple no de sujetos individuales, sino de grupos o conglomerados de individuos. Por tanto, las unidades muéstrales son grupales, y el marco muestral es una lista de dichos conglomerados. Puede tratarse de aldeas, bloques de pisos, clases escolares, casas, personas que viven en una misma vivienda o familias (nótese que estos últimos términos no son sinónimos)3, etc. El método es particularmente conveniente si al empezar no se dispone de un marco muestral con todos los sujetos individuales; ni que decir tiene, aparte de ello, es más fácil investigar a gente que vive en un número de casas o aldeas relativamente pequeño, que no a ese mismo número de gente elegida al azar en lugares de residencia más dispersos. La técnica posee el inconveniente, no obstante, de que si los conglomerados contienen personas similares («con una alta correlación intra-clase»), resulta difícil estimar la precisión de posibles generalizaciones aplicables a la población origen. Si se estudian las actitudes frente a la contracepción entrevistando una muestra aleatoria simple de 200 individuos, por ejemplo, resulta fácil formular la precisión con que podrían aplicarse a la población total los hallazgos realizados. Si, en cambio, esos 200 individuos se seleccionan de entre 40 familias, y dado que las actitudes ante la contracepción tienden a «ser homogéneas dentro de cada familia», la realidad será que habremos estudiado en verdad no 200, sino sólo 40 entidades. Más aún, si la cuarta parte de ellas contuviese cada una 10 ó más individuos, esas familias grandes habrían contribuido en una
MÉTODOS DE MUESTREO
77
proporción indebida —la mitad, como mínimo— al total de integrantes de la muestra (sin entrar en que, además, cabe asumir una cierta relación entre tamaño de la familia y opiniones sobre la contracepción). Manteniendo iguales el resto de las cosas, pues, resulta preferible un número grande de conglomerados pequeños a un número pequeño de conglomerados grandes. Muestreo estratificado Para utilizar este método se divide primero a la población (el marco muestral) en subgrupos o estratos, según una o más características —por ejemplo: grupos de edad y sexo— realizando luego en cada estrato, independientemente, un muestreo aleatorio o sistemático, según el caso (muestreo aleatorio estratificado, muestreo sistemático estratificado). Este procedimiento tiene la ventaja de generar menos variación muestral que el muestreo simple, tanto aleatorio como sistemático. Elimina dicha variación en lo referente a las propiedades utilizadas para estratificar, y si los estratos son más uniformes que la población total en torno a otros atributos, reduce asimismo la variación muestral con respecto a dichas otras propiedades. Cuanto mayores las diferencias entre los estratos y menores las diferencias dentro de los estratos, más ventaja se consigue con la estratificación. Puede usarse una razón muestral igual en todos los estratos. Se conoce a este procedimiento como «ubicación proporcional», puesto que el número de individuos escogidos en cada estrato es proporcional a su tamaño. De modo alternativo, cabe también usar diferentes razones muéstrales en estratos distintos; hacerlo permite realizar muestreos más duros en los subgrupos con pocos miembros, consiguiendo estimados aceptables no sólo para la población en su conjunto sino también para cada uno de sus subgrupos. Los estimados para el total de la población se consiguen combinando los datos de los diversos estratos. Si se van a utilizar fracciones muéstrales variables, hace falta articular un procedimiento de ponderación adecuado. Cuando se opta por una fracción muestral uniforme, se dice que la muestra está «autoponderada», pudiendo a algunos efectos tratársela como si fuese aleatoria o sistemática simple. Usar razones de muestreo variables aumenta mucho la complejidad del análisis, por lo cual no es algo a decidir a la ligera. Desde luego, no cabe ninguna objeción al uso de fracciones distintas si los estratos se mantienen separados a lo largo del análisis; esto es, si por ejemplo los escoceses, irlandeses y judíos van a estudiarse como grupos separados (pero entonces lo que tenemos son tres poblaciones estudio, no una muestra estratificada). Muestreo en dos etapas En el muestreo bi-etápico, se divide a la población en diversas unidades
78
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
iniciales («unidades muéstrales primarias») y se selecciona a continuación una muestra de dichas unidades mediante muestreo aleatorio simple, estratificado, o sistemático. Es dentro de cada una de estas unidades primarias donde se elige posteriormente a los individuos, utilizando cualquier método de muestreo. La muestra puede resultar sesgada si se seleccionaron muy pocas unidades de la primera etapa. Esas unidades de primera etapa podrían ser tractos censales, aldeas, cursos escolares, viviendas u otras agregaciones. Podría tratarse asimismo de periodos de tiempo —por ejemplo: si las muestras están extraídas de entre pacientes que acuden a un consultorio en días escogidos al azar. El método tiene las mismas ventajas que el muestreo por conglomerados —los entrevistadores han de viajar menos, hay que negociar con menos profesores, no hace falta un marco muestral con todos los individuos de la población, etc. Si se usan procedimientos de «auto-ponderación»., el análisis resulta simplificado, porque se asegura que cada individuo tenga una oportunidad igual de formar parte de la muestra . Muestreo multi-etápico Es un método utilizado en los estudios a gran escala. Se escoge una muestra de unidades muéstrales iniciales, se divide a cada una de las unidades seleccionadas en unidades de segunda etapa, se eligen muestras de estas unidades de la segunda etapa, y así sucesivamente. En cada fase pueden usarse métodos diferentes (muestreo aleatorio simple, estratificado, sistemático, o por conglomerados). Sustituciones No es raro que una vez escogida una muestra, se descubra la imposibilidad de investigar a algunos de los sujetos seleccionados. Son por ejemplo personas que pueden haber muerto o haberse mudado, que se niegan a colaborar, o simplemente no están disponibles por una u otra razón. En ese momento, se tiene siempre la tentación de reemplazar a dichos sujetos con otros elegidos aleatoriamente; se trata de un procedimiento aceptable (aunque habitualmente innecesario) puesto que debe recordarse que si las omisiones introducen un sesgo muestral, las sustituciones no lo eliminarán. El resultado conseguible sería sólo una muestra sesgada grande, en lugar de una muestra sesgada pequeña. Lo que resulta importante, de producirse más de unas pocas omisiones, es examinar si responden a algún tipo de sesgo determinando las razones que condujeron a las mismas, además de —a ser posible— estudiar las características demográficas y de otro tipo de los sujetos omitidos; ello permitirá valorar la relevancia que el sesgo en cuestión vaya a tener sobre los hallazgos del estudio..
MÉTODOS DE MUESTREO
79
Tamaño de la muestra Si una muestra es demasiado pequeña, al someter a comprobación las asociaciones resultará imposible realizar generalizaciones suficientemente precisas y fiables sobre la situación en la población origen, u obtener significación estadística (ver páginas 233-234). Ello hará inviable, en consecuencia, conseguir los objetivos del estudio. Por otra parte, estudiar una muestra mayor que la requerida por los objetivos planteados constituye un despilfarro. Más aún, si una muestra es suficientemente grande, cualquier diferencia, por pequeña que fuese, resultará estadísticamente significativa, lo que podría originar cierta tendencia a conceder importancia erróneamente a diferencias triviales. («Las muestras que son demasiado pequeñas no pueden probar nada; las demasiado grandes, pueden probar cualquier cosa»5). En algunos casos se dispone de tablas o nomogramas sencillos que indican el tamaño mínimo de la muestra o muestras requeridas, por ejemplo, para determinar una tasa de enfermedad u otra proporción en una población, o para comparar tasas entre dos poblaciones6. Incluso el uso de ayudas de este tipo, sin embargo, requiere de una cierta destreza estadística, y lo aconsejable para un investigador no versado en esta materia es acudir directamente en busca de asesoramiento por parte de un experto. Los cálculos del tamaño de una muestra requieren conjeturas y decisiones. Un investigador que desease conocer la tasa de incidencia de la diabetes, pongamos por caso, debe partir de una cierta idea de cuál es dicha tasa. Debe saber, asimismo, qué nivel de precisión desea para su estimación y qué nivel de confianza necesita —formulándolo de modo simplista, ¿qué «margen de error» acepta y qué riesgos está dispuesto a correr de que el error real sea mayor de dicho margen? Si quiere comparar las tasas de incidencia en dos poblaciones, ha de tener de entrada alguna idea de la existente en una de ellas, así como saber la magnitud de la diferencia que desea ser capaz de detectar, el nivel de significación a usar y la potencia de la prueba7. Conviene tener muy en cuenta, por tanto, los objetivos y el diseño del estudio, y prestar atención a las restricciones impuestas por los plazos y la disponibilidad de recursos, puesto que pueden afectar al tamaño de la muestra. Con respecto a este último apartado, resulta inevitable alcanzar un determinado equilibrio entre el coste y la utilidad de la muestra. Cuanto mayor sea el tamaño de la misma, menor será la variación muestral; es decir, resultará menos probable que la muestra induzca a error. (El tamaño total de la población «origen» es relativamente poco importante)8. Como guía aproximada, sépase que la utilidad de una muestra es proporcional no a su tamaño absoluto, sino a la raíz cuadrada de dicho tamaño. Para doblar la utilidad de una muestra, pues, hay que hacer 4 veces más grande su tamaño; en consecuencia, cuando se llega a los 200 elementos, el tamaño absoluto de la muestra debe aumentar considerablemente para lograr una diferencia apreciable en su utilidad. Ello
80
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
implica que siempre es necesario, como antes se señalaba, sopesar el aumento de los costes (determinado en gran medida por el tamaño de la muestra) frente al aumento de la utilidad (determinado básicamente, insistimos, por la raíz cuadrada de su tamaño). Las muestras destinadas a compararse entre sí —por ejemplo: los casos y los controles, en los ensayos clínicos y estudios retrospectivos— se suelen escoger de tamaños aproximadamente iguales. De ningún modo, sin embargo, este hecho resulta esencial, pudiendo incluso haber buenas razones para tener grupos desiguales9. En algunos ensayos terapéuticos y profilácticos en los cuales la entrada de los sujetos en la investigación se produce de modo seriado conforme se va disponiendo de ellos, no se adopta decisión inicial alguna sobre el tamaño de la muestra. Por contra, se establecen por adelantado reglas mediante las cuales se puede decidir en cualquier momento, sobre la base de los hallazgos realizados hasta entonces, si se han estudiado ya sujetos suficientes para obtener una respuesta considerable como suficientemente definitiva, momento en el cual podría detenerse el ensayo. Se llama a este procedimiento «análisis secuencial»10. Una dificultad básica al calcular el tamaño de la muestra, sea a priori o mediante el método secuencial, es que el resultado depende del atributo que se vaya a medir o comparar. Para estudiar las diferencias entre dos grupos respecto a sus niveles de lípidos en sangre, la incidencia de enfermedad coronaria, o sus tasas de mortalidad, por ejemplo, se precisan muestras de tamaños muy diferentes. A la hora de la verdad, sin embargo, pocas veces se lleva a cabo un estudio para investigar sólo una única característica, de modo que la verdadera pregunta muchas veces no es «¿Cuántos sujetos necesito?», sino «Con este tamaño de muestra que tengo (determinado por consideraciones prácticas), ¿sobre qué variables puedo esperar obtener hallazgos útiles? —y en dichas circunstancias, ¿vale la pena realizar el estudio?». Números aleatorios En la mayoría de los textos estadísticos de un cierto nivel resulta fácil encontrar tablas de números aleatorios, cuyos dígitos están secuenciados en un orden de esa misma naturaleza. Aquí recogemos un trozo pequeño de una de ellas (Tabla 8.1) 11 . Para seleccionar una muestra usando la tabla, se asigna a cada unidad muestral un número y se escogen luego las unidades que formarán dicha muestra leyendo las cifras de la tabla, empezando con cualquiera elegida al azar y procediendo en cualquier dirección predeterminada, hasta reunir la cantidad de unidades precisas. Los números que no aparecen en la lista de unidades muéstrales se ignoran, y por lo general se hace lo mismo con los que vuelven a salir tras haber sido ya seleccionados.
MÉTODOS DE MUESTREO
81
Tabla 8.1. Números aleatorios" Filas 1 2 3 4 5 6 7 8 9 10
1-4
Columnas 5-8
9-12
96 22 82 14 2147 89 31 63 29 7168 05 06 06 32 91 12 54 60
74 70 73 36 59 93 62 79 90 61 93 94 96 63 57 11 38 54 28 35
80 46 41 54 48 40 45 73 86 39 08 72 58 24 81 59 73 30 32 94
Supongamos, por ejemplo, que debemos elegir 5 unidades de entre 9, numeradas del 1 al 9; podría empezarse digamos por el «8» de la fila 4 de la tabla adjunta y leeríamos los números 8, 9, 3, 1, y 6 (moviéndonos horizontalmente). También podríamos movernos en vertical, y en ese caso seleccionaríamos las unidades con los números 8, 6, 7, 9 y 5 —ignoraríamos los dos «0», puesto que no hay ningún sujeto con ese dígito en nuestra numeración. Para escoger una muestra de entre 86 unidades, usaríamos pares de dígitos. Desplazándonos horizontalmente a partir del mismo punto de partida, seleccionaríamos las unidades 89 (habría que ignorarla), 31, 62, etc. Para escoger la muestra de entre 100 y 999 unidades muéstrales, usaríamos grupos de tres dígitos (893, 162, 794, 573, 632, y así sucesivamente). Con entre 1000 y 9999 unidades, grupos de cuatro dígitos (8931, 6279, etc.). A veces hay que descartar muchos números, y el proceso se vuelve francamente tedioso. Por ejemplo, si tenemos 195 unidades de entre las cuales elegir y empezamos por el mismo «8» de la calle 4, moviéndonos en horizontal, nos encontraríamos sólo con 2 números útiles de entre los primeros 16 posibles: 162, en la calle 4 y 050 (ó 50) en la calle 7. En casos así, puede recurrirse a métodos que faciliten las cosas. En el nuestro (con entre 101 y 200 unidades muéstrales), podríamos sustraer a cada número superior a 200 que nos saliera la cifra más grande posible múltiplo de esta cantidad (y, además, leer 000 como 200). Nuestra selección sería entonces: 93 (893 menos 800), 162, 194 (794 menos 600), 173 (573 menos 400), 32, 190, 18, 39, etc. De modo similar, con entre 201 y 300 unidades muéstrales sería posible sustraer un múltiplo de 300 de los números superiores a esa cifra, descartando los números por encima del 900. Cuando fuesen entre 301 y 400 las unidades muéstrales, se restaría 400 de los números por encima de esta cantidad, descartando los mayores de 800; y cuando tuviéramos entre 401 y 500, se podría restar 500 de los números por encima de dicha cantidad, leyendo asimismo 000 como 500.
82
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Randomización Existen diversas formas de utilizar los números aleatorios para «randomizar», es decir, para ubicar sujetos de forma aleatoria en los grupos experimental y de control (ver página 66). Si tenemos, por ejemplo, una serie de pares y debe asignarse un miembro de cada pareja al grupo experimental y el otro al de control, pueden usarse los números aleatorios (dígitos únicos) como sustitutos del lanzamiento de una moneda; los números pares serían interpretados como «caras» (tratar al primer miembro del par) y los impares, como «cruces» (tratar al segundo). Algo similar puede hacerse para ubicar a los casos sucesivos de una lista o serie; se usan los números aleatorios que vengan a continuación, interpretando los pares e impares como «experimental» y «control», respectivamente. Si la razón de ubicación requerida es de 2:1, cabe utilizar las cifras del 1 al 6 para un grupo y del 7 al 9 para el otro (ignorando los ceros). Si la cuestión fuese ubicar por igual a los sujetos en tres grupos, tendríamos que decidir que los números 1, 2 y 3 pertenecieran al grupo A, los 4, 5 y 6, al B, y los 7, 8 y 9, al C; de nuevo, deberíamos ignorar los ceros. Para evitar la posibilidad de que los métodos estrictamente aleatorios produjeran, por azar, una razón de asignación alejada de la deseable de 1:1, 2:1, o la que fuese, se recurre a la «randomización equilibrada». De precisarse una igual en los dos grupos, por ejemplo, se puede plantear una restricción al proceso de randomización que asegure que de cada bloque sucesivo de 6 sujetos, 3 son asignados a cada grupo. A tal efecto, se dispone de métodos bastante sencillos12. La estratificación previa de los sujetos (ver página 73) no asegura un buen equilibrio, ni en el estudio en su conjunto ni en los diferentes estratos. Si se quiere conseguir dicho equilibrio, deben aplicarse en cada estrato la randomización equilibrada o la asignación sistemática. Los sujetos entran a formar parte de un ensayo clínico habitualmente de forma secuenciada, conforme van estando disponibles. Por regla general, suele prepararse una lista de ubicaciones especificando el grupo al cual cada siguiente persona que se incorpora debe pertenecer. Puesto que resulta importante que los profesionales encargados de tareas clínicas no conozcan esa asignación por adelantado, muchas veces se recurre a los sobres numerados, que sólo deben ser abiertos una vez el sujeto está ya dentro del ensayo. Lo cierto, sin embargo, es que ni siquiera proceder así asegura que se vaya a actuar de un modo conforme con la asignación aleatoria 13 . Notas y referencias 1. Para una exposición detallada de los aspectos estadísticos del muestreo y el manejo de los datos muéstrales, ver Cochrane, W.G. (1977) Sampling Techniques, 3rd edn. New York: John Wiley. Por su parte, Bevan, J.M. y Draper, G.J. (1965), explican de modo ilustrativo las técnicas muéstrales y los problemas prácticos que acarrean, describiendo además las formas de obtener una muestra de los médicos de cabecera o de las consultas de medicina general (Medical Care, 3, 168).
MÉTODOS DE MUESTREO
83
2. Ejemplo de instrucciones para los entrevistadores: «Preguntar si en la casa vive algún niño de menos de 15 años; si «afirmativo», llevar a cabo la entrevista». O «Si «afirmativo», llevar a cabo la entrevista si hay una «A» en el sobre cerrado»; en este último caso, hace falta una ubicación previa de la proporción idónea de A's conforme con la fracción muestral; es importante barajar y mezclar bien los sobres. O «Si «afirmativo», realizar la entrevista caso de que el número del sobre cerrado esté entre el 0 y el 49»; (para una muestra de 1 cada 2, se requeriría usar números aleatorios del 0 al 99; no hace falta barajar tos sobres). 3. Un instituto de investigación usa las siguientes definiciones operativas: «Unidad de vivienda es toda habitación o grupo de habitaciones concebidas como espacios habitables diferenciados, estén luego ocupados o vacíos. En la práctica, se consideran moradas separadas y, por tanto, unidades de vivienda, aquéllas cuyos ocupantes viven y comen aparte de cualquier otro grupo del edificio y tienen acceso directo desde el exterior o a través de una entrada común, o instalaciones de cocina completas para uso exclusivo de sus ocupantes, las usen o no. (La definición entra luego a explicar lo que se quiere decir con «vivir aparte», «comer aparte», «acceso directo», etc.). Personas que residen en un domicilio son todas aquéllas que habitan en una unidad de vivienda en el momento en que el entrevistador habla con cualquiera de sus integrantes preguntando quién habita allí, incluidos quienes tienen ese y otro sitio más como lugares de residencia. El concepto incluye también a los ausentes en el momento del contacto, si poseen un lugar de residencia en dicha unidad y «ninguno más en ninguna otra parte». «Una unidad familiar consiste en los miembros de una vivienda relacionados entre sí por la sangre, el matrimonio o vínculos de adopción. Una persona no relacionada con los demás ocupantes de la casa —o que vive sola— constituye una unidad familiar con un sólo miembro». Si hay más de una unidad familiar en la vivienda, la «unidad familiar primaria» es la que posee o tiene alquilada la misma. «Si hay familias compartiendo la propiedad o la renta de la casa en términos de igualdad, se considerará por regla general como familia primaria a aquélla cuyo cabeza esté más cerca de los 45 años». Survey Research Center, Institute for Social Research (1976) Interviewer's Manual, pp. 39. 91 y 94. Ann Arbor: University of Michigan. 4. Para asegurar que cada individuo posee una posibilidad igual de ser seleccionado, se puede seleccionar a las unidades primarias con una probabilidad proporcional a su tamaño, escogiendo luego a un número igual de individuos a partir de cada unidad primaria. Yeoman, K.A. (1970) en Statistics for the Social Scientist: 2. Applied Statistics, pp. 131-132. Harmondsworth: Penguin Books, describe una técnica conveniente caso de no haber demasiadas unidades primarias en el marco muestral. Si hay demasiadas de ellas (pongamos que se trata, por ejemplo, de viviendas), resulta fácil estratificarlas según su tamaño y utilizar una razón muestral proporcional a dicho tamaño. Un método sencillo de escoger a un miembro único de cada vivienda seleccionada viene explicado por Cochran, W.G. (1977), op. cit., pp. 364365. Como alternativa de la selección de unidades primarias con el criterio «proporcional al tamaño», se puede recurrir a la elección mediante muestreo sencillo aleatorio o sistemático, utilizando en la segunda etapa una razón muestral uniforme. 5. Sackett, D.L. (1979) Journal of Chronic Diseases 32, 51. 6. Para tablas con los tamaños requeridos de las muestras para comparar proporciones (por ejemplo, de ensayos con éxito) en dos grupos iguales, ver Fleiss, J.L. (1981) Statistical Methods for Rates and Proportions, 2nd edn, pp. 42-44 y 260-280. En lo referente a los programas de calculadoras de bolsillo para obtener tamaños de la muestra a la hora de estimar una proporción o media, o de detectar una diferencia entre dos proporciones o medias, ver Nota 1, p. 188. 7. Ver pp. 233-234 y las Notas 12 y 13, pp. 245-247; si no (lo que es preferible, con mucho), recurrir a un texto de estadística, como podría ser el capítulo sobre el tamaño de la muestra en Fleiss, J.L. (1981), op. cit., pp. 33-49, o Cochrane, W.G. (1977) op. cit., cap. 4. 8. La corrección por población finita, factor introducido en el cálculo para tener en cuenta el
84
9.
10. 11.
12.
13.
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
efecto del tamaño de la población origen, es uno menos la fracción muestral. Si dicha fracción muestral es baja, el valor del factor es casi la unidad, teniendo la corrección una influencia prácticamente despreciable, lo que permitiría omitirla. Cochrane, W.G. (1977) op. cit., pp. 24-25. En un estudio de casos y controles en el cual existiesen pocos casos disponibles, se podría compensar el hecho incrementando el tamaño del grupo de controles. Similar consideración puede surgir en un ensayo clínico en que resultase inconveniente por cualquier razón un determinado tratamiento, costoso o potencialmente peligroso. En tales circunstancias, raras veces vale la pena estudiar un número de controles más de cuatro veces superior al de casos. Si el tratamiento resulta particularmente caro, las consideraciones económicas podrían justificar una razón superior a la anterior. Para explicación sobre cómo calcular los tamaños de muestras desiguales, ver Fleiss, J.L. (1981), op. cit., pp. 44-46. En cuanto a las discusiones técnicas de estos temas, vale la pena ver Gail, M., Williams, R., Byar, D.P. y Brown, C. (1976) Journal of Chronic Diseases 29, 723; Walter, S.D. (1977) American Journal of Epidemiology 105, 387; así como Meydrech, E.F. y Kupper, L.L. (1978) American Journal of Epidemiology, 107, 201. Ver Armitage, P. (1975) Sequential Medical Triáis, 2nd edn. Oxford: Blackwell. Se adjunta la muestra (Tabla 1) únicamente a modo de ilustración y no para ser utilizada. Las tablas de números aleatorios son fáciles de encontrar en la mayoría de los textos de estadística y en libros como Arkin, H. y Colton, R.R. (1969) Tables for Statisticians, 2nd. edn. New York: Barnes and Noble; y Diem, K. (ed.) (1962) Documenta Geygy Scientific Tables, 6th edn. Basle: J.R. Geigy. En lo referente a la randomización equilibrada, utilizando razones de 1:1, 1:2 ó 1:1:1, Peto, R., Pike, M.C., Armitage, P., Breslow, N.E., Cox, D.R., Howard, S.V., Mantel, N., McPherson, K., Peto, J. y Smith, P.G. dan instrucciones sencillas en British Journal of Cáncer, 34, 585. Para obtener una asignación equilibrada 1:1 entre dos grupos (A y B), por ejemplo, listar las 30 secuencias aceptables de 6 sujetos (AAABBB, AABABB, etc.) y luego (usando números aleatorios) escoger cuál de dichas secuencias va a aplicarse a cada bloque sucesivo de 6. Cuando se está asignando sujetos a 3 tratamientos, se pueden mantener iguales los grupos asegurando que 3 de cada 9 pacientes sucesivos van siendo colocados en cada uno de ellos. Puede conseguirse ésto asignando al tratamiento A los números 1, 2 y 3, al B los números 4, 5 y 6 y al C, el 7, el 8 y el 9. Luego se escoge un número aleatorio de un dígito. Yendo de izquierda a derecha en la línea superior de la tabla, el primer número es el 9, lo que significa que el primer caso debe ir al grupo C. El segundo número es el 6, y el tercero, el 2; ello significa que hay que asignar el segundo caso al grupo B y el tercero al A. El cuarto, el 2, se ignora, puesto que ya tenemos otro 2. El siguiente número es el 7, con lo que el cuarto caso va a parar al grupo C, y así sucesivamente para la serie completa de los 9 casos; la secuencia final es C, B, A, C, B, C, A, A, B. Hill, A.B. (1977), op. cit., pp. 303-304. Ver nota 13, pág. 72.
9 Las variables
Recibe el nombre de variable toda característica medida en un estudio, se realice su medición en números (por ejemplo, la edad o la altura) o en términos de categorías (por ejemplo, el sexo, o la presencia o ausencia de una enfermedad). Cuando se estudia la asociación entre dos variables, se las conoce como «dependiente» e «independiente», respectivamente. La que recibe el nombre de dependiente es aquélla que intentamos «colgar» de la otra. Por ejemplo, en un estudio sobre prevalencia de una enfermedad concreta en distintos grupos de edad y sexo, la presencia de la misma constituiría la variable dependiente, en tanto la edad y el sexo serían las independientes. Por el contrario, si estudiamos la frecuencia de un síntoma dado entre personas aquejadas de distintas enfermedades, el tipo de enfermedad sería la variable independiente. De querer saber si la meditación trascendental afecta a la presión arterial, la variable dependiente sería esta última. En un ensayo terapéutico, el tratamiento es la variable independiente, y la medida de resultado utilizada, la dependiente. Una variable basada en dos o más otras, por su parte, recibe el nombre de variable «compuesta». La adiposidad, por ejemplo, se mide en términos de un «índice ponderal», calculado dividiendo la altura de la persona (en pulgadas) por la raiz cúbica de su peso (expresado en libras). Las caries dentales se miden con el índice CAO, obtenible sumando el número de dientes permanentes cariados (C) al de ausentes (A) y obturados (O). Las tasas de incidencia y de prevalencia, las razones entre sexos, y todas las demás tasas1 y razones, son variables compuestas, puesto que están basadas en una información separada para el numerador y el denominador. Durante la planificación de un estudio es necesario seleccionar y clarificar las variables a medir. Selección de las variables Las variables a estudiar se seleccionan sobre la base de su relevancia para los objetivos de la investigación. Si dichos objetivos han quedado formulados por escrito, como se recomendaba al principio de este libro (ver página 33), las variables clave deberán haber sido mencionadas en ellos específicamente; 85
86
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
cuanto más específica la formulación de los objetivos, mayor número de variables habrán sido incluidas. Suele haber también otras no mencionadas en concreto, pero que no queda más remedio que medir para poder alcanzar las metas del estudio. Para seleccionar estas variables adicionales, conviene empezar listando todas las características (aparte de las variables independientes, que ya habrán sido especificadas) de las cuales se sabe o sospecha que afectan o causan las características (variables dependientes2) que el investigador desea estudiar. Cabe entonces ir valorando cada una de ellas, decidiendo si incluirlas o no en el estudio sobre la base de alguna de las siguientes cinco consideraciones: (a) Es lo suficientemente importante como para garantizar por sí misma su estudio como variable independiente. Omitirla sería un descuido grave. (b) Es un posible «factor de confusión» —es decir: podría oscurecer la relación entre alguna otra variable independiente y la variable dependiente, o tener cualquier otro efecto engañoso sobre dicha relación. Otra posibilidad es que estuviese ocasionando una asociación de escaso significado en sí misma (ver página 237). Una variable confunde un cuadro si está asociada al mismo tiempo con otra variable independiente y con la dependiente. En un estudio sobre la relación entre accidentes de trabajo y edad, por ejemplo, deberíamos decidir si tomar en cuenta el tipo de ocupación, puesto que los trabajadores de más edad podrían padecer menos accidentes laborales simplemente por poseer trabajos más seguros. Los efectos de confusión surgen sólo, insistimos, si la variable que confunde (en este caso, la ocupación) está asociada tanto con la variable independiente (edad) como con la dependiente (accidentes). (c) Pudiera ser una «variable modificadora» —esto es: estaría modificando la relación existente entre alguna otra variable independiente y la dependiente (ver página 235). Diríamos que especifica las condiciones de esta relación: ¿están los obreros de mayor edad particularmente inclinados a sufrir accidentes sólo durante su primer año de empleo?, ¿varía esa especial inclinación (o inmunidad) entre los distintos departamentos de la fábrica? Para saberlo, deberemos añadir a nuestra lista de variables las de «tiempo en ese empleo» y «departamento en que trabaja». (d) Pudiera tratarse de una «causa interviniente» (ver página 240) que explicase un mecanismo causal. ¿Cabe que una diferencia en el uso de equipos protectores explicase esta relación entre edad y accidentabilidad? (e) Si posee una influencia muy fuerte sobre la variable dependiente, podría valer la pena recogerla, incluso aunque en sí misma no fuese de mucho interés; la razón para hacerlo es que (bajo ciertas condiciones y en determinadas circunstancias), su inclusión en el análisis estadístico aumentaría de modo considerable la precisión (ver página 251) con la cual estimar los efectos de otras variables independientes que sí resultan de interés, y mejoraría la significación estadística de dichos efectos.
LAS VARIABLES
87
Además de a las variables obviamente relevantes para los objetivos del estudio, debe prestarse atención a los siguientes tres tipos de variables: 1. Variables «universales». Poseen tantas veces importancia en las investigaciones sobre grupos poblacionales que siempre hay que considerar la necesidad de incluirlas. No estamos planteando incluirlas automáticamente, insistimos, sino sólo valorar siempre la posibilidad de hacerlo. Se sugiere como lista básica de estas variables la siguiente: Sexo Edad Paridad Grupo étnico Religión Estado civil Clase social, y los atributos susceptibles de ser usados como indicadores de la misma, o como variables por derecho propio —caso de la ocupación, la educación, los ingresos y el índice de aglomeración doméstica Lugar de residencia (por ejemplo: región, medio rural/urbano) Movilidad geográfica (por ejemplo: lugar de nacimiento, fecha de inmigración) La lista, por supuesto, podría sufrir modificaciones para adecuarse a los intereses específicos del investigador y a la realidad de las poblaciones con que trabaja. En ciertas comunidades, por ejemplo, igual sería necesario reemplazar la clase por alguna otra medida de estratificación social, o añadir «raza» (en referencia fundamentalmente a la homogeneidad relativa del grupo respecto de la herencia biológica, en tanto «grupo étnico» expresaría sobre todo la medida en que se comparte una historia, una tradición social y cultural, y una forma de vida). 2. Medidas de tiempo. Además de las mediciones de importancia obvia (como la fecha de comienzo del cuadro en todo estudio de incidencia de una enfermedad), en una investigación longitudinal podría ser necesario registrar las fechas en las cuales los sujetos entran y salen del estudio. Se trata de una información esencial para las técnicas analíticas habitualmente manejadas en los estudios con periodos de observación variables —el uso de «persona-años de observación»3 como denominador para el cálculo de tasas— y para el método de las tablas de vida4. 3. Variables delineadoras de la población o poblaciones estudio. Las características de las mismas pueden indicar el grado en que resulta posible generalizar a partir de los hallazgos. Si hay que comparar grupos, conviene conocer sus similitudes y diferencias, demográficas y de otros tipos; de ir a usar una muestra, deben compararse sus rasgos con los de la población origen; si muchas personas no responden, habrá que compararlas (o a una muestra de
88
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
ellas) con las que sí lo hacen. A estos efectos, resulta importante incluir mediciones de los atributos de la población o poblaciones estudio. Pueden ser atributos con peso en el tema a tratar, o incluso tener poca relación con el mismo y estar introducidos únicamente como comprobaciones de la adecuación del procedimiento seguido para aparear, muestrear o ubicar a los sujetos. Número de variables ¿Cuántas variables estudiar? La única respuesta a la pregunta, y no sirve de mucho, es: «tantas como sean necesarias y las menos posibles». Una cosa está clara: la lista inicial suele ser demasiado larga, y hay que irla podando para facilitar la recogida y procesamiento de los datos. Bradford Hill cuenta cómo una vez alguien le envió el plan de una propuesta de estudio sobre causas de la prematuridad: «Al final, era un batiburrillo de 180 preguntas, cubriéndolo todo. Por ejemplo, parecía que la autora confiaba en que alguna persona o personas —no definidas en el borrador que yo vi— podrían informarle con exactitud sobre el intervalo de tiempo, en cada uno de los partos de cada mujer, transcurrido entre el nacimiento del crío y la expulsión de la placenta; la incidencia de malformaciones congénitas en las personas con relaciones de cosanguinidad con la madre; si ésta llevaba tacones altos o bajos; con qué frecuencia tomaba un baño caliente; el estado de salud del padre en el momento de la concepción; y, finalmente, la frecuencia de relaciones sexuales, pregunta encantadoramente incluida bajo el sub-epígrafe «amenidades sociales». Desde mi punto de vista, cosas así no tienen nada que ver con el método científico; no hacen sino confundir la realidad con los deseos, en la vana esperanza de que, si el sombrero es suficientemente grande, algún conejo terminará saliendo»5. Clarificar las variables Una vez seleccionadas las variables, hay que ir clarificando cada una de ellas. Existen dos aspectos a considerar. En primer lugar, resulta importante formular una definición operativa que acote sin error la variable en términos de hechos objetivamente medibles y diga, caso de ser necesario, cómo deben obtenerse estos hechos (ver capítulos 10 y 11). En segundo lugar, debe especificarse la escala de medición a usar en la recogida de los datos (capítulos 12 y 13). Se acompaña un ejemplo de lista de variables a medir en un estudio sobre enfermedades en niños (Tabla 9.1). Que el registro deba adoptar esta u otra forma es cuestión de gustos; pero la información señalada, indiscutiblemente, debe quedar recogida en algún lado. Nótese que la lista contiene dos variables, edad y clase social, de las cuales no se obtienen datos directos. En este estudio, la edad es una variable compuesta basada en la fecha de nacimiento y la de
LAS VARIABLES
89
Tabla 9.1. Lista de variables a medir en un estudio de enfermedades en niños Variable
Definición
Escala
Edad
Edad del niño al ser admitido en el hospital, calculada a partir de la fecha de nacimiento y de la de admisión.
Meses (0 a 11)
Fecha nacimiento
Fecha de nacimiento del niño, según registros hospitalarios
Fecha completa
Fecha admisión
Fecha de admisión del pequeño en el hospital, según los registros del centro
Fecha completa
Edad de la madre
En el momento del nacimiento del niño, según informa la propia madre
1. 2. 3. 4. 5. 6. 9.
Menos de 20 años 20-24 años 25-29 años 30-34 años 35-39 años 40 ó más años Sin información
Clase social
Grado ocupacional del padre, usando el esquema de gradación del Registro General Británico (ver páginas 94-95)
1. 2. 3. 4. 5.
Clase social I Clase social II Clase social III Clase social IV Clase social V Inclasificable
Ocupación del padre
Ocupación habitual del padre, según refiera la madre
Dar detalles
Motivo de ingreso en el hospital
Diagnóstico final, según resumen de los registros del hospital; si se ha recogido más de uno, el que el médico del Centro haya considerado causa de la admisión
Categorías detalladas de la Clasificación Internacional de Enfermedades
Hemoglobina
Concentración de hemoglobina en sangre de capilares, medida por el método de la cianometahemoglobina en las 24 horas siguientes a la admisión
Grs por 100 mis, redondeados por abajo hacia el gr. inmediatamente inferior
Satisfacción de la madre con el hospital
Respuesta a una pregunta específica, formulada a la madre en el plazo de una semana tras el alta o muerte del niño
1. 2. 3. 4. 9.
Muy satisfecha Satisfecha en conjunto Algo insatisfecha Muy insatisfecha No sabe, o no contesta
admisión, y la clase social se infiere a partir de la ocupación del padre. Construir la lista de esta forma sirve de recordatorio de los datos básicos a recoger.
90
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Si la investigación tiene que ver con más de una población estudio, se requiere más de una lista de variables; en cada una de ellas no es imprescindible, sin embargo, insertar de modo obsesivo todos los detalles sobre cada variable. Variables complejas Algunas variables son demasiado complejas como para medirlas con facilidad en forma de entidades únicas, y resulta preferible desagregarlas en aspectos componentes suyos que puedan tratarse como variables separadas y medirse también por separado. Si queremos, por ejemplo, investigar la «actitud ante el aborto», sería sensato obtener medidas separadas de la sostenida ante aquéllos cuya razón fundamental ha sido médica, económica o psicológica; los realizados por personal médico o por personal no cualificado; los realizados a mujeres casadas o no casadas, etc. Al final, siempre cabe combinar estas medidas separadas y dar lugar a una medición integrada única de «actitud ante el aborto» (que ahora sería una variable compuesta). De igual modo, si quisiéramos estudiar los hallazgos en una serie de electrocardiogramas, se podría, en lugar de realizar una valoración global y probablemente subjetiva del patrón de los mismos, prestar atención separadamente a distintos aspectos medibles, los patrones de las ondas Q y QS, las uniones y depresiones del segmento ST, etc. Tal abordaje constituye la base del Código de Minnesota de clasificación de hallazgos electrocardiográficos, de amplio uso en estudios epidemiológicos6. Posteriormente, las distintas combinaciones de hallazgos en los ECGs sirven para realizar diagnósticos de infarto de miocardio y otras patologías (variables compuestas). Notas y referencias
1. Una tasa expresa la frecuencia de una característica por 100 (o por 1.000, por millón, etc.) personas de una población. Para obtener una tasa de mortalidad, se divide el número de muertes (numerador) por el de personas de la población (denominador) y se lo multiplica por 100, 1000 o el número que se estime conveniente. La importancia de los datos del denominador nunca será sobreenfatizada en medicina comunitaria. Se ha dicho que así como los doctores con actividad clínica tienen siempre a mano un fonendo, el epidemiólogo debe llevar siempre en el bolsillo de atrás un denominador. Ese denominador es la «población a riesgo». Si se limita el numerador a una categoría específica —varones, por ejemplo— hay que restringir el denominador de modo similar (tasas específicas por sexos, específicas por edades, etc.). En una tasa anual de mortalidad, el numerador es el número de muertes ocurridas durante un año. El denominador habitual es el tamaño poblacional a la mitad del periodo, que puede estimarse como media de las poblaciones a principios y a finales del año. Una tasa de mortalidad anual media se calcula promediando las mortalidades anuales, o usando como numerador las muertes de una serie de años y como denominador la suma de los tamaños de población anuales. Para las muertes por una causa definida, el denominador puede ser la población total (tasa de mortalidad por causa específica, o tasa por causa de muerte), o todas
LAS VARIABLES
91
las personas con la enfermedad (tasa de letalidad), o todas las muertes (tasa de mortalidad proporcional). Una tasa de prevalencia expresa la frecuencia de una enfermedad (incluidos casos antiguos) en un punto dado del tiempo (prevalencia puntual), o existentes en cualquier momento durante un periodo definido (prevalencia de periodo). El denominador es el tamaño de la población en el momento o durante el plazo en cuestión. El numerador de una tasa de prevalencia durante la vida incluye a todos los miembros de la población estudiada (habitualmente, de determinada edad) que en alguna oportunidad padecieron esa enfermedad. Una tasa de incidencia expresa la ocurrencia de casos nuevos —personas afectadas por una enfermedad o episodios (veces) de la misma —durante un periodo definido. El denominador habitual de una tasa de incidencia anual es la población a mitad del año, estimación del número de persona-años de exposición al riesgo, por lo que es una tasa de incidencia sobre personastiempo («densidad de incidencia», «fuerza de morbilidad»). Una tasa de incidencia acumulada mide la incidencia que se produce en una cohorte inicialmente libre de la enfermedad, siendo su denominador el tamaño de la cohorte al comenzar el periodo. Una tasa de ataque secundario mide la incidencia de enfermedad entre la gente expuesta a ella. Se la suele calcular a partir de datos sobre las viviendas donde ocurrió el cuadro; el primer caso de cada vivienda (el «caso índice») se excluye tanto del numerador como del denominador; de este último hay también que excluir a las personas no-susceptibles. El numerador de una tasa de admisión es el número de admisiones o gente ingresada en un hospital durante un periodo dado de tiempo. El numerador de una tasa de consultas es el número de visitas realizadas al doctor, por cualquier motivo, o por uno concreto, durante un periodo definido. El denominador de una tasa puede ser sólo una estimación conveniente de la población sometida a riesgo. (Se usa este último término para referirnos a todos los candidatos potenciales a entrar en el numerador, no a los individuos con un riesgo particularmente alto). El numerador de una tasa de mortalidad infantil, por ejemplo, es el número de muertes ocurridas durante el primer año de vida, a lo largo de un año dado del calendario. Algunos de los lactantes que murieron habrán nacido en el año calendárico anterior. Sin embargo, el denominador habitual es el número de nacidos vivos en ese mismo año del calendario, que se asume será el mismo que el de niños a riesgo de morir antes de su primer cumpleaños durante ese año. Este mismo denominador suele usarse para la tasa de mortalidad neonatal (muertes en los primeros 28 días de vida), la tasa de mortalidad post-neonatal (muertes durante el resto del primer año), la tasa de mortalidad maternal (muertes debidas a causas puerperales), y a veces para la tasa de mortalidad perinatal (muertes fetales tras 28 ó más semanas de gestación y muertes postneonatales durante la primera semana —hay también otras definiciones; lo correcto es incluir las muertes fetales en el denominador). El número de nacidos vivos durante un año es el numerador de la tasa de natalidad (denominador: población total a mediados del año) y de la de fertilidad (denominador: número de mujeres entre 15-49 años). En la Nota 22 de la página 248 se explican las tasas ajustadas o estandarizadas. Tasas crudas o brutas son las (referidas a toda la población) que no han sido ajustadas. Algunas tasas son proporciones (esto es: el numerador está incluido en el denominador), en tanto otras son realmente razones (el numerador no está incluido en el denominador), y hay gente que se lo pasa francamente bien discutiendo la nomenclatura correcta. Algunos expertos prefieren dejar la palabra tasa para las medidas de la rapidez de los cambios, rechazando el uso común de términos como «tasa de prevalencia» sobre la base de que «el término «prevalencia» es bastante legítimo, pero una «tasa de prevalencia» es un concepto imposible». Elandt-Johnson, R.C. (1975) American Journal of Epidemiology, 102, 261. 2. Para simplificar la discusión, se hace aquí equivalente la «variable dependiente» al «efecto postulado». Ello no es estrictamente verdad en un estudio de casos y controles, donde la
92
3. 4. 5. 6.
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
presencia de la enfermedad (efecto postulado) es la variable independiente en la mayoría de los análisis estadísticos. Para una explicación de las «persona-años de observación» y un ejemplo de su cálculo, ver MacMahon, B. y Pugh, T.F. (1970) Epidemiology: Principies and Methods, pp. 227-229. Boston, Mass.: Little, Brown. Para explicación sencilla del método de las tablas de vida, ver Hill, A.B. (1977) A Short Textbook of Medical Statistics, pp. 199-213. London: Hodder & Stoughton. Hill, A.B. (1962) Statistical Methods in Clinical and Preventive Medicine, p. 360. Edinburgh: Livingstone. Rose, G.A. y Blackburn, H. (1968) Cardiovascular Survey Methods, pp. 137-154. Geneva: WHO.
10 Definición de las variables Cada una de las variables medidas en un estudio debe venir definida de modo claro y explícito. De no hacerse así, es imposible tener la seguridad de que si otro investigador distinto lleva a cabo ese mismo estudio, o el investigador original lo repite, pudiesen obtenerse hallazgos similares. Un mismo término puede, sin embargo, poseer más de un significado incluso en su uso cotidiano; normalmente no hay definiciones «correctas» tajantes, universalmente aceptadas. El investigador se ve obligado, pues, a escoger una definición que le resulte útil para su estudio; como Humpty Dumpty, el personaje del cuento, ha de decir: «Cuando uso una palabra, significa exactamente lo que yo escojo que signifique —ni más ni menos». Existen dos tipos de definición: conceptual y operativa. La «definición conceptual» acota una variable conforme a como nosotros la concebimos. Parece muchas veces una definición de diccionario. Por ejemplo, podemos definir la obesidad como «exceso de gordura», «sobrepeso», o «condición corporal socialmente considerada constituyente de una gordura excesiva». Queda claro, por tanto, que la definición conceptual está referida a las características que queremos medir. Por contra, la «operativa» (o «definición de trabajo») define las características que realmente medimos. Se la verbaliza en términos de hechos objetivamente observables, siendo suficientemente clara y explícita como para impedir las ambigüedades. De ser necesario, hace explícito el método mediante el cual se han obtenido los hechos. La «obesidad», por ejemplo, podría ser definida operativamente en distintos estudios como: «un peso, medido en ropa interior y sin zapatos, que excede en un 10% ó más al peso medio de las personas del sexo, edad y altura del sujeto (en una población y un momento específicos)»; o como «un pliegue cutáneo de 25 mms o más de grosor, medido con un calibrador Harpenden en la parte posterior del brazo derecho a mitad de camino entre la punta de la apófisis acromial y la punta del olécranon (localizando este nivel con el antebrazo flexionado a 90 grados), estando el brazo colgando libremente y tomando el pliegue de forma paralela a su eje longitudinal»; o como 93
94
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
«una respuesta positiva a la pregunta: «Dígamelo claramente: ¿está usted gordo?»; o como «una respuesta positiva a la pregunta: «¿Cree su marido-esposa que está usted demasiado gorda/o?». De igual manera, se podría definir la disposición a someterse a un reconocimiento médico como: «una respuesta positiva a la pregunta: «¿Estaría usted dispuesto a someterse a un reconocimiento de salud en la clínica tal (especificar), si se le ofreciese sin tener que pagar?»; o como «la asistencia para someterse a reconocimiento (en un centro médico y durante un periodo de tiempo especificados), según conste en los registros (determinar) de tal servicio». A veces resulta útil, pero no siempre es esencial, formular la definición conceptual de una variable. Por contra, sin embargo, siempre es necesario formular la definición operativa. Al hacerlo, el investigador se ve poderosamente influido por consideraciones de factibilidad. Por ejemplo: en la mayoría de las investigaciones sobre tensión arterial, la característica que de verdad le interesa es la presión en el interior de las arterias; sin embargo, dado que las mediciones intra-arteriales no suelen resultar factibles, normalmente definirá la tensión arterial en términos de mediciones realizadas desde el exterior con un esfigmomanómetro. Dicha presión arterial, definida operativamente, puede ser notablemente distinta de la del interior de los vasos, sobre todo en los sujetos obesos1. Por razones parecidas, a veces se recurre a una definición operativa de la clase social manejando la clasificación de ocupaciones (Tabla 10.1) con los criterios del Registro General británico (en el caso de los niños se utiliza la profesión del padre, y en el de las mujeres casadas, la del marido). Así definida, la clase social no corresponderá necesariamente con la concepción que el investigador pudiera tener de las clases, quizá más relacionada con el prestigio o la riqueza, o con determinadas formas de conducta. En investigaciones concretas, sin embargo, una definición de este tipo (o cualquiera otra sencilla, como la del nivel educativo) puede resultar práctica, en tanto la realmente deseada por el investigador sería difícil o imposible de obtener. En otras palabras, pues, el investigador ha de jugar lo que ha sido llamado «el juego de las sustituciones». Sustituye lo que le gustaría medir por lo que está en su mano medir —una variable «aproximada». Las discrepancias pueden resultar inevitables, pero al menos es consciente de ellas. Si forzosamente van
DEFINICIÓN DE LAS VARIABLES
95
Tabla 10.1 Clasificación de las ocupaciones Clase social I. Alta y media alta
II. Intermedia
Ocupaciones (lista seleccionada) Profesiones elevadas —por ejemplo: médico, ingeniero, arquitecto, escritor, científico, etc. Grandes patronos Directores de empresas Profesiones de menos estatus —ejemplo: profesores, farmacéuticos, trabajadores sociales Pequeños empresarios y gerentes Granjeros
III. Trabajadores cualificados y de oficina Artesanos, oficinistas, capataces, supervisores IV. Intermedia
V. Obreros no cualificados
Obreros semi-cualificados —ejemplo: operarios de fábricas Obreros agrícolas Jornaleros, etc. Trabajadores domésticos Trabajadores ocasionales
a ser grandes, tendrá que reconsiderar, incluso, si vale la pena siquiera medir la variable, o hasta si vale la pena la investigación en su conjunto. A modo de ejemplo, supongamos que queremos realizar un estudio para comprobar la hipótesis de que los conductores con la salud emocional perturbada tienen un riesgo mayor de verse envueltos en accidentes de tráfico. De entrada, sin duda, nos resultaría difícil definir en términos operativos la «salud emocional». Definir un «accidente», por el contrario, parece cosa fácil (a fin de cuentas, todo el mundo sabe lo que es un accidente). A la hora de la verdad, sin embargo, la tarea no es tan sencilla: ¿incluiremos todos los contratiempos ocurridos en la carretera, o sólo los causantes de daños?; si esto último, ¿cualquier daño, fuese a vehículos, farolas, gatos, perros, etc., o sólo heridas a seres humanos?; si limitamos el estudio a los que ocasionaron lesiones a humanos, ¿habremos de incluir las leves y pasajeras, como un shock emocional momentáneo, o sólo las más graves? —y en caso de esto último, ¿qué queremos decir exactamente con «más graves»? Sea cual fuese la definición de accidente considerada, ¿resultará práctica?, ¿seremos capaces de conseguir la información que precisamos? A lo mejor es preciso volver y buscar los accidentes declarados a la policía, o a las compañías de seguros (que no necesariamente serán representativos del total de los accidentes), o incluso restringirnos a los accidentes fatales. De tratarse de esto último, la comprobación de los casos puede ser bastante completa, pero estaremos investigando sólo la punta del iceberg, en tanto ignoramos el grueso fundamental de los accidentes. ¿Responde esto a
96
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
nuestras necesidades, o más valdría dejarlo todo y concluir que no hay manera de hacer bien el trabajo? El ejemplo anterior deja clara la imposibilidad de sugerir un listado de definiciones «recomendables». En su lugar, concentraremos nuestra atención sobre ciertas preguntas que suelen surgir al buscar definiciones para algunas variables de uso común. Ocupación —¿Actual o habitual? ¿Aquélla para la cual el sujeto recibió formación (fuese una profesión o un oficio) o el trabajo que en realidad desempeña? Si retirado o desempleado, ¿se usa la ocupación previa? Educación —¿Número de años de educación, última cualificación alcanzada o último tipo de institución educativa a la que se acudió? Ingresos —¿Ingresos personales, ingresos familiares o ingreso familiar medio por miembro? índice de aglomeración (número medio de personas por habitación en la unidad de vivienda) —¿Qué habitaciones hay que excluir (baños, duchas, retretes, cocinas, cuartos trasteros, habitaciones utilizadas para negocios, descansillos de entrada)? ¿Se toma a los niños como enteros, o como medios en el cómputo? Clase social2 —¿Basada en la ocupación, la educación, el índice de aglomeración, los ingresos, el barrio de residencia, las comodidades del hogar, o la percepción subjetiva de la persona? ¿En uno sólo de estos elementos, o en una combinación? Si usamos la ocupación, ¿en el caso de las mujeres, recurriremos a las suyas o a las de sus maridos (¡atención a las feministas!)? Si a las de sus maridos, ¿cómo se clasifica a las solteras, viudas y divorciadas? ¿Registraremos a todos los miembros de la vivienda según la ocupación del cabeza de familia? Y de ser así, ¿cómo definiremos en qué consiste ser «cabeza de familia»3? ¿Cuál clasificación ocupacional resulta adecuada para su uso en la comunidad específica que se está estudiando? Grupo étnico —¿En términos de «raza» (ver página 87), país de nacimiento, país de nacimiento del padre (o de la madre), «extracción», tribu, religión, o percepción subjetiva de la persona? Estado marital —En términos de estatus legal (soltero, casado, viudo, divorciado; y, en algunas comunidades, «casados por lo civil» y «separados»); o en términos de la estabilidad de la unión ¿por ejemplo: unión estable, unión más o menos temporal? ¿Estatus actual, o experiencia marital total («segundas nupcias», etc.)?
DEFINICIÓN DE LAS VARIABLES
97
Paridad —Número total de embarazos previos, únicamente aquéllos que acabaron en partos (incluyendo los nacimientos con el feto muerto), o número de hijos nacidos vivos? Fecha de comienzo de la enfermedad —Momento en que se notaron los primeros síntomas, momento en que fueron diagnosticados por primera vez, o fecha de la notificación del diagnóstico? Presencia de enfermedad crónica4 —¿Sobre la base de la duración desde el comienzo? De ser así, ¿a partir de qué duración puede hablarse de crónico —3 meses, 6 meses, 1 año? ¿Sobre la base de la presencia de ciertas enfermedades, definidas como crónicas, sin que importe su duración? Y en ese caso, ¿cuáles? ¿Se incluyen la caries dental, la miopía y la obesidad? ¿Se consideran suficientes los síntomas crónicos —(tos, estreñimiento, etc.)? ¿Qué pasa, entonces, con las patologías que aparecen una y otra vez, como los dolores de garganta recurrentes? Incapacidad —¿Capacidad para funcionar, o funcionamiento real? ¿Valorada por la persona misma, la familia, o el examinador? ¿Qué funciones hay que considerar —la capacidad de caminar sólo, o la de desarrollar actividades mayores (trabajo, tareas domésticas, tareas escolares —pero ¿qué es una «actividad mayor» para un pensionista?), o la capacidad de ver, oir y desarrollar las actividades de la vida cotidiana? ¿Énfasis en la minusvalía física o en la incapacidad funcional? ¿Minusvalías incapacitantes de largo alcance únicamente, o también disfunciones temporales (jornadas de trabajo perdidas, días de ausencia escolar, días de cama, días con la actividad restringida por enfermedad o lesión)? ¿Medida como porcentaje de incapacidad, usando escalas tabuladas de las que sirven para decidir compensaciones (subsidios laborales, etc.)? Visita al médico —¿Se incluyen las consultas telefónicas? ¿Qué sucede cuando quien presta el servicio es una enfermera u otra persona que actúa siguiendo las instrucciones del doctor? Si el paciente viene a por un certificado, o a recoger una carta, ¿constituye eso una visita? ¿Puede hacerse una visita in absential —si la madre viene a consultar por un problema de su hijo, ¿a quién se le apunta la visita, a la madre o al niño? Si consulta por un problema suyo, pero el médico aprovecha la oportunidad para discutir un problema de salud de su hijo, o para prescribirle una medicación, ¿se apunta también a éste la visita? Hospitalización —¿Se considera tal la estancia para dar a luz un hijo? ¿Hay que incluir la estancia hospitalaria de un recién nacido sano? ¿Se considera
98
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
esencial para que exista hospitalización haber pasado la noche en el centro? ¿Se incluye la noche transcurrida en el servicio de urgencias? ¿Qué instituciones pueden considerarse parte del hospital? Cuando se piensa conseguir información susceptible de ser directamente comparada con los hallazgos de otros estudios, es importante tener la precaución de usar las mismas definiciones operativas que ellos. Existen unas pocas variables para las cuales se dispone de definiciones recomendadas internacionalmente y aceptadas de forma general5. Entre ellas se incluyen: «causa subyacente de muerte», «muerte neonatal», «muerte postneonatal», «muerte fetal precoz, intermedia y tardía», «duración de la gestación», «bajo peso al nacer», «industria» (rama de la actividad económica) y «estatus de empleo». Debe hacerse notar, finalmente, que para algunas variables, aunque resulte paradójico, sólo resulta posible formular definiciones operativas detalladas tras haber analizado los hallazgos. Son variables compuestas que se basan en combinar cierto número de items separados, usando reglas determinadas, lo cual sólo es posible tras haber sometido a examen la verdadera interrelación existente entre los items (ver páginas 118-119). Notas y referencias
1. Trout, K.W., Bertrand, C.A. y Williams, M.H. (1956) Journal of the American Medical Association, 162, 970. 2. Para una discusión breve de las mediciones de la clase social, ver Susser, M.W. y Watson, W. (1971) Sociology in Medicine, 2nd edn, pp. 111-123. Oxford University Press. Para una valoración comparativa de los indicadores de clase social, ver Abramson, J.H., Gofin, R., Habib, J., Pridan, H. y Gofin, J. (1982) Social Science and Medicine, 16, 1739. 3. Por lo general, identificar a la persona que está a cargo de la vivienda no suele constituir un problema. En los casos difíciles, puede incluso preguntarse a los miembros de la casa a quién consideran ellos tal. Otra posibilidad es diseñar una definición operativa detallada. Para un determinado instituto de investigación, el responsable de la vivienda es el cabeza de familia o, si hay más de una familia en el domicilio, el cabeza de «la unidad familiar primaria» (ver Nota 3, pág. 83). En caso de una pareja casada, con o sin niños pequeños, se considera cabeza de familia al marido, incluso si es la esposa quien está manteniendo económicamente a la familia. En otras ocasiones, será la cabeza la persona «económicamente dominante» —esto es, la que fundamentalmente gana el pan; en los casos dudosos, el miembro más activo en términos económicos (por ejemplo: quien estuviera recibiendo un salario en vez de una pensión). Si hay distintos miembros con igual capacidad económica, se selecciona al que esté más cerca de los 45 años de edad. Se sugiere una regla mnemotécnica en inglés: puede recordarse la palabra HEAD (cabeza) donde H significa «Husband» (marido), E sugiere «Económicamente dominante», A viene de «Age 45» (45 años de edad) y D trata de insistir de forma jocosa sobre la conducta a seguir («Do not expect your informant to know ...»: «No espere que su informante conozca nuestra definición de cabeza de familia. Determínela usted sobre la base de estos criterios». Survey Research Center, Institute for Social Research (1976) Manual del entrevistador, pp. 94-95. Ann Arbor: University of Michigan. En algunas comunidades, sería absurdo utilizar esta definición. 4. En un famoso estudio sobre enfermedades crónicas en Estados Unidos, la definición de trabajo inicial era: «La enfermedad crónica comprenderá toda incapacidad o desviación de la ñor-
DEFINICIÓN DE LAS VARIABLES
99
malidad que posea una o más de las siguientes características: ser permanente, ocasionar incapacidad residual, estar causada por alteración patológica no-reversible, precisar para su rehabilitación una formación especial por parte del paciente, y poder esperarse que requerirá un periodo largo de supervisión, observación o cuidado. Se encontró que la formulación era demasiado vaga y arbitraria, así como que incluía demasiados trastornos triviales. En la práctica, los médicos examinadores optaron por registrar todos los procesos crónicos que detectaron, pero había cuadros que desechaban si no eran «médicamente incapacitantes», es decir, si pensaban que no afectaban al bienestar del paciente ni interferían con sus actividades, siendo improbable que acabaran haciéndolo. El informe afirma: «Resulta difícil formular de forma concisa y específica cuáles son los cuadros incluidos en estos datos sobre «enfermedades crónicas». En última instancia, la definición es una lista de 47 categorías diagnósticas, más dos grupos de «todos los demás», para los cuales se presentan datos». Estos grupos calificados como de «otros diagnósticos» incluían la cuarta parte del total de los casos. Commission on Chronic Illness: (1959) Chronic lllness in the United States. Vol. III. Chronic Illness in a Rural Área: The Hunterdon Study, Harvard, pp. 149-151; y (1957) Vol. IV. Chronic lllness in a Large City: The Baltimore Study, pp. 49-50 y 513-520. Cambridge, Mass.: Harvard University Press. En el United States Health Interview Survey, se consideraba crónico un proceso si se informaba por parte del paciente haberlo sentido con más de 3 meses de antelación, o si estaba incluido en la lista de 34 patologías consideradas siempre crónicas. Estas últimas estaban expresadas en términos no cultos: por ejemplo, «problemas de corazón» y «problemas repetidos con la espalda o la columna». National Center for Health Statistics (1975). Health Interview Survey Procedure 1957-1974. Vital and Health Statistics series 1, No. 11, pp. 127-128, Washington: U.S. Department of Health, Education and Welfare. 5. Swaroop, S. (1960) Introduction to Health Statistics. Edinburgh: Livingstone. World Health Organization (1977) Manual of the International Statistical Classification of Diseases, Injuries and Causes of Death, 1975 Revisión, Vol. 1, pp. 763-764. Geneva: World Health Organization.
11 Definiciones de las enfermedades Como sucedía con cualquier otra variable, resulta de la mayor importancia establecer definiciones operativas claras de las enfermedades. Dicha tarea dista de ser fácil. El médico con actividad asistencial tiende a establecer su diagnóstico juzgando clínicamente la medida en que la situación del paciente se adecúa a su concepto de esa enfermedad determinada. Al hacer tal juicio, muy pocas veces utiliza reglas diagnósticas rígidas —es decir, su diagnóstico tiende a estar basado sobre una definición conceptual más que operativa explícita. Por eso, inevitablemente, los médicos están muchas veces en desacuerdo entre sí. En un estudio o en un experimento, como se señalaba en el capítulo anterior, la única manera de conseguir que los hallazgos sean reproducibles está en usar definiciones de trabajo estandarizadas. Si por ejemplo hemos formulado y utilizado una definición operativa de la fiebre reumática, podremos informar de los casos de dicha enfermedad encontrados con la seguridad de que cualquier otro investigador, usando la misma definición, obtendría hallazgos similares. Estas consideraciones constituyen la base misma de una buena investigación. Algunos de los diagnósticos realizados con nuestra definición podrían diferir de los alcanzables mediante juicios clínicos, o no ser siempre útiles como base sobre la que instaurar un tratamiento. Desde el punto de vista de un clínico, asimismo, nuestra rígida aplicación de reglas diagnósticas podría haber ocasionado la inclusión incorrecta de algunos casos, en tanto habría otros, no diagnosticados con nuestros criterios, que él catalogaría como pacientes con fiebre reumática si aplicase su juicio, o a los cuales habría que conceder el beneficio de la duda e imponer un tratamiento adecuado para impedir las complicaciones evitables de dicha enfermedad. Son discrepancias que, aunque deben intentar minimizarse escogiendo una definición satisfactoria, no deberían preocuparnos más allá de lo imprescindible: al informar de nuestros hallazgos en relación con la fiebre reumática, sabremos y estaremos en condiciones de explicar exactamente qué queremos decir con ese término. Por desgracia, son pocas las enfermedades con una definición operativa satisfactoria y ampliamente aceptada. Las definiciones de los libros de texto médicos suelen ser conceptuales. He aquí un ejemplo1: 100
DEFINICIONES DE LAS ENFERMEDADES
101
Resfriado común. Definición: Se trata de un complejo de síntomas causados por una infección viral de las vías respiratorias altas. De modo más preciso, el término hace referencia a un catarro no febril y agudo de origen viral. En su acepción amplia, se entiende por resfriado común cualquier infección respiratoria alta de carácter indiferenciado. A veces se usan los términos rinitis, faringitis, laringitis y «enfriamiento en el pecho» para designar las principales ubicaciones anatómicas de la infección. La principal diferencia entre un resfriado común y otras infecciones respiratorias virales o bacterianas es la ausencia de fiebre, así como lo relativamente leve de los síntomas y signos que lo constituyen.
Es obvio que esta definición no proporciona reglas rígidas con las cuales diagnosticar un resfriado. La afirmación de que su causa es una infección por virus no significa que no pueda ser diagnosticado sin un examen virológico. La puntualización sobre la ausencia de fiebre y lo relativamente leve de los síntomas, no significa que todo paciente cuyos síntomas sean leves y carezcan de fiebre tengan un resfriado. En definitiva, los criterios diagnósticos no están especificados con claridad. Definiciones operativas Por contra, las definiciones operativas de las enfermedades, como las de cualquier otra variable, han de estar formuladas en términos de hechos objetivamente observables, y ser suficientemente claras y explícitas como para evitar toda ambigüedad. En una investigación basada en formular preguntas cada semana a una muestra poblacional, habría que definir «resfriado común», por ejemplo, como «referir constipado o catarro nasal». Tal diagnóstico no sería completamente válido, puesto que incluiría algunos casos de rinitis alérgica y seguramente habría determinadas personas con catarro nasal que no referirían padecerlo, pero la definición tiene las ventajas de ser inequívoca y eminentemente práctica. De modo similar, en una investigación basada en exámenes realizados por médicos de cabecera, podría decidirse definir la «gripe» como un cuadro con «garganta enrojecida o dolorosa y/o nariz constipada o catarral, junto con fiebre, dolores musculares y postración, o malestar general; debe diagnosticarse sólo en ausencia de signos de supuración en la garganta, como sucede en la faringitis supurada o la amigdalitis folicular agudas; no diagnosticar si no se ha detectado el virus de la gripe en material relacionado con el paciente o con otros pacientes de la vecindad, examinados en el curso del mes anterior (de no haberse hallado el virus de la gripe, se hablará de «síndrome gripal»)». Las definiciones operativas de este tipo vienen formuladas en términos de criterios diagnósticos; esto es, la definición constituye un conjunto de reglas útiles para diagnosticar la enfermedad sobre la base de la presencia de determinadas características. Dichos criterios pueden ser «manifestaciones» o «experiencias causales»2. Entre los criterios manifestacionales se incluyen los signos físicos, los síntomas, la conducta, el curso de la enfermedad, la respuesta a una terapia específica, etc. Los «causales», por contra, son tipos de expe-
102
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
riencia comenzadas en algún momento anterior a la enfermedad, y a las cuales muchas veces se califica de forma vaga como «la causa» de la enfermedad —por ejemplo: un parto difícil, un accidente, la exposición al plomo, o el contacto con un caso de sarampión. Para ciertas enfermedades concretas se usan criterios manifestacionales, de experiencia, o de ambos tipos. Los criterios diagnósticos de una enfermedad se sacan de aquellas manifestaciones y experiencias relativamente frecuentes —en comparación con su frecuencia entre las personas sanas y entre las aquejadas de otros procesos— en las personas a las que los médicos asistenciales diagnosticarían como afectadas por esa enfermedad. Se seleccionan como criterios diagnósticos, pues, algunas de dichas manifestaciones y experiencias, procediéndose luego a establecer las reglas para diagnosticarla. Por ejemplo, una enfermedad podría diagnosticarse: (a) sólo cuando estuviesen presentes todos los criterios; o (b) sólo en presencia de un número suficiente de ellos; o (c) sólo en presencia de combinaciones específicas de esos criterios; o (d) sólo cuando ciertos criterios específicos (o combinaciones de ellos) estuviesen presentes, cumpliéndose además algunas otras condiciones adicionales (por ejemplo, la presencia de un número suficiente de criterios «menores»); o (e) sólo cuando, puntuando cada criterio de una determinada manera, se alcanzase una puntuación determinada; una ponderación de ese tipo haría posible conceder más importancia diagnóstica a algunos criterios que a otros; o (f) sólo cuando una u otra de las condiciones anteriores se cumplieran, y adicionalmente pudiera excluirse la presencia de ciertas otras enfermedades bien definidas. A modo de ilustración, he aquí unas reglas sugeridas para diagnosticar la neurosis de angustia: A. Deben hallarse presentes las siguientes manifestaciones: (1) Edad de comienzo anterior a los 40 años. (2) Estado nervioso crónico con ataques de ansiedad recurrentes, que se manifiestan en forma de aprensión, sensación de temor o sentimiento de condena pendiente, debiendo estar presentes al menos 4 de los siguientes síntomas durante la mayoría de los ataques: (a) disnea, (b) palpitaciones, (c) dolor o disconfort en el pecho, (d) sensación de ahogo o sofoco, (e) aturdimiento y (f) parestesias. B. Los ataques de angustia resultan esenciales para el diagnóstico y deben ocurrir en momentos no coincidentes con situaciones de notoria tensión física o que pusieran la vida en peligro, y en ausencia de enfermedades médicas potencialmente responsables de los síntomas angustiosos. Debe haber habido 6 ataques de angustia, como mínimo, separados entre sí por al menos una semana de tiempo. C. En presencia de otra(s) enfermedad(es) psiquiátrica(s), se realizará este diagnóstico sólo si los criterios descritos en A y B anteceden al comienzo de las otras enfermedades psiquiátricas en al menos 2 años.
DEFINICIONES DE LAS ENFERMEDADES
103
A veces es posible validar las reglas comparándolas con los diagnósticos establecidos mediante un «mejor» conjunto de criterios, es decir, con una definición operativa que, prima facie o porque incorpora pruebas más sofisticadas o más exactas, parece aproximarse más a la definición conceptual de la enfermedad. En general, la decisión sobre la utilidad de las reglas se basa únicamente en el grado en el cual los diagnósticos que establecen coinciden con los realizados tomando los juicios clínicos como base. A pesar de las limitaciones obvias que presenta este método, frecuentemente resulta ser el único practicable. Dependiendo del propósito del estudio, es posible usar definiciones operativas de especificidad diferente. Si el objetivo es identificar a personas que casi con certeza padecen la enfermedad, se necesita una definición altamente específica, por lo cual deberán usarse criterios que dejarán sin identificar a mucha gente que los clínicos habrían considerado afectados por dicha enfermedad. Por el contrario, si el objetivo fuese detectar a todas las personas aquejadas de la enfermedad, incluso a expensas de incluir erróneamente a muchos que no la padezcan, harían falta criterios menos restrictivos. La definición operativa no sólo debe distinguir el proceso que nos interesa respecto de otras enfermedades, sino servir también para delimitarlo en sus gradientes biológicos. Si se trata de la poliomielitis, por ejemplo, podría desearse incluir sólo a las relativamente pocas personas que acaban padeciendo parálisis persistente, o al número un poco mayor de los aquejados por una parálisis transitoria, o a los muchos más que estuvieron enfermos pero no sufrieron una parálisis, o a la todavía mayor cantidad de personas que padecieron una afección «subclínica». La elección de los criterios a usar estará muy influenciada por los métodos de recogida de los datos. Entre un estudio basado únicamente en entrevistas, otro en el que se llevasen a cabo exámenes clínicos y, finalmente, otro con pruebas diagnósticas bioquímicas, microbiológicas, radiológicas y demás, sería posible utilizar criterios muy distintos. Si tomamos como ilustración la bronquitis crónica, una definición que especificara «cambios crónicos inflamatorios, fibróticos y atróficos de las estructuras bronquiales», sería obviamente de aplicabilidad limitada más allá de la sala de autopsias; la mayoría de los pacientes pondría pegas a la idea de donar sus pulmones o parte de los mismos para posibilitar la realización de las pruebas diagnósticas. En el extremo opuesto, si se define la bronquitis crónica como «la producción de una flema proveniente del pecho, expulsada al menos dos veces al día la mayoría de las jornadas, durante al menos tres meses al año, durante dos o más años»4, no hará falta formación médica alguna para diagnosticar el proceso, y los datos se podrán obtener mediante el uso de un cuestionario estándar. Ya hemos dicho con anterioridad que son pocas las enfermedades con definiciones de trabajo satisfactorias y ampliamente aceptadas. Paradójica-
104
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
mente, las dificultades surgen muchas veces no por ausencia, sino por exceso de definiciones operativas. Investigadores distintos utilizan definiciones distintas, lo cual hace difíciles de comparar sus hallazgos respectivos. Consecuentemente, si se desea producir resultados comparables, los criterios seleccionados deben ser conformes con los utilizados en las restantes ocasiones. Abordaje lateral del tema En muchas investigaciones (podría decirse incluso que en la mayoría) se evita tener que abordar frontalmente la necesidad de formular criterios diagnósticos definiendo operativamente a las enfermedades en términos de sólo informar de su presencia. Es decir, el proceso diagnóstico es confiado a alguien ajeno a la investigación (habitualmente, un médico; otras veces, el propio paciente, un familiar, un maestro, etc.), y luego se toma como prueba de la presencia de la enfermedad la existencia de un informe positivo al respecto; por ejemplo, se podrían definir operativamente las «hemorroides» como: «un diagnóstico registrado de «hemorroides» o «almorranas» (en un determinado registro clínico)»; o como «una respuesta positiva a la pregunta «¿Le ha dicho un médico alguna vez que tenía hemoroides o almorranas?»; o como «una respuesta positiva a la pregunta «¿Tiene usted hemorroides?» El uso de este tipo de información diagnóstica de segunda mano, no basada en criterios definidos, tiene limitaciones obvias. Con frecuencia, sin embargo, constituye el único abordaje posible, por lo cual no debe ser rechazado a la ligera (sobre todo, si se obtiene la información de servicios clínicos bien equipados y con estándares altos de práctica clínica). Si este método «imperfecto» demuestra ser el único práctico, debe ser utilizado siempre que se tengan en cuenta los efectos potenciales de dicha «imperfección» sobre los hallazgos, y que se sea lo suficientemente cauto a la hora de interpretar éstos. Notas y referencias 1. Beeson, P.B. y McDermott, W. (eds.) (1971) Cecil-Loeb Textbook of Medicine, 13th edn, p. 358. Philadelphia: Saunders. 2. MacMahon, B. y Pugh, T.F. (1970) Epidemiology: Principies and Methods. pp. 47-54. Boston, Mass.: Little, Brown. 3. Feighner, J.P., Robins, E,, Guze, S.B., Woodruff, R.A., Winokur, G. y Muñoz, R. (1972) Archives of General Psichiatry, 26, 57. 4. Fletcher, C.M. (1963) En Epidemiology: Reports on Research and Teaching, 1962, ed. Pemberton, J., p. 253. Oxford University Press.
12 Escalas de medición Como parte del proceso de clarificar cada una de las variables sometidas a estudio, debe especificarse su escala de medición. Tipos de escala Una escala de medición puede ser de los siguientes cuatro tipos (aunque cabe encontrar también otros términos, como «categórica», «binaria», «existencial», «métrica», «dimensional», «continua», y «discreta»)1: 1. Nominal 2. Ordinal 3. De intervalos 4. De razones o ratios Están enumeradas en un orden ascendente de «potencia» y preferencia. Cada tipo de escalas es más «fuerte» que el anterior, en el sentido de proporcionar su misma clase de información, más cierta otra información adicional. 1. Escala nominal. Consta de dos o más categorías (clases) mutuamente excluyentes. Si sólo hay dos, se llama a la escala «dicotomía»2. Para identificar las categorías pueden usarse cifras que únicamente son «números de código» sin significado cuantitativo, excepto cuando —en una escala dicotómica que midiese la ocurrencia o existencia de algún atributo o suceso— se usasen el 0 y el 1 para indicar «ausente» y «presente», respectivamente, o «no» y «sí». Pongamos unos ejemplos: Conformidad con una afirmación: acuerdo; desacuerdo Sexo: 1, varón; 2, hembra. Ocurrencia de dolor de cabeza: 1, sí, 0, no. Fumar: 0, no fuma cigarrillos; 1, fuma cigarrillos. Fumar: nunca fumó; ex-fumador; fuma cigarrillos; fuma puros o pipa sólo. Estado civil: soltero; casado; viudo; divorciado. Rama de la actividad económica: agricultura; minería; industria; construcción; comercio; transporte; servicios; otras ramas económicas. Tipos de anemia: anemia ferropénica; otra anemia carencial; anemia hemolítica hereditaria; anemias hemolíticas adquiridas; anemia aplásica; otra anemia. 105
106
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
2. Escala ordinal. Tiene la cualidad adicional de que sus categorías están ordenadas por rango; cada clase posee una misma relación situacional con la siguiente; es decir, la escala muestra posiciones en escalera. Si se usan números, su única significación está en indicar la posición de las distintas categorías en la serie. De haber tres clases, I, II y III, o bien I es «más que II» (con respecto a los atributos que están midiéndose) y II es «más que III», o I es «menos que II» y II, a su vez, es «menos que III». Por ejemplo: Clase social: I; II; III; IV; V. Años de educación: 0; 1-5; 6-9; 10-12; más de 12. Incapacidad: total; parcial; no incapacidad. Porcentaje de incapacidad: ninguna incapacidad; incapacidad entre el 1 y el 19%; incapacidad entre el 20 y el 29%; entre el 30 y el 39%; entre el 40 y el 49%; entre el 50 y el 74%; entre el 75 y el 99%; incapacidad del 100%. Limitación de la actividad: 1, confinado en cama; 2, confinado en el domicilio, pero no necesariamente en la cama; 3, limitación de la actividad, pero sin estar confinado a domicilio; 4, no limitación de actividad. Conformidad con una afirmación: totalmente de acuerdo; en parte de acuerdo; en completo desacuerdo. Frecuencia de los dolores de cabeza; frecuentes; ocasionales; raros o nunca. Fumar: no fumador; fumador leve; fumador moderado; gran fumador. Satisfacción con unos servicios sanitarios: completamente satisfecho; satisfecho en gran medida; satisfecho en alguna medida; prácticamente no satisfecho; muy insatisfecho. Gravedad de una enfermedad: grado III, grave; grado II, moderada; grado I, leve; grado 0, ausente. Certeza del diagnóstico de una enfermedad: definitiva; probable; posible. Una escala puede ser mezcla de nominal y ordinal —esto es: tener algunas categorías, pero no todas, ordenadas por rango. Tal es el caso de las que contienen cierto número de categorías ordenadas según rango y una más bajo el epígrafe de «inclasificable». Un buen ejemplo lo constituye el «índice de Independencia en las Actividades de la Vida Cotidiana», de Katz, que incluye siete categorías graduadas —desde la independencia para alimentarse, continencia urinaria y cuatro funciones más, a la dependencia en dichas seis funciones, pasando por la dependencia en diversas combinaciones de ellas— para luego incluir otra categoría más, destinada a las personas que no cuadran en ninguno de los grupos anteriores.3 3. Escala de intervalos. Posee la cualidad adicional de que los intervalos entre sus clases son iguales. Un ejemplo puede ser la temperatura, medida en grados. Diferencias iguales entre cualquier par de números de la escala indican diferencias también iguales en el atributo sometido a medición; la diferencia
ESCALAS DE MEDICIÓN
107
de temperatura entre una habitación a 22 grados centígrados y otra a 26 es la misma que la existente entre otras dos a 33 y 37 grados centígrados, respectivamente. La razón entre los números de la escala no es, sin embargo, necesariamente la misma que la existente entre las cantidades del atributo. Una habitación a 20 grados no está «el doble de caliente» que otra a 10; de igual modo, un niño de dos días de vida no es «el doble de viejo» que otro con un sólo día de nacido. Ello es así debido a que el cero de la escala no expresa la ausencia del atributo. 4. Escala de razones o ratios. Su cualidad adicional es que el cero sí indica ausencia del atributo. Como consecuencia, la razón entre dos números de la escala entre sí es igual a la existente entre las cantidades del atributo medido. Son ejemplos: El peso: medido en kilogramos o libras. Los ingresos: medidos en libras esterlinas, dólares, etc. La concentración de hemoglobina, medida en grs por 100 mi de sangre. La belleza femenina, medida en mili-helenas4. La tasa de mortalidad: número de muertes por 1.000 personas a riesgo. Agrupando los valores, las escalas de intervalos o de ratios pueden ser «colapsadas» en categorías más amplias; por ejemplo: Ingresos (en unidades monetarias): 0-49, 50-99, 100-149, 150-199, 200249, 250-299, 300-349, etc. Si se usan intervalos de clase iguales, como en el ejemplo anterior, suele poderse seguir tratando esa escala indistintamente como de intervalos o de ratios; nótese que en sentido más estricto, sin embargo, igual se trata ahora de una escala ordinal, puesto que resulta perfectamente factible que los valores individuales no estuviesen dispersos de modo uniforme en el interior de las categorías —en nuestro ejemplo, los intervalos entre los ingresos medios de las personas de categorías adyacentes podrían no ser uniformes. Si usamos una categoría «con uno de sus límites abiertos», por su parte (por ejemplo, un grupo de ingresos máximos de «500 ó más»), degradamos la escala a ser forzosamente de tipo ordinal, puesto que el intervalo entre los valores medios de ésta y la siguiente inferior podría ser mucho mayor que el existente entre cualquier otro par de categorías adyacentes. A partir de tales escalas no se puede calcular un valor medio exacto. La escala se vuelve ordinal, asimismo, si se la colapsa en categorías con rangos diferentes (por ejemplo: 0-49, 50-199, 200-399, etc.). Elección de las escalas La selección de una escala de medición para una variable está en parte determinada por la propia variable y por los métodos disponibles para medirla. El estado civil, el tipo de trabajo y la modalidad de anemia, por ejemplo, no
108
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
se pueden medir con escalas de intervalos. Para la mayoría de las variables, sin embargo, suele haber métodos de medida alternativos. La escala usada al recoger los datos no es necesariamente la que habrá que utilizar en el análisis estadístico. Si se está calculando una media etaria, o la correlación entre edad y cualquier otra variable, por ejemplo, cabe perfectamente haber medido la edad con una escala de intervalos y seguirla tratando en el análisis como variable de ese mismo tipo. A otros efectos, sin embargo, podría resultar adecuado manejar categorías de edad; habría entonces que agrupar las edades y tratar luego la variable como de escala ordinal o nominal, según conviniese. El grupo étnico, siguiendo con los ejemplos, suele medirse mediante escala nominal; en el análisis, no obstante, puede ser tratado como variable de escala ordinal si se organizan las categorías según una secuencia dada, buscando aplicar un análisis diseñado para valorar la existencia de relación ordenada con alguna otra variable. Durante la fase de planificación, por tanto, deberemos prestar atención a las escalas que luego vayamos a utilizar al analizar los datos. Resulta útil en esta etapa construir tablas llamadas «de esqueleto» o «postizas» —esto es: tablas sin figuras o con cifras ficticias, respectivamente, que incorporen las variables sometidas a consideración. Si existen categorías, deben estar especificadas en los encabezamientos de la columna o fila correspondiente. No resulta esencial ahora, sin embargo, decidir con precisión cómo vamos a «colapsar» las categorías más finas en otras más amplias para adecuarnos a los propósitos del análisis. A veces viene bien postergar ese tipo de decisiones, puesto que podría ser difícil adoptarlas sin conocer la verdadera distribución de los valores. Si existen dudas sobre la forma de tratar posteriormente la variable en el análisis, conviene ser cuidadosos con la recogida de los datos y realizarla de una forma que deje abiertas diversas opciones. Sin duda, las decisiones sobre las escalas de medición pueden influenciar los métodos de recogida de los datos. Es decir, se requieren preguntas distintas si se decide medir la frecuencia o la severidad de los dolores de cabeza (escalas ordinales), en lugar de simplemente ver si las personas tienen ese padecimiento (con un escala nominal de «sí-no»). Las escalas de medición vienen muchas veces ya recogidas en los cuestionarios a modo de respuestas alternativas a las preguntas realizadas, cosa que también sucede en algunos impresos de exámenes y otros documentos de registros, en los cuales se pide escoger la categoría adecuada señalándola, rodeándola con un círculo, o subrayándola (ver páginas 200-203). Criterios de una escala satisfactoria Una escala de medición es satisfactoria si reúne los siguientes 7 requisitos: 1. Es adecuada 2. Es practicable
ESCALAS DE MEDICIÓN
3. 4. 5. 6. 7.
109
Es suficientemente potente Sus categorías están claramente definidas Posee suficientes categorías Abarca la totalidad de las posibilidades (es exhaustiva) Sus categorías son mutuamente excluyentes
1. Resulta «adecuada» para la investigación, sobre la base de tener presente en todo momento la definición conceptual de la variable y los objetivos del estudio. Las ocupaciones, por ejemplo, pueden estar clasificadas de distintas formas si se quiere utilizar la profesión como medida de la clase social, de la actividad física habitual, o de la exposición a riesgos físicos y químicos específicos. De igual forma, cabe usar distintas clasificaciones de la región de nacimiento de los inmigrantes según se prevea manejar la variable como indicador de las condiciones ambientales durante la infancia, del grupo étnico, o de atributos genéticos. Al medir pesos al nacer, podemos decidir usar categorías uniformes a todo lo largo del espectro de los pesos, o —si el tema específico sometido a indagación es el efecto del bajo peso al nacer— organizar categorías más estrechas para los niños de esas características y otras más amplias para los de más peso. 2. Es una escala «practicable» —es decir, encaja perfectamente con los métodos a usar luego en la recogida de la información. Por ejemplo, si van a obtenerse los datos de registros donde el estado civil está catalogado únicamente según los epígrafes «soltero», «casado», «viudo» y «divorciado», carece de sentido adoptar una escala de medición más elaborada que, supongamos, pretendiese incluir cosas como «casado una vez», «casado más de una vez», etc. Debe, por tanto, prestarse mucha atención a la precisión de los métodos que van a usarse en la recogida de los datos; ¿se va a disponer de edades exactas en años y meses, o sólo en años? Si la gente tiende a «redondear sus edades» («tengo 40 años», «tengo 50», etc.), una escala recogiendo cada año de forma separada sólo tendría precisión espúrea (ver página 145). ¿Va a ser posible conseguir datos detallados sobre los ingresos, o sobre el número de cigarrillos fumados al día, o lo único factible es recurrir a categorías amplias? La balanza de pesar, ¿posee capacidad de discriminación suficiente como para garantizar mediciones en décimas de kilogramos, o deberíamos que medir sólo kilos enteros? ¿Tiene algún sentido registrar los aumentos del tamaño del hígado en centímetros, cuando los tests han demostrado una correlación negligible entre las mediciones que médicos distintos realizan con unos mismos pacientes? 3. La escala es suficientemente potente como para satisfacer los objetivos del estudio. De poder elegir, es preferible utilizar una escala ordinal en vez de una nominal, así como una de razones en vez de una ordinal. Un análisis con todo el espectro de niveles de hemoglobina, por ejemplo, será probablemente más informativo que otro con sólo la dicotomía «menos de 12 gramos por 100
110
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
mi» y «12 ó más gramos por 100 mi». Para medir actitudes conviene usar una escala ordinal dotada de respuestas alternativas, graduadas en progresión frente a la pregunta hecha, o una puntuación derivada de cómo se responda a diversas preguntas, en lugar de una simple dicotomía tipo «conforme-en desacuerdo» o «importante-no importante». 4. Las categorías están claramente definidas. Siempre que resulte necesario, deben formularse definiciones operativas no sólo de las variables sino también de las categorías. Estas consideraciones son especialmente aplicables a las escalas nominales y ordinales. Si se van a clasificar las situaciones de enfermedad como «activa» o «curada», o a los pacientes con una neoplasia maligna según la etapa de dicho proceso, por ejemplo, es importantísimo definir con cuidado dichas categorías. En el caso de las mediciones numéricas, deben tomarse decisiones sobre el número de decimales con los cuales operar y sobre el procedimiento para redondear los valores —si hacia abajo siempre, o hacia el valor más cercano, o lo que fuese. Habitualmente resulta preferible redondear hacia abajo, de forma que la categoría «73 kilos», por decir algo, incluirá todos los pesos entre 73,0 y 73,9 kgs; de hacer esto, dicho sea de paso, debe luego recordarse que el valor medio de los pesos de esa categoría no será 73, sino 73,5 kgs. 5. La escala contiene suficientes categorías. Aunque no se debe multiplicar el número de ellas sin necesidad, comprimir los datos en un número de categorías demasiado pequeño puede llevarnos a perder información útil. Si los inmigrantes del Norte de África, por ejemplo, padecen una tasa particularmente alta de mortalidad por enfermedad cerebrovascular, ese hecho podría acabar siendo menos obvio, o incluso resultar totalmente enmascarado, de incluir a estas personas bajo el más amplio epígrafe «inmigrantes de Asia y África». A veces se recurre a escalas «articuladas» (llamadas así por contener categorías «ramificables», como los huesos de los miembros) que se dividen en subcategorías y, de ser necesario, en sub-sub-categorías; el uso de escalas de este tipo deja abiertas opciones para decidir posteriormente si utilizar categorías más amplias o más estrechas. Con datos numéricos, resulta muchas veces deseable recoger la información de manera detallada, y decidir luego si usar la escala completa u otra «colapsada» (o ambas). Cuando se trabaja con datos numéricos, el uso de demasiado pocas categorías puede afectar negativamente a la exactitud del cálculo de su media. 6. La escala es colectivamente exhaustiva (lo incluye todo, es global): tiene nichos para clasificar a todos los sujetos. Conseguir cumplir esta condición requiere a veces la inclusión de una o más de las siguientes categorías: otro
no aplicable —por ejemplo, si se está recogiendo información sobre la duración del matrimonio en personas que en ese momento están casadas,
ESCALAS DE MEDICIÓN
111
la escala a usar podría ser «menos de 5 años», «de 5 a 9,9 años», «de 10 a 19,9 años», «de 20 a 29,9 años», «de 30 a 39,9 años», «40 y más años» y «no aplicable». desconocido (a veces viene bien subdividir esta categoría para, por ejemplo, distinguir entre sujetos que no sabían la respuesta a una pregunta y aquéllos sobre los cuales falta información por otras razones: no se le hizo dicha pregunta, la respuesta está ilegible, se ha extraviado la página del cuestionario tras haber sido rellenada, etc.). 7. Las categorías son mutuamente excluyentes. Cada item de información debe cuadrar sólo en un lugar de la escala. Sería inaceptable, valga otro ejemplo, que una misma escala incluyese las categorías «de 70 a 80» y «de 80 a 90», porque entonces «80» cabría en cualquiera de ellas. De igual modo, si una escala incluye «casado» y «casado más de una vez», las personas en esta segunda situación podrían ser incluidas bajo cualquiera de los 2 epígrafes. Si una escala concebida para medir los procesos patológicos que originan incapacidad incluye las categorías «ceguera» y «sordera», o bien se formula una regla clara mediante la cual las personas ciegas y sordas a la vez se asignan a una u otra de las categorías, o la única otra opción es incluir en la escala las categorías «ciego, no sordo», «sordo, no ciego» y «sordo y ciego». En el código de Minnesota sobre hallazgos electrocardiográficos (ver página 90), donde pueden coexistir items codificables de modo distinto en una misma escala de medición (por ejemplo, los relacionados con la onda T), sólo se codifica uno, y está sentado con claridad el orden de prelación. Clasificación Internacional de Enfermedades La OMS publica una escala nominal de categorización de las enfermedades ampliamente usada; se trata de la Clasificación Internacional de Enfermedades, referida muchas veces con las iniciales de su nombre en inglés (ICD) y que va ya por su novena revisión («ICD-9»)5. A cada categoría patológica se le adjudica un código numérico de tres dígitos, siendo posteriormente casi todas ellas divididas en subcategorías de cuatro. En algunos casos, existen también subclasificaciones opcionales con un quinto dígito. La tuberculosis pulmonar, por ejemplo, tiene el código 011 y está dividida en 10 sub-categorías, de la 011.0 a la 011.9 —nueve de ellas específicas (tuberculosis nodular, broquiectasias, etc.) y otra para las tuberculosis de pulmón no especificadas. Cada una de ellas puede, si se quiere, ser luego subdividida para mostrar los diagnósticos encontrados; 011.22, por ejemplo, significa «tuberculosis del pulmón cavitada, con baciloscopia de esputo positiva». Dado que los principios de nosología con que operamos distan de ser racionales, la estructuración de la ICD resulta arbitraria. Algunas enfermedades
112
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
están clasificadas por etiología («enfermedades infecciosas y parasitarias»), otras según su ubicación («enfermedades del sistema respiratorio»), otras según rasgos patológicos («neoplasias») o periodo de aparición («algunos procesos originados en el período perinatal»), etc. Las neoplasias, en concreto, están subclasificadas según localización, disponiéndose de una clasificación histológica suplementaria con carácter opcional. Las lesiones, por su parte, se subclasifican según naturaleza, pero existe un código suplementario para las causas externas; es obligatorio usar este «código E» de las lesiones a la hora de preparar las estadísticas sobre causas subyacentes de muerte. Para tabular la mortalidad y la morbilidad existen listas abreviadas especiales. Una innovación de la novena revisión es proporcionar códigos duales para algunas enfermedades —un código de espadas (marcado con una t) para clasificarlas según su etiología, y un segundo código opcional a base de asteriscos (*) para clasificarlas según su manifestación. La meningitis tuberculosa, por ejemplo, puede ser codificada como 013. Of (apareciendo en la sección dedicada a tuberculosis), 320.4* (en la sección de meningitis), o de ambas formas. El nuevo sistema de asteriscos, se pensó, añadiría valor a la ICD en la planificación y evaluación de la atención médica. Si se utiliza el código de los asteriscos, es importante dejarlo claro. De usar ambos, debe saberse que las categorías de la clasificación no son mutuamente excluyentes. Una innovación adicional lo constituye el haber incorporado un «glosario de descripciones» de trastornos mentales para «ayudar a las personas encargadas de realizar diagnósticos, de modo que los lleven a cabo sobre la base de descripciones y no de títulos de categorías, que podrían diferir entre sitio y sitio». Se trata sin embargo de descripciones francamente alejadas de lo que serían definiciones operativas ideales6. Existe asimismo una clasificación de las condiciones o circunstancias que no constituyen enfermedades. Es el «código V», que enumera diversas razones —distintas de las enfermedades— por las cuales una persona puede entrar en contacto con los servicios sanitarios. Entre ellas se incluyen la vacunación, temas relacionadas con la contracepción, los cuidados prenatales, las revisiones de niños sanos, los exámenes de screening, la circuncisión ritual, toda una serie de problemas sociales, económicos, familiares y personales, la emisión de certificados médicos y recetas de repetición, etc. Se incluyen también circunstancias varias susceptibles de influir sobre el estado de salud de una persona, como una historia previa de alergia a la penicilina, antecedentes familiares de diabetes, o el contacto con una enfermedad transmisible. Es mejor dejar la codificación a expertos en la materia. No es que no pueda hacerla uno mismo, pero debe tenerse mucho cuidado. Para codificar una enfermedad, primero se mira en el índice, publicado en forma de volumen aparte. Dicho índice incluye multitud de términos diagnósticos no formulados específicamente en la clasificación misma. Una vez consultado éste, debe
ESCALAS DE MEDICIÓN
113
hacerse referencia al item adecuado de la clasificación, puesto que podría contener una nota indicando la necesidad de modificar el número del código. De querer utilizar el libro de forma efectiva, pues, es importante entender con claridad las convenciones usadas en la clasificación7. Antes que sacar inferencias de tabulaciones basadas en la ICD, en fin, resulta prudente examinar los detalles de la clasificación para estar seguro de qué cosas están o no incluidas en las diversas categorías. La OMS ha publicado también una Clasificación Internacional de Procedimientos en Medicina8, que enumera elementos diagnósticos, preventivos, quirúrgicos, y terapéuticos de otros tipos. Existen adaptaciones de la ICD. Hay una «modificación clínica» realizada por los norteamericanos (ICD-9-CM)9, más detallada que la ICD original; divide las categorías de cuatro dígitos de esta última en otras categorías más específicas, con cinco dígitos, concebidas para permitir el almacenamiento y retirada de información diagnóstica más detallada, así como su recogida minuciosa para uso en estudios clínicos, epidemiológicos y de evaluación, o en la planificación de servicios sanitarios. No emplea la convención de las espadas y los asteriscos, sino que recomienda codificar las enfermedades importantes según etiología y manifestación. Hay versiones más detalladas de la ICD para su uso en odontología y estomatología (ICD-DA), y oncología (ICD-O) —ambas han sido publicadas por la OMS— así como una adaptación para los oftalmólogos10. Otras clasificaciones de problemas de salud La ICHPPC (Clasificación Internacional de Problemas de Salud en Atención Primaria) está diseñada fundamentalmente para permitir a los médicos generalistas o de cabecera codificar diagnósticos u otros problemas en el momento de encuentro con el paciente11. Incluye enfermedades (clasificadas de forma más sencilla que la ICD), signos y síntomas importantes, problemas sociales y familiares, formas de atención preventiva, y procedimientos administrativos. Entre las clasificaciones de mayor antigüedad diseñadas para hacer frente a las necesidades de los estudios de morbilidad en el marco de la medicina general, se incluye uno preparado por el Royal College of General Practitioners británico12, basado en la octava revisión de la ICD. La del norteamericano NAMCS (Estudio Nacional de la Atención Médica Ambulatoria) es una útil clasificación de «síntomas, quejas, problemas y motivos por los que se acude en busca de atención médica ambulatoria»13. No incluye diagnósticos. En la «Clasificación de los Pacientes que Requieren Cuidados a Largo Plazo»14 se recogen escalas para clasificar a las personas afectadas por procesos patológicos crónicos en términos de su estatus funcional y de sus incapacidades.
114
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y referencias
1. Una escala categórica es una nominal o (si las categorías están ordenadas), una ordinal. La escala binaria consiste en una dicotomía. El término escala existencial fue sugerido por Feinstein para aquéllas —habitualmente, dicotomías del tipo «sí, no» o «presente, ausente»— referidas a la existencia de lo que se mide; pueden ser escalas ordinales más completas —por ejemplo: «definitivamente ausente, probablemente ausente, sin certeza sobre si ausente o presente, probablemente presente, definitivamente presente». Feinstein, A.R. (1981) Clinical Pharmacology and Therapeutics 30, 564. A las escalas de intervalos y ratios se las puede llamar métricas o dimensionales. Dichas escalas son continuas cuando resultan posibles un número infinito de valores a lo largo de un continuo, como sucede por ejemplo al medir la altura. Son discretas cuando sólo resultan posibles algunos valores; el número de personas dependientes de alguien, por ejemplo, no puede ser 2,8. 2. Las dicotomías pueden ser tratadas no sólo como escalas nominales, sino también como ordinales, de intervalo, o (en ciertos casos) de razones. Se les puede aplicar multitud de procedimientos estadísticos, lo que no sucede con las escalas nominales de tres o más categorías. Resulta útil contemplar las dicotomías como tipos de escalas distintas de las demás escalas nominales. 3. Katz, S., Ford, A.B., Moskowitz, R.W., Jackson, B.A. y Jaffe, M.W. (1963) Journal of the American Medical Association, 185, 914. 4. Una mini-helena es «la cantidad de belleza requerida para ser madrina de la botadura de exactamente un barco». Dickinson, R.E. (1958) The Observer (carta, 23 de Febrero). 5. World Health Organization (1977) Manual of the International Statistical Classification of Diseases, Injuries, and Causes ofDeath. 1975 Revisión. Volumen 1. Ginebra: WHO, También ibid. (1978) Volumen 2. 6. Compárese la siguiente definición de «estados de ansiedad», rúbrica que incluye «neurosis de angustia», «reacción ansiosa» y «trastorno pánico», con la definición que se muestra en la página 102: «Diversas combinaciones de manifestaciones físicas y psíquicas de la ansiedad, no atribúteles a un peligro real y que se producen a modo de ataques o en forma de estado persistente. La ansiedad es habitualmente difusa y puede alcanzar el grado de pánico. Pueden hallarse presentes otros rasgos neuróticos, como síntomas obsesivos o histéricos, pero no dominan, sin embargo, el cuadro clínico». 7. La 1CD utiliza paréntesis (..) para incluir palabras o frases cuya presencia o ausencia importa poco. Los corchetes [...], por el contrario, incluyen formulaciones alternativas o frases explicativas. Los términos seguidos de dos puntos son incompletos, debiéndoseles añadir alguno de los modificadores recogidos a continuación suya. Las siglas inglesas «NOS» quieren decir «si no se especifica lo contrario». A modo de ejemplo, parte de la especificación de la Laringitis aguda 464.0, dice así: Laringitis (aguda): NOS Hemofilus influenzae [H. influenzae] Ulcerativa Esto quiere decir que los diagnósticos de «laringitis» y «laringitis aguda» se codificarán como 464.0 cuando se presenten solas o acompañadas de los modificadores «por hemofilus influenzae» o «ulcerativa». La «laringitis estreptocócica», por el contrario, no podría ser codificada como 464.0, puesto que no está incluida en el extracto anterior ni en el recordatorio de las especificaciones. Hay algunas exclusiones expresamente señaladas; por ejemplo: «Excluye: laringitis gripal (487.1)». 8. World Health Organization (1978) International Classification of Procedures in Medicine. Ginebra: World Health Organization.
ESCALAS DE MEDICIÓN
115
9. Publicado por la American Hospital Association. 10. American Academy of Ophthalmology and Otolaryngology (1977) International Nomenclature of Ophthalmology. Rochester, Minn.: American Academy of Ophthalmology and Otolaryngology. 11. World Organization of National Colleges, Academies and Academic Associations of General Practitioners/Family Physicians (WONCA) (1979) ICHPPC-2 International Classificatión of Health Problems in Primary Care, 2nd edn. Oxford: Oxford University Press. 12. Eimerl, T.S. y Laidlaw, AJ. (1969) A Handbook forResearch in General Practice. p. 121. Edinburgh: Livingstone. 13. Meads, S. y McLemore, T. (1974) The National Ambulatory Medical Care Survey: Symptom Classification. Vital and Health Statistics, Series 2, No. 63. Rockville, Md.: National Center for Health Statistics, U.S. Department of Health, Education, and Welfare. 14. Jones, E.W. (1974) Patient Classification for Long-Term Care: User's Manual. Rockville, Md.: Health Resources Administration, U.S, Department of Health, Education, and Welfare.
13 Escalas compuestas A las variables basadas en dos o más otras se las llama «compuestas»; son ejemplos: (a) la ingesta calórica, calculada a partir de las cantidades de alimentos tomados, (b) la etapa de una enfermedad cuando se la calcula sobre la base de diversos síntomas y signos clínicos, y (c) una determinada actitud medida a partir de las respuestas a una serie de preguntas separadas. Las escalas usadas para medir variables compuestas se llaman «escalas compuestas». La manera de agrupar los datos integrantes de una escala compuesta suele decidirse de antemano, utilizando reglas que entran a formar parte de la definición operativa de la variable compuesta. Existen asimismo técnicas que requieren recoger y analizar dichos datos componentes antes de decidir con cuál método combinarlos. Una escala puede basarse en combinaciones de categorías. Por ejemplo, cabe definir la hipertensión como la coincidencia de una presión sanguínea sistólica de 160 mm de mercurio o más y una diastólica de 95 mm de mercurio o más, y la ausencia de ella, como la coincidencia de una presión sistólica por debajo de 140 y una diastólica también por debajo de 90 mm de Hg.1 Colocar otras combinaciones de presiones sistólicas y diastólicas como grupos intermedios o «frontera», daría como resultado una escala compuesta de tipo ordinal. Otro ejemplo puede ser el «espectro de salud física»2 —que consta de siete puntos y está basado en la incapacidad, las minusvalías, los procesos crónicos, los síntomas y el nivel de energía —desarrollado en California como parte de un intento de encontrar definiciones operativas capaces de corresponderse con la definición conceptual de salud sostenida por la OMS de «un estado de bienestar físico, mental y social, no meramente la ausencia de enfermedad o malestar». A veces, se llama a las escalas compuestas de tipo nominal «tipologías»; no es infrecuente determinar la presencia de enfermedad de este modo, usando combinaciones específicas de criterios diagnósticos. Las escalas compuestas pueden también estar basadas en el uso de fórmulas. Son ejemplos: la duración de la gestación, estimada habitualmente a partir de la fecha de comienzo del último periodo menstrual y la fecha de finalización del embarazo; el ingreso familiar medio per cápita; los índices de adiposidad basados en el peso y la altura; y, finalmente, todas las tasas. 116
ESCALAS COMPUESTAS
117
A veces pueden también usarse «puntuaciones compuestas», obtenidas juntando las asignadas por separado a los distintos items implicados. Existen dos tipos de puntuaciones compuestas, según como se adjudiquen dichas puntuaciones a los epígrafes individuales: las crudas y las ponderadas. El tipo más simple de puntuación cruda se basa en asignar a los items valores alternativos de cero o uno. Es el método aplicado normalmente, por ejemplo, para puntuar el índice Médico Cornell (CMI, en inglés), cuestionario sanitario con 195 preguntas de «sí-o-no» acerca de la presencia de una serie de síntomas, enfermedades, perturbaciones del estado de ánimo y los sentimientos, etc. El número total de respuestas positivas (tomando cada «sí» como un 1 y cada «no» como un 0) ha sido usado como medida de la presencia y grado de mala salud emocional3. De modo similar, el diagnóstico de artritis reumatoidea puede basarse en una puntuación resumen del número total de criterios diagnósticos específicos cumplidos4. Las escalas5 «tipo Likert», utilizadas muchas veces en los estudios de actitudes, son puntuaciones crudas basadas en respuestas alternativas a cada una de las preguntas de una serie, según cierta gradación. Por ejemplo, se pide al sujeto indicar su nivel de conformidad con diversas respuestas que —se supone— expresan más o menos bien su actitud. A cada una de las posibles contestaciones se le asigna una puntuación; por ejemplo: «1, aprueba decididamente; 2, aprueba; 3, no se decide; 4, desaprueba; 5, desaprueba con firmeza», usándose luego como escala compuesta la suma de dichas puntuaciones. Este es también el método con que se puntúa el «Health Opinión Survey»6, cuestionario corto usado para valorar el estado de salud emocional y en el cual las preguntas tienen la posibilidad de ser respondidas alternativamente como «frecuentemente», «a veces» y «nunca». Otra escala tipo Likert de uso común es la puntuación del test de Apgar6, que sirve para calibrar el estado de los niños recién nacidos; consiste en la suma de los puntos (0, 1, ó 2) adjudicados a cada uno de estos 5 items: frecuencia cardiaca (mayor de 100 pulsaciones por minuto, 2 puntos; menor, 1 punto; sin latido, 0) esfuerzo respiratorio, tono muscular, respuesta a la estimulación de cualquiera de las ventanas nasales con un catéter, y, finalmente, color de la piel. Las «puntuaciones ponderadas», por su parte, se basan en asignar pesos distintos a los diversos items componentes. Una forma de determinar dichos pesos es hacerlo de modo arbitrario, sobre la base de la respectiva importancia aparente de los mismos. Por ejemplo, en un estudio sobre la calidad de la atención médica, se asignaron puntuaciones según la calidad de los registros, la calidad del manejo diagnóstico y la calidad del tratamiento y seguimiento realizados. Dichas puntuaciones fueron luego combinadas para obtener una nueva puntuación compuesta, utilizando las siguientes ponderaciones: registros, 30 por ciento; manejo diagnóstico, 40 por ciento; tratamiento y seguimiento, 30 por ciento 7 . La ponderación de los items puede también basarse en la
118
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
importancia relativa atribuida a los mismos por un conjunto de expertos (ver Capítulo 19). Otra forma de hacerlo es determinar los pesos analizando cuidadosamente datos recogidos en una investigación previa. Por ejemplo, después de investigar en detalle a los pacientes sometidos a pruebas bioquímicas y de otros tipos en un laboratorio de metabolismo, se propuso un «índice diagnóstico clínico de la tirotoxicosis» que adoptaba la forma de puntuación ponderada, a computar añadiendo las asignadas a distintas molestias y signos clínicos sencillos8. Entre los componentes del índice se incluyeron cuestiones como «preferencia por el frío» (puntuación, +5), «tiroides palpable» (+3), «temblor leve de dedos» (+1) y «aumento de peso» (—13); la puntuación total podía ir desde —24 a +43, tomándose 20 ó más como indicativa de la presencia de tirotoxicosis. Una escala compuesta puede asimismo basarse en el uso de un conjunto graduado de items. Es el método empleado muchas veces para medir actitudes. Se pregunta al sujeto, por ejemplo, si está de acuerdo o en desacuerdo con una serie de afirmaciones elegidas intencionadamente, de forma que cada una se halle en una determinada posición relativa si se toma la actitud a medir como un continuo. Se valora la actitud del sujeto, pues, determinando cuáles son las afirmaciones con las cuales se muestra de acuerdo. Cabe seleccionar las afirmaciones de modo que pueda esperarse que quien responde esté conforme con una o dos de ellas y desapruebe las demás (escala tipo Thurstone9) o, por contra, muestre conformidad con todas las afirmaciones hasta —o a partir de— un punto determinado de la serie (escala acumulativa) 9. Toda escala compuesta basada en decisiones arbitrarias sobre la inclusión y ponderación de items es susceptible de crítica, a menos que pueda demostrarse su validez, preferentemente mediante comprobación frente a un criterio externo (ver Capítulo 16). Con una puntuación aditiva, el requisito mínimo es que los items componentes estén bastante fuertemente asociados entre sí10, pero este hecho sólo no puede garantizar que la puntuación mida una única dimensión, ni que lo que mide sea realmente aquello que el investigador desea medir. A veces, el método a usar para combinar datos componentes hasta formar una escala compuesta se decide a posteriori, una vez los datos han sido recogidos y se ha podido examinar si los distintos items «encajan entre sí». Se trata de un proceso susceptible de requerir computaciones complicadas; existe, sin embargo, una escala sencilla de este tipo, la de Guttman (o «escalograma») que resulta extremadamente útil11. Como ejemplo de tal escala, veamos las siguientes tres preguntas de «sí-o-no»: A. «¿Mide usted más de cuatro pies?» B. «¿Mide usted más de cinco pies?» C. «¿Mide usted más de seis pies?» Las únicas cuatro combinaciones posibles de respuestas correctas (a las preguntas A, B y C, respectivamente) son «no-no-no», «sí-no-no», «sí-sí-no» y «sí-sí-sí». No es posible responder «sí a la pregunta B» sin haber contestado lo mismo a la pregunta A, como tampoco «sí a la pregunta C» de no haber tenido A y B esa misma respuesta. De estar respondidas correctamente las
ESCALAS COMPUESTAS
119
preguntas, pues, todas las respuestas serán conformes con las anteriores cuatro combinaciones («tipos de escala»), y no podrá haber combinaciones de respuestas desviadas de ese patrón. En el caso que estamos analizando, los cuatro tipos de escala («no-no-no»=escala tipo 0, «sí-no-no»=escala tipo 1, «sí-síno»=escala tipo 2, y «sí-sí-sí»=escala tipo 3), constituyen una escala ordinal, pudiéndose inferir a partir de las respuestas de cada individuo su posición a lo largo del continuo (en este caso, un continuo de altura). La ventaja de esta técnica radica en no necesitar estar seguros por adelantado de que los items vayan a configurarse según una escala de Guttman. Podemos incluir en el cuestionario tantos cuantos items sobre la variable que queremos medir nos parezcan relevantes y representen, a nuestro entender, puntos distintos en un continuo de variaciones. Más tarde, tras haber recogido los datos, veremos si las preguntas, o algunas de ellas, son «escalables» —es decir, nos plantearemos: ¿existe algún conjunto de preguntas con respuestas todas (o casi todas) las cuales caigan dentro de lo que serían «escalas-tipo» de una de Guttman? De existir tales preguntas, no solamente tendremos una forma sencilla de combinar respuestas para crear una escala compuesta, sino también indicaciones que respaldan la probabilidad de que los items «encajen» de hecho entre sí y representen una dimensión única. Los principales criterios de «escalabilidad» son (a) el «coeficiente de reproducibilidad» (proporción de respuestas que cuadran en las «escalas tipo») debe ser como mínimo del 90 por ciento12; y (b) la frecuencia del tipo sin ni una sola desviación («no escala») debe ser mayor del 5 por ciento del tamaño de la muestra. Si unas pocas respuestas no caen dentro de las escalas tipo, pueden ser asignadas a dichas escalas tipo usando reglas arbitrarias. Es posible usar las escalas de Guttman para medir actitudes, hábitos dietéticos, manifestaciones clínicas, o cualquier otro atributo. Existen programas informáticos ya preparados para determinar si ciertos items pueden combinarse y constituir una escala de Guttman. Construir una buena escala compuesta nunca es fácil. Resulta en última instancia reconfortante, no obstante, saber que el modo de reunir distintos items para hacerlo tiene normalmente pocas consecuencias, siempre que dichos items posean categorías de rangos claramente ordenados y midan de hecho una única dimensión. Esta cuestión fue puesta de manifiesto en un estudio sobre incapacidades realizado en Londres, en el cual se recogía información sobre la capacidad de las distintas personas para llevar a cabo cierto número de actividades. Se desarrollaron cuatro escalas compuestas distintas, incluida una de Guttman (que dio un coeficiente de reproducibilidad del 94%) y otra aditiva, en la cual se concedía una puntuación arbitraria a cada actividad, así como al grado de dificultad para llevarla a cabo sobre la base de los criterios manejados por los trabajadores sociales locales para definir las minusvalías. Las puntuaciones obtenidas con los distintos métodos resultaron estar altamente correlacionadas entre sí13.
120
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y referencias 1. Expert Committee on Cardiovascular Disease and Hypertension: Hypertension and Coronary Heart Disease: Classification and Criteria for Epidemiological Studies (1959) WHO Technical Repon Series, No. 168. 2. El espectro de salud física desarrollado en el Alameda County Human Population Laboratory, California, se basa en respuestas a cuestionarios. A la persona que debe responder se le hace entrega de una lista de 12 procesos crónicos, entre los cuales se incluyen los padecimientos de corazón, el asma y las hernias, una lista de 6 minusvalías y, finalmente, una lista de síntomas, incluyendo la opresión en el pecho y el dolor de espalda. Dicho espectro posee 7 categorías: 1. Incapacidad grave. Problemas para alimentarse, vestirse, subir escaleras y salir a la calle, o incapacidad para trabajar durante 6 meses o más. 2. Incapacidad menos grave. Necesidad de cambiar el horario o el tipo de trabajo, o recortar otras actividades durante 6 meses o más. 3. Dos o más episodios de minusvalía funcional o proceso patológico crónico durante los últimos 12 meses; no incapacidad estable. 4. Un episodio de minusvalía funcional o proceso patológico crónico durante los últimos 12 meses; no incapacidad estable. 5. Uno o más síntomas; no incapacidad, minusvalía funcional ni procesos crónicos. 6. Nivel de energía entre bajo y medio (menos de 3 respuestas «de alta energía» a las preguntas realizadas); no incapacidades, minusvalías funcionales, procesos crónicos ni síntomas. 7. Nivel de energía alto (al menos 3 respuestas de «alta energía»); no incapacidad, minusvalía funcional, patología crónica ni síntomas. El citado espectro fue descrito por Belloc, N.B., Breslow, L. y Hochstim, J.R. (1971) American Journal of Epidemiology 93, 328; y Breslow, L. (1972) International Journal of Epidemiology 1, 347. Ha sido criticado desde diversos puntos de vista: por ejemplo, el orden de rango es arbitrario (se clasifican las incapacidades como peores que cualquier proceso crónico, y a estos últimos como peores que cualquier síntoma), se asigna un peso igual a patología crónica distinta, etc. Ver Jette, A.M. (1980) Journal of Chronic Diseases 33, 567. 3. Brodman, K., Erdman, A.J. jun. y Wolff, H.G. (1956) Cornell Medical Index Health Questionnaire (Manual). New York: Cornell University Medical College; Abramson, J.H. (1966) American Journal of Public Health, 56, 287. 4. Ropes, M.W., Bennett, G.A., Cobb, S., Jacox, R. y Jessar, R.A. (1957) Annals of the Rheumatic Diseases, 16, 118. 5. Para más detalles sobre las escalas tipo Likert, ver Selltiz, C, Wrightsman, L.S. y Cook, S.W. (1976) Research Methods in Social Relations, 3rd edn, pp. 418-421. New York: Holt, Rinehart & Winston. 6. Leighton, D.C., Harding, J.S., Macklin, D.B., MacMillan, A.M. y Leighton, A.H. (1963) The Character of Danger, pp. 439-457. New York: Basic Books. 7. Morehead, M.A. (1967) American Journal of Public Health, 57, 1643. 8. Crooks, J . , Murray, I.P.C. y Waine, E.J. (1959) Quarterly Journal of Medicine, 28, 211. 9. Para más detalles sobre las escalas tipo Thurstone y acumulativas, ver Selltiz, C. et al, op. cit., pp. 413-417 y 421-422. Para ejemplos, ver Shaw, W.E. y Wright, J.M. (1967) Scales for the Measurement of Attitudes. New York: McGraw-Hill; y Miller, D.C. (1977) Handbook of Research Design and Social Measurement, 2nd edn, Part 4. New York. David McKay. Las escalas que pueden ser tratadas como si fuesen de intervalo (escalas que parecen de intervalo o tipo Thurstone) se pueden construir pidiendo a unos cuantos que actúan como jueces valorar el grado en que cada item refleja las características sometidas a estudio; es una técnica popular entre los sociólogos. 10. Las medidas más comúnmente utilizadas de la consistencia interna de una escala aditiva, son
ESCALAS COMPUESTAS
121
probablemente (a) las correlaciones item-total, esto es: las correlaciones existentes entre cada item y la puntuación total (excluyendo dicho item); si la correlación es baja, se puede eliminar el item para aumentar la consistencia interna; y (b) el alfa-coeficiente («fórmula 20 de KuderRichardson»): un valor elevado —pongamos por caso, 0,7 ó más— sugiere que los items poseen intercorrelaciones muy elevadas y están midiendo en gran medida el mismo atributo. Ver Guilford, J.P. y Frutcher, B. (1978) Fundamental Statistics in Psychology and Education, 6th edn, pp. 427-430 y 461-467: Tokyo: McGraw-Hill Kogakusha; y Hull, C.H. y Nie, N.H. (eds.) (1981) SPSS Update 7-9, Chapter 9. New York: McGraw-Hill. Para programas de las medidas anteriores con calculadoras de bolsillo, ver Abramson, J.H. y Peritz, E. (1983) Calculator Programs for the Health Sciences. New York: Oxford University Press. 11. Para una discusión detallada de la técnica del escalograma, ver Stouffer, S. A., Guttman, L., Schuman, E.A., Lazarsfeld, P.F., Star, S.A. y Clausen, J.A. (1966) Measurement and Prediction. New York: Wiley,—. En Goode, W.J. y Hatt, P.K. (1952) Methods in Social Research, pp. 285-295, New York, McGraw-Hill, es posible encontrar presentaciones abreviadas; lo mismo en Riley, M.W. (1963) Sociological Research, Vol. 1, pp. 470-478 y Vol. 2, pp. 97-99. New York. Harcourt, Brace and World. Ford, R.N (1954) describe un procedimiento rápido de puntuación. En Sociological Studies orScale Analysis, ed. Riley, M.W., Riley, J.W. y Toby, J., pp. 273-305. New Brunswick, N.J.: Rutgers University Press. 12. Un coeficiente de reproducibilidad alto no constituye prueba suficiente de que exista escala de Guttman, puesto que una proporción de las respuestas se conformará inevitablemente como escala, pese incluso a no poseer un auténtico patrón. Esta proporción viene determinada por las frecuencias marginales de los items (es decir, los números de respuestas «sí» y «no» a cada pregunta), pudiendo estar por encima del 90%. Para superar esto, cabe calcular un coeficiente de escalabilidad, basado en comparar el coeficiente de reproducibilidad con la «reproducibilidad marginal mínima» calculada a su vez a partir de las frecuencias marginales. Los cálculos pueden ser efectuados con programas informáticos ya elaborados; ver Nie, N.H., Hull. C.H., Jenkins, J.G., Steinbrenner, K. y Bent, D.H. (1975) SPSS: Statistical Package for the Social Sciences, 2nd edn, pp. 532-533. New York: McGraw-Hill. Para programas con calculadoras de bolsillo, ver Nota 1, página 188. Constituyen criterios adicionales de escalabilidad las proporciones de respuestas «erróneas» (que no se conforman según tipos de escalas) conseguidas con cada pregunta por separado, así como las respuestas positivas y negativas a cada pregunta; ver Ford, R.N. (1954), op. cit. 13. Bebbington, A.C. (1977) British Journal of Preventive and Social Medicine, 1, 122.
14 Métodos de recogida de los datos El método a usar para recoger información sobre cada una de las integrantes de la lista de variables a investigar debe ser decidido durante la fase de planificación del estudio. Si éste va a efectuarse en dos o más poblaciones, como un grupo de casos y otro de controles, o una población numerador y otra denominador, por ejemplo, debe prestarse atención separada a los métodos a emplear con cada una de ellas. Es preferible que dichos métodos no difieran, pero a veces resulta inevitable que lo hagan. En términos amplios, podemos clasificar así los métodos de recogida de la información: 1. «Observación»1, incluyendo bajo este nombre el uso de técnicas que van desde la simple observación visual a otras ligadas a habilidades especiales (caso de los exámenes clínicos) o al manejo de equipamiento e instalaciones sofisticados (como los exámenes radiográficos, bioquímicos y microbiológicos). 2. «Entrevistas y cuestionarios auto-cumplimentados» —ver Capítulos del 17 al 19). 3. «Uso de fuentes documentales» —registros personales, clínicos y de otros tipos, certificados de defunción, estadísticas publicadas sobre mortalidad, publicaciones del censo, etc. (ver Capítulo 20). La información derivada de estas fuentes recibe a veces el nombre de datos «secundarios», por distinguirlos de los datos «primarios» (basados en la observación, en entrevistas o en cuestionarios) previamente registrados por los investigadores. En general, suele disponerse de más de un método para recoger los datos deseados. Sobre prevalencia de la hipertensión, por ejemplo, se puede obtener información midiendo presiones sanguíneas (observación), o preguntando a los sujetos si alguna vez les ha dicho un médico que ellos podrían «tener la presión alta» (entrevista), o acudiendo a los registros médicos (documentos). Más aún, las citadas mediciones observacionales de la presión sanguínea pueden hacerse con la persona sentada o tumbada, con o sin etapa de descanso previa, con mediciones intraarteriales o mediante esfigmomanometría indirecta, etc. La dieta, por su parte, cabe estudiarla pesando la comida que se ingiere, haciendo 122
MÉTODOS DE RECOGIDA DE LOS DATOS
123
preguntas, o usando registros escritos en los cuales el sujeto haya anotado las cantidades y tipos de alimentos que comió. Si se hacen preguntas en este terreno, pueden estar referidas a lo ingerido en las últimas 24 ó 48 horas, o a la frecuencia con que suelen consumirse ciertos items alimentarios, etc.2 La exposición al humo del tabaco, otro ejemplo, se puede estudiar haciendo preguntas sobre los hábitos de consumo de los sujetos, o (si existe interés en el «fumar pasivo») de la gente con la que se vive o trabaja. Otra posibilidad es medir la concentración de monóxido de carbono en el aire expirado, o de tiocianato en el suero sanguíneo3. Si se trata de una medición de actitudes, sentimientos, valores o motivaciones, en fin, no quedará más remedio por lo general que inferirlos a partir de las respuestas dadas a ciertas preguntas, de las cuales hay siempre disponible una gran variedad; a veces, se los puede también inferir de observaciones, o de registros documentales de determinadas acciones, o de las respuestas a tests proyectivos (en los cuales se pide al sujeto que reaccione ante un cuadro u otro estímulo). Métodos distintos pueden obtener una información muy diferente entre sí. La prevalencia de enfermedades crónicas, por ejemplo, puede estudiarse mediante entrevistas, realizando exámenes, o consultando registros clínicos existentes. La mayoría de las comparaciones llevadas a cabo, sin embargo, han demostrado muy poca correspondencia entre la información obtenida en estudios basados en entrevistas y la conseguida con exámenes médicos. En concreto, suele haber una considerable sub-declaración de estos procesos cuando sólo se usan entrevistas. El hombre de la calle no es médico, y sería ilógico esperar que proporcionara la misma información que un médico; sabe cosas distintas y usa un lenguaje y unos conceptos también distintos («molestias» en los riñones en modo alguno es lo mismo que «enfermedad renal»). Esa no equivalencia es también cierta en sentido contrario, por lo cual, cuando se busca información sobre síntomas o grado de incapacidad, o sobre enfermedades leves de evolución corta que parece improbable hayan conducido al paciente ante un médico, o hayan estado presentes en el momento del examen realizado en el curso de un estudio clínico, las entrevistas son preferibles a las fuentes médicas. Por lo que respecta a la «salud general», alguien ha afirmado: «el grueso de pruebas de las investigaciones realizadas puede interpretarse en el sentido de que la valoración clínica de la salud general, por una parte, y las respuestas a las preguntas sobre la salud contenidas en los estudios, por otra, constituyen fenómenos sólo ligeramente correlacionados»4. Cuál de los métodos proporciona una información más útil es algo sometido a debate: en un estudio comparando la calificación que daban los médicos a la salud de unos ancianos y la que éstos se adjudicaban a sí mismos, se halló que ambas apreciaciones no poseían una fuerte correlación entre sí, tendiendo los sujetos a subestimar sus problemas de salud; sin embargo, no importa cuál hubiera sido la calificación dada por el médico, la tasa de mortalidad en los dos años siguientes a
124
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
la entrevista fue mayor entre las personas que se habían puntuado a sí mismas de modo desfavorable, que entre quienes lo hicieron favorablemente5. Fuentes médicas distintas pueden, de igual modo, aportar información distinta. Los certificados de defunción o las autopsias no revelan los episodios que han sobrevivido; las declaraciones de enfermedad oficiales suelen no abarcar todos los casos; los registros clínicos no nos dicen una palabra de los pacientes que no acudieron en busca de atención sanitaria, o acudieron y se les diagnosticó mal; finalmente, los estudios de sección transversal sólo nos revelarán la patología presente en el momento del examen —no podrán recoger los infartos de miocardio que sanaron sin dejar síntomas ni trazos electrocardiográficos, pese a que encontraríamos referencias múltiples a la enfermedad en los registros clínicos previos, y tampoco pondrán de manifiesto los casos que murieron. Dicho de una vez por todas, cualquier estudio de morbilidad que use información proveniente de una única fuente tiene muchas probabilidades de resultar incompleto. La elección de los métodos de recogida de datos se basa en gran medida en la exactitud de la información que vayan a producir. En este contexto, la palabra «exactitud» está referida no sólo a la correspondencia entre información y realidad objetiva —que, por supuesto, sí entra en el concepto— sino asimismo a la relevancia de la información conseguida. La cuestión es, pues, en qué grado va a proporcionar ese método en concreto una medición precisa de la variable que el investigador desea estudiar. En los capítulos 15 y 16 se discutirán con cierto detalle dos aspectos de la exactitud, la fiabilidad y la validez. La selección de un método se basa también en consideraciones prácticas del tipo de: (a) La necesidad de personal, cualificación, tiempo, equipamiento y otras instalaciones, en relación con los disponibles. (b) La aceptabilidad para los sujetos de dichos procedimientos —la ausencia en éstos de inconvenientes, aspectos desagradables o consecuencias no deseables. (c) La probabilidad de que el método proporcione una buena cobertura —es decir, aporte la información requerida sobre todos o casi todos los miembros de la población o muestra de que se trate. Cuando es probable que mucha gente no conozca la respuesta a una pregunta, ésta simplemente no resulta apropiada. Si muchos de los registros clínicos de los servicios sanitarios de una fábrica no incluyen la tensión arterial, por ejemplo, usar dichos registros no constituirá una forma práctica de estudiar dicha característica. Si la determinación de triglicéridos en el suero sanguíneo sólo es útil cuando se la realiza a personas en ayunas, resultará difícil cumplir esa condición en muchos miembros de la población sana que vive en sus casas, en tanto será francamente practicable en el contexto hospitalario.
MÉTODOS DE RECOGIDA DE LOS DATOS
125
Hay que considerar estos aspectos prácticos no sólo en relación con la medición de cada variable tomada de una en una, sino también en relación con los métodos de recogida de datos en conjunto. En sí misma, cada una de las preguntas o pruebas clínicas de una larga serie de ellas pudiera ser «practicable»; juntas sin embargo, por ejemplo, podrían significar una entrevista o un examen clínico de tres horas de duración, lo que resultaría inviable en términos de tiempo disponible del personal del estudio, o inaceptable para los sujetos. La exactitud y la «practicabilidad» están muchas veces correlacionadas de forma inversa. El método que aporta la información más satisfactoria suele ser el más elaborado, costoso o inconveniente. Los exámenes clínicos, por ejemplo, proporcionan sobre las enfermedades crónicas una información más ajustada que las entrevistas, pero cuestan más dinero, requieren personal médico o paramédico y resultan menos aceptables para los sujetos, con lo cual las tasas de negativa a participar en ellos son mayores. Hay que sopesar, por tanto, la exactitud frente a consideraciones prácticas, y escoger el método que aporte la máxima exactitud dentro de las restricciones impuestas al investigador en términos de recursos y otras limitaciones prácticas. Al hacer esta elección, debe considerarse específicamente la importancia de la información a la luz de las finalidades y objetivos del estudio: si la información no es demasiado importante, podría valer un método sencillo aunque menos exacto; si resulta esencial una información más exacta, no quedará más remedio que recurrir a un método bien elaborado, por inconveniente que resultase. El objetivo no es conseguir un 100% de exactitud, insistimos, sino la máxima exactitud precisa para los propósitos del estudio y acorde con las posibilidades prácticas. Esa información sobre la exactitud y practicabilidad de los métodos propuestos se puede obtener muchas veces de estudios metodológicos previos, o de la experiencia conseguida en otras investigaciones. Al leeer la literatura sobre el tema de su estudio, todo investigador debe siempre prestar atención especial a los aspectos metodológicos. Habitualmente, sin embargo, es fácil encontrarse en la necesidad de comprobar uno al menos de los métodos proyectados. Podría ser necesario determinar, por ejemplo, cuánto tiempo duran una entrevista o una exploración, si el método propuesto resulta o no aceptable, si las preguntas son claramente inteligibles y no ambiguas, o si los datos requeridos están ya disponibles en algunos registros médicos. (En el Capítulo 23 se discuten ese tipo de «prepruebas»). Como se discutirá más adelante, podrían también necesitarse ciertos tests específicos de fiabilidad y validez.
126
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y referencias
1. La «observación participante», que incluye la participación del investigador en la acción que está observando, es una técnica ampliamente usada en antropología pero poco frecuente en la investigación en salud pública. Un ejemplo podría ser un estudio de las relaciones médicopaciente realizado por un doctor participante en las mismas. Los peligros de este método están en que el observador puede influenciar la acción que está observando, y su implicación conferirle un punto de vista sesgado. 2. Block, G. (1982) ha revisado los estudios sobre la validez de los métodos de valoración dietética; en American Journal of Epidemiólogo, 115, 492. 3. La validez de estas medidas como pruebas de la exposición al tabaco en un momento dado ha sido estudiada por Petitti, D.B., Friedman, G.D. y Kahn, W. (1981) American Journal of Public Health, 71, 308. Hubo una combinación de hallazgos (tiocianato sérico > 100 µmol/ litro y monóxido de carbono > 8ppm) raras veces encontrados en los no fumadores (especificidad 99 por ciento) que resultó ser muy sensible (96 por ciento) como indicador de que en ese momento se estaba fumando 10 ó más cigarrillos al día; sin embargo, poseía baja sensibilidad (33 por ciento) como prueba cuando se fumaban pocos cigarrillos, tabaco de pipa o puros. Ver también Vogt, T.M., Selvin, S. y Hulley, S.B. (1979) Preventive Medicine, 8, 23 y Vogt, T.M. (1982) American Journal of Public Health, 72, 93. 4. Feldman, J. (1960) Journal of Chronic Diseases, 11, 535. 5. Suchman, E.A., Philips, B.S. y Streib, G.S. (1958) Soc. Forces, 36, 223.
15 Fiabilidad La mejor manera de entender el concepto de «fiabilidad» es a través de ejemplos ilustrativos1. (a) En un estudio realizado en una zona rural de la India, investigando la incidencia de lesiones accidentales mediante visitas domiciliarias periódicas en las cuales se preguntaba por las lesiones ocurridas desde la visita anterior, dicha incidencia resultó doblada cuando se empezaron a efectuar éstas con periodicidad quincenal en lugar de mensual2. (b) En los Estados Unidos, comparando los certificados de defunción con los registros censales cumplimentados un poco antes de ocurrir la muerte, se descubrió que sólo el 72 por ciento de las personas de raza blanca registradas como divorciadas en el censo volvían a figurar como tales en el certificado de defunción; el 17 por ciento constaban como viudos, el 5 por ciento como solteros, y el 6 por ciento, como casados3. (c) Se filmó la toma de la presión sanguínea a 7 sujetos; la pantalla mostraba la columna de mercurio del esfigmomanómetro, mientras la banda sonora la constituían sólo los ruidos acompañantes. Cuando se pasó la película a unas enfermeras, solicitándoles su lectura de la presión arterial, se evidenció una gran variación entre ellas. Esa misma película fue luego usada con médicos, consiguiendo resultados similares («los mejores resultados los consiguieron estadísticos que jamás habían tomado con anterioridad la tensión a nadie, pero sí habían sido entrenados para registrar datos de una forma objetiva y exacta»)4. (d) En un estudio sobre utilización de camas hospitalarias, paneles formados por cuatro médicos realizaron valoraciones sobre si estaban usándose de forma adecuada varias camas elegidas aleatoriamente; es decir, sobre si el paciente requería cuidados hospitalarios el día de la observación. Los cuatro estuvieron de acuerdo en sólo el 75 por ciento de los casos5. (e) En Taiwan, dos oftalmólogos altamente cualificados examinaron una misma muestra de población buscando pruebas de la existencia de tracoma, enfermedad infecciosa del ojo que suele dejar a la gente desfigurada y a veces ciega. Utilizaron los mismos criterios (signos físicos) y un mismo procedimiento de examen; la capacidad visual de ambos era excepcionalmente aguda. Uno de ellos encontró 122 casos de tracoma agudo, y el otro 136; lo curioso, sin 127
128
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
embargo, es que ambos coincidieron en sólo 75 de los diagnósticos; los restantes 108 fueron diagnosticados sólo por uno u otro de ellos6. (f) Cinco expertos examinaron unas mismas placas de Rayos X de forma independiente, al objeto de determinar en ellas la presencia o no de tuberculosis. De las 131 registradas como positivas por al menos un lector, sólo hubo 27 sobre las cuales los cinco observadores estuvieran de acuerdo; en 17 casos, el veredicto de «positivo» fue respaldado sólo por cuatro; en otros 17, tres dijeron «positivo» y dos, «negativo»; en 23, fueron sólo dos los defensores del «positivo»; finalmente, hubo 47 en las que uno decía «positivo» y cuatro, «negativo». Se pasó de nuevo las placas en segunda vuelta a los mismos observadores, con numerosos cambios de veredicto. Por ejemplo, un radiólogo que había diagnosticado 59 casos positivos la primera vez, halló en esta segunda 78, entre los cuales se encontraban 55 que había considerado positivos la primera vez, más 23 nuevos casos7. (g) Se remitió a diversos laboratorios de hospitales material con una concentración conocida de hemoglobina, solicitándoseles determinasen cada uno dicha cifra; los resultados variaron entre 8 y 15,5 gr por 100 ml8. (h) Una suspensión estándar de hematíes fue examinada en varios laboratorios; con lectura por medios visuales, las cantidades de hematíes oscilaron entre 2,2 y 4,5 millones de células por mm3; al utilizar contadores electrónicos, el rango se amplió hasta 0,7 y 4,7 millones, respectivamente9. (i) En un estudio sobre las medicaciones impuestas a pacientes con insuficiencia cardiaca congestiva tratados por una muestra de médicos generales e internistas de una ciudad estadounidense en régimen privado, se solicitó información al respecto tanto a los pacientes como a los médicos. No se incluían las medicinas obtenibles sin receta. Hubo desacuerdo en el 73 por ciento de los casos; el 22 por ciento de los pacientes no estaban tomando los fármacos que sus doctores pensaban, otro 22 por ciento tomaban ciertos medicamentos sin que sus doctores tuvieran conocimiento de ello, y ambas discrepancias se daban conjuntamente en otro 29 por ciento10. (j) Distintos estudios han demostrado que midiendo a los niños durante la mañana, su promedio de altura es mayor —en medio centímetro o más— que si se los mide por la tarde 11 . Todos estos ejemplos muestran la existencia de una información inconsistente o inestable. «Fiabilidad» (a veces se usan también «reproducibilidad» o «repetibilidad») es el término aplicado a la estabilidad o consistencia de la información; es decir, a la medida en que se consigue una información similar al efectuar una medición más de una vez. La fiabilidad de un procedimiento medidor equivale a la capacidad de un tirador para dar en un mismo punto con cada disparo, independientemente de cuan cerca estuviera el tiro del centro de la diana. El que un procedimiento sea muy fiable no significa necesariamente que
FIABIUDAD
129
es satisfactorio; las mediciones «alejadas del centro de la diana», por fiables que sean, normalmente no proporcionan al investigador información útil alguna (¿hay algo más fiable —y menos útil— que un reloj roto?). En otro sentido, resulta asimismo obviamente cierto que cuanto menor es la fiabilidad de un procedimiento, también es menor su utilidad. El problema de la fiabilidad es especialmente agudo en los estudios longitudinales, en los cuales se intenta valorar los cambios que se van produciendo, pues dichos hallazgos podrían expresar variabilidad en las mediciones y no cambios reales en los atributos medidos (ver página 65). En un estudio diseñado para medir la tasa de incidencia de casos nuevos de una enfermedad crónica que se llevase a cabo repitiendo tras un cierto periodo de tiempo determinado procedimiento diagnóstico, la no fiabilidad de éste tendería a ocasionar una estimación indebidamente alta de la incidencia. Ello es debido a que la suma de las personas falsamente diagnosticadas como casos nuevos en la segunda ocasión, más las personas enfermas falsamente diagnosticadas como sanas en la primera, suelen exceder en número a los casos nuevos pasados por alto —aparte de que las personas sanas mal diagnosticadas como enfermas en el primer examen resultarían excluidas de la población considerada a riesgo de adquirir la enfermedad, lo cual elevaría aún más la tasa de incidencia. Pese a que suele hacerse, no es correcto usar el término «error» para describir una variación, a menos que se sepa con seguridad que un determinado valor es el correcto. Cuando las variaciones entre mediciones tienden a producirse en una única dirección —un laboratorio obtiene una y otra vez lecturas inferiores a las de otro, pongamos por caso— se dice que existe variación sistemática o sesgo. Si las variaciones en ambas direcciones se neutralizan entre sí, estaremos ante una variación no sistemática. Por ejemplo: en un estudio de gran tamaño realizado en Inglaterra y Gales, la imputación del fallecimiento por parte del médico que trató el proceso a la enfermedad cardiaca arterioesclerótica fue confirmada por la autopsia en sólo el 65 por ciento de los casos. No obstante, otros fueron diagnosticados únicamente mediante autopsia, de forma que los números totales de muertes adscritas a esta enfermedad por médicos clínicos y anatomopatólogos resultaron bastante similares12. El hecho de que una variación sea no sistemática no garantiza que no vayan a extraerse conclusiones erróneas. Si utilizamos una medida carente de fiabilidad —con sesgo o sin él— lo probable es que clasifiquemos incorrectamente a los individuos (como enfermos o sanos, fumadores o no fumadores, etc.), obteniendo consecuentemente una información equivocada sobre las verdaderas relaciones entre las características (ver página 143). Más aún, nunca resulta fácil estar seguro de la no-existencia de sesgo en alguna parte de la población estudio, dado que el equilibrio entre las tendencias opuestas puede ser diferente en los distintos estratos. En el estudio anterior, por ejemplo, los hallazgos entre
130
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
los diversos grupos etarios variaban. En personas de edades comprendidas entre los 45 y los 64 años, la cantidad de muertes imputadas a la enfermedad cardiaca arterioesclerótica era ligeramente mayor por parte de los médicos clínicos que por la de los anatomopatólogos; entre las personas de 75 años y más, sin embargo, los clínicos adscribían a esta causa un 22 por ciento menos de muertes. Si la información sobre un grupo específico está sesgada, podemos llegar a conclusiones erróneas acerca de las características de éste. Fuentes de variación La variación entre mediciones puede tener como fuente: (a) cambios en las características sometidas a medición (falta de «constancia»13); (b) el instrumento de medida, según dos modalidades: variación entre las lecturas (falta de «precisión»13), o inter-instrumentos (falta de «congruencia»13); y (c) la persona que recoge la información (falta de «objetividad»13). Por ejemplo, si dos médicos clínicos miden la tensión arterial de un mismo sujeto y registran cifras diferentes, las posibles explicaciones son: (a) que la presión se alteró en el curso de las mediciones; (b) que el esfigmomanómetro o el procedimiento de medición en conjunto proporcionan resultados variables o, de haberse usado esfigmomanómetros o procedimientos diferentes, que éstos proporcionan resultados distintos; y (c) que ambos médicos clínicos difieren en su forma de leer o registrar las mediciones de la tensión arterial. (a) La variación de la característica sometida a medición puede venir causada por un cambio en cualquier factor de entre el complejo conjunto de ellos que determinan a esa característica. Entre dichos factores se incluye el propio procedimiento de medida. Por ejemplo, la tensión sanguínea se ve a veces afectada por las condiciones en las cuales se la toma —postura y estado emocional del sujeto, sexo y meticulosidad del médico, etc. La respuesta a una pregunta suele reflejar (ocasionando el fenómeno conocido como «inestabilidad en la respuesta») las motivaciones de la persona que responde, su estado de fatiga o aburrimiento, las circunstancias de la entrevista (en el hogar o en el hospital, con presencia o no de otra persona), el sexo, aspecto y modales del entrevistador, etc. Una persona puede modificar su conducta al ver que está siendo estudiada; igual altera su dieta al saber que lo que (y cuanto) come está siendo observado y medido... En un ensayo clínico, finalmente, el estado del sujeto puede resultar influenciado por el hecho de conocer si está recibiendo el tratamiento sometido a prueba o si, por el contrario, pertenece al grupo de control. (b) Los instrumentos de medición (término que incluye no sólo dispositivos mecánicos, sino asimismo pruebas bioquímicas y de otros tipos, preguntas, cuestionarios y al propio procedimiento de medición como entidad) pueden generar resultados inconsistentes consigo mismos, de igual modo que instrumentos distintos dan a veces resultados también distintos.
FIABILIDAD
131
(c) Las personas que recogen la información (observadores, entrevistadores, o quienes extraen los datos de las fuentes documentales) pueden variar en sus percepciones, en su capacidad técnica, integridad, propensión a cometer errores, etc. Pueden verse influidas, consciente o inconscientemente, por preconcepciones y motivaciones distintas; en un ensayo clínico, el conocimiento por parte de un investigador de si está manejando en un momento dado a un sujeto experimental o a un control, sesga a veces sus observaciones. Variación del observador «Variación del observador» es un término que en sentido estricto refiere la variación surgida de la persona que está realizando las observaciones, y no de cambios en la característica sometida a medición ni producidos por el instrumento de medida. En la práctica, muchas veces resulta extremadamente difícil separar por completo estos aspectos, y se usa el término como indicativo de cualquier diferencia existente entre las observaciones realizadas por observadores distintos (variación inter-observador), o entre las realizadas por un mismo observador en ocasiones distintas (variación intra-observador). La variación inter-observador en las mediciones de tensión arterial puede venir originada no sólo por la forma de leerlas y registrarlas, sino por el efecto que la manera de desenvolverse el médico tuviera sobre la presión sanguínea del sujeto, o por diferencias en el procedimiento de medida (velocidad de desinflado del manguito, altura del brazo a la que se coloca el esfigmomanómetro, etc.) La variación inter-entrevistador, por su parte, puede ser debida no sólo a la forma en que los entrevistadores perciben, interpretan y registran lo dicho por quien responde, sino a su modo de formular las preguntas y a la influencia que pudieran ejercer sobre el entrevistado. En los exámenes clínicos, la variación del observador se debe con frecuencia al hecho de que los distintos médicos usan definiciones diferentes de lo sometido a medición. Es, en concreto, una de las razones de la no-fiabilidad diagnóstica que tan gravemente está lastrando los estudios de epidemiología psiquiátrica14. Quienes practican actividades clínicas pueden, asimismo, verse influenciados por lo que han llegado a ver como «normal»; un médico acostumbrado a trabajar con una población malnutrida, por ejemplo, podría considerar bien alimentado a un chico que, de verlo un compañero de ese médico cuyo entorno ordinario fuesen poblaciones de un nivel de vida mayor, sería catalogado como desnutrido. Cabe también una cierta tendencia por parte del examinador a encontrar lo que él piensa que debería encontrar. En un estudio de fiabilidades comparando mediciones auscultatorias de los latidos cardiacos fetales con las correspondientes registradas de modo electrónico, se descubrió que cuando la tasa verdadera estaba por debajo de 130 por minuto, el personal del hospital tendía a sobreestimarla, y cuando superaba los 150, a subestimarla15.
132
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Medición de la Habilidad Aunque obviamente deben realizarse esfuerzos encaminados a hacer fiable la información recogida, conviene insistir en que no resulta indispensable una fiabilidad total. Así pues, no es correcto abandonar la medición de un fenómeno simplemente porque conlleve determinado grado de no fiabilidad. «En los estudios sobre esta característica, existe el peligro de hacer lo perfecto enemigo de lo bueno, o de caer en el error de la manía por la ausencia de error» 16. Resulta importante, sin embargo, saber cuánta no-fiabilidad se halla presente, sobre todo en lo concerniente a las variables que juegan un papel importante en la investigación —¿qué nivel de variación surge a partir del método de medición, respecto de la existente entre los individuos o grupos en estudio? Si no se la conoce, resultará difícil evitar llegar a conclusiones carentes de toda garantía. A veces, estudios metodológicos llevados a cabo con anterioridad proporcionan una orientación suficiente; lo normal, sin embargo, es tener que medir la fiabilidad, ya sea antes de embarcarse en el estudio —es decir, llevando a cabo un pre-test (ver capítulo 24)— o poniendo en pie tests de fiabilidad incorporados dentro del propio estudio. La fiabilidad se valora realizando dos o más mediciones independientes del mismo atributo y comparando luego los hallazgos17. Por ejemplo, cabe que dos o más observadores efectúen sus observaciones en momentos diferentes, o dos o más entrevistadores entrevisten al mismo sujeto, o un mismo investigador lleve a cabo mediciones repetidas, usando un mismo instrumento (método «test-retest») o instrumentos distintos. Con una misma muestra de sangre pueden hacerse repeticiones de una determinada prueba, de igual modo que es posible volver a interpretar los trazos de un ECG. En un mismo cuestionario puede repetirse determinada pregunta, o es también factible incluir dos o más distintas que en realidad solicitan una misma información. (El método de «partir por la mitad», en el cual se divide —consciente o aleatoriamente— en dos mitades un cuestionario diseñado para medir una única variable, constituye una elaboración de este procedimiento; se administra el cuestionario entero y más tarde se comparan los hallazgos obtenidos respectivamente por las dos mitades; si existe poca variación entre ellas, se toma dicho hallazgo como confirmación de que mide, de hecho, una única dimensión) . A veces resulta impracticable o desaconsejable realizar mediciones de repetición con las mismas personas. Pudiera suceder que en un test con dos entrevistas secuenciadas, por ejemplo, ambos conjuntos de respuestas no fueran independientes; la primera entrevista igual induce a la persona a prestar atención al tema estudiado, cambiando a consecuencia de ello de opinión; o le fuerza a ser coherente en sus dos grupos de respuestas, o a ser menos cuidadoso en dar respuestas exactas la segunda vez que se le interroga, etc. En tales circunstancias, se comprueba la fiabilidad dividiendo aleatoriamente a los sujetos
FIABILIDAD
133
entre unos cuantos observadores o entrevistadores para ver si las diferencias entre los grupos son mayores de las probablemente producidas por la ubicación aleatoria en sí. De llevarse a cabo mediciones repetidas con unos mismos sujetos aunque existan razones para creer que su secuencia podría afectar a los hallazgos, el orden en que observadores o entrevistadores distintos o con instrumentos distintos examinan a los citados sujetos debe ser determinado por asignación aleatoria (ver páginas 80-82), o mediante un método equivalentemente satisfactorio. La variación intra-observador puede resultar particularmente difícil de estudiar en los casos en que las mediciones se realizan sobre sujetos humanos y mediante observaciones directas, pues el observador podría recordar a los sujetos, e intentar (consciente o inconscientemente) ser consistente consigo mismo en sus dos grupos de observaciones. Dicha dificultad es menos aguda, posiblemente, de estar basadas las observaciones en placas de Rayos X, tiras de ECG, etc., mucho menos fáciles de distinguir que las caras y las personalidades. Si la fiabilidad es baja, hay que medir en principio el rol hipotético de las posibles fuentes de variación, valorando cada una de ellas de modo separado. Al estudiar la fiabilidad de las determinaciones de hemoglobina, por ejemplo, modificaríamos un factor cada vez, dejando constante el resto del procedimiento. De esta forma, podríamos prestar atención separadamente al efecto de la hora del día en que se extrae la muestra de sangre, al efecto de usar sangre de capilares o sangre venosa, al efecto del uso de torniquetes, al de retrasarse en examinar las muestras, a las diferencias entre los métodos bioquímicos, los fotómetros o el personal técnico, a la variación de los resultados de un único fotómetro o técnico, etc. Esos tests constituirían una base racional sobre la cual encontrar soluciones; es decir, podrían indicar los métodos para corregir o tomar en cuenta la variación producida por cada fuente. A veces resulta difícil e incluso imposible, sin embargo, separar las distintas fuentes de error, aparte de que este tipo de estudio metodológico significa una empresa de dimensiones formidables. En las investigaciones a pequeña escala, lo habitual en lugar de lo antes señalado es efectuar asunciones respecto de las probables fuentes fundamentales de variación, adoptando luego medidas arbitrarias dirigidas a contrarrestar su efecto. Maneras de aumentar la Habilidad Las medidas que se adopten deben ir encaminadas no a conseguir una fiabilidad total, sino a reducir la variación a límites razonables. A tal efecto, las variables deben poseer definiciones operativas claras, siendo igualmente claras y detalladas las descripciones de los métodos mediante los cuales se va a recoger la información. El procedimiento de examen a utilizar ha de ser estándar, formulando preguntas estándar de una manera estándar. Debe optarse por un instrumento que proporcione mediciones relativamente
134
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
consistentes. En particular, resulta importante asegurar que la variación asociada con el instrumento de medida sea pequeña respecto del rango total de variación del atributo a medir; para distancias grandes basta con una regla de calibraciones ordinarias, pero si se trata de distancias pequeñas será precisa una de calibraciones mucho más finas (del instrumento que cumple esta condición, se dice que posee una alta «discriminación»18). Si el procedimiento requiere habilidades especiales, ha de asegurarse que se imparte a las personas implicadas la formación correspondiente. Si existe más de un observador, deben poner en común sus métodos, posiblemente trabajando en conjunto durante una temporada. De ser necesario hay que echar mano de elementos gráficos de referencia estandarizados, como fotografías en color de las diferentes etapas de un transtorno de la piel, o placas de Rayos X, o fotos de anormalidades radiológicas. Si se usa más de un dispositivo mecánico de medición, deben ser del mismo modelo y/o estar estandarizados el uno en relación con el otro. Es importante comprobar el estado del equipamiento de vez en cuando, aplicando procedimientos de «control de calidad» —por ejemplo, pruebas químicas con una solución estándar de referencia. En caso de mediciones cuantitativas con una variación apreciable, puede usarse la media de dos o más lecturas; es el método recomendado, en concreto, para ciertas pruebas de la función pulmonar19. Podemos aumentar la fiabilidad usando escalas compuestas de medición basadas en varios items relacionados (por ejemplo, preguntas). En este mismo sentido, finalmente, quizás valga la pena señalar que los diagnósticos de enfermedad basados en una combinación de manifestaciones son normalmente de mayor fiabilidad que la presentación de datos sobre las distintas manifestaciones, separadamente. Si existe una gran variación interobservador, conviene que recoja todos los datos un único investigador o, mejor aún, que observen a cada individuo de forma independiente dos observadores distintos. La ventaja de este último método está en que posibilita explotar los desacuerdos para aumentar la finura de la escala de medición20. Por ejemplo, si a la severidad de una enfermedad se le asignan los grados 1 (leve), 2 (moderada) ó 3 (grave), puede asumirse que las personas ubicadas en el grado 1 por un médico y en el 2 por otro se encontrarán cerca de la línea divisoria entre los grados 1 y 2; los casos así podrían colocarse en una categoría intermedia, 1 1/2, situada lógicamente entre el 1 y el 2 en la escala ordinal. De modo alternativo, de existir desacuerdo, se procedería a reexaminar y discutir los casos hasta conseguir un acuerdo, o se llamaría a alguien que hiciera de arbitro y emitiera un voto de desempate; este último procedimiento, sin embargo, ha sido criticado sobre la base de que un acuerdo «forzado» puede no significar una decisión correcta, sino la sumisión al observador más experimentado o con mayor fuerza.
FIABILIDAD
135
Métodos «ciegos» A veces, y especialmente en los ensayos clínicos, para reducir sesgos se hace uso de métodos «ciegos». Un ensayo puede ser ciego-sencillo o dobleciego (en términos más agradables a los implicados en investigar enfermedades de los ojos, «con máscara única» o «con doble máscara»)21. En un estudio ciego-sencillo, o bien los sujetos no saben el tratamiento que están recibiendo, o el médico (y cualquier otro que pudiera tener influencia en los resultados) no sabe cuál tratamiento está recibiendo el individuo. En uno doble-ciego22, ambas partes son ajenas a lo que pasa a este respecto. Se trata de procedimientos practicables únicamente si se puede hacer uso de un placebo o de tratamientos alternativos no identificables por su apariencia externa, sabor, olor, o efectos. A veces es obligado recurrir a estratagemas bastante complicadas para mantener el secreto, como elaborar preparaciones farmacéuticas especiales y usar contenedores identificados únicamente mediante un símbolo o un número. Incluso así, la verdad acaba frecuentemente abriéndose paso, sobre todo en los ensayos a ciego-sencillo, donde —en cualquier caso— está de entrada a medias sobre la mesa. Para comprobar si alguien ha roto el secreto, resulta útil pedir a pacientes y doctores que adivinen cuáles son los verdaderos tratamientos, analizando luego si las presunciones correctas sobrepasan en número lo esperable sólo en función del azar. Si resulta esencial que el doctor encargado de tratar a un paciente sepa qué está recibiendo éste, o no hay forma de mantenérselo oculto, puede decidirse basar la evaluación en los juicios de investigadores independientes «ciegos». Ello minimiza la posibilidad de valoraciones sesgadas, pero no controla ninguno de los efectos que el médico pudiera tener en los progresos del paciente como resultado de sus preconcepciones sobre la valía del tratamiento. Los métodos «ciegos» tienen sentido no sólo en los ensayos clínicos, sino en toda situación donde un «efecto de halo» relacionado con la impresión que le causase el individuo al cual está estudiando pudiese influenciar los hallazgos del investigador. En un estudio retrospectivo, por ejemplo, cabría realizar esfuerzos para mantener a los entrevistadores y examinadores sin saber si el sujeto es un paciente o un control. El método doble-ciego puede ser, asimismo, usado en estudios, además de en ensayos clínicos. De hecho, se aplicó en uno retrospectivo sobre la relación entre leucemia infantil y exposición previa de cualquiera de los padres a los Rayos X con finalidades diagnósticas —en concreto, exposición de la madre antes de o durante el embarazo, y exposición del padre antes de la concepción23. El entrevistador no sabía si estaba visitando la vivienda de un paciente leucémico o de un control, pues estaban al final las preguntas del cuestionario que podían revelarlo. A la persona entrevistada se le explicaba que se trataba de un estudio sanitario, pero no que tuviese relación alguna con la leucemia. En un estudio metodológico de la validez de la información recibida de distintas mujeres acerca del estatus de circunsición de sus
136
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
maridos, por poner otro caso, deberían revisarse los prepucios sin conocer con anterioridad las posibles historias contadas por las respectivas esposas. El efecto del conocimiento previo puede resultar particularmente problemático en un estudio longitudinal, donde se examina al sujeto repetidas veces. En ese caso, podría ser aconsejable planificar un sistema de registros capaz de asegurar que el examinador, al realizar sus observaciones, no tiene delante los hallazgos anteriores. Notas y referencias
1. Para bibliografía, actualmente muy lejos de estar completa, sobre variación del observador en medicina clínica, radiología, anatomía patológica y química clínica, así como antropometría, ver Witts, L.J. (ed.) (1964) Medical Surveys and Clinical Trials, pp. 43-49. Oxford University Press. Koran, L.M. (1975) en el New England Journal of Medicine, 293, 642 y 695, proporciona una revisión más reciente de la fiabilidad de los métodos diagnósticos y de las valoraciones por parte de los médicos de la calidad de la atención médica. 2. Gordon, J.E., Gulati, P.V. y Wyon, J.B. (1962) Archives of Environmental Health, 4, 575. 3. National Center for Health Statistics (1969) Comparability of Marital Status, Race, Nativity, and Country of Origin on the Death Certifícate and Matching Census Record, United States, May-August, 1960, Vital and Health Statistics, series 2, No. 34. Washington D.C.: Public Health Service. 4. Wilcox, J. (1962) Journal of the American Medical Association, 179, 53; Rose, G.A., Holland, W.W. y Crowley, E.A. (1964) Lancet, i, 296. 5. Zimmer, J.G. (1967) Medical Care, 5, 221. 6. Assaad, F.A. y Maxwell-Lyons, F. (1967) Bulletin of the World Health Organization, 36, 885. 7. Birkelo, C.C., Chamberlain, W.E., Phelps, P.S., Schools, P.E., Zacks, D. y Yerushalmi, J. (1947) Journal of the American Medical Association, 133, 359. 8. Belk, W.P. y Sunderman, F.W. (1947) American Journal of Clinical Pathology, 17, 853. 9. Lewis, S.M. y Burgess, B.J. (1969) British Medical Journal, iv, 253. 10. Hulka, B.S., Kupper, L.L., Cassel, J.C., Efird, R.L. y Burdette, J.A. (1975) Journal of Chronic Diseases, 28, 7. 11. Baker, I.A., Hughes, J. y Jones, M. (1978) Lancet, 1, 1320. 12. Heasman, L.A. y Lipworth, L. (1966) Accuracy of Certification of Causes of Death, pp. 84 y 118. General Register Officer, Studies on Medical and Population Subjects No. 20. London: HMSO. 13. Zetterberg, H.L. (1963) On Theory and Verification in Sociology, pp. 50-51. Totowa, N.J.: Bedminster Press. 14. Blum, R.H. (1962) Millbank Memorial Futid Quarterly, 40, 253. 15. Day, E., Maddern, L. y Wood, C. (1968) British Medical Journal, ii, 422. 16. Elison, J. (1972) En Handbook of Medical Sociology, 2nd edn, ed. Freeman, H.E., Levine, S. y Reeder, L.G., P. 493. Englewood Cliffs, N.J.: Prentice Hall. 17. Para expresar los resultados de los tests de fiabilidad en términos estadísticos, se pueden usar distintos índices. Entre ellos se incluyen: el sencillo «coeficiente de fiabilidad», o «porcentaje de acuerdo» (la proporción de casos que dos determinaciones independientes colocan en categorías idénticas), valor que debe compararse con el acuerdo considerado esperable por la acción del azar (estimado a partir de las proporciones de casos asignados a cada categoría por cada determinación); el kappa, un útil índice que toma en cuenta la contribución de los acuerdos debidos al azar [ver Fleiss, J.L. (1977) Statistical Methods for Rates and Proportions, 2nd edn, pp. 212-236. New York: John Wiley]; índices de la frecuencia de desacuerdo
FIABIUDAD
18. 19. 20. 21.
22.
23.
137
entre dos determinaciones (ver Rose, G.A. y Blackburn, H. (1968) Cardiovascular Research Methods, pp. 155-156. Geneva: WHO); la desviación estándar de las mediciones repetidas (un índice del «error aleatorio de dichas mediciones); la desviación estándar de las diferencias entre mediciones apareadas; y, finalmente, diversos índices de la fuerza de una asociación (ver páginas 231-233). Gilson, J.C. y Hugh-Jones, P. (1955)Pulmonary Function inPneumoconiosis. SpecialRepon Series, Medical Research Council (hondón). No. 290, p. 41. Medical Research Council's Committee on the Aetiology of Chronic Bronchitis, 1965. Lancet, i, 775. Fletcher, C.K. y Oldham, P.D. en Witts, L.J. (ed.), ibid., p. 34 El término «con doble máscara» lo recomienda Ederer, F. (1975) American Journal of Epidemiology, 102, 11, quien dice a continuación; «Conseguir enmascarar con éxito es algo más fácil de decir que de hacer... Un oftalmólogo medía la agudeza visual de sus pacientes tras echarles un trapo por encima y cubrirles además la cabeza con un gorro». (¿Tenía también el oftalmólogo que llevar una capucha?) «Fascinante ejemplo de un ciego guiando a otro ciego. Con esto, ni el médico ni el paciente saben si se está administrando un fármaco o un placebo —hasta que el paciente o se recupera o expira. Algunos creen que la técnica fue tomada prestada de la ruleta rusa». Armour, R. (1971) It All Started with Hippocrates, p. 132. New York: Bantam Books. El Tri-State Leukaemia Survey aportó pruebas que sugerían que la exposición a los Rayos X diagnósticos puede producir un daño genético grave en una pequeña minoría de personas expuestas, y da como resultado un aumento del riesgo de contraer leucemia. Bross, I.D.J. y Natajaran, N. (1977) Journal of the American Medical Association, 237, 2399. La controversia sobre la interpretación de los hallazgos se discute en un absorbente libro de Bross, I.D.J. (1981), Scientific Slrategies to Save Your Life: A Statistical Approach lo Primary Prevention. New York: Marcel Dekker.
16 Validez La validez de una medición refiere el grado en que ésta mide la característica que el investigador quiere medir. Equivale a la capacidad de un tirador para dar en el centro de la diana. Si deseamos medir el azúcar consumida por una persona, obtendremos una información más válida preguntándole cuántas cucharadas de la misma pone al té o al café, que interesándonos simplemente por si «le gustan las cosas dulces». Los datos serán aún más válidos si conseguimos información sobre todo lo que come o bebe y calculamos su ingesta de azúcar usando tablas donde venga el contenido en esa sustancia de los diversos alimentos; y todavía serán más válidos si, en lugar de echar mano de esas tablas, realizamos análisis de laboratorio de muestras de las comidas y bebidas que realmente consume. Sin duda, la no fiabilidad de una medida (ver Capítulo 15) reduce su validez; si los disparos están dispersos, no todos estarán en el centro de la diana. (Pero, en sentido opuesto, una alta fiabilidad tampoco asegura una gran validez.) Hablando con rigor por lo tanto, probablemente deberíamos definir la validez como el grado en que la medición, asumiendo su fiabilidad, mide lo que el investigador desea medir. En la práctica, sin embargo, esta asunción no suele llevarse a cabo, por lo cual se considera la fiabilidad como uno de los factores que pueden afectar a la validez. Considerar si una medición es válida en relación con la definición operativa de la variable a medir es algo con poco sentido. Si dicha definición operativa es buena, vendrá formulada en términos de hechos observables. En consecuencia, tales hechos serán automáticamente («por definición») válidos en tanto que medida de la variable, tal y como se la define operativamente. Si, por ejemplo, se define la prematuridad en términos de peso al nacer, la información sobre ese epígrafe constituirá por fuerza una medida válida de la prematuridad de tal modo definida. Si se define la inteligencia como «aquello que se mide con un test de inteligencia», el test de inteligencia necesariamente será una medida válida de dicha cualidad. Posee, sin embargo, más sentido considerar la validez en relación con la definición conceptual de la variable —esto es, con la variable que al investigador le gustaría medir. Al planificar los métodos de recogida de datos, la persona 138
VALIDEZ
139
encargada de una investigación ha de sentirse razonablemente segura de que las medidas a manejar, particularmente las referidas a las variables dotadas de un papel importante en su estudio, poseen una relevancia tan cercana como sea posible a lo que él realmente quiere medir, teniendo en cuenta sus recursos y otras limitaciones prácticas. Al tomar estas decisiones, los aspectos a considerar son la validez patente y la validez de criterio. Validez patente A un investigador puede parecerle obvia la relevancia de una medición. Se llama a este hecho validez patente (o validez lógica). Puede resultar obvio, por ejemplo, que las fechas recogidas en los certificados de nacimiento proporcionan una medición válida de la edad. Al escoger entre distintas medidas, a veces está perfectamente claro que algunas son más válidas que otras. Puede ser evidente en sí mismo que los registros del ala de obstetricia de un hospital aportarán una indicación más válida de los pesos al nacer que la información obtenida preguntando a las madres, del mismo modo que una valoración del estado neurológico de los neonatos significará una medida de prematuridad (conforme la concibe el investigador) más válida que dicha información sobre los pesos al nacer. Para escoger, por poner otro ejemplo, entre distintas medidas de la presencia o no de tirotoxicosis, conceptualmente definida en términos de procesos metabólicos y bioquímicos específicos, parece claro que una medida basada sólo en signos y síntomas físicos será menos válida que otra cuya base fuesen, además de los anteriores, pruebas metabólicas y bioquímicas; una medida basada únicamente en la pregunta «¿Padece usted tirotoxicosis?». tendrá una baja validez patente. Debe hacerse notar cómo a veces, al considerar una medida de una variable compuesta basada en diversos items relacionados, se usa como argumento en favor de su validez patente el hecho de que la medida posea consistencia interna (o lo que es lo mismo, esté conformada según una escala de Guttman (ver página 118). Cuando se desarrolla una escala compuesta, una pregunta clave es si incluye todos los elementos de dicha variable compuesta que ha de medir; se puede llamar a esto validez de contenido. ¿Incluye la medida de la tirotoxicosis información acerca de todos los procesos metabólicos y bioquímicos importantes? Si nuestra intención es medir la satisfacción de la gente con, por ejemplo, los servicios médicos, ¿incluye nuestra escala las actitudes respecto de todas las áreas importantes, como competencia profesional, cualidades personales de los médicos y, finalmente, costes y conveniencia de los cuidados prestados?1. A la hora de formular las preguntas a incluir en un cuestionario, una consideración absolutamente fundamental es si poseen o no validez patente —si van a obtener una información de verdadera importancia para lo que el investigador quiere medir. Debe recordarse, sin embargo, que dicha validez patente puede encerrar trampas. Por ejemplo, la pregunta: «¿Tiene dolores de cabeza
140
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
frecuentes?» podría no necesariamente proporcionar una medición válida de la ocurrencia de cefaleas; una respuesta positiva a dicha pregunta igual refleja cierta propensión general a quejarse, o un estado de perturbación emocional, por decir algo, teniendo poco que ver con los dolores de cabeza como tales. El hecho de que varios expertos se muestren de acuerdo en torno a la validez de una medición se conoce como validez consensual. Puede haber consenso general, por ejemplo, en torno a que un índice basado en la profesión constituye una medida válida de la clase social, o que otro basado en la presencia, frecuencia y duración de la tos y la expectoración es un indicador válido de bronquitis crónica. Debe recordarse, no obstante, cómo distintos grupos de expertos podrían diferir en las opiniones que consensúan, además de que dicho consenso sufre a veces modificaciones con el paso del tiempo. Por ejemplo: en una época en que existió un cierto acuerdo sobre que el peso al nacer constituía una medida válida de la prematuridad, la cual era definida en términos operativos como «un peso al nacer de 5,5 libras o menos». Posteriormente, sin embargo, un Comité de Expertos de la OMS recomendaba: «a la vista de la aparición de pruebas convincentes de que muchos de los niños incluidos dentro de los límites de la definición ... no son de nacimiento prematuro ... el concepto de «prematuridad» de la definición debería cambiarse por el de «bajo peso al nacer» 2 —en otras palabras, ahora existe consenso en torno a que el peso al nacer no constituye una medida demasiado válida de la prematuridad. Cierto grado de validez patente sí es una condición sine qua non. Siempre que sea posible, no obstante, debe venir respaldada por pruebas de que además existe validez de criterio. Validez de criterio La validez de criterio se basa en el hallazgo de una correlación entre la medida sometida a consideración y otra medida o variable que resulta adecuada para ser usada como criterio de validez. El criterio ideal es el «valor verdadero» del atributo sometido a medición. Medición perfectamente válida sólo es aquella que se correlaciona por completo con «la opinión de Dios» respecto a ese atributo3 . Como suele resultar difícil determinar cuál es la opinión de Dios, constituirá mejor criterio aquella medida dotada de mayor validez patente que la sometida a comprobación, o aquélla que hubiera sido comprobada con anterioridad viéndosela poseer una gran validez de criterio. A modo de ejemplos, los datos sobre peso al nacer obtenidos con cuestionarios pueden ser contrastados con los recogidos en las unidades por las matronas, lo mismo que las mediciones ordinarias de la presión sanguínea (realizadas mediante esfigmomanometría indirecta) lo pueden ser contra otras intraarteriales directas; las causas de muerte registradas en los certificados de defunción pueden compararse con las inferidas a partir de los exámenes
VALIDEZ
141
post-mortem, y las lecturas de trazados electrocardiográficos, con las valoraciones que un panel de expertos llevase a cabo; los resultados bioquímicos, por su parte, se pueden contrastar usando soluciones estándares cuya composición haya sido medida con tests de comprobada exactitud. Las respuestas a una pregunta de «sí-o-no» sobre rigidez en las articulaciones o músculos al levantarse por la mañana (uno de los criterios diagnósticos de la artritis reumatoide) se pueden validar comparándolas con las conseguidas por un entrevistador experto que hiciese preguntas adicionales para asegurar si dicha sensación era realmente de rigidez, y no, por ejemplo, de «pinchazo por dentro», laxitud general, o cualquiera otra. De igual modo, cabe comprobar la validez de un cuestionario dietético sencillo comparándolo con los hallazgos obtenidos al aplicar la historia dietética de investigación de Burke —método que implica un cuestionario muy detallado, con entrecruzamientos de seguridad de las preguntas; requiere la participación de un entrevistador experto4 . La validez de una prueba sanguínea para diagnosticar una artritis reumatoidea se puede comprobar examinando su correlación con los diagnósticos que los médicos clínicos establecen luego de exámenes exhaustivos, usando sus propios criterios diagnósticos individuales (validez patente), criterios diagnósticos de aceptación general pero no comprobados (validez de consenso), o criterios diagnósticos comprobados (validez de criterio). Si se dispone de una medida de la característica incuestionablemente «más válida», incluirla constituirá una prueba convincente de validez. Debe tenerse siempre presente, sin embargo, que la validez medida de esta forma podría no encontrarse todo lo bien fundamentada que parece, por estar (como la validez patente) en última instancia basada en un juicio —aunque sólo fuese el de que el criterio posee mayor validez que la medida sometida a comprobación. En el ejemplo citado anteriormente, los «criterios diagnósticos comprobados» de la artritis reumatoidea habrán sido ellos mismos, probablemente, validados contra diagnósticos establecidos por médicos que usaban sus propios criterios diagnósticos individuales; en dicho caso, por tanto, tal criterio constituiría en última instancia una medida manifiestamente no fiable, sin otra cosa que validez patente. Muchas veces —de hecho es lo habitual— resulta imposible usar el abordaje anterior. Y todo por una cosa: normalmente no hay una medida susceptible de ser considerada inequívocamente como más válida que las demás. Queremos, por ejemplo, comprobar la validez de una medida compuesta de clase social basada en la ocupación, la educación y los ingresos, ¿qué otra medida incuestionablemente «más válida» podríamos encontrar? Si quisiéramos comprobar la validez de la información sobre una actitud —la de un hombre frente a su trabajo, o frente a su esposa, o si está o no de acuerdo con las prácticas anticonceptivas— ¿cuál sería la forma de acercarnos al «verdadero valor» de la actitud, de obtener un criterio de validez? Más aún, incluso cuando teóri-
142
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
camente se dispone de una medida «más válida», puede suceder que la información requerida no esté disponible en la práctica; los rasgos histopatológicos de los bronquios, por ejemplo, constituyen un criterio idóneo para comprobar la validez de un índice de bronquitis crónica basado en la ocurrencia de tos y expectoración, pero francamente no resulta demasiado practicable. En casos así, cabe obtener pruebas de validez indirectas (y habitualmente menos satisfactorias) usando como criterios otras variables acerca de las cuales existen razones teóricas para creerlas ligadas con la variable en estudio5. Puede buscarse una asociación entre la medida de clase social, por ejemplo, y el vecindario en que se vive, la aglomeración en la vivienda, el tamaño de la familia, el grupo étnico, la auto-valoración de la clase social a que se pertenece, la dieta, la anemia, las ideas sobre la autoridad, etc. Las actitudes referidas respecto del trabajo, por su parte, pueden ser comparadas con información sobre lo que los sujetos realmente hacen (absentismo laboral, frecuencia de conflictos en el lugar de empleo, etc.), porque es razonable predicar cierto grado de asociación, aunque ciertamente no de tipo uno-a-uno, entre actividades y actitud «verdadera». Una escala que midiese la satisfacción que se dice tener con la atención médica, podría validarse de forma similar mediante criterios como la frecuencia de cambio de médico, el abandono de un seguro determinado, o la formulación de quejas formales ante las autoridades sanitarias. Si existen razones teóricas para creer que la satisfacción con la asistencia médica está correlacionada con los ingresos o el grupo étnico o la salud emocional, las pruebas de esas correlaciones pueden ser tomadas como evidencia indirecta de la validez de la escala. Los tests sobre el estado de forma física sentida por la persona pueden, a su vez, ser usados para validar un cuestionario sobre la actividad física habitualmente desarrollada6. Es posible comparar los datos de un cuestionario sobre tos y expectoración con mediciones de la capacidad respiratoria o de la producción de expectoración, buscando que constituyan un apoyo indirecto de su validez como medida de la bronquitis crónica. El valor de este abordaje depende de la relevancia (de nuevo, implica un juicio) y la fiabilidad de las mediciones usadas como criterios. La validez predictiva constituye una modalidad particular de la validez de criterio, en la cual dicho criterio es un acontecimiento o característica futura que se cree asociado con la variable sometida a estudio. Es decir, se comprueba la validez de la medida examinando su valor profético. Por ejemplo, cabría poner a prueba la validez de ciertas medidas de la prematuridad examinando su asociación con la muerte o supervivencia durante el primer mes de vida, sobre la asunción de que —puesto que la prematuridad está asociada con la mortalidad neonatal— cuanto más fuerte fuese la asociación entre la medida y la mortalidad neonatal, mayor será su validez. Por su parte, la validez de diversas anormalidades electrocardiográficas menores como medidas de la enfermedad coronaria puede ser comprobada examinando su relación con el de-
VALIDEZ
143
sarrollo subsiguiente de infarto de miocardio. En los casos en los cuales no existe la posibilidad de comparar con una medida «más válida» de la característica, ese tipo de hallazgos suele constituir la prueba más convincente de validez. Validez inconsistente Una medida puede tener una validez distinta en grupos de población distintos. El bajo peso al nacer, por ejemplo, podría constituir un índice de prematuridad particularmente insatisfactorio en aquellas poblaciones donde los neonatos, como los adultos, fuesen pequeños por razones genéticas. Una medida de bronquitis crónica basada en la presencia de tos y expectoración igual resulta de alta validez en una población, pero de menos en otra donde, por ejemplo, hay una baja prevalencia de bronquitis crónica junto a una muy alta de otros procesos que (como es el caso de la tuberculosis, por citar uno) originan asimismo tos y expectoración. Las indirectas lecturas esfigmomanométricas de la tensión arterial constituyen un mejor índice de la presión sanguínea intraarterial entre personas delgadas que entre personas gordas. La validez de un conjunto de preguntas usadas como índice de perturbación emocional puede variar según el nivel educativo7. En estudios realizados en Estados Unidos, por ejemplo, se encontró que los no-blancos suelen subdeclarar más sus hospitalizaciones que los blancos8. En Boston, las madres tendían a subdeclarar las veces que sus niños habían acudido al departamento de consultas externas de los hospitales si el número de ellas había sido en la realidad alto, y a sobreestimarlas cuando habían sido pocas9. Si nos estamos planteando usar un método de estudio desarrollado y validado por otros, conviene asegurarnos de su validez para nuestra población estudio. A veces, conseguirlo requiere alguna comprobación especial. Al hacer comparaciones con los hallazgos realizados en otros sitios, deben tomarse en cuenta posibles diferencias de validez. Sean cuales fueren los métodos de estudio que utilicemos, siempre conviene prestar atención a la posibilidad de una no uniformidad de su validez en el seno de nuestra población estudio. Como veremos más adelante, este hecho puede tener implicaciones importantes a la hora de estudiar las asociaciones entre variables. Clasificación incorrecta Toda medida con baja validez constituye un deficiente valor aproximado de la característica que queremos medir. Las estimaciones de los triglicéridos séricos obtenidas de muestras de sangre en gente recién comida, por ejemplo, pueden aportar un reflejo de su ingesta, más que del patrón metabólico que a nosotros nos interesa. Una medida usada como indicadora de la presencia de una enfermedad concreta no resulta apenas útil si produce muchos falsos negativos (c en la tabla de abajo) o muchos falsos positivos (b).
144
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Positivo en la medida Negativo en la medida
Enfermedad presente Enfermedad ausente a b c d
Si la presencia de hernia es referida en entrevista por sólo el 54 por ciento de los hombres que evidencian tener un saco hemiario inguinal obvio, y además hay otros que la refieren sin padecerla en la realidad, se hace difícil usar los datos de dicha entrevista como base para adoptar conclusiones firmes sobre la prevalencia de esa patología10. Cuando una medida clasifica incorrectamente a la gente, sea como enferma o sana, o como bebedores o abstemios, la prevalencia verdadera de la enfermedad o del hábito de beber puede resultar sobreestimada o subestimada, dependiendo de la proporción respectiva de falsos positivos y falsos negativos. La clasificación incorrecta posee, asimismo, una influencia más insidiosa, porque puede producir información capaz de inducir a engaño sobre la asociación existente entre las variables. Supongamos que queremos comparar la prevalencia de una enfermedad en dos grupos y que usamos una medida que comete errores al clasificar a la gente como enferma o sana. Los pacientes se verán «diluidos» entre la gente sana, y/o este último grupo resultará «contaminado» con pacientes. Asumamos, en primer lugar, que la medida posee la misma validez en los grupos a comparar; esto es, que las tasas de falsos positivos y falsos negativos11 de los dos grupos son idénticas. Si existe una diferencia real de prevalencia entre dichos grupos, aparecerá como menor de la verdadera, cabiendo incluso que se hiciera pequeña hasta casi desvanecerse, con lo cual resultaría difícil o prácticamente imposible de detectar. Ocasionalmente, esta reducción de la magnitud de la diferencia podría ser tan extrema que hiciese negativa la diferencia —es decir, se habría dado la vuelta a su dirección. Semejante reversión puede ocurrir únicamente, no obstante, si la medida es incorrecta más veces que correcta (en cuyo caso, ¿para qué usarla?)12. Por pequeña que fuese la validez, la clasificación incorrecta no producirá una diferencia espúrea de no existir alguna diferencia real. Si la medida posee diferente validez en los dos grupos —es decir, si las tasas de falsos positivos y/o falsos negativos difieren— puede suceder cualquier cosa: la diferencia puede verse aminorada, oscurecida o aumentada, o puede incluso cambiar su dirección. Otra posibilidad factible es que se apreciase una diferencia cuando en realidad no existe ninguna. Ante toda sospecha de inconsistencia en la validez, pues, debe tenerse en cuenta la posibilidad de una asociación espúrea. Si las mujeres que han tenido niños deformados, por ejemplo, están por dicha razón especialmente predispuestas a recordar y referir pequeñas lesiones ocurridas en las primeras etapas del embarazo, llevar a cabo
VALIDEZ
145
una comparación retrospectiva con niños de madres normales podría aportar pruebas falaces de la existencia de asociación entre las deformidades actuales y aquellas lesiones. Los efectos de la clasificación incorrecta son especialmente difíciles de predecir cuando las dos variables implicadas en la asociación (por ejemplo: enfermedad y tipo de personalidad) están sometidas a ella; aquí nuevamente, como antes, puede pasar cualquier cosa. Lo peor es que, por desgracia, se trata de una situación nada infrecuente. Comprobación de la validez En muchas ocasiones no se dispone de una forma practicable de comprobar la validez, debiéndose apoyar el investigador en sus juicios, o en los resultados de tests de validez previos. A veces, son los propios hallazgos (de un pre-test o del mismo estudio) quienes ponen de manifiesto que la validez es insatisfactoria. Por ejemplo, un número grande de respuestas negativas o «no sabe» puede constituirse ipso jacto en prueba de que un determinado método no proporciona la información que el investigador necesita. La «no razonabilidad» de los hallazgos —su no conformidad con las expectativas— es tomada a veces como prueba de disminución de la validez. Por ejemplo, si a la pregunta «¿Qué edad tiene usted?» obtenemos un número indebido de respuestas «20», «30», «40», etc., comparadas con el número de las terminadas en dígitos distintos de cero, cabría considerar el hecho como prueba de una baja validez patente; en un caso así, habría probablemente que decidir usar, como escala de medición, las edades agrupadas (y no año por año) evitando además recurrir a las cifras terminadas en cero para definir las categorías (esto es, pondríamos «25-34», «35-44», etc., en lugar de «20-29», «30-39», etc.). De modo similar, se ha comprobado que al preguntar a mujeres embarazadas sobre la fecha del primer día del último ciclo menstrual, se consiguen cifras indebidamente altas de ciertas fechas —los días primero, décimo, decimoquinto, vigésimo y vigesimoquinto del mes13. Una pregunta sobre el número de días desde el comienzo de los síntomas, planteada a pacientes que acuden en busca de asistencia sanitaria debido a enfermedades infecciosas, normalmente consigue un número alto de respuestas tipo 1, 2, 3, 4, 7, 10 y 14 días. En la medición de las tensiones sanguíneas, la preferencia de dígito —proporción alta de lecturas terminando en cero— constituye un fenómeno bien conocido. Es importante comprobar la validez en cuanto se tengan dudas sobre ella, a menos que la variable fuese sólo de importancia periférica en el estudio. La información al respecto puede influir la elección de los métodos de estudio o, en una etapa posterior, la interpretación de los hallazgos. Podemos medir dicha validez mediante un pre-test o recogiendo información adicional (relacionada con el criterio) para una muestra de la población estudio, durante el estudio
146
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
mismo o incluso, de surgir las dudas únicamente entonces, durante la fase de análisis. Muchas veces es aconsejable comprobar la validez en subgrupos diferentes de la población estudio, de cara a observar su consistencia. Medidas de validez de criterio La validez de criterio se determina valorando la fuerza de la relación existente entre la medida y la variable de criterio. Puede usarse cualquier medida de la fuerza de una asociación (ver página 232). En el caso de las variables dicotómicas cuando, por ejemplo, se toma una medida como indicador de enfermedad, los índices habitualmente utilizados son la sensibilidad y la especificidad. El criterio es la presencia de la enfermedad, determinada mediante un método asumido como «más válido» que la medida sometida a comprobación14. Es posible presentar los hallazgos en una tabla sencilla (ver página 144), en la cual a representa los «verdaderos positivos», b los «falsos positivos», c los «falsos negativos» y d los «verdaderos negativos». La sensibilidad de la medida indica su validez entre las personas con criterio positivo (en este caso, entre las que padecen la enfermedad). Se la define como la proporción de los que tienen una medida positiva respecto de las personas con la enfermedad, esto es: a/(a+c). Puede expresársela como una proporción (por ejemplo, 0,9), o como un porcentaje (90 por ciento); cuanto mayor el valor, más sensible la medida. La especificidad de una medida, por su parte, indica su validez entre las personas con criterio negativo (sin la enfermedad). Se la define como la proporción de los que tienen una medida negativa respecto del total de las personas que no poseen la enfermedad, o d/(b+d); cuanto mayor su valor, más específica la medida. Muchas veces se usa una medida alternativa, el complemento de la especificidad; se trata de la tasa de falsos positivos11, o b/(b+d); cuanto mayor es esta tasa, menor es la especificidad. La razón de ventaja («odds ratio»), ad÷bc constituye una medida unificada de la validez y toma en cuenta los hallazgos obtenidos en ambos grupos (las personas con la enfermedad y las libres de ella). Una razón de ventaja de 6 quiere decir que la gente con medida positiva tiene 6 veces más probabilidades de padecer la enfermedad que la gente con medida negativa (ver Nota 4 en la página 244). Otra medida unificada es el índice de Youden, consistente en la suma de la sensibilidad y la especificidad (expresadas como porcentajes) menos cien. Si tanto la sensibilidad como la especificidad son altas, la medida posee una gran validez. Es importante considerar ambas características juntas; por separado, ninguna de ellas posee demasiado sentido; el tener nariz es una medida altamente sensible de kwashiorkor (el 100 por cien de los casos de esa enfermedad tienen nariz), pero su especificidad es del 0 por ciento (ningún individuo sin kwashiorkor carece de nariz); en sentido contrario, una coloración verde brillante en las orejas constituye un índice altamente específico de kwashiorkor (100 por ciento), pero su sensibilidad es del 0 por ciento.
VALIDEZ
147
Permítasenos insistir de nuevo en que la validez de una medida puede variar en situaciones diferentes. Una combinación de signos y síntomas, por ejemplo, usada como índice de enfermedad, puede tener en una población hospitalaria (con personas en estadios más avanzados de sus enfermedades) una sensibilidad mayor que entre los enfermos encontrables en un estudio domiciliario. Por contra, su especificidad podría ser inferior en la población ingresada, en donde las personas libres de ella tienen más probabilidades de padecer otros cuadros que producen las mismas manifestaciones. La validez puede también variar con la prevalencia de la enfermedad en la población estudio; en una población con una prevalencia baja, por ejemplo, la gente afectada por el cuadro podría tender a padecerlo en una forma leve, lo que podría significar que se van a dar muchos «falsos negativos», y con ello, una sensibilidad también baja. Evaluación de tests de screening y pruebas diagnósticas La comprobación de la validez juega un papel central a la hora de evaluar las pruebas usadas para detectar enfermedades. Ello es de aplicación tanto a los tests de screening, que son simples tests dirigidos a identificar a la gente subsidiaria de ser sometida a exámenes más exhaustivos en busca de enfermedades, como a las pruebas diagnósticas, cuya función es establecer de modo más definitivo la presencia o ausencia de las mismas. Los índices clave son la sensibilidad del test (su capacidad para identificar a los casos de la enfermedad) y su especificidad (su capacidad para excluir a la gente libre de la misma). Si tanto la sensibilidad como la especificidad son altas, el test constituye un indicador válido de la enfermedad (posee una alta «capacidad discriminatoria»). Frecuentemente, sin embargo, sensibilidad y especidad están relacionadas de modo inverso. Un cultivo de esputo positivo, por ejemplo, es una prueba muy específica de tuberculosis respiratoria, pero posee baja sensibilidad; el examen radiológico es más sensible, pero también menos específico. De forma similar, un valor de glucosa en sangre por encima de los 180 mgs/100 mis a las dos horas de haber comido constituye un test muy específico de diabetes, pero el 50% de los diabéticos no tendrá valores así de altos. Con un nivel crítico inferior, digamos 120 mgs/100 mis, sólo el 11% de los diabéticos se quedarán fuera, pero el test no será muy específico15 . En el momento de valorar la validez, debe siempre tenerse presente el propósito o propósitos para los cuales se está usando el test. Un test puede tener al menos tres finalidades distintas16: descubrir una enfermedad, confirmar su presencia sospechada y excluir su presencia. Algunos son utilizados sólo para uno de estos tres propósitos, algunos para dos y, finalmente, otros para los tres. Se debe prestar también atención a las circunstancias en que va a usarse el test —¿se lo va a usar en un programa masivo para examinar a gente aparentemente sana, o como componente de exámenes de salud periódicos, o como prueba rutinaria a aplicar a todos los pacientes que acuden en busca de
148
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
asistencia médica, o para los pacientes de un determinado grupo de alto-riesgo, o se lo va a usar sólo cuando existen síntomas, o cuando ya se dispone de una prueba de screening positiva o alguna otra prueba que sugiere la presencia de la enfermedad? Se llama «test de descubrimiento» al que se usa sin haber razón especial alguna para sospechar la presencia de la enfermedad. Puede tratarse de una prueba de screening, como la auto-exploración en la detección del cáncer de mama, o puede ser diagnóstica, caso del examen de escroto para detectar la criptorquidia. El objetivo es habitualmente encontrar el mayor número posible de casos. En consecuencia, la alta sensibilidad adquiere una importancia especial aquí. Si se trata de una prueba de screening, sin embargo, no debe ignorarse la especificidad, puesto que de ser baja, habrá un número indebidamente grande de casos «falsos positivos» que requerirán investigación adicional. De ser posible, conviene medir la sensibilidad y especificidad del test de descubrimiento en el tipo de población donde va a ser usado. Para medir sensibilidad, lo normal es que existan pocas posibilidades de elección —de ahí que deba utilizarse cualquier medio disponible para encontrar una muestra suficientemente grande de gente con la enfermedad. La especificidad, sin embargo, debe medirse en una muestra adecuada de gente libre de la enfermedad —seleccionada ya sea de entre la población general, o de entre quienes acuden en busca de asistencia médica, o de entre los componentes de un grupo definido de alto riesgo, según el test que se tenga pensado utilizar. Muchas veces viene bien estimar el «valor predictivo»17 del test de descubrimiento, utilizando índices que expresan los probables hallazgos obtenibles de usarlo en una población o grupo de pacientes con una conocida o asumida prevalencia de la enfermedad —¿qué proporción de gente con test positivo estará enferma, y qué proporción de los que tienen el test negativo estarán bien? Los datos requeridos para estas estimaciones son la sensibilidad y especificidad del test, y la tasa de prevalencia de la enfermedad en la población o grupo donde se lo va a usar. Se llama test de confirmación al empleado cuando se sospecha la presencia de una enfermedad. Su propósito es verificar esta sospecha. La presencia del bacilo tuberculoso en el esputo, por ejemplo, confirmará el diagnóstico de tuberculosis (pero su ausencia no excluye el diagnóstico). Por tanto, la especificidad debe ser alta: la sensibilidad es menos importante. La especificidad de la prueba debe ser medida en pacientes en los cuales se sospecha la enfermedad pero que resultan estar libres de ella. Un test de exclusión, por su parte, tiene la finalidad de «descartar» la presencia de una enfermedad sospechada. Si se efectúa una prueba dérmica idónea de tuberculina, por ejemplo, el resultado negativo prácticamente excluye el diagnóstico de tuberculosis activa (excepto en pacientes moribundos); el positivo, sin embargo, no necesariamente confirma dicho diagnóstico. La ma-
VALIDEZ
149
yoría de los tests de exclusión son procedimientos bastante elaborados, susceptibles de ser usados también como tests de confirmación. Su rasgo fundamental es una sensibilidad extremadamente alta; debe haber muy pocos resultados falsos negativos. La validez no es la única consideración a la hora de evaluar un test. Utilizando el esquema básico de evaluación recogido en la página 41, el tipo de preguntas que suelen plantearse son las siguientes18: 1. Pertinencia. ¿Se necesita el test? ¿No hay otros que resulten satisfactorios? ¿Cómo es de importante la detección de la enfermedad? ¿Cuál es el impacto de la misma sobre el individuo (acortamiento de su vida, incapacidad, invalidez, dolor y molestias, coste de la asistencia), sobre su familia y sobre la comunidad (mortalidad, tasa de morbilidad, disminución de la productividad, coste de la asistencia)? ¿Es posible una intervención efectiva —cuan buenas son las pruebas de que se dispone al respecto? ¿Hace la detección precoz más fácil el tratamiento? ¿Lo hace más efectivo? 2. Calidad. ¿Cómo de bien consigue el test sus efectos deseados —esto es: cómo es de válido (sensibilidad, especificidad, valor predictivo)? ¿Existen efectos colaterales poco convenientes? ¿Podría tener efectos indeseables el «etiquetar» a gente libre de la enfermedad como enfermos? ¿Cuál es el impacto de los resultados falsos positivos (falso «etiquetado»)? 3. Eficiencia. ¿Cuál es el coste por test y por caso encontrado, en comparación con otros tests? ¿Cuál es el coste, comparándolo con el de no detectar la enfermedad? ¿Qué recursos hacen falta —se requiere personal con alta cualificación? ¿Cuál es la relación coste-efectividad de la prueba, usando la sensibilidad y la especificidad como medidas de efectividad? 4. Satisfacción. ¿Es aceptable el test? ¿Existe una demanda —va a producirse una insatisfacción si no se lo aplica? 5. Valor diferencial. ¿De qué modo varían entre los distintos grupos o poblaciones el tamaño del problema, la necesidad de la prueba y su aceptabilidad? ¿Resulta consistente la validez del test en los distintos grupos? Evaluación de los marcadores de riesgo Esas mismas preguntas deben ser realizadas al evaluar un marcador de riesgo, cuyo objeto es identificar a individuos o grupos con una probabilidad especial de desarrollar determinada patología en el futuro (ver página 30). No basta con un nivel alto de validez predictiva; debe haber también buenas razones para pensar que la detección de la vulnerabilidad resultará probablemente beneficiosa —esto es, se dispone de técnica y recursos para reducir el riesgo, y el beneficio esperado supera en valor cualquier daño que se pudiera hacer con el «etiquetado» y la intervención. El uso del marcador debe resultar práctico, asimismo, en términos de costes, recursos, aceptabilidad y conveniencia. Los marcadores de riesgo más útiles son probablemente aquéllos cuya presencia
150
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
puede determinarse con preguntas o procedimientos simples, susceptibles de ser incorporados en la asistencia clínica ordinaria. Con respecto a la validez, el requisito fundamental está en la alta sensibilidad, puesto que normalmente se trata de encontrar el mayor número posible de individuos vulnerables. Deben tenerse también en cuenta los falsos positivos; si son numerosos, el valor predictivo de un test positivo será bajo, con lo cual se acabará prestando muchas veces cuidados más intensivos, recomendables para la gente vulnerable, de forma innecesaria. Una consideración importante es la de la prevalencia del marcador de riesgo. Podría ser alta bien porque el trastorno que predice es muy común o (si es menos común) porque dicho marcador de riesgo posee una baja especificidad. Si más de la mitad de los niños atendidos caen dentro de un grupo de alto riesgo subsidiario de atención especial, igual habría que concluir que el marcador de riesgo posee poco valor, y que quizá fuese una solución más eficiente y eficaz modificar el programa de cuidados y proporcionar atención extra a todos los pequeños.
Notas y referencias
1. Para ejemplo de cómo se desarrolló una escala compuesta para medir la satisfacción con la asistencia médica, ver Hulka, B.S., Zyzanski, S.J., Cassel, J.C. y Thomson, S.J. (1970) Medical Care, 8, 429; y Zyzanski, S.J., Hulka, B.S. y Cassel, J.C. (1974) Medical Care, 12,611. 2. Expert Committee on Maternal and Child Health (1961): Public Health Aspects of Low Birth Weight, World Health Organization Technical Report Series, No. 217. 3. Concepto adscrito a A.L. Cochrane. 4. Burke, B.S. (1947) Journal of the American Dietetic Association, 23, 1041. 5. Estos ejemplos de validación indirecta son ilustraciones sencillas de la validez de construcción. «La validez de construcción se ocupa del grado en que una medida en particular se relaciona con otras medidas de forma consistente con hipótesis derivadas teóricamente en relación con los conceptos (o construcciones) que se está midiendo. Supongamos que un investigador quisiera evaluar la validez de construcción de una determinada medida de autoestima —la escala de autoestima de Rosenberg, pongamos por caso. Teóricamente, Rosenberg ha argumentado que el nivel de autoestima de un estudiante está relacionado de forma positiva con su participación en las actividades escolares. ... Se administra después la escala a un grupo de estudiantes, determinando su grado de implicación en las citadas actividades escolares. ... Si la correlación es positiva y sustancial, se habrá aducido un elemento de prueba en apoyo de la validez de construcción de la escala de autoestima de Rosenberg. (Un hallazgo negativo puede significar que a la medida le falta validez, pero caben asimismo otras interpretaciones; por ejemplo, que la predicción teórica es incorrecta o que la medida de la otra variable posee una validez baja). Carmines, E.G. y Zeller, R.A. (1979) Reliability and Validity Assessment, pp. 22-26. Beverley Hills: Sage Publications. 6. La validez de un cuestionario para valorar las actividades físicas del tiempo de ocio la
VALIDEZ
7. 8. 9. 10. 11.
12.
13. 14.
15. 16. 17.
151
examinan Taylor, H.L., Jacobs D.R. Jr., Schucker, B., Knudsen, J., León, A.S. y Debacker, G. (1978) Journal of Chronic Diseases, 31, 741. Abramson, J.H., Epstein, L.M., Flug, D. y Jaros, A. (1973) Methods of Information in Medicine, 12, 97. National Center for Health Statistics: Reporting of Hospitalization in the Health Interview Survey, and Comparison of Hospitalization Reporting in Three Survey Procedures (1965) Vital and Health Statistics, series 2, Nos. 6, 8,. Washington, D.C.: Public Health Service. Kosa, J., Alpert, J.J. y Haggerty, R.J. (1967) Social Science and Medicine, 1, 165 Abramson, J.H., Gofin, J., Hopp, C, Makler, A. y Epstein, L.M. (1978) Journal of Epidemiology and Community Health, 32, 59. Usando la notación de la tabla de la página 144, la tasa de falsos positivos es b/(b+d) —o sea, el complemento de la especificidad. La tasa de falsos negativos es c/a+c) —es decir, el complemento de la sensibilidad. Se trata de términos usados a veces de modo diferente (ver Nota 17). El significado específico de que un test resulte «más veces equivocado que correcto» es que la tasa de falsos positivos más la tasa de falsos negativos = más del 100 por ciento. Si dichas tasas son iguales en los dos grupos, se puede estimar la diferencia real en la prevalencia dividiendo la diferencia observada por (1 - FP - FN), donde FP y FN son las tasas de falsos positivos y de falsos negativos respectivamente, expresadas como proporciones (no porcentajes). Para una explicación completa de los errores por clasificación incorrecta, ver Fleiss, J.L. (1981) Statistical Methods for Rates andProportions, 2nd edn, pp. 188-200. New York: Wiley. Ver asimismo Kleinbaum, D.G., Kupper, L.L. y Morgenstern, H. (1982) Epidemiologic Research, Chap. 12. Belmont, Calif.: Lifetime Learning Publications. Frazier, T.M. (1959) American Journal of Obstetrics and Gynecology, 77', 915. Cuando se comprueba la validez, el criterio puede ser un «diagnóstico de referencia», determinado por un método que, aunque más específico que el sometido a prueba, no resulta suficientemente válido como para ser adoptado a modo de sustituto del diagnóstico «verdadero». En casos así, a÷(a+c) puede ser llamado «co-positividad», y d÷(b+d), «conegatividad». Bajo ciertas condiciones, se pueden calcular la sensibilidad y la especificidad a partir de estos índices. Ver dos textos escritos por Buck, A.A. y Gart, J.J. (1966) en American Journal of Epidemiology, 83, 586 y 593. United States Public Health Service (1960). Diabetes Program Guide. División of Special Health Services, PHS Publ. No. 506. Washington, D.C.: United States Government Printing Office. Feinstein, A.R. (1977) Clinical Biostatistics, cap. 15. St Louis: C.V. Mosby. El valor predictivo de un test positivo expresa la proporción de personas positivas al test que se verá que poseen la enfermedad al aplicar la prueba a una población con una prevalencia determinada de la enfermedad; el valor predictivo de una prueba negativa expresa la proporción de aquellos a quienes les da negativo el test y que luego se verá que se encuentran libres de la enfermedad. Es posible computar, por ejemplo, que si tanto la sensibilidad como la especificidad son ambas del 90 por ciento y la prevalencia de la enfermedad es del 2 por ciento, el valor predictivo de un test positivo es del 15,5 por ciento; esto es: el 15,5 por ciento de la gente con tests positivos tendrán la enfermedad. Si la sensibilidad y la especificidad son ambas del 70 por ciento, el valor predictivo es sólo del 4,5 por ciento. En ambos casos, el valor predictivo de un test negativo estará por encima del 90 por ciento (casi toda la gente con el test negativo estará sana). Para las fórmulas y una discusión más completa de estos índices, ver Vecchio, T.J. (1966) New England Journal of Medicine, 274, 1171. Ver también Fleiss, J.L. (1981), op. cit., pp 4-8 para las fórmulas de los complementos de estos índices, como por ejemplo la proporción de personas con el test positivo que encontraremos se hallan libres de la enfermedad. Fleiss llama a estos complementos las tasas de «falsos positivos» y de «falsos negativos» (ver antes, Nota 11).
152
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
18. Whitby, L.G. (1974) Lancet, 2, 1974 y Sacket, D.L. & Holland, W.W. (1975) Lancet, 2, 357, discuten los criterios para evaluar los tests de screening. Holland, W.W. (1974) Lancet, 2, 1494, revisa las pruebas sobre el valor de los procedimientos de screening en la asistencia sanitaria. Para una evaluación global de los procedimientos que podrían ser de aplicación durante o como resultado de los exámenes periódicos de salud, ver Canadian Task Forcé on the Periodic Health Examination (1979) Canadian Medical Association Journal, 121, 1193.
17 Entrevistas y cuestionarios auto-cumplimentados Una entrevista puede estar más o menos estructurada. Cuando uno trabaja en salud pública y en el curso de la investigación de un brote o una enfermedad locales tiene que entrevistar a alguien, suele empezar por hacerse una idea clara del tipo de información a obtener —naturaleza y secuencia de los síntomas, desplazamientos previos del paciente, contactos habidos con otras personas enfermas, comidas recientes, tipo de leche y agua consumidas, y así sucesivamente. Si bien a veces conviene apoyarse en una lista escrita de los temas, lo normal es no haber decidido con antelación cuáles preguntas exactamente realizar. El método que se sigue, pues, es flexible: uno va orientándose en distintas direcciones conforme van surgiendo los temas, de modo que el contenido, la formulación y el orden de las preguntas varía entre entrevista y entrevista. Como cuando se rellena una historia clínica, el resultado final queda relativamente desestructurado. Hay situaciones, por el contrario, en las cuales es importante utilizar un método más estandarizado, teniendo la formulación precisa y el orden de las preguntas decididos de antemano. Este último abordaje puede adoptar 2 formas: la de entrevista altamente estructurada, en la cual se pregunta de modo oral, o la de cuestionario auto-cumplimentado, en cuyo caso la persona entrevistada lee las preguntas y rellena las respuestas por sí misma (a veces en presencia del entrevistador, que se mantiene «a su lado» para prestar asistencia si es necesario). Por simplificar, nosotros utilizaremos el término «cuestionario» en referencia a toda lista de preguntas, cualquiera que fuese su propósito de entre los citados. (En las ciencias de la conducta, por contra, habitualmente sólo quiere decir cuestionario autocumplimentado, no aplicándose al guión de entrevista que un entrevistador maneja). A la mayoría de los efectos, en la investigación en medicina comunitaria suelen preferirse métodos de pregunta estandarizados, pues proporcionan mayor seguridad de que los datos serán reproducibles. Las entrevistas menos estructuradas únicamente suelen ser útiles en los estudios preliminares, donde se busca información que ayude en la posterior planificación del estudio —y no datos que luego habrá que someter a análisis—, o en los estudios intensivos de percepciones, actitudes, motivaciones y reacciones afectivas. 153
154
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
A veces no resulta fácil elegir entre un cuestionario auto-administrado y una entrevista altamente estructurada. Los primeros son más sencillos de usar y más baratos; pueden pasarse a muchas personas simultáneamente (por ejemplo, a los alumnos de toda una clase) y, además, es posible enviarlos por correo —cosa que no sucede con los encuestadores1. La pega que presentan, por contra, es exigir un cierto nivel de educación y determinadas habilidades por parte de la persona a quien se solicita cumplimentarlos. Las entrevistas, por su parte, también poseen bastantes ventajas; un buen estrevistador puede estimular y mantener el interés de la persona entrevistada creando una relación mutua y una atmósfera capaces de facilitar el que las preguntas sean respondidas2. De hacer aparición la ansiedad (por ejemplo: «¿por qué se me preguntan a mí estas cosas?», «¿es que tengo una enfermedad y no me lo han dicho?»), el entrevistador puede contribuir a desvanecerla. Tiene la posibilidad, asimismo, de repetir las preguntas que no hubieran quedado claras, o de añadir explicaciones estandarizadas si es necesario. Puede además hacer preguntas «siguientes» o «comprobatorias» para clarificar o amplificar una respuesta (por ejemplo: cuando se intenta elaborar una historia residencial sobre toda la vida, se invita al entrevistado a enumerar las direcciones en que ha vivido y las fechas en que habitó en cada una de ellas —un cuestionario auto-cumplimentado dejaría las cosas en ese punto; en una entrevista, por el contrario, cabe hacer preguntas adicionales sobre las escuelas a las que acudió, sus lugares de trabajo, etc., y usar esas respuestas como base para seguir preguntando —«¿Dónde estaba usted entonces?»— con objeto de corregir y completar la historia residencial). Un entrevistador puede también hacer observaciones en el curso de su trabajo; el llamado «patrón de conducta proclive a las coronariopatías», por ejemplo, fue detectado originalmente en entrevistas durante las cuales se iba tomando nota no sólo de lo que el sujeto decía, sino también de cómo lo decía, si cerraba los puños y apretaba los dientes, etc.3. Finalmente, al entrevistador le queda el recurso de las ayudas visuales: por citar sólo un caso, las tazas y sartenes de diversos tamaños y modelos pueden constituir una ayuda de valor incalculable en una entrevista dietética cuantitativa. Como norma general, si no se considera lo costosas que resultan, las entrevistas son preferibles a los cuestionarios auto-administrados, siempre que se cumpla el importante requisito de ser realizadas por personal cualificado. En caso contrario, suele haber mucho de cierto en la afirmación (surgida en el curso de una discusión sobre ensayos clínicos) de que «conseguir información mediante entrevista se parece a usar cuestionarios, excepto en que estos últimos sólo contienen errores cometidos por el paciente, mientras las entrevistas incluyen también los cometidos por el entrevistador»4. Los elementos de información obtenidos entrevistando y pasando cuestionarios reciben habitualmente el calificativo de datos «blandos», por contraposición a los presumiblemente «duros» conseguibles mediante observación.
ENTREVISTAS Y CUESTIONARIOS AUTO-CUMPLIMENTADOS
155
El nombre hace referencia a que dichos datos adoptan la forma de sentencias no necesariamente correctas, Así, un hombre que afirma estar aquejado de una enfermedad de corazón podría padecer otra no cardiaca, o incluso ninguna. La persona que no refiere un determinado proceso patológico puede, a su vez, no ser consciente de que lo padece o estarse negando (consciente, o incluso inconscientemente) a admitir su existencia —sobre todo si dicha patología conlleva algún tipo de estigma. Las lesiones y enfermedades leves, estancias hospitalarias cortas y demás episodios antiguos con poco impacto sobre el entrevistado, suelen ser olvidados y quedar sin contabilizar, especialmente si sucedieron mucho tiempo atrás. Por el contrario, si la pregunta está referida al pasado reciente (pongamos, el último mes), a veces se refieren episodios que ocurrieron bastante tiempo antes («sesgo del telescopio»). Las respuestas se ven también fuertemente influenciadas por la naturaleza de las cuestiones formuladas; como contestación a una pregunta sobre «cicatrices de suturas» suelen referirse mayor número de intervenciones previas que cuando se habla de «operaciones». En los estudios sobre patología crónica, el número de procesos referidos llega hasta a doblarse si se muestra o lee al interesado una lista de enfermedades concretas5, y aún más si se usa un cuestionario amplio con entradas múltiples y preguntas de comprobación6. Se responde más exactamente en aquellos estudios en los cuales el entrevistado puede utilizar apoyos para su memoria, como agendas sanitarias o calendarios de pared mantenidos exprofeso7. Las respuestas a las preguntas dependen también de a quién sean hechas; los maridos y las esposas tienden a referir más patologías propias que de sus cónyuges («la salud de la nación mejora notoriamente cuando se encuesta a parientes cercanos; las diferencias son incluso más llamativas si quien responde por toda la familia es el «tío Manolo»8). Los entrevistados suelen no mostrarse conscientes de la mayoría de las enfermedades padecidas por sus hermanos y hermanas, pueden no referir correctamente las causas de muerte de sus familiares, y se mostrarán más proclives a hacer notar que miembros de su familia padecen una enfermedad si ellos mismos la padecen también9. La frecuencia con que un hombre consume cerveza suele ser referida de modo distinto por el afectado y por su mujer10. Una madre que informa de que su niño dispone de leche, fruta, vegetales y carne en abundancia, podría estar diciéndolo sólo para quedar bien, o para complacer al entrevistador, en tanto la madre que argumenta que su pequeño no tiene acceso a este tipo de alimentos, igual está tratando de despertar un movimiento de simpatía o de conseguir algún tipo de subsidio. A veces se responde de forma negativa a una pregunta sobre la presencia de un síntoma sólo porque viene a continuación de una serie de otras, todas las cuales han sido respondidas de la misma forma, con lo que el entrevistado «ha cogido el estribillo» de decir «no». Las entrevistas llevadas a cabo en el hogar suelen generar información diferente de las realizadas en un consultorio, dependiendo quizás lo respondido de quién más estuviera pre-
156
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
senté. A un entrevistador mayor, más joven, o de la misma edad que el entrevistado, o que pertenece a la misma clase social, a una superior, o a una inferior, se le dan a veces respuestas distintas; para una misma formulación, médicos y personal no sanitario pueden obtener contestaciones diferentes. La mejor manera de asegurar un alto grado de satisfacción con la asistencia sanitaria, finalmente, es basar la valoración en entrevistas realizadas por el propio médico encargado de tratar a las personas entrevistadas. En definitiva, pues, cualquiera que fuese la variable sometida a consideración, nos hallaremos ante afirmaciones y no ante mediciones directas. Ello es exactamente igual de aplicable a actitudes, sentimientos y creencias (para las cuales no existen métodos directos de medida) que a las demás variables. Si una persona responde sentirse bien, no necesariamente estaremos conociendo la auto-percepción que tiene de su propia salud, sino lo que refiere de ella —cuestión no equivalente, ni mucho menos, por interesante que pudiera resultar en sí misma. Lo anterior resalta la importancia en este ámbito de los problemas de validez y fiabilidad. Conviene plantearse siempre someter a comprobación la validez de criterio (ver página 146), aunque es poco habitual disponer —a efectos de comparación— de información idónea derivada de otras fuentes (si estamos midiendo una actitud, ¿cómo determinar el valor «verdadero» de dicha actitud?). De resultar factible comprobar la validez, es importante aplicar la prueba separadamente a distintos subgrupos de la población estudio para asegurar que cualquier diferencia recogida por los datos de la entrevista refleja diferencias reales en la característica estudiada, y no sólo en la cantidad de veces que se la declara. Puede valer la pena aplicar tests de fiabilidad (ver página 132), pero resultan difíciles porque en general no será aplicable el sencillo método de «prueba-comprobación». La fiabilidad se analiza dividiendo aleatoriamente a los sujetos entre diversos encuestadores para ver si las diferencias entre grupos son mayores que las esperables a causa de la ubicación aleatoria. La fiabilidad de una respuesta concreta puede ser examinada insertando la misma pregunta, u otra formulada de modo muy similar, en diferentes momentos del cuestionario (aunque ello puede molestar al entrevistado). Se hayan comprobado la validez y la fiabilidad o no, tampoco conviene dar más importancia de la cuenta a los hechos obtenidos entrevistando o mediante cuestionario cuando luego se realicen inferencias a partir de ellos. Tanto en situaciones de entrevista como de elaboración de cuestionarios (ver Capítulo 18), deben adoptarse precauciones específicas para asegurar la exactitud. En las entrevistas, el requisito fundamental es que el entrevistador tenga cuidado de no influir las respuestas de la otra persona; ha de realizar sus preguntas de forma neutral, sin mostrarle (con palabras, ni con inflexiones ni expresiones) cómo considera que responderá o debería responder; no debe nunca dejar ver que está de acuerdo, en desacuerdo ni sorprendido, sino reflejar de
ENTREVISTAS Y CUESTIONARIOS AUTO-CUMPLIMENTADOS
157
forma precisa únicamente lo oído, sin modificarlo ni interpretarlo. Esta habilidad, como las otras que se precisan para ser un buen encuestador, requiere formación y experiencia práctica. El buen profesional en esta esfera se hace, no nace (si bien existen personas congénitamente incapaces de llegar a ser nunca buenos a este nivel). Es preciso recordar que médicos, enfermeras y trabajadores sociales suelen comportarse como entrevistadores deficientes en los contextos de investigación; han sido enseñados a entender sus roles respectivos como de provisión de ayuda a pacientes o clientes, y muchas veces les cuesta trabajo aceptar o llevar a cabo satisfactoriamente ese otro papel de recolectores de datos estandarizados. Son normalmente, en cambio, excelentes entrevistadores según una modalidad distinta: la de buscar información selectiva para clarificar un determinado caso problema, y centrar el esfuerzo en conseguir ejercer influencia mediante consejo, directrices, información o comunicando tranquilidad; no resulta nada fácil dejar de lado costumbres así. Notas y referencias
1. Los cuestionarios postales van directamente a la papelera en muchos casos, incluso siendo sencillos, de diseño atractivo, estando acompañados de una carta persuasiva y de un sobre ya relleno con el sello pegado, y hasta yendo seguidos de uno o más recordatorios periódicos. Pueden resultar útiles, pese a todo, en situaciones en las cuales las personas a quienes van dirigidos se encuentran suficientemente motivadas para rellenarlos, como sucede con los enviados a pacientes o ex-pacientes por su médico o centro asistencial interesándose por su evolución. 2. Si se busca asesoramiento práctico y útil sobre el tema del arte de entrevistar, ver Survey Research Center, Institute for Social Research (1976) Interviewer's Manual, pp. 7-34. Ann Arbor: University of Michigan; o también Kornhauser, A. y Sheatsley, P.B. (1976) En Research Methods in Social Relations, 3rd edn. ed. Seltiz, C, Wrightsman, L.S. y Cook, S.W., pp. 541-573. New York; Holt Rinehart & Winston 3. Rosenman, R.H., Friedman, M., Straus, R., Wurm, M., Kositchek, R., Hahn, W. y Werthessen, N.T. (1964) Journal of the American Medical Association, 189, 15 (apéndice; incluido sólo en las reediciones). 4. Glaser, E.M. (1964) EnMedicalSurveysandClinicalTriáis, ed. Witts, L.J., p. 127. Oxford University Press. 5. Linder, F.E. (1965) En Trenas in the Study of Morbidity and Mortality. Public Health Papers, 27, p. 78. Ginebra. WHO. 6. National Center for Health Statistics (1972) Reporting Health Events in Households Interviews: Effects of an Extensive Questionnaire and a Diary Procedure, Vital and Health Statistics, series 2, No. 49. Washington, D.C.: Public Health Service. 7. Las agendas sanitarias pueden ser mantenidas para utilizarlas como recordatorio en las entrevistas, sean cara-a-cara o telefónicas, o también como fuentes directas de datos. Su valor tiende a declinar si se las mantiene durante algo más que un periodo corto de tiempo («efecto de la fatiga»). Ver Verbrugge, L. (1980) Medical Care, 18, 73 y Marcus, A.C. (1982) American Journal of Public Health, 72, 567. 8. Kirscht, J.P. (1971) Social Science and Medicine, 5, 519. 9. Un estudio realizado en Estados Unidos sugiere la conveniencia de usar las historias familiares de enfermedad con precaución. Las respuestas que afectaban a sobrinos domiciliados en un radio de 25 millas resultaron contener muchísimas declaraciones de «falsos negativos» y
158
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
algún que otro «falso positivo» a las enfermedades; las causas referidas de muerte de parientes, discrepaban muy a menudo con las recogidas en los certificados de defunción; sólo un 74% de las muertes coronarias certificadas se refirieron como «ataque al corazón» o «problemas cardiacos»; Napier, J.A., Metzner, H. y Johnson, B.C. (1972) American Journal of Public Health, 62, 30. En un estudio sueco se encontró una mayor conformidad entre las causas de muerte referidas y las certificadas; Waern, U., Hedstrand, H., y Aberg, H. (1976) Scandinavian Journal of Social Medicine, 4, 123. Entrevistando gente aquejada de artritis reumatoidea, sólo el 27% refirió que sus padres se encontraban libres de la enfermedad; al hacerlo con sobrinos no aquejados de ella, el 50% informó que esos mismos padres no padecían artritis; Schull, W.J. y Cobb, S. (1969) Journal of Chronic Diseases, 22, 217. 10. En un estudio sobre hábitos dietéticos de varones en el cual la información se obtenía tanto de los implicados como de sus esposas, sólo se consiguió acuerdo completo sobre frecuencia de ingestión (de la mayoría de los alimentos) en aproximadamente el 60% de las parejas. Para también una mayoría de los artículos, las frecuencias medias derivadas de ambas fuentes eran similares. Las esposas referían menos frecuentemente la ingesta de cerveza. Marshall, J., Priore, R., Haughey, B., Rzepka, T. y Graham, S. (1980) American Journal of Epidemiology, 112, 675.
18 Elaboración de un cuestionario Antes de elaborar un cuestionario, debe hacerse una lista con las variables que se pretende medir. A continuación, se formularán preguntas idóneas —es decir, con validez patente (ver página 139) en tanto que medidas de dichas variables— y ajustadas a los demás requisitos que enseguida enumeraremos. Para mejorar la citada validez patente, se puede decidir formular más de una pregunta que mida una única variable. Cabe asimismo usar una escala de medición compuesta (ver capítulo 13), tanto porque pudiera no resultar factible cubrir todas las facetas de la variable con una sola pregunta, como por el hecho de que basarse sólo en una podría aumentar las oportunidades de cometer inexactitudes a causa de malentendidos u otras razones. En determinados casos, para asegurar la comparabilidad con estudios ya realizados se copian las preguntas de otras fuentes, en vez de crearlas ex-profeso. Por ejemplo, el uso de cuestionarios estándares sobre síntomas cardiovasculares y respiratorios y sobre hábitos tabáquicos1 está muy extendido, lo mismo que las preguntas relacionadas con la limitación crónica de la actividad y la movilidad, incluidas en el National Health Interview Survey norteamericano2. (Cuando se cogen «prestadas»así las preguntas, el investigador debe plantearse la posible necesidad de revalidarlas en su propia población estudio). Una vez tomada una decisión sobre las preguntas, hay que determinar su secuencia. Las iniciales deben ser fáciles y, dentro de lo posible, interesantes. Las «difíciles», susceptibles de originar desasosiego o generar resentimiento, conviene dejarlas para mucho más adelante —si el individuo va a molestarse, que lo haga una vez completada la mayoría del cuestionario; incluso las preguntas sobre edad, educación, etc. se dejan a veces para el final por la misma razón. Todas deben seguir algún tipo de orden que sea visto por el entrevistado como natural, pasando con delicadeza de tema en tema. En otro sentido, si el cuestionario resulta largo, en ocasiones viene bien introducir rupturas en la continuidad, puesto que «cambiar de escenario» contribuye a evitar el aburrimiento. Decidida la secuencia, hay que ir con cuidado sobre cada pregunta, examinando las implicaciones de ponerlas en ese orden en particular. Una respuesta previa obliga a veces a la persona encuestada a responder la siguiente de una determinada forma (en cuyo caso, probablemente es mejor pasar esta 159
160
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
última antes). Una secuencia concreta, asimismo, puede resultar torpe (como preguntar «¿Tiene usted hijos?» antes de «¿Está usted casado?»), o requerir el manejo de instrucciones especiales (por ejemplo, si se ha preguntado antes «¿Está usted casado?», el investigador podría decidir añadir la instrucción de pasar la relacionada con los hijos sólo a personas casadas, viudas y divorciadas). Si el cuestionario es auto-cumplimentado, normalmente es preciso acompañarlo de una introducción o nota explicativa que aclare la finalidad y el patrocinio del estudio, y aporte asimismo instrucciones y ejemplos claros. Conviene incluir explícitamente una formulación de confidencialidad, pero es mejor no comprometerse a garantizar el anonimato a menos que realmente no hubiese forma alguna de seguir la pista y ver a quién pertenecen unas respuestas cualesquiera. Si el cuestionario va a ser usado por un entrevistador, deben incluirse en el formato todas las explicaciones e instrucciones dirigidas a éste, o bien recogerlas aparte en una guía o manual. Dichas instrucciones al encuestador deben ser completas y explícitas. El formato del cuestionario debe favorecer la sencillez y la exactitud en el registro y codificación de las respuestas (la planificación de las formas de registro se discutirá en el capítulo 23). Cuando se reconsidera y discute un cuestionario con colegas, siempre se descubre la necesidad de modificarlo. Habitualmente hace falta más de un nuevo borrador antes de dejar listo un «producto acabado» —y listo no para ser usado, sino para someterlo a prueba. A estas alturas resulta todavía permisible usar versiones alternativas de las mismas preguntas en un mismo cuestionario, o en otros puestos a prueba con sujetos diferentes. No hay más remedio que realizar pre-tests (ver capítulo 24); lo normal es que revelen la necesidad de cambiar preguntas o de alterar su secuencia, y sobre todo —muy frecuentemente— la conveniencia de acortar el cuestionario3. Las preguntas Adoptan dos formas fundamentales: pueden ser «abiertas» (o «de respuesta libre»), en las cuales el sujeto usa para contestar sus propias palabras, o «cerradas» (también llamadas «de alternativas fijas»), a las que se responde eligiendo una de entre varias respuestas escritas de antemano. Las preguntas abiertas suelen generar dificultades a la hora de interpretar lo respondido. Supongamos, por ejemplo, que estuviéramos interesados en saber cuánta gente ha dejado de fumar por motivos relacionados con la salud. Preguntar «¿Por qué dejó usted de fumar? —indique la razón principal», podría estimular contestaciones como «Pensé que era mejor no fumar», «He estado haciéndolo durante treinta años y decidí que había llegado el momento de dejarlo», «Porque mi esposa me dijo que debería hacerlo», etc. Existen, evidentemente, dificultades obvias para categorizar estas afirmaciones; en las tres ocasiones es imposible saber si la razón fundamental tuvo algo que ver con la
ELABORACIÓN DE UN CUESTIONARIO
161
salud. En el caso de manejar cuestionarios auto-cumplimentados, incluso una pregunta como «¿Cuál es su estado civil?» podría responderse con cosas como «Insatisfactorio», o «Pregúntele a mi esposa», por lo cual, sin duda, resulta preferible usar las cerradas («En el momento actual, ¿es usted soltero, casado, viudo o divorciado?»). Cuando las respuestas son fáciles de manejar (por ejemplo: «¿Qué edad cumplió usted en su último cumpleaños?», o «¿En qué país nació usted?»), por supuesto, no hay problema en emplear preguntas abiertas. Aparte de situaciones así, el uso principal de las cuestiones abiertas en la investigación en Medicina Comunitaria se restringe a los estudios exploratorios, donde pueden servir a modo de indicación de la gama de respuestas esperables, proporcionando a la vez una cierta guía para elaborar contestaciones alternativas a las preguntas cerradas. Se las puede también usar como más o menos pintorescas ilustraciones de casos en informes que, de no ser así, resultarían francamente aburridos. Si van seguidas de preguntas «de prueba», las abiertas poseen ciertas ventajas a la hora de estudiar opiniones o actitudes complicadas o dudosas. A la mayoría de los efectos, insistimos, son preferibles las preguntas cerradas. Pueden dar pie a solamente dos respuestas (tipo «sí/no», «de acuerdo/ en desacuerdo», etc.), o a más (por ejemplo: «nunca», «raras veces», «ocasionalmente», «con bastante frecuencia» y «muy frecuentemente»). El rango de las mismas equivale a la escala de mediciones referida con anterioridad (ver capítulo 12); debe ser exhaustivo y con sus categorías mutuamente excluyentes entre sí. Excepto en modalidades sencillas, como las que implican respuestas de «Sí» o «No», lo correcto es que todas sean explicadas a —o leídas por— el sujeto al cual se pregunta. Si se quiere evitar la necesidad de expresar todas las respuestas alternativas con palabras, pueden manejarse escalas gráficas de tamaños comparativos. Se enseña a la persona una línea o una escala, etiquetadas en sus dos finales con las dos respuestas extremas posibles, y se le pide que responda a la pregunta indicando el punto de dicha escala que considera adecuado; de considerarlo oportuno, pueden imprimirse en la misma puntos intermedios de referencia. Los escalones a veces tienen al lado cifras, o cabe también calcular una determinada puntuación tras medir la posición del punto señalado por el encuestado4. El principal requisito que una pregunta debe cumplir, por supuesto, es tener validez patente en tanto que medida de la variable que se desea estudiar. Existen asimismo otros5, los más importantes de los cuales se comentan a continuación. Las preguntas deben estar hechas de modo que sea razonable esperar que quien responde conozca la respuesta. Tiene poco sentido interesarse por si «su abuela, ¿tuvo hemorroides?», ni invitar a una persona a expresar su opinión sobre algo en lo cual jamás había pensado con anterioridad, ni solicitarle verbalizar actitudes o motivaciones de las cuales quizá no es consciente. Si a una persona no se le ha dicho nunca que padece diabetes, no puede referir el
162
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Preguntas: requisitos 1. Validez patente 2. Debe ser esperable que quien contesta conozca la respuesta 3. Claras y sin ambigüedades 4. No ofensivas 5. Limpias y no abusivas en sí mismas padecimiento de dicha enfermedad. Tienen igualmente escaso valor las preguntas relacionadas con acontecimientos o experiencias con poco impacto, hasta el punto de hacer esperable que mucha gente no las responda bien (caso de las heridas pequeñas, o de la comida ingerida tres días atrás). En concreto, muchos padecimientos menores que no requirieron atención médica ni ocasionaron restricciones en la actividad del afectado dejan de ser referidas con el paso de simplemente una semana, lo mismo que al cabo de un año las personas olvidan ya informar de muchas hospitalizaciones. Los padecimientos que exigieron sólo una consulta con personal sanitario se refieren con menos exactitud que los causantes de más de una, y se declaran más y mejor las patologías causantes de una estancia larga en el hospital, o de un procedimiento quirúrgico, que las demás. Muchas veces, considerando no esperable que los encuestados proporcionen los datos importantes de forma directa, se decide realizar preguntas indirectas e inferir la información buscada a base de mostrar interés por otros temas. En lugar de preguntar al sujeto si se considera emocionalmente sano, por ejemplo, se le puede solicitar la presencia de una serie de síntomas, de los cuales se deduce su estado emocional6. En lugar de pedir a una madre que hable de sus actitudes sobre el tema de la permisividad con respecto a los niños, cabe preguntarle si realiza o ha realizado alguna vez determinadas acciones concretas, o qué haría en una situación específica, o cómo piensa ella que otras madres se sentirían o actuarían, o cómo —en última instancia— cree ella que deberían actuar las madres. De igual modo, en vez (o además) de preguntar a una persona si se encuentra satisfecha con su propia asistencia médica, se le puede solicitar su opinión sobre la que recibe el vecindario, o si está de acuerdo o en desacuerdo con afirmaciones como «La mayoría de los médicos demuestran un interés real por sus pacientes»7. La manera de formular las preguntas puede tanto «dar vida» como «cargarse» a un cuestionario. Han de ser claras y sin ambigüedades. Deben venir
ELABORACIÓN DE UN CUESTIONARIO
163
expresadas en un lenguaje valorable como al alcance de todos los encuestados, y susceptible además de ser entendido siempre de una misma forma. Decir esto es más fácil que conseguirlo —cuando se somete un cuestionario a comprobación, multitud de veces aparecen inesperados dobles sentidos tras preguntas aparentemente claras como el agua. La terminología médica, incluso la usada comúnmente en el lenguaje cotidiano, suele generar complicaciones enormes. «Anemia», o «enfermedad del corazón» pueden significar cosas muy distintas para un ciudadano de la calle y para un profesional de la medicina; en la percepción de mucha gente, «palpitaciones» quiere decir sensación de falta de aliento o de miedo, y «flatulencia», sabor ácido en la boca8. Si no queda más remedio que usar por fuerza un término difícil, debe acompañárselo con una pregunta preliminar «de criba», al objeto de descartar a las personas que no saben responderla; por ejemplo, antes de hacer la pregunta: «¿Cree usted que la gente con el colesterol sanguíneo alto debería dejar de fumar?», podría resultar sensata esta otra: «¿Sabe usted lo que es el colesterol?». Buscando asegurar su claridad, cada pregunta debe contener sólo una idea, además de ser corta en extensión. Si se utilizan preguntas cerradas, las respuestas alternativas deben, asimismo, venir expresadas sin confusiones. Conviene siempre evitar, en la medida de lo posible, toda pregunta que pudiera ofender al entrevistado, como las relacionadas con cuestiones íntimas o aquéllas capaces de poner de manifiesto la ignorancia de la persona a quien se pregunta, ni exigir respuestas consideradas socialmente inaceptables, como reconocer el padecimiento de una enfermedad venérea o un hábito vergonzoso. De resultar ineludibles este tipo de preguntas «difíciles», se mitiga a veces su naturaleza embarazosa modificando la formulación, por ejemplo incluyendo una frase que aclare el interés de quien entrevista en no realizar juicios de valor («Ya se sabe que todas las parejas casadas tienen alguna vez que otra una riña: ¿con qué frecuencia riñe usted con su marido?»). La pregunta debe ser limpia. No debe estar expresada (ni se la debe leer con entonación alguna que lo sugiera) para inducir una respuesta específica, y no debe ser parcial. Preguntar «¿Cuáles son los principales defectos de la asistencia que le presta su doctor?» resulta obviamente abusivo. Semejante modalidad, que «suplica la pregunta», debe ser usada —si acaso— solamente en los estudios de actitudes en los cuales se parte del presentimiento de que la mejor manera de hacer a una persona manifestar sus sesgos consiste en indicar que quien la entrevista comparte dichos mismos sesgos.
164
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y referencias
1. Rose, G.A. y Blackbum, H. (1968) Cardiovascular Survey Methods, pp 172, 177, 160. Ginebra: WHO. 2. National Center for Health Statistics (1975) Health Interview Survey Procedure 1957-1974. Vital and Health Statistics, Series 1, No. 11, pp. 130-132. Washington, D.C.: U.S. Department of Health, Education and Welfare. 3. Para obtener guías más detalladas sobre cómo elaborar un cuestionario, ver Kornhauser, A. y Sheatsley, P.B. (1976) en Research Methods in Social Relations, 3rd edn, ed. Selltiz, C, Wrightsman, L.S. y Cook, S.W., pp. 541-573. New York: Holt Rinehart and Winston; y Kahn, R.L. y Cannell, C.F. (1967) The Dynamics oflnterviewing, pp. 106-165. New York: Wiley. 4. Para ejemplos, ver informes sobre el uso de escalas gráficas en la medición de las creencias relacionadas con distintas enfermedades, Jenkins, C.D. (1966) Public Health Reports, 81, 549; de los patrones de conducta propensos a las coronariopatías, Bortner, R.W. y Rosenman, R.H. (1967); Journal of Chronic Diseases, 20, 525; y de las aspiraciones y miedos, Cantril, H. (1965) The Pattern of Human Conflicts, pp. 22-26. New Brunswick, N.J.: Rutgers University Press. 5. Para asesoramiento mucho más detallado sobre cómo formular preguntas, ver Payne, S.L. (1965) The Art of Asking Questions. Princeton, N.J.: Princeton University Press. 6. Para una revisión del uso de dichos cuestionarios en la epidemiología psiquiátrica, ver Goldberg, D.P. (1972) Detection of Psychiatric Illness by Questionnaire, pp. 5-34. Oxford University Press. 7. Ver Nota 1 de la página 150. 8. Boyle, C.M. (1970) British Medical Journal ii, 286.
19 Recogida de las opiniones de expertos A veces se tiene interés en conocer las opiniones de determinadas personas que destacan por su conocimiento. Puede tratarse de expertos con cualificación y formación particulares en un área específica de la asistencia sanitaria, o de profesionales —o incluso simples ciudadanos— particularmente bien informados sobre una situación concreta, como la existente en una comunidad y los problemas planteados a ésta. La recogida de opiniones de expertos puede vincularse a dos tipos de objetivos de estudio: 1. Determinar actitudes, preocupaciones, criterios sobre la importancia relativa de diversos factores, o sobre lo deseable de distintas opciones, y las razones de dichos juicios. Cuando se planifica un programa sanitario, en concreto, suele resultar interesante saber cuáles son —a juicio de la gente formada— los problemas fundamentales y cómo valoran ellos su trascendencia, o qué piensan sobre la deseabilidad, factibilidad y pros y contras de las soluciones posibles. De igual modo, para evaluar un programa cabe pedirles que elijan los criterios pertinentes, o decidan sobre la importancia relativa de unos cuantos, lo cual nos ayudará a ponderarlos1. 2. Si a nosotros nos resulta difícil o imposible obtener datos objetivos sobre una situación, podemos solicitar a los expertos que la juzguen. Estas «suposicionestimaciones» constituyen en determinadas circunstancias una cierta base para la planificación de programas, partiendo de que una suposición informada es siempre mejor que la ausencia total de información. Tal uso de las opiniones de expertos suele demostrarse particularmente idóneo en países subdesarrollados, en situaciones donde resulta imposible recopilar datos «duros». En estudios de coste-efectividad, asimismo, pueden usarse estimaciones expertas sobre la efectividad respectiva de diversos procedimientos de intervención como sustituías de las mediciones objetivas. También en la planificación a largo plazo, finalmente, se fundamentan algunas decisiones en los pronósticos de los expertos sobre la situación futura. Los estudios de esta naturaleza requieren métodos especiales. La limitación fundamental de los manejados ordinariamente en entrevistas y cuestionarios es que no permiten la comunicación entre participantes, con lo cual limitan el 165
166
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
ejercicio de las habilidades profesionales: el experto no tiene oportunidad de influir sobre los demás ni de llegar a conclusiones que modifiquen eventuales juicios previos una vez valoradas las opiniones de sus compañeros. Las técnicas de grupo con comunicación libre —discusiones de panel, reuniones de comité y conferencias en las que se participa mediante llamada telefónica— por su parte, poseen ciertas otras limitaciones: las decisiones del grupo se ven a veces profundamente influenciadas por la manera en que sus miembros interrelacionan entre sí (lo cual a su vez puede venir determinado por el autoritarismo o la ineficacia de su presidente, el dominio de determinados participantes parlanchines o apasionados, la deferencia con la autoridad, el poder, el prestigio o la edad, o —finalmente— por las amistades o antagonismos existentes entre los implicados). Es posible minimizar este tipo de dificultades mediante técnicas que impiden o restringen la interacción entre los miembros, pero permiten recoger por etapas una retroalimentacion de las opiniones del grupo, de modo que cada participante pueda tomarlas en cuenta antes de hacerse su opinión definitiva. Sólo posteriormente se unirá ésta a las demás contribuciones para generar las decisiones del grupo. La técnica del Grupo Nominal constituye un método sencillo de usar cuando puede hacerse coincidir en una reunión a los expertos. La Delphi, por su parte, requiere una preparación y organización más elaboradas, pero en cambio no exige reunirlos. Ahora bien, con ambas técnicas, desde luego, los hallazgos dependen de cómo se haya seleccionado a los participantes. Técnica del Grupo Nominal Desarrollada por Van de Ven y Delbecq2, recibe su nombre del hecho de que, aunque los participantes tomen asiento juntos, se permite la discusión únicamente durante fases específicas del proceso. De ello deriva el que a lo largo de la mayoría de dichas fases «de grupo sólo tengan el nombre». Es una técnica utilizable en diversas situaciones que requieran una toma de decisiones en grupo. Los participantes pueden ser gente con formación concreta sobre un tema, o sencillamente individuos preocupados, tanto profesionales como de la calle. Fue desarrollada en principio como método para vertebrar en torno a instituciones de acción comunitaria a personas afectadas por situaciones desventajosas, habiéndose recomendado su uso en los estudios exploratorios de las percepciones que tanto ciudadanos ordinarios como profesionales pudieran tener de los problemas sanitarios (ver página 268)2. El procedimiento3 es sencillo. Entre cinco y nueve participantes (preferiblemente, no más de siete) se sientan en torno a una mesa, junto a alguien que dirige. Si participa más gente, mejor dividirla en grupos pequeños. Una sesión única sobre un solo tema suele durar como mínimo entre 60 y 90 minutos (más, si hay que recopilar las opiniones de los subgrupos).
RECOGIDA DE LAS OPINIONES DE EXPERTOS
167
En una sesión típica de un grupo pequeño único, los pasos sucesivos son los siguientes: 1. Generación en silencio de ideas por escrito 2. Rondas de aportación de ideas 3. Discusión seriada de las ideas 4. Votación preliminar 5. Discusión de la votación preliminar 6. Votación final
1. Generación en silencio de ideas por escrito. Una vez ha formulado la bienvenida resaltando la importancia de la tarea y de la contribución de cada miembro, el director lee la pregunta que se pide a los participantes responder. Habitualmente se trata de una pregunta abierta con diversos items listados: por ejemplo, los elementos de un problema concreto, o de un programa al que se propone hacer frente. Se entrega a cada miembro un folio (al principio del cual aparece la pregunta), dándole cinco minutos para escribir sus ideas en respuesta a ésta. La persona que dirige también lo hace. No se permite la discusión. 2. Rondas de aportación de ideas. El director va haciendo una ronda por la mesa solicitando a cada miembro aportar una de las ideas que ha anotado, resumida en pocas palabras. El participa también, tomando su vez cuando le toca. Cada idea es numerada y escrita en una pizarra, o en láminas grandes de papel que se van exponiendo conforme se rellenan, de modo que resulten visibles a todos los participantes. Se solicita a éstos no presentar ideas que entiendan sean simples duplicaciones de las ya expuestas. Al mismo tiempo, se les invita a añadir en cualquier momento otras nuevas en su folio; pueden «pasar» en una ronda y contribuir en la siguiente. El proceso sigue y sigue, hasta que ya no surgen ideas nuevas. Durante esta fase tampoco se permite la discusión. 3. Discusión seriada de las ideas. Se van discutiendo de forma sucesiva las ideas listadas en la pizarra o en las láminas. Para cada una de ellas se consulta al grupo si tiene algo que preguntar, o si alguien desea clarificar el tema o expresar su punto de vista sobre la importancia relativa de algún aspecto. El objeto de esta discusión es conseguir claridad y airear puntos de vista
168
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
distintos, no resolver diferencias de opinión. De haber mucho solapamiento entre los items, a veces resulta deseable modificar la lista una vez concluida la presente fase. Una forma de conseguirlo es reorganizar los items de modo que las variantes de un único factor aparezcan consecutivamente (reteniendo los números originales que tenían en la serie) bajo un encabezamiento globalizador. Si el grupo desea refinar la lista, pueden cambiarse ligeramente algunas formulaciones. 4. Votación preliminar. Se pide a cada participante seleccionar un número especificado (de 5 a 9) de los items que considere «más importantes» en la lista total, copiando cada uno de ellos en una tarjeta. Si hay que escoger seis, por ejemplo, se solicita a todos escribir un «6» (subrayado o dentro de un círculo) sobre la tarjeta «más importante» y un «1» sobre la menos importante; posteriormente, el «5» sobre la más importante de las cuatro restantes y el «2» sobre la menos, y así sucesivamente. La persona que dirige también hace lo mismo. Se recogen y barajan las tarjetas para mantener el anonimato, se leen los votos, y se los registra en una tabulación donde aparecen los distintos items con el número de orden asignado a cada uno según su importancia. 5. Discusión de la votación preliminar. Ahora sí se permite discutir brevemente el patrón resultante de los votos emitidos. Se comunica a los miembros que el propósito de la misma es conseguir una clarificación adicional, y no ejercer presiones sobre ellos buscando hacerles cambiar sus votos. 6. Votación final. Se repite ahora el paso cuarto. Cabe reordenar de nuevo según rango los elementos considerados más importantes, o bien asignarles puntuaciones de acuerdo a una escala, desde 0 («no importante») a 10 ó 100 («muy importante»). Los números de orden o las puntuaciones asignadas a cada item pueden promediarse, sumándolos y dividiéndolos por el número total de participantes; cabe asimismo recurrir a otros métodos de ponderación. Por ejemplo, a veces se solicita a los miembros que asignen un 100 a la idea más importante y puntúen las demás en proporción a su importancia relativa —es decir, poniendo un 50 a aquella que fuera la mitad de importante4. Si hay diez o más participantes, conviene, como se señalaba anteriormente, dividirlos en subgrupos pequeños y llevar a cabo los pasos numerados del 1 al 4 en cada subgrupo. Se produce entonces una pausa, y los encargados de los subgrupos se reúnen para preparar la lista conjunta de los items considerados principales con las entre cinco y nueve prioridades máximas identificadas por cada uno. De ser necesario, se procede a reformular o combinar dichos items. La lista conjunta mostrará ahora, pues, los votos agregados adjudicados a los elementos incluidos en ella. Todos los participantes se reúnen más tarde en un único grupo grande, y van discutiendo sucesivamente cada epígrafe a efectos de clarificación. Es ahora cuando se discute la votación preliminar. A petición de cualquier miembro, puede procederse a añadir items no incluidos en la lista conjunta. Por fin, se efectúa la votación definitiva.
RECOGIDA DE LAS OPINIONES DE EXPERTOS
169
Técnica Delphi Esta técnica (cuyo nombre tiene que ver con el famoso oráculo) es más elaborada. Se la utilizó por primera vez buscando pronosticar qué blancos seleccionaría para una bomba atómica un enemigo potencial de los EEUU, y cuántas bombas serían necesarias. A partir de entonces, sus aplicaciones se han ampliado considerablemente. Ha sido definida como «método que sirve para estructurar un proceso de comunicación de grupo capaz de resultar efectivo, permitiendo a un conjunto de individuos manejar un problema complejo»5. El método ha sido aplicado numerosas veces en el terreno sanitario para determinar, por ejemplo, las opiniones de expertos sobre cómo hacer frente al problema de las drogas6 y del absentismo laboral7, los probables efectos de programas de nutrición concretos durante el embarazo y la infancia sobre los coeficientes intelectuales de los niños implicados8, el número de candidatos potenciales a la hemodiálisis crónica9, los cambios esperados en los roles de enfermería10, los criterios a usar en la evaluación de la asistencia psiquiátrica1, y las definiciones de diversos términos epidemiológicos11. No se requiere un contacto cara a cara entre los participantes, si bien a veces se etiquetan como «Delphi» procedimientos que conllevan discusiones en grupo1, 11. Lo normal es utilizar cuestionarios por correo, siguiendo la mecánica de enviarlos sólo después de analizar los resultados del anterior. Se trata, por tanto, de un proceso que suele durar semanas o incluso meses. Con el uso de las telecomunicaciones modernas y de una computadora, se puede acortar considerablemente su duración. Como elementos característicos fundamentales se incluyen: la oportunidad de que los individuos aporten ideas o información, la valoración de los juicios emitidos por el grupo, la clarificacón de los motivos subyacentes tras las posibles diferencias, una oportunidad para que los individuos revisen dichas diferencias y, por último, cierto grado de anonimato para las respuestas individuales. Es posible con esta técnica emitir los votos y retroalimentar al grupo varias veces con los resultados, hasta conseguir una cierta estabilidad o el consenso. El procedimiento Delphi resulta muy variable en sus manifestaciones, y es imposible indicar para él prescripción sencilla alguna12. Una recopilación comentada sobre el tema explica: «Si algo puede decirse que se sabe con certeza sobre el Delphi hoy día, es que en su diseño y uso tiene más de arte que de ciencia».5
170
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y referencias
1. Clark, A. y Friedman, M. J. (1982) describen un estudio en el que un grupo de médicos asistenciales, administradores e investigadores asignaron pesos a nueve medidas de resultados, de forma que pudieran ser combinadas para valorar la efectividad global de los programas de asistencia psiquiátrica. La mejora de la capacidad de auto-sostén fue considerada el resultado de mayor importancia, siendo el segundo la reducción de los síntomas (0,19 y 0,17 de pesos, respectivamente); la frecuencia del daño por uso incorrecto de los fármacos se consideró la medida menos importante (peso: 0,003). Evaluation Review, 6, 79 2. Van de Ven, A. H. y Delbecq, A. L. (1972) American Journal of Public Health, 62, 337. 3. La Técnica de Grupo Nominal está descrita en su totalidad en Delbecq, A. L., Van de Ven, A. H. y Gustafson, D. H. (1975) Techniques for Program Planning: A Guide to Nominal Group and Delphi Processes. Glenview, 111.: Scott, Foreman. El procedimiento descrito por nosotros se basa en las detalladas instrucciones que recoge el capítulo 3 de dicho libro. Los autores señalan la importancia de hacer las preguntas idóneas y a la gente idónea, comparando la técnica con un microscopio y con una máquina de limpiar al vacío: «la Técnica de Grupo Nominal es como un microscopio. Enfocado correctamente con una buena pregunta, puede suministrarle bastante detalle conceptual sobre el tema que le preocupe. Si lo enfoca de modo inadecuado mediante una pregunta deficiente o engañosa, sobre lo que le dirá mucho es sobre algo en lo que usted no tiene ningún interés (página 75)... «es como una limpiadora al vacío. Constituye un medio poderoso de sacar a flote el conocimiento de fondo y la información que un grupo tenga. De no haber nada que «extraer», sin embargo, hasta la máquina más potente resulta inútil (página 79). 4. Si se asignan un número fijo de puntos al item de referencia, podría resultar deseable estandarizar las puntuaciones, expresando cada una de ellas como proporción o porcentaje de la suma de todos los puntos concedidos por cada persona. Ver Edwards, W., Guttentag (eds.), Handbook of Evaluation Research, p. 155, Beverley Hills, Calif.: Sage. 5. Linstone, H. A. y Turoff, M. (eds.) (1975) The Delphi Method: Techniques and Applications, p. 3. Reading, Mass.: Addison-Wesley. 6. Jillson, I. A. (1975) En Linstone, H. A. y Turoff, M., op. cit., p. 124. 7. Williamson, J. W., citado por Linstone, H. A. y Turoff, M. (1975) op. cit., p. 79. 8. Longhurst, R. 1971, citado por Linstone, H. A. y Turoff, M. (1975) op. cit., p. 80. 9. Hallan, J. B. y Harris, B. S. H. (1970), Medical Care, 8, 209. 10. Estudio realizado por la School of Nursing of the University of Wisconsin, Madison; los cuestionarios de muestras están reproducidos por Delbecq, A L., et al. (1975), op. cit., p. 194. 11. Last, J. M. (1982) Internacional Journal of Epidemiology, 11, 188. 12. Los lectores interesados pueden recurrir a Linstone, H. A. y Turoff, M. (1975), op. cit., quienes aportan una serie de ejemplos detallados. Delbecq, A. L. et al. (1975), op. cit., sólo dan directrices sencillas para una modalidad de procedimiento Delphi.
20 El uso de fuentes documentales El manejo de fuentes documentales resulta atractivo por ser una forma relativamente sencilla de obtener datos; los documentos proporcionan una información ya lista tanto sobre la población estudio en conjunto como sobre sus miembros individuales. Pueden asimismo constituir la mejor —o incluso la única— manera de estudiar acontecimientos pasados. («Hay dos formas de saber la edad de un rinoceronte. La primera consiste en examinar sus dientes; la segunda, en recoger evidencias de quienes recuerdan al animal cuando era pequeño, y hasta quizá guardaron algún recorte de periódico que recogía su nacimiento)»1. Dos tipos de documentos se usan frecuentemente como fuentes de datos en las investigaciones en salud pública: publicaciones con estadísticas ya elaboradas sobre poblaciones (demografía, mortalidad, morbilidad, tasas de hospitalización, etc.) por una parte, y documentos personales, como «registros vitales» (certificados de nacimiento, defunción, matrimonio, etc.) y registros hospitalarios y clínicos en general, por la otra. Todo investigador ha de estar familiarizado con las estadísticas disponibles en el campo de su interés. Antes de utilizarlas, sin embargo, debe prestar mucha atención a las definiciones usadas, determinar cómo se recogió y procesó la información, y tener una razonable seguridad sobre la validez patente de los datos. El simple hecho de que unas cifras hayan aparecido en blanco y negro, auspiciadas por una institución responsable determinada, no constituye garantía alguna de su exactitud. La idea queda claramente ilustrada en las cifras de una publicación reciente de la OMS, según las cuales las Islas Fidji padecieron una tasa de mortalidad infantil —17,2 por 1.000 nacidos vivos— sólo un poquito mayor que la de EEUU (13,0 por 1.000), y Samoa, aproximadamente igual (8,8) a la de Suecia (7,5). Es cierto que dichas cuestionables tasas venían marcadas con una NF (de «no fiables»), pero no lo es menos que a la hora de la verdad estas letras son pasadas fácilmente por alto. En algunos países, más del 20% de las muertes totales habían sido adscritas a senilidad, causa mal definida y causas desconocidas2. El uso de la mayoría de los tipos de registros clínicos y documentos personales posee ciertas limitaciones importantes. 171
172
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
En primer lugar, están los problemas de Habilidad y validez. Lo normal es que la información haya sido recogida por diversos médicos, auxiliares administrativos u otras personas, todos ellos diferentes, que pueden además haber utilizado definiciones o métodos de obtener los datos también diferentes; la frecuencia con la cual se registra la anemia, por ejemplo, suele verse muy influenciada tanto por la manera de definir este trastorno los distintos profesionales como por el grado en que hayan usado pruebas hematológicas. En consecuencia, serán datos de escasa fiabilidad (y, por tanto, de escasa validez). Más aún, puesto que la información es de segunda mano, cabe que incluso habiendo usado definiciones y procedimientos uniformes, éstos no fuesen consistentes con el concepto de la variable sostenido por el investigador. Para lo que él se plantea, pues, los datos tendrán una baja validez. Existe asimismo, finalmente, la posibilidad de que se hubieran cometido errores al extraer la información desde los registros; en concreto, esta cuestión puede constituir una fuente importante de no-fiabilidad si los manuscritos resultan difíciles de leer, o si por ejemplo se debe andar cazando la información precisa, por no venir recogida en un sitio estándar del registro o quedar enterrada entre largos trozos de prosa. En segundo lugar, y dado que los registros habitualmente habrán sido mantenidos para fines distintos de los de la investigación (clínicos, administrativos, o de otro tipo), la información buscada podría no estar recogida en absoluto, o estarlo sólo a retazos. Nadie suele mantener sus registros con la obsesividad que se aplica a una investigación planificada. Las profesiones o los pesos de los sujetos, por citar un par de cosas, son recogidas sólo en contadas ocasiones; las tensiones arteriales, en muchas, pero desde luego no en todas, etc. Si la presencia de un síntoma, signo o enfermedad específicos no quedó registrada puede significar tanto que se comprobó su ausencia como que no se hizo intento alguno de establecer su presencia, o que se estableció su presencia pero no se la registró, ya fuese por descuido o porque se la consideró poco importante o irrelevante. Como ilustración extrema de este tipo de dificultades, citemos que un análisis de los diagnósticos registrados en un hospital en África ponía de manifiesto que sólo el 2% de los pacientes de etnia africana e hindú vistos en consultas externas figuraban como aquejados de avitaminosis u otros estados carenciales3; puesto que estudios de campo habían revelado que la mayoría de los africanos e indios de la región manifestaban clínicas de malnutrición, debe concluirse que los hallazgos arrojaban luz sobre lo inadecuado de los registros, en vez de sobre la prevalencia de dichas patologías. A pesar de estas pegas, los documentos constituyen en términos generales la única o la más conveniente fuente de información disponible para el investigador. Deben ser manejados, sin embargo —insistimos— con circunspección.
EL USO DE FUENTES DOCUMENTALES
173
Certificados de Defunción Para ilustrar las reservas de que hablamos, trataremos con cierto detalle los certificados de defunción. La parte importante del formato internacional de certificado médico de causa de muerte posee la siguiente configuración: Causa de muerte I Enfermedad o patología que condujo directamente a la muerte*
(a) ....................................................
Causas antecedentes: condiciones mórbidas, si alguna, que dio pie a la causa antes citada, recogiendo la patología subyacente en último lugar
debido a (o consecuencia de) (b) ................................................... debido a (o consecuencia de) (c) ....................................................
II Otros procesos significativos que contribuyeron a la defunción, pero no estuvieron relacionados con la enfermedad o patología que la causó
........................................................ .....................................................
* No quiere decir el modo de morir—esto es: fallo cardíaco, astenia, etc. Significa la enfermedad, lesión o complicación que causó la muerte.
En los países con servicios médicos bien desarrollados, suelen recogerse en la mayoría de los certificados dos o más procesos. Uno de ellos es seleccionado como «causa subyacente» de la muerte a efectos de preparar las estadísticas correspondientes. (Aunque existe mucho interés en analizar todos los diagnósticos referidos —«tabulaciones de causa múltiple»—, resultan difíciles de realizar y no constituyen todavía un procedimiento de rutina). La OMS define «causa subyacente» como «(a) la enfermedad o lesión iniciadora la secuencia de acontecimientos que condujo directamente a la muerte, o (b) las circunstancias del accidente o violencia que produjeron la lesión fatal». Cuando el certificado ha sido correctamente rellenado, es la última condición introducida en la parte I del certificado. Por ejemplo, si consta: I (a) Abceso pulmonar debido a (b) Neumonía lobar debida a (c) — II Diabetes la causa subyacente de muerte es la neumonía lobar. La selección no se hace, sin embargo, de modo automático, por caber la posibilidad de que el certificado no hubiese sido correctamente rellenado. Cuando parece muy improbable que la condición seleccionada mediante este procedimiento fuese de hecho la causa
174
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
subyacente de muerte, se selecciona otra de entre las especificadas, usando una serie de reglas recomendadas por la propia OMS4. Por ejemplo, si el certificado reza: I (a) Ulcera duodenal perforada (b) Cardiopatía hipertensiva (c) — II Anemia se asigna la muerte a la úlcera duodenal perforada, sobre la base de resultar muy improbable que una cardiopatía hipertensiva hubiese dado lugar a dicha causa directa de muerte, una úlcera duodenal. Estas reglas cubren también otras contingencias, intentando evitar irregularidades como seleccionar «senilidad» u otras patologías triviales en sustitución de procesos distintos, o asignar la muerte a una condición patológica que debiera ser considerada secuela de otro proceso declarado. Por ejemplo, en el caso siguiente: I (a) Dermatitis (b) Ulcera duodenal perforada (c) Cardiopatía hipertensiva II Anemia se sigue asignando la muerte a la úlcera duodenal perforada; de acuerdo estrictamente con el razonamiento inicial, habría que seleccionar la dermatitis, pero se ignora este proceso por parecer improbable como causa de muerte y no ser referido tampoco como causa de ninguna complicación más seria. En otra hipótesis: I (a) Hemorragia cerebral (b) Hipertensión (c) Pielonefritis crónica II Obstrucción prostética la secuencia de la parte I es lógica, pero se asignaría la muerte a la obstrucción prostática, dado que consideraríamos la pielonefritis crónica como secuela directa de esta patología. Obviamente, aquí se encuentran en escena diversas fuentes de inexactitud posibles. En primer lugar están los problemas de diagnóstico. Más allá de la imperfecta fiabilidad de los diagnósticos clínicos en sí, pueden surgir dificultades especiales. Como sabe cualquier médico que haya rellenado unos cuantos certificados, no siempre es fácil cumplimentar el impreso de modo idóneo. En ocasiones uno no está en condiciones de conocer la verdadera causa o causas de muerte —bien por poseer insuficiente información clínica, o por tratarse de un cuadro complicado— y se ve sin embargo impelido a especificar una, para
EL USO DE FUENTES DOCUMENTALES
175
evitar complicaciones forenses o por otras razones. Si existen diagnósticos múltiples, tampoco es fácil a veces decidir cuáles fueron las causas directas o antecedentes (a recoger en la parte I del certificado), cuáles las contributorias (parte II) y cuáles no contribuyeron en absoluto a la defunción. En ciertos otros casos se hace difícil determinar la sencilla secuencia de diagnósticos demandada en la parte I. De resultas, pues, no es extraño que médicos distintos difirieran en su certificación de una misma muerte. En segundo lugar, están los problemas de registro. El impreso puede venir incorrectamente rellenado, bien porque el médico no se encontraba familiarizado con la modalidad de registro que exige el certificado, o por considerar el impreso como un documento administrativo en vez de científico (lo cual le llevaría a no intentar cumplimentarlo entero conscientemente —incluso cuando se realiza autopsia, suele ocurrir que el certificado se rellena antes de llevarla a cabo, sin que luego se lo modifique a la luz de los hallazgos post-mortem). Tercero, el procesamiento de los certificados puede también originar falta de fiabilidad. Como ha demostrado un estudio de la OMS, los codificadores a veces difieren entre sí sobre la causa subyacente de muerte que seleccionan, en gran parte por no ponerse de acuerdo en torno a si aceptar lo escrito por el médico según su valor patente5; pueden asimismo equivocarse al adjudicar al diagnóstico su código numérico de la Clasificación Internacional de Enfermedades. Posiblemente, entonces, a la luz de lo antes dicho no resulte ni sorprendente que un estudio realizado en Inglaterra y Gales comparando 9.500 certificados rellenados por médicos hospitalarios antes de la autopsia con los emitidos después de ella por anatomopatólogos (basándose en la autopsia y en los hallazgos clínicos), revelase que las causas subyacentes diferían en el 55% de los casos. En la mitad de éstos, la diferencia era de formulación gramatical o de opinión; en la otra mitad sin embargo, había diferencias fácticas —bien que el clínico citaba una causa subyacente que el patólogo no recogía ni en su certificado ni en sus notas, bien que el patólogo citaba una que el médico clínico no había mencionado siquiera como causa contributoria, o incluso ni en el diagnóstico diferencial que se le pidió adjuntase a su certificado. La proporción de las citadas diferencias «de hecho» era del 16% en aquellos casos en los cuales el clínico había indicado estar razonablemente seguro de su diagnóstico (aproximadamente 2/3 del total), del 33% en los que decía que el diagnóstico era «probable» (1 del total) y del 50% cuando había escrito que era «incierto» (1/10 del total). Para algunas patologías, las discrepancias tendían a «compensarse entre sí»; había otras ocasiones, sin embargo, en que claramente se trataba de sesgos, unas veces con tendencia a «subdiagnosticar» (en concreto, por ejemplo: bronquitis crónica, úlcera péptica y neoplasias malignas de pulmón) y otras, a «sobrediagnosticar» (por ejemplo: bronconeumonía y hemorragia cerebral)6. El que los datos de los certificados de defunción y las estadísticas basadas
176
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
en ellos deban ser tratados con reservas no anula su utilidad, puesto que indudablemente contienen un núcleo suficiente de hechos duros. Su no completa exactitud y sus posibles sesgos, no obstante, deben ser siempre tenidos en cuenta. Una precaución concreta a adoptar consiste en considerar la mortalidad por grupos amplios de enfermedades, en vez de por patologías específicas. En el estudio sobre autopsias citado anteriormente, por ejemplo, se vio que mientras para tumores específicos había diferencias claras entre las estadísticas basadas en los diagnósticos de clínicos y anatomopatólogos respectivamente, sobre el número total de neoplasias malignas existía un acuerdo razonable. De modo similar, la maniobra de combinar todas las categorías relacionadas con la neumonía y la bronquitis eliminó inconsistencias halladas al considerar aisladamente ambas patologías. Permítasenos recordar, por supuesto, que cualquiera que fuese la validez de los datos contenidos en los certificados de defunción como reflejo de las causas de muerte, son menos válidos como medida de la presencia de enfermedades en el momento de morir7, y menos aún para medir la prevalencia de éstas entre los vivos. Declaraciones En la mayoría de los países, todo médico tiene obligación legal de declarar a las autoridades de salud pública los casos de determinadas enfermedades (fundamentalmente, transmisibles); médicos, laboratorios, y otras personas e instituciones, pueden ser requeridos asimismo para declarar de forma voluntaria algunos otros procesos patológicos también a los responsables de la salud pública, o a diversos otros organismos. El principal problema que conlleva usar las declaraciones de enfermedad (y las estadísticas basadas en ellas) radica en que distan de resultar completas incluso siendo obligatorias. Cuando los profesionales consideran que el paciente o la comunidad van a beneficiarse de ella —caso de la viruela o la poliomielitis—, la declaración suele ser más amplia, pero si según su percepción no va a reportar beneficio alguno, o hasta pudiera representar una molestia para su paciente, se vuelve mucho menos rigurosa: un estudio a escala nacional llevado a cabo en EEUU indicaba que se informaba a las instancias gubernamentales sólo de un 11 % de los casos de gonorrea y sífilis infecciosa tratados por médicos privados8. Más aún, la notificación tiene a veces características selectivas; los casos de patología venérea tratados en consultorios públicos normalmente son declarados en mucha mayor proporción que los vistos por profesionales privados. Factores selectivos de este tipo introducen a veces sesgos, según clase social u otras características, que deben tomarse en cuenta a la hora de realizar inferencias con los datos. Estas limitaciones afectan a todos los sistemas de declaración, como los organizados para infecciones hospitalarias, reacciones a fármacos, movimientos
EL USO DE FUENTES DOCUMENTALES
177
hacia o desde un vecindario concreto, etc. De no hacer antes frente a toda una multitud de problemas, buscando asegurar una buena declaración, la información recogida distará mucho de ser completa. No obstante, las cifras de las declaraciones pueden utilizarse como guía aproximada de las tendencias temporales existentes, a condición de que las prácticas declaratorias no hayan sufrido alteraciones importantes durante el periodo considerado. Registros hospitalarios y demás registros clínicos Los registros médicos pueden resultar francamente decepcionantes como fuentes de datos, insistimos, a menos que se los haya planificado y mantenido para servir de base a la investigación. Como dice Mainland: «La mayoría de los responsables de los registros hospitalarios y clínicos no son investigadores formados; además, la presión a que les somete el trabajo rutinario suele ser importante. A partir de la experiencia adquirida elaborando registros clínicos yo mismo, viendo a otros elaborarlos, e intentando usarlos, he llegado a la conclusión de que los únicos de los cuales vale la pena fiarse para algo más que obtener impresiones superficiales, o como punto de partida para una investigación posterior, son: (a) los registros mantenidos meticulosamente por un médico sobre sus pacientes, buscando aprender de ellos; y (b) los mantenidos en relación con un grupo particular de enfermos por una persona idónea y adecuadamente instruida, asignada de modo específico a dicha tarea»9. Pese a todo, los registros rutinarios con información razonablemente bien recogida y de razonable calidad pueden resultar razonablemente útiles como base sobre la que investigar. En los hospitales, los diagnósticos considerados importantes suelen ser registrados, y los que lo son, quedan en general bien fundamentados. No es otra la razón por la cual se hace tan amplio uso de los datos diagnósticos derivados de los registos hospitalarios, tanto buscando investigar enfermedades específicas como en estudios de los patrones de morbilidad total de una población. Un problema de la utilización de estadísticas diagnósticas basadas en registros hospitalarios es que, como sucedía con las causas de muerte, a efectos de análisis suele seleccionarse uno sólo de entre los quizá varios diagnósticos asignados al paciente, y podría haber poca consistencia en la forma de seleccionar éste incluso tras tomar la determinación de utilizar criterios estandarizados. La OMS recomienda «seleccionar para los análisis de causa única que manejan registros de episodios hospitalarios o de otras instituciones sanitarias, aquella patología considerada principal en el tratamiento o la investigación durante el episodio en cuestión; si no se llegó a ningún diagnóstico, hay que seleccionar el principal síntoma o problema»4. Un procedimiento común consiste en seleccionar la patología causante de la admisión hospitalaria (en términos de diagnóstico final de la misma, no de los tentativos registrados en el momento de la admisión). En definitiva, de nuevo, las estadísticas diagnósticas
178
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
basadas en registros hospitalarios, como las causas de muerte, también deben ser tratadas con cierta reserva. Los registros clínicos rutinarios de servicios distintos de los hospitalarios, así como de determinados consultorios y centros de salud, poseen en general poco valor como base para la investigación. Ello es aplicable sobre todo a los manejados en medicina general, que usualmente aportan sólo una idea muy vaga de los patrones de morbilidad y de utilización de los servicios. No sólo puede ser insatisfactoria la calidad de la información diagnóstica —por falta de medios idóneos para determinarla, o por otras razones— sino que muy pocas veces los propios registros son completos, ni están mantenidos de una forma que permita someterlos a análisis. Particularmente deficientes suelen ser los de las visitas domiciliarias; un estudio de los registros clínicos mantenidos en una organización asistencial neoyorquina indicaba cómo la mitad de las visitas domiciliarias (en comparación con sólo la sexta parte de las realizadas en el consultorio) quedaban sin registrar, lo cual hacía que las enfermedades respiratorias apareciesen subrepresentadas en los datos diagnósticos10. Con esto no queremos decir que los registros rutinarios de la medicina general nunca puedan proporcionar datos útiles; por el contrario, si los profesionales se toman la molestia de recoger y registrar la información con exactitud, pueden ser de muy considerable valor. El uso de los registros clínicos para fines epidemiológicos constituye un elemento esencial de la atención primaria de salud de orientación comunitaria (ver capítulo 31). En Gran Bretaña, el Royal College of General Practitioners —Colegio de Médicos— ha introducido diversas tarjetas y libros de registro especiales, diseñados para posibilitar a los médicos investigaciones epidemiológicas, operativas y de otros tipos, sobre la base de su trabajo clínico rutinario 11. En todo el mundo, muchos médicos generales están llevando a cabo hoy trabajos experimentales con registros clínicos mejorados, (incluyendo los «orientados a problemas»12 y los informatizados), si bien —por desgracia— habitualmente con la vista puesta en retirar fácilmente información individual, más que de grupo. Audit médico En los últimos años se ha venido prestando atención al desarrollo de determinadas técnicas, útiles para evaluar la calidad de la asistencia clínica y que miden cómo se realizan los procedimientos diagnósticos, terapéuticos o de otro tipo. El «audit médico» y demás técnicas relacionadas13 toman como punto de partida el examen de los registros clínicos. Para reforzar la objetividad, suele hacerse uso de criterios explícitos; pueden ser estándares normativos (recogiendo las informaciones de los expertos sobre cómo actuar en determinados tipos de casos), o empíricos (basados en estudios sobre lo que realmente se hace en las instituciones clínicas consideradas de un nivel aceptable). La revisión puede cubrir todos los casos atendidos, una muestra representativa de
EL USO DE FUENTES DOCUMENTALES
179
ellos, o categorías definidas —pacientes con patologías concretas tomadas como «indicadoras». Muchas veces resulta especialmente útil revisar la historia de los enfermos cuya evolución se considera deficiente por padecer trastornos prevenibles o complicaciones. Ello permite identificar deficiencias no sólo en la asistencia prestada sino también en el seguimiento de la terapéutica impuesta y en la disponibilidad y uso de los servicios14. Las técnicas de audit tienen su aplicación fundamental en las revisiones evaluadoras (entiéndaselas como opuestas a los ensayos) de servicios clínicos. Se basan en la asunción de que llevar a cabo ciertos procedimientos beneficiará probablemente a los pacientes; en consecuencia, una asistencia resulta evaluada como favorable si el audit muestra que dichas actividades han sido ejecutadas de modo satisfactorio. Las asunciones en sí no se someten a prueba, lo cual significa, por supuesto, que la evaluación será válida sólo en la medida en que lo sean las asunciones. Los escépticos insisten en que normalmente se carece de evidencias sobre la eficacia de los procedimientos, o dicho con otras palabras, que raras veces existen pruebas convincentes de la existencia de ninguna relación causa-efecto entre los procedimientos recomendados y el resultado conseguido15. Una ventaja importante del método del audit está en la facilidad con que los resultados de la evaluación pueden ser traducidos a recomendaciones prácticas: si muestra que no se está haciendo X, se recomienda hacer X. Constituye asimismo una útil herramienta educativa —un doctor o una enfermera nuevos en el centro entenderán enseguida que de ellos se espera que hagan X. En algunos sistemas de auditoría se toman en cuenta los resultados. Entre los medidos se hallan los «resultados finales» («cambios en el paciente como persona, o en los atributos de la enfermedad o proceso patológico implicado»)16 y los intermedios, como el establecimiento de diagnósticos correctos, o cambios en la conducta sanitaria del paciente. Se asume que unos resultados finales satisfactorios implican asistencia satisfactoria, lo cual no es desde luego necesariamente verdad; tal asunción, sin embargo, no vicia la utilidad de la evaluación: puesto que a los pacientes les va bien, por lo menos no hay motivos para preocuparse. Un problema básico del audit médico está en que (como hemos insistido en señalar) la información de los registros clínicos puede tener muy poco valor, de no modificar sus formatos o planificarlos específicamente para este propósito evaluador además de hacer esfuerzos importantes para que la documentación se rellene bien. Determinada comparación de las tablas de pacientes tratados de apendicitis aguda, por ejemplo, reveló una disparidad considerable entre tres hospiltales en la frecuencia con la cual se documentaban síntomas y signos de manejo común, pese a que en cada hospital la enfermedad había sido diagnosticada con la misma exactitud. Igualmente, en los casos de infarto agudo de miocardio la documentación de los elementos de la historia, el examen físico
180
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
y las pruebas especiales, no tuvieron relación con los resultados de la asistencia expresados en términos de duración de la baja laboral, ocurrencia de una nueva angina de pecho, o muerte. «Profesionales magníficos pueden mantener registros inadecuados, mientras otros menos competentes igual escriben con profusión... El simple acto de escribir no mejora los resultados del paciente»17. Registros específicos Los servicios sanitarios y algunas otras instituciones suelen mantener registros de la gente aquejada de transtornos específicos, o que requiere tipos de asistencia determinados18. Pueden versar sobre pacientes aquejados de cáncer, tuberculosis u otras enfermedades, personas ciegas, confinadas obligatoriamente en sus domicilios o minusválidas por cualquier otra razón, mujeres embarazadas, lactantes, ancianos, niños o familias sometidos a riesgos especiales de enfermar, etc. El propio índice diagnóstico de un hospital se utiliza a veces como registro de enfermedad. Los registros pueden ser simples listas, índices de tarjetas, o estar informatizados. En muchos casos cumplen funciones importantes en la provisión cotidiana de servicios (por ejemplo, identificar a los pacientes que requieren asistencia y garantizar la comprobación de cómo se están ejecutando ciertos procedimientos), además de recoger datos susceptibles de ser utilizados para fines epidemiológicos o de evaluación. Estos registros, y las estadísticas basadas en ellos, pueden aportar datos valiosos. El investigador no conectado con la institución responsable de mantenerlos debe recordar, no obstante, que su información es de segunda mano o incluso —muchas veces— de tercera (obtenida por la institución a partir de otras fuentes), debiendo familiarizarse con las definiciones y procedimientos utilizados antes de decidir sobre la idoneidad de los datos para los fines que él se plantea. Otras fuentes documentales Además de los anteriores, existen diversos documentos que pueden resultar útiles como fuentes de información sobre morbilidad u otras características —certificados médicos, impresos de baja laboral por enfermedad, registros de seguros médicos, certificados de nacimientos y de muerte fetal, registros de beneficiencia, policiales o escolares, publicaciones de censos, etc. En cada ocasión, el investigador debe tener claras las posibles limitaciones de la información que proporcionan. Resulta importante, de nuevo, no hacerse demasiadas ilusiones: son documentos diseñados para los propósitos de otras personas, y si se adecúan a las necesidades del investigador, habitualmente no dejará de tratarse de una feliz coincidencia (ver la Tercera Ley de Finagle)19. Enlace de Registros Con la llegada de las computadoras, se está produciendo un interés creciente en agrupar registros derivados de fuentes distintas. Actualmente es posible
EL USO DE FUENTES DOCUMENTALES
181
enlazar entre sí los diferentes registros relacionados con una misma persona provenientes de varios hospitales, o los certificados de defunción con los datos hospitalarios o con los censales. Otra posibilidad es enlazar registros relacionados con personas diferentes —por ejemplo, los miembros de una familia; constituye un método útil en investigación genética. El enlace de registros presenta considerables dificultades prácticas, y se mueve al borde del problema ético de posibles violaciones de la confidencialidad. Cuando resulta practicable, posee interesantísimas aplicaciones en la investigación epidemiológica y sanitaria en general20. Notas y referencias
1. Morton, J. B. (1966) The Best of Beachcomber, p. 219. Harmondsworth: Penguin Books. 2. World Health Statistics Annual, 1981 (1981), vol. 1, Vital Statistics and Causes of Death. Geneva: WHO 3. Kark, S. L., Gampel, B. Slorae, C, Steuart, G. W., Abramson, J. H. y Ward, N. T. (1956) A Study of the King Edward VIII Hospital Out-patient Services. University of Natal: Department of Social, Preventive and Family Medicine. 4. World Health Organization (1977) Manual of the International Statistical Classification of Diseases, Injuries, and Causes of Death. Volume 1, pp. 697-741. Geneva: WHO 5. World Health Organization (1966) Studies on the Accuracy and Comparability of Statistics on Causes of Death, unpublished WHO document EURO-215. 1/16. Geneva: WHO 6. Heasman, L. A. y Lipworth, L. (1966) Accuracy of Certifwation of Cause of Death. A Report on a Survey Conducted in ¡959 in Hospitals ofthe National Health Service to Obtain Information on the Extent of Agreement Between Clinical and Post-mortem Diagnoses. General Register Office, Studies on Medical and Population Subjects No. 20. London: HMSO. 7. Beadenkopf, W. G., Abrams, M., Daoud, A. y Marks, R. U. (1963) Journal of Chronic Diseases, 16, 249; Abramson, J. H., Sacks, M. I. y Cahana, B. (1971) Journal of Chronic Diseases, 24, 417. 8. Curtis, A. C. (1963) Journal of the American Medical Association, 186, 46. 9. Mainland, D. (1963) Elementary Medical Statistics, 2ndedn, p. 147. Philadelphia: Saunders. 10. Densen, P. M., Balamuth, E. y Deardorff, N. R. (1960) Milbank Memorial Fund Quarterly 38, 48. 11. Eimerl, T. S. y Laidlaw, A. J. (1969) A Handbook for Research in General Practice. Edinburgh: Livingstone. 12. Ver por ejemplo Sanderson, C. F. B. (1976) en Seminars in Community Medicine, Vol. 2. Health Information, Planning and Monitoring, ed. Acheson, R. M., Hall, D. J. y Aird, L., pp. 76-92; y Spenser, T. (1978) en Family Medicine —Principies and Applications, ed. Medalie, J. H., pp. 337-342. Baltimore: Williams y Wilkins. 13. El audit médico y similares técnicas de evaluación de la asistencia clínica —«auto-auditoría», «revisión entre pares» (por otros), «audit interno» (por colegas de la misma institución), «audit externo», «estudios de evaluación de la asistencia médica», «audit de enfermería», etc.— puede basarse en registros rutinarios, en otros especialmente modificados o diseñados, o en investigaciones especiales incluyendo observaciones directas de cómo trabajan los profesionales. Ver Brook, R. H. (1974) en The Challenges of Community Medicine, ed. Kane, R. L., pp. 183-211. New York: Springer; Barro, A. R. (1973) Journal of Medical Education, 48, 1047; Donabedian, A. (1968) Medical Care, 6, 181; Donabedian, A. (1975) A Guide to Medical Care Administration. Vol. II. Medical Care Appraisal-Quality and Utilization. Washington, D. C: American Public Health Association. El uso del audit médico en la medicina
182
14. 15. 16. 17. 18. 19.
20.
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
general es discutido por Acheson, H. W. K. (1975) Lancet, 1, 511. En un estudio de evaluación de la asistencia médica primaria en Carolina del Norte se limitó la atención a cuatro «condiciones indicadoras» —embarazo normal, lactancia, diabetes mellitus e insuficiencia cardíaca congestiva; ver Burdette, J. A., Babineau, R. A., Mayo, F., Hulka, B. S. y Cassel, J. C. (1974) Journal of the American Medical Association, 230, 1668. Blum, H. L. (1974) Medical Care, 12, 999, hace hincapié en la importancia de investigar las razones de las evoluciones deficientes. Brook, R. H. (1973) Quality of Care Assessment: A Comparison of Five Methods of Peer Review. DHEW Publicatíon No. HRA-74-3100. Rockville: US Department of Health, Education, and Welfare. Brook, R. H. (1974) op. cit. Sanazaro, P. J. y Williamson, J. W. (1968) Medical Care, 6, 123. Fessel, W. J. y Van Brunt, E. E. (1972) New England Journal of Medicine, 286, 134. Para una revisión de los registros y sus contenidos, ver Weddell, J. M. (1973) International Journal of Epidemiology, 2, 221. Las tres leyes de la información de Finagle dicen: «(1) La información que tienes no es la que quieres. (2) La información que quieres no es la que necesitas. (3) La información que necesitas no es la que puedes obtener». Citado por Murnaghan, J. H. (1974) New England Journal of Medicine, 290, 603. Acheson, E. D. (1968) Record Linkage in Medicine, Edinburgh: Livingstone; Heasman, M. A. (1970) En Data Handling in Epidemiology, pp. 83-93. Oxford University Press.
21 Planificación del análisis Durante la fase de planificación de un estudio, el investigador debe decidir —al menos en líneas generales— cómo analizar la información que se propone recoger. A tal efecto, resulta útil muchas veces diseñar distintas tablas, tanteando las escalas de clasificación de las variables contenidas en su esqueleto (es decir, se ponen sólo los encabezamientos de las columnas y las filas, pero no las cifras) e irse planteando cómo habría que interpretar diversos tipos de resultados. Este proceso de «pensar hacia adelante» con respecto al análisis suele poner de manifiesto carencias en los datos (variables omitidas, ausencia de información sobre la población denominador, etc), defectos en las escalas de medición, o lo superfluo de ciertos detalles recogidos. Constituye asimismo una nueva oportunidad para valorar si el estudio, en la forma en la cual está planificado, tiene probabilidades de cumplir sus objetivos. Hay que prestar atención no sólo al formato de las tablas, sino a las técnicas estadísticas a utilizar en el análisis. Esto último requiere la mayoría de las veces apoyo de un matemático, si bien no deja de ser un consuelo saber que cuando el estudio está bien planificado, analizarlo sólo suele precisar las técnicas más sencillas de dicha especialidad. Decidirse a usar procedimientos complejos sin conocimiento estadístico adecuado o sin el asesoramiento de un experto constituye un atrevimiento estúpido, incluso pareciendo fácil manejarlos por disponerse de un programa para hacerlo con una calculadora de bolsillo1 o una computadora. En concreto, el propio manual de uso de determinados programas informáticos avisa contra el uso incorrecto de las técnicas estadísticas, señalando que «como norma, el usuario no debe intentar nunca utilizar un procedimiento estadístico a menos que entienda cuál es el procedimiento idóneo para el tipo de datos de que dispone, y el significado de los cálculos obtenidos»2. Cierto estadístico se lamenta de que «en el pasado», nosotros mismos hemos hecho flacos favores produciendo «manuales estadísticos de cocina», y a lo que tenemos ahora habría que llamarlo «la receta de la cena» de televisión ... ¡Como mínimo, nuestra idea era que el usuario iba antes a leerse esa receta!» 3. Otro hace notar que «no es difícil realizar un análisis erróneo ... Sólo se necesita un programa informático enlatado ... y falta de cualificación en bioestadística. Es fácil disponer de dichos dos recursos. Lo único que necesitas hacer luego 183
184
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
es echar los datos en un bombo de la lotería, apretar el botón, y acabas con un montón de resultados informáticos impresos. No hace falta perder un minuto en pensar en el contexto científico de los datos ni saber una palabra de bioestadística»4. De consultar a un estadístico, conviene hacerlo en la fase de planificación, cuando todavía puede influenciar el diseño investigador, y no después de haber recogido los datos, momento en el cual sólo podría decir que resultan inadecuados para el análisis. Al consultar con él, debe recordarse que con una pregunta tonta se consigue una respuesta tonta. Si el investigador es incapaz de explicar con precisión y especificidad grandes lo que quiere conocer con su estudio, el asesoramiento que reciba corre el riesgo de resultar inadecuado e incluso engañoso, por erudito y bien intencionado que fuese. Debe también decidirse qué técnica de procesamiento de los datos se va a usar, y cómo van a codificarse éstos al respecto (ver capítulo 22). Son decisiones con implicaciones importantes para la planificación de los formatos de los registros. Técnicas de procesamiento de datos 1. Recuento manual 2. Separación manual 3. Tarjetas perforadas en sus bordes 4. Procesado informático 5. Separación mecánica El procedimiento básico en el procesamiento de los datos es agrupar a los individuos estudiados (personas, viviendas, muestras de carne, etc.) según sus características, para generar dos tipos de tablas: distribuciones de frecuencia, que muestran el número de individuos en cada categoría de las utilizadas para medir una variable, y tablas de contingencia o tabulaciones cruzadas, en las cuales se clasifica a cada individuo simultáneamente de acuerdo a dos o más variables (ver el ejemplo de la página 232). Los datos se pueden tabular según 5 técnicas fundamentales, que comportan desde métodos sencillos de oficina al uso de una computadora electrónica. En buenas manos, un ordenador posee un valor incalculable; los métodos más sencillos, no obstante, pese a resultar tediosos y aplicables sólo a análisis de tamaño pequeño, poseen la ventaja de mantener al investigador «cerca de sus
PLANIFICACIÓN DEL ANÁLISIS
185
datos». «Las cifras a analizar representan los pacientes, animales, cosas o procesos que queremos estudiar, con lo cual cuanto más familiarizados lleguemos a estar con ellos, más fácil nos resultará conocer sus interrelaciones, singularidades y defectos; asimismo, más probablemente captaremos pistas explicativas y claves para seguir investigando»5. «Al trabajar con una colección de hechos y cifras, la mente humana —señala por su parte Bradford Hill— posee una increíble capacidad para detectar combinaciones de acontecimientos totalmente inesperadas. En el momento actual, nadie tiene idea de cómo programar una computadora para lograr eso ... nunca se insistirá demasiado en la importancia de estudiar los datos básicos con que uno cuenta»6. El método del lápiz y el papel, ha dicho alguien, «no está más obsoleto que la rueda ... Con el equipamiento de alta velocidad disponible para el procesado de datos de producción masiva, existe el peligro de sucumbir a la tentación de generar miles de cifras con poco o ningún valor interpretable, mientras quizá se pasan de largo hallazgos de verdadera significación»7. 1. El método más primitivo es el del recuento manual. Se prepara una hoja con una tabla de esqueleto, en la cual se marca la casilla correspondiente con una raya por cada individuo. El método usual es el típico «palote vertical». El que hace cinco es recogido con una diagonal cruzada sobre los cuatro anteriores , lo cual facilita el posterior recuento. Un método alternativo8 consiste en marcar puntos (formando un cuadrado) por los cuatro primeros y una línea (uniendo dos de los puntos) por cada uno de los cuatro siguientes, con lo cual un cuadrado significa 8 individuos. Posteriormente, se traza una diagonal por cada uno de los dos siguientes, de modo que un conjunto completo de 10 se asemeja a una banderita: Cuando se tabula directamente a partir de listas (con información sobre diferentes individuos en la misma página) o registros irregulares (por ejemplo, fichas clínicas voluminosas), el recuento manual puede constituir un método conveniente. Sus desventajas son la laboriosidad y el tiempo que requiere, así como que resulta fácil colar errores aquí y allá, especialmente de manejarse tabulaciones cruzadas complejas. Si se detecta un error (pongamos por caso: se descubre que el número total recogido en la tabla difiere en uno del total de individuos) debe repetirse el proceso entero, a menos que se hubiesen usado tintas de diferentes colores para los diferentes bloques de registros, lo cual facilita la localización de posibles fallos. 2. La separación manual suele ser preferible al recuento. Requiere disponer de un registro independiente y fácil de manejar por cada individuo. Se revisan y separan físicamente los registros en montones conformados según las casillas de la tabla esquelética, cuyos números luego se cuentan, recuentan e introducen en el sitio adecuado de una ficha. Si se detecta un error, habitualmente sólo es necesario repetir una parte del procedimiento. Para preparar una clasificación cruzada se suelen separar los registros «jerárquicamente» —es decir, se los
186
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
apila según una variable, se vuelve luego a separar cada montón de acuerdo a una segunda variable, y así sucesivamente hasta completar la clasificación cruzada; es entonces cuando se cuentan los distintos bloques. Los registros usados pueden ser los impresos o tarjetas donde se recogieron los datos inicialmente, u otros especiales a los cuales se transfirió la información a propósito. Siempre que se opere con tarjetas convenientemente pequeñas, se coloque la información sobre cada variable en una posición estándar en la tarjeta, y —finalmente— se usen líneas gruesas y colores distintos (para facilitar la identificación visual de diversos items en los datos), su manejo resulta relativamente sencillo. Muchos investigadores lo consideran un método satisfactorio excepto en estudios muy grandes y complicados. El formato tamaño naipes posee la ventaja de que mantiene al investigador «más cerca de sus datos» que ningún otro método de procesamiento. «En ciertas investigaciones caben distintos tipos de análisis mecánico, pero la primera máquina en la que debemos pensar habitualmente son nuestras manos y unas cuantas tarjetas-índice ordinarias»5. 3. Las tarjetas perforadas en sus bordes (tarjetas de perforación marginal) resultan similares en principio a la separación manual. Tienen una fila (a veces, dos o tres, paralelas) de agujeros numerados cercanos a sus bordes, indicándose cada trozo específico de información cortando el margen exterior de un determinado agujero, para lo cual pueden usarse tijeras o (preferiblemente) una taladradora especial. Tras poner de pie las tarjetas juntas y agrupadas de canto, se inserta una aguja larga por un agujero concreto y se tira hacia arriba; las de bordes intactos se quedan pinchadas mientras las otras (habitualmente, hace falta sacudir o zarandear un poco) suelen caer. Cuando existen muchas tablas o son complicadas, esta ventaja a la hora de separar las tarjetas compensa más que sobradamente la anterior molestia de haber tenido que perforar los bordes de los agujeros. El método «de las agujas de punto» no resulta sin embargo conveniente si para cada tabla deben separarse más de unos pocos cientos de tarjetas. Su centro está en blanco, por lo cual mucha gente las usa como registro primario básico del estudio, anotando la información en dicho espacio central por una o ambas caras. (Si es necesario, se imprimen en ella encabezamientos, o lo que haga falta). Puede también transferirse la información a la tarjeta desde otros registros. Como los filos no tienen cabida para mucha información (a menos que se asignasen significados a diversas combinaciones de agujeros —estratagema que complica el proceso de saparación) a veces se decide «taladrar» sólo una parte de los datos, dejando el resto sin taladrar pero escrito en la tarjeta; así pues, al final siempre se requiere un cierto grado adicional de separación manual. 4. Una computadora puede tabular grandes cantidades de datos a alta velocidad y desarrollar simultáneamente los cálculos planteados y demás operaciones matemáticas, algunas de la cuales resultarían virtualmente imposibles por ningún otro medio. Los datos suelen registrarse en primera instancia en
PLANIFICACIÓN DEL ANÁLISIS
187
tarjetas taladradas de IBM, o en un disco («diskette IBM») que viene a ser como un «long play» y da cabida al equivalente a miles de las tarjetas antes citadas. El fichero (conjunto de información almacenada) puede ser registrado en cinta magnética u otro medio. Se alimenta al ordenador con dicho fichero y un «programa» de instrucciones escrito en un lenguaje que la máquina pueda comprender. Inmediatamente, en cuestión de minutos o segundos, se produce de modo misterioso un «output» con las respuestas deseadas a modo de informe escrito (que «se saca por la impresora») o de mensaje en una pantalla parecida a las de televisión. En la práctica, como muchísimos investigadores saben por haber sufrido la experiencia en sus propias carnes, el procesamiento automático de los datos resulta algo más lento; preparar los ficheros, escribir los programas, detectar y eliminar los errores («espulgar»), etc., puede tardar semanas o meses, especialmente si el ordenador está siendo muy usado y hay que guardar cola. La computadora es un aparato complejo y altamente sofisticado, por lo cual es preciso un conocimiento experto si se la quiere utilizar de modo eficiente. A menos que el investigador posea el dominio necesario, debe procurar dar explicaciones muy detalladas de sus objetivos y su plan de estudio a alguien con experiencia, para poder recibir buen asesoramiento y apoyo no sólo en relación al procesamiento de los datos, sino también en lo referente a cómo planificar los registros y cuáles sistemas de recogida de información considerar idóneos. Actualmente sigue siendo cierto que «para el investigador ordinario, los aspectos técnicos de las computadoras, sus programas informáticos y manipulaciones estadísticas, no pasan de ser una «caja negra» —le resulta imposible saber qué pasa dentro, y no tiene otro remedio que fiarse de lo producido por la máquina y de las cosas que los expertos en el asunto le cuentan sobre todo el misterioso proceso»9. Afortunadamente, sin embargo, con la creciente disponibilidad de programas informáticos fácilmente manejables, el misterio está empezando a disiparse. En relación con este tema, los paquetes de programas mejor conocidos y más fácilmente disponibles hoy son el SPSS (Statistical Package for the Social Sciences)2 y el BMDP (Biomedical Computer Programs, P-series)10. Son sistemas versátiles, con programas capaces de realizar muy distintos tipos de análisis. El SPSS tiene la ventaja especial de que sus programas resultan fáciles de operar y vienen explicados en un lenguaje relativamente no técnico. Sus usuarios, dicen los autores del manual, «no son necesariamente estadísticos ni especialistas informáticos sofisticados, ni hay por qué tampoco esperar que dispongan del tiempo o la información precisos para dominar con soltura estos campos. En nuestra opinión, la documentación es suficientemente global como para capacitar a estudiantes e investigadores susceptibles de manejarlo para un uso exacto y eficiente. Confiamos en que hasta alguien sin experiencia informática será capaz de trabajar bien con el SPSS si emplea este manual»7. Los
188
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
procedimientos resultan, de hecho, muy fáciles de aprender. Para dar instrucciones a la computadora se trabaja con un lenguaje sencillo, explicando con detalle el manual la manera de preparar «tarjetas de control» mediante las cuales transmitir las instrucciones. No todo lo que puede dar de sí el SPSS despertaría ilusiones entre los entusiastas del «hágalo usted mismo», desde luego, pero incluso si el investigador no opera los programas, el manual le permitirá al menos saber qué hacen éstos, de cuáles opciones dispone, qué decir al programador (ver página 220) y cómo leer lo que sale. Además, y ello resulta particularmente importante, podrá aprender a sacar sentido a las instrucciones del programa que aparecen impresas junto a los resultados, asegurándose de obtener lo que buscaba. 5. La separación mecánica de tarjetas perforadas de IBM constituye hoy un método prácticamente en extinción; cabe, no obstante, seguir utilizándola cuando se carece de equipamiento informático o el investigador no puede permitirse manejarlo. Las tarjetas van pasando por una máquina que las separa tras «mirar» una columna cada vez y clasificarlas según los agujeros taladrados en ella. Por ejemplo, si los datos sobre clase social se perforan en la columna 38, con la Clase Social I en posición 1, la Clase Social II en posición 2, etc., se pone el selector en la columna 38, se enciende el aparato, y las tarjetas acaban en los compartimentos correspondientes a las distintas clases sociales (existen 12 compartimentos para las 12 posiciones de perforación y 1 más «de rechazo» para las no-perforadas en dicha columna). Los datos correspondientes a una variable única pueden estar perforados en más de una columna (el conjunto de columnas adyacentes utilizadas para registrar un item de información recibe el nombre de «campo»). Si se meten los niveles de hemoglobina en un campo de dos columnas (por ejemplo: decenas de gramos en la 8 y unidades en la 9), una tabla que mostrase la distribución de hemoglobina se prepararía poniendo primero el selector en la columna 8, lo cual daría dos bloques de tarjetas —las perforadas «0» (hemoglobina de 01 a 09 gramos) y las «1» (de 10 a 19 gramos)— y luego en la columna 9, lo que volvería a reclasificar los dos bloques de tarjetas. Si quisiéramos tabular la hemoglobina según clase social, tendríamos que pasar la tarjeta por la máquina tres veces. El aparato suele disponer de dispositivos para mostrar el número total de tarjetas y las cantidades correspondientes a cada categoría. Notas y referencias
1. Rothman, K.J. y Boice, J.D.Jr. (1982) Epidemiologic Analysis with a Programmable Calculator. 2nd edn. Chestnut Hill, Maryland: Epidemiological Resources, Inc.; y Abramson, J. H. y Peritz, E. (1983) Calculator Programs for the Health Sciences. New York: Oxford University Press, proporcionan programas para usar con calculadoras de bolsillo. 2. Nie, N.H., Hull, C.H., Jenkins, J.G., Steinbrenner, K. y Bent, D.H. (1975) SPSS: Statistical Package for the Social Sciences, 2nd ed. New York: McGraw-Hill. Hace unos años ha salido un nuevo sistema de programas, el SPSS*. Ver User's Guide SPSS*, New York: McGraw-
PLANIFICACIÓN DEL ANÁLISIS
189
Hill, 1983; así como los guiones de uso para principiantes o estadísticos avanzados, de M.J. Norusis. 3. Schucany, W.R. (1978) Journal of the American Statistical Association, 73, 92. 4. Bross, I.D.J. (1981) Scientific Strategies to Save Your Life: A Statistical Approach toPrimary Prevention, pp. 42-43. New York: Marcel Dekker. 5. Mainland, D. (1964) Elementary Medical Statistics, p. 168. Philadelphia: Saunders. 6. Htil, A.B. (1977)A Short Text book of Medical Statistics, p. 11. London: Hoddery Stoughton. 7. Hammond, E.C., Irwin, J. y Garfinkel, L. (1967) American Journal ofPublic Health, 57, 1979. 8. Tukey, J.W. (\977)Exploratory Data Analy sis, pp. 16-17. Reading, Mass.: Addison-Wesley. 9. Isaac, S. y Michael, W.B. (1977) Handbook in Research and Evaluation for Education and the Behavioural Sciences, p. 12. San Diego: EdITS. 10. Dixon, W.J., Brown, M.B., Engelman, L., Frane, J.W., Hill, M.A., Jennrich, R.I. y Topreck, J.D. (1981) BMDP: Statistical Software 1981. Berkeley: University of California Press.
22 Decisiones relacionadas con la codificación Si se toma la decisión de utilizar tarjetas perforadas de cualquier tipo, antes de poder procesar los datos hay que codificarlos (esto es, transformarlos en símbolos —habitualmente numéricos— que puedan marcarse con facilidad en las tarjetas). De ir a usarse el recuento o la separación manuales, no resulta esencial codificar, pero siempre viene bien recurrir a símbolos o abreviaturas como + (presente), — (ausente), ? (desconocido), V (varón) y H (hembra). Ni que decir tiene, dichas decisiones sobre codificación requieren otras previas sobres las escalas de medición de las variables (ver capítulo 12). La citada codificación puede ser llevada a cabo mientras se recogen los datos, imprimiendo los códigos en el impreso de registro y marcando los números idóneos. Se llama a esta técnica precodificación (ver página 202). De modo alternativo, cabe también codificar los datos en una etapa posterior. Cuando se va a precodificar, o en los impresos van a aparecer casillas numeradas para los códigos (ver página 203), es obvio que deben adoptarse las decisiones relacionadas con la codificación antes de enviar a la imprenta los formularios. Consideraremos separadamente los métodos de codificación usados en el análisis informático, los aplicables cuando se tienen tarjetas de márgenes perforados, y los idóneos para las tarjetas de separación mecánica de IBM. Sea cual fuera el método final de procesado, resulta esencial disponer de claves escritas sobre los códigos (ver páginas 194-195). Codificación cuando se va a usar una computadora Por razones de simplificación, la descripción siguiente versa sobre el uso de las tarjetas de IBM con agujeros taladrados. Para transmitir los datos a la computadora de cualquier otra forma, los principios de la codificación son idénticos. La tarjeta IBM estándar contiene 80 columnas verticales con posiciones de perforación numeradas del 0 al 9 en cada columna (más otras 2 posiciones no numeradas). Cada trozo de información se registra haciendo un pequeño agujero en la posición concreta correspondiente de la columna. El perforado se realiza mediante una máquina con un teclado similar al de una máquina de escribir; para cada columna se acciona una tecla determinada, apareciendo el agujero 190
DECISIONES RELACIONADAS CON LA CODIFICACIÓN
191
en la posición idónea de la columna. Suele «verificarse» dicha técnica repitiendo el procedimiento. El proceso es tedioso y requiere considerable experiencia, por lo cual habitualmente es mejor dejarlo a un profesional bien cualificado. Si se prevé tener que recurrir a algún tipo de tratamiento manual, los símbolos taladrados en la tarjeta deben imprimirse también en el margen superior. Cuando los datos van a «meterse» en un diskette (ver página 187) y no en tarjetas, el equivalente a la tarjeta se llama registro, que puede tener más de 80 «columnas». Los datos se perforan habitualmente en forma de números. Pueden ser códigos numéricos arbitrariamente asignados a las categorías de la variable —por ejemplo 1 para «varón» y 2 para «hembra»— o valores numéricos reales —pongamos por caso, una edad de 65 años. En cada columna se perfora sólo un dígito; cuando el número contiene más de un dígito, se perfora cada uno de ellos en una columna separada. La columna o conjunto de columnas adyacentes utilizadas para registrar un item de información recibe el nombre de «campo». Es posible asimismo meter letras y demás símbolos representándolos en la columna con una combinación específica de agujeros. Suele usarse un formato fijo, es decir, con un «despliegue» —tamaño y disposición de los campos— idéntico cuando se trata de tarjetas correspondientes. Si el coeficiente intelectual de un niño se taladra en las columnas 1719 de su tercera tarjeta, los de los demás vendrán también en esas mismas columnas 17-19 de sus respectivas terceras tarjetas. El primer campo de cada tarjeta, empezando en la columna 1, suele asignarse al número de identificación de la persona (ver página 198). Luego viene el número de la tarjeta si hay más de una de ellas por individuo, y un campo para cada variable, con la misma secuencia en que los códigos aparecen en el registro que la persona encargada de taladrar habrá de manejar. No es necesario usar todas las columnas de ninguna tarjeta. Cada campo debe ser suficientemente grande como para dar cabida al máximo número de dígitos susceptibles de aparecer. Si, por ejemplo, los números de serie llegan del 1 al 529, se precisarán tres columnas. Si para las enfermedades se utiliza en concreto su código de la ICD, hacen falta cuatro, aunque algunas de ellas vayan a tener códigos con sólo tres columnas. Para evitar errores de perforación e interpretación, resulta habitualmente aconsejable perforar un número en todas las columnas, desde la primera a la última utilizadas en la tarjeta. No debe haber discontinuidades entre los campos, de modo que los datos aparecerán perforados en todos ellos —ya hemos recalcado anteriormente la importancia de las escalas exhaustivas con categorías de codificación para todos los individuos (ver página 110). Tampoco debe haber espacios vacíos entre los campos. Si se asignan tres columnas a la presión sistólica, conviene codificar un valor de 95 mm de mercurio como 095, para evitar la posibilidad de que pudieran perforarse las cifras por equivocación en las primeras dos columnas del campo, dando lugar a la cifra errónea de 950.
192
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Igualmente, si se usa un campo de cuatro columnas para el código de la ICD, las categorías de tres dígitos como la 072 (paperas) debe ser codificada 0720. La posición de los puntos decimales debe ser fijada por adelantado. Conviene —siempre que sea posible— utilizar códigos estandarizados, porque se simplifican tanto los procesos de codificación como el análisis. De haber preguntas «tipo sí-o-no», por ejemplo, se pueden marcar con un 1 todas las respuestas SI y con un 2 todas las NO. Resulta particularmente importante ponerse de acuerdo en cómo señalar «desconocido» (9, pongamos por caso, ó 99 si se trata de un campo de dos columnas, etc.) y «no-aplicable» (8 u 88, etc.). En esas ocasiones, puede ser necesario aumentar el tamaño del campo para evitar ambigüedades. Por ejemplo, si en un campo de una única columna existe un trozo de información codificado como 9, vendría bien una columna extra, de modo que ese item fuese 09 y «desconocido», 99. Modificaciones sencillas de los datos, como pasar el registro de una variable continua (la altura, por ejemplo) a categorías discretas, recombinar categorías para generar una escala modificada (por ejemplo, agrupar a los inmigrantes de diversos países) y combinar variables para producir nuevas variables compuestas (ver página 214), se pueden dejar al ordenador de forma razonablemente segura. Si las modificaciones son complejas y requieren programas hechos a medida, suele ser mejor elaborarlos a mano como parte del proceso de codificación, siempre que el número de individuos estudiados sea lo suficientemente pequeño como para hacer posible esta tarea. Codificación de tarjetas perforadas en los bordes El investigador primero decide cuántos agujeros (uno o más) precisa para cada variable y luego divide el filo de la tarjeta en campos, uno por cada una de ellas. Hay veces en que un único agujero resulta suficiente para una variable. Es el caso de las dicotómicas, que poseen como únicas categorías «varón» y «hembra», o «presente» y «ausente»: para indicar una de las categorías se deja intacto el agujero, y para la otra se corta el borde. No cabe hacerlo, por supuesto, cuando hay una más, como «desconocido» o «no aplicable». Si una variable tiene más de dos categorías, es mejor asignar un agujero separado a cada una, cortándose el filo correspondiente cuando proceda. De haber 6 categorías de edad y una más para «desconocida», por ejemplo, se incluirán en el campo siete agujeros. Si no se quiere operar de ese modo, cabe también dar a cada categoría un número y taladrarlo como tal. Para indicar datos numéricos (o categorías numeradas), normalmente se marcan grupos de cuatro agujeros adyacentes con las cifras 1, 2, 4, y 7 (que vienen muchas veces ya impresas en la tarjeta). Para expresar estos números basta cortar el borde del agujero respectivo. Si se trata de otras cantidades pero inferiores a 14, se cortan los filos de combinaciones suyas; por ejemplo: el 6
DECISIONES RELACIONADAS CON LA CODIFICACIÓN
193
se indica cortando los agujeros marcados con el 2 y el 4. Para números superiores a 14, se asignan a unidades, decenas, centenas, etc., grupos separados de cuatro agujeros. Para expresar el número 341, pongamos por caso, se taladrarán los bordes del 1 y el 2 en uno de los grupos de cuatro agujeros (el de las centenas), el 4 en el siguiente (el de las decenas) y el 1 en el tercero (las unidades); el campo total que permitiría expresar cifras hasta 999, pues, incluiría 12 agujeros. Buscando aumentar la «capacidad» de la tarjeta cabe explotar combinaciones de agujeros usando un sistema binario; las diversas combinaciones de dos agujeros (intacto-intacto, intacto-cortado, cortado-intacto y cortado-cortado) permiten reflejar 22 —o sea, 4— categorías; con cuatro agujeros, el número de categorías es 22 —o sea, 16; con 6 es 26 —es decir, 64— y así sucesivamente. Cualquier sistema que exija cortar más de un agujero por variable resulta latoso tanto a la hora del taladrado como a la de proceder a separar, y debe ser evitado. Puede, sin embargo, tener sus compensaciones: «Cuando se trabaja en los límites del mundo subdesarrollado, las herramientas sencillas poseen una utilidad mayor de lo que consideraciones previas podrían hacer pensar. Así, un experto en malaria que estuviese realizando estudios de bazos al norte de Borneo podría emplear útilmente su tiempo manejando un equipamiento de fabricación casera (para tarjetas perforadas en sus bordes) en una canoa hecha de un tronco; con códigos en base 2 y explotando diversas posiciones mediante el recurso a más de una aguja de punto, tiene uno la posibilidad de hacer deporte intelectual mientras viaja»1. Codificación de tarjetas IBM para separación mecánica Los principios generales de la codificación de tarjetas IBM son los mismos cuando se las procesa mediante separación mecánica o mediante computadora (ver antes). Debe recordarse, sin embargo, que el método citado en primer lugar no resulta conveniente de ir a utilizarse más de una tarjeta para cada individuo, decisión que obliga a agrupar luego las variables. Resulta igualmente poco idóneo cuando éstas no cuadran en columnas únicas. Un campo de una columna requiere una sola pasada por la separadora; por contra, para un campo de dos columnas hay que separar primero las tarjetas formando montones según los agujeros perforados en la primera columna, para luego volver a pasar sobre cada montón separadamente (ver página 188). Por ambas razones, se recomienda ubicar las columnas en poco espacio. Debe tenerse esto en cuenta al planificar las escalas de medición, para mantener los campos lo más pequeños posibles. Generalmente pueden ahorrarse columnas usando categorías amplias —por ejemplo, manejando determinadas categorías de altura en vez de perforar separadamente cada centímetro. Para aumentar la capacidad de las columnas pueden usarse no solamente las 10 posiciones de perforación numeradas, sino también otras 2 no numeradas por columna; se conoce a éstas como X e Y , X y V , A y B , o + y –.
194
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
También se ahorran columnas utilizando el mismo campo para más de una variable; esto es: «doblándolas». Resulta una solución particularmente aceptable cuando se trata de variables íntimamente vinculadas en su relación temática (razón por la cual normalmente aparecerán juntas en las tablas) y cuando los datos de interés vienen en lugares adyacentes en el impreso de registro. Por ejemplo, un cuestionario puede incluir preguntas seguidas sobre ocurrencia y frecuencia de cefaleas; de ser así, cabe codificar las respuestas a las dos preguntas en un único campo, asignando puntuaciones a las distintas contestaciones, sumándolas, y usando el total como código. De utilizar códigos combinados de este tipo, debe tenerse cuidado con que cada número de código posea un significado único y específico, sin que resulte posible llegar a él por vías distintas. Las cifras componentes usadas habitualmente en estos cálculos son 0, 1, 2, 4, 8, 16, etc. Al preparar códigos de combinación así, hay que dar también cabida a las «respuestas ilegítimas» —por ejemplo: contestaciones inconsistentes, o fallos al responder a todas las preguntas incluidas. Otro método de ahorrar columnas es asignar arbitrariamente códigos numéricos a combinaciones distintas de categorías. Hacerlo ahorra columnas, como decimos, pero complica el proceso de codificación y, si se manejan códigos de dos o tres dígitos, complica también el separado y uso de los datos.2 Clave de codificación Siempre hay que preparar una. Si se usan tarjetas IBM o se piensa organizar un fichero de computadora (utilizando el formato de la tarjeta IBM), la clave debe expresar cuáles columnas se asignan a cuáles variables y explicar el código usado para cada una de estas últimas. De manejarse, por el contrario, tarjetas de bordes perforados, se puede escribir el código en una de ellas (pero preparando siempre otra «tarjeta de claves» duplicada por razones de seguridad). La asignación de campos puede marcarse en la tarjeta, junto con las explicaciones sobre cómo usar los distintos agujeros. A tal efecto, resulta habitualmente útil expresar «agujero intacto» como «0» y «agujero de bordes cortados» como «1» o «V». A veces es más conveniente imprimir los nombres de las variables y categorías en las posiciones correspondientes de las tarjetas. Puede asimismo resultar necesario preparar instrucciones de codificación que expliquen la manera en la cual deben codificarse los datos; incluso datos precodificados pueden requerir manipulaciones adicionales antes de estar en condiciones de ser usados. Las instrucciones deben ser claras y no contener ambigüedades, lo cual contribuye a mejorar la fiabilidad de la codificación. Si son cortas, igual resulta interesante incorporarlas en la clave de codificación; si largas, podrían requerir un documento o una serie de ellos aparte. A pesar
DECISIONES RELACIONADAS CON LA CODIFICACIÓN
195
de todo, a veces es inevitable generar largas instrucciones para la codificación. Una lista de ocupaciones codificada según la cantidad de ejercicio físico que habitualmente conllevan, por ejemplo, ocupa 79 páginas.3 Cuando han de codificarse respuestas a preguntas abiertas o afirmaciones realizadas en entrevistas relativamente desestructuradas —en particular, sobre actitudes, motivaciones, etc. («análisis de contenido»)— pueden hacer falta también instrucciones voluminosas. En la Tabla 22.1 se muestra un trozo de una clave de codificación imaginaria. Tabla 22.1. Clave de codificación Columna
Variable
Código
Instrucciones de codificación
1-4
Número de serie
Si menos de 4 dígitos, añadir cero(s) delante (por ejemplo, codificar 32 como 0032)
5
Sexo
1. Varón 2. Hembra 9. Desconocido
Precodificado (pregunta 1). Si no aparece, ver el nombre del sujeto, comprobando (sólo para hembras) si se han hecho las preguntas 3 a 5. Si sigue sin estar claro el sexo, codificar 9
6
Estado civil
1. Soltero 2. Casado 3. Viudo 4. Divorciado 9. Desconocido
Precodificado (pregunta 2). Si no aparece, codificar 9
7
Clase social
1. 2. 3. 4. 5. 8. 9.
C.S. I C.S. II C.S. III C.S. IV C.S. V Inclasificable Sin datos sobre la profesión
Código de profesión formulado en respuesta a la pregunta 6, utilizando las instrucciones que se adjuntan. Si no consta la ocupación, codificar 9
8-10
Altura
999. Desconocido
Centímetros (ignorar fracciones o decimales). Si no medida, codificar 999
11-13
Peso relativo
888. No clasificado 999. Desconocido
Consultar el apéndice con las tablas de «peso para talla» para ver el peso estándar de una persona del peso y altura del sujeto. Dividir su peso por su peso estándar, multiplicar por 100, redondear a la unidad más cercana y meter. Si menos de 100, añadir un cero a la izquierda. Codificar 999 si el sexo, la altura o el peso son desconocidos. Codificar 888 si la altura se sale del rango recogido en las tablas.
196
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Notas y Referencias 1. Padley, P. (1960) En Hogben, L., y Cross, K. W. (1960) Design ofDocuments, p. 12 (pie de página). London: MacDonald and Evans. 2. Hogben, L. y Cross, K. W. (1960) Design ofDocuments, pp 29, 77-78. London: MacDonald & Evans aportan «códigos universales» que permiten expresar todas las posibles combinaciones de 5 categorías en un número de código de dos dígitos, y de 9 categorías en otro de tres dígitos. 3. MRC Social Medicine Research Unit (1960) Classification of Occupations According to Physical Activity. London: (Roneo).
23
Planificación de los registros
Es imposible planificar adecuadamente los registros antes de tener el plan del estudio casi completo. Hacerlo requiere haber adoptado decisiones previas sobre qué variables estudiar, qué escalas de medición utilizar, y cómo va a recogerse y procesarse la información. Para asegurar la fluidez en el trabajo, además de los impresos utilizados para registrar los datos originales recopilados en el estudio a veces hacen falta diversos otros registros. Entre ellos se incluyen listas de personas a examinar o entrevistar, una de controles potenciales (de entre los cuales escoger algunos mediante apareamiento o selección aleatoria), registros tipo «libro de citas» donde anotar cuándo debe procederse a una exploración o a una revisión, y así sucesivamente. En los estudios donde se deben aplicar a unos mismos sujetos varios procedimientos de examen (entrevistas, exploración física, test de tolerancia a la glucosa, placa de tórax, etc.) en ocasiones y lugares diferentes, suele venir bien mantener un «registro de procedimientos» para cada individuo, en el cual consten los ya llevados a cabo (y si no, la razón que lo justifique). De utilizarse tarjetas para este propósito, cabe hacer con ellas ficheros, en los cuales las personas pendientes de distintos procedimientos son mantenidas aparte o marcadas con pequeñas lengüetas de diversos colores. En un estudio grande, organizar un sistema eficiente de fichas puede no resultar sencillo. Los impresos más importantes, en cualquier caso, son los utilizados para registrar los datos originales del estudio. Dichos impresos, o «hojas de datos», pueden adoptar la forma de cuestionarios, hojas de exploración, volantes para los resultados del laboratorio u otras pruebas, extractos sobre los que se copian los datos de los registros clínicos o de otro tipo, etc., o la de impresos polivalentes, con varias secciones para dar respuesta a los diversos propósitos. Como norma, resulta aconsejable utilizar impresos distintos para los datos (referidos a un único individuo) recogidos en sitios distintos, de fuentes distintas, por observadores o entrevistadores distintos, o en momentos también distintos. Puede asimismo ser necesario usar formatos diferentes para categorías diferentes de sujetos —por ejemplo, cuando hay diferencias sustanciales en los cuestionarios pasados a hombres y mujeres, o a los pacientes vivos y a los 197
198
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
parientes de los muertos. Si se van a utilizar varios tipos de impresos, una opción interesante es usar papeles de diversos colores. Estos impresos de registro deben cumplir, a ser posible, los siguientes cuatro requisitos fundamentales: 1. Sólo un individuo por formato Es aconsejable utilizar un impreso separado para cada individuo estudiado. (Como siempre, «individuo» quiere decir aquí unidad individual de estudio, aun colectiva, como una familia o una escuela). Hacerlo suele facilitar en gran medida el posterior manejo de los datos. Las listas de muchos individuos con columnas para los diferentes trozos de información (método «del libro de contabilidad», «del registro», o «del libro de ejercicios») sólo suelen ser útiles si no se registran más de dos o tres variables, permitiendo llevar a cabo razonablemente bien el recuento manual, o cuando se piensa transferir los datos a registros o tarjetas perforadas individuales para su procesamiento. Swaroop cuenta la historia verídica de un director de salud pública que analizó varios miles de registros de pacientes de cólera buscando determinar cuántos de ellos habían muerto; repitió luego el proceso para obtener la misma información, pero por sexos; cuando descubrió la imposibilidad de conseguir que le cuadraran los totales «levantó las manos y exclamó: «Ahora sí que de verdad desearía que esa gente no hubiese muerto»1. Algunos de los registros sugeridos por el Royal College of General Practitioners como ayuda para la investigación son del tipo «libro de contabilidad»2. Contienen pese a todo poca información sobre el paciente, por lo cual no hacen impracticable el recuento manual; proporcionan asimismo al médico un índice diagnóstico para sus registros clínicos individuales, facilitando así investigaciones más detalladas. Como corolario al uso de un impreso separado para cada individuo, digamos que resulta necesario identificar al titular del impreso. Los datos de identificación no necesariamente se usan en el análisis. Además del nombre de la persona, pueden utilizarse su sexo, edad, dirección, número en el hospital, número de identidad personal, etc. (En un estudio de seguimiento a largo plazo, es también conveniente muchas veces añadir el nombre y la dirección de un amigo o pariente cercanos que puedan ayudar a localizar al implicado en caso de cambiar su dirección). Cada registro debe contar con espacio para una cifra que indique específicamente a quién pertenece. Dicho número de identificación suele ser un «número de serie» o «número de estudio», o se adjudica arbitrariamente a los efectos particulares que estamos tratando. En todo registro y tarjeta perforada de un individuo concreto debe siempre aparecer la misma cantidad. En las investigaciones con garantía de anonimato, dicho número será la única identificación existente en el registro. En los estudios en que se usan computadoras, por su parte, se puede añadir a este número de serie un «dígito de comprobación»3. Se extrae realizando
PLANIFICACIÓN DE LOS REGISTROS
199
cálculos con los propios dígitos del número, mediante una regla predeterminada, y se lo coloca a continuación suya dando lugar a un «número de serie» nuevo dotado de consistencia lógica. Si se comete un error al transcribir o perforar, saltará a la vista su carácter de cifra «ilógica», que el ordenador puede detectar por sí mismo. Un método sencillo de hacerlo es elegir un dígito que dé cero o múltiplo de diez cuando se van sumando y restando alternativamente dichos dígitos. Si el número inicial es 1568, un dígito de comprobación podría ser el 6, puesto que +1–5+6–8+6=0, con lo que el nuevo número de serie sería 15686. Si, por accidente, se escribiese mal como 16586, el error quedaría detectado porque +1–6+5–8+6=2. Cuando el impreso está precodificado, y si van a emplearse más de una tarjeta IBM por cada individuo, el número de la tarjeta (1, 2, 3, etc.) debe quedar escrito en un recuadro situado inmediatamente a continuación del número de identificación del sujeto. Si la información sobre un único impreso precodificado va a ocupar más de una tarjeta, debe dejarse un campo para el número del sujeto al comienzo de cada tarjeta sucesiva, seguido del número de la tarjeta. 2. Hay que especificar toda la información precisa Los formatos sobre los cuales se anotan las exploraciones físicas son frecuentemente insatisfactorios, en la medida en que no especifican todas las variables sobre las cuales el investigador desea obtener información. De estar interesados en la hinchazón de piernas, por ejemplo, tiene poco sentido utilizar un impreso con simplemente el encabezamiento «extremidades inferiores» y un único espacio en blanco debajo. Si tras la exploración no queda nada escrito, o se hace constar cualquier otra anormalidad, nunca sabremos si el examinador buscó la existencia de edema; incluso de haber llevado a cabo el propio investigador las exploraciones, no tiene manera de estar seguro de no haber olvidado efectuar pruebas concretas para descartar el edema. Como mínimo, pues, hay que imprimir el encabezamiento «edema en las piernas». Más aún (y ello es de aplicación a los cuestionarios tanto como a las hojas de exploración), en el impreso deben aparecer todas las categorías de medición alternativas. Si el epígrafe «edema» tiene sólo un espacio debajo que el examinador deja vacío, nos quedará la duda de si prestó atención a este signo. En consecuencia, conviene imprimir las palabras «presente» y «ausente», para que quien realiza la exploración marque la correspondiente opción; de ese modo los hallazgos serán claros e inequívocos. En una buena hoja de exploración, en definitiva, este item debe venir expresado de la siguiente forma4:
200
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Como precaución extra, cabe pedir al examinador que escriba «no examinado» (y haga constar la razón) en caso de omisión de cualquier parte del examen, o bien introduzca un número preacordado —digamos, un 9— en el recuadro idóneo. El mismo principio es aplicable a los cuestionarios, en los cuales (excepto cuando se trata de preguntas abiertas) conviene imprimir todas las respuestas posibles, incluida, de ser necesario, una categoría para «otro» —o, lo que es mejor: «otro (especificar)...». Excepción a esta regla la constituye el hecho de que, buscando reducir la frecuencia de «no sabe» o «desconocido», algunos investigadores prefieren no incluir ninguna categoría para dicha respuesta, y dejan en su lugar la posibilidad de que el entrevistador la recoja. Para evitar las ambiguas respuestas «en blanco» cuando se pide una contestación numérica («¿Cuántos días a la semana come usted carne?»), hay que escribir expresamente la instrucción: «Si ninguno, escriba 0». 3. El impreso debe ser fácil de utilizar Cuanto más fácil resulte manejar el impreso, menos errores habrá. Los items deben seguir la secuencia en que se van a recoger los datos. Este requisito puede significar dificultades especiales al planificar las hojas de exploración clínicas, cuyas deficiencias a veces no se detectan hasta haber sometido el diseño a un pretest. En la medida de lo posible, conviene evitar recurrir a la escritura, tanto porque así se simplifica la tarea del observador, entrevistador o extractor, como buscando reducir la necesidad de descifrar garabatos ininteligibles. Siempre que se pueda, los hallazgos o respuestas de interés deben marcarse con una raya, una cruz o un círculo, o mediante subrayado. El impreso debe, hasta donde resulte factible, ser autoexplicativo. Las instrucciones principales deben venir formuladas con claridad en él, incluso si se decide preparar un manual más detallado para examinadores o entrevistadores. Aunque las instrucciones escritas nunca sustituyen a las explicaciones orales, sirven a modo de guía y recordatorio permanentes. Dichas instrucciones son importantes cuando, como suele suceder, ciertos items resultan aplicables sólo a algunos individuos. Debe venir explicado con detalle: «Si varón y de 17 años o mayor, preguntar»: o «Si «no», saltar a la pregunta 17. Si «sí»,
PLANIFICACIÓN DE LOS REGISTROS
201
pasar a la siguiente pregunta». Es mejor imprimir con letra distinta o entre paréntesis estas instrucciones. A veces viene bien usar flechas, como en el siguiente ejemplo:
Pueden manejarse asimismo otras convenciones autoexplicativas. Por ejemplo, es útil dividir el cuestionario horizontalmente en secciones mediante rayas, e instruir a los entrevistadores sobre que siempre que reciban una respuesta marcada en el papel con un doble subrayado, deben pasar a la sección siguiente. Por ejemplo:
En los cuestionarios autocumplimentados, las instrucciones claras y sencillas resultan particularmente importantes. El método de marcar las respuestas debe venir explicado con exactitud. De tener que llevar a cabo un estudio en Trinidad, por ejemplo, la introducción (una vez explicado quién y por qué lo realiza, y solicitar la cooperación del entrevistado) debería rezar: La mayoría de las preguntas pueden responderse poniendo una «X» en la
202
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
casilla situada junto a la respuesta que le parezca mejor. Por ejemplo:
La propia presentación del impreso debe jugar en favor de su uso fácil. Los epígrafes no han de aparecer amontonados, y conviene que estén claros los espacios destinados a las respuestas. 4. El impreso debe acomodarse a las necesidades del procesamiento de los datos Si se plantea usar la separación manual, el registro debe, a ser posible, estar impreso en una tarjeta en vez de sobre un papel. De tener intención de utilizar tarjetas con bordes perforados para procesar los datos, hay que plantearse la posibilidad de emplear dichas tarjetas como impresos iniciales de recogida de los mismos. Ello facilitaría una eventual separación suplementaria a mano, caso de no caber en los filos de la tarjeta la totalidad de la información. De irse a emplear procesamiento informático o separación mecánica, conviene hacer todo lo posible para facilitar la codificación de los datos. Ello significa imprimir casillas para los números de código, preferiblemente en la parte derecha de la página, frente a los items a que hacen referencia. Esta disposición permite realizar el perforado directamente desde los impresos de registro, sin tener que transferir antes los números de código a una «hoja de codificación intermedia». Cada casilla debe estar marcada con su respectivo número de columna. (De emplear esas casillas en un cuestionario autoadministrado, hay que etiquetarlas con claridad: «No escriba aquí. Para uso administrativo únicamente»). En el ejemplo siguiente, la intención es codificar el número de habitaciones de la casa (columna 17), el de personas (columnas 18 y 19) y el índice de aglomeración (columna 20).
PLANIFICACIÓN DE LOS REGISTROS
203
204
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
El uso de formatos precodificados permite codificar conforme se van recogiendo los datos. Los dígitos del código vienen ya escritos en el impreso (y sólo hay que marcarlos con un círculo o tachando la casilla numerada correspondiente), o se los escribe en una casilla específica al efecto. En cada uno de los items del popurrí de la página 203 se usa un método diferente (en la práctica, usar una mezcla de métodos en un único impreso acaba generando confusión). Los números de la derecha son los de columna de la tarjeta IBM. Un método distinto, que algunos investigadores prefieren, consiste en proporcionar al entrevistador sólo un único cuestionario, con las alternativas a cada pregunta ya codificadas, y «hojas de respuesta aparte», que deben rellenarse con cada entrevistado. Dichas hojas han de contener únicamente el nombre del sujeto, etc. y los números de las preguntas, más ya sea una casilla o una fila de los distintos números de código posibles (para rodearlos) a continuación de cada número de pregunta. La ventaja de este abordaje es que hace compacto el registro. Simplifica también su perforado, porque la persona que lo realiza no tiene que andar pasando páginas, además de facilitar la separación manual. Por contra, tiene el inconveniente de posibilitar más errores de cumplimentación. En los cuestionarios autocumplimentados es mejor evitar la precodificación, porque podría confundir a la persona que lo responde. Cabe, no obstante, utilizarla si los números de código se mantienen pequeños y resaltando poco, como en el ejemplo siguiente:
Notas y referencias 1. Swaroop, S. (1966) Statistical Methods in Malaria Eradication, p. 20. Geneva: WHO. 2. Eimerl, T. S. y Laidlaw, A. J. (1969) A Handbookfor Research in General Practice, pp. 39-82. Edinburgh: Livingstone. 3. Acheson, E. D. (1968) Record Linkage in Medicine, pp. 181-183. Edinburgh: Livingstone. 4. Para ejemplo de documento-guía de exploración física que cumple estos requisitos, ver Rose, G. A. y Blackburn, H. (1968) Cardiovascular Survey Methods, pp. 179-180. Geneva: WHO. 5. La pregunta está formulada de este modo para facilitar las cosas a quien responde. Antes de calcular el índice de aglomeración (personas por habitación), se aumenta en una el número de personas declaradas.
24
Pre-tests y otros preparativos prácticos Antes de poder empezar a recoger los datos, suele ser necesario someter a prueba la metodología y realizar diversos preparativos prácticos. Si a la fase de planificación la comparábamos con el período de gestación, ésta es la etapa del parto. No pocas veces conlleva bastantes dolores y, de presentarse problemas no superables en la práctica, hasta podría suceder que el estudio acabase naciendo muerto. Los pre-tests o comprobaciones previas de los métodos pueden afectar a ámbitos distintos. Algunos consisten en la simple visita a un consultorio para ver si los pesos de los pacientes —o items distintos de información— están siendo recogidos de forma rutinaria en las fichas, en tanto otros adoptan la forma de estudio metodológico amplio y bien planificado, o incluso la de «estudio-piloto» a gran escala, a modo de ensayo definitivo de la investigación general. Vienen bien para examinar la practicabilidad, fiabilidad o validez de los métodos de estudio, en la perspectiva de modificar su planificación de acuerdo al propósito planteado. Pueden tanto ser un trabajo bien construido encaminado a conseguir resultados definitivos, como estar diseñados únicamente para proporcionar «una idea» sobre la idoneidad de un método. Los pretests de hojas de exploración y cuestionarios pertenecen a esta última modalidad. En un pre-test típico a pequeña escala se entrevistan entre 10 y 30 sujetos. Cabe elegirlos sin criterio concreto alguno, excepto no ser miembros de la población estudio, puesto que participar en las preguntas que conlleva podría reducir su voluntad de someterse a entrevista luego en el estudio como tal, o afectar a las respuestas obtenibles. Habitualmente, suelen escogerse sujetos de características similares a los miembros de la población estudio. Otras veces, y buscando sacar a flote posibles puntos débiles del cuestionario, se escogen a propósito «usuarios difíciles» —personas de nivel educativo especialmente alto o especialmente bajo, etc. Al entrevistador se le pide registrar no sólo las respuestas planteadas en el cuestionario, sino también sus observaciones sobre cómo reacciona el entrevistado (aburrimiento, irritación, impaciencia, antagonismo —¡o incluso interés!); se le recomienda asimismo copiar literalmente los comentarios oídos y, finalmente, que haga constar sus propias críticas y sugerencias en relación con las preguntas, la secuencia de las mismas y la 205
206
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
presentación del formato del cuestionario. Registrará también el tiempo requerido para cada encuesta. A veces se le solicita que discuta las preguntas con el entrevistado una vez éste ha acabado de responderlas, interesándose por si parecían claras, qué significaba exactamente lo respondido, por qué contestó en determinado momento «no sé», etc. Otras veces, se envía a una persona distinta a realizar una visita separada «de recuerdo» al entrevistado, con la misma finalidad. Con toda esta información, en muchos casos resulta posible identificar preguntas difíciles, ofensivas, poco fáciles de entender o que no parecen generar la información pretendida, así como secuencias de items poco afortunadas. Cuando una pregunta origina demasiados «no sabe», probablemente no es buena; si da pie a muchos comentarios de matización, la idoneidad de las categorías de respuesta es probablemente escasa. Inconsistencias entre lo que se responde a preguntas relacionadas, o respuestas uniformes por parte de todos los entrevistados (respuestas «de todos o ninguno1») normalmente sugieren también pegas. Si hubo que omitir o hacer preguntas cuando no figuraba su necesidad, es que la estructuración del cuestionario o las instrucciones impresas resultaban probablemente defectuosas. En definitiva, el pretest suele señalar le necesidad de cambiar detalles en el cuestionario y en las instrucciones de la entrevista. Se hacen los cambios, y enseguida se dispone de una nueva versión, susceptible a su vez de ser sometida al mismo proceso. Aparte de los pre-tests, puede haber muchas otras cosas prácticas que hacer antes de estar en condiciones de recoger los datos. Cabe tener que preparar un presupuesto y encontrar financiación (aquí es donde el «experto» en becas tiene que lucirse), o poner en pie la administración del mismo. Normalmente hay también que organizar todo lo relativo al alojamiento, el equipo y su mantenimiento, los suministros, el transporte y acceso al laboratorio, el procesamiento de los datos, la disponibilidad de otras instalaciones, etc. En no pocas ocasiones hay que encontrar o formar al personal. Deben imprimirse los registros. Alguien tiene que localizar o preparar los mapas, o elaborar un censo de la población estudio. Hay que decidir uno o varios marcos muéstrales, identificar los casos de la enfermedad, seleccionar las muestras y los controles, etc. Si el experimento es ciego o doble ciego, en ocasiones deben articularse complicados preparativos prácticos para asegurar el secreto (preparación del placebo en una determinada presentación farmacéutica, botes identificables sólo por símbolos, etc.). En los estudios que implican una determinada secuencia de procedimientos, ejecutados por distintos examinadores, siempre aparecen problemas logísticos por solucionar2. Por último, un investigador inspirado no es necesariamente un buen administrador (y viceversa, como las actividades de muchos departamentos de salud pública, hospitales y otros servicios médicos elocuentemente testifican), de ahí que en las investigaciones de un cierto tamaño suela ser sensato nombrar a alguien coordinador del estudio o director del trabajo de campo, con determinadas prerrogativas en los asuntos prácticos.
PRE-TESTS Y OTROS PREPARATIVOS PRÁCTICOS
207
Una cuestión particularmente importante es ganarse la buena voluntad de las personas que van a verse implicadas en el estudio (sujetos a quienes se tiene que examinar o entrevistar, administradores y demás responsables en cuya mano está el acceso a los registros o a diversas instalaciones y servicios, etc.), de aquellas que se perciben a sí mismas implicadas en el estudio (como algunos médicos, para quienes sus pacientes les pertenecen) y de otra gente —en particular, colegas— que pudiesen considerar deberían haber sido implicados en el estudio. Cuando éste versa sobre una comunidad, relaciones públicas adecuadas y un trabajo educativo comunitario preliminar3 afectan muy positivamente a la cooperación. Los mejores resultados se consiguen teniendo contactos con los individuos y organizaciones clave, aunque es también posible recurrir a los medios de comunicación de masas mediante charlas en la radio, artículos en los periódicos, panfletos y carteles. Conviene decir a la gente en esos contactos lo que pueden esperar «sacar con» el estudio, pero sin realizar promesas falsas; en los estudios médicos «las dos motivaciones generalmente más eficaces son el deseo de contribuir al esfuerzo comunitario de beneficiar la salud a través de la ciencia, y el interés del propio sujeto en conseguir un examen médico gratis4». En los de tipo domiciliario, puede decidirse enviar cartas explicando el tema a los futuros entrevistados y avisándoles de la inminente visita de un entrevistador (usualmente, es poco aconsejable establecer el contacto inicial por teléfono, porque invita a la negativa). Puede decidirse asimismo preparar «cartas de agradecimiento». En los estudios que comportan acceder a registros médicos confidenciales, conviene solicitar a la gente su aprobación por escrito, lo cual conlleva la obligación de imprimir los correspondientes impresos. Si van a usarse métodos observacionales para recoger los datos (por personas distintas del investigador que los planificó), conviene explicarlos y enseñarlos cuidadosamente, organizando ejercicios prácticos sobre «cómo funcionan». Puede hacer falta un «manual del examinador», tanto para fines docentes como para consultas posteriores. De ser necesario, se deben facilitar estándares de referencia, como fotografías-tipo de anormalidades cutáneas, o (para pruebas de laboratorio), soluciones de composición química conocida. De necesitarse buscar a los entrevistadores, su selección debe realizarse cuidadosamente, con los requisitos fundamentales de que sean capaces, bien parecidos, honestos y con interés en el tema5. Si son nuevos en este trabajo, conviene darles una cierta formación general en métodos de entrevista6. Todos deben recibir una explicación de los objetivos y métodos del estudio, contándoseles —sin prisas y con detalle— lo que se espera de ellos. Siempre que se considere de utilidad, debe elaborarse un «manual del entrevistador». Antes de enviarlos a entrevistar a miembros de la población estudio, es importante que hayan realizado y discutido «entrevistas de ensayo». Si van a usarse fuentes documentales, deben darse los pasos para asegurar
208
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
que resultan accesibles —la confidencialidad y los sistemas deficientes de almacenamiento y captura de información suelen plantear problemas— y contienen los tipos de información deseados. Las personas que han de extraer los datos deben recibir instrucciones detalladas. Sean cuales fueren los métodos a usar, ahora es cuando debe organizarse el «control de calidad» de la etapa de recogida de los datos (cosa que discutiremos en el capítulo 25). Si se van a codificar dichos datos, asegúrense los preparativos prácticos para esa codificación, aunque a veces hay quien los deja para una fase posterior. Conviene en cualquier caso ir elaborando las claves y las instrucciones al respecto, formando a los codificadores, y organizando las cosas para someter a prueba y controlar la fiabilidad de la codificación. Notas y referencias 1. Goode, W. J. y Hatt, P. K. (1952) Methods in Social Research, p. 158. New York: McGrawHill. 2. Para ejemplo de organización de las entrevistas y exámenes en un estudio de enfermedad cardíaca isquémica, ver Rose, G. A. y Blackburn, H. (1968) Cardiovascular Survey Methods, p. 59. Geneva: WHO. 3. Benett, F. J. (1973), en Barker, D. J. P. Practical Epidemiology, pp. 92-101. Edinburgh: Churchill Livingstone, discute los problemas prácticos que suelen afrontarse al realizar estudios epidemiológicos en países subdesarrollados, con referencia especial a las medidas encaminadas a asegurar la cooperación de la población. 4. Rose, G. A. y Blackburn, H., op. cit, p. 58. 5. Para una lista más completa de criterios de evaluación y selección de entrevistadores, ver National Opinión Research Center, University of Chicago (1967) Manual of Procedures for Hiring and Training Interviewers, pp. 14-18. Chicago, 111.: University of Chicago. 6. Ver, por ejemplo, National Opinión Research Center, ibid., pp. 19-33.
25
Recogida de los datos Tras el estímulo intelectual de la fase de planificación, el investigador se enfrenta a un periodo más bien aburrido, donde debe recoger datos de una forma rutinaria y predeterminada. Cuanto más perspicacia y esfuerzo pusiera en juego en planificar y preparar su trabajo durante la fase anterior, menos posibilidades habrá ahora de que tenga sobresaltos. Sin embargo, hasta los planes mejor preparados por investigadores buenos y malos gang aft agley1: en cualquier momento pueden presentársele a uno las contingencias más inesperadas, y es preciso estar siempre dispuesto a arreglar cosas sobre la marcha conforme vaya siendo necesario. Aparte de esta actividad «de estar al acecho de problemas», el investigador debe asegurarse en positivo de que la recogida de los datos va teniendo lugar convenientemente. Una forma de hacerlo consiste en instituir «puntos de comprobación» (en palabras de Cari Becker, «de vez en cuando es bueno echar un ojo a las cosas que marchan sin ruido, para ver si siguen funcionando»), aunque es preferible vigilar periódica o regularmente los acontecimientos. Esta vigilancia posee dos vertientes. En primer lugar, hay que mantener un registro actualizado de cómo van ejecutándose los procedimientos —a cuántas personas se ha examinado, cuántas han rehusado ser entrevistadas, etc. En segundo, deben establecerse medidas de «.control de calidad» para asegurar la idoneidad de la información recogida2. En los estudios donde es el propio investigador quien recopila los datos, la única medida necesaria normalmente para «controlar la calidad» es irse tomando la molestia de revisar cada impreso de registro conforme va rellenándolos, hasta poseer la certeza de haberlo hecho adecuadamente. Al mismo tiempo —si procede— puede ir codificando. Cuando son otros quienes recogen la información, sin embargo, conviene (en la medida de lo posible) comprobar cada impreso recibido. A veces es factible corregir sobre la marcha las omisiones y errores «editándolos», pero otras debe recurrirse a la persona que rellenó el documento, o incluso, si la emisión o el error son importantes, no queda más remedio que repetir una parte del examen o de la entrevista. Cuando no resulta viable comprobar cada impreso conforme vaya siendo entregado, hay que inspeccionar una muestra de ellos. 209
210
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Someter a prueba la fiabilidad (ver páginas 132-133) constituye una parte importante del «control de calidad». Normalmente es imposible efectuar nuevos exámenes o entrevistas a las mismas personas, pero siempre puede comprobarse si determinadas exploraciones son fiables permitiendo su aplicación simultánea a los mismos sujetos por dos examinadores distintos. Otras veces se realizan análisis limitados de los hallazgos, buscando comparar los datos obtenidos (para individuos distintos) por examinadores o entrevistadores diferentes, o en momentos distintos por unos mismos examinadores o entrevistadores. Si, por ejemplo, uno de ellos encuentra una tasa de varices mucho más alta, vale la pena explorar la posibilidad de que dicha tasa fuera debida no a una diferencia entre los sujetos, sino a su método de diagnosticar las varices. De igual modo, si la tasa de hipertensión se dispara en un mes concreto, podría ser debida a algún defecto en el instrumental utilizado. Conviene revisar periódicamente todo el equipamiento de medir. Si se manejan procedimientos de laboratorio, debe comprobarse su fiabilidad mediante comparaciones periódicas con estándares, o examinando duplicaciones de las muestras. Aparte de ello, hay veces en que se detectan diferencias sistemáticas entre laboratorios, o dentro de un mismo laboratorio entre momentos distintos, comparando los resultados de las determinaciones de diferentes bloques en términos de sus valores medios, o de las proporciones de ellas situadas por encima o por debajo de puntos de corte predeterminados. A lo largo de toda esta etapa es fundamental llevar con detalle un registro de la gente omitida en el estudio —personas sustituidas, que no responden, pacientes que se retiran o son excluidos por haber sufrido efectos secundarios, etc. Ello permitirá tomar en cuenta en el análisis cualquier posible sesgo muestral (ver página 225). Conviene también meter en ese mismo registro sus características demográficas, y cualquier otra información interesante y fácil de conseguir. A veces resulta sensato concentrar recursos en intentar obtener una información completa sobre una muestra de estos individuos. Identificar a los sujetos, localizarlos y convencerlos para que cooperen puede (desde luego) requerir trabajo duro, paciencia e ingenio. En los estudios de casos y controles, en concreto, la identificación de los casos suele significar aburridas búsquedas en una jungla de historias clínicas, registros de enfermedades, índices diagnósticos de hospitales, o en muchas otras fuentes. La selección de los controles, por su parte, tampoco resulta fácil, especialmente si son apareados. Además, una vez identificados los sujetos en registros antiguos o incorrectos es normal toparse con dificultades para localizarlos. Los apellidos —especialmente los de las mujeres solteras— cambian en muchos países, o están mal deletreados. Las direcciones registradas pueden no venir completas, ser incorrectas o no corresponder a los domicilios actuales. A veces es difícil seguir la pista a alguien que se ha mudado, circunstancia particularmente aplicable a quienes vivían solos o como inquilinos y a las personas divorciadas y
RECOGIDA DE LOS DATOS
211
viudas3. Con suerte, quienes ahora viven en la dirección antigua sabrán adonde se mudaron, o el servicio de correos podrá hacerles llegar una carta. En otros casos, habrá que desarrollar a conciencia actividades de detective, incluidos contactos con anteriores vecinos, parientes y amigos o conocidos, tenderos locales, el cartero, el médico o la enfermera de salud pública del lugar, y así sucesivamente. Hay veces en que resulta difícil hasta establecer citas para una simple entrevista domiciliaria, especialmente si la familia no tiene niños y todos los miembros salen a trabajar. Única solución, por supuesto: intentarlo, intentarlo y volverlo a intentar, en ocasiones por la mañana, en ocasiones al caer la tarde o por la noche, o incluso durante el fin de semana. Establecido el contacto, y si los métodos a emplear sólo exigen una entrevista, obtener la cooperación de la persona no suele comportar grandes dificultades. Cuando hay de por medio exploraciones médicas o muestras de sangre, sin embargo, deben esperarse más negativas. El proceso de exploración, de resultar imprescindible, se hará lo menos molesto posible —flexibilidad en las citas, no hacer esperar a la persona, y, sobre todo, atmósfera de trabajo agradable— pero conviene tener presente que por muy cuidadosamente que se hagan las cosas, siempre habrá fallos en las citas e incluso negativas abiertas a cooperar. Aquí, de nuevo, la virtud clave es la perseverancia. Las tasas de respuesta pueden mejorar mucho con unas buenas relaciones, contactando machaconamente para persuadir a los pacientes, manteniendo una juiciosa negativa a aceptar el «no» como respuesta (al menos, la primera o segunda vez) —y, muy frecuentemente, estando dispuesto a pedir auxilio a ese otro miembro del equipo de estudio que resulta irresistible. Cuanto más duran estos esfuerzos, a más sujetos se logra seguir la pista y más personas que antes se negaron a responder irán haciéndolo ahora. En algún punto, sin embargo, se debe terminar trazando la raya, y es importante tener claro dónde hacerlo. Llega un momento en que los beneficios adicionales conseguibles no están a la altura de la inversión y el esfuerzo extras requeridos; es entonces cuando el investigador no debe dudar ni un segundo en decir «se acabó». Esta ley de los rendimientos decrecientes ha sido reformulada como la Regla de los Noventas —«El primer 90 por ciento de la tarea ocupa el 90 por ciento del tiempo; el 10 por ciento restante, requiere otro 90»4. Notas y referencias
1. Lo mismo ocurre con los esfuerzos estilísticos de quienes escribimos libros sobre métodos de estudio —algunos lectores se me han quejado diciendo que esta frase les suena a griego. No es griego, en realidad, sino escocés —«gang aft agley» quiere decir «suelen salir mal» («The best-laid schemes o'mice an'men gang aft agley» —Robert Burns). 2. Para una revisión detallada de las medidas de control de calidad usadas en los estudios con exámenes de salud a gran escala, ver National Center for Health Statistics (1972), Quality
212
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Control in a National Health Examination Survey, Vital and Health Statistics, series 2, No. 44. Washington, D.C.: Public Health Service. 3. Para descripciones de los métodos que se utilizan intentando seguir la pista a sujetos difíciles de encontrar, ver Skeels, H. M. y Skodak, M. (1965) Public Health Reports, 80, 249; Modan, B. (1966) American Journal of Epidemiology, 82, 297; así como Bright, M. (1967) Journal of Chronic Diseases, 20, 707 y (1969) 21, 749. 4. Wallechinsky, D., Wallace, I. y Wallace, A. (1977) The Book of Lists, p. 300. London; Cassell.
26
Procesamiento de los datos Aunque el procesamiento y la interpretación de los datos serán tratados en capítulos separados, permítasenos hacer hincapié desde ahora en la interdependencia de estos dos aspectos del análisis. No es correcto verlos como etapas distintas, sino como procesos que discurren muy ligados entre sí. Excepto en las modalidades de investigación extremadamente sencillas, el investigador empieza por elaborar o conseguirse una tabulación o grupo de tabulaciones de datos; luego considera cuidadosamente los hechos, valorando las inferencias realizables a partir de ellos y qué nuevas cuestiones plantean; decide cuáles nuevos datos necesitaría para poder comprobar dichas inferencias o responder a dichas preguntas; elabora u obtiene las nuevas tabulaciones o cálculos que precisa; piensa en los nuevos hallazgos; y así sucesivamente. Tanto el procesamiento como la interpretación se realizan por pasos, lo cual es aplicable incluso cuando se está usando una computadora, con la oportunidad técnica que comporta de obtener cifras verdaderamente grandes de tabulaciones simultáneas. Si «el investigador intenta preguntarse de una vez todo aquello que posiblemente sería de su interés (mucho más de lo que nunca iría a usar, y casi siempre omitiendo algo que luego demostrará ser de importancia crítica), ... nos da la impresión de que no estará haciendo un uso demasiado eficiente de su costoso equipamiento ... lo cual constituye un horrible despilfarro del tiempo de investigadores dotados de talento»1 . Preparativos Antes de tener listos para el análisis los datos, lo primero es volver una y otra vez sobre ellos escrutando los impresos de los registros en busca de errores y omisiones, para luego —en la mayoría de los casos— codificarlos (ver capítulo 22) y perforarlos. Resulta recomendable contarlos varias veces, porque hojas de datos y tarjetas tienen la dichosa manía de extraviarse. De cara a mejorar la fiabilidad de la codificación, suele ser necesario recoger por escrito y con detalle las instrucciones al respecto (ver página 194). Si sólo está codificando una persona, debe efectuar la operación completa dos veces con cada registro, hasta tener la seguridad de no haber cometido errores, y comprobar luego de arriba a abajo algunos registros selectivamente. De haber 213
214
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
más de un codificador, lo ideal es que dos de ellos codifiquen de modo independiente cada registro, al menos hasta asegurar haber «cogido la misma marcha» operando. A veces conviene realizar después comprobaciones puntuales sobre una muestra de los registros. Es más normal, sin embargo, restringir estas comprobaciones a variables específicas que hubieran demostrado generar problemas concretos de codificación. A conveniencia de la persona que esté perforando, suelen copiarse los códigos en hojas de transcripción (hojas de códigos, impresos de codificación). Muchas veces se utilizan formatos impresos estándar con 80 columnas (para las 80 columnas de la tarjeta IBM) con una línea independiente para cada tarjeta. De copiarse los códigos, también se debe someter dicho proceso a comprobación minuciosa. Hay ocasiones en que parte de la codificación se realiza con un ordenador, especialmente si se trata de variables compuestas no-perforadas basadas en otras ya perforadas. He aquí cuatro ejemplos. En primer lugar, podría haberse perforado la fecha de nacimiento del sujeto y la fecha de exploración, pero no la edad, obtenible sin embargo a partir de los datos. Segundo, para reducir la variación del observador en la medición de la tensión arterial hay quien echa mano de un esfigmomanómetro de variable-cero2, cuya lectura debe ser luego corregida sustrayendo un determinado «nivel cero», distinto cada vez que se utiliza el instrumento y desconocido para el observador hasta después de haber finalizado su medición; por conveniencia, en ocasiones se decide registrar sólo la lectura y el nivel cero, pero no la tensión arterial real, que debe calcularse a partir de dichas dos cantidades. Tercero, a veces se requiere una puntuación compuesta basada en las respuestas a un conjunto de ítems aparentemente desperdigados, como podrían ser preguntas relativas a síntomas diversos. En cuarto lugar, finalmente, cabría haber perforado datos sobre una gran variedad de síntomas y signos físicos, a partir de los cuales determinaríamos la presencia o ausencia de una enfermedad. En cada caso de los citados, una computadora codificaría fácilmente los datos deseados sobre edad, tensión arterial, puntuación de los síntomas, o presencia de enfermedad. Dichas transformaciones de variables pueden ser efímeras y servir para un procedimiento analítico específico, o quedar añadidas al registro. Si no conllevan cálculos, este tipo de procedimientos codificadores sencillos pueden también realizarse sin un ordenador, separando las tarjetas (manualmente, con una aguja de punto, o de forma mecánica) en montones correspondientes a las nuevas categorías, y marcando luego todas las de cada montón. De tratarse de tarjetas IBM, haría falta haber reservado previamente columnas al final de las mismas a tal efecto; la perforación mecánica de un mismo código en una pila de tarjetas recibe el nombre de «perforación en bloques». Se usen una computadora o la separación mecánica, tras culminar la perforación de los datos debe siempre realizarse una «edición de la máquina» (que
PROCESAMIENTO DE LOS DATOS
215
no es sino un conjunto de «comprobaciones lógicas»). Para este fin, se requiere preparar una lista detallada con el rango de los datos de cada variable y las combinaciones específicas de ellos a considerar aceptables. Separando las tarjetas o metiendo los datos en el ordenador, pueden detectarse errores tan obvios como que una persona tenga 342 años, una mujer se haya casado antes de haber nacido, o un varón siga con la regla. Si resulta posible, se corrigen estos errores, potencialmente debidos a inexactitudes en los datos originales, en la codificación, o en la perforación. De no ser así, suele adoptarse la decisión de excluir a dichos individuos de determinados análisis, o incluso del análisis global. Los datos erróneos pueden volver a ser perforados como «desconocido», o se hace constar la existencia de ciertas categorías de codificación a tratar como «valores ausentes» cuando se efectúe el análisis. Si va a usarse una computadora, se aconseja asignar a todas las variables nombres cortos, preferiblemente auto-explicativos, como «CIGS» en lugar de «número de cigarrillos fumados al día», o «DIASHOSP» por «duración de la estancia hospitalaria». Son éstos los términos que el investigador usará cuando tenga que comunicar lo que quiere al programador informático o, si él mismo hace sus programas, al ordenador. Aparecerán también como etiquetas en las tabulaciones impresas y demás outputs, lo cual las hará infinitamente más inteligibles que si se las refiriese como «VAR 67» ó «ÍTEM 29». A veces se puede añadir un nombre mayor y más explícito, a efectos únicamente de etiqueta impresa y no para la programación. Es asimismo factible —pero ya constituye un lujo— dar nombres a las categorías de una variable; por ejemplo: «SIN EDUCACIÓN», «1-4 AÑOS», etc. Dichas «etiquetas de valores» aparecerán entonces en lo que se imprima, junto con los códigos numéricos de las categorías. Otra opción es decidir preparar etiquetas de valores sólo para determinadas variables seleccionadas —por ejemplo: aquellas que deben aparecer en muchas tabulaciones, como «CASOS» y «CONTROLES», o «VARÓN» y «HEMBRA». Habitualmente viene bien poseer una copia de la configuración del registro informatizado que enumere las variables y muestre cómo están dispuestas. Procesado Las diversas técnicas usadas para separar datos han sido explicadas anteriormente (ver páginas 184-188). Cualquiera que fuese la técnica usada, el punto de partida para el investigador debe ser poseer una idea clara de las tablas que necesita. A continuación decidirá qué variables o conjunto de variables cubrirá cada una, qué categorías usar, cómo organizar cada tabla específicamente, y cuáles individuos incluir o excluir de las mismas. Ya hemos discutido antes que las tablas de esqueleto pueden resultar útiles durante la fase de planificación del estudio (páginas 108 y 183). Como señalábamos, constituirán ahora los marcos (hojas de trabajo)
216
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
donde meter los datos. Si la tabulación va a hacerse con una computadora, el investigador puede usarlas también para explicar al programador sus necesidades. De cara a evitar problemas, resulta importante etiquetar con claridad cada tabla, tanto si se trata de las hojas de trabajo donde se escriben las cifras después de realizar un recuento manual o una separación de tarjetas manual o mecánica, como de los resultados conseguidos con un ordenador, o de las tabulaciones obtenidas al final a modo de resumen o elaboración de datos brutos. El etiquetado es importante incluso si la tabla es sólo para uso personal; resulta sorprendente cuánto puede uno olvidar conforme pasa el tiempo. A menos que todos los sujetos individuales estuviesen recogidos en todas las tablas, debe haber una formulación expresa de las categorías de individuos incluidos o excluidos. Es fundamental definir por escrito las variables y formular explícitamente sus escalas de medición. Toda esta información puede o no salir impresa en los outputs del ordenador; si aparece en cualquier tipo de forma resumida o concentrada, el investigador debe estar seguro de poder decodificarla. Si hay demasiadas tablas, debe numerárselas, e incluso a veces vale la pena preparar un índice. Las de ordenador se suelen identificar por su número de página, o mediante otra cifra que en ocasiones se les asigna específicamente al imprimirlas. La numeración de las tablas hace fácil registrar la fuente siempre que se usan los datos, lo cual ahorra la tediosa búsqueda requerida si luego hace falta confirmar o ampliar algunos. Conviene comprobar dichas cifras siempre que sea posible, incluso si provienen de una computadora. Los totales y totales marginales suelen poder ser comparados con cifras conocidas de tablas anteriores. A veces, hay errores que saltan a la vista simplemente porque las cantidades «no cuadran» (el llamado test traumático interocular4). Si se manejan operaciones aritméticas, se las debe comprobar siempre, tarea poco complicada en los actuales días de las calculadoras de bolsillo. Realización del análisis El plan detallado del análisis debe obviamente depender de los objetivos del estudio. Aquí tocaremos los principios estratégicos generales aplicables, pero sin entrar en detalles de cuestiones tácticas. Aunque es imposible plantear reglas estrictas de aplicación general sobre la secuencia analítica más idónea, se aconseja al investigador no experimentado ajustarse al siguiente orden: 1. Examinar cada variable separadamente 2. Examinar pares de variables 3. Examinar conjuntos de tres o más variables
PROCESAMIENTO DE LOS DATOS
217
La presente obra no es un libro de texto sobre estadística; hay muchos muy buenos ya escritos5. Por tanto, aquí no intentaremos explicar las técnicas de dicha especialidad. Pese a todo, nos parece inevitable mencionar o describir brevemente, ahora y en los próximos tres capítulos —sobre todo en notas a pie de página— los índices y métodos estadísticos de uso más común. Entendemos que ello permitirá a los no versados conseguir una cierta familiaridad con dichas técnicas, sus funciones y las indicaciones de su uso. Habitualmente, es recomendable empezar el análisis por el examen de las distribuciones de frecuencia de todas las variables; es decir, se prepara una tabla aparte para cada variable, en la cual quede visible cuántos individuos caen dentro de cada categoría o en cada valor de dicha variable. Tal información puede influenciar las decisiones a adoptar sobre los pasos subsiguientes del análisis. Si, por ejemplo, la población estudio demuestra ser muy homogénea en su distribución según clase social, convendrá claramente abandonar cualquier plan de realizar estudios detallados sobre las relaciones entre clase social y enfermedad. («Asegúrate de que tus variables varían»6). Si sólo hay tres casos de gota, carece de sentido elaborar tablas complicadas sobre la epidemiología de dicho proceso. De haber un número excesivo de individuos en la categoría «desconocido», asimismo, cabe hasta llegar a la conclusión de que no es posible estudiar la variable. Más aún, las peculiaridades de una distribución pueden arrojar dudas sobre la exactitud de los datos (baja validez patente). En esta etapa conviene usar escalas de medición detalladas —esto es, categorías estrechas, con poco o ningún «colapsamiento»—buscando que las distribuciones de frecuencia puedan proporcionar una base sobre la cual tomar decisiones acerca de las categorías a utilizar en etapas posteriores. Los índices sencillos que resumen las distribuciones de frecuencia7, como medias, porcentajes y tasas, pueden calcularse ahora o un poco más tarde. A veces, por supuesto, salen ya obtenidos por la computadora, junto a las distribuciones de frecuencia. Una parte fundamental del análisis casi siempre implica pares o conjuntos de variables, en lugar de variables únicas. Incluso en el más sencillo estudio descriptivo, el investigador suele querer echar un ojo separadamente a los hallazgos en ambos sexos y en diversos grupos de edad; en las revisiones simples de programas, le interesará ver si la prestación de asistencia fue distinta para categorías diferentes de pacientes o durante los distintos momentos del año; en los estudios epidemiológicos cuyo objetivo es someter a prueba hipótesis causales, así como en los ensayos clínicos y de programas, el centro principal del análisis se orientará hacia examinar las asociaciones existentes entre variables —causas putativas y efectos putativos, respectivamente. Cuando se buscan pruebas de la existencia de asociaciones, se pone énfasis sobre aquéllas para investigar las cuales se diseñó el estudio —es decir, las asociaciones especificadas o implicadas en los objetivos del estudio que fueron
218
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
recogidos por escrito— y sobre otras relaciones con las variables dependientes que pudieran resultar importantes. En la gran mayoría de los estudios realizados en medicina comunitaria, en concreto, viene muy bien ir explorando desde el principio del análisis si existen asociaciones entre las variables dependientes, por un lado, y la edad, el sexo y diversas otras variables «universales», por el otro (ver página 87). Se conoce el proceso de examinar un cuerpo de datos para determinar las variables que aparecen asociadas entre sí como «screening en busca de asociaciones». Para poner de manifiesto asociaciones entre pares de variables a veces bastan métodos sencillos. Una relación entre embarazo y anemia, por ejemplo, puede salir a la luz simplemente con una tabla de contingencia (tabulación cruzada) en la cual se clasificase simultáneamente a cada mujer según su status de embarazo y la presencia o ausencia de anemia. Para ejemplo de una tabla así, ver página 232; nótese, sin embargo, que si se manejan datos apareados —esto es, si se están estudiando parejas de casos y controles escogidos mediante apareamiento individual, o se están haciendo mediciones «antes» y «después» en los mismos sujetos— se requiere un formato diferente8. Una asociación puede ser puesta de manifiesto tanto por el simple escrutinio de las cifras de una tabla, como por distintas estadísticas de resumen elementales7, caso de las medias o los porcentajes basados en dichas cifras. Para determinar si una asociación está presente, asimismo, puede utilizarse cualquier medida de fuerza de una asociación (ver página 231). Varias de estas medidas se basan en los datos sacados de tablas de contingencia, en favor del análisis de las cuales queda aún mucho por decir incluso cuando se contempla el uso inmediato de técnicas más elaboradas. Diagramas sencillos, como el de dispersión9, o una gráfica mostrando la distribución de frecuencia10, pueden también revelar asociaciones. Para demostrar el efecto de un programa sanitario nuevo (ver página 64), muchas veces se recurre a gráficas de tendencias temporales. A estas alturas, conviene siempre plantearse la posibilidad de que algún refinamiento11 de las variables —en la medida en que los datos disponibles lo permitan— pudiera revelar nuevas asociaciones o fortalecer otras ya visibles. El «refinamiento» tiene dos aspectos. Por un lado, la escala de medición podría ser indebidamente cruda y el uso de categorías más finas sacaría a la luz pruebas de la existencia de una asociación. Si, por ejemplo, fumar poco carece de efectos, una asociación con el hábito de fumar quedaría sin ser observada si clasificásemos a los individuos simplemente como fumadores o no fumadores, y sólo se haría visible al clasificarlos según el número de cigarrillos consumidos. En segundo lugar no sólo pueden hacerse más finas las categorías, sino que la propia variable es a veces susceptible también de refinamiento en el sentido de quedarse con el oro y separarlo de las impurezas. La necesidad de hacerlo puede surgir de que la variable fuese compleja y contuviese un componente
PROCESAMIENTO DE LOS DATOS
219
«irrelevante» de cierto tamaño. La mortalidad global, por ejemplo, igual tiene poca o ninguna relación con la característica sometida a estudio, mientras una variable menos cruda —como la mortalidad debida a determinada enfermedad específica, o durante una edad definida— podría estar fuertemente asociada con ella. Una vez identificadas, es cuando pueden estudiarse de forma más intensiva las asociaciones en términos de su fuerza, significación estadística y demás características (ver capítulo 28). Inicialmente este examen adicional suele basarse en la tabla de contingencia que puso de manifiesto la presencia de la asociación, o sobre otros análisis restringidos al par de variables relacionadas. El paso siguiente consiste precisamente en elaborar la asociación; es decir, investigar la influencia sobre ella de otras variables («extrañas»). Se hace esto por tres razones. En primer lugar, vale la pena saber si la asociación es la misma en condiciones diferentes —a edades distintas, en los dos sexos, en las diversas clases sociales, etc. (ver «consistencia de la asociación», página 234). Se trata de un conocimiento importante hasta en el más sencillo de los estudios descriptivos, pero en uno analítico suele además conducir a comprender mejor los procesos causales. En segundo lugar, podría suceder que la asociación fuese total o parcialmente explicable por la influencia de otra variable, poseyendo en sí misma muy poco significado (ver «efectos de confusión», página 236). Y en tercero, la elaboración podría mejorar la precisión de las estimaciones de la fuerza de esa asociación. En tal sentido, la elaboración de una asociación puede contribuir a arrojar luz sobre los procesos causales (ver «causalidad», página 239). La manera más sencilla de elaborar una asociación es recurrir a la subclasificación (estratificación, análisis estratificado) —es decir, construir múltiples tablas de contingencia que permitan realizar clasificaciones cruzadas simultáneas según tres o más variables; para ejemplo, ver la Tabla 28.2 de la página 235. Esta técnica permite «mantener constantes» una o más variables mientras se procede a examinar la relación entre las otras. A menudo resulta útil obtener estadísticas de resumen separadas (por ejemplo, medias) para cada estrato. En la página 238 se mencionan otras técnicas de elaboración. Entre las variables más frecuentemente introducidas al elaborar se encuentran la edad, el sexo y otras variables «universales». Aparte de a ellas, suele prestarse atención a otras que se sepa o se sospeche están asociadas con la variable dependiente. No es posible elaborar reglas estrictas al respecto; las decisiones dependen de los objetivos del estudio, de consideraciones de factibilidad y —por encima de todo— de la imaginatividad e ingenio que posea el investigador. Incluso sin haber encontrado pruebas de que exista una asociación, siempre debe plantearse algún grado de elaboración. Como luego señalaremos (en las páginas 234 y 238), ciertas asociaciones sólo salen a la luz en ese momento.
220
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
En la práctica, lo normal es asumir un cierto riesgo y proceder a elaborar únicamente cuando se dispone de evidencias iniciales de asociación. Por supuesto, no resulta esencial seguir la secuencia antes citada de examinar primero la asociación entre dos variables y luego elaborarla tomando en cuenta otras. Por contra, es perfectamente legítimo introducir en el análisis distintas variables adicionales desde el mismo principio. Ello se aplica especialmente a las «universales»; muchas veces, las tablas se descomponen por edad y sexo desde una etapa muy temprana del análisis. Cuando hay dos o más poblaciones estudio —casos y controles, pongamos por ejemplo— también se las suele analizar separadamente desde el comienzo. Existen métodos complejos capaces de examinar simultáneamente relaciones donde estén implicadas varias variables. El manejo de técnicas de «análisis multivariado»13 requiere una notoria experiencia estadística. Habitualmente viene bien realizar primero un análisis con técnicas de estratificación para identificar las variables importantes, a la vez que se adquiere una cierta comprensión de sus interrelaciones. Instrucciones a la computadora Sin menospreciar sus capacidades, un ordenador, más que a un gigante mental es comparable a un zoquete dispuesto a hacer de forma esclava exactamente lo que se le pida que haga. Se lo alimenta con un programa de instrucciones contenidas en tarjetas IBM o transmitidas con un teclado situado a veces en una terminal a cierta distancia suya. Dicho programa puede haber sido elaborado a propósito por un programador informático, u obtenido de un paquete prefabricado más genérico (ver página 187). El investigador desconoce en ocasiones la forma de dar instrucciones a la computadora, pero si explica adecuadamente sus necesidades a un programador, estará en condiciones de saber qué tipo de órdenes puede impartir. Entre los puntos que suelen cubrir las instrucciones a la computadora, se encuentran los siguientes: 1. ¿Qué individuos incluir en el análisis?, ¿todos, únicamente un grupo de edad específico, o algún otro subgrupo seleccionado? 2. ¿Qué tipo de análisis se requiere? —por ejemplo: tabulaciones con distribuciones de frecuencia de variables separadas, o tabulaciones cruzadas de dos o más variables, o la computación de medias y desviaciones estándar o de coeficientes de correlación, o comprobaciones de significación estadística, o análisis de la varianza, etc. Cuando es posible realizar un análisis de diversas maneras distintas —lo que es de aplicación sobre todo a los procedimientos estadísticos complejos, ¿cuál técnica usar? Incluso para una simple tabulación cruzada, ¿cómo ordenar las variables? Las tablas de esqueleto vienen aquí que ni pintadas. (De estarse manejando un programa de un paquete, las opciones vendrán explicadas en el manual).
PROCESAMIENTO DE LOS DATOS
221
3. ¿Qué índices estadísticos son necesarios? Cuando se precisa la tabulación cruzada de dos variables, ¿hay que computar porcentajes?, ¿qué cifras usar como denominador? ¿Deben calcularse índices de la fuerza de la asociación entre las variables? ¿Cuáles índices de significación estadística se requieren? Si se precisa un coeficiente de correlación entre dos variables, ¿hay que imprimir también las medias y desviaciones estándar? Aquí, de nuevo, el manual del usuario de los programas de paquete indicará los índices disponibles. 4. ¿Qué variables están implicadas en el análisis? (Es mejor designarlas con los nombres cortos a que se hace referencia en la página 215). Si algunas de ellas fueran variables compuestas no aparecidas en los datos, sino que debiera construírselas a partir de las existentes (ver página 214), ¿cuáles son las reglas para estas transformaciones? ¿Procede añadir las nuevas variables al registro permanente? 5. ¿Cuáles son las categorías de dichas variables? ¿Se debe llevar a cabo una recodificación en nuevas categorías? De ser así, ¿hay que añadir estos nuevos códigos al registro permanente? 6. ¿Cuáles son los «valores que faltan» para cada variable? ¿Cómo manejar valores así (por ejemplo, las categorías «desconocido»)? ¿Deben los casos en los cuales faltan valores mostrarse en las tablas? ¿Conviene incluirlos en los cálculos? 7. ¿Se debe imprimir la información detallada sobre determinados casos? Y de ser así, ¿qué información y sobre cuáles casos? 8. ¿Qué material explicativo imprimir? —por ejemplo, las propias instrucciones (lo que suele ser deseable), etiquetas amplias para las variables o categorías (ver página 215), un nombre para el conjunto de lo que se saca (es decir, para la «pasada» total de los datos por el ordenador), nombres para sus diversas partes, o recordatorios intercalados u otros comentarios aquí y allá. Notas y referencias 1. Hammond, E. C, Invin, J. y Garfinkel, L. (1967) American Journal ofPublic Health, 57, 1979. 2. Evans, J. G. y Prior, I. A. M. (1970) British Journal of Preventive and Social Medicine, 24, 10. 3. En las tablas que recogen una clasificación cruzada, se llama a los totales de las cifras de cada columna y cada calle «totales marginales». Son los totales de las variables recogidas en cada categoría —o sea, simples distribuciones de frecuencia. La verdad es que cuando uno inspecciona las distribuciones de frecuencia.de las variables (ver página 217), queda muy bien desconcertar a los no iniciados diciéndoles que se está mirando los marginales. 4. Se te mete por los ojos. 5. Las personas que trabajan en el campo sanitario pueden disponer de muchos libros de texto elementales sobre estadística. Uno de los más conocidos, escrito en 1937 y absolutamente vigente hoy, es el de Hill, A. B. (1977) A Shorl Textbook of Medical Statistics. London:
222
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
Hodder and Stoughton. En Swinscow, T. D. V. (1977) Síatistics at Square One. London: British Medical Association, se describen los métodos sencillos. Otro básico y bastante popular es Freedman, D., Pisani, R. y Purves, R. (1978) Statistics. New York: W.W. Norton. Para métodos más avanzados, ver Armitage, P. (1971) Statistical Methods in Medical Research, Oxford: Blackwell; y Fleiss, J.L. (1981) Statistical Methods for Rates and Proportions, 2nd edn. New York: Wiley. 6. Davis, J.A. (1971) Elementary Survey Analysis, p. 23. Englewood Cliffs, N.J.: Prentice Hall: «Dado que el corazón de la investigación es comparar casos que caen en categorías diferentes, el investigador ha de tener enfrente multitud de casos que difieran en su clasificación. Parece difícil discutir semejante perogrullada, pero resulta fácil olvidarla». 7. Entre los índices que pueden usarse para describir distribuciones de frecuencias, se incluyen las medidas de tendencia central, las medidas de dispersión y las proporciones. Las medidas de tendencia central más comunes son la media aritmética (utilizada para las escalas de intervalos o de razones) y la mediana o percentil 50, que es el valor de la observación situada en la mitad al ordenar todas las observaciones en sentido ascendente (para escalas ordinales, de intervalo, o de razones). La media geométrica se utiliza mucho en investigación microbiológica y serológica, especialmente en datos que tratan de títulos. Las medidas más comunes de dispersión en torno a la media son la desviación estándar (no confundir con el error estándar de la media) y el coeficiente de variación derivado de ella. Los cuartiles (valores debajo de los cuales caen la cuarta parte, la mitad y las tres cuartas partes, respectivamente, del total de ellos) o el rango intercuartil entre los cuartiles superior e inferior, pueden ser usados para medir la dispersión en torno a la mediana. Muchas veces se manejan los percentiles (valores debajo de los cuales caen el tres por ciento, el diez por ciento, etc. de las observaciones), especialmente para resumir datos antropométricos. El número de individuos en una categoría puede ser expresado en forma de frecuencia relativa —es decir, como proporción (por ejemplo: un porcentaje)— del total. Los datos son a veces combinados para mostrar las proporciones de individuos con valores por encima (o por debajo) de niveles sucesivos (frecuencias acumulativas). Las tasas, la mayoría de las cuales son simples proporciones, se discuten brevemente en la Nota 1 de la página 90. 8. Los datos apareados, como los derivados de parejas de casos y controles emparejados individualmente (en un estudio retrospectivo) o de pares apareados de personas expuestas y no-expuestas a un factor causal putativo (estudio prospectivo o experimento), o de pares de observaciones realizadas sobre las mismas personas antes y después de la exposición a algún factor, precisan de atención especial. Son parejas —y no individuos— lo que hay que clasificar, utilizando una tabla de contingencia del siguiente tipo: Factor ausente
Controles
Casos
Factor presente
Factor ausente
a
b
Factor presente
c
d
Una disparidad de tamaño entre b y c constituye prueba de la existencia de asociación. En la Nota 4 de la página 244 se describe una medida de la fuerza de una asociación. Para métodos a utilizar cuando cada caso posee numerosos controles apareados individualmente, ver Fleiss, J.L. (1981), op. cit., pp. 123-126.
PROCESAMIENTO DE LOS DATOS
223
9. Un dispersograma o diagrama de dispersión puede ser usado cuando ambas variables están medidas según escalas ordinales, de intervalos o de razones. Constituye un método practicable si el número de observaciones no es muy grande. Cada una de ellas se representa como punto en una gráfica, de modo que una variable (habitualmente, la independiente) se coloca en el eje X (horizontal) y la otra, en el Y. El número de cigarrillos fumados por día durante el embarazo, por ejemplo, puede ser representado frente el peso del niño al nacer. Si existe asociación, los puntos tenderán a seguir un patrón rampante o curvo. 10. En los histogramas o en las curvas que recogen distribuciones de frecuencias, la variable (por ejemplo, el valor de la hemoglobina) suele colocarse en el eje X (horizontal), y la frecuencia (por ejemplo, el número o porcentaje de mujeres en cada categoría de hemoglobina), en el eje Y. Si se recurre a diagramas separados para mostrar las distribuciones de frecuencias en grupos diferentes (por ejemplo, mujeres embarazadas y no embarazadas) resultan posibles las comparaciones visuales. Ver también Nota 6, página 260. 11. Para una discusión detallada del refinamiento, ver Susser, M. (1973) Causal Thinking in the Health Sciences, pp. 104-109. New York: Oxford University Press. 12. Esperemos que al investigador no le pase lo mismo. 13. Con la creciente disponibilidad de computadoras y programas informáticos pre-elaborados, se están usando cada vez más procedimientos que permiten el análisis simultáneo de múltiples variables. Se los conoce habitualmente con el apelativo de análisis multivariados. Muchos estadísticos definen este término más restrictivamente, pero en una de las «obras fundamentales» sobre el tema, Clinical Biostatistics, Cap. 25, Saint Louis: C.V. Mosby, Feinstein, A.R. (1977) opina que «la palabra «multivariado» es un adjetivo descriptivo general demasiado valioso como para limitarlo únicamente a un pequeño subconjunto de su legítimo dominio». Entre las técnicas se incluyen la regresión lineal múltiple, el análisis de la co-varianza, el análisis discriminante, el análisis log-lineal y el análisis logit o regresión logística múltiple. Feistein (op. cit., p. 375) lamenta que la mayoría de los libros de texto sobre análisis multivariado son «difíciles de entender» (incluso para estadísticos con carnet) y en concreto hay al menos uno de ellos que sería un seguro candidato destacado al premio que yo diera por la inescrutabilidad comunicativa máxima». El análisis de la co-varianza, el logit y el log-lineal vienen claramente explicados en Anderson, S., Auquier, A., Hauck, W.W., Oakes, D., Vandaele, W. y Weisberg, H.I. (1980) Statistical Methods for Comparative Studies: Techniques for Bias Reduction, Caps. 8-10, New York: John Wiley; y el análisis log-lineal en Everitt, B.S. (1977) The Analysis of Contingency Tables, Cap. 5, London: Chapman and Hall. Kleinbaum, D.G., Kupper, L.L. y Morgenstern, H. (1982) Epidemiology Research, Capítulos 20-24. Belmont, Calif.: Lifetime Learning Publications, describen bien el uso de la regresión logística. Las técnicas son francamente prometedoras, pero deben ser usadas con discreción. Su uso ciego puede llevar a conclusiones incorrectas; ver Armitage, P. (1971), op. cit., Capítulo 10, pp. 302-348. Más aún, comportan la desventaja de que «los fáciles procedimientos electrónicos de los programas informáticos permiten con demasiada facilidad perder el contacto con los datos de uno mismo, en tanto los procedimientos pasito a pasito del análisis de tablas de contingencia refuerzan ese contacto. Ir despacio posibilita también ponderar y probar». Susser, M. (1973), op. cit., p. 112.
27
Interpretación de los hallazgos Al empezar el estudio veíamos que el investigador debía formular unos objetivos, especificando las preguntas de su interés. Su primera y fundamental tarea ahora consiste precisamente en usar para responder a aquellas preguntas la información recolectada desde entonces. A tal efecto, resulta esencial considerar cuidadosamente si los métodos utilizados pudieran haber influenciado de alguna manera los resultados. Lo primero en que debe concentrarse el investigador es en «comprender» sus hallazgos y «dar sentido» a lo encontrado en la población sometida a investigación. Al hacerlo, en ocasiones verá ampliarse su interés por contestar también preguntas no planteadas en principio; debe hacerlo con reserva, sin embargo, porque al no haber sido diseñado el estudio para responder esas otras preguntas, las respuestas podrían resultar inadecuadas o inducirle a error. La comprobación de hipótesis no contempladas en el diseño del estudio sino sugeridas por los datos ha sido llamada «dragado de los datos»1. En cualquier cuerpo de éstos aparecen siempre asociaciones ocurridas sólo por azar; de prestárseles demasiada atención, ignorando el hecho de que apenas constituyen acontecimientos raros de entre el gran número de asociaciones susceptibles de aparecer, pueden alcanzarse conclusiones equivocadas. Es mejor tratar esas asociaciones sacadas a la luz por el dragado de datos no como prueba de que existe una relación, sino como pista sugerente de su posible existencia. A partir de ella, en todo caso, habría que diseñar otros estudios para probar dicha hipótesis. Sacar rendimiento pleno a un estudio, sin embargo, no consiste sólo en «dar sentido» a los hallazgos: el investigador debe siempre prestar atención a su «significación» más amplia —grado en que dichos hallazgos pueden generalizarse más allá de la población estudio, implicaciones científicas más globales, cuestiones que los mismos plantean o dejan sin responder en el área de la investigación, implicaciones prácticas en términos de provisión de asistencia médica o demás aspectos de la actuación en salud pública, y así sucesivamente. La interpretación de unos hallazgos puede desde ser un juego de niños a presentar dificultades fenomenales. Constituye habitualmente, eso sí, una tarea más compleja de lo sugerido a primera vista. En palabras de un investigador, 224
INTERPRETACIÓN DE LOS HALLAZGOS
225
«Un eminente bioestadístico británico, el mayor Greenwood, decía que una vez contestadas las preguntas idóneas y recogidos los hechos de interés, cualquier persona sensata es capaz de obtener las conclusiones correctas. Existen dos pegas, sin embargo: por una parte, los hechos nunca son ni totalmente completos ni completamente exactos; y por otra, como Voltaire señalaba en su Diccionario Filosófico, «El sentido común, a la hora de la verdad, no es tan común»2. Los problemas concretos de interpretación dependerán de la naturaleza de la investigación y de los detalles de los hallazgos, cuestiones ambas imposibles de discutir aquí en su totalidad. Por contra, nos contentaremos con valorar tres aspectos. Revisaremos brevemente en primer lugar las maneras en que los hallazgos y su interpretación pueden verse afectados por los sesgos; posteriormente (en los siguientes dos capítulos) veremos cómo pueden interpretarse las asociaciones entre variables y, por fin, los problemas que comporta generalizar. Sesgo Los sesgos3 adoptan dos formas: variación sistemática (ver página 129) de los hallazgos y unilateralidad en su interpretación. No utilizaremos la palabra aquí como sinónimo de «prejuicio», aunque, por supuesto, los prejuicios del investigador —sus opiniones preconcebidas y sus preferencias— se encuentran entre los factores capaces de generar sesgo tanto en los hallazgos como en la interpretación de los mismos. Como apuntábamos antes, en esta etapa del estudio el investigador debe por sistema revisar sus hallazgos considerando la posibilidad de encontrarlos sesgados por problemas de planteamiento, o (debido a la acción ineluctable de la Ley de Murphy4) por problemas de ejecución. Si todavía desconoce las imperfecciones de su estudio, en general no tendrá demasiadas dificultades para encontrar un colega que se muestre encantado de señalárselas. Consideraremos aquí dos tipos de sesgos en los hallazgos —los de selección y los de información. (La confusión, que podría considerarse también un tipo de sesgo, se discutirá en el capítulo 28). En primer lugar, existe la posibilidad de que los individuos sobre los cuales se dispone de datos no fuesen representativos de la población diana. Dicho sesgo de selección afectaría negativamente a la validez de los hallazgos en tanto que medidas de cualquier cosa que el investigador quisiera saber de la población diana —la prevalencia de una enfermedad en su seno, la fuerza de determinada asociación con una enfermedad, y así sucesivamente. (Se trata de la validez del estudio, a distinguir de la validez de las mediciones discutida en el capítulo 16. Más específicamente, es su validez interna; la externa se refiere a las generalizaciones que pudieran hacerse a una «población de referencia» más amplia que la población diana). El sesgo de selección puede ser debido a no haber logrado una muestra
226
MÉTODOS DE ESTUDIO EN MEDICINA COMUNITARIA
representativa (sesgo muestral), o a limitaciones en la forma de escoger los casos, los sujetos experimentales, o los controles (ver capítulos 6 a 8). Podría responder, asimismo, a una cobertura incompleta —fallos al obtener información sobre todos los miembros de una muestra o población (sesgo de no respuesta), negativa a participar en un ensayo (sesgo de no participación), o pérdida de los miembros de la población estudio durante un experimento o una investigación longitudinal (sesgo de abandono en goteo). Existe otro tipo de sesgo de selección posible: la población estudio entera podría ser «especial» o «diferente» (ver páginas 54-56) a causa, por ejemplo, de una admisión selectiva para pertenecer a ella, como sucede en los estudios de pacientes hospitalarios (sesgo berksoniano5, sesgo de la tasa de admisión), o en los efectuados con conductores de autobús, vegetarianos u otros grupos caracterizados por sus ocupaciones o su conducta (sesgo de pertenencia). Otra explicación posible es una migración selectiva hacia o desde determinada población, o, por último, una supervivencia selectiva. Ni que decir tiene, la naturaleza «especial» de una población estudio no conduce a sesgo cuando el investigador está interesado únicamente en la población que ha estudiado o muestreado. Son las generalizaciones más allá de la misma las que podrían no resultar válidas. La prevalencia de enfermedad o de lactancia materna en un vecindario, por ejemplo, no es necesariamente igual a la de la nación en su conjunto, y una asociación detectada entre enfermedades en el seno de una población hospitalaria no tiene por qué necesariamente existir en la totalidad de una población. El sesgo de selección puede producirse en cualquier tipo de estudio, por lo cual debe contemplarse siempre la posibilidad de su presencia. Es importante al respecto revisar críticamente la forma en que se escogieron las muestras; conviene prestar atención especial a las sustituciones (ver página 78), las personas que no respondieron o no participaron, los pacientes retirados de un ensayo clínico por sufrir efectos secundarios, y los abandonos en goteo del estudio. ¿Cuántos han sido y por cuáles motivos? De ser los factores selectivos una enfermedad, la muerte, u otras razones potencialmente conectadas con las variables sometidas a estudio, aumenta mucho la probabilidad de aparición de sesgo. Hay que comparar, por norma, a los individuos incluidos en la investigación con los omitidos usando cualquier información disponible, demográfica o de otro tipo; la única excepción, en todo caso, se producirá cuando las tasas de sustituciones, no respuesta y abandono sean negligibles. Incluso a estas alturas igual aún no es demasiado tarde para recoger datos adicionales con dicha finalidad. Cualquier diferencia encontrada —por ejemplo: una sobrerrepresentación de madres trabajadoras entre las personas que contestan— podría resultar útil para interpretar los hallazgos. La ausencia de tales diferencias mejora la probabilidad de no existencia de ningún sesgo de selección importante, aunque por desgracia nunca constituye garantía positiva alguna, sobre todo si
INTERPRETACIÓN DE LOS HALLAZGOS
227
las tasas de no respuesta o abandono son altas. En determinadas ocasiones, resulta posible controlar el sesgo de selección durante el análisis mediante procedimientos estadísticos (ver página 252). El segundo tipo de sesgo, el de información, (sesgo «no muestral») se produce por deficiencias en la recogida, registro, codificación, o análisis de los datos. Puede tener su origen en las personas que recogieron la información (sesgo del observador, sesgo del entrevistador), en el uso de cuestionarios u otros instrumentos defectuosos, o en respuestas unilaterales por parte de la gente estudiada (sesgo de recuerdo, sesgo de respuesta). La razón de su aparición puede haber sido no utilizar procedimientos «ciegos» (ver página 135), cometer desviaciones respecto de la metodología adecuada en el terreno experimental o de otro tipo de estudios, o bien errores de clasificación incorrecta (ver página 143). Cabe asimismo (entre otras posibilidades) que los datos de los diversos grupos sometidos a comparación no hubiesen sido recogidos de forma estandarizada; existieran observadores o entrevistadores distintos en diversos grupos, o se estuvieran manejando definiciones operativas y criterios distintos, o instrumentos y técnicas no coincidentes, o periodos de seguimiento también diferentes. Igual se han buscado de forma más enérgica pruebas de la exposición a una causa sospechada por conocer la presencia de su resultado (sesgo de sospecha de exposición), o viceversa (sesgo de sospecha diagnóstica). Si las mediciones poseen escasa validez o ésta varía en diferentes partes de la población estudio, el estudio como tal podría acabar también siendo de poca validez. En ocasiones se decide aplicar tests para descartar la presencia de sesgo6, que podrían requerir datos auxiliares. Aun en esta tardía etapa, resulta factible en ciertos casos actuar frente a los sesgos de información; se pueden corregir determinados errores, especialmente los aritméticos; de existir un sesgo constante en resultados de laboratorio debidos, pongamos por caso, a un error en la preparación de una solución estándar, cabría rectificarlo aplicándoles un factor de corrección, etc. Si se dispone de información cuantitativa sobre dicho sesgo, a veces se pueden tomar en cuenta los efectos de la clasificación incorrecta7. Así, información sobre una variable aproximada (por ejemplo, los valores de la glucosa sanguínea) puede transformarse en información sobre «la cosa verdadera» (la diabetes)8. Este tipo