Anales de la Facultad de Medicina
Universidad Nacional Mayor de San Marcos
Copyright© 2002
|
ISSN 1025 - 5583
Vol. 63, Nº2 - 2002
|
LA ESTADÍSTICA EN LA INVESTIGACIÓN EPIDEMIOLÓGICA:
EL ESTUDIO DE CASOS Y CONTROLES
LUZ BULLÓN
Departamento de Medicina Preventiva y Salud Pública.
Facultad de Medicina, UNMSM.
Resumen
Los problemas más frecuentes en la investigación en epidemiología son resueltos
mediante el diseño adecuado de estudios. La estadística ha contribuido a la
conceptualización, desarrollo y éxito de dichos estudios. Este trabajo presenta el
estudio de casos y controles, su relación con el estudio de cohortes, una revisión de
los aportes en los últimos 50 años, los cuales fueron de enorme importancia en salud
pública y ciencias biomédicas. También, se discute la forma de medir la asociación
entre factor de riesgo y enfermedad, utilizando el parámetro razón de chances (odds
ratio) y el mismo desde el aporte de Mantel y Haenszel.
Palabras clave: Estadística; estadísticas de salud; estadísticas sanitarias;
epidemiología; investigación; investigación sobre servicios de salud.
Statistics in Epidemiological Research: The Case-control Study
Summary
The most common problems in epidemiological research use appropriate study design.
Statistics has contributed to conceptualisation, development and success of these studies.
This paper presents the case-control study, its relationship with cohort study and its
important contribution in the past 50 years in public health and biomedicine. It also
discusses the way of measuring the association between risk factor and disease using the
odds ratio and the Mantel and Haenszels contribution.
Key words: Statistics; health statistics; sanitary statistics; epidemiology; research;
health services research.
Introducción
Los problemas más frecuentes en la investigación epidemiológica son el estudio de la
asociación entre la exposición a un factor y el eventual desarrollo de una enfermedad,
la comparación de opciones terapéuticas y el estudio de factores de pronóstico para
pacientes sometidos a un tratamiento dado. Para resolver estos problemas se encuentra,
frecuentemente, las tres formas de investigación siguientes: estudios de casos y
controles, estudios de cohortes y ensayos clínicos aleatorizados (35).
Estos estudios son comparativos, es decir, la conclusión final se obtiene a través de la
comparación de dos grupos de individuos. En los estudios de casos y controles, la
comparación se da entre un grupo de personas enfermas (los casos) y un grupo de personas
no enfermas (los controles). En los estudios de cohortes, se compara un grupo expuesto al
factor de riesgo en estudio con otro grupo no expuesto. Los estudios de casos y controles
y de cohortes son estudios observacionales, es decir, el investigador no impone un
tratamiento, utiliza los datos producidos por la historia clínica del paciente y son, por
razones éticas o prácticas, las estrategias de investigación más viables. El ensayo
clínico aleatorizado es un estudio experimental y es la forma más conclusiva de
investigación donde, además de la presencia del grupo de control, la comparación de los
grupos es garantizada por la asignación aleatoria de los pacientes a los
tratamientos.
La estadística ha contribuido enormemente a la conceptualización, desarrollo y éxito de
dichos estudios, en particular, de los estudios de casos y controles y, en los últimos 50
años, esta contribución ha sido de las más importantes para la salud pública y las
ciencias biomédicas. Por todo ello, este trabajo presenta el diseño de los estudios de
casos y controles, estableciendo su relación con el estudio de cohortes, hace un breve
recorrido histórico por las principales contribuciones del punto de vista estadístico de
este diseño (6) y señala algunos desafíos de investigaciones en esta línea.
El muestreo en los estudios de casos y controles
Los estudios de casos y controles se inician con la presencia o ausencia de un
resultado o evento de interés y luego se investiga hacia atrás en el tiempo, para tratar
de identificar causas o factores de riesgo posibles de dicho resultado.
Los casos en estos estudios se seleccionan de manera individual, sobre la base de alguna
enfermedad o consecuencia de ella; los controles son personas comparables con los casos,
pero sin la enfermedad o consecuencia. Las historias o sucesos previos de ambos, casos y
controles, se los analiza, en un intento por identificar una característica o factor de
riesgo presente en los casos, pero no en los controles.
La naturaleza de la indagación en el tiempo permite que, en ocasiones, sean denominados
estudios retrospectivos. Son también longitudinales, debido a que la indagación cubre un
cierto tiempo. La Figura 1 presenta un esquema que aclara esto último. Las áreas
sombreadas representan sujetos expuestos al factor antecedente, las áreas claras a no
expuestos. Los cuadrados representan sujetos con la enfermedad o consecuencia que
interesa, los rombos son los sujetos sin ella.
El estudio de casos y controles frente al estudio de cohortes
Se presenta el concepto y el esquema correspondientes a un estudio de cohortes, de manera
que se comprenda posteriores análisis y comparaciones. En el estudio de cohortes, se
selecciona sujetos al principio y se determina si poseen el factor de riesgo o han sido
expuestos. Se observa estas personas expuestas y no expuestas por cierto tiempo, para
constatar el efecto de este factor. Debido a que los eventos de interés, como enfermedad,
se manifiestan después de iniciado el estudio, en ocasiones se denomina prospectivo
(Figura 2).
Los estudios de cohortes también sirven para identificar factores de riesgo posibles y,
por tanto, siguen de manera natural a un estudio de casos y controles.
En estos diseños resulta adecuada la comparación de los grupos mediante las tasas de
incidencia de la enfermedad en estudio (D, resultado observado). Desde que los tamaños de
grupos expuesto y no expuesto han sido predeterminados, una medida intuitiva, natural del
efecto de exposición al factor de riesgo, es la razón de tasas (probabilidades). Esta
razón es ampliamente conocida como riesgo relativo (RR).
Las magnitudes de las probabilidades no tienen importancia (aún cuando los eventos sean
raros o poco probables); sólo es importante el cociente de estas probabilidades.
Presentado de otra forma, si X denota el resultado de interés, la enfermedad (1, si y 0,
no) y E denota la exposición (1 para expuestos y 0 para no expuestos), entonces:
(1) |
 |
| Figura 1.- Esquema de un estudio de
casos y controles. |
Orígenes y
antecedentes
El ejemplo más antiguo de un estudio de casos y controles es el de Guy, en 1843, que
compara las ocupaciones de pacientes con enfermedades pulmonares, como tuberculosis, con
aquellas de pacientes con otras enfermedades (23). El método se vuelve muy popular en los
años 20 para el estudio del cáncer, siendo éxitos notables las asociaciones
descubiertas entre cáncer a los labios y el tabaquismo en pipa (2), entre el cáncer
mamario e historia reproductiva de la mujer (24) y entre cáncer oral y hábito de fumar
(26). Debido a que estas enfermedades eran raras, no resultaba práctico ser estudiadas de
otra forma; por ejemplo, por seguimiento de una población inicialmente sana.
La atención dirigida a este tipo de estudios se incrementó, y a la crítica de la
metodología siguió la publicación, en 1950, de varios estudios de la asociación entre
hábito de fumar y
 |
| Figura 2.- Esquema de un estudio de
cohortes. |
cáncer pulmonar (36). Bajo el liderazgo de Harold Dorn, los estadísticos del Instituto
Nacional de Cáncer de los Estados Unidos de América se vieron estimulados por la
controversia e investigaron sobre las ventajas y limitaciones de los estudios de casos y
controles. Una idea que aún ahora prevalece es que muestras separadas de casos y
controles no proporcionan información cuantitativa relevante acerca de los parámetros,
de mayor interés y utilidad, como las tasas de enfermedad.
Esta concepción errada fue corregida por Jerome Cornfield (11), quien demostró que la
razón de chances (odds ratio, OR) de la exposición para los casos respecto a los
controles es igual a la razón de chances de la enfermedad para los expuestos respecto a
los no expuestos, y que esta última se aproxima de la razón de tasas de enfermedad (RR),
siempre que la enfermedad sea rara.
De esta forma, la razón
de chances de la enfermedad (D) para los expuestos respecto a los no expuestos es definida
como la chance a favor de la enfermedad entre individuos expuestos dividida por la chance
de enfermedad entre los no expuestos:
Análogamente, para la
razón de chances de la exposición E, para los casos respecto a los controles
Formalmente, si D denota la enfermedad (1
para casos y 0 para controles) y X denota la exposición (1 para expuestos y 0 para no
expuestos), entonces:
(2) |
La razón de chances de la exposición,
ahora ampliamente conocida como el riesgo relativo, de esta forma es conveniente para
aproximar la razón de tasas de la enfermedad (1).
También, Cornfield demostró que si la tasa de enfermedad en la población general es
conocida, entonces ésta puede ser combinada con los datos de casos y controles para
proporcionar estimadores separados de tasas de enfermedad para expuestos y no expuestos.
Él estuvo consciente de la necesidad de que los grupos de casos y controles sean
"representativos de los grupos correspondientes en la población general" (11),
para que los cálculos sean válidos.
Las tasas de enfermedad a los que Cornfield hace referencia son las tasas de prevalencia,
es decir, proporciones simples de individuos con la enfermedad, tal como sería obtenido
en una muestra de un estudio transversal. Sin embargo, para estudios de etiología de una
enfermedad, es preferible estudiar tasas de incidencia y estimar la probabilidad (o razón
de probabilidades) de desarrollo de la enfermedad durante un periodo de tiempo determinado
para individuos quienes son libres de enfermedad en el inicio. En caso contrario, se corre
el riesgo de confundir los efectos de la exposición sobre la tasa de fatalidad de los
casos. Ahora se sabe, que aún sin el supuesto de enfermedad rara, la razón de chances de
exposición es estimable en un estudio de casos y controles, aproximándolo por la razón
de tasas instantáneas de incidencia, en vista que los controles son muestreados
proporcionalmente con los casos incidentales, a través del periodo de estudio.
La demostración de Cornfield no aquietó todas las críticas, estando entre éstas las de
Fisher (17). Fisher colocó a la luz la cuestión de la asociación frente a la
causalidad, que no esclarece la interpretación de cualquier estudio observacional. Es
famosa su hipótesis en la cual sugiere que la tal asociación puede ser explicada por el
efecto de un factor de confusión (nuevo factor asociado tanto a la enfermedad como al
factor en estudio). Cornfield y otros autores (13) respondieron ampliamente a estas y
otras críticas en artículos de lectura valiosa, respecto a inferencia causal. El
argumento central de la respuesta fue un simple cálculo, mostrando que, para que un
factor de confusión explique un riesgo relativo de una magnitud dada, tal como y, este
factor tiene que ser y veces más prevalente entre los expuestos que entre los no
expuestos. Más adelante, este cálculo se formalizó dentro del concepto de razón de
riesgo de confusión, el cual mide la posible extensión de la confusión sobre el riesgo
relativo observado (29,33). Estos aportes y desarrollos dieron posteriormente al riesgo
relativo solidez como un parámetro significativo y de gran importancia en todo estudio
epidemiológico.
A finales de la década, fueron comprendidos bastante bien los requisitos deseables para
los estudios de casos y controles, de manera que éstos produzcan resultados confiables y
con implicancias en las acciones posibles de salud pública. Los puntos principales,
resumidos por Dorn (14), fueron los siguientes. El estudio debería a) ser conducido en
una población definida claramente, b) incluir todos los casos incidentales ocurridos
durante un periodo de tiempo determinado, c) utilizar medidas objetivas de la exposición
a los factores de riesgo, d) usar múltiples grupos de control, e) ser repetido en
diferentes poblaciones, y f) ser verificado por un estudio de cohorte.
El aporte de Mantel y Haenszel
Cole (10) escribió "Los estudios de casos y controles llevados a cabo por
epidemiólogos en los últimos 20 años se han soportado sobre los hombros de gigantes,
... y la epidemiología no debe perder de vista a la raíz más importante de nuestra
disciplina, debemos recordar que todos aquellos hombres son y fueron estadísticos".
Los estadísticos a quienes Cole se refiere son Cornfield y Dorn y sus colegas Mantel y
Haenszel. Éstos últimos (27), publicaron en la revista del Instituto Nacional del
Cáncer un artículo que marcó un hito. Mantel y Haenszel (27), entre muchos aportes,
aclaran la relación entre los estudios de casos y controles (retrospectivos) y el de
cohortes (prospectivos), señalando la diferencia conceptual entre ambos tipos de estudio
y anticipa el surgimiento y desarrollo de los estudios de casos y controles anidados
(sección 6).
También introdujeron dos procedimientos estadísticos para el control del factor de
confusión, mediante estratificación de los datos en una serie de tablas 2×2. El primero
de ellos fue un ajuste de la prueba de Chi-cuadrado previamente presentada por Cochran
(9). El segundo fue el estimador sumario del riesgo relativo, destinado a resumir las
razones de chances (OR) individuales, ponderándolos por precisión e importancia.
El estimador sumario del riesgo relativo, en adelante denominado estimador de
Mantel-Haenszel (MH), es definido por la fórmula simple que señalaremos a seguir
utilizando la notación establecida en las Tablas 1 y 2.
Tabla 1.- Datos
dispuestos en una tabla única 2×2. |
Los datos son
estratificados en k estratos, de acuerdo a una o más variables de confusión. Se forman
tablas 2×2 para cada estrato i = 1, 2,
, k, relacionando exposición y enfermedad.
| Tabla 2.- Notación para la serie de
tablas 2×2. |
Luego el estimador de MH es
donde y  |
Ambos aportes, el
estimador M-H y la prueba de hipótesis de Mantel- Haenszel, se tornaron procedimientos
eventualmente adoptados para uso rutinario de epidemiólogos, con el beneficio en el
análisis de sus datos en un arreglo tabular y la posibilidad de hacer comparaciones de
riesgos relativos individuales y sumarios, los cuales los alertaban de una posible
heterogeneidad.
El impacto Mantel y Haenszel (27) fue enorme. Un estudio del año 1994 da cierta cuenta de
este impacto; el artículo ha tenido 4000 citaciones en la literatura científica, siendo
además uno de los 200 artículos más citados desde 1945. Continúa siendo mencionado a
razón de 250 veces por año, más hoy en día que durante las décadas 70 y 80 (dato del
Institute for Scientific Information, comunicación personal, Filadelfia).
Mantel y Haenszel, sin embargo, no presentaron una fórmula analítica para su estimador e
hicieron referencia al trabajo de Cornfield (12) para el cálculo de intervalos de
estimación. Parte del problema ocasionado por la falta de dicha variancia fue el hecho de
que el estimador haya tenido la misma utilidad en dos contextos asintóticos diferentes:
1) un número pequeño de tablas con un número grande de frecuencias, y 2) un número
grande de tablas con frecuencias pequeñas, como indistintamente se puede encontrar en
estudios publicados. Llevó 25 años encontrar dicha fórmula. (siguiente sección)
Verosimilitud e inferencia en la estimación de OR
El aspecto del trabajo de Fisher de mayor impacto sobre las aproximaciones modernas al
análisis de datos de estudios de casos y controles es el desarrollo de inferencia a
partir de la verosimilitud, basada en modelos explícitos de probabilidad (15). Este
aspecto es enfatizado en textos de estadística aplicada a la epidemiología, con
capítulos referidos a verosimilitud. El mismo Fisher introduce la idea de la
verosimilitud para la razón de chances en tablas 2×2, en su artículo clásico sobre la
lógica inductiva Fisher (16).
La característica más importante de su análisis es el uso de la distribución
condicional de datos provenientes del producto de dos binomiales con los totales
marginales fijos, esto debido a que el tamaño de la muestra de casos así como de
controles son establecidos de antemano. Así, el número de expuestos resultante en cada
grupo es una variable aleatoria que tiene distribución binomial con parámetro p1 para
los casos y p0 para los controles.
La distribución resultante del producto de binomiales de tamaños fijos es conocida como
una extensión de la distribución hipergeométrica (7), aquella donde el parámetro es la
razón de chances yi desconocida. Continuando con la notación de la Tabla 2 se
tiene
(4) |
Cornfield (1956) aproximó
los límites de confianza exactos para yi basados en (4) asumiendo la distribución normal
para Ai con media el valor fijado determinado por los totales marginales y el valor
desconocido yi como la solución de la ecuación cuadrática
(5) |
y variancia asintótica
(6) |
El procedimiento fue
extendido de la razón de chances común a la razón de chances para una serie de tablas,
tanto para la estimación puntual como para el cálculo de intervalos de confianza (21).
Límites de confianza exactos para el valor del estimador sumario, los cuales involucran
la convolución de las distribuciones en (4), están disponibles en softwares comerciales.
La prueba de Mantel-Haenszel se basa en la diferencia entre las frecuencias observada
y esperada
correspondientes y en la variancia de Ai , que por la distribución hipergeométrica es
La variancia de
Luego la hipótesis nula de no asociación
tiene estadística de prueba
cuya distribución es
Chi-cuadrado, con un grado de libertad bajo el supuesto de H0 verdadera.
Se encuentra muchos trabajos a partir de
la distribución y la verosimilitud condicional de Fisher. Particularmente, uno que
involucra modelos de regresión de riesgos relativos de la forma
ALGUNAS CUESTIONES
INFORMATIVAS
7.1 Estudios de casos y controles pareados y anidados
El principio de los estudios de casos y controles -que ambos sean comparables (similares)
excepto en el factor de riesgo en estudio-, llevó a que en la práctica se busque caso a
caso, un individuo (control) par del caso. El entusiasmo inicial derivado del logro del
pareamiento tendió a desaparecer, debido a que se ignoró los problemas aparentes
surgidos del muestreo no independiente. En consecuencia, el pareamiento como técnica de
selección de los controles, disminuyó en preferencia entre los epidemiólogos, debido a
la complejidad que trajo consigo un análisis estadístico riguroso de los datos.
Procedimientos especiales para estos diseños pareados con exposición binaria se
presentan en Miettinen (28), Pike and Morrow (30), pero un tratamiento general aún falta.
Finalmente, se debe agregar que un análisis no pareado de datos pareados generalmente
proporciona estimaciones conservadoras del riesgo relativo (4).
La idea de los estudios de casos y controles anidados surgió con Mantel y Haenszel, y la
sugerencia de que podría llevarse a cabo un diseño de casos y controles aún con el
muestreo de individuos considerados en una investigación bajo el diseño de cohortes, y
con el fin de colectar datos de individuos adicionales. Con esta idea, establecieron la
diferencia conceptual entre ambos tipos de estudio, siendo ésta que los estudios de casos
y controles involucran el muestreo de una cohorte en lugar de la enumeración completa de
ésta.
Prentice (31) introduce el diseño de casos y controles como un método alternativo de
muestreo de una cohorte definida. De esta forma, una subcohorte aleatoria es muestreada de
la cohorte entera en el periodo de seguimiento establecido; luego, la información de la
exposición es procesada para los individuos de la subcohorte. Estos diseños ofrecen
importantes ventajas sobre los diseños comunes, en situaciones donde enfermedades
múltiples van a ser evaluadas debido a que individuos no afectados de la subcohorte
pueden servir como controles, para los casos de cada tipo de enfermedad.
La elección entre ambos diseños de casos y controles es menos clara cuando hay una sola
enfermedad en estudio. Langholz and Thomas (25) mostraron que el diseño de casos y
controles anidado puede ser más eficiente que el común cuando hay censuras aleatorias
moderadas dentro de la cohorte.
7.2 Propuestas y desafíos en el aspecto del muestreo
Está claro que los estudios de casos y controles son usados para el estudio de
enfermedades raras, debido a que ellos son más eficientes cuando son comparados con los
estudios de cohorte del tamaño necesario para proporcionar el mismo número de casos. El
método concentra recursos donde hay la mayor cantidad de información, es decir, los
casos. Últimamente hay análisis conducentes a una posible mejora en la eficiencia,
mediante esquemas de muestreo más complejos para maximizar la variación en las
exposiciones de los casos y controles.
La propuesta de White (37) tiene que ver con el diseño de muestreo de dos etapas para
estudiar los efectos de una exposición rara, sobre una enfermedad rara, que inicia con un
muestreo de cohortes en la primera etapa. Breslow y Cain (5) han considerado un diseño de
casos y controles bietápico. La Tabla 3 ilustra la idea básica con datos ficticios de un
estudio bietápico de cáncer pulmonar y el factor empleo en una planta industrial. En la
etapa inicial 1500 casos y 500 controles son seleccionados al azar de la comunidad y
clasificados de acuerdo al empleo en la planta industrial. Es esencial la información
respecto al hábito de fumar, para el ajuste de la estimación del riesgo relativo, pero
los investigadores pueden llevar a cabo una entrevista sólo a aproximadamente la mitad de
los 1000 sujetos. En vista de lo raro de la exposición, los investigadores deciden
entrevistar a todos los casos y controles expuestos en la etapa II, sin considerar la
información ya disponible de ellos. Esto significa, sin embargo, que la relación entre
exposición y enfermedad es distorsionada por aquellos quienes tienen los datos completos
(Tabla 3).
Lo anterior supone, de manera general, que N1 casos y N0 controles son clasificados en J
estratos sobre la base de una, posiblemente gruesa, medida de exposición inicial.
| Tabla 3.- Datos ficticios
de un estudio de casos y controles bietápico. |
El desafío estadístico
es combinar la información disponible de ambas etapas de muestreo en una forma más
eficiente, de manera que se estime y ajuste el riesgo relativo. Propuestas de solución
presentan Schill y colegas (34), así como Breslow y Cain (5).
Los diseños bietápicos tienen muchas potenciales aplicaciones. Un ejemplo es el estudio
de casos y controles con submuestreo de validación, para la corrección de errores de
medición (8).
Observaciones finales
Los estadísticos han contribuido enormemente en el desarrollo de los modernos estudios de
casos y controles. Sus aportes, en términos de muestreo de un estudio de cohorte real o
ficticio, aclaran la estrecha relación entre estas dos principales metodologías de la
epidemiología analítica. Ellos han logrado que se entienda mejor el papel del
pareamiento en el diseño de este tipo de estudio, así como el análisis de los datos que
de éstos provienen. La regresión logística y otras involucrando riesgos relativos,
basados en conceptos de verosimilitud, proporcionan a los epidemiólogos modernas
herramientas estadísticas para evaluación y validación de los modelos, así como de
detección de datos atípicos (22).
Sin embargo, a despecho de estas técnicas avanzadas, persisten los problemas
fundamentales de obtención de inferencias causales, a partir de datos observacionales.
Fisher se mantuvo escéptico ante la afirmación de que el cigarrillo causa cáncer
pulmonar, aún frente a la comunidad médica que miraba una evidencia abrumadora. Su punto
de vista extremista se entiende mejor si se recuerda que él tuvo de ambos: el genetista
sabedor y consciente de la influencia de la herencia sobre las enfermedades y el
estadístico, quien perfeccionó la aleatorización como el método de obtención de
conclusiones de causalidad en el contexto experimental.
Las limitaciones de la metodología de estudios de casos y controles son también
conocidas (1). Ellos señalan como limitaciones: 1) sesgo de selección, frecuentemente
causado por la alta tasa de no participación, así como controles no representativos de
la población en riesgo; 2) errores de medición de exposición; una gran mayoría de
trabajos publicados tiene como instrumento de medición de la exposición una fuente
primaria o el cuestionario, sin una forma objetiva de medición; 3) sesgo debido a
factores de confusión, que no son tomados en cuenta en el estudio.
Las limitaciones señaladas, así como muchas otras que no son mencionadas, sin duda
serán materia de trabajos de investigación futuros de la estadística.
Ver Bibliografía
|