Mentiras, Malditas Mentiras y Estadísticas

estadist2

He encontrado este artículo publicado en un blog al que sigo. Me parece tan atinado e interesante que (excepcionalmente) lo transcribo íntegramente porque entiendo que su lectura puede resultar muy útil.

EL ÚNICO DIAGRAMA QUE UNO NECESITA PARA ENTENDER CUALQUIER INVESTIGACIÓN MÉDICA

Autores: Julia Belluz & Steve Hoffman

De su sección Burden of Proof (la carga de la prueba), el 5 de Enero de 2015. Publicado en www.vox.com, donde puede leerse el artículo original en Inglés.

Hoy, la prestigiosa revista científica JAMA Internal Medicine, publicó un artículo sobre la asociación entre comer cereales integrales y tener un menor riesgo de muerte por enfermedades cardiovasculares. Muchos medios de comunicación van a tener titulares de este tipo “Los cereales integrales son beneficiosos para un corazón saludable” y “El consumo de cereales integrales reduce el riesgo de muerte”.

Pero usted no debería creerles. Aunque la investigación mencionada es un ejemplo excelente de ciencia, de un tipo conocido en jerga científica como – estudio prospectivo y observacional de una cohorte – es sin embargo nada más que un estudio. Y cuando usted considera un único estudio, solo dispone de una sola pieza del puzle, una sola interpretación de la cuestión investigada, y una sola idea de cómo llevar a cabo dicha investigación.

En este caso, la población estudiada NO FUE asignada aleatoriamente para comer más cereales integrales, lo que significa que no podemos saber si las personas que los comieron eran más saludables debido a esa dieta, o debido a otros rasgos que compartían, como su edad, grupo étnico, hábitos de fumar o beber alcohol, nivel de actividad física, uso de multivitamínicos o su historial médico familiar.

Se puede intentar distinguir y controlar el efecto solapado de variables que pueden influir simultáneamente en los resultados. Pero es imposible asegurar  que se han controlado todas las  posibilidades de pasar por alto causas convergentes. Por ejemplo, el estudio que damos de ejemplo no toma en cuenta factores clave de la salud como la riqueza o la educación, que puede ser mas importantes para la salud de los comedores de cereales integrales que lo que comen.

Aparte de ésto, como los propios autores del artículo señalan, su palabra no es la única en este tema. Sus resultados coinciden con los encontrados en el Iowa Women’s Health Study (estudio de Iowa sobre la salud de la mujer y el Norwegian County Study (estudio del Condado Noruego), pero no coinciden completamente con otros estudios similares relacionados con diabéticos y personas ancianas saludables.

No todos los estudios tienen igual valor.

El estudio sobre cereales, igual que otros estudios médicos sobre los que se puede leer, es una excelente oportunidad para reflexionar acerca de otras claves que pudieran ayudarle a vivir más tiempo, distintas a los propios cereales integrales (o el vino tinto o el chocolate).

Existen miles de sistemas para diseñar un estudio. Cuando una noticia reciente sugiere que “un reciente estudio científico ha revelado…” o un médico prestigioso declara “Hay estudios que demuestran…”, uno debería preguntar, “¿De qué clase de estudio se trata?

Dado que los diferentes tipos de “estudios” no son fiables por igual, todos tienen diferentes limitaciones, y no deberían ser tomados en cuenta por igual, o algunos, incluso no deberían ser tomados en cuenta en absoluto.

 Objetivo del diseño del estudio

Casi toda las investigaciones médicas, -especialmente de la clase que atraen los titulares de las noticias- pueden dividirse en dos tipos básicos: Observacionales y experimentales.

En los estudios observacionales, los científicos observan y recogen datos de algún fenómeno que ha sucedido ya: patrones de consumo de aceite de oliva, tendencia a tomar suplementos de vitamina D, cuánto ejercicio hace la gente, etc. Pero no intervienen en absoluto para cambiar nada en la vida de la gente; sencillamente se recoge información descriptiva sobre hábitos, creencias o sucesos.

Por el contrario, en la investigación experimental, los investigadores sí intervienen, o al menos utilizan métodos estadísticos para simular su intervención: p.ej. Les administran a algunas personas un medicamento, realizan determinada operación en otros, etc.

En los estudios mejor diseñados, los participantes están distribuidos  aleatoriamente (esto es elegidos al azar) al menos en dos grupos: Aquéllos que reciben la intervención (esto es “el tratamiento”) y aquéllos que no la reciben (p.ej. reciben un “placebo”). La distribución aleatoria asegura que los grupos sean comparables estadísticamente, para que  otros factores ocultos que pudieran influir queden distribuidos por igual entre ellos.

La única diferencia entre los grupos debiera ser la intervención, lo cual permitiría a los investigadores deducir el efecto que causa la “intervención”.  Éste es el motivo por el que las conclusiones de los estudios experimentales son considerados por lo general más fiables y verosímiles.

Hay muchos tipos diferentes de estudios observacionales, pero los cuatro más frecuentemente  utilizados son: Estudio de cortes transversales (cross-sectional surveys), Estudios de cohorte (cohort studies), Estudios caso-control y Reporte de casos individuales.

 En los “Estudios de corte transversal” se elige una muestra aleatoria de personas y se registra una determinada información sobre ellos en un momento determinado en el tiempo. Por ejemplo, los investigadores pueden tratar de determinar en un grupo de habitantes de Washington DC, elegido aleatoriamente, cuántas enfermedades cardiovasculares presentan, en un momento específico  (encuesta epidemiológica), o conocer su opinión sobre la calidad de los espacios verdes públicos para hacer ejercicio físico (encuesta de opinión pública).

Los “Estudios de cohorte” son también encuestas pero pretenden seguir al mismo grupo de personas a lo largo de un período de tiempo.  Por ello a menudo se las conoce como estudios “longitudinales” y “prospectivos”.  En vez de solo recoger datos de las enfermedades cardíacas en Washington DC en un momento en el tiempo, un estudio de cohorte continuaría siguiendo grupos (o cohortes) de participantes en el estudio a lo largo de un período de, por ejemplo, 10 años, y se vería cuántas personas en cada uno de los grupos desarrollan enfermedad cardíaca.

Esto permite a los investigadores registrar cambios en la salud de los participantes a lo largo del tiempo, y comparar los niveles de salud en diferentes grupos de personas.

Los “Estudios Caso-control” son a menudo conocidos como “estudios retrospectivos”. Esto es porque los investigadores comienzan desde un punto final conocido y trabajan retrocediendo en el tiempo, tratando de comprender que fue lo que puede haber causado tal consecuencia.

Por ejemplo, los investigadores pueden tomar dos grupos de personas que viven en Washington DC: unos que han sido diagnosticados con enfermedades cardíacas y otros no. Se puede entonces investigar hacia atrás y encuestar a los dos grupos acerca de sus hábitos de salud para figurarse qué factor puede haber determinado que la enfermedad se desarrollara o no.

Pueden preguntar acerca del consumo de grasas saturadas en la dieta o la exposición a enfermedades inducidas por virus.  A partir de aquí, los investigadores intentan verificar diferencias en la exposición a  circunstancias o factores de riesgo entre ambos grupos, lo que puede revelar causas o factores asociados que pueden conducir a la enfermedad cardíaca a algunas personas.

“Reporte de Casos” son básicamente síntesis detalladas de la historia médica de un determinado paciente.  Si un mismo médico o entidad informa de un conjunto de pacientes con la misma condición o enfermedad, esto constituye una “serie de casos”.

Aunque se considera que esta clase de estudios  provee las evidencias más frágiles de entre todos los observacionales, son todavía muy útiles en lo que hace a enfermedades poco frecuentes, y bastante poderosas a los fines testimoniales y políticos.

A veces pueden ser una oportuna voz de alarma. Por ejemplo un precoz “Reporte de casos” llevó al trágico descubrimiento que las madres que habían tomado Talidomida para los vómitos matinales del embarazo, habían dado a luz niños sin extremidades. Estos estudios salieron a la luz mucho antes que pudiera llevarse a cabo un ensayo aleatorizado, y salvaron a miles de bebés.

Es importante que se comprendan los límites de los estudios observacionales.

De un solo estudio observacional, los investigadores solo podrán SUGERIR  que hay una ASOCIACIÓN entre un factor como el consumo de grasas y un resultado como la enfermedad cardíaca, y no una relación de causa-efecto. Esto se debe a que los participantes del estudio YA  estaban comiendo grasas, o YA habían comenzado a tener (o no) enfermedad cardíaca, cuando el estudio se inició.

Por ejemplo ¿Podría suceder que las personas que suelen comer mucha grasa, casualmente también tuvieran menos cuidado con su salud en general? ¿O si a la vez son más pobres y como consecuencia tienen una vida más llena de frustraciones y estrés? ¿O qué sucede si casualmente los que ingieren más grasas son de antemano más obesos que los que adhieren a una dieta baja en grasas?

Estas coincidencias convergentes se conocen como “Factores de confusión” (Confounding factors), o “Variables difíciles de predecir”, que pueden ir asociadas tanto con la posible causa, como con la posible consecuencia en estudio.

A veces los “factores de confusión” resultan muy complicados  y totalmente engañosos. En 1991, los autores de un comentario publicado en el New England Journal of Medicine, sugirieron que los zurdos tenían un índice de mortalidad mayor que los diestros.

Para realizar su estudio “caso-control” retrospectivo, los investigadores revisaron los certificados de defunción de dos condados del sur de California, y luego les preguntaron a los deudos, sobre la lateralidad de sus parientes fallecidos. Así detectaron que el ser zurdo estaba asociado con morir más joven. Los investigadores concluyeron “que la edad media de la muerte en los diestros era de 75 años, comparada con una edad media de 66 años en los zurdos”.

Luego de la publicación, el editor de la revista fue inundado con cartas de enfadados corresponsales. Lo que ocurrió fue que los investigadores no tuvieron en cuenta el contexto cultural: Hubo un tiempo en los Estados Unidos en que a los niños zurdos de los forzaba a actuar como diestros.

La razón de que hubiera pocos ancianos zurdos, no era porque la mano con la que escribes determinara un final anticipado de la vida, sino porque muchos de los que deberían haber sido ancianos zurdos, habían sido “convertidos” de pequeños en diestros a la fuerza, cuando jóvenes, y aparecían en el estudio  sumando supervivientes a los ancianos diestros

Pasemos a los estudios experimentales. Hay dos tipos básicos de estudios experimentales: Ensayos controlados y aleatorizados, y diseños cuasi-experimentales.

Los “Ensayos controlados aleatorizados” se consideran el modelo de referencia para la evidencia médica, aunque no sean necesariamente siempre los más adecuados para cada cuestión  en estudio. La razón que sean tan potentes, cuando están bien hechos, se debe a que se diseñan específicamente para identificar las relaciones causa-efecto; lo de “aleatorizados” significa que los grupos son comparables, y que la única diferencia entre ellos, es la “intervención” (o sea si han recibido el medicamento o no), de tal forma que la diferencia en los resultados entre ambos grupos pueda ser atribuida a la propia intervención.

Cuando estos experimentos son “ciegos”, son aún más potentes: “Ciego” significa que o bien los participantes del estudio o los médicos y cuidadores, o ambos (“doble-ciego”) desconocen si están recibiendo /administrando el tratamiento verdadero o un “placebo”. De esta forma, los estudios ciegos neutralizan la influencia de  cualquier efecto placebo que pueda surgir.

Por último, hay un tipo de diseño de estudio que está a medio camino entre lo experimental y lo observacional: Es el “cuasi-experimental”: Es esencialmente un tipo de experimento no planeado y no controlado, que utiliza la estadística y la ingenuidad humana para  emular las condiciones de un experimento. Los científicos han encontrado muchas formas de llevarlos a cabo.

Un ejemplo puede ser comparar el consumo de tabaco en un pueblo limítrofe, antes y después de  modificar la legislación restrictiva, y compararlo con el de otro pueblo vecino, pero perteneciente a otro Estado donde la legislación no se ha modificado. Otro ejemplo podría ser el efecto de las becas de estudio atribuidas de acuerdo al promedio de calificaciones, comparando el nivel de los estudiantes que están justo por encima y justo por debajo del punto de corte para obtenerlas.

El “rey” de toda las “Evidencias”: Las Revisiones Sistemáticas.

A menudo, los investigadores clasifican jerárquicamente los distintos tipos de estudios, para describir la relativa trascendencia de sus conclusiones. Al tope de la jerarquía  están los resúmenes de evidencia que identifican e integran todas las fuentes de información de alta calidad relevante para una cuestión particular, provenientes de diversos contextos, medios y métodos.

Estas revisiones abordan el problema de resolver un puzle desde el estudio de una única pieza.  Más que fiarse de la experiencia de solo una persona, o aún de solo un estudio controlado y aleatorizado, la evidencia sintetizada se extrae de múltiples fuentes, y se pondera su contribución de cada una, de acuerdo su rigor y relevancia individual, y con ello llegar a una conclusión mejor fundamentada.  Se considera que esta clase de investigación provee la forma mas consistente  de “evidencia”- la madre de toda evidencia- y la mejor fuente científica para la toma de decisiones informada.

La idea subyacente es que muchos estudios, realizados sobre miles de personas y considerados en conjunto como un todo, nos acerca a verdad más que lo que podría cualquier estudio único o anecdótico. (Esto es, a menos que el estudio único o anecdótico sea la única evidencia obtenible). Las revisiones se prestan menos al sesgo subjetivo (bias), que una selección de los estudios individuales que la componen.

Entre los estudios de “evidencia sintetizada” (o integrada), los más fiables para evaluar las cuestiones de salud, son las “revisiones sistemáticas”. Estos estudios representan la mejor síntesis disponible de evidencia global, respecto a los efectos probables de diferentes decisiones, terapias o estrategias.

No todas las revisiones sistemáticas son iguales. Como indica su nombre, las revisiones sistemáticas, utilizan métodos específicos para encontrar información útil, ensamblarla y evaluar su calidad y utilidad respecto a la cuestión que estamos interesados en responder. Este particular abordaje de la “evidencia”, que es habitualmente repetido en forma independiente por al menos dos revisores separados, reduce el sesgo subjetivo que puede filtrarse en estudios individuales.

Este proceso también ayuda a asegurarse que los resultados no sean dirigidos o distorsionados por los prejuicios o sesgos cognitivos de un único autor. Finalmente, tal transparencia significa que los lectores pueden conocer el método que han seguido los autores para llegar a sus conclusiones, y pueden a su vez evaluar la calidad de la revisión misma.

EstudiosCuadro

 

Uno puede entrar en una página web como Cochrane Library, Health Systems Evidence, o PubMed Health, (n.b.  Revisiones Cochrane) y leer revisiones sistemáticas acerca de casi todo, desde los efectos de la acupuntura en la migraña y el síndrome de tensión pre-menstrual, o la eficacia del jugo de arándanos para las infecciones de vejiga.

Las dedicadas personas que están detrás de estas revisiones están tratando incluso de volcar sus conclusiones a resúmenes en “lenguaje coloquial”, escritos en el lenguaje real de la mayoría de la gente. Eso significa que estas revisiones y bases de datos son más accesibles que nunca en el pasado. Pero repetimos, no todos las revisiones sistemáticas son de la misma calidad.

Y una revisión sistemática es solo un punto de partida para comprender un problema.

Aun disponiendo de  la mejor evidencia de todo el mundo a nuestro alcance, tenemos que analizarla y aplicarla a nuestras particulares circunstancias. Una experiencia personal con el éxito o el fracaso de un medicamento, como una reacción alérgica, puede ser más informativa para usted que el estudio más riguroso del medicamento en cuestión.

Solo recuerde que la experiencia de una persona son meramente anécdotas (el tipo de evidencia menos útil) para los demás. Y un estudio, como el mencionado al principio sobre los cereales integrales, es solo una pieza del puzle.

 

Carlos Loeda (traduttore-traditore)