No hay que fiarse de todo lo que se lee en la literatura psicológica. De hecho, probablemente haya que desconfiar de dos tercios de ella.
En el mayor proyecto de este tipo, Brian Nosek, psicólogo social y director del Centro de Ciencia Abierta de Charlottesville (Virginia), y 269 coautores repitieron trabajos recogidos en 98 artículos originales de tres revistas de psicología, para ver si llegaban a los mismos resultados de forma independiente.
Los estudios que retomaron iban desde si expresar las inseguridades las perpetúa hasta las diferencias en la forma en que los niños y los adultos responden a los estímulos del miedo, pasando por las formas eficaces de enseñar aritmética.
Según las evaluaciones cualitativas de los replicadores, tal y como informó previamente Nature, sólo 39 de los 100 intentos de replicación tuvieron éxito. (Hubo 100 intentos de réplica completados en los 98 artículos, ya que en dos casos los esfuerzos de réplica fueron duplicados por equipos separados). Pero no es sencillo determinar si un intento de réplica se considera exitoso. Hoy en Science, el equipo informa de las múltiples medidas diferentes que utilizó para responder a esta pregunta1.
La cifra del 39% se deriva de las evaluaciones subjetivas del equipo sobre el éxito o el fracaso (véase el gráfico «Prueba de fiabilidad»). Otro método evaluó si se podía encontrar un efecto estadísticamente significativo, y produjo un resultado aún más sombrío. Mientras que el 97% de los estudios originales encontraron un efecto significativo, sólo el 36% de los estudios de replicación encontraron resultados significativos. El equipo también descubrió que la magnitud media de los efectos encontrados en los estudios replicados era sólo la mitad de la reportada en los estudios originales.
No hay forma de saber si un artículo concreto es verdadero o falso a partir de este trabajo, dice Nosek. Tanto el trabajo original como la réplica podrían ser defectuosos, o las diferencias cruciales entre ambos podrían pasar desapercibidas. En general, sin embargo, el proyecto apunta a la publicación generalizada de trabajos que no resisten el escrutinio.
Aunque Nosek se apresura a decir que la mayoría de los recursos deberían destinarse a nuevas investigaciones, sugiere que un mero 3% de la financiación científica dedicada a la replicación podría suponer una gran diferencia. La cantidad actual, dice, es casi nula.
Contenido
El fracaso de la replicación
El trabajo forma parte del Proyecto de Reproducibilidad, puesto en marcha en 2011 en medio de denuncias de fraude y análisis estadísticos defectuosos que provocaron una crisis de identidad en la psicología.
John Ioannidis, epidemiólogo de la Universidad de Stanford (California), afirma que la verdadera tasa de fallos de reproducción podría superar el 80%, incluso más de lo que sugiere el estudio de Nosek. Esto se debe a que el Proyecto de Reproducibilidad se centró en trabajos de revistas muy respetadas, a que los científicos originales trabajaron estrechamente con los replicadores y a que los equipos de replicación optaron en general por trabajos que empleaban métodos relativamente fáciles, todo lo cual debería haber facilitado la replicación.
Pero, añade, «realmente podemos utilizarlo para mejorar la situación en lugar de limitarnos a lamentarla». El mero hecho de que esa colaboración se produjera a tan gran escala sugiere que los científicos están dispuestos a moverse en la dirección de mejorar.»
El trabajo publicado en Science se diferencia de otros anteriores sobre replicación porque el equipo replicó realmente una franja tan grande de experimentos, dice Andrew Gelman, estadístico de la Universidad de Columbia en Nueva York. En el pasado, algunos investigadores desestimaron los indicios de problemas generalizados porque se trataba de pequeñas réplicas o se basaban en simulaciones estadísticas.
Pero les resultará más difícil desestimar el último estudio, dice Gelman. «Se trata de una prueba empírica, no de un argumento teórico. El valor de este proyecto es que, con suerte, la gente estará menos segura de sus afirmaciones.»
Sesgo de publicación
Según Nosek, no se trata de criticar artículos individuales, sino de calibrar hasta qué punto el sesgo impulsa la publicación en psicología. Por ejemplo, es posible que estudios aburridos pero precisos nunca se publiquen, o que los investigadores consigan resultados interesantes no tanto por documentar efectos reales como por dar con el premio gordo de la estadística, o por encontrar un resultado significativo por pura suerte o por probar varios métodos analíticos hasta que algo dé resultado.
Nosek cree que es probable que otros campos científicos tengan mucho en común con la psicología. Un análisis descubrió que sólo 6 de 53 artículos de alto nivel en biología del cáncer podían reproducirse2 y actualmente se está llevando a cabo un proyecto de reproducibilidad relacionado con la biología del cáncer. Los incentivos para encontrar resultados dignos de publicaciones de alto perfil son muy fuertes en todos los campos, y pueden incitar a la gente a perder la objetividad. «Si esto ocurre a gran escala, la literatura publicada puede ser más bonita que la realidad», dice Nosek.
Los resultados publicados hoy deberían suscitar un debate más amplio sobre la práctica científica óptima y la publicación, dice Betsy Levy Paluck, psicóloga social de la Universidad de Princeton, en Nueva Jersey. «Dice que no conocemos el equilibrio entre la innovación y la réplica».
El hecho de que el estudio se haya publicado en una revista de prestigio animará a seguir estudiando, dice, y demuestra que ahora «se promueve la replicación como una línea de investigación responsable e interesante».