Nadie tiene del todo claro cómo lo consiguió Brian Nosek, incluido el propio Nosek. Durante los últimos tres años, este psicólogo de la Universidad de Virginia convenció a unos 270 de sus compañeros para que canalizaran su tiempo libre en la repetición de 100 experimentos psicológicos publicados para ver si podían obtener los mismos resultados por segunda vez. No habría gloria, ni eurekas empíricas, ni se abriría un nuevo camino. En cambio, esta iniciativa -el Proyecto de Reproducibilidad- sería el primer gran intento sistemático de responder a preguntas que llevan años, si no décadas, preocupando a los psicólogos. ¿Qué proporción de resultados en su campo son fiables?
Algunos indicios apuntan a que la proporción fiable podría ser inquietantemente pequeña. Recientemente, la psicología se ha visto sacudida por varias controversias de gran repercusión, como la publicación de estudios que documentaban efectos imposibles, como la precognición, la imposibilidad de replicar los resultados de los experimentos clásicos de los libros de texto y algunos casos destacados de fraude descarado.
Las causas de estos problemas están bien documentadas. Al igual que muchas ciencias, la psicología sufre de un sesgo de publicación, en el que las revistas tienden a publicar sólo los resultados positivos (es decir, los que confirman la hipótesis de los investigadores), y los resultados negativos se quedan en los cajones de los archivos. Además, varias prácticas cuestionables se han convertido en algo común, incluso aceptado. Un investigador puede, por ejemplo, comprobar si ha obtenido un resultado estadísticamente significativo antes de decidir si va a recoger más datos. O puede que sólo comunique los resultados de los experimentos «exitosos». Estos actos, conocidos coloquialmente como p-hacking, son intentos de torturar resultados positivos a partir de datos ambiguos. Pueden hacerse de forma inocua, pero inundan la literatura con «descubrimientos» elegantes pero finalmente falsos.
En los últimos años, los psicólogos son cada vez más conscientes de estos problemas y se sienten inquietos por ellos. Algunos han creado un movimiento informal para llamar la atención sobre la «crisis de reproducibilidad» que amenaza la credibilidad de su campo. Otros han argumentado que no existe tal crisis y han acusado a los críticos de ser unos segundones y unos matones, y de dar preferencia a las quejas alegres sobre la ciencia importante. En medio de este debate, a menudo enconado, Nosek siempre ha sido una figura ecuánime que se ha ganado el respeto de ambas partes. Por ello, los resultados del Proyecto de Reproducibilidad, publicados hoy en Science, han sido muy esperados.
Su lectura es desalentadora. Aunque el 97 por ciento de los 100 estudios originalmente reportaron resultados estadísticamente significativos, sólo el 36 por ciento de las réplicas lo hicieron.
¿Significa esto que sólo un tercio de los resultados de la psicología son «verdaderos»? No del todo. Normalmente se dice que un resultado es estadísticamente significativo si su valor p es inferior a 0,05; en pocas palabras, esto significa que si se vuelve a realizar el estudio, las probabilidades de obtener los mismos resultados (o mejores) serían inferiores a 1 entre 20. Esto crea un corte brusco en un umbral arbitrario (algunos dirían que sin sentido), en el que un experimento que roza el punto de referencia de 0,05 es de alguna manera mágicamente más «exitoso» que uno que simplemente no lo cumple.
Así que el equipo de Nosek fue más allá de la significación estadística. También tuvieron en cuenta el tamaño del efecto de los estudios. Estos miden la fuerza de un fenómeno; si tu experimento muestra que las luces rojas hacen enfadar a la gente, el tamaño del efecto te dice cuánto más se enfadan. Y de nuevo, los resultados fueron preocupantes. De media, los tamaños del efecto de las réplicas eran la mitad de los de los originales.
«La tasa de éxito es más baja de lo que habría pensado», dice John Ioannidis, de la Universidad de Stanford, cuyo clásico artículo teórico Por qué la mayoría de los resultados de investigación publicados son falsos ha sido un pararrayos para el movimiento de reproducibilidad. «Me siento mal al ver que algunas de mis predicciones se han validado. Me gustaría que se hubiera demostrado que estaban equivocadas».
Nosek, un autodenominado «optimista congénito», está menos molesto. Los resultados no son geniales, pero los toma como una señal de que los psicólogos están liderando el camino para abordar estos problemas. «Ha sido una experiencia fantástica, toda esta energía común en torno a un objetivo muy concreto», dice. «Todos los colaboradores aportaron su tiempo al proyecto sabiendo que no obtendrían ningún crédito por ser el autor número 253».