Los psicólogos se encuentran en medio de un difícil ajuste de cuentas. Muchos creen que su campo está experimentando una «crisis de reproducibilidad», porque han intentado y no han conseguido repetir los experimentos realizados por sus colegas. Incluso los resultados clásicos -que aparecen en los libros de texto y en las charlas TED- han resultado sorprendentemente difíciles de reproducir, tal vez porque son el resultado de métodos deficientes y de payasadas estadísticas. Estos problemas han dado lugar a una comunidad de investigadores dedicados a mejorar las prácticas de su campo y a forjar una forma más fiable de hacer ciencia.
Estos intentos de reforma han encontrado resistencia. Los críticos han argumentado que la llamada crisis no es nada de eso, y que los investigadores que no han podido repetir los experimentos anteriores eran incompetentes, tenían prejuicios o actuaban de mala fe.
Pero si esas críticas son correctas, ¿por qué los científicos parecen ser notablemente buenos en la predicción de qué estudios en psicología y otras ciencias sociales se replicarán y cuáles no?
Consideremos los nuevos resultados del Proyecto de Replicación de Ciencias Sociales, en el que 24 investigadores intentaron replicar estudios de ciencias sociales publicados entre 2010 y 2015 en Nature y Science, las dos principales revistas científicas del mundo. Los replicadores realizaron versiones mucho más grandes de los estudios originales, reclutando alrededor de cinco veces más voluntarios que antes. Hicieron todo el trabajo de forma abierta y pasaron sus planes por encima de los equipos detrás de los experimentos originales. Al final, sólo pudieron reproducir los resultados de 13 de los 21 estudios, el 62%.
Resulta que este hallazgo era totalmente predecible. Mientras el equipo del SSRP realizaba las repeticiones de los experimentos, también puso en marcha un «mercado de predicciones», una bolsa de valores en la que los voluntarios podían comprar o vender «acciones» de los 21 estudios, en función de lo reproducibles que parecieran. Reclutaron a 206 voluntarios, una mezcla de psicólogos y economistas, estudiantes y profesores, ninguno de los cuales participó en el SSRP. Cada uno de ellos comenzó con 100 dólares y podía ganar más apostando correctamente por los estudios que finalmente dieran resultado.
Al principio del mercado, las acciones de cada estudio costaban 0,50 dólares cada una. A medida que la negociación continuaba, esos precios subían y bajaban en función de las actividades de los operadores. Y al cabo de dos semanas, el precio final reflejaba la opinión colectiva de los operadores sobre las probabilidades de que cada estudio se replicara con éxito. Así, por ejemplo, un precio de 0,87 dólares significaba que un estudio tenía un 87% de posibilidades de reproducirse. En general, los operadores pensaron que los estudios en el mercado se replicarían el 63% de las veces, una cifra que se acercaba misteriosamente a la tasa de éxito real del 62%.
El instinto de los operadores también fue infalible en lo que respecta a los estudios individuales. Observe el siguiente gráfico. El mercado asignó mayores probabilidades de éxito a los trece estudios que se replicaron con éxito que a los ocho que no lo hicieron: compare los diamantes azules con los amarillos.
«Es una gran noticia», dice Anna Dreber, de la Escuela de Economía de Estocolmo, que tuvo la idea de utilizar los mercados de predicción para estudiar la reproducibilidad en 2015. «Sugiere que la gente más o menos ya sabe qué resultados se replicarán».
«Si los investigadores pueden anticipar qué hallazgos se replicarán o no, resulta más difícil sostener afirmaciones despectivas sobre las réplicas o los replicadores», añade Brian Nosek, del Center of Open Science, que formó parte del SSRP.
¿Qué pistas buscaban los operadores? Algunos dijeron que tenían en cuenta el tamaño de la muestra de un estudio: Los estudios pequeños tienen más probabilidades de producir falsos positivos que los grandes. Algunos se fijaron en una métrica estadística común llamada valor P. Si un resultado tiene un valor P inferior a 0,05, se dice que es estadísticamente significativo o positivo. Y si un estudio contiene muchos valores P que apenas rozan este umbral, es una posible señal de que los autores cometieron «p-hacking», es decir, que jugaron con su experimento o sus datos hasta obtener resultados «positivos» pero potencialmente engañosos. Este tipo de señales pueden ser ambiguas, y «los científicos suelen ser reacios a hacer afirmaciones de p-hacking cuando las ven», dice Sanjay Srivastava, de la Universidad de Oregón. «Pero si se trata de hacer apuestas tranquilamente, esas son cosas que se mirarían».
Más allá de las cuestiones estadísticas, me parece que varios de los estudios que no se replicaron tienen otra cualidad en común: el interés periodístico. Presentaron resultados bonitos, que llaman la atención y que se ajustan a los prejuicios de al menos algunas partes de la sociedad. Uno de ellos demostró que la lectura de ficción literaria mejora nuestra capacidad de entender las creencias y deseos de otras personas. Otro decía que pensar de forma analítica debilita la creencia en la religión. Otro decía que las personas que piensan en los ordenadores son peores para recordar información antigua, un fenómeno que los autores denominaron «el efecto Google». Todos ellos recibieron una amplia cobertura en los medios de comunicación.
Cuando Nosek lee este tipo de estudios, se pregunta si le importaría en absoluto que los resultados fueran negativos. En muchos casos, la respuesta sería negativa. Algunos de los operadores se basaron en juicios similares. «Hice una prueba de olfato para ver si los resultados tenían realmente sentido», dice Paul Smeets, de la Universidad de Maastricht. «Algunos resultados parecen bastante espectaculares, pero también parecen demasiado buenos para ser verdad, lo que suele significar que lo son».
Los mercados de predicción podrían ayudar a los científicos sociales a decidir en qué estudios clásicos centrarse para replicarlos, dada la limitación de tiempo o recursos. Podrían indicar a los investigadores o a las agencias de financiación si pueden perder tiempo y dinero basándose en trabajos que otros consideran poco fiables. Pero todo depende de quién participe en los mercados.
Dreber sospecha que los 206 operadores probablemente estaban implicados en el debate sobre la reproducibilidad y han dedicado más tiempo a considerar estas cuestiones que la mayoría. Tal vez fueran especialmente buenos a la hora de discernir los estudios poco fiables de los fiables. «No tengo claro que si hubiéramos dirigido los mercados hace 10 años, la gente hubiera sido tan buena», dice Dreber.
Alison Ledgerwood, de la Universidad de California en Davis, está de acuerdo. A raíz de la crisis de las réplicas, en lugar de pensar automáticamente que cualquier hallazgo publicado o estadísticamente significativo es cierto, «los investigadores se fijan más en los distintos aspectos de un estudio», dice. «Si eso es lo que ocurre, es una gran noticia. Cuando sale un nuevo estudio, tenemos que pensar en él como un ladrillo de una estructura más grande que estamos tratando de construir, y también tenemos que evaluar lo fuerte que es cada ladrillo antes de poner mucho peso en él.»