Hacer la ciencia más confiable: estudiar a las personas donde realmente viven, argumenta un editorial de Nature

La crisis de replicación que ha sacudido a la psicología, la economía y la biomedicina durante la última década podría ser un síntoma de un problema más profundo, argumenta un nuevo comentario en Nature del economista de la Universidad de Chicago John A. List. El verdadero problema no es si los hallazgos se replican en el laboratorio, sino si se generalizan a los entornos donde las personas realmente viven.

List, quien se desempeña como economista jefe de Walmart mientras ocupa cátedras en la Universidad de Chicago y la Universidad Nacional Australiana, sostiene que las ciencias del comportamiento y las ciencias sociales deberían girar decididamente hacia los experimentos naturales de campo: estudios en los que los participantes continúan con su vida cotidiana sin saber que están siendo observados, mientras los investigadores varían alguna característica de su entorno de manera controlada.

«En mi opinión, una solución al problema es utilizar un mayor número de experimentos naturales de campo», escribe List. «Al estudiar a las personas en su entorno natural, asumiendo que se siguen reglas éticas estrictas, los investigadores pueden estar más seguros de que sus hallazgos serán relevantes para ese grupo».

El problema de generalizabilidad en tres etapas

List identifica tres puntos distintos en los que se rompe el vínculo entre un estudio y el mundo real.

El primero es la selección de la población: los ensayos clínicos históricamente se realizaron en hombres blancos de mediana edad, y sus resultados se aplicaron luego a mujeres y otros grupos demográficos. La población objetivo de un estudio, el grupo que los investigadores tienen en mente, a menudo difiere de la población que finalmente recibe la intervención o política.

El segundo es la selección de participantes, una distorsión más sutil pero generalizada. Los estudios de laboratorio requieren consentimiento, el consentimiento requiere conciencia, y las personas que se ofrecen como voluntarias para experimentos de comportamiento no son representativas de la población general. Alguien que se presenta a un experimento de psicología de 20 dólares un martes por la tarde tiene un horario flexible y se siente cómodo en un entorno académico, cualidades que se correlacionan con una variedad de otras características.

El tercero es la selección de la situación: el entorno experimental mismo crea un contexto artificial. El escrutinio de la observación, los intereses desconocidos, las señales sociales de un laboratorio universitario, todo esto difiere de la realidad desordenada de un pasillo de supermercado, un patio de escuela o el piso de una bolsa de valores.

List ilustra su punto con su propio estudio de 2006 sobre comerciantes de tarjetas coleccionables. «Cuando los comerciantes sabían que estaban siendo observados, ofrecían tarjetas de mayor calidad de lo que los compradores podían verificar en el momento, un acto costoso de reciprocidad no relacionado con ninguna perspectiva de negocio repetido», escribe. «En el piso de mercado, por el contrario, la reciprocidad era estratégica: la generosidad se extendía solo cuando la reputación y el negocio repetido la hacían económicamente racional».

Generalizar a partir de un entorno que amortigua las consecuencias normales de las decisiones, argumenta, conduce a inferencias erróneas y políticas deficientes.

Ejemplos clásicos de fracaso de generalización

El comentario revisita varios casos conocidos donde resultados prometedores a pequeña escala colapsaron al ampliarse. El programa «Scared Straight» llevaba a adolescentes en riesgo a prisiones de máxima seguridad en las décadas de 1970 y 1980. Los primeros pilotos reportaron que entre el 80 y el 90 por ciento de los participantes se mantenían fuera de problemas. Pero cuando el programa se amplió y se estudió en ensayos controlados, fracasó, y en algunos lugares, la conducta delictiva entre los participantes realmente aumentó.

Los programas de desparasitación escolar que redujeron sustancialmente el ausentismo en Kenia mostraron efectos mixtos o más débiles en otros países. Los programas de comidas escolares que aumentaron la asistencia en Burkina Faso tuvieron impactos limitados en otros lugares.

Estos fracasos, argumenta List, no son evidencia de que los primeros estudios estuvieran equivocados. Son evidencia de que el comportamiento humano depende del contexto, y que la investigación convencional de laboratorio y encuestas, que se basa abrumadoramente en lo que los psicólogos llaman poblaciones WEIRD (Occidentales, Educadas, Industrializadas, Ricas, Democráticas), sobreestima sistemáticamente la portabilidad de sus hallazgos.

Experimentos naturales de campo como solución metodológica

Los experimentos naturales de campo evitan los peores de estos problemas. Debido a que los participantes no saben que están siendo estudiados, no hay autoselección en el experimento. Debido a que el entorno es el ambiente real (compras, donaciones, trabajo, desplazamientos), no hay contexto artificial que distorsione el comportamiento.

No resuelven automáticamente el problema de selección de población (el investigador aún elige qué población estudiar), pero separan claramente las diferencias poblacionales de los artefactos experimentales.

Tres desarrollos, escribe List, hacen que los experimentos naturales de campo sean más viables ahora que en el pasado. La crisis de replicación ha creado una demanda institucional de métodos más rigurosos. El sector tecnológico ejecuta decenas de miles de estos experimentos diariamente y ha construido infraestructura que los académicos pueden aprovechar. Y un creciente cuerpo de teoría formal sobre generalizabilidad, incluido el propio marco de List de 2024, proporciona herramientas para predecir cuándo los resultados se transferirán entre entornos y cuándo no.

En Walmart, el equipo de List está realizando experimentos naturales de campo con más de 6.000 proveedores, probando qué incentivos reducen más efectivamente las emisiones de carbono. La escala supera con creces lo que un laboratorio universitario podría lograr.

Límites éticos

Los experimentos naturales de campo plantean preguntas éticas que los estudios controlados de laboratorio no plantean. List las aborda directamente, citando el marco del Informe Belmont: los participantes no deben estar expuestos a más que un riesgo mínimo, y solo a experiencias que encontrarían normalmente. La divulgación incompleta se justifica solo cuando es necesaria para lograr los objetivos de la investigación, no conlleva riesgos no divulgados o estos son mínimos, y se combina con un plan de información posterior adecuado.

El comentario es en sí mismo un experimento en sociología de la ciencia. Aparece en una de las revistas más prestigiosas del mundo, defendiendo que la reforma metodológica, no solo la replicación, debería ser la prioridad. Si el argumento de List se generalizará más allá de la economía y las ciencias del comportamiento hacia las disciplinas donde la crisis de replicación ha golpeado más fuerte puede depender de si los investigadores están dispuestos a dejar las condiciones controladas de sus propios laboratorios y seguir a sus sujetos al campo.

Fuente

List, J.A. «Make science more reliable: study people as they go about their lives.» Nature 654, 863–866 (2026). DOI: 10.1038/d41586-026-01957-z.

Traducido por Alessandra