Rendre la science plus fiable : étudier les gens là où ils vivent réellement, plaide un éditorial de Nature

La crise de la reproductibilité qui a ébranlé la psychologie, l’économie et la biomédecine au cours de la dernière décennie pourrait n’être que le symptôme d’un problème plus profond, argue un nouveau commentaire de Nature signé par l’économiste de l’Université de Chicago John A. List. Le véritable enjeu n’est pas de savoir si les résultats se reproduisent en laboratoire, mais s’ils se généralisent aux contextes dans lesquels les gens vivent réellement.

List, qui occupe le poste d’économiste en chef chez Walmart tout en étant professeur à l’Université de Chicago et à l’Université nationale australienne, défend l’idée que les sciences comportementales et sociales doivent s’orienter résolument vers les expériences naturelles de terrain : des études dans lesquelles les participants vaquent à leurs occupations quotidiennes sans savoir qu’ils sont observés, tandis que les chercheurs font varier de manière contrôlée certains aspects de leur environnement.

« À mon avis, une solution au problème consiste à recourir davantage aux expériences naturelles de terrain, écrit List. En étudiant les gens dans leur cadre naturel, à condition que des règles éthiques strictes soient respectées, les chercheurs peuvent être plus confiants que leurs résultats seront pertinents pour ce groupe. »

Le problème de généralisabilité en trois étapes

List identifie trois points distincts auxquels le lien entre une étude et le monde réel se brise.

Le premier est la sélection de la population : les essais cliniques ont historiquement été menés sur des hommes blancs d’âge moyen, et leurs résultats ont ensuite été appliqués aux femmes et à d’autres groupes démographiques. La population cible d’une étude, celle que les chercheurs ont en tête, diffère souvent de la population qui reçoit finalement l’intervention ou la politique.

Le deuxième est la sélection des participants, une distorsion plus subtile mais omniprésente. Les études en laboratoire nécessitent un consentement, le consentement nécessite une prise de conscience, et les personnes qui se portent volontaires pour des expériences comportementales ne sont pas représentatives de la population générale. Une personne qui se présente pour une expérience de psychologie rémunérée 20 $ un mardi après-midi a un emploi du temps flexible et est à l’aise dans un cadre universitaire, des qualités qui corrèlent avec toute une série d’autres caractéristiques.

Le troisième est la sélection de la situation : le cadre expérimental lui-même crée un contexte artificiel. La surveillance liée à l’observation, les enjeux inhabituels, les signaux sociaux d’un laboratoire universitaire, tout cela diffère de la réalité désordonnée d’une allée de supermarché, d’une cour d’école ou d’un parquet boursier.

List illustre son propos par sa propre étude de 2006 sur les marchands de cartes à collectionner. « Lorsque les marchands savaient qu’ils étaient observés, ils proposaient des cartes de qualité supérieure à ce que les acheteurs pouvaient vérifier sur place, un acte coûteux de réciprocité sans lien avec une perspective de clientèle régulière, écrit-il. Sur le marché, en revanche, la réciprocité était stratégique : la générosité n’était manifestée que lorsque la réputation et la clientèle régulière la rendaient économiquement rationnelle. »

Généraliser à partir d’un cadre qui atténue les conséquences normales des décisions, argue-t-il, conduit à des inférences erronées et à des politiques défaillantes.

Exemples classiques d’échec de la généralisation

Le commentaire revisite plusieurs cas bien connus où des résultats prometteurs à petite échelle se sont effondrés lors du passage à plus grande échelle. Le programme « Scared Straight » emmenait des adolescents à risque dans des prisons de haute sécurité dans les années 1970 et 1980. Les premiers projets pilotes rapportaient que 80 à 90 % des participants évitaient les ennuis. Mais lorsque le programme a été étendu et étudié dans le cadre d’essais contrôlés, il a échoué, et dans certains endroits, les comportements criminels chez les participants ont même augmenté.

Les programmes de déparasitage scolaire qui réduisaient considérablement l’absentéisme au Kenya ont montré des effets mitigés ou plus faibles dans d’autres pays. Les programmes de repas scolaires qui augmentaient la présence au Burkina Faso ont eu des impacts limités ailleurs.

Ces échecs, soutient List, ne prouvent pas que les premières études étaient erronées. Ils prouvent que le comportement humain dépend du contexte et que la recherche conventionnelle en laboratoire et par sondage, qui s’appuie massivement sur ce que les psychologues appellent les populations WEIRD (Occidentales, Éduquées, Industrialisées, Riche, Démocratiques), surestime systématiquement la portabilité de ses résultats.

Les expériences naturelles de terrain comme solution méthodologique

Les expériences naturelles de terrain contournent les pires de ces problèmes. Comme les participants ne savent pas qu’ils sont étudiés, il n’y a pas d’auto-sélection dans l’expérience. Comme le cadre est l’environnement réel, faire ses achats, donner, travailler, se déplacer, il n’y a pas de contexte artificiel pour déformer le comportement.

Elles ne résolvent pas automatiquement le problème de la sélection de la population (le chercheur choisit encore quelle population étudier), mais elles séparent clairement les différences de population des artefacts expérimentaux.

Trois évolutions, écrit List, rendent les expériences naturelles de terrain plus viables aujourd’hui que par le passé. La crise de la reproductibilité a créé une demande institutionnelle de méthodes plus rigoureuses. Le secteur technologique mène des dizaines de milliers de ces expériences chaque jour et a construit une infrastructure que les universitaires peuvent emprunter. Et un corpus croissant de théorie formelle sur la généralisabilité, y compris le propre cadre de List datant de 2024, fournit des outils pour prédire quand les résultats se transféreront d’un contexte à l’autre et quand ils ne le feront pas.

Chez Walmart, l’équipe de List mène des expériences naturelles de terrain avec plus de 6 000 fournisseurs, testant quelles incitations réduisent le plus efficacement les émissions de carbone. L’échelle dépasse de loin ce qu’un laboratoire universitaire pourrait atteindre.

Limites éthiques

Les expériences naturelles de terrain soulèvent des questions éthiques que les études contrôlées en laboratoire ne posent pas. List les aborde directement, citant le cadre du Belmont Report : les participants ne doivent être exposés qu’à un risque minimal et uniquement à des expériences qu’ils rencontreraient normalement. La divulgation incomplète n’est justifiée que lorsqu’elle est nécessaire pour atteindre les objectifs de recherche, qu’elle ne comporte aucun risque non divulgué ou un risque minimal et qu’elle est accompagnée d’un plan de débriefing adéquat.

Le commentaire est lui-même une expérience en sociologie des sciences. Il paraît dans l’un des journaux les plus prestigieux du monde, plaidant pour que la réforme méthodologique, et pas seulement la reproductibilité, soit la priorité. La question de savoir si l’argument de List se généralisera au-delà de l’économie et des sciences comportementales vers les disciplines où la crise de la reproductibilité a frappé le plus durement dépendra peut-être de la volonté des chercheurs de quitter les conditions contrôlées de leurs propres laboratoires et de suivre leurs sujets sur le terrain.

Source

List, J.A. « Make science more reliable: study people as they go about their lives. » Nature 654, 863–866 (2026). DOI : 10.1038/d41586-026-01957-z.

Traduit par Lydie