
芝加哥大学经济学家约翰·A·李斯特在《自然》杂志发表评论指出,过去十年来撼动心理学、经济学和生物医学的可重复性危机,可能只是一个更深层问题的表象。真正的问题不在于研究结果能否在实验室中复现,而在于它们能否推广到人们实际生活的环境中。
李斯特同时担任沃尔玛首席经济学家以及芝加哥大学和澳大利亚国立大学教授。他主张行为科学和社会科学应当果断转向自然实地实验,在这种研究中,参与者在不知情的情况下进行日常活动,而研究人员以受控方式改变其环境的某些特征。
李斯特写道:”在我看来,解决这个问题的一个方法是使用更多的自然实地实验。假设遵循严格的伦理规则,通过在自然环境中研究人们,研究人员可以更有信心地认为他们的发现与该群体相关。”
三阶段可推广性问题
李斯特确定了研究与现实世界之间联系断裂的三个不同节点。
首先是人群选择:临床试验历来以中年白人男性为对象,其结果随后被应用于女性和其他人口群体。研究人员心目中的研究目标人群,往往与实际最终接受干预或政策的人群不同。
其次是参与者选择,一种更微妙但普遍存在的偏差。实验室研究需要知情同意,同意需要知晓,而自愿参加行为实验的人并不能代表一般人群。某个周二下午来参加一项20美元心理学实验的人,通常拥有灵活的时间安排且对学术环境感到舒适,这些特质与其他一系列特征相关。
第三是情境选择:实验环境本身创造了人为背景。观察带来的审视感、不熟悉的利害关系、大学实验室的社会暗示,所有这些都与超市过道、校园操场或证券交易所大厅的复杂现实截然不同。
李斯特用自己2006年对交易卡经销商的研究来说明这一点。他写道:”当经销商知道自己被监视时,他们提供的卡片质量高于买家当场能够验证的水平,这是一种与任何重复交易前景无关的昂贵的互惠行为。相比之下,在市场交易大厅,互惠是策略性的:只有在声誉和重复交易使其经济上合理时,才会表现出慷慨。”
他认为,从淡化决策正常后果的环境中进行推广,会导致错误的推论和有缺陷的政策。
推广失败的经典案例
该评论重新审视了几个知名案例,有前景的小规模结果在扩大规模后崩塌。”恐吓疗法”项目在1970年代和1980年代将高危青少年带入最高安全级别的监狱。早期试点报告称80%到90%的参与者没有惹上麻烦。但当该项目被扩大规模并在受控试验中进行研究时,它失败了,在一些地方,参与者的犯罪行为实际上有所增加。
在肯尼亚大幅减少缺勤率的学校驱虫项目在其他国家显示出混合或较弱的效果。在布基纳法索提高了出勤率的学校餐饮项目在其他地方影响有限。
李斯特认为,这些失败并不证明早期研究是错误的。它们证明人类行为依赖于情境,而传统的实验室和调查研究,绝大多数依赖于心理学家所称的WEIRD人群(西方、受教育、工业化、富裕、民主),系统性地高估了其发现的可移植性。
自然实地实验作为方法论解决方案
自然实地实验绕过了这些问题中最严重的一部分。由于参与者不知道自己正在被研究,实验中不存在自我选择偏差。由于环境是真实场景,购物、捐赠、工作、通勤,不存在扭曲行为的人为背景。
它们并不能自动解决人群选择问题(研究人员仍然选择研究哪个人群),但它们能将人群差异与实验人为产物清晰地分离开来。
李斯特写道,三个发展使自然实地实验现在比过去更加可行。可重复性危机创造了制度层面对更严谨方法的需求。技术行业每天运行数万次此类实验,并建立了学术界可以借鉴的基础设施。而越来越多的关于可推广性的形式理论,包括李斯特本人2024年提出的框架,为预测研究结果何时能在不同情境间转移、何时不能提供了工具。
在沃尔玛,李斯特的团队正在与6000多家供应商开展自然实地实验,测试哪些激励措施能最有效地减少碳排放。其规模远超大学实验室所能达到的水平。
伦理界限
自然实地实验提出了受控实验室研究所没有的伦理问题。李斯特直接引用《贝尔蒙特报告》框架加以解决:参与者不得承受超过最低限度的风险,且只能经历他们通常会遇到的情况。不完全披露只有在为实现研究目标所必需、没有或只有极小的未披露风险、并配合适当的汇报计划时才被允许。
这篇评论本身就是科学社会学中的一次实验。它出现在世界最权威的学术期刊之一上,认为方法论改革,而不仅仅是可重复性,才是优先事项。李斯特的论点能否超越经济学和行为科学,推广到可重复性危机冲击最严重的学科领域,或许取决于研究人员是否愿意离开自己实验室的受控环境,跟随他们的研究对象进入实地。
来源
List, J.A. “Make science more reliable: study people as they go about their lives.” Nature 654, 863–866 (2026). DOI: 10.1038/d41586-026-01957-z.
婷 翻译

