FAIR数据原则如何重建科学信任

“如果你创建了一个数据集却没有人能找到它，它有用吗？”7月1日发表的一篇新的Nature新闻特写这样问道。”没有它本可以达到的那么有用。”这个问题是反问性的，但其利害关系却是真实存在的：在科学信任持续受到党派行为者和病毒式错误信息压力的情况下，科学信息的可获取性和透明度已成为一项制度性紧迫问题。

本文考察了FAIR数据原则首次起草十年后的现状。FAIR,,Findable（可发现）、Accessible（可访问）、Interoperable（可互操作）、Reusable（可复用）,,是一个框架，旨在确保研究数据能够被定位、打开、与其他数据集结合，并在原始研究发表后长期被他人使用。这些原则于2016年由Wilkinson及40多位合著者在FORCE11的框架下正式发表于Scientific Data，该论文至今已累积约16,000次引用。

构想FAIR框架的荷兰分子生物学家Barend Mons告诉Nature，其核心目的是问责。”数据越能被创建者以外的人理解，我们就越能不仅判断数据集本身的可信度，也能判断其所谓创建者的可信度。”

FAIR究竟要求什么

正如文章所述，一个理想的FAIR数据集应有详细元数据的适当文档记录,,数据创建的时间、地点和方式。它在数据收集开始前就已设计好，并制定了指定适当许可和持久标识符的数据管理计划。它的结构使计算机和人类都能找到它并与其他数据集集成。

这些原则有意保持通用性。正如Mons指出的，FAIR”无法解决每个应用的具体问题”。其他研究人员后来通过FAIR4RS和FAIR-USE4OS等倡议，将该框架扩展到算法、研究软件和开源项目。

FAIR实践

本文重点介绍了几个学科特定的实施案例。在高能物理领域，FAIR4HEP项目评估了大型强子对撞机数据的FAIR合规性。卡内基梅隆大学发布了针对化学、数学、神经科学和心理学的专用FAIR指南。英国生态学会出版了基于FAIR原则的可重复代码指南。在人工智能领域，HuggingFace平台推广”模型卡”，记录预期用途、性能指标、训练数据和局限性。

“从很多方面来说，这就像烹饪，”巴塞罗那大学数据完整性研究员Amelia Jimenez-Sanchez说。”一旦你有了合适的食材,,或者说熟悉了FAIR实践,,做饭就变得容易多了。最终，它只是你工作方式的一部分。”

伦敦自然历史博物馆的宏观生态学家Natalie Cooper强调，仅有数据是不够的。”数据就是数据，但还有围绕数据构建的整个基础设施系统来存储、共享和分析这些信息，这些工具也需要是FAIR和可重复的。”

爱丁堡大学软件可持续发展研究所的Neil Chue Hong补充道：”现在，没有软件就很难分析或可视化数据，同时，没有高质量的数据，软件也很难存在。”

政策动力

政府、资助机构和出版商日益将符合FAIR原则的数据共享作为一项要求。澳大利亚研究数据共享中心提供FAIR数据自我评估工具，为改善FAIR合规性提供实用指导。目前，天文学、材料科学、遗传学和单细胞基因组学等领域已有专门的FAIR资源。

本文与Nature上的一篇姊妹篇同时发表，探讨科学信任是否真的在下降,,基于调查数据的答案比简单叙述所暗示的要复杂得多。但FAIR框架将自己定位为一种结构性回应：不是说服怀疑者的运动，而是一种使科学在设计上就具有可验证性的技术基础设施。

诞生十年后，这一概念已远远超越了其在生物信息学领域的起源。它能否实现其创始人将可重复性嵌入科学实践DNA的雄心，最终将取决于各领域的研究人员是否愿意学习这一配方。

婷翻译