
« Si vous créez un ensemble de données et que personne ne peut le trouver, est-il utile ? » demande un nouveau reportage de Nature publié le 1er juillet. « Pas autant qu’il ne le pourrait. » La question est rhétorique, mais les enjeux ne le sont pas : alors que la confiance dans la science subit une pression soutenue de la part d’acteurs partisans et de la désinformation virale, l’accessibilité et la transparence de l’information scientifique sont devenues une question d’urgence institutionnelle.
L’article examine l’état des principes FAIR une décennie après leur première rédaction. FAIR, Findable, Accessible, Interoperable, Reusable (trouvable, accessible, interopérable, réutilisable), est un cadre conçu pour garantir que les données de recherche peuvent être localisées, ouvertes, combinées avec d’autres ensembles de données et utilisées par d’autres bien après la publication de l’étude originale. Les principes ont été officiellement publiés dans Scientific Data en 2016 par Wilkinson et plus de 40 co-auteurs sous l’égide de FORCE11, et l’article a depuis accumulé environ 16 000 citations.
Barend Mons, le biologiste moléculaire néerlandais qui a conçu le cadre FAIR, a déclaré à Nature que son objectif principal est la responsabilisation. « Plus les données sont compréhensibles par des personnes autres que les créateurs, plus nous sommes capables de déterminer non seulement la fiabilité de l’ensemble de données lui-même, mais aussi celle de ses soi-disant créateurs. »
Ce que FAIR exige réellement
Un ensemble de données FAIR idéal, tel que décrit dans l’article, est correctement documenté avec des métadonnées détaillées, quand, où et comment les données ont été créées. Il est conçu avant le début de la collecte des données, avec des plans de gestion des données qui précisent les licences appropriées et les identifiants persistants. Il est structuré de sorte que les ordinateurs comme les humains puissent le trouver et l’intégrer à d’autres ensembles de données.
Les principes sont délibérément généraux. Comme l’a noté Mons, FAIR « ne peut pas aborder les spécificités de chaque application ». D’autres chercheurs ont depuis étendu le cadre pour couvrir les algorithmes, les logiciels de recherche et les projets open source à travers des initiatives telles que FAIR4RS et FAIR-USE4OS.
FAIR en pratique
L’article met en lumière plusieurs implémentations spécifiques à des disciplines. En physique des hautes énergies, le projet FAIR4HEP a évalué les données du Grand collisionneur de hadrons pour la conformité FAIR. L’Université Carnegie Mellon a publié des guides FAIR dédiés pour la chimie, les mathématiques, les neurosciences et la psychologie. La British Ecological Society a publié un guide de code reproductible ancré dans les principes FAIR. En intelligence artificielle, la plateforme HuggingFace promeut des « fiches modèles » qui documentent l’utilisation prévue, les mesures de performance, les données d’entraînement et les limitations.
« À bien des égards, c’est comme la cuisine, » a déclaré Amelia Jimenez-Sanchez, chercheuse en intégrité des données à l’Université de Barcelone. « Une fois que vous avez les bons ingrédients, ou que vous vous familiarisez avec les pratiques FAIR, il devient plus facile de préparer un repas. Finalement, cela devient simplement une partie de la façon dont vous travaillez. »
Natalie Cooper, macroécologiste au Muséum d’histoire naturelle de Londres, a souligné que les données seules ne suffisent pas. « Les données sont des données, mais il y a aussi tout le système d’infrastructure qui est construit autour d’elles pour stocker, partager et analyser ces informations, et ces outils doivent aussi être FAIR et reproductibles. »
Neil Chue Hong du Software Sustainability Institute de l’Université d’Édimbourg a ajouté : « Il est désormais très difficile d’analyser ou de visualiser des données sans logiciel, et en même temps, il est très difficile pour un logiciel d’exister sans données de haute qualité. »
Dynamique politique
Les gouvernements, les agences de financement et les éditeurs ont de plus en plus fait du partage de données conforme aux principes FAIR une exigence. L’Australian Research Data Commons propose un outil d’auto-évaluation FAIR qui fournit des conseils pratiques pour améliorer la conformité FAIR. Des ressources FAIR spécifiques à certaines disciplines existent désormais pour l’astronomie, la science des matériaux, la génétique et la génomique unicellulaire.
L’article paraît aux côtés d’un article complémentaire dans Nature demandant si la confiance dans la science a réellement diminué, et la réponse, basée sur des données d’enquête, est plus complexe que ne le suggère un récit simple. Mais le cadre FAIR se positionne comme une réponse structurelle : non pas une campagne pour persuader les sceptiques, mais une infrastructure technique qui rend la science vérifiable par conception.
À 10 ans, le concept a dépassé de loin ses origines en bioinformatique. Sa capacité à répondre à l’ambition de ses fondateurs d’intégrer la reproductibilité dans l’ADN de la pratique scientifique dépendra, en fin de compte, de la volonté des chercheurs de tous les domaines d’apprendre la recette.
Traduit par Lydie

