Les images générées par IA infiltrent les revues scientifiques, et la course à la détection est déjà en train de perdre du terrain

En avril 2026, le New England Journal of Medicine, l’un des journaux médicaux les plus prestigieux au monde, a rétracté une étude de cas. L’article, dans la rubrique « Images in Clinical Medicine », décrivait un homme de 87 ans qui avait craché des moulages bronchiques après une exposition à un incendie de forêt. L’image montrait des moulages noirs et ramifiés des voies respiratoires à côté d’un ruban à mesurer.

Le problème, c’était le ruban à mesurer. Un commentateur anonyme sur PubPeer a remarqué que les marques de la règle entre les 30 et 40 centimètres indiquaient « 1, 3, ?, 4, ? », un artefact classique généré par IA. Les auteurs ont admis avoir utilisé l’IA pour déplacer la règle en haut de l’image, affirmant ne pas avoir eu connaissance des politiques du journal en matière de manipulation d’images.

Il s’agissait de la première rétractation pour le NEJM depuis le scandale Surgisphere de 2020.

Le cas du NEJM est un symptôme très médiatique d’un problème bien plus vaste, selon Nan Li, professeur associé en communication scientifique à l’Université du Wisconsin-Madison. Dans un article pour The Conversation, republié par Live Science, Li soutient que les images générées et manipulées par IA entrent dans la littérature évaluée par les pairs dans tous les domaines, et que les systèmes conçus pour les détecter sont déjà à la traîne.

Un problème de profondeur

Les cas les plus visibles sont évidents, des images qui feraient rire un évaluateur humain. En 2024, Frontiers in Cell and Developmental Biology a rétracté un article qui contenait ce qui ressemblait à un rat généré par Midjourney avec des organes génitaux démesurément disproportionnés et des étiquettes absurdes comme « iollotte sserotgomar cell » et « dck ». Un évaluateur avait signalé l’image avant la publication ; ses préoccupations ont été ignorées.

Mais la plupart des cas sont plus subtils. Un nombre croissant de preuves montre que des images générées et modifiées par IA passent à travers le processus d’évaluation de manière moins évidente. Le problème touche des domaines allant de la science des matériaux à la médecine. Des chercheurs de l’ETH Zurich ont publié un article sur arXiv intitulé « The Unwinnable Arms Race of AI Image Detection » (arXiv:2509.21135), démontrant formellement qu’à mesure que les capacités des générateurs s’améliorent, la précision de la détection suit une courbe en U, devenant plus facile pendant un temps, puis plus difficile à mesure que les deux systèmes convergent.

« Les systèmes conçus pour détecter les fausses images seront presque toujours en retard par rapport aux systèmes conçus pour les créer », écrit Li.

Le fossé de la détection

Les détecteurs d’images IA les plus performants atteignent une précision de 70 à 90 % sur les générateurs connus. Sur les modèles de nouvelle génération, ce chiffre tombe à 50 à 60 %, soit essentiellement aléatoire.

Ce fossé est important car la détection n’est qu’une moitié de la solution. Une réponse plus large émerge autour de la provenance, des métadonnées signées cryptographiquement qui accompagnent une image depuis son point de création. La norme leader est C2PA (Coalition for Content Provenance and Authenticity), soutenue par Adobe, Microsoft, Google, OpenAI et des fabricants d’appareils photo dont Leica, Nikon et Canon. OpenAI attache désormais à la fois les métadonnées C2PA et le filigrane invisible SynthID de Google aux images générées par ChatGPT.

Mais C2PA présente une faiblesse fondamentale : le retrait des métadonnées, par capture d’écran, réimportation ou conversion de format, supprime entièrement la chaîne de provenance. La norme certifie qu’un fichier numérique n’a pas été falsifié, mais ne peut pas certifier que la scène représentée est réelle.

Les éditeurs réagissent

Les grandes revues ont commencé à mettre à jour leurs politiques en réponse. Springer Nature a interdit les images générées par IA dans les publications, à quelques exceptions près, et exige la divulgation de toute utilisation de l’IA dans le manuscrit. La politique mise à jour d’Elsevier, publiée en juin 2026, interdit à l’IA de créer ou modifier des images de recherche primaires, y compris la microscopie, l’histologie, les Western blots et les scanners radiologiques, et exige une divulgation détaillée de tout outil d’IA utilisé.

La famille de revues Science, sous la direction du rédacteur en chef Holden Thorp, a adopté la position la plus agressive, classant les violations liées à l’IA comme une inconduite scientifique. Dans un éditorial de janvier 2026 intitulé « Resisting AI slop », Thorp a écrit que les évaluateurs ne doivent pas télécharger les manuscrits vers des outils d’IA, et que toute utilisation de l’IA doit être divulguée dans la lettre de motivation, la section Méthodes et les Remerciements.

arXiv, le référentiel de prépublications, a annoncé en mai 2026 qu’il imposerait des interdictions d’un an aux auteurs qui soumettent des articles avec des « preuves irréfutables » de génération non contrôlée par IA, comme des références hallucinées ou des méta-commentaires de LLM laissés en place.

L’ampleur du problème

Les chiffres sont édifiants. Environ un article biomédical sur huit contient désormais du texte généré par IA, selon une étude en prépublication de janvier 2026. Une enquête portant sur 6 957 soumissions à la revue Organization Science a révélé une augmentation de 42 % depuis la sortie de ChatGPT, avec plus de 50 % des manuscrits montrant une implication de l’IA début 2026.

Les NIST GenAI Challenges, un programme d’évaluation formel, voient des équipes rivaliser en tant que générateurs, incitateurs et discriminateurs, reflétant la dynamique de la course aux armements. Le cadre AI 100-4 du NIST, publié en avril 2024, couvre le filigrane numérique, la provenance des métadonnées et la détection de contenu synthétique, mais l’agence reconnaît que le domaine évolue plus rapidement que les normes ne peuvent être développées.

Ce que signifie la crise

L’infiltration d’images générées par IA menace quelque chose de fondamental dans l’édition scientifique : l’hypothèse selon laquelle les images publiées sont des représentations honnêtes de ce qui a été observé. Sans cette hypothèse, les revues doivent filtrer les images comme elles filtrent le texte, une tâche immense pour laquelle la plupart des éditeurs ne sont pas équipés.

« Sans normes, écrit Li, la science risque d’entrer dans un monde où chaque image peut être remise en question et où aucune image ne porte de crédibilité inhérente. »

La question n’est pas de savoir si les images générées par IA continueront d’entrer dans la littérature scientifique. Cette guerre est déjà perdue. La question est de savoir si la communauté scientifique peut construire un système qui permette de faire la différence entre une image réelle et une image générée, avant que la distinction elle-même ne devienne impossible.

Source : Live Science et The Conversation, par Nan Li (Université du Wisconsin-Madison). Reportages supplémentaires de Retraction Watch, Nature Communications et arXiv.

Traduit par Lydie