Las imágenes generadas por IA están infiltrando las revistas científicas, y la carrera armamentista de detección ya está perdiendo terreno

En abril de 2026, el New England Journal of Medicine, una de las revistas médicas más prestigiosas del mundo, retractó un estudio de caso. El artículo, en la sección «Imágenes en Medicina Clínica» de la revista, describía a un hombre de 87 años que expulsó moldes bronquiales después de exponerse a un incendio forestal. La imagen mostraba moldes negros y ramificados de las vías respiratorias junto a una cinta métrica.

El problema era la cinta métrica. Un comentarista anónimo en PubPeer notó que las marcas de la regla entre los 30 y 40 centímetros decían «1, 3, ?, 4, ?», un artefacto clásico generado por IA. Los autores admitieron haber usado IA para mover la regla a la parte superior de la imagen, diciendo que no estaban al tanto de las políticas de la revista sobre manipulación de imágenes.

Fue la primera retractación para el NEJM desde el escándalo de Surgisphere en 2020.

El caso del NEJM es un síntoma de alto perfil de un problema mucho mayor, según Nan Li, profesor asociado de comunicación científica en la Universidad de Wisconsin-Madison. En un artículo para The Conversation, republicado por Live Science, Li sostiene que las imágenes generadas y manipuladas por IA están ingresando a la literatura revisada por pares en todos los campos, y que los sistemas diseñados para detectarlas ya se están quedando atrás.

Un problema con profundidad

Los casos más visibles son obvios, imágenes que serían risibles para un revisor humano. En 2024, Frontiers in Cell and Developmental Biology retractó un artículo que incluía lo que parecía ser una rata generada por Midjourney con genitales masivamente desproporcionados y etiquetas sin sentido como «iollotte sserotgomar cell» y «dck». Un revisor había marcado la imagen antes de la publicación; sus preocupaciones fueron anuladas.

Pero la mayoría de los casos son más sutiles. Un creciente cuerpo de evidencia muestra que las imágenes generadas y modificadas por IA están pasando por el proceso de revisión de maneras menos obvias. El problema abarca campos que van desde la ciencia de materiales hasta la medicina. Investigadores de la ETH Zúrich publicaron un artículo en arXiv titulado «The Unwinnable Arms Race of AI Image Detection» (arXiv:2509.21135), demostrando formalmente que a medida que mejora la capacidad del generador, la precisión de la detección sigue una curva en forma de U, volviéndose más fácil por un tiempo, y luego más difícil a medida que los dos sistemas convergen.

«Los sistemas diseñados para detectar imágenes falsas casi siempre se quedarán atrás de los sistemas diseñados para crearlas», escribe Li.

La brecha de detección

Los detectores de imágenes de IA más avanzados logran una precisión del 70 al 90 por ciento en generadores conocidos. En modelos de próxima generación, esa cifra cae al 50 al 60 por ciento, esencialmente aleatorio.

La brecha importa porque la detección es solo la mitad de la solución. Está surgiendo una respuesta más amplia en torno a la procedencia, metadatos firmados criptográficamente que viajan con una imagen desde su punto de creación. El estándar líder es C2PA (Coalición para la Procedencia y Autenticidad del Contenido), respaldado por Adobe, Microsoft, Google, OpenAI y fabricantes de cámaras como Leica, Nikon y Canon. OpenAI ahora adjuta tanto metadatos C2PA como la marca de agua invisible SynthID de Google a las imágenes generadas por ChatGPT.

Pero C2PA tiene una debilidad fundamental: eliminar los metadatos, mediante capturas de pantalla, re-subidas o conversión de formato, elimina la cadena de procedencia por completo. El estándar certifica que un archivo digital no ha sido manipulado, pero no puede certificar que la escena representada sea real.

Las editoriales responden

Las principales revistas han comenzado a actualizar sus políticas en respuesta. Springer Nature ha prohibido las imágenes generativas de IA en las publicaciones, excepto por excepciones limitadas, y requiere la divulgación de cualquier uso de IA en el manuscrito. La política actualizada de Elsevier, publicada en junio de 2026, prohíbe que la IA cree o altere imágenes de investigación primaria, incluyendo microscopía, histología, Western blots y escaneos de radiología, y requiere una divulgación detallada de cualquier herramienta de IA utilizada.

La familia de revistas Science, bajo el editor en jefe Holden Thorp, ha adoptado la postura más agresiva, clasificando las violaciones de IA como mala conducta científica. En un editorial de enero de 2026 titulado «Resistiendo la porquería de IA», Thorp escribió que los revisores no deben subir manuscritos a herramientas de IA, y que cualquier uso de IA debe divulgarse en la carta de presentación, la sección de Métodos y los Agradecimientos.

arXiv, el repositorio de prepublicaciones, anunció en mayo de 2026 que impondría prohibiciones de un año a los autores que presenten artículos con «evidencia incontrovertible» de generación de IA no controlada, como referencias alucinadas o metacomentarios de LLM dejados en su lugar.

La escala del problema

Las cifras son aleccionadoras. Aproximadamente uno de cada ocho artículos biomédicos contiene ahora texto generado por IA, según un estudio preliminar de enero de 2026. Una encuesta de 6.957 envíos a la revista Organization Science encontró un aumento del 42 por ciento desde el lanzamiento de ChatGPT, con más del 50 por ciento de los manuscritos mostrando participación de IA para principios de 2026.

Los NIST GenAI Challenges, un programa de evaluación formal, hace que los equipos compitan como generadores, prompters y discriminadores, reflejando la dinámica de la carrera armamentista. El marco AI 100-4 del NIST, publicado en abril de 2024, cubre marcas de agua digitales, procedencia de metadatos y detección de contenido sintético, pero la agencia reconoce que el campo avanza más rápido de lo que los estándares pueden desarrollarse.

Lo que significa la crisis

La infiltración de imágenes generadas por IA amenaza algo fundamental sobre la publicación científica: la suposición de que las imágenes publicadas son representaciones honestas de lo que se observó. Sin esa suposición, las revistas deben examinar las imágenes de la misma manera que examinan el texto, una tarea masiva para la que la mayoría de las editoriales no están preparadas.

«Sin estándares», escribe Li, «la ciencia corre el riesgo de entrar en un mundo donde cada imagen puede ser cuestionada y ninguna imagen tiene credibilidad inherente».

La cuestión no es si las imágenes generadas por IA seguirán ingresando a la literatura científica. Esa guerra ya está perdida. La cuestión es si la comunidad científica puede construir un sistema que permita distinguir entre una imagen real y una generada, antes de que la distinción misma se vuelva imposible.

Fuente: Live Science y The Conversation, por Nan Li (Universidad de Wisconsin-Madison). Reportajes adicionales de Retraction Watch, Nature Communications y arXiv.

Traducido por Alessandra