El Dr. IA dice que tiene apnea del sueño: midiendo la precisión de la IA orientada al paciente en medicina del sueño

El Dr. IA dice que tiene apnea del sueño: midiendo la precisión de la IA orientada al paciente en medicina del sueño

Escribe “¿Tengo apnea del sueño?” en ChatGPT y recibe en segundos una respuesta detallada, segura y con tono médico. Se siente como obtener una segunda opinión sin esperar meses por un estudio del sueño. Pero, ¿es realmente correcta esa respuesta?

Un nuevo estudio publicado en el Journal of Clinical Sleep Medicine pone a prueba esta cuestión. La Dra. Christine H.J. Won de la Facultad de Medicina de la Universidad de Yale y del Sistema de Salud VA Connecticut evaluó con qué precisión las herramientas de inteligencia artificial orientadas al paciente (los grandes modelos de lenguaje que alimentan chatbots como ChatGPT, Gemini y Claude) responden a preguntas reales sobre detección, diagnóstico y tratamiento de la apnea del sueño. Los hallazgos son un control aleccionador sobre el hype que rodea a la IA en medicina.

Lo que encontraron

La Dra. Won diseñó una evaluación sistemática de las respuestas generadas por IA a preguntas comunes de pacientes sobre la apnea obstructiva del sueño (AOS). Las preguntas cubrían todo el espectro de preocupaciones clínicas: factores de riesgo, síntomas, cuándo solicitar un estudio del sueño, interpretación de resultados de pruebas caseras, opciones de tratamiento, incluida la terapia PAP y los dispositivos orales, y el manejo a largo plazo.

Utilizando herramientas de evaluación validadas (incluido el marco QAMAI, la herramienta de Análisis de Calidad de la Inteligencia Artificial Médica desarrollada por Vaira y colegas en 2024), el estudio calificó cada respuesta por su precisión, integridad y seguridad. ¿La IA orientaría al paciente hacia una atención adecuada? ¿Señalaría conceptos erróneos peligrosos? ¿O ofrecería con confianza consejos que suenan plausibles pero son médicamente incorrectos?

El estudio se basa directamente en trabajos previos de Hack et al. (2026, también en JCSM), que compararon la IA generativa con la búsqueda web tradicional para la educación de pacientes con AOS. Ese estudio anterior encontró que la IA podía igualar o, en ocasiones, superar a la búsqueda web en la calidad de la información proporcionada. Pero también encontró que las respuestas de la IA conllevaban un riesgo único: suenan autoritativamente correctas incluso cuando no lo son, lo que dificulta que los pacientes detecten errores.

Los resultados de la Dra. Won afinan esta imagen. Si bien los LLM a menudo producían respuestas que eran razonables en términos generales, la precisión variaba significativamente según la pregunta específica formulada. Las herramientas funcionaban mejor en temas generales bien documentados como “¿Cuáles son los síntomas de la apnea del sueño?” o “¿Cómo se trata la apnea del sueño?”. Estos son temas donde la información es abundante en los datos de entrenamiento y relativamente estable a lo largo del tiempo. Las herramientas tenían más dificultades con el juicio clínico matizado: interpretar resultados diagnósticos límite, recomendar pruebas de seguimiento y sopesar opciones de tratamiento para pacientes con múltiples comorbilidades.

Por qué es importante

Lo que está en juego aquí no es académico. La apnea del sueño afecta a un estimado de 936 millones de adultos en todo el mundo, según los datos de prevalencia global más recientes, y la gran mayoría permanece sin diagnosticar. Los pacientes recurren cada vez más a la IA como primer paso para obtener información de salud, a veces incluso antes de ver a un médico. Una encuesta de 2025 citada en el estudio encontró que aproximadamente uno de cada cinco adultos había utilizado una herramienta de IA generativa para una pregunta relacionada con la salud, y esa cifra va en aumento.

Para la medicina del sueño, que ya lucha con largos tiempos de espera para estudios del sueño y una escasez de especialistas certificados en sueño, la IA podría ser una poderosa herramienta de triaje o una fuente de peligrosa desinformación. Si los pacientes actúan según consejos incorrectos generados por IA (saltándose un estudio del sueño médicamente indicado, ajustando por sí mismos la configuración de la terapia PAP o ignorando señales de advertencia de afecciones más graves como la apnea central del sueño o la hipoventilación), las consecuencias podrían ser graves.

El problema se ve agravado por el hecho de que los chatbots de IA no están diseñados para la toma de decisiones médicas. Están diseñados para producir texto plausible y fluido. Cuando un paciente hace una pregunta que no tiene una respuesta clara o requiere un juicio clínico individualizado, el modelo producirá algo. Y ese algo puede ser incompleto, engañoso o simplemente incorrecto.

Límites del estudio

El estudio, como todo trabajo temprano en esta área, tiene limitaciones importantes. Evaluó una instantánea de herramientas de IA en un solo momento; los LLM se actualizan con frecuencia y la precisión puede cambiar drásticamente entre versiones del modelo. La evaluación también se basó en la revisión de respuestas por parte de expertos en lugar de resultados reales de pacientes. Todavía no sabemos con qué frecuencia los pacientes modifican su atención basándose en los consejos de la IA, ni qué daños resultan cuando lo hacen.

Además, el estudio se centró específicamente en la apnea obstructiva del sueño. Otros trastornos del sueño (insomnio, síndrome de piernas inquietas, narcolepsia, trastornos del ritmo circadiano) presentan diferentes desafíos para la IA, y la precisión de las respuestas de los LLM probablemente varía según estas afecciones.

Conclusión

Este estudio no sugiere que la IA no tenga ningún papel en la medicina del sueño. El artículo complementario de Hack et al. y otras revisiones sistemáticas recientes (incluidas las de Abd-Alrazaq et al. 2024 sobre IA portátil para la detección de la apnea del sueño, Banjade et al. 2025 sobre IA en medicina del sueño en general, y Haghighat et al. 2025 sobre precisión diagnóstica de la IA para la AOS) apuntan a una promesa genuina. La IA puede ayudar a los pacientes a comprender su condición, prepararse para las visitas clínicas y navegar por las opciones de tratamiento. Utilizada adecuadamente, puede mejorar la alfabetización en salud y el acceso a la atención.

Pero la precisión no está garantizada. La conclusión clave del trabajo de la Dra. Won es que tanto los pacientes como los médicos deben tratar los consejos de salud generados por IA con el mismo escepticismo que aplicarían a cualquier otra fuente no verificada. Un chatbot no es un médico. No puede revisar su historial médico, interpretar sus síntomas en contexto ni decirle cuándo no sabe la respuesta.

Por ahora, el enfoque más seguro es simple: pida información general al chatbot, pero lleve las decisiones médicas reales a un especialista humano del sueño. La IA puede ser un punto de partida útil, pero no es la línea de meta.

Fuente: Won CHJ. El Dr. IA dice que tiene apnea del sueño: midiendo la precisión de la IA orientada al paciente en medicina del sueño. J Clin Sleep Med. 2026;22(1):99. DOI: 10.1007/s44470-026-00119-2. PMID: 42387082.

Traducido por Alessandra