Dr. AI affirme que vous souffrez d’apnée du sommeil : mesurer la précision de l’IA grand public en médecine du sommeil

Dr. AI affirme que vous souffrez d’apnée du sommeil : mesurer la précision de l’IA grand public en médecine du sommeil

Vous tapez « Est-ce que je souffre d’apnée du sommeil ? » dans ChatGPT et vous obtenez en quelques secondes une réponse détaillée, assurée et au ton médical. C’est comme obtenir un second avis sans attendre des mois pour une étude du sommeil. Mais cette réponse est-elle réellement correcte ?

Une nouvelle étude publiée dans le Journal of Clinical Sleep Medicine met cette question à l’épreuve. Le Dr Christine H.J. Won de la Yale University School of Medicine et du VA Connecticut Healthcare System a évalué avec quelle précision les outils d’intelligence artificielle grand public (les grands modèles de langage qui alimentent les chatbots comme ChatGPT, Gemini et Claude) répondent à des questions réelles sur le dépistage, le diagnostic et le traitement de l’apnée du sommeil. Les résultats sont un rappel sobre face au battage médiatique entourant l’IA en médecine.

Ce qu’ils ont découvert

Le Dr Won a conçu une évaluation systématique des réponses générées par l’IA aux questions courantes des patients sur l’apnée obstructive du sommeil (AOS). Les questions couvraient tout l’éventail des préoccupations cliniques : facteurs de risque, symptômes, quand demander une étude du sommeil, interprétation des résultats de tests à domicile, options de traitement, y compris la thérapie PAP et les appareils buccaux, et gestion à long terme.

À l’aide d’outils d’évaluation validés (dont le cadre QAMAI, l’outil d’analyse de la qualité de l’intelligence artificielle médicale développé par Vaira et ses collègues en 2024), l’étude a noté chaque réponse pour sa précision, son exhaustivité et sa sécurité. L’IA orienterait-elle un patient vers des soins appropriés ? Signalerait-elle des idées fausses dangereuses ? Ou donnerait-elle avec assurance des conseils qui semblent plausibles mais qui sont médicalement erronés ?

L’étude s’appuie directement sur les travaux antérieurs de Hack et al. (2026, également dans JCSM), qui comparaient l’IA générative à la recherche Web traditionnelle pour l’éducation des patients sur l’AOS. Cette étude antérieure a révélé que l’IA pouvait égaler, voire dépasser, la recherche Web en termes de qualité des informations fournies. Mais elle a également révélé que les réponses de l’IA comportaient un risque unique : elles semblent correctes avec autorité, même quand elles ne le sont pas, ce qui rend plus difficile pour les patients de repérer les erreurs.

Les résultats du Dr Won précisent ce tableau. Si les grands modèles de langage produisaient souvent des réponses globalement raisonnables, la précision variait considérablement selon la question posée. Les outils donnaient les meilleurs résultats sur des sujets généraux bien documentés comme « Quels sont les symptômes de l’apnée du sommeil ? » ou « Comment traite-t-on l’apnée du sommeil ? ». Ce sont des sujets pour lesquels l’information est abondante dans les données d’apprentissage et relativement stable dans le temps. Les outils rencontraient le plus de difficultés avec le jugement clinique nuancé : interprétation des résultats diagnostiques limites, recommandation d’examens complémentaires et évaluation des options thérapeutiques pour les patients atteints de multiples comorbidités.

Pourquoi c’est important

Les enjeux ne sont pas académiques. L’apnée du sommeil touche environ 936 millions d’adultes dans le monde, selon les données de prévalence mondiale les plus récentes, et la grande majorité reste non diagnostiquée. Les patients se tournent de plus en plus vers l’IA comme premier recours pour obtenir des informations sur la santé, parfois avant même de consulter un médecin. Une enquête de 2025 citée dans l’étude a révélé qu’environ un adulte sur cinq avait utilisé un outil d’IA générative pour une question liée à la santé, et ce chiffre ne cesse d’augmenter.

Pour la médecine du sommeil, qui souffre déjà de longs délais d’attente pour les études du sommeil et d’une pénurie de spécialistes certifiés, l’IA pourrait être soit un outil de triage puissant, soit une source de dangereuse désinformation. Si les patients agissent sur la base de conseils incorrects générés par l’IA (en sautant une étude du sommeil médicalement indiquée, en ajustant eux-mêmes les réglages de leur thérapie PAP ou en ignorant les signes d’alerte de conditions plus graves comme l’apnée centrale du sommeil ou l’hypoventilation), les conséquences pourraient être graves.

Le problème est aggravé par le fait que les chatbots d’IA ne sont pas conçus pour la prise de décision médicale. Ils sont conçus pour produire un texte plausible et fluide. Lorsqu’un patient pose une question qui n’a pas de réponse claire ou qui nécessite un jugement clinique individualisé, le modèle produira quelque chose. Et ce quelque chose peut être incomplet, trompeur ou tout simplement faux.

Limites de l’étude

L’étude, comme tous les premiers travaux dans ce domaine, présente des limites importantes. Elle a évalué un instantané d’outils d’IA à un moment donné ; les grands modèles de langage sont mis à jour fréquemment, et la précision peut changer radicalement entre les versions. L’évaluation reposait également sur l’examen des réponses par des experts plutôt que sur des résultats réels pour les patients. Nous ne savons pas encore à quelle fréquence les patients modifient réellement leurs soins sur la base des conseils de l’IA, ni quels préjudices en résultent.

De plus, l’étude s’est concentrée spécifiquement sur l’apnée obstructive du sommeil. D’autres troubles du sommeil (insomnie, syndrome des jambes sans repos, narcolepsie, troubles du rythme circadien) présentent des défis différents pour l’IA, et la précision des réponses des grands modèles de langage varie probablement selon ces conditions.

L’essentiel

Cette étude ne suggère pas que l’IA n’a aucun rôle en médecine du sommeil. L’article compagnon de Hack et al. et d’autres revues systématiques récentes (dont celles d’Abd-Alrazaq et al. 2024 sur l’IA portable pour la détection de l’apnée du sommeil, de Banjade et al. 2025 sur l’IA en médecine du sommeil en général, et de Haghighat et al. 2025 sur la précision diagnostique de l’IA pour l’AOS) indiquent tous un véritable potentiel. L’IA peut aider les patients à comprendre leur état, à se préparer aux consultations et à naviguer dans les options thérapeutiques. Utilisée à bon escient, elle peut améliorer la littératie en santé et l’accès aux soins.

Mais la précision n’est pas garantie. Le principal enseignement des travaux du Dr Won est que les patients comme les cliniciens doivent traiter les conseils de santé générés par l’IA avec le même scepticisme qu’ils appliqueraient à toute autre source non vérifiée. Un chatbot n’est pas un médecin. Il ne peut pas examiner vos antécédents médicaux, interpréter vos symptômes dans leur contexte ou vous dire quand il ne connaît pas la réponse.

Pour l’instant, l’approche la plus sûre est simple : demandez au chatbot des informations générales, mais confiez les décisions médicales réelles à un spécialiste du sommeil humain. L’IA peut être un point de départ utile, mais elle n’est pas la ligne d’arrivée.

Source : Won CHJ. Dr. AI affirme que vous souffrez d’apnée du sommeil : mesurer la précision de l’IA grand public en médecine du sommeil. J Clin Sleep Med. 2026;22(1):99. DOI: 10.1007/s44470-026-00119-2. PMID: 42387082.

Traduit par Lydie