Cette IA dépasse les médecins humains sur 2 diagnostics sur 3 d’après Harvard

Cette IA dépasse les médecins humains sur 2 diagnostics sur 3 d'après Harvard

Une équipe de Harvard Medical School et du Beth Israel Deaconess Medical Center a testé des modèles d’IA sur de vrais dossiers d’urgences, et le résultat bouscule les habitudes: sur des cas réels, un modèle a proposé des diagnostics initiaux plus justes que des médecins expérimentés.

L’étude, publiée dans Science, insiste sur un point: ces performances ne signifient pas que l’IA peut prendre seule des décisions vitales. Le test s’est fait sur des informations textuelles issues du dossier médical, sans examen physique, sans imagerie, sans signaux non verbaux. C’est précisément là que le débat commence, entre promesse d’aide au triage et risque de surconfiance.

Harvard Medical School teste 76 patients du Beth Israel

L’expérience la plus commentée porte sur 76 patients arrivés aux urgences du Beth Israel à Boston. Deux médecins attendings ont rédigé leurs hypothèses diagnostiques, pendant que des modèles d’OpenAI faisaient la même chose à partir du même dossier, typiquement des constantes, l’âge, le contexte, et quelques lignes d’une infirmière sur le motif de venue.

Les diagnostics ont ensuite été évalués à l’aveugle par deux autres médecins, sans savoir ce qui venait d’un humain ou de l’IA. Au premier “touchpoint”, celui du triage où l’information est la plus pauvre et le temps le plus compté, le modèle o1 a identifié le diagnostic exact ou très proche dans 67% des cas, contre 50% à 55% pour les médecins testés.

A lire aussi :  9 secondes et une requête API : un agent IA sous Claude Opus 4.6 dans Cursor a effacé la base de données d'une start-up causant 30 heures d'arrêt chez des loueurs américains

Quand davantage d’éléments s’ajoutaient au fil de la prise en charge, l’écart se réduisait. Les chiffres rapportés montrent une IA à 82% quand le dossier est plus complet, face à des humains autour de 70% à 79%, une différence décrite comme non significative statistiquement. Lecture possible: l’IA aide surtout quand tu as peu d’indices, pas quand tout est déjà sur la table.

OpenAI o1 progresse quand le dossier s’épaissit

Le travail ne s’arrête pas au triage. L’équipe a noté la performance à plusieurs moments, jusqu’aux décisions d’hospitalisation. Dans une analyse chiffrée, o1 atteint 72,4% quand on inclut l’évaluation directe de l’urgentiste, puis monte à 81,6% au stade où suffisamment d’informations sont disponibles pour trancher sur une admission ou un transfert en soins intensifs.

Un détail méthodologique compte, parce qu’il colle au réel: les chercheurs expliquent ne pas avoir “nettoyé” les dossiers. Ils ont utilisé des informations telles qu’elles apparaissent dans le dossier médical, avec leur désordre habituel. Thomas Buckley, co-premier auteur, justifie ce choix par la volonté de mesurer la performance au début du parcours, quand les données sont rares et parfois ambiguës.

Il y a aussi un volet “plan de prise en charge” qui frappe fort. Sur cinq vignettes cliniques, l’IA a obtenu 89% contre 34% pour un groupe de 46 médecins utilisant des ressources classiques. Ça ne veut pas dire qu’un service peut déléguer ses prescriptions à une machine, mais ça suggère un usage concret: proposer une check-list d’options, repérer une antibiothérapie plausible, ou signaler qu’un protocole de fin de vie doit être discuté.

A lire aussi :  Le Pentagone déploie l'IA sur ses réseaux classifiés avec OpenAI Google Microsoft Nvidia et exclut Anthropic pour refus des conditions sur les armes autonomes et la surveillance intérieure

Raj Manrai et Adam Rodman alertent sur l’autonomie

Les auteurs martèlent une limite: tout repose sur du texte. Or, aux urgences, tu diagnostiques aussi avec une radio, un ECG, une auscultation, une démarche, une odeur d’haleine, un regard inquiet, des silences. Les chercheurs notent que les modèles actuels restent plus limités sur les entrées non textuelles, et que ces signaux pèsent lourd dans les décisions rapides.

Raj Manrai, professeur assistant en informatique biomédicale, assume que le modèle a dépassé une large base de médecins sur plusieurs tâches, mais refuse l’interprétation “remplacement”. Adam Rodman, professeur assistant de médecine, dit avoir été surpris par le niveau atteint, tout en rappelant que le service d’urgences n’est qu’un fragment du parcours, et qu’un mois d’hospitalisation avec des données foisonnantes aurait probablement changé la donne.

La nuance, elle est là, et elle dérange: de bons scores ne garantissent pas une pratique sûre. Une IA peut être brillante sur un diagnostic rare, et fragile sur un cas banal mal décrit. Dans un hôpital, la question devient opérationnelle: qui porte la responsabilité si l’outil suggère une piste et que l’équipe la suit? Les auteurs appellent à des essais prospectifs en conditions réelles, avec des garde-fous, avant d’en faire un copilote installé au cur des urgences.

A lire aussi :  Avec 1 milliard de dollars, la Chine déploie 8 500 robots humanoïdes sur son réseau électrique dont 500 capables de travailler sous tension à la place des techniciens

Source : Harvard

Laisser un commentaire