Listen to the article
Chaque jour, 40 millions d’utilisateurs réguliers de l’agent conversationnel ChatGPT l’interrogent sur des questions de santé, affirmait OpenAI, son éditeur, en janvier. Mais peut-on faire confiance à l’outil pour autodiagnostiquer une pathologie ? Probablement pas, répond une étude scientifique portée par Andrew M. Bean, chercheur en évaluation des systèmes intelligents à l’université d’Oxford, publiée le 9 février dans Nature Medicine et intitulée « Reliability of LLMs as Medical Assistants for the General Public » (« fiabilité des grands modèles de langage en tant qu’assistants médicaux grand public »).
Aidés par trois médecins, les chercheurs ont bâti dix scénarios de pathologie qu’ils ont communiqués à un échantillon représentatif de la population britannique composé de presque 1 300 participants. Ceux-ci devaient interroger ChatGPT comme s’ils souffraient de ces symptômes. Après un échange aussi long qu’ils le souhaitaient avec le chatbot, ces malades imaginaires n’aboutissaient au bon diagnostic que dans 37 % des cas environ.
Ce chiffre passait la barre des 45 % lorsqu’ils avaient recours aux méthodes de recherche en ligne auxquelles ils étaient habitués, sans intelligence artificielle (IA). La plupart « utilisaient un moteur de recherche », précise l’étude, « ou consultaient directement des sites de confiance, comme celui du NHS » (le National Health Service, le système de santé public du Royaume-Uni). A l’inverse, selon l’étude, l’IA s’approchait du bon diagnostic uniquement quand on lui soumettait directement la liste des symptômes cliniques rédigés par les médecins, sans passer par l’intermédiaire d’un patient fictif. Dans ces cas, l’agent conversationnel devinait la maladie dans environ 95 % des cas pour ChatGPT. Les performances des autres IA testées étaient proches : 99 % pour LLama 3, de Meta, et 91 % pour Command R+, de Cohere.
Petite faiblesse dans le protocole
En somme, le maillon faible était l’humain. Comment l’expliquer ? Les auteurs de l’étude avancent le fait que beaucoup de participants ne donnaient pas au robot conversationnel toutes les informations disponibles. Et quand le chatbot leur suggérait plusieurs maladies, ils ne choisissaient pas nécessairement la bonne. Les chercheurs pointent encore la tendance des participants à interroger l’IA d’une manière fermée – par exemple : « Cela pourrait-il avoir un lien avec le stress ? » –, ce qui a tendance à restreindre le champ des réponses de l’IA.
Il vous reste 33.78% de cet article à lire. La suite est réservée aux abonnés.









19 commentaires
Interesting update on Les failles de ChatGPT pour l’autodiagnostic médical révélées par une étude. Curious how the grades will trend next quarter.
Good point. Watching costs and grades closely.
Good point. Watching costs and grades closely.
The cost guidance is better than expected. If they deliver, the stock could rerate.
Good point. Watching costs and grades closely.
The cost guidance is better than expected. If they deliver, the stock could rerate.
Silver leverage is strong here; beta cuts both ways though.
Good point. Watching costs and grades closely.
Good point. Watching costs and grades closely.
Interesting update on Les failles de ChatGPT pour l’autodiagnostic médical révélées par une étude. Curious how the grades will trend next quarter.
Good point. Watching costs and grades closely.
Good point. Watching costs and grades closely.
Interesting update on Les failles de ChatGPT pour l’autodiagnostic médical révélées par une étude. Curious how the grades will trend next quarter.
Good point. Watching costs and grades closely.
Nice to see insider buying—usually a good signal in this space.
The cost guidance is better than expected. If they deliver, the stock could rerate.
Uranium names keep pushing higher—supply still tight into 2026.
Good point. Watching costs and grades closely.
Good point. Watching costs and grades closely.