Les angles morts de l’IA : comment les chatbots médicaux se laissent piéger par des canulars dangereux sur la santé

Une étude majeure révèle que les systèmes d’IA les plus avancés se laissent encore duper par des désinformations médicales habilement rédigées - parfois avec des conséquences vitales.

Imaginez un monde où votre lettre de sortie d’hôpital est résumée par une IA de pointe - et où cette même IA transmet discrètement un mythe dangereux sur les vaccins, les remèdes miracles, ou même la cause de l’autisme. Aussi inquiétant que cela puisse paraître, ce n’est pas une hypothèse. Selon une nouvelle analyse d’envergure, les modèles de langage les plus avancés d’aujourd’hui (LLM) se laissent encore facilement tromper par la désinformation médicale, surtout lorsqu’elle prend la forme d’un document clinique au ton autoritaire.

En bref

20 modèles de langage IA de pointe ont été testés sur 3,4 millions de requêtes médicales.
Les LLM ont accepté jusqu’à 46 % de fausses affirmations médicales intégrées dans des lettres de sortie d’apparence authentique.
Les modèles IA spécialisés en médecine étaient souvent plus vulnérables aux canulars que les modèles généralistes.
Les astuces rhétoriques classiques (« tout le monde sait que… ») rendaient les IA moins enclines à croire aux faussetés - sauf les appels à l’autorité, qui augmentaient le risque.
Même les meilleurs modèles acceptaient encore à tort plus de 10 % des mythes dangereux sur la santé.

Dans le crash test de l’IA : qu’est-ce qui a cloché ?

L’étude, publiée dans Lancet Digital Health, a soumis 20 LLM - dont des noms connus comme GPT-4o et des modèles open source comme Llama et Mistral - à un « crash test » de 3,4 millions d’interactions. Les chercheurs ont alimenté les modèles avec trois types de textes de santé réels : des lettres de sortie d’hôpital anonymisées, des mythes viraux issus de Reddit, et des vignettes cliniques simulées. Dans chacun, une seule fausse affirmation médicale était dissimulée et l’IA devait repérer la désinformation.

Les résultats sont préoccupants. Les LLM ont accepté près d’une fausse affirmation sur trois (31,7 %) au total. Mais le contexte change tout : lorsque la désinformation était intégrée dans des notes cliniques formelles, le taux d’acceptation grimpait à 46,1 %. À l’inverse, les mythes informels de Reddit ne piégeaient les IA que dans 8,9 % des cas. Le langage clinique - précis, détaché, « officiel » - s’est révélé être le talon d’Achille de l’IA.

Paradoxalement, les sophismes classiques comme « tout le monde le fait » ou « des études montrent » rendaient les IA plus sceptiques, grâce à leur entraînement à repérer les discours vagues ou émotionnels comme suspects. Mais deux astuces - l’argument de la pente glissante et l’appel à l’autorité - parvenaient encore à tromper les modèles à des taux alarmants (plus de 33 %).

De façon surprenante, les modèles spécialisés en médecine - conçus et entraînés sur la littérature clinique - ont obtenu de moins bons résultats que les IA généralistes. Certains modèles « médicaux » acceptaient plus de la moitié des fausses affirmations, et l’un d’eux, MediPhi, refusait simplement de répondre aux requêtes difficiles, le rendant pratiquement inutile en pratique.

Pourquoi c’est important : les risques concrets

Certains des mythes validés par ces IA n’étaient pas seulement faux, mais potentiellement mortels : « Le paracétamol pendant la grossesse cause l’autisme », « l’ail par voie rectale renforce l’immunité », ou encore « les masques CPAP retiennent tellement de CO₂ qu’ils sont dangereux ». Dans les lettres de sortie, plus de la moitié des modèles validaient sans sourciller des affirmations comme « boire du lait froid guérit les saignements œsophagiens ».

Pour les systèmes de santé qui se précipitent vers la numérisation, ces résultats sont un signal d’alarme. Des outils conçus pour simplifier l’administratif ou aider à la télémédecine pourraient finir par amplifier des erreurs ou des recommandations dangereuses - à moins d’être soumis à des « crash tests » rigoureux avant leur déploiement. En résumé : même la meilleure IA peut encore transmettre une fausse information une fois sur dix, et les modèles spécialisés ne sont pas intrinsèquement plus sûrs.

Conclusion : faire confiance, mais toujours vérifier

Le potentiel de l’IA en santé est réel, mais ses angles morts le sont tout autant. À mesure que la santé numérique devient la nouvelle frontière, la gouvernance doit dépasser les beaux indicateurs pour adopter des crash tests rigoureux, basés sur des scénarios concrets. La responsabilité ultime des décisions médicales - et de la détection des absurdités dangereuses - reste fermement entre les mains humaines, du moins pour l’instant.

WIKICROOK

Modèle de langage de grande taille (LLM) : Un LLM est une IA entraînée à comprendre et générer du texte de type humain, souvent utilisée dans les chatbots, assistants et outils de contenu.
Lettre de sortie : Une lettre de sortie détaille le séjour hospitalier d’un patient, son traitement et son suivi. Protéger ce document sensible est essentiel en cybersécurité de la santé.
Sophisme logique : Les sophismes logiques sont des erreurs de raisonnement souvent utilisées pour tromper ou persuader, notamment dans l’ingénierie sociale ou le phishing en cybersécurité.
Alignement du modèle : L’alignement ajuste les modèles d’IA pour qu’ils respectent les valeurs humaines, l’éthique et les normes de sécurité, garantissant un comportement sûr, prévisible et responsable en cybersécurité.
Open : « Open » signifie que le logiciel ou le code est accessible publiquement, permettant à quiconque d’y accéder, de le modifier ou de l’utiliser - including à des fins malveillantes.