Il n’y a pas de mauvais outils.... Vraiment ?
Est-il éthique d'utiliser des outils que l'on ne comprends pas?
« Il n’y a pas de mauvais outils, il n’y a que de mauvais ouvriers. »
L’adage est séduisant. Il a le mérite de la clarté : la responsabilité incombe toujours à l’utilisateur, jamais à l’instrument. Appliqué au tournevis, au bistouri ou à la calculatrice, il fonctionne. L’outil est inerte, prévisible, borné dans ses effets. Sa défaillance est identifiable. Son mode de fonctionnement est transparent.
Le problème survient lorsqu’on applique ce cadre à un outil d’un genre inédit : un système qui produit du langage naturel avec une assurance constante, indépendamment de la fiabilité de ce qu’il produit. Non pas un outil qui tombe en panne de façon visible, mais un outil dont la panne est structurellement indiscernable du fonctionnement normal.
C’est la situation que crée l’IA générative en médecine. Et elle mérite une analyse qui dépasse à la fois l’enthousiasme technologique et la condamnation morale, deux postures qui, symétriquement, empêchent de comprendre ce qui se joue réellement.
« On ne comprend pas une technologie en l’adorant. On ne la maîtrise pas en la refusant. On la comprend en démontant ses mécanismes et c’est précisément le travail qu’il est urgent de faire. »
Ce que les chiffres disent…
Un premier écueil consiste à traiter les données d’adoption comme une validation. C’est le classique sophisme de l’appel à la popularité. Les chiffres d'usage sont massifs.
Selon le rapport d’OpenAI de janvier 2026 [1] :
40 millions d’Américains interrogent ChatGPT chaque jour sur des questions de santé.
5 % de l’ensemble des messages envoyés à la plateforme dans le monde concernent la santé — soit des milliards par semaine.
70 % de ces échanges ont lieu en dehors des heures de consultation — le soir, le week-end, à 3 heures du matin.
Dans les déserts médicaux américains, ChatGPT reçoit en moyenne 580 000 messages de santé par semaine.
Ces chiffres ne disent pas que l’outil fonctionne. Ils disent que le système de soin dysfonctionne suffisamment pour que des millions de personnes se tournent vers un chatbot au milieu de la nuit. L’adoption massive de l’IA générative en santé est moins un indicateur de qualité technologique qu’un symptôme de défaillance structurelle de l’accès aux soins.
Un résultat souvent cité illustre bien cette confusion entre symptôme et remède. En 2023, une étude du JAMA Internal Medicine a comparé les réponses de médecins et de ChatGPT à 195 questions de patients : les réponses du chatbot ont été jugées 9,8 fois plus empathiques que celles des médecins [2]. Ce chiffre est généralement utilisé pour démontrer la supériorité de l’IA. Il démontre surtout l’état d’épuisement d’un corps médical qui n’a plus le temps matériel de formuler des réponses attentives. Le problème n’est pas que la machine soit empathique ; c’est que les conditions de travail des médecins ne leur permettent plus de l’être.
Côté praticiens, l’adoption suit la même trajectoire :
États-Unis : 66 % des médecins utilisaient l'IA en 2024, contre 38 % un an plus tôt [3].
France : plus de 35 % des établissements de santé intègrent un dispositif à base d’IA [4].
Royaume-Uni : un généraliste sur cinq utilise l’IA générative en clinique [5].
Ces données décrivent une réalité d’adoption. Elles ne constituent pas, en elles-mêmes, une validation de l’outil adopté. Or c’est précisément le glissement rhétorique que l’on observe dans la plupart des commentaires : on passe de "beaucoup de gens l'utilisent" à "donc c'est utile", puis à "donc c'est fiable", en escamotant à chaque étape l'évaluation structurelle des limites. C’est le sophisme très connu de l’appel à la popularité: Argumentum ad populum!
Le défaut de métacognition : un problème technique, pas moral
Parmi ces limites, la plus significative n’est pas l’erreur elle-même. Les médecins se trompent aussi. C’est l’absence de signal d’erreur.
Une étude publiée en janvier 2025 dans Nature Communications a posé une question simple à douze modèles de langage : savez-vous reconnaître les questions auxquelles vous ne pouvez pas répondre de façon fiable [6]?
Sur les QCM classiques, les performances étaient honorables : GPT-4o atteignait 73,3 % de bonnes réponses. Mais quand on demandait aux modèles de signaler eux-mêmes leurs limites, de dire « je ne sais pas » quand ils ne savaient pas, neuf modèles sur douze ont scoré 0 %. Zéro. Le meilleur, GPT-4o, atteignait péniblement 3,7 %.
Autrement dit : l’IA répond avec la même assurance qu’elle ait raison ou tort. Elle ne sait pas qu’elle ne sait pas..
Les chercheurs ont nommé ce phénomène deceptive expertise: une expertise trompeuse. Il s’agit d’une propriété structurelle du système. Le modèle attribue le même degré de confiance à ses réponses correctes et à ses réponses fausses, parce que son architecture ne contient pas de mécanisme de calibration entre confiance et fiabilité [6].
Il est important de ne pas moraliser cette observation. Le LLM :
ne « ment » pas: il n’a pas d’intention ;
ne « prétend » pas savoir: il n’a pas de conscience de son ignorance ;
produit la séquence de tokens la plus probable compte tenu de son entraînement, et cette séquence inclut systématiquement des marqueurs de certitude, parce que les textes sur lesquels il a été entraîné en contiennent massivement.
C’est un défaut d’architecture, pas un vice de caractère.
Mais les conséquences pratiques sont identiques : en contexte clinique, un médecin qui consulte ChatGPT sur un cas rare recevra une réponse formulée avec la même assurance que pour un cas banal. Rien dans le ton, la structure ou la formulation ne signalera la différence. Et c’est ce défaut structurel, l’absence de métacognition, qui rend l’outil fondamentalement différent de tous les instruments médicaux qui l’ont précédé.
C’est ici que l’adage initial cesse de fonctionner. On peut demander à un ouvrier compétent de compenser les limites d’un outil imparfait, à condition que ces limites soient perceptibles. Lorsque l’outil ne signale pas sa propre défaillance, la compétence de l’utilisateur ne suffit plus à garantir un usage sûr.
Le mirage des benchmarks : confondre l’examen et la pratique
Un second glissement sémantique mérite d’être déconstruit. On lit régulièrement que l’IA « surpasse les médecins » ou « réussit les examens médicaux ». Ces affirmations sont techniquement exactes et profondément trompeuses.
Une revue systématique du Journal of Medical Internet Research a analysé 761 études évaluant les LLM en médecine. Résultat : seulement 5 % d’entre elles testaient les modèles sur des données réelles de patients [7]. Les 95 % restantes utilisaient des QCM d’examens, des vignettes cliniques théoriques, des benchmarks académiques.
Cette méthodologie pose un problème de validité :
Un QCM est un environnement fermé : quatre options, une bonne réponse, un contexte complet fourni dans l’énoncé.
La pratique clinique est un environnement ouvert : informations incomplètes, symptômes ambigus, comorbidités, facteurs psychosociaux, contraintes temporelles.
Évaluer un LLM sur des QCM et en déduire sa capacité diagnostique, c’est confondre la performance à l’examen avec la compétence en situation.
Lorsqu’on passe à des évaluations plus proches de la réalité clinique, les résultats changent significativement. Une méta-analyse de 83 études dans npj Digital Medicine situe la précision diagnostique de l’IA générative à 52,1 %, sans différence significative avec les médecins non spécialistes, mais avec des performances significativement inférieures aux experts (p = 0,007) [8].
L’étude la plus instructive sur ce point provient du NEJM AI. Des chercheurs ont soumis dix LLM au test de concordance de scripts (SCT), un protocole qui évalue le raisonnement clinique sous incertitude : face à une information nouvelle, faut-il changer d’avis sur un diagnostic, et de combien ? C’est le cœur du métier de médecin.
Sur les QCM classiques, ces mêmes modèles dépassent régulièrement les 90 %. Au SCT, le meilleur, GPT-4o, plafonne à 63,6 %. Il fait jeu égal avec les étudiants en médecine, mais n’atteint pas le niveau des internes seniors ni des médecins confirmés [9].
« Contrairement aux benchmarks médicaux existants où les LLM ont atteint des performances surhumaines, le SCT révèle des écarts significatifs entre les modèles et les cliniciens experts. »
NEJM AI, 2025 [9]
Plus préoccupant encore : les modèles les plus avancés, dotés de « chaînes de raisonnement », n’ont pas fait mieux. Ils se sont même montrés plus surconfiants, se convainquant qu’une information non pertinente était importante.
Le problème de la convergence : une limite architecturale, pas contingente
Par conception, un LLM est un système convergent. Il prédit le token suivant le plus probable, ce qui le pousse statistiquement vers la moyenne de ses données d’entraînement. C’est cette propriété qui produit la fluidité, la cohérence apparente, la plausibilité du texte généré.
Or le raisonnement diagnostique, en particulier dans les cas complexes, exige précisément le mouvement inverse : diverger de l’hypothèse la plus probable pour envisager des diagnostics rares ou des présentations atypiques.
Le patient qui présente un tableau grippal mais souffre d’une endocardite.
L’enfant dont le mal de ventre masque une invagination intestinale.
La femme de 35 ans dont la fatigue chronique n’est pas un burn-out mais une maladie d’Addison.
Ces cas sont statistiquement rares et c’est précisément pour cela qu’un système optimisé pour la probabilité les manquera. Ce n’est pas un bug corrigible par une mise à jour. C’est une conséquence directe de l’architecture du modèle. La convergence vers le probable et la recherche du vrai ne coïncident pas nécessairement, et c’est dans l’écart entre les deux que se logent les erreurs potentiellement fatales.
L’étude MedR-Bench dans Nature Communications confirme ce schéma : les modèles dépassent 85 % de précision sur les tâches diagnostiques simples, mais les performances chutent significativement dès qu’il s’agit de recommander des examens ou de planifier une prise en charge thérapeutique [10]. La reconnaissance de patterns fonctionne ; le raisonnement en conditions d’incertitude, non.
Confondre ces deux capacités (reconnaître un tableau clinique classique et raisonner face à l’ambigu) constitue l’une des erreurs d’appréciation les plus répandues dans le débat actuel.
Littératie critique : une compétence structurelle, pas un slogan
Tout le monde parle de "littératie IA". Personne ne s'accorde sur ce que ça veut dire.
La littératie IA critique, au sens opérationnel du terme, désigne :
la capacité à distinguer la confiance affichée par le système de la fiabilité de sa production ;
la capacité à identifier une hallucination, une production fausse mais syntaxiquement irréprochable, du type de celle qui a coûté sa carrière au chef de la police des West Midlands ;
la compréhension que l’auto-évaluation d’un LLM, son score de confiance interne, ne contient aucune information utile sur la véracité de sa réponse, puisque cette confiance est structurellement décorrélée de la performance réelle.
Certains proposent des « exercices sans IA », des AI-off drills, sur le modèle de l'entraînement récurrent en aviation, où le clinicien raisonne sans assistance numérique pour vérifier que ses compétences de base restent intactes. L'analogie n'est pas fortuite : l'étude ACCEPT sur la coloscopie assistée par IA a montré que des gastro-entérologues chevronnés détectaient moins de polypes après avoir travaillé avec l'IA qu'avant d'y avoir été exposés [16]. L'analogie est pertinente : on ne supprime pas le pilote automatique, on s'assure que le pilote humain sache encore intervenir quand il tombe en panne.
C'est exactement le point aveugle du débat actuel. On discute abondamment de la performance de l'IA et de l'éthique de son usage, mais très peu de la compétence nécessaire pour en évaluer les productions en temps réel. Or c'est cette compétence, ni technique ni morale, mais épistémique, qui détermine si l'outil sera un gain ou un risque. Une compétence d'autant plus fragile que l'externalisation cognitive induite par les LLM érode progressivement notre capacité à l'exercer.
Ce que l’adage ne prévoyait pas
L’adage initial, pas de mauvais outils, seulement de mauvais ouvriers, repose sur un présupposé implicite : la défaillance de l’outil est perceptible. Le tournevis qui ripe, on le sent dans la main. Le scanner qui dysfonctionne, il affiche un message d’erreur. Le stéthoscope défectueux, on le détecte à l’usage.
L’IA générative introduit une catégorie d’outil inédite : un instrument dont la défaillance emprunte exactement la même forme que le fonctionnement normal. Même syntaxe, même assurance, même structure argumentative, que la réponse soit correcte ou fausse.
Cela ne rend pas l’outil inutile. Cela rend inadéquate l’idée que la seule compétence de l’utilisateur suffit à en garantir le bon usage. Trois niveaux d’intervention sont nécessaires simultanément :
Fabricants : transparence sur les limites des systèmes, intégration de garde-fous et de signaux de fiabilité dans les interfaces.
Régulateurs : un cadre normatif adapté à la temporalité de l’innovation, et non conçu sur le rythme législatif habituel.
Professionnels : une formation qui ne se limite pas à l’usage mais inclut l’évaluation critique des productions — la capacité à douter de l’outil, pas seulement à l’utiliser.
L’IA ne remplacera pas les médecins. Mais la distinction qui structurera la profession dans les années à venir ne sera pas entre ceux qui utilisent l’IA et ceux qui la refusent. Elle sera entre ceux qui en comprennent les limites structurelles et ceux qui confondent la plausibilité d’une réponse avec sa fiabilité.
Cette distinction n’est ni technique ni morale. Elle est épistémique. Et aucun outil, aussi sophistiqué soit-il, ne peut la produire à la place de celui qui l’utilise.
Bibliographie
[1] OpenAI. “AI as a healthcare ally: how Americans are navigating the system with ChatGPT“. Fierce Healthcare. Janvier 2026.
[2] Ayers J.W., Poliak A., Dredze M. et al. “Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum“. JAMA Internal Medicine. 2023;183(6):589-596.
[3] American Medical Association. “2 in 3 physicians are using health AI, up 78% from 2023“. AMA. Février 2025.
[4] MedTech France. “Entre serment d’Hippocrate et code source : la déontologie médicale à l’épreuve de l’intelligence artificielle“. Juin 2025.
[5] GPAI-UK-2025 Survey. “General practitioners’ opinions of generative artificial intelligence in the UK: an online survey“. Digital Health. 2025.
[6] Griot M., Hemptinne C., Vanderdonckt J. et al. “Large language models lack essential metacognition for reliable medical reasoning“. Nature Communications. 2025;16:642.
[7] Chen M. et al. “Knowledge-practice performance gap in clinical large language models: systematic review of 39 benchmarks“. Journal of Medical Internet Research. 2025.
[8] Takita H. et al. “A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians“. npj Digital Medicine. 2025.
[9] NEJM AI. “Assessment of large language models in clinical reasoning: a novel benchmarking study“. NEJM AI. 2025.
[10] Xie Q. et al. “Quantifying the reasoning abilities of LLMs on clinical cases“. Nature Communications. 2025.
[11] Conseil national de l’Ordre des médecins. “Principaux textes réglementant l’intelligence artificielle“. Juillet 2025.
[12] Académie nationale de médecine. “Intelligence artificielle et responsabilité médicale : quels enjeux ?“. 2025.
[13] DLA Piper. “Digital omnibus and AI Act updates: key implications for MedTech“. Novembre 2025.
[14] Haute Autorité de santé. “L’IA générative en santé : oui, avec un usage responsable“. Octobre 2025.
[15] Council of Deans of Health. “AI: a new age in healthcare education, an educator’s perspective“. Mars 2025.
[16] iatroX. “The deskilling dilemma: will clinical AI erode or enhance medical expertise?“. Septembre 2025.

