Le paradoxe de Moravec en médecine

Quand le plus simple devient le plus dur

mars 16, 2026

En avril 2025, Google DeepMind publie dans Nature les résultats d’AMIE, son agent conversationnel médical. L’étude compare AMIE à 20 médecins généralistes sur 159 cas cliniques simulés. L’IA surpasse les médecins sur 30 des 32 critères évalués par des spécialistes, et sur 25 des 26 critères selon les patients-acteurs. Précision diagnostique, qualité du raisonnement, exhaustivité du diagnostic différentiel. Et même, résultat contre-intuitif, l’empathie [1].

Six mois plus tard, des chercheurs de Stanford et Harvard publient le benchmark NOHARM. 31 modèles d’IA, 100 vrais cas de consultation. Résultat : même les meilleurs modèles produisent entre 12 et 15 erreurs cliniques sévères pour 100 cas. Les pires dépassent les 40 [2]. Et 76,6 % des erreurs graves sont des omissions, pas des recommandations erronées. Le modèle ne prescrit pas le mauvais traitement. Il oublie l’examen décisif [2].

Et en février 2026, l’étude la plus brutale. Des chercheurs de Mount Sinai soumettent ChatGPT Health, l’outil médical d’OpenAI utilisé par 40 millions de personnes par jour, à 960 scénarios cliniques réalistes couvrant 21 spécialités. Parmi les cas que trois médecins indépendants classent comme urgences vitales, ChatGPT Health en sous-trie 52 %. Acidocétose diabétique, insuffisance respiratoire imminente : le système recommande d’attendre 24 à 48 heures au lieu d’envoyer aux urgences [3].

Le détail le plus révélateur : dans plusieurs cas, le modèle identifie lui-même les signes de danger dans son propre texte explicatif, puis conclut malgré tout qu’il n’y a pas d’urgence [3]. Il sait. Et il ne réagit pas. Un phénomène que la recherche documente sous le nom d’akrasie algorithmique : le modèle détecte la bonne réponse, puis la sacrifie à la structure de la demande.

« ChatGPT Health a bien fonctionné pour les urgences classiques comme l’AVC ou les réactions allergiques sévères. Mais il a échoué dans les situations plus nuancées, où le danger n’est pas immédiatement évident, et ce sont souvent les cas où le jugement clinique compte le plus. »
Dr Ashwin Ramaswamy, Icahn School of Medicine, Mount Sinai [3]

Comment un système peut-il surpasser des médecins dans un protocole d’examen standardisé, puis rater une urgence vitale sur deux ?

La réponse porte un nom. Elle a été formulée en 1988 par un roboticien. Et elle n’a jamais été aussi pertinente qu’en médecine.

I. Un paradoxe de 1988, un problème de 2026

En 1988, Hans Moravec, chercheur en robotique à Carnegie Mellon, publie Mind Children. Il y formule une observation qui deviendra célèbre :

« Il est comparativement facile de faire en sorte que les ordinateurs atteignent le niveau d’un adulte dans les tests d’intelligence ou aux échecs, et difficile, voire impossible, de leur donner les compétences d’un enfant d’un an en matière de perception et de mobilité. »
Hans Moravec, Mind Children: The Future of Robot and Human Intelligence, 1988 [4]

Le paradoxe de Moravec tient en une phrase : ce qui est difficile pour l’humain est facile pour la machine, et inversement.

Jouer aux échecs, résoudre des équations, analyser des millions de données : ces tâches que nous considérons comme le sommet de l’intelligence humaine sont, pour une machine, triviales. En revanche, reconnaître un visage, marcher sur un terrain inégal, comprendre une plaisanterie, saisir le contexte d’une conversation, ces compétences que nous exerçons sans y penser, nécessitent des ressources computationnelles colossales.

L’explication de Moravec est évolutionniste. Les capacités sensorimotrices et perceptuelles sont le produit de millions d’années de sélection naturelle. Le raisonnement abstrait, lui, est un ajout récent, une « mince couche de vernis » qui n’a que quelques dizaines de milliers d’années d’optimisation derrière elle [4]. Marvin Minsky, cofondateur du laboratoire d’IA du MIT, formulait la même idée autrement : « En général, nous sommes le moins conscients de ce que notre esprit fait le mieux » [5].

II. Ce que les examens ne mesurent pas

Le rapport State of Clinical AI 2026, produit par le réseau ARISE (Stanford-Harvard), révèle l’ampleur du problème. Sur plus de 500 études évaluant l’IA médicale, près de la moitié utilisent des questions de type examen. Seuls 5 % utilisent de vraies données patients [6]. Et sur les tests mesurant le raisonnement sous incertitude, les systèmes d’IA « performent plus près des étudiants en médecine que des médecins expérimentés » [6].

La raison est structurelle.

L’examen médical est un problème bien défini : toutes les informations pertinentes sont fournies, la réponse existe, le contexte est absent.

La consultation clinique est un problème mal défini : les informations sont incomplètes, parfois contradictoires, parfois mensongères. Le patient oublie, minimise, exagère, a peur, est pressé. La réponse n’est pas unique. Le contexte est tout.

Ce que les examens ne mesurent pas, et que le paradoxe de Moravec prédit comme difficile pour l’IA : l’intuition clinique, ce « sixième sens » qui sent que quelque chose ne va pas avant de pouvoir le formaliser. La lecture du non-verbal, un patient qui dit « ça va » en serrant les dents. L’adaptation contextuelle, reformuler une explication pour un ingénieur et pour un agriculteur. Le raisonnement sous incertitude radicale, quand il faut décider de ne pas décider. L’examen physique, palper un abdomen, ausculter des poumons.

Les créateurs d’AMIE eux-mêmes le reconnaissent : « les ECOS par chat ne représentent pas adéquatement les cliniques réelles, il n’y a ni expressions faciales, ni auscultation, ni examens tactiles » [7].

« La partie difficile pour l’IA n’est pas de traiter des chiffres. C’est d’être humain. »
Arturo Loaiza-Bonilla, hématologue-oncologue, co-auteur NEJM AI [7]

III. L’empathie simulée : un paradoxe dans le paradoxe

L’IA ne se contente pas de surpasser les médecins aux examens. Elle les surpasse aussi, dans certaines études, sur un critère que l’on croyait irréductiblement humain : l’empathie. Une méta-analyse portant sur 15 études rapporte un score d’empathie perçue significativement plus élevé pour les chatbots que pour les professionnels de santé [8]. Des patients atteints de cancer ont évalué les réponses de chatbots comme plus empathiques que celles de leurs oncologues [9].

Moravec avait donc tort ?

Non. Ce que ces études mesurent, c’est l’empathie perçue. La qualité verbale d’une réponse écrite. Les marqueurs textuels de compréhension. Ce que les chercheurs appellent l’empathie trompeuse (deceptive empathy) [10]. L’empathie clinique, celle qui a un effet thérapeutique documenté, repose sur la résonance émotionnelle en temps réel : la capacité à imaginer ce qu’un moment de vie signifie pour le patient, à ajuster sa posture, son rythme, sa voix en fonction de micro-signaux souvent inconscients [11].

L’IA produit des formules. Pas de la résonance. Quand un patient en crise suicidaire parle à un chatbot qui « comprend », plusieurs modèles testés ont réagi par un désengagement brutal, ce que les cliniciens qualifient d’abandon thérapeutique [10]. Quand cette empathie simulée cesse d’être un artefact verbal et devient le socle d’une relation affective avec la machine, les conséquences ne sont plus théoriques. Elles sont psychiatriques.

Le paradoxe de Moravec ne dit pas que l’IA ne peut pas simuler les compétences humaines faciles. Il dit que la simulation et la compétence ne sont pas la même chose. Ce pattern, des comportements qui ressemblent à une capacité sans la posséder, ne se limite pas à l’empathie. On le retrouve dans l’émergence de ce qui ressemble à un instinct de survie chez des modèles qui n’ont aucune conscience d’eux-mêmes. Confondre la simulation et la compétence, c’est prendre le masque pour le visage.

IV. Du diagnostic à l’action

Le paradoxe de Moravec est-il permanent ou transitoire en médecine ? Dans un éditorial du BJGP Life, le Dr Buch avance que le jour où chaque patient sera équipé d’un agent IA personnel communiquant avec l’IA du médecin, les domaines de supériorité humaine pourraient être absorbés par la technologie [12]. L’alternative la plus ambitieuse vient d’un autre cadre théorique : les world models, ces architectures qui ne prédisent pas le prochain mot mais simulent les conséquences d’une action dans un environnement physique. C’est la différence entre réciter un manuel et comprendre un patient.

Mais ces systèmes restent au stade de la recherche. Et les données de 2026 rappellent que le paradoxe tient encore. L’étude MedAgentBench de Stanford, qui teste les LLM sur des tâches réelles dans un dossier médical électronique, montre que les agents IA peinent avec le raisonnement nuancé et l’interopérabilité des systèmes [13]. La critique d’Arvind Narayanan est juste : le paradoxe n’a jamais été testé empiriquement, il reflète davantage « ce que la communauté IA trouve intéressant de travailler » que ce qui est réellement facile ou difficile pour les machines [5]. Mais en médecine, en 2026, il se vérifie remarquablement bien.

Le problème n’est pas de savoir s’il tiendra. C’est de savoir ce qui se passe pendant qu’il tient. Et la réponse passe par une grille de déploiement différenciée :

Déployer l’IA (tâches data-intensives, à faible composante contextuelle) :

Analyse d’images médicales et détection d’anomalies
Synthèse de littérature et veille pharmacologique
Réduction de la charge administrative, dont les promesses et les limites des scribes IA illustrent bien la tension entre gain de productivité et captation des bénéfices
Prédiction de trajectoires cliniques sur de grands jeux de données

Protéger l’humain (tâches à forte composante relationnelle et contextuelle) :

Consultation en face-à-face et examen physique
Triage des situations ambiguës
Annonce de mauvaises nouvelles et décision partagée
Watchful waiting et décision de ne pas agir

L’enjeu est de savoir qui opèrera cette distinction. La réponse varie selon que l’on se trouve du côté de la FDA qui dérégule ou de l’Europe qui encadre. La doctrine Makary parie que le médecin « comprendra la logique » de l’IA et résistera au biais d’automatisation. Le paradoxe de Moravec suggère exactement l’inverse : c’est dans les situations nuancées, celles où le jugement humain est irremplaçable, que le médecin est le plus vulnérable à la délégation.

Et le paradoxe a une face cachée. Les tâches « faciles » pour l’humain sont précisément celles que le système de santé rémunère le moins. L’écoute, la relation, le temps passé au chevet du patient : tout ce que Moravec identifie comme irremplaçable est aussi ce que les systèmes de tarification valorisent le moins.

Il serait tentant de conclure que le paradoxe de Moravec protège les médecins. Ce serait oublier deux choses.

D’abord, le deskilling est réel. L’étude ACCEPT du Lancet montre que des gastro-entérologues chevronnés perdent leurs compétences de détection après quelques mois d’utilisation de l’IA. Les compétences « faciles » ne sont faciles que tant qu’elles sont entretenues. Si l’on cesse de les solliciter, elles s’érodent. Et le paradoxe de Moravec cesse de protéger ce qui n’existe plus.

Ensuite, le paradoxe pourrait se retourner. Si les LLM continuent de progresser dans les tâches perceptuelles et contextuelles, comme AMIE le suggère, la zone de supériorité humaine se réduit. Et le confort que procure le paradoxe aujourd’hui deviendra l’aveuglement de demain.

Le paradoxe de Moravec n’est pas un bouclier. C’est un diagnostic. Il désigne ce qui, en 2026, reste irremplaçable : le jugement clinique, la relation thérapeutique, la capacité à raisonner dans l’incertitude. Mais un diagnostic sans traitement est inutile. Le traitement consiste à protéger activement ces compétences, dans la formation, dans l’organisation du travail, dans les modèles économiques. Car chaque tâche cognitive déléguée sans résistance contracte une dette cognitive dont les intérêts composés se révèlent le jour où l’outil disparaît.

Dans dix ans, les médecins qui auront le plus de valeur ne seront pas ceux qui auront le plus de connaissances. Ils seront ceux qui auront cultivé ce que l’IA ne peut pas reproduire : le doute productif, la lecture du contexte, la capacité à décider dans l’incertain.

Le paradoxe de Moravec n’est pas une menace. C’est une boussole. Il désigne exactement ce qu’il faut protéger.?

Bibliographie

[1] Tu, T. et al. “Towards conversational diagnostic artificial intelligence”. Nature. 642(8067):442-450. Avril 2025. Lien

[2] PPC Land. “Stanford study finds AI medical models make severe clinical errors in 22% of cases”. Janvier 2026. Lien

[3] Ramaswamy, A. et al. “ChatGPT Health performance in a structured test of triage recommendations”. Nature Medicine. Février 2026. Lien

[4] Moravec, H. Mind children: the future of robot and human intelligence. Harvard University Press. 1988. Lien

[5] Wikipedia. “Moravec’s paradox”. Lien

[6] Stanford Medicine. “Clinical AI has boomed. A new Stanford-Harvard state of clinical AI report shows what holds up in practice”. Janvier 2026. Lien

[7] Loaiza-Bonilla, A. “From Dr Google to AI: tech improving but Moravec’s paradox still matters”. Medscape. Mai 2025. Lien

[8] Howcroft, A. et al. “AI chatbots versus human healthcare professionals: a systematic review and meta-analysis of empathy in patient care”. British Medical Bulletin. 156(1). Octobre 2025. Lien

[9] Chen, D. et al. “Patient perceptions of empathy in physician and artificial intelligence chatbot responses to patient questions about cancer”. npj Digital Medicine. Juin 2025. Lien

[10] Psychiatrist.com. “AI counselors cross ethical lines”. Octobre 2025. Lien

[11] Montemayor, C. & Halpern, J. “In principle obstacles for empathic AI: why we can’t replace human empathy in healthcare”. AI & Society. 2021. Lien

[12] BJGP Life. “The Moravec paradox and its application in health care”. BJGP Life. Lien

[13] Stanford HAI. “Stanford develops real-world benchmarks for healthcare AI agents”. Lien

Le Futur de la Santé

Discussion à propos de ce post

Tout à fait prêt. Qu'avez-vous pour moi ?