Pourquoi les LLM ne comprendront jamais un patient
le pari des world models
En 2026, une thèse circule dans les cercles de recherche en IA. Elle est formulée par Yann LeCun, prix Turing, l’un des trois architectes fondateurs du deep learning. Elle ne vient pas d’un commentateur extérieur. Elle vient de l’homme qui a inventé les réseaux convolutifs et dirigé la recherche fondamentale en IA chez Meta pendant plus d’une décennie.
« Nous allons avoir des systèmes d’IA dotés d’une intelligence comparable à celle des humains, mais ils ne seront pas construits sur des LLM. »
Yann LeCun, prix Turing, fondateur d’AMI Labs [1]
Pas « les LLM ont des limites ». Pas « il faudra les compléter ». Ne seront pas construits sur des LLM. La formulation est catégorique.
L’alternative qu’il propose s’appelle les world models, les modèles du monde. Et pour concrétiser cette rupture, LeCun a quitté Meta, fondé AMI Labs, une startup valorisée 3 milliards d’euros avant même d’avoir lancé le moindre produit [2], et recruté comme CEO Alexandre LeBrun, fondateur de Nabla, la startup française d’IA médicale [3]. Premier partenaire. Premier objectif déclaré : des systèmes d’IA agentiques certifiables par la FDA [4].
Pour comprendre ce que cette rupture signifie, il faut d’abord comprendre ce que les LLM font réellement quand on dit qu’ils « comprennent ». Et constater que le mot est trompeur.
Un glissement sémantique:
Le mot « comprendre », appliqué à un LLM, subit une inflation terminologique considérable.
Dans son usage courant, comprendre implique un modèle mental. Quand un médecin « comprend » qu’une embolie pulmonaire réduit le débit cardiaque droit, il ne récite pas une phrase. Il possède une représentation interne de l’hémodynamique qui lui permet de prédire ce qui se passera si le caillot migre, si la fibrinolyse échoue, si le patient décompense. Ce n’est pas du texte. C’est une simulation.
Quand un LLM « comprend » la même chose, il produit une séquence de mots statistiquement cohérente à partir de tout ce qu’il a lu sur le sujet. Il assemble des tokens. Il ne simule rien.
La distinction n’est pas de la sémantique pour philosophes. Elle détermine la nature du problème. Si les LLM « comprennent » (lecture anthropomorphique), les erreurs sont des accidents, corrigibles par plus de données ou un meilleur entraînement. Si les LLM décrivent sans comprendre (lecture structurelle), les erreurs sont des conséquences architecturales. Et le scaling, c’est-à-dire l’augmentation de la taille des modèles, ne les résoudra pas.
C’est la thèse de LeCun. Elle est radicale. Et elle mérite une explication.
Demandez à ChatGPT de décrire les symptômes d’une embolie pulmonaire. Il le fera parfaitement. Demandez-lui d’expliquer la physiopathologie de l’obstruction. Il récitera la cascade avec assurance.
Maintenant, demandez-lui de prédire ce qui se passe quand un caillot de 3 mm obstrue une artère pulmonaire segmentaire chez un patient de 72 ans avec une BPCO sous-jacente. Il produira un texte plausible. Mais il ne modélisera rien. Il ne calculera rien. Il reproduira des patterns textuels issus de la littérature médicale, pas une simulation des forces hémodynamiques en jeu.
Deux opérations cognitives radicalement différentes se jouent ici :
Prédire le prochain mot (ce que fait un LLM) : quelle suite de tokens est la plus probable après cette séquence ?
Simuler une conséquence physique (ce que fait un clinicien, ou un world model) : si j’applique cette action dans ce contexte, que va-t-il se passer dans le corps du patient ?
Un LLM génère du texte. Il ne simule pas la réalité.
Dans des articles précédents, nous avons documenté les conséquences de cette confusion. La sycophantie, où le modèle possède la bonne réponse et en produit une autre parce que la requête implique une attente. Le deskilling, où des gastro-entérologues chevronnés deviennent moins performants après avoir travaillé avec l’IA. Les hallucinations, où un chef de police britannique perd sa carrière pour avoir fait confiance à un « renseignement » inventé par Copilot.
Ces phénomènes ne sont pas des bugs. Ce sont des conséquences de l’architecture des LLM. La question n’est pas de savoir si les LLM vont s’améliorer. Ils s’améliorent. La question est de savoir si l’architecture elle-même possède un plafond structurel.
Cinq limites que le scaling ne résoudra pas
Le récit dominant depuis 2020 peut se résumer en une formule : augmentez la taille du modèle, augmentez les données, augmentez le calcul, et l’intelligence émergera. C’est la thèse du scaling. Elle a produit des résultats spectaculaires. GPT-4 rédige du code, réussit des examens médicaux, traduit en cent langues.
Mais cette thèse repose sur une confusion. On confond performance et intelligence. Or, un système peut être extraordinairement performant dans un domaine précis, les réponses aux QCM par exemple, sans posséder la moindre capacité de raisonnement au sens cognitif du terme.
LeCun identifie cinq limites structurelles. Elles ne sont pas des insuffisances temporaires. Elles sont inscrites dans l’architecture et ne pourront pas être dépassées.
Les hallucinations sont constitutives, pas accidentelles. Un LLM est non-déterministe par construction. Il produit la suite de tokens la plus probable, pas la plus vraie. Comme le formule un rapport de l’université Duke : les LLM actuels sont entraînés à produire la réponse statistiquement la plus probable, pas à évaluer leur propre degré de certitude [5]. Aucune quantité de données supplémentaire ne changera cette mécanique.
L’absence de modèle du monde. Le LLM ne « sait » pas que les objets tombent, que l’eau coule vers le bas, qu’une artère obstruée réduit le débit sanguin en aval. Il a lu ces informations dans du texte. Ce n’est pas la même chose que de les comprendre. La différence est celle qui existe entre lire un guide de voyage sur Tokyo et avoir marché dans ses rues.
« Les LLM sont limités au monde discret du texte. Ils ne peuvent ni véritablement raisonner ni planifier, parce qu’il leur manque un modèle du monde. Ils ne peuvent pas prédire les conséquences de leurs actions. C’est pourquoi nous n’avons pas de robot domestique aussi agile qu’un chat, ni de voiture véritablement autonome. »
Yann LeCun, MIT Technology Review [1]
Pas de raisonnement causal. Les LLM repèrent des corrélations statistiques dans des corpus massifs. Corrélation n’est pas causalité. Quand un modèle « explique » pourquoi un médicament fonctionne, il restitue les co-occurrences lexicales les plus fréquentes entre le nom du médicament et ses effets documentés. Il ne modélise pas le mécanisme d’action. Une étude publiée dans Scientific Reports montre que les LLM, y compris les plus avancés (o1, Gemini, Claude, DeepSeek), échouent face à des scénarios cliniques exigeant un raisonnement flexible, par « fixation de pensée » héritée des patterns de leurs données d’entraînement [6].
Pas de planification. La génération token par token est un processus réactif. LeCun le compare au Système 1 de Kahneman : rapide, automatique, sans délibération. La planification exige un Système 2, une capacité à simuler mentalement plusieurs scénarios futurs avant de choisir une action. Les LLM ne planifient pas. Ils complètent.
Pas de mémoire persistante. Chaque conversation repart fonctionnellement de zéro. Les mécanismes de « mémoire » ajoutés récemment sont des palliatifs, pas des solutions architecturales. Un clinicien intègre des années d’expérience dans chaque décision. Le LLM ne retient que ce qu’on lui injecte dans le contexte immédiat.
Ces cinq limites ne sont pas des prédictions. Ce sont des constats architecturaux. Ils ne disent pas que les LLM sont inutiles. Ils disent que leur utilité a un périmètre, et que ce périmètre ne coïncide pas avec ce que le mot « intelligence » promet.
La question devient alors : si le texte ne suffit pas, sur quoi construire ?
Les world models : un terme technique,
Le terme « world model » souffre, pour l’instant, du problème inverse de celui des LLM. Là où « intelligence » est appliqué trop généreusement aux LLM, « world model » reste flou pour la plupart des observateurs. Il sonne comme une métaphore. Ce n’en est pas une. C’est un concept technique précis, formulé par LeCun dès 2022 dans un article fondateur intitulé A path towards autonomous machine intelligence [7].
La définition structurelle est la suivante : un world model est un système qui possède une simulation interne du fonctionnement du monde, capable de prédire ce qui va se passer si telle action est effectuée dans tel contexte.
L’analogie la plus éclairante est développementale. Un nourrisson de six mois sait déjà qu’un objet lâché va tomber. Il n’a lu aucun texte sur la gravité. Il a observé le monde, et son cerveau a construit un modèle interne de la physique intuitive. Pas à partir de mots. À partir de perception sensorielle directe.
C’est exactement ce que les world models cherchent à reproduire.
L’architecture proposée par LeCun s’appelle JEPA (Joint Embedding Predictive Architecture). Sa distinction d’avec les LLM est structurelle, pas cosmétique :
Un LLM prédit le prochain token dans une séquence de texte. Il opère dans l’espace des mots.
JEPA prédit la prochaine représentation abstraite d’un état du monde. Il opère dans un espace de concepts.
« Le monde est imprévisible. Si vous essayez de construire un modèle génératif qui prédit chaque détail du futur, il échouera. JEPA n’est pas de l’IA générative. La clé est d’apprendre une représentation abstraite du monde et de faire des prédictions dans cet espace abstrait, en ignorant les détails qu’on ne peut pas prédire. C’est comme un bébé qui apprend la gravité. »
Yann LeCun, MIT Technology Review [1]
Prenons un exemple concret. Un LLM qui « regarde » une vidéo d’un ballon lancé en l’air essaierait de prédire chaque pixel de l’image suivante : les nuages, les ombres, les reflets, le ballon. JEPA, lui, encode une représentation abstraite de la scène (« objet en mouvement ascendant, soumis à la gravité ») et prédit la trajectoire conceptuelle du ballon, sans se perdre dans les détails visuels non pertinents [8].
Cette capacité d’abstraction est ce qui distingue décrire et comprendre. Le LLM décrit le monde en mots. Le world model le simule en concepts.
Les données d’entraînement changent aussi radicalement. Les LLM apprennent à partir de texte. Les world models apprennent à partir de vidéos, audio, données de capteurs. C’est une différence qui n’est pas incrémentale. Elle est architecturale.
« Nos systèmes seront entraînés sur de la vidéo, de l’audio et des données de capteurs de toutes sortes, pas uniquement du texte. Nous travaillons avec différentes modalités, de la position d’un bras robotique au lidar en passant par l’audio. Je suis aussi impliqué dans un projet utilisant JEPA pour modéliser des phénomènes physiques et cliniques complexes. »
Yann LeCun, MIT Technology Review [1]
Ce que ça change pour la médecine, et ce que ça ne change pas encore
Reprenons notre cas d’embolie pulmonaire.
Un LLM produit un texte plausible sur les conséquences possibles. Un world model, en théorie, simulerait l’interaction entre le caillot, la paroi artérielle, l’hémodynamique pulmonaire et les comorbidités du patient. Il produirait non pas une description textuelle, mais une prédiction causale : si caillot de taille X dans artère de calibre Y chez patient avec fonction cardiaque Z, alors probabilité W de décompensation dans les 48 heures.
Les applications potentielles en santé se déclinent sur plusieurs niveaux :
Planification chirurgicale. Un world model pourrait simuler les conséquences d’une incision, d’une résection, d’un positionnement d’implant, en tenant compte de l’anatomie spécifique du patient.
Simulation pharmacologique. Prédire les interactions spécifiques chez un patient donné, avec son profil génétique, ses comorbidités et ses traitements concomitants. Pas les effets secondaires listés dans la littérature. Les effets pour ce patient-là.
Robotique médicale. Les robots chirurgicaux actuels suivent des commandes. Un robot équipé d’un world model anticiperait les conséquences de chaque geste avant de l’exécuter.
Monitoring prédictif. En soins intensifs, un world model entraîné sur les données de capteurs pourrait prédire une décompensation avant qu’elle ne se manifeste cliniquement. Non pas par corrélation statistique (ce que font déjà certaines IA prédictives), mais par simulation causale.
La promesse est considérable. LeCun lui-même mentionne des projets utilisant JEPA pour « modéliser des phénomènes physiques et cliniques complexes » [1]. Le partenariat entre AMI Labs et Nabla vise explicitement à produire des systèmes d’IA agentiques certifiables par la FDA [4].
Mais ici, l’analyse structurelle doit tempérer l’enthousiasme. Et refuser le glissement si fréquent dans le discours sur l’IA : confondre une promesse avec un résultat.
Rien de tout cela n’existe aujourd’hui en application clinique validée.
Les world models sont au stade de la recherche fondamentale. VL-JEPA, la version la plus avancée, a été publiée en décembre 2025 [10]. Aucun benchmark médical n’a été validé. Aucun essai clinique n’a été mené. L’objectif de certification FDA affiché par Nabla reste, à ce stade, une déclaration d’intention.
Il serait irresponsable de reproduire avec les world models le cycle hype/déception qu’on a connu avec les LLM en médecine. En 2023, Sam Altman spéculait sur un futur où l’on pourrait « demander à ChatGPT de guérir le cancer ». En 2026, on documente des taux d’erreurs cliniques graves de 12 à 40 pour 100 cas patients réels, de la sycophantie à 58 % et du deskilling mesurable après trois mois d’usage.
La prudence impose de distinguer trois temporalités :
Court terme (2026-2027) : les world models n’auront aucun impact clinique direct. Leur développement est au stade de la preuve de concept.
Moyen terme (2028-2030) : des applications en robotique et en simulation pourraient émerger, d’abord dans des environnements contrôlés (industrie, logistique), puis potentiellement en chirurgie assistée.
Long terme (2030+) : si l’architecture tient ses promesses, des systèmes capables de raisonnement causal en médecine pourraient voir le jour. C’est un « si » de taille.
« Les LLM, c’est de la technologie, plus de la recherche. C’est comme la reconnaissance vocale au début des années 2010 : un problème résolu, dont le progrès est entre les mains de l’industrie. Ce que le monde académique devrait faire, c’est travailler sur des objectifs à long terme qui dépassent les capacités des systèmes actuels. C’est pourquoi je dis aux chercheurs : ne travaillez pas sur les LLM. Ça ne sert à rien. Inventez de nouvelles techniques. Les percées ne viendront pas du scaling des LLM. »
Yann LeCun, MIT Technology Review [1]
Le miroir
Pour la première fois dans l’histoire de l’humanité, une entité non humaine nous parle. Elle produit des phrases grammaticalement correctes, contextuellement pertinentes, dans notre langue. Aucune technologie antérieure n’avait franchi cette frontière.
Et notre cerveau, câblé par des centaines de milliers d’années d’interactions sociales, applique spontanément à tout interlocuteur verbal les schémas mentaux qu’il réserve aux agents conscients : intention, compréhension, jugement. C’est de l’anthropomorphisme, et il est structurellement inévitable.
Le reconnaître n’est pas une faiblesse. Refuser de le corriger, en revanche, c’est se condamner à confondre l’impression subjective d’intelligence avec sa présence réelle. Et c’est précisément cette confusion qui rend si difficile l’examen lucide des limites que nous avons documentées dans cet article.
LeCun a peut-être tort sur la solution. Les world models resteront peut-être un concept élégant mais impraticable. Les LLM continueront peut-être de s’améliorer suffisamment pour contourner leurs limites structurelles par des mécanismes ad hoc : outils, RAG, chaînes de pensée, agents.
Mais même si LeCun se trompe sur la solution, il a probablement raison sur le diagnostic. Et ce diagnostic tient en une phrase : nous avons pris la fluence verbale pour de l’intelligence.
« La partie véritablement difficile, c’est comprendre le monde réel. C’est le paradoxe de Moravec : ce qui est facile pour nous, comme la perception et la navigation, est difficile pour les ordinateurs. Et inversement. »
Yann LeCun [1]
Les world models promettent une IA qui simule plutôt qu’elle ne génère. Qui prédit les conséquences plutôt qu’elle ne complète les phrases. Si cette promesse se réalise, elle transformera la médecine. Si elle ne se réalise pas, elle aura au moins eu le mérite de poser la bonne question.
Aucun modèle, qu’il soit de langage ou du monde, ne répondra à cette question pour vous.
Bibliographie
[1] Chen, C. “Yann LeCun’s new venture is a contrarian bet against large language models“. MIT Technology Review. 22 janvier 2026.
[2] Sifted. “Yann LeCun raising €500m at €3bn valuation for new AI startup“. Sifted. 18 décembre 2025.
[3] TechCrunch. “Who’s behind AMI Labs, Yann LeCun’s ‘world model’ startup“. TechCrunch. 23 janvier 2026.
[4] TechCrunch. “Yann LeCun confirms his new ‘world model’ startup, reportedly seeks $5B+ valuation“. TechCrunch. 19 décembre 2025.
[5] Duke University Libraries. “It’s 2026. Why are LLMs still hallucinating?“. Duke University Libraries Blogs. 5 janvier 2026.
[6] Kim, J. et al. “Limitations of large language models in clinical problem-solving arising from inflexible reasoning“. Scientific Reports. 11 novembre 2025.
[7] LeCun, Y. “A path towards autonomous machine intelligence, version 0.9.2“. OpenReview. 27 juin 2022.
[8] Turing Post. “AI 101: what is LeJEPA? The theory upgrade JEPA has been missing“. Turing Post. 19 novembre 2025.
[9] Meta AI. “I-JEPA: the first AI model based on Yann LeCun’s vision for more human-like AI“. Meta AI Blog. 13 juin 2023.
[10] Sinha, H. “What VL-JEPA could revolutionize in multimodal intelligence“. Medium. 12 janvier 2026
.

