AI Safety vue par Polytechnique : risques, watermarking et AI Act
Par Timothé (X17, chercheur en AI safety), Pierre Fernandez (Meta FAIR), Adrien Basdevant (avocat) — 1h55 — X-IA, École polytechnique 📅 3 novembre 2025
Chaque semaine, je décrypte une conférence ou un podcast d’experts reconnus de l’IA en santé.
« Les modèles actuels ne sont pas dangereux - vous n’avez jamais été victime d’une cyberattaque dévastatrice créée par un LLM. Mais le compute d’entraînement augmente de 4 à 5 fois par an depuis 14 ans. C’est plus rapide que l’adoption des téléphones portables. »
— Timothé, X17, chercheur en AI safety
🎯 De quoi ça parle
Trois experts décortiquent la sécurité de l’IA générative sous trois angles complémentaires : l’évaluation des capacités dangereuses des modèles, le watermarking pour tracer les contenus générés, et le cadre réglementaire européen avec l’AI Act. Une vision à 360° des défis techniques et juridiques qui se posent aujourd’hui.
📌 Les 3 points clés
1. Les modèles actuels ne sont pas dangereux, mais le scaling continue
Le compute d’entraînement a été multiplié par 5000 entre GPT-2 et GPT-4. Selon EPOCH AI, cette tendance peut continuer jusqu’en 2030 avec encore un facteur 10 000, malgré des besoins énergétiques considérables (6 GW, soit un tiers des foyers français). Les entreprises comme OpenAI et Anthropic ont déjà adopté des « Responsible Scaling Policies » pour évaluer les risques CBRN, cyber, persuasion et autonomie des modèles avant chaque nouvelle génération.
2. Le watermarking améliore la détection de 10 millions de fois par rapport aux méthodes passives
Pierre Fernandez (Meta FAIR) démontre que le tatouage numérique permet de détecter plus de 80 % des images générées par IA tout en ne flaggant faussement qu’une image sur un milliard. Les méthodes passives (classifieurs entraînés) atteignent le même taux de détection avec un faux positif sur dix. Le watermarking fonctionne pour l’image, l’audio et même le texte (avec des p-values de 10⁻⁶ sur un tweet). Meta, Google et DeepMind l’ont déjà déployé en production.
3. L’AI Act européen impose des seuils techniques contestables
L’Europe a fixé le seuil de « risque systémique » à 10²⁵ FLOPS, là où les États-Unis ont choisi 10²⁶. Ce critère technique détermine les obligations de conformité des fournisseurs de modèles à usage général. Le texte est applicable depuis août 2024 avec des sanctions pouvant atteindre 7 % du chiffre d’affaires. Cependant, de nombreux codes de pratique restent à définir, et le bureau européen de l’IA consulte actuellement les acteurs du secteur.
💬 Mon regard de praticien
Cette conférence offre un panorama technique rare sur l’AI safety, loin du sensationnalisme habituel. Ce qui me frappe : le décalage entre la sophistication des méthodes d’évaluation chez les grands labs et l’absence quasi-totale de ces pratiques dans les déploiements hospitaliers. Le watermarking pourrait avoir des applications directes en imagerie médicale pour tracer les reconstructions IA. Quant à l’AI Act, son impact sur les dispositifs médicaux reste flou — les seuils de FLOPS n’ont aucun sens pour évaluer un algorithme de diagnostic.

