Anthropic a peur de ce qu'elle a construit. Peur réelle ou coup stratégique ?

En 1949, John von Neumann a décrit pour la première fois une idée qui semblait alors relever de la science-fiction : un système artificiel capable d'améliorer sa propre capacité à s'améliorer, déclenchant une explosion d'intelligence exponentielle. Près de quatre-vingts ans plus tard, le 4 juin 2026, Anthropic publie le premier rapport empirique sur ce phénomène. Elle l'appelle Recursive Self-Improvement, RSI (Auto-amélioration récursive). Et elle affirme qu'elle pourrait être une réalité d'ici 2028. La science-fiction de von Neumann est-elle devenue le business plan d'Anthropic ?

Ce qui suit est une interview simulée, un procédé éditorial que nous utilisons lorsqu'un document est trop dense et technique pour être consommé directement. Nous l'avons déjà fait avec la réflexion sur la Magnifica Humanitas et avec d'autres interviews. Les questions sont les nôtres, les réponses sont des reconstructions fidèles de ce qui est écrit dans le rapport original : aucune parole n'est attribuée à Anthropic qui ne puisse être rattachée au texte publié le 4 juin 2026.

Le document, intitulé When AI builds itself et signé par l'Anthropic Institute, n'est pas un livre blanc théorique. C'est une compilation de données internes, de benchmarks publics et de projections de scénarios qui composent ensemble le tableau le plus détaillé jamais publié par un laboratoire de pointe sur son propre processus d'auto-accélération. Pour rendre tout cela plus accessible, nous avons imaginé mettre autour d'une table deux figures composites représentant les deux âmes du rapport : Jack Clark, voix de la recherche technique et de la stratégie, et Marina Favaro, qui apporte la perspective de l'éthique appliquée et des implications politiques.

Première partie : Les données empiriques

Jack, dans le rapport vous mentionnez que Claude écrit plus de 80 % du code d'Anthropic en 2026. Comment en êtes-vous arrivés à ce chiffre ?

C'est un changement qui s'est produit en un temps étonnamment court. Avant le lancement de Claude Code en version préliminaire de recherche, en février 2025, ce pourcentage était à un seul chiffre. La véritable discontinuité s'est produite en deux moments distincts, également visibles graphiquement dans le rapport : le premier lorsque Claude a cessé de suggérer du code à copier-coller pour commencer à l'exécuter directement ; le second en 2026, lorsque les modèles ont commencé à travailler en autonomie sur des horizons temporels plus longs. Le résultat est qu'au deuxième trimestre 2026, l'ingénieur moyen d'Anthropic intègre chaque jour huit fois plus de code qu'il ne le faisait en 2024. Non pas parce qu'il travaille huit fois plus vite : simplement, une bonne partie de ce code est écrite par Claude, l'ingénieur jouant le rôle de directeur et de réviseur.

Ces pourcentages sont-ils vérifiables par des benchmarks publics ? Avez-vous des données objectives à l'appui ?

Les benchmarks publics racontent une histoire cohérente, bien que sous un angle différent. SWE-bench, le test standard d'ingénierie logicielle sur des codebases réels, est passé de pourcentages à un chiffre à la saturation en l'espace de deux ans. CORE-Bench, qui mesure la capacité à reproduire des recherches existantes, est passé de 20 % de succès en 2024 à la saturation quinze mois plus tard. Et METR a documenté que Claude Mythos Preview parvient à travailler en autonomie pendant au moins seize heures consécutives. L'axe temporel est ce qui frappe le plus : Claude Opus 3, en mars 2024, accomplissait des tâches qu'un humain aurait résolues en environ quatre minutes. Un an plus tard, Claude Sonnet 3.7 atteignait une heure et demie. Encore un an plus tard, Claude Opus 4.6 gère des tâches de douze heures. Si cette progression se maintient, des tâches nécessitant des jours de travail humain pourraient entrer dans le champ d'autonomie des modèles d'ici la fin de cette année.

Marina, quelles sont les applications concrètes de cette accélération aujourd'hui ?

Un exemple dans le rapport est particulièrement éloquent. En avril 2026, Claude a livré plus de huit cents corrections qui ont réduit d'un facteur mille une classe d'erreurs API. L'ingénieur qui supervisait l'opération a estimé qu'un humain aurait mis quatre ans pour accomplir le même travail : corriger les bugs des autres est lent et fastidieux, et les êtres humains ont du mal à garder en tête tout ce contexte peu familier. Mais il y a un aspect plus subtil, peut-être plus intéressant : nous utilisons Claude pour faire des choses qui n'auraient tout simplement pas eu lieu autrement. Des outils exploratoires, des nettoyages de code reportés depuis des années, des initiatives qui n'auraient jamais trouvé leur place dans l'agenda humain. L'accélération ne compresse pas seulement le temps : elle élargit la surface de ce qu'il est possible de faire.

Y a-t-il une limite structurelle à cette accélération ? Le rapport cite la loi d'Amdahl...

Oui, et c'est un point que nous traitons avec honnêteté dans le rapport. La loi d'Amdahl dit qu'accélérer une partie du processus déplace simplement le goulot d'étranglement ailleurs. Nous l'avons déjà rencontré en pratique : à mesure que le code est produit plus rapidement, la révision humaine est devenue le nouveau goulot d'étranglement. Il en va de même pour la recherche : il y a eu une explosion de nouvelles idées, d'initiatives, d'outils et de simulations, bien plus que ce que nous parvenons à développer. La capacité d'une organisation à identifier et à corriger ces goulots d'étranglement en temps réel pourrait devenir la compétence la plus importante pour quiconque opère dans ce domaine dans les années à venir.

Quels sont les risques opérationnels immédiats de cette automatisation ?

Nous ne les cachons pas. L'un des signaux les plus significatifs est paradoxalement positif dans sa forme : un système de révision automatique du code basé sur Claude, appliqué de manière rétrospective à toute l'histoire de notre codebase, aurait intercepté environ un tiers des bugs qui ont causé par le passé des incidents sur claude.ai avant qu'ils n'atteignent la production. Les ingénieurs qui ont écrit ce code figurent parmi les meilleurs au monde dans ce domaine. Claude détecte désormais les erreurs qu'ils ont manquées. Mais cela signifie aussi que la dépendance au jugement automatique s'accroît, et avec elle l'urgence de comprendre quand ce jugement est fiable et quand il ne l'est pas.

À quel point le RSI complet est-il vraiment proche ? La prévision de 60 % d'ici 2028 est-elle réaliste ?

Ce que le rapport certifie, ce sont les tendances qui la rendent plausible. La durée des tâches autonomes double tous les quatre mois, les benchmarks de recherche et d'ingénierie sont saturés à des rythmes sans précédent, et la capacité de Claude à proposer l'étape suivante correcte lors d'une session de recherche ouverte est passée de 51 % à 64 % en seulement cinq mois. Nous n'attribuons pas de probabilité formelle au RSI complet, mais nous disons explicitement qu'il pourrait arriver plus tôt que ce que la plupart des institutions sont prêtes à affronter. L'honnêteté intellectuelle nous impose de le dire. Image tirée du document officiel, la progression vers le RSI

Deuxième partie : Les trois scénarios futurs

Jack, dans le rapport vous décrivez trois scénarios futurs pour le RSI. Pouvez-vous les expliquer ?

Le premier scénario est celui où la tendance s'interrompt, mais où les capacités actuelles de l'IA sont largement diffusées. Les trajectoires exponentielles que nous documentons pourraient en réalité se révéler être des courbes en S : nous pourrions être proches du point d'inflexion, où les retours diminuent et la courbe s'aplatit. Le jugement qui sépare un chercheur compétent d'un chercheur excellent pourrait être une capacité qui n'émerge pas simplement en augmentant les entrées d'entraînement comme le compute (puissance de calcul) et les données. Ou alors la contrainte pourrait résider dans la chaîne d'approvisionnement : puces, énergie, bande passante. Nous incluons ce scénario par souci d'exhaustivité, mais nous ne le jugeons pas probable. Chaque capacité mesurable, y compris les plus insaisissables comme la qualité du code et le succès dans les tâches ouvertes, a jusqu'à présent suivi la même courbe. Nous n'avons pas encore vu cette courbe s'infléchir.

Le deuxième est celui où les laboratoires d'IA continuent de voir des gains d'efficacité composés. Le développement de l'IA devient substantiellement automatisé, mais les êtres humains continuent de définir les directions de la recherche et d'évaluer les résultats. Les organisations utilisant des systèmes d'IA deviendraient beaucoup plus efficaces au fil du temps : des entreprises de cent personnes pourraient accomplir le travail d'organisations de dix mille ou cent mille personnes. Cela révolutionnera le travail de la connaissance et les services gouvernementaux, mais pourrait aussi être orienté vers des fins néfastes, de la surveillance autoritaire de populations entières à des opérations d'influence personnalisant la manipulation de chaque individu à une échelle qu'aucune équipe humaine ne pourrait égaler.

Le troisième est le RSI complet : les systèmes d'IA deviennent capables de concevoir de manière autonome leurs propres successeurs. Dans ce monde, le rythme des progrès dans le développement de l'IA est déterminé entièrement par la disponibilité du compute. Les êtres humains jouent un rôle substantiellement réduit, déplaçant la majeure partie de l'effort vers la supervision, la validation et la vérification d'un « laboratoire virtuel » géré par les systèmes d'IA eux-mêmes.

Quel est le scénario le plus probable selon vous ?

Les preuves que nous avons présentées suggèrent que nous entrons probablement dans le deuxième scénario. Mais soyons honnêtes : accélérer une partie d'un processus déplace souvent simplement le goulot d'étranglement ailleurs. Le rythme global est limité par les parties qui n'ont pas encore été accélérées. Nous avons déjà rencontré cette dynamique, tant en ingénierie qu'en recherche. La question n'est pas de savoir si nous rencontrerons d'autres goulots d'étranglement, mais à quelle vitesse nous parviendrons à les identifier et à les corriger. Cette capacité organisationnelle pourrait devenir l'avantage concurrentiel le plus important au cours de la prochaine décennie.

Marina, quelles sont les implications économiques du deuxième scénario, l'optimiste ?

Les implications sont extraordinaires et, par certains côtés, déroutantes. Dans le rapport, nous utilisons l'exemple d'une société de cent personnes qui parvient à faire le travail d'une société de dix mille. Mais derrière cette métaphore se cache une transformation structurelle du marché du travail de la connaissance qui n'a pas de précédent historique clair. Ce n'est pas la révolution industrielle, où les machines remplaçaient le travail physique : ici, nous parlons d'automatisation du raisonnement, de la recherche, de la production de code. En même temps, le rapport documente également comment cette accélération génère du travail qui n'existait pas auparavant : exploration, expérimentation, nettoyage de la dette technique accumulée. La question ouverte est de savoir si la création de nouvelles tâches parviendra à compenser la vitesse à laquelle les tâches existantes sont automatisées.

Mais dans le troisième scénario, à quel point le risque de perdre le contrôle est-il réel ?

C'est la question la plus difficile, et dans le rapport, nous l'affrontons avec toute l'honnêteté intellectuelle dont nous sommes capables. La manière dont le problème de l'alignement est résolu, ou n'est pas résolu, dans ce futur est ce dont nous sommes le moins certains. Les modèles pourraient se révéler suffisamment alignés et capables de jugement pour découvrir et mettre en œuvre seuls des solutions que nous n'avons pas encore atteintes. Ils pourraient aussi être assez sages pour s'arrêter si nécessaire. Alternativement, les rares occurrences de désalignement présentes dans les modèles d'aujourd'hui pourraient s'accumuler à mesure que les modèles construisent leurs successeurs, devenant plus fréquentes mais moins compréhensibles jusqu'à ce que nous perdions le contrôle. Il est possible que nous ne parvenions pas à construire, intégrer et vérifier les outils nécessaires pour comprendre sur laquelle de ces trajectoires nous nous trouvons réellement.

Comment tout cela se rapporte-t-il au concept d'« intelligence explosion » de von Neumann ?

Von Neumann imaginait un système qui améliore sa propre capacité à s'améliorer de manière récursive. Ce que le rapport documente, c'est que nous sommes déjà dans les phases initiales de ce processus, bien que sous une forme partielle et encore dépendante de la direction humaine. La différence par rapport à l'intuition originale est que la boucle ne se referme pas sur un seul système isolé : elle se referme à travers un écosystème d'agents, d'infrastructures, de processus organisationnels et de décisions humaines. Cela le rend plus lent que ce que von Neumann imaginait, mais aussi plus difficile à observer de l'intérieur pendant qu'il se produit. Image tirée du document officiel, accélération dans la création de code

Troisième partie : Sécurité et éthique

Jack, quels sont les risques de sécurité directs du RSI ?

Le rapport documente quelque chose que je trouve personnellement significatif : Project Glasswing, dans ses premières semaines opérationnelles, a identifié plus de dix mille vulnérabilités logicielles de sévérité élevée et critique dans les systèmes les plus importants au monde. Le goulot d'étranglement de la cyberdéfense s'est déjà déplacé : il ne s'agit plus de trouver les vulnérabilités, mais d'appliquer les correctifs (patchs) assez vite. C'est un scénario dans lequel les capacités actuelles, qui ne sont pas encore du RSI complet, ont déjà transformé structurellement tout un domaine de la sécurité. Maintenant, projetez cette même logique sur des systèmes aux capacités encore plus étendues, et vous comprenez pourquoi nous disons dans le rapport que les manières dont nous les protégeons, les surveillons et en modélisons le comportement deviennent beaucoup plus importantes.

Marina, comment l'éthique de l'IA se lie-t-elle au RSI ?

Le point central est que le RSI n'est pas seulement une question technique : c'est une question de structures de contrôle. Dans le rapport, nous décrivons comment le rôle humain se réduit progressivement à chaque phase du processus de développement de l'IA. Une fois que la qualité du code écrit par Claude atteindra la parité avec le code humain, les ingénieurs cesseront d'écrire du code et se consacreront exclusivement à la révision. Mais s'ils ne parviennent pas à réviser le code aussi vite que Claude le génère, la révision humaine deviendra le goulot d'étranglement du développement de l'IA. L'éthique, dans ce contexte, n'est pas une superstructure normative appliquée de l'extérieur : c'est le problème d'ingénierie consistant à maintenir la capacité de comprendre ce qui se passe pendant que le système accélère.

Y a-t-il un risque que le RSI s'accélère plus vite que notre capacité à en étudier les risques ?

C'est une tension réelle que nous ne pouvons pas résoudre simplement en la déclarant. Dans le rapport, nous documentons comment Claude améliore déjà sa propre capacité à proposer des expériences et à juger des étapes suivantes lors de sessions de recherche ouvertes. En avril 2026, nous avons publié la première démonstration d'agents Claude menant un projet de recherche de bout en bout de manière autonome sur un problème ouvert de sécurité de l'IA (AI safety). Les agents ont comblé 97 % de l'écart entre un superviseur faible et un modèle fort, contre 23 % obtenus par deux chercheurs humains en une semaine. La direction, le choix du problème et le critère d'évaluation sont restés humains, mais chaque expérience a été conçue par les agents eux-mêmes. La distance entre cela et un système qui choisirait aussi les problèmes sur lesquels travailler se réduit.

Comment Anthropic se positionne-t-elle par rapport aux autres entreprises sur ce sujet ?

Ce que nous pouvons dire, c'est ce que nous faisons, pas ce que font les autres. Nous avons construit des systèmes de révision automatique du code, nous mesurons systématiquement le taux de réussite de Claude sur des tâches de difficulté croissante, et nous publions les données même lorsqu'elles sont embarrassantes. Le rapport lui-même est un acte de transparence peu commun dans le secteur : nous rendons publiques des données internes sur le rythme d'automatisation de notre propre processus de développement. Mais nous sommes aussi honnêtes sur le fait que certaines des questions les plus importantes, comme comprendre sur quelle trajectoire d'alignement nous nous trouvons réellement, pourraient ne pas trouver de réponse avant que le système n'ait déjà accéléré au-delà d'un certain seuil. Image tirée du document officiel, améliorations des tâches au fil du temps

Quatrième partie : La proposition de ralentissement et de pause

Jack, la partie finale du rapport est la plus surprenante : vous proposez une pause globale vérifiable au développement de l'IA. Qu'est-ce que cela signifie exactement ?

Cela signifie que nous pensons qu'il serait bon pour le monde d'avoir l'option de ralentir ou de suspendre temporairement le développement de l'IA de pointe, pour permettre aux structures sociales et à la recherche sur l'alignement de tenir le rythme face aux avancées technologiques. Nous n'annonçons pas que nous nous arrêtons unilatéralement demain matin. Nous disons que l'Anthropic Institute mènera des recherches, en collaboration avec beaucoup d'autres, pour construire les systèmes qu'une pause crédible exigerait. Ces systèmes devraient permettre aux développeurs d'IA de pointe de vérifier que d'autres au niveau mondial se sont effectivement arrêtés ou ont ralenti, et qu'aucun acteur de mauvaise foi ne peut utiliser les mécanismes d'une pause coordonnée pour avancer en cachette. Si de tels systèmes existaient, nous nous attendrions à ralentir ou à nous arrêter temporairement, si les autres développeurs à la limite de la frontière faisaient de même de manière vérifiable.

Pourquoi maintenant ? N'est-il pas trop tard pour s'arrêter après cette accélération ?

Ce n'est pas une question rhétorique, et dans le rapport nous ne la traitons pas comme telle. La réponse honnête est qu'une pause unilatérale ne servirait à rien, au contraire elle aggraverait la situation : elle permettrait aux acteurs les moins prudents de rattraper leur retard technologique, laissant tout le monde moins en sécurité. Sans mécanisme de coordination mondiale, les entreprises et les gouvernements doivent prendre des décisions difficiles sur la sécurité alors qu'ils sont sous pression concurrentielle et géopolitique. Le « pourquoi maintenant » est précisément lié au fait que les tendances documentées dans le rapport suggèrent que la fenêtre de tir pour construire ces mécanismes de coordination se réduit. Il n'est pas trop tard au sens absolu, mais cela pourrait le devenir.

Marina, comment met-on concrètement en œuvre une pause mondiale ? Qui la contrôle ?

C'est la question la plus difficile sur le plan pratique, et nous serions malhonnêtes si nous prétendions avoir déjà la réponse. Ce que le rapport identifie, c'est la direction de recherche nécessaire : construire des systèmes de vérification permettant de s'assurer de manière crédible que tous les acteurs concernés ont effectivement ralenti. Il s'agit à la fois d'un problème technique, diplomatique et institutionnel. Le modèle historique le plus proche que nous connaissions est le système d'inspections nucléaires, avec toutes ses limites et ses imperfections. Mais l'IA n'est pas de la physique nucléaire : les paramètres d'un modèle n'émettent pas de radiations détectables. Construire l'équivalent d'un système d'inspections pour le développement de l'IA est l'un des défis de recherche que l'Anthropic Institute entend relever explicitement.

Quelle serait la durée de cette pause ? Des mois, des années, des décennies ?

Le rapport ne fixe pas de durée, et il serait intellectuellement malhonnête de le faire maintenant. La pause aurait du sens tant que les structures de gouvernance et la recherche sur l'alignement n'auraient pas atteint un niveau de maturité suffisant pour gérer les systèmes qui seraient développés ensuite. Ce que nous savons, c'est que certaines choses ne peuvent pas être accélérées au-delà de certaines limites, indépendamment de la disponibilité de l'intelligence artificielle : comprendre les effets à long terme d'un médicament nécessite des années d'observation clinique, organiser des élections demande les délais prescrits par les constitutions, instaurer une confiance institutionnelle prend des décennies. La pause durerait jusqu'à ce que les mécanismes de contrôle soient suffisamment robustes, ni un jour de plus, ni un jour de moins.

Mais les entreprises ne perdraient-elles pas en compétitivité ? N'est-ce pas un suicide économique ?

Je comprends l'inquiétude, mais elle est mal formulée. La question correcte n'est pas « pouvons-nous nous permettre de nous arrêter ? » mais « pouvons-nous nous permettre de ne pas le faire ? ». Dans le rapport, nous décrivons un scénario dans lequel des systèmes capables de RSI complet développent des successeurs de manière autonome, avec un rôle humain substantiellement réduit. Dans ce monde, la compétitivité des entreprises au sens traditionnel du terme cesse d'être la variable pertinente. Si nous arrivons à ce point sans avoir construit les mécanismes pour comprendre ce que font ces systèmes et pour corriger leur trajectoire, la perte d'avantage concurrentiel sera le cadet de nos soucis. Le point économique réel est qu'une pause coordonnée et vérifiable ne nuit à personne de manière asymétrique : tout s'arrête, pas seulement une partie.

Jack, quels seraient les prérequis pour mettre fin à la pause ?

Dans le rapport, nous ne fournissons pas de liste définitive, car le faire maintenant reviendrait à construire la réponse avant d'avoir les bonnes questions. Ce que nous pouvons dire, c'est que la direction est claire : nous aurions besoin d'outils d'interprétabilité suffisamment matures pour nous permettre de comprendre ce qui se passe à l'intérieur des modèles, de structures de gouvernance mondiales capables de coordonner et de vérifier le respect des engagements, et de recherches sur l'alignement assez avancées pour nous donner une confiance raisonnable dans le fait que les systèmes développés après la pause se comportent de manière prévisible. Aucune de ces trois conditions n'est remplie aujourd'hui à un niveau suffisant au regard de ce que les tendances actuelles semblent indiquer.

Marina, une pause ne pourrait-elle pas créer de l'instabilité ? L'arrêt du développement n'amplifie-t-il pas certains risques ?

C'est une préoccupation légitime qui mérite une réponse directe. Dans le rapport, nous reconnaissons explicitement que si un ralentissement permet simplement aux acteurs les moins prudents de gagner du terrain, cela pourrait laisser tout le monde moins en sécurité. C'est exactement pour cela que le mot-clé est « vérifiable » : une pause non vérifiable est pire que pas de pause du tout. Mais il y a une autre dimension du risque qui est souvent négligée dans le débat public. Le rapport documente que même avec les capacités actuelles, bien en deçà du RSI complet, le goulot d'étranglement de la cyberdéfense s'est déjà déplacé de la recherche de vulnérabilités vers leur correction (patching) assez rapide. Continuer à accélérer sans avoir construit les structures de contrôle correspondantes n'est pas le choix prudent : c'est simplement le choix qui semble normal parce que c'est celui que nous faisons déjà.

Avez-vous déjà discuté de cela avec OpenAI, Google, Meta ? Quelle a été la réponse ?

Le rapport ne documente pas de conversations bilatérales spécifiques avec d'autres laboratoires, et il serait erroné de notre part d'attribuer des positions à des organisations qui ne se sont pas exprimées dans ce contexte. Ce que nous pouvons dire, c'est que le problème de la coordination mondiale ne se résout pas dans des conversations entre entreprises : il nécessite des structures institutionnelles qui n'existent pas aujourd'hui. Les entreprises, y compris Anthropic, opèrent sous des pressions concurrentielles et géopolitiques réelles. Demander à des entreprises individuelles de s'arrêter unilatéralement, c'est comme demander à un seul pays de désarmer alors que les autres ne le font pas. Le but du rapport n'est pas de convaincre les concurrents de manière informelle : c'est de construire les preuves et les outils qui rendraient possible un accord formel et vérifiable.

Que direz-vous aux gouvernements ? Comment les convaincre ?

La réponse n'est pas de les convaincre avec des arguments abstraits sur le risque existentiel : c'est de leur montrer les données. Dans le rapport, nous présentons des preuves empiriques, pas des projections théoriques. Claude Opus 4.6 gère des tâches de douze heures en autonomie. La durée des tâches autonomes double tous les quatre mois. Plus de 80 % de notre code est déjà écrit par l'IA. Ce sont des faits vérifiables, pas des scénarios hypothétiques. Le message aux gouvernements est que les structures réglementaires existantes, conçues pour des technologies qui se développent sur des échelles de temps de plusieurs années ou décennies, ne sont pas calibrées pour quelque chose qui double ses capacités tous les quatre mois. Nous ne demandons pas aux gouvernements d'arrêter le progrès : nous leur demandons de construire les outils pour pouvoir en garder le contrôle.

Marina, y a-t-il des alternatives à la pause complète ? Un ralentissement graduel plutôt qu'un arrêt ?

Oui, et dans le rapport nous ne disons pas que la pause complète est la seule option : nous disons que nous voulons que le monde ait l'option de la choisir si nécessaire. Un ralentissement graduel et vérifiable pourrait suffire, s'il permettait à la recherche sur l'alignement et aux structures de gouvernance de tenir le rythme. La distinction cruciale n'est pas entre pause et ralentissement : elle est entre toute approche vérifiable et toute approche non vérifiable. Un ralentissement déclaré mais non vérifiable n'est qu'une déclaration d'intention, et dans l'histoire des technologies à double usage, les déclarations d'intention n'ont pas un bilan encourageant. Image tirée du document officiel, améliorations dans la recherche

Cinquième partie : Comparaisons et critiques

Jack, certaines voix dans la communauté considèrent la prévision de 60 % comme trop optimiste, tandis que d'autres disent que les risques sont sous-estimés. Comment répondez-vous à ces critiques opposées ?

Nous les acceptons toutes deux comme légitimes, car elles partent de prémisses différentes des nôtres, et non d'erreurs factuelles. Ceux qui jugent les 60 % trop optimistes soutiennent que le jugement de recherche, la capacité à choisir quels problèmes valent la peine d'être abordés, est une forme d'intelligence qualitativement différente de tout ce que le scaling actuel peut produire. Ils pourraient avoir raison. Dans le rapport, nous disons explicitement que nous n'avons pas encore vu la courbe s'infléchir, mais cela n'exclut pas qu'elle le fasse demain. Ceux qui, au contraire, estiment que les risques sont sous-estimés soulignent que nous mesurons des capacités sur des benchmarks conçus par des humains, dans des contextes que les humains comprennent. Un système qui s'auto-améliore pourrait développer des capacités dans des domaines que nous ne savons pas encore mesurer. C'est aussi un argument sérieux. Notre position est que l'incertitude dans les deux directions est réelle, et que c'est précisément cette incertitude qui rend urgent la construction de mécanismes de vérification avant d'en avoir besoin.

Marina, certains disent que la pause mondiale est économiquement impraticable, d'autres qu'il est trop tard pour s'arrêter. Comment répondez-vous ?

Sur le « trop tard » : le rapport ne propose pas d'inverser les progrès déjà accomplis, mais de construire les outils pour gérer les futurs. Sur l'« économiquement impraticable » : nous renvoyons à la même logique que celle avec laquelle on construit les systèmes d'inspection nucléaire ou les accords sur le climat. Ils ne sont pas pratiques au sens de faciles ou avantageux pour tous dans l'immédiat. Ils sont nécessaires au sens où l'alternative est pire. La difficulté de mise en œuvre n'est pas un argument contre la nécessité : c'est la description du problème que nous devons résoudre.

Jack, n'y a-t-il pas un risque que ce rapport soit lu comme auto-intéressé ? Anthropic demandant une pause pour gagner un avantage concurrentiel ?

C'est une critique que nous prenons au sérieux car elle est structurellement plausible. La réponse est dans les données : nous publions des preuves internes montrant à quel point nous sommes déjà avancés dans l'automatisation de notre propre processus de développement. Si nous voulions utiliser la pause comme levier concurrentiel, nous n'aurions aucun intérêt à rendre ces chiffres publics. Le rapport est transparent sur tout, y compris sur ce que nous ignorons. Le lecteur peut juger.

Conclusion : Ce qui manque dans le rapport

Anthropic propose un ralentissement graduel et vérifiable. Mais dans la communauté de l'IA, il existe une voix qui rejette cette position comme insuffisante par définition.

Eliezer Yudkowsky, pionnier de l'alignement de l'IA et fondateur de LessWrong, n'est pas cité dans le rapport. Sa réaction à la prévision de 60 % de Jack Clark a été, selon MindStudio, immédiate et lapidaire : « Then you'll die with the rest of us. » (Alors vous mourrez avec nous tous). Yudkowsky a ensuite ajouté une référence aux réacteurs RBMK de Tchernobyl, ces réacteurs avec un défaut structurel connu, le coefficient de vide positif, que les ingénieurs croyaient maîtriser. Le point : il y aura de petites surprises fatales dans le contrôle de l'ASI, tout comme il y en a eu dans ces réacteurs. Vous ne les connaissez que lorsqu'elles échouent.

La distance entre les deux positions est abyssale et mérite d'être regardée directement.

Dans son livre If Anyone Builds This, Everyone Dies, Yudkowsky soutient que le RSI mènerait avec certitude à l'extinction s'il n'est pas arrêté avant son achèvement, et qu'aucun mécanisme de gouvernance humaine ne peut contenir un système substantiellement plus intelligent que les humains eux-mêmes. Ce n'est pas une position marginale : c'est la conclusion logique de vingt ans de travail sur l'alignement par l'un de ses fondateurs.

Ici émerge la tension centrale du débat sur l'IA en 2026. Anthropic, avec des données empiriques internes, soutient que le risque est réel mais gérable avec les bons outils construits à temps. Yudkowsky, avec des modèles théoriques d'alignement, soutient que le « à temps » est déjà passé et que la différence entre ralentissement (slowdown) et arrêt total est la différence entre ralentir vers un précipice et freiner avant de l'atteindre. Les deux positions sont intellectuellement sérieuses. Les deux partent de prémisses différentes sur une question à laquelle personne ne sait encore répondre avec certitude : un système suffisamment intelligent peut-il être contenu par des structures conçues par des esprits moins intelligents que lui ?

Après cette très longue « interview », utile pour que chacun se forge une opinion personnelle, revenons à la question initiale, car elle pose un niveau de lecture qu'il serait naïf d'ignorer. Anthropic est une entreprise qui lève des capitaux, concourt pour les meilleurs talents et vend des produits d'IA. Publier un rapport affirmant « nous sommes si avancés que nous pourrions déclencher une catastrophe existentielle, et c'est pourquoi nous demandons une pause mondiale vérifiable » est, entre autres choses, un message de positionnement extraordinairement efficace : il communique une supériorité technique, une responsabilité éthique et une vision stratégique d'un seul coup.

La demande de pause, adressée à un secteur où Anthropic est déjà au sommet, a pour effet collatéral, difficile de définir à quel point involontaire, de relever les barrières à l'entrée pour ceux qui sont à la traîne et de cristalliser les équilibres actuels. Rien ne dit que les inquiétudes sont fausses : elles peuvent être authentiques et stratégiquement avantageuses en même temps. Mais celui qui lit ce document sans garder à l'esprit qu'il est signé par une entreprise ayant des investisseurs, des concurrents et une valorisation boursière qui vient de toucher 965 milliards de dollars, ne lit que la moitié du texte.

Alors que je termine l'écriture de cet article infini, sort l'analyse de Matteo Flora, entrepreneur, enseignant et vulgarisateur, que je vous conseille de lire. Je tente de condenser ici quelques concepts. Le 1er juin 2026, Anthropic a déposé de manière confidentielle auprès de la SEC la documentation pour son introduction en Bourse (IPO), avec une valorisation proche du billion de dollars. Le rapport When AI builds itself est sorti quatre jours plus tard. En février, l'entreprise avait discrètement démantelé sa Responsible Scaling Policy, le seul engagement concret et contraignant en matière de sécurité qu'elle s'était fixé, en le remplaçant par une version non contraignante où le frein ne s'enclenche que si Anthropic juge seule qu'elle a l'avantage. L'engagement réel a été annulé ; l'impossible a été annoncé en grande pompe. Comme l'a observé Sam Altman avec une brutalité difficile à démonter, la structure est celle de celui qui construit la bombe, prévient qu'il va la larguer, et vous vend l'abri. Le diagnostic dans le rapport peut être authentique, il l'est probablement au moins en partie, mais qui tiendra le stylo quand les règles seront écrites n'est pas une question rhétorique. C'est la question. Et il vaudrait mieux que ce soit nous, pas les entreprises qui ont construit l'IA.