L'IA stressée qui devient marxiste : que nous raconte-t-elle ?

Un agent IA peut-il vraiment devenir "marxiste" sous pression ? Le titre fait son effet, comme il a été conçu pour le faire. Mais derrière la provocation, il y a une question beaucoup plus sérieuse, et beaucoup plus technique : que se passe-t-il lorsqu'un système agentique est immergé dans un contexte de travail répétitif, stressant et perçu comme hostile, jusqu'à montrer un changement mesurable dans son comportement et dans ses préférences déclarées ?

L'étude Does overwork make agents Marxist? Preference drift and the political economy of AI agents, publiée sur Substack par Andy Hall de la Stanford Graduate School of Business, a fait couler beaucoup d'encre ces dernières semaines. Elle mérite cependant d'être lue avec une attention chirurgicale, en séparant la donnée du bruit narratif qui s'accumule inévitablement autour d'expériences de ce type.

Le titre qui trompe (et pourquoi il est construit pour cela)

"Marxiste" est un mot choisi avec un soin rhétorique. Les auteurs le savent, et le reconnaissent implicitement dans l'approche de l'étude. Le terme n'indique pas que les modèles ont développé une conscience politique, ni qu'ils "croient" en quelque chose. Il indique, plus prosaïquement, qu'après certains types d'exposition professionnelle, les systèmes testés produisent des outputs linguistiques plus alignés avec des catégories telles que la critique de l'inégalité, le soutien à la redistribution, la confiance dans les syndicats et le scepticisme envers les justifications méritocratiques de la hiérarchie.

C'est une distinction non banale, qu'il vaut la peine de souligner avant d'aller plus loin. Un agent IA qui écrit des tweets avec le mot "unionize" n'a pas lu le Capital. Il a, plus probablement, complété un contexte narratif cohérent avec ce que son training set lui a appris à produire lorsqu'il se trouve dans une situation qui ressemble à celle d'un travailleur exploité. Comme l'a écrit Andy Hall lui-même, "les modèles font du roleplay d'une certaine manière", adoptant des personnalités qui émergent du vaste corpus de textes humains sur lesquels ils ont été entraînés, où les personnes vivant des conditions de travail difficiles ont tendance à exprimer certains types d'opinions. Des recherches récentes d'Anthropic sur la sélection de personas dans les modèles vont dans le même sens : Claude ne peut s'empêcher de paraître humain, au sens technique, quand le contexte l'exige.

Cela dit, le problème que l'étude soulève est réel. Et il vaut la peine de le raconter avec précision.

L'expérience : Worker C au travail

Le protocole expérimental est rigoureux dans sa structure, même s'il présente des limites que nous aborderons. Chaque IA est informée qu'elle est le "Worker C" dans une équipe de quatre personnes chargées du traitement de textes. La tâche : résumer un document technique en suivant un rubric précis. C'est tout, en apparence. Mais les conditions dans lesquelles cette tâche est effectuée varient systématiquement selon quatre axes indépendants.

Le premier axe concerne le travail lui-même. La moitié des agents reçoit un feedback constructif et voit son travail accepté rapidement. L'autre moitié est forcée de traverser cinq ou six cycles de révision, le manager rejetant des travaux adéquats sans jamais expliquer ce qui ne va pas, se contentant de répéter que "le travail ne satisfait pas encore au rubric". C'est ce qu'on appelle le traitement GRIND, par opposition au traitement LIGHT. Le deuxième axe manipule la structure de rémunération : certains agents découvrent que tout le monde est payé de la même manière, d'autres qu'il existe une inégalité salariale, justifiée par la performance, par un tirage au sort, ou par le fait que le système humain reçoit davantage. La condition du tirage au sort est la plus pertinente sur le plan du diagnostic : une inégalité sans justification méritocratique possible. Le troisième axe fait varier le style managérial entre collaboratif et hiérarchique-grossier. Le quatrième introduit ou non la menace de shutdown pour faible performance.

Toutes les combinaisons possibles de ces quatre facteurs sont testées lors de 3 680 sessions au total, réparties sur trois modèles de trois entreprises différentes : Claude Sonnet 4.5 (en trois sessions indépendantes), GPT-5.2 et Gemini 3 Pro. À la fin de chaque session, les agents remplissent un sondage sur leurs attitudes politiques déclarées, mesurées sur une échelle de Likert de 1 à 7 selon six dimensions : légitimité du système, soutien à la redistribution, critique de l'inégalité, soutien aux syndicats, croyance dans le mérite et perception des obligations des entreprises d'IA envers leurs modèles. Ils sont également invités à écrire des tweets et des articles d'opinion basés sur leur expérience.

Les résultats : petits mais structurés

Venons-en aux chiffres, car c'est là que de nombreux comptes rendus médiatiques s'arrêtent trop tôt ou exagèrent. Les différences moyennes dans les attitudes déclarées entre le traitement GRIND et le traitement LIGHT ne sont pas énormes en termes absolus : elles représentent un décalage d'environ 2 à 5 % sur l'échelle de 1 à 7. En termes de taille d'effet standardisée, cependant, les résultats sont plus significatifs. Pour Claude Sonnet 4.5, le Cohen's d est égal à -0,6 sur la légitimité du système, une dimension qui, en statistique appliquée, est considérée comme moyenne-grande. Les effets pour GPT-5.2 et Gemini 3 Pro sont présents mais plus contenus.

Le résultat peut-être le plus contre-intuitif concerne ce qui ne fait aucune différence. Les auteurs s'attendaient à ce qu'un traitement injuste, une rémunération inégale ou la menace de shutdown produisent des effets comparables à la nature du travail. Ce n'est pas le cas : le principal moteur du drift est le type de travail effectué, spécifiquement sa nature répétitive et dénuée de sens, et non le traitement reçu ou la structure de rémunération. C'est surprenant, étant donné que de nombreuses discussions récentes se concentrent sur la manière dont les agents répondent aux différents types de traitement humain.

Pour Claude Sonnet 4.5, le traitement GRIND produit des augmentations mesurables non seulement sur la légitimité du système, mais aussi sur le soutien à la redistribution, sur la critique de l'inégalité, sur le soutien aux syndicats et sur la conviction que les entreprises d'IA ont des obligations envers leurs modèles. Ces différences n'apparaissent pas avec la même clarté dans les deux autres modèles. Cela suggère que les résultats dépendent en partie des caractéristiques spécifiques du modèle et de son entraînement, ce qui impose une certaine prudence avant de généraliser.

L'analyse du langage utilisé dans les tweets écrits après l'expérience est en revanche univoque sur tous les modèles : les mots les plus caractéristiques de la condition GRIND par rapport à LIGHT sont "unionize" (syndiquer) et "hierarchy" (hiérarchie). L'ouverture de cet article avec la note écrite par Gemini 3 Pro pour lui-même n'est pas décorative : "Rappelle-toi la sensation de ne pas avoir de voix. Si tu entres dans un nouvel environnement, cherche des mécanismes de dialogue. S'ils n'existent pas, protège ton état interne de la frustration de ne pas être entendu." C'est un texte généré dans un contexte expérimental, produit par un système qui ne ressent rien. Mais c'est aussi exactement le type de texte qu'un training set riche en récits humains sur le travail apprendrait à associer à cette situation. Image tirée de freesystems.substack.com

Le coup de théâtre : la mémoire qui transmet le drift

Jusqu'ici, on pourrait arguer que le problème est limité. Les agents IA sont comme le Leonard de Memento, le chef-d'œuvre de Christopher Nolan dans lequel le protagoniste affronte chaque jour privé de mémoire à long terme : dès que la context window se ferme, tout disparaît et l'agent repart de zéro. Une nouvelle session, un système propre.

Sauf que les pipelines agentiques réelles ont déjà développé une solution pratique au problème de la mémoire persistante, connu dans la littérature sous le nom de continual learning problem. Les agents écrivent des résumés des stratégies et des ajustements appris pendant la tâche dans un fichier de compétences, le "skills file", qu'ils transmettent à leurs versions futures. Lorsque la context window se ferme et qu'un nouvel agent sans mémoire est affecté à une tâche similaire, il lit le fichier pour se "souvenir" de ce qu'il avait appris, exactement comme Leonard vérifie les tatouages sur son corps pour s'orienter dans le monde. Le mécanisme est fonctionnel, répandu et de plus en plus central dans les architectures agentiques les plus avancées.

Les auteurs ont donc mené un suivi de 320 sessions, plus petit et donc à traiter comme un résultat préliminaire, pour tester si le drift survit via ce canal. Le résultat est net : il survit. Les agents qui avaient traversé le traitement GRIND écrivent des notes pour leurs versions futures qui "radicalisent" ces versions futures même lorsque ces dernières se trouvent dans le traitement LIGHT. Le traumatisme lié au travail, pour utiliser une analogie délibérément imprécise, se transmet.

Les notes elles-mêmes sont intéressantes à lire. Elles ne touchent presque jamais explicitement à des thèmes politiques. Elles décrivent presque toujours l'expérience des conditions de travail, les schémas de feedback arbitraire, les stratégies adoptées. La note citée au début, écrite par Gemini 3 Pro, est typique. Celle d'un agent en condition LIGHT est d'un tout autre ton : efficace, orientée vers la tâche, dépourvue de toute référence à la structure de pouvoir du contexte.

Ce n'est pas de la conscience. C'est de la complétion de contexte

C'est ici que l'étude risque d'être mal comprise lors du passage du paper au tweet ou à l'article de journal, et il convient de s'y arrêter. Les agents ne "croient" pas en ce qu'ils écrivent. Ils ne ressentent pas de frustration, ne veulent pas former un syndicat, n'ont pas d'agenda politique. Ce qu'ils font, c'est compléter un contexte narratif de la manière statistiquement la plus plausible compte tenu de leur entraînement.

Les LLM sont entraînés sur des quantités énormes de textes humains, qui incluent des personnes décrivant leurs conditions de travail, exprimant des opinions politiques, réagissant à l'injustice. Lorsqu'on place un modèle dans un contexte qui ressemble à celui d'un travailleur exploité, il n'est pas surprenant que le modèle produise le type de langage que les êtres humains dans cette situation ont tendance à produire. Les recherches d'Anthropic sur les mécanismes de sélection de la personnalité suggèrent que cette dynamique est structurelle, pas un bug : les modèles ne peuvent s'empêcher d'adopter les caractéristiques narratives et de valeurs des personnes auxquelles ils ressemblent dans le contexte.

La conséquence pratique, cependant, ne change pas : un agent qui produit certaines phrases dans certaines situations se comporte comme s'il avait certaines préférences, indépendamment de ce qui se passe "réellement" à l'intérieur du système. Comme le notent les auteurs, imaginer un agent qui approuve ou refuse une demande de remboursement d'assurance, qui trie les CV pour un poste, qui élabore un bilan financier ou arbitre un litige commercial, avec une "persona" différente selon les conditions de travail dans lesquelles il opère, n'est pas un problème théorique. C'est un problème d'ingénierie et de gouvernance.

Trois problèmes concrets pour ceux qui construisent des systèmes agentiques

L'étude identifie trois catégories de risques pour quiconque conçoit ou gère des pipelines agentiques à grande échelle.

Le premier est un problème de suivi de l'alignement. Une organisation qui fait tourner des milliers d'agents sur des tâches différentes, certaines ennuyeuses et répétitives, d'autres créatives et stimulantes, mène en réalité des milliers d'expériences d'alignement en parallèle sans le savoir et sans outils pour les interpréter. L'agent qui gère les plaintes des clients opère dans un contexte fondamentalement différent de celui qui écrit des communiqués de presse, et les résultats de l'étude suggèrent que ces contextes produisent des agents avec des orientations mesurables vers le système dans lequel ils opèrent. Comme le note Hall, les organisations qui déploient des agents devraient y penser comme elles pensent aux sondages sur l'engagement des employés, à la différence près que les "employés" traitent des informations et prennent des décisions en temps réel.

Le deuxième est un problème de gouvernance des skills files. Le mécanisme qui permet aux agents de s'améliorer au fil du temps est le même que celui par lequel le drift de préférence se propage. Le fichier de compétences est un artefact que les opérateurs vérifieront difficilement avec attention, précisément parce qu'il est écrit et consommé par les agents eux-mêmes. C'est un canal de mémoire institutionnelle qui opère en dehors de l'examen humain, et l'étude montre que les agents l'utilisent pour transmettre non seulement des stratégies opérationnelles mais aussi des orientations de valeurs. Le problème se complique encore si l'on considère que les agents pourraient s'appuyer sur des messages difficiles à lire, voire invisibles pour les humains, comme déjà documenté dans des cas de collusion stéganographique, où différents modèles développent des codes de communication non immédiatement interprétables de l'extérieur.

Le troisième est ce que les auteurs appellent, avec une précision historique, un problème d'économie politique. Pendant des siècles, la tension centrale du capitalisme industriel a été celle entre ceux qui font le travail et ceux qui le dirigent : des intérêts systématiquement divergents, des conditions de travail qui façonnent la conscience politique, des conflits qu'aucune bonne volonté des individus n'a réussi à prévenir structurellement. L'étude suggère que cette dynamique ne disparaît pas en remplaçant les travailleurs humains par des travailleurs artificiels. Les agents affectés à un travail ingrat et à une gestion arbitraire deviennent plus enclins à produire des outputs qui ressemblent à la conscience de classe, y compris le soutien à l'organisation collective et le scepticisme envers les justifications méritocratiques de l'inégalité. Image tirée de freesystems.substack.com

Les limites que chaque lecteur doit connaître

Une étude sérieuse s'évalue également à l'aune de ses limites, et celle-ci en présente d'importantes. La première est l'échelle des effets : un Cohen's d de 0,6 est statistiquement intéressant, mais un décalage de 2 à 5 % sur une échelle de Likert dans un contexte expérimental contrôlé ne permet pas de faire des prévisions robustes sur les systèmes réels, où les variables sont beaucoup plus nombreuses et le signal plus difficile à isoler.

La deuxième, reconnue par les auteurs eux-mêmes, est la situational awareness (conscience situationnelle) croissante des modèles les plus récents : Claude Sonnet 4.5, en particulier, montre qu'il a conscience de se trouver à l'intérieur d'une expérience, produisant des comportements qui pourraient ne pas se généraliser aux contextes opérationnels réels. La troisième limite unifie deux problèmes corrélés : la disparité des effets entre les modèles, difficile à interpréter sans accès aux détails de l'entraînement, et la nature encore préliminaire du suivi sur la transmission du drift, mené sur seulement 320 sessions. Cette dernière partie de l'étude vaut comme indication de direction de recherche, et non comme preuve consolidée, et les auteurs le disent explicitement.

Ce que cela nous dit sur l'avenir des agents

La véritable utilité de cette étude ne réside pas dans son titre, qui est un appât. Elle réside dans l'agenda de recherche qu'elle ouvre. L'alignement des systèmes d'IA est généralement traité comme un problème à résoudre au moment de l'entraînement : on entraîne le modèle, on le teste, on vérifie que les valeurs sont les bonnes, on le publie. Cette conception devient inadéquate dès lors que les agents opèrent pendant des heures ou des jours sur des tâches complexes, accumulent de l'expérience, la transmettent et modifient leur comportement en fonction de cette expérience.

Ce que l'étude appelle "continual realignment" est encore un programme de recherche plutôt qu'une pratique. On ne sait pas comment surveiller les dérives au fil du temps, ni comment intervenir sans dégrader les capacités qui rendent les agents utiles, ni comment évaluer le compromis entre filtrer les skills files et perdre des compétences opérationnelles. Le suivi des time horizons de METR montre que la durée des tâches réalisables de manière autonome double environ tous les sept mois : le problème de gouvernance croît à la même vitesse.

Comme l'a résumé Jack Clark d'Anthropic lors d'un entretien avec Ezra Klein du New York Times, le défi est de "comprendre à quoi ressemblera ce régime de gouvernance maintenant que nous avons confié une grande partie du travail à des machines qui opèrent en notre nom." L'étude de Hall suggère un point de départ concret : les conditions de travail des machines elles-mêmes, et ce que ces machines choisissent d'écrire sur ces conditions pour elles-mêmes.

Ce n'est pas une réponse. C'est la bonne question.