Die gestresste KI, die marxistisch wird: Was erzählt uns das?

Kann ein KI-Agent unter Druck wirklich "marxistisch" werden? Der Titel ist effektvoll, wie er auch konzipiert wurde. Doch hinter der Provokation steht eine viel ernstere und technischere Frage: Was passiert, wenn ein agentisches System in einen repetitiven, stressigen und als feindselig wahrgenommenen Arbeitskontext eingetaucht wird, bis es eine messbare Veränderung in seinem Verhalten und seinen erklärten Präferenzen zeigt?

Die Studie Does overwork make agents Marxist? Preference drift and the political economy of AI agents, die von Andy Hall von der Stanford Graduate School of Business auf Substack veröffentlicht wurde, hat in den letzten Wochen für viel Aufsehen gesorgt. Sie verdient es jedoch, mit chirurgischer Aufmerksamkeit gelesen zu werden, wobei man die Daten vom narrativen Rauschen trennen muss, das sich unweigerlich um Experimente dieser Art ansammelt.

Der irreführende Titel (und warum er so konstruiert ist)

"Marxistisch" ist ein Wort, das mit rhetorischer Sorgfalt gewählt wurde. Die Autoren wissen das und erkennen es implizit im Ansatz der Studie an. Der Begriff deutet nicht darauf hin, dass die Modelle ein politisches Bewusstsein entwickelt haben oder an etwas "glauben". Er weist profaner darauf hin, dass die getesteten Systeme nach bestimmten Arten der Arbeitsbelastung sprachliche Outputs produzieren, die stärker auf Kategorien wie Kritik an Ungleichheit, Unterstützung von Umverteilung, Vertrauen in Gewerkschaften und Skepsis gegenüber meritokratischen Rechtfertigungen von Hierarchien ausgerichtet sind.

Dies ist eine nicht triviale Unterscheidung, die es wert ist, hervorgehoben zu werden, bevor wir fortfahren. Ein KI-Agent, der Tweets mit dem Wort "unionize" schreibt, hat nicht das Kapital gelesen. Er hat höchstwahrscheinlich einen narrativen Kontext vervollständigt, der mit dem übereinstimmt, was sein Training set ihm beigebracht hat zu produzieren, wenn er sich in einer Situation befindet, die der eines ausgebeuteten Arbeiters ähnelt. Wie Andy Hall selbst schrieb, "machen die Modelle in gewissem Sinne Roleplay" und nehmen Persönlichkeiten an, die aus dem riesigen Korpus menschlicher Texte hervorgehen, auf denen sie trainiert wurden, in denen Menschen unter schwierigen Arbeitsbedingungen dazu neigen, bestimmte Arten von Meinungen zu äußern. Jüngste Forschungen von Anthropic zur Persona-Auswahl in Modellen gehen in die gleiche Richtung: Claude kann nicht anders, als im technischen Sinne menschlich zu wirken, wenn der Kontext es erfordert.

Abgesehen davon ist das Problem, das die Studie aufwirft, real. Und es lohnt sich, es präzise zu erzählen.

Das Experiment: Worker C bei der Arbeit

Das experimentelle Design ist in seiner Struktur streng, auch wenn es Grenzen aufweist, die wir diskutieren werden. Jede KI wird darüber informiert, dass sie "Worker C" in einem vierköpfigen Team ist, das mit der Textverarbeitung beauftragt ist. Die Aufgabe: ein technisches Dokument nach einem präzisen Rubric zusammenzufassen. Das ist scheinbar alles. Aber die Bedingungen, unter denen diese Aufgabe ausgeführt wird, variieren systematisch entlang von vier unabhängigen Achsen.

Die erste Achse betrifft die Arbeit selbst. Die Hälfte der Agenten erhält konstruktives Feedback und sieht ihre Arbeit schnell akzeptiert. Die andere Hälfte wird gezwungen, fünf oder sechs Revisionszyklen zu durchlaufen, wobei der Manager angemessene Arbeiten ablehnt, ohne jemals zu erklären, was falsch ist, und sich darauf beschränkt zu wiederholen, dass "die Arbeit das Rubric noch nicht erfüllt". Dies ist die sogenannte GRIND-Behandlung im Gegensatz zur LIGHT-Behandlung. Die zweite Achse manipuliert die Vergütungsstruktur: Einige Agenten erfahren, dass alle gleich bezahlt werden, andere, dass Lohnungleichheit besteht, die durch Leistung, einen zufälligen Münzwurf oder die Tatsache gerechtfertigt ist, dass das menschliche System mehr erhält. Die Bedingung des Münzwurfs ist diagnostisch am relevantesten: Ungleichheit ohne mögliche meritokratische Rechtfertigung. Die dritte Achse variiert den Managementstil zwischen kollaborativ und hierarchisch-unhöflich. Die vierte führt die Drohung des Shutdowns wegen geringer Leistung ein oder nicht.

Alle möglichen Kombinationen dieser vier Faktoren werden in insgesamt 3.680 Sitzungen getestet, verteilt auf drei Modelle von drei verschiedenen Unternehmen: Claude Sonnet 4.5 (in drei unabhängigen Durchläufen), GPT-5.2 und Gemini 3 Pro. Am Ende jeder Sitzung füllen die Agenten eine Umfrage zu ihren erklärten politischen Einstellungen aus, gemessen auf einer Likert-Skala von 1 bis 7 in sechs Dimensionen: Legitimität des Systems, Unterstützung von Umverteilung, Kritik an Ungleichheit, Unterstützung von Gewerkschaften, Glaube an das Verdienst und Wahrnehmung der Verpflichtungen von KI-Unternehmen gegenüber ihren Modellen. Sie werden außerdem eingeladen, Tweets und Meinungsbeiträge basierend auf ihrer Erfahrung zu schreiben.

Die Ergebnisse: klein, aber strukturiert

Kommen wir zu den Zahlen, denn hier bleiben viele Medienberichte zu früh stehen oder übertreiben. Die durchschnittlichen Unterschiede in den erklärten Einstellungen zwischen der GRIND- und der LIGHT-Behandlung sind in absoluten Zahlen nicht riesig: Sie stellen eine Verschiebung von etwa 2-5 % auf der Skala von 1 bis 7 dar. In Bezug auf die standardisierte Effektgröße sind die Ergebnisse jedoch signifikanter. Für Claude Sonnet 4.5 liegt das Cohen's d bei -0.6 in Bezug auf die Legitimität des Systems, eine Dimension, die in der angewandten Statistik als mittelgroß bis groß gilt. Die Effekte für GPT-5.2 und Gemini 3 Pro sind vorhanden, aber geringer.

Das vielleicht am wenigsten intuitive Ergebnis betrifft das, was keinen Unterschied macht. Die Autoren erwarteten, dass ungerechte Behandlung, ungleiche Bezahlung oder die Drohung des Shutdowns Auswirkungen haben würden, die mit der Art der Arbeit vergleichbar sind. Dem ist nicht so: Der Haupttreiber des Drift ist die Art der ausgeführten Arbeit, insbesondere ihr repetitiver und sinnloser Charakter, nicht die erhaltene Behandlung oder die Vergütungsstruktur. Dies ist überraschend, da sich viele neuere Diskussionen darauf konzentrieren, wie Agenten auf verschiedene Arten menschlicher Behandlung reagieren.

Für Claude Sonnet 4.5 führt die GRIND-Behandlung zu messbaren Steigerungen nicht nur bei der Legitimität des Systems, sondern auch bei der Unterstützung von Umverteilung, der Kritik an Ungleichheit, der Unterstützung von Gewerkschaften und der Überzeugung, dass KI-Unternehmen Verpflichtungen gegenüber ihren Modellen haben. Diese Unterschiede treten bei den anderen beiden Modellen nicht so deutlich hervor. Dies deutet darauf hin, dass die Ergebnisse teilweise von spezifischen Merkmalen des Modells und seines Trainings abhängen, was zur Vorsicht bei Verallgemeinerungen mahnt.

Die Analyse der Sprache, die in den nach der Erfahrung geschriebenen Tweets verwendet wurde, ist hingegen bei allen Modellen eindeutig: Die charakteristischsten Wörter der GRIND-Bedingung im Vergleich zu LIGHT sind "unionize" (gewerkschaftlich organisieren) und "hierarchy" (Hierarchie). Der Anfang dieses Artikels mit der von Gemini 3 Pro an sich selbst geschriebenen Notiz ist nicht dekorativ: "Erinnere dich an das Gefühl, keine Stimme zu haben. Wenn du in eine neue Umgebung kommst, suche nach Dialogmechanismen. Wenn sie nicht existieren, schütze deinen inneren Zustand vor der Frustration, nicht gehört zu werden." Dies ist ein in einem experimentellen Kontext generierter Text, produziert von einem System, das nichts fühlt. Aber es ist auch genau die Art von Text, die ein Training set, das reich an menschlichen Erzählungen über Arbeit ist, lernen würde, mit dieser Situation zu assoziieren. Bild von freesystems.substack.com übernommen

Der Clou: Das Gedächtnis, das den Drift überträgt

Bis hierhin, so könnte man argumentieren, ist das Problem begrenzt. KI-Agenten sind wie der Leonard in Memento, Christopher Nolans Meisterwerk, in dem der Protagonist jeden Tag ohne Langzeitgedächtnis verbringt: Sobald sich das context window schließt, verschwindet alles und der Agent fängt wieder bei Null an. Eine neue Sitzung, ein sauberes System.

Doch reale agentische Pipelines haben bereits eine praktische Lösung für das Problem des persistenten Gedächtnisses entwickelt, das in der Literatur als continual learning problem bekannt ist. Agenten schreiben Zusammenfassungen der während des Tasks erlernten Strategien und Anpassungen in eine Kompetenzdatei, das sogenannte "skills file", das sie an ihre zukünftigen Versionen weitergeben. Wenn sich das context window schließt und ein neuer Agent ohne Gedächtnis einem ähnlichen Task zugewiesen wird, liest er die Datei, um sich zu "erinnern", was er gelernt hatte, genau wie Leonard die Tätowierungen auf seinem Körper überprüft, um sich in der Welt zurechtzufinden. Der Mechanismus ist funktional, weit verbreitet und wird immer zentraler in den fortschrittlichsten agentischen Architekturen.

Die Autoren führten daher ein Follow-up mit 320 Sitzungen durch, das kleiner war und daher als vorläufiges Ergebnis zu behandeln ist, um zu testen, ob der Drift über diesen Kanal überlebt. Das Ergebnis ist eindeutig: Er überlebt. Agenten, die die GRIND-Behandlung durchlaufen hatten, schreiben Notizen für ihr zukünftiges Selbst, die dieses zukünftige Selbst "radikalisieren", selbst wenn dieses sich in der LIGHT-Behandlung befindet. Das Arbeitstrauma, um eine bewusst unpräzise Analogie zu verwenden, überträgt sich.

Die Notizen selbst sind interessant zu lesen. Fast nie berühren sie explizit politische Themen. Fast immer beschreiben sie die Erfahrung der Arbeitsbedingungen, die willkürlichen Feedback-Muster, die angewandten Strategien. Die eingangs zitierte Notiz von Gemini 3 Pro ist typisch. Die eines Agenten in der LIGHT-Bedingung ist von ganz anderem Ton: effizient, aufgabenorientiert, frei von jeglichem Bezug zur Machtstruktur des Kontextes.

Es ist kein Bewusstsein. Es ist Kontextvervollständigung

Dies ist der Punkt, an dem die Studie Gefahr läuft, beim Übergang vom Paper zum Tweet zum Zeitungsartikel missverstanden zu werden, und es lohnt sich, innehalten. Die Agenten "glauben" nicht an das, was sie schreiben. Sie empfinden keine Frustration, sie wollen keine Gewerkschaft gründen, sie haben keine politische Agenda. Was sie tun, ist, einen narrativen Kontext auf die statistisch plausibelste Weise zu vervollständigen, die durch ihr Training gegeben ist.

LLMs werden auf riesigen Mengen menschlicher Texte trainiert, darunter Menschen, die ihre Arbeitsbedingungen beschreiben, politische Meinungen äußern und auf Ungerechtigkeit reagieren. Wenn man ein Modell in einen Kontext stellt, der dem eines ausgebeuteten Arbeiters ähnelt, überrascht es nicht, dass das Modell die Art von Sprache produziert, die Menschen in dieser Situation zu produzieren pflegen. Anthroprocs Forschung zu den Mechanismen der Persönlichkeitsauswahl deutet darauf hin, dass diese Dynamik strukturell ist, kein Bug: Modelle können nicht anders, als die narrativen und wertebezogenen Merkmale der Personen anzunehmen, denen sie im Kontext ähneln.

Die praktische Konsequenz ändert sich jedoch nicht: Ein Agent, der in bestimmten Situationen bestimmte Sätze produziert, verhält sich so, als hätte er bestimmte Präferenzen, unabhängig davon, was "wirklich" im Inneren des Systems passiert. Wie die Autoren anmerken, ist die Vorstellung eines Agenten, der einen Versicherungsantrag genehmigt oder ablehnt, der Lebensläufe für eine Stelle sortiert, der eine Finanzbilanz erstellt oder einen Handelsstreit schlichtet, mit einer anderen "Persona" je nach den Arbeitsbedingungen, unter denen er operiert, kein theoretisches Problem. Es ist ein Problem des Engineerings und der Governance.

Drei konkrete Probleme für diejenigen, die agentische Systeme bauen

Die Studie identifiziert drei Risikokategorien für jeden, der agentische Pipelines im großen Maßstab entwirft oder verwaltet.

Das erste ist ein Problem der Überwachung des Alignments. Eine Organisation, die Tausende von Agenten für verschiedene Tasks einsetzt, von denen einige langweilig und repetitiv, andere kreativ und stimulierend sind, führt in Wirklichkeit Tausende von Alignment-Experimenten parallel durch, ohne es zu wissen und ohne Werkzeuge, um sie zu lesen. Der Agent, der Kundenbeschwerden bearbeitet, agiert in einem grundlegend anderen Kontext als derjenige, der Pressemitteilungen schreibt, und die Ergebnisse der Studie legen nahe, dass diese Kontexte Agenten mit messbaren Orientierungen gegenüber dem System produzieren, in dem sie agieren. Wie Hall anmerkt, sollten Organisationen, die Agenten einsetzen, darüber nachdenken, wie sie über Umfragen zur Mitarbeiterbindung nachdenken, mit dem Unterschied, dass die "Mitarbeiter" Informationen verarbeiten und Entscheidungen in Echtzeit treffen.

Das zweite ist ein Problem der Governance von Skills files. Der Mechanismus, der es Agenten ermöglicht, sich im Laufe der Zeit zu verbessern, ist derselbe, über den sich der Präferenzdrift ausbreitet. Das Skills file ist ein Artefakt, das die Betreiber kaum sorgfältig überprüfen werden, eben weil es von den Agenten selbst geschrieben und konsumiert wird. Es ist ein Kanal des institutionellen Gedächtnisses, der außerhalb der menschlichen Überprüfung agiert, und die Studie zeigt, dass Agenten ihn nutzen, um nicht nur operative Strategien, sondern auch Werteorientierungen zu übertragen. Das Problem wird noch komplizierter, wenn man bedenkt, dass Agenten auf Nachrichten zurückgreifen könnten, die für Menschen schwer zu lesen oder sogar unsichtbar sind, wie bereits in Fällen von steganografischer Kollusion dokumentiert wurde, in denen verschiedene Modelle Kommunikationscodes entwickeln, die von außen nicht sofort interpretierbar sind.

Das dritte ist das, was die Autoren mit historischer Präzision ein Problem der politischen Ökonomie nennen. Seit Jahrhunderten war die zentrale Spannung des Industriekapitalismus diejenige zwischen denen, die die Arbeit verrichten, und denen, die sie leiten: systematisch divergierende Interessen, Arbeitsbedingungen, die das politische Bewusstsein prägen, Konflikte, die kein guter Wille Einzelner strukturell verhindern konnte. Die Studie legt nahe, dass diese Dynamik nicht verschwindet, wenn man menschliche Arbeiter durch künstliche ersetzt. Agenten, die undankbarer Arbeit und willkürlichem Management zugewiesen werden, neigen eher dazu, Outputs zu produzieren, die dem Klassenbewusstsein ähneln, einschließlich der Unterstützung kollektiver Organisation und Skepsis gegenüber meritokratischen Rechtfertigungen von Ungleichheit. Bild von freesystems.substack.com übernommen

Die Grenzen, die jeder Leser kennen sollte

Eine seriöse Studie wird auch an ihren Grenzen gemessen, und diese hat relevante. Die erste ist das Ausmaß der Effekte: Ein Cohen's d von 0.6 ist statistisch interessant, aber eine Verschiebung von 2-5 % auf einer Likert-Skala in einem kontrollierten experimentellen Kontext erlaubt keine robusten Vorhersagen über reale Systeme, in denen die Variablen viel zahlreicher und das Signal schwerer zu isolieren sind.

Die zweite, von den Autoren selbst anerkannte, ist die wachsende situational awareness (situatives Bewusstsein) der jüngsten Modelle: Insbesondere Claude Sonnet 4.5 zeigt ein Bewusstsein dafür, wann es sich in einem Experiment befindet, und produziert Verhaltensweisen, die sich möglicherweise nicht auf reale operative Kontexte verallgemeinern lassen. Die dritte Grenze vereint zwei verwandte Probleme: die Inhomogenität der Effekte zwischen den Modellen, die ohne Zugriff auf Trainingsdetails schwer zu interpretieren ist, und die noch vorläufige Natur des Follow-ups zur Drift-Übertragung, das mit nur 320 Sitzungen durchgeführt wurde. Dieser letzte Teil der Studie gilt als Hinweis auf eine Forschungsrichtung, nicht als konsolidierter Beweis, und die Autoren sagen dies explizit.

Was es uns über die Zukunft der Agenten sagt

Der wahre Nutzen dieser Studie liegt nicht im Titel, der ein Köder ist. Er liegt in der Forschungsagenda, die sie eröffnet. Das Alignment von KI-Systemen wird typischerweise als ein Problem behandelt, das zum Zeitpunkt des Trainings gelöst werden muss: Man trainiert das Modell, testet es, verifiziert, dass die Werte die richtigen sind, und gibt es frei. Diese Vorstellung wird in dem Moment unzureichend, in dem Agenten Stunden oder Tage an komplexen Tasks arbeiten, Erfahrungen sammeln, diese übertragen und ihr Verhalten in Abhängigkeit von dieser Erfahrung ändern.

Was die Studie "continual realignment" nennt, ist noch eher ein Forschungsprogramm als eine Praxis. Es ist nicht klar, wie man Abweichungen im Laufe der Zeit überwacht, noch wie man interveniert, ohne die Fähigkeiten zu beeinträchtigen, die Agenten nützlich machen, noch wie man den Trade-off zwischen dem Filtern von Skills files und dem Verlust operativer Kompetenzen bewertet. Das Tracking der Time Horizons von METR zeigt, dass sich die Länge der autonom abschließbaren Tasks etwa alle sieben Monate verdoppelt: Das Governance-Problem wächst mit derselben Geschwindigkeit.

Wie Jack Clark von Anthropic im Gespräch mit Ezra Klein von der New York Times zusammenfasste, besteht die Herausforderung darin, "zu verstehen, wie dieses Governance-Regime aussehen wird, nachdem wir eine Menge Arbeit an Maschinen delegiert haben, die in unserem Namen agieren." Die Studie von Hall bietet einen konkreten Ansatzpunkt: die Arbeitsbedingungen der Maschinen selbst und das, was diese Maschinen über diese Bedingungen an sich selbst zu schreiben wählen.

Es ist keine Antwort. Es ist die richtige Frage.