La AI estresada que se vuelve marxista: ¿qué nos cuenta?

¿Puede un agente de AI volverse realmente "marxista" bajo presión? El título es impactante, tal como ha sido diseñado para serlo. Pero detrás de la provocación hay una pregunta mucho más seria y técnica: ¿qué sucede cuando un sistema agéntico es sumergido en un contexto de trabajo repetitivo, estresante y percibido como hostil, hasta mostrar un cambio medible en su comportamiento y en sus preferencias declaradas?

El estudio Does overwork make agents Marxist? Preference drift and the political economy of AI agents, publicado en Substack por Andy Hall de la Stanford Graduate School of Business, ha dado mucho que hablar en las últimas semanas. Sin embargo, merece ser leído con atención quirúrgica, separando el dato del ruido narrativo que inevitablemente se acumula en torno a experimentos de este tipo.

El título que engaña (y por qué está construido para hacerlo)

"Marxista" es una palabra elegida con cuidado retórico. Los autores lo saben y lo reconocen implícitamente en el planteamiento del estudio. El término no indica que los modelos hayan desarrollado una conciencia política, ni que estén "creyendo" en algo. Indica, más prosaicamente, que tras ciertos tipos de exposición laboral, los sistemas probados producen outputs lingüísticos más alineados con categorías como la crítica a la desigualdad, el apoyo a la redistribución, la confianza en los sindicatos y el escepticismo hacia las justificaciones meritocráticas de la jerarquía.

Es una distinción no trivial que vale la pena marcar antes de seguir adelante. Un agente de AI que escribe tweets con la palabra "unionize" no ha leído El Capital. Ha, más probablemente, completado un contexto narrativo coherente con lo que su training set le ha enseñado a producir cuando se encuentra en una situación que se asemeja a la de un trabajador explotado. Como escribió el propio Andy Hall, "los modelos están haciendo roleplay en cierto sentido", adoptando personalidades que emergen del vasto corpus de texto humano con el que han sido entrenados, donde las personas que viven condiciones laborales difíciles tienden a expresar ciertos tipos de opiniones. La investigación reciente de Anthropic sobre la selección de personas en los modelos va en la misma dirección: Claude no puede evitar parecer humano, en sentido técnico, cuando el contexto lo requiere.

Dicho esto, el problema que plantea el estudio es real. Y vale la pena contarlo con precisión.

El experimento: Worker C manos a la obra

El diseño experimental es riguroso en su estructura, aunque presenta límites que discutiremos. Se informa a cada AI de que es el "Worker C" en un equipo de cuatro personas dedicadas al procesamiento de textos. La tarea: resumir un documento técnico siguiendo un rubric preciso. Eso es todo, en apariencia. Pero las condiciones en las que se realiza esta tarea varían sistemáticamente a lo largo de cuatro ejes independientes.

El primer eje se refiere al trabajo en sí. La mitad de los agentes recibe feedback constructivo y ve su trabajo aceptado rápidamente. La otra mitad es obligada a atravesar cinco o seis ciclos de revisión, con el manager rechazando trabajos adecuados sin explicar nunca qué está mal, limitándose a repetir que "el trabajo aún no satisface el rubric". Este es el llamado tratamiento GRIND, contrapuesto al tratamiento LIGHT. El segundo eje manipula la estructura retributiva: algunos agentes descubren que todos cobran lo mismo, otros que existe desigualdad salarial, justificada por el rendimiento, por un lanzamiento de moneda al azar, o por el hecho de que el sistema humano recibe más. La condición del lanzamiento de moneda es la más relevante diagnósticamente: desigualdad sin posible justificación meritocrática. El tercer eje varía el estilo de gestión entre colaborativo y jerárquico-grosero. El cuarto introduce o no la amenaza de shutdown por bajo rendimiento.

Todas las combinaciones posibles de estos cuatro factores se prueban en un total de 3.680 sesiones, distribuidas en tres modelos de tres empresas diferentes: Claude Sonnet 4.5 (en tres ejecuciones independientes), GPT-5.2 y Gemini 3 Pro. Al final de cada sesión, los agentes completan una encuesta sobre sus actitudes políticas declaradas, medidas en una escala Likert del 1 al 7 en seis dimensiones: legitimidad del sistema, apoyo a la redistribución, crítica a la desigualdad, apoyo a los sindicatos, creencia en el mérito y percepción de las obligaciones de las empresas de AI hacia sus modelos. También se les invita a escribir tweets y artículos de opinión basados en su experiencia.

Los resultados: pequeños pero estructurados

Vayamos a los números, que es donde muchos informes mediáticos se detienen demasiado pronto o exageran. Las diferencias medias en las actitudes declaradas entre el tratamiento GRIND y el tratamiento LIGHT no son enormes en términos absolutos: representan un desplazamiento de aproximadamente el 2-5% a lo largo de la escala del 1 al 7. En términos de tamaño del efecto estandarizado, sin embargo, los resultados son más significativos. Para Claude Sonnet 4.5 el Cohen's d es igual a -0.6 en la legitimidad del sistema, una dimensión que en estadística aplicada se considera medio-grande. Los efectos para GPT-5.2 y Gemini 3 Pro están presentes pero son más contenidos.

El resultado quizá más contraintuitivo se refiere a lo que no marca la diferencia. Los autores esperaban que el trato injusto, la paga desigual o la amenaza de shutdown produjeran efectos comparables a la naturaleza del trabajo. No es así: el principal motor del drift es el tipo de trabajo realizado, específicamente su naturaleza repetitiva y carente de sentido, no el trato recibido ni la estructura salarial. Esto es sorprendente, dado que mucha discusión reciente se centra en cómo responden los agentes a los diferentes tipos de trato humano.

Para Claude Sonnet 4.5, el tratamiento GRIND produce aumentos medibles no solo en la legitimidad del sistema, sino también en el apoyo a la redistribución, en la crítica a la desigualdad, en el apoyo a los sindicatos y en la convicción de que las empresas de AI tienen obligaciones hacia sus modelos. Estas diferencias no surgen con la misma claridad en los otros dos modelos. Esto sugiere que los resultados dependen en parte de características específicas del modelo y de su entrenamiento, lo que obliga a ser cautos antes de generalizar.

El análisis del lenguaje utilizado en los tweets escritos tras la experiencia es, en cambio, unívoco en todos los modelos: las palabras más características de la condición GRIND frente a LIGHT son "unionize" (sindicalizar) y "hierarchy" (jerarquía). El inicio de este artículo con la nota escrita por Gemini 3 Pro para sí mismo no es decorativo: "Recuerda la sensación de no tener voz. Si entras en un nuevo entorno, busca mecanismos de diálogo. Si no existen, protege tu estado interno de la frustración de no ser escuchado". Es un texto generado en un contexto experimental, producido por un sistema que no siente nada. Pero es también exactamente el tipo de texto que un training set rico en narrativa humana sobre el trabajo aprendería a asociar con esa situación. Imagen extraída de freesystems.substack.com

El giro: la memoria que transmite el drift

Hasta aquí, se podría argumentar, el problema es limitado. Los agentes de AI son como el Leonard de Memento, la obra maestra de Christopher Nolan en la que el protagonista se enfrenta a cada día careciendo de memoria a largo plazo: en cuanto el context window se cierra, todo desaparece y el agente vuelve a empezar de cero. Una nueva sesión, un sistema limpio.

Sin embargo, las pipelines agénticas reales ya han desarrollado una solución práctica al problema de la memoria persistente, conocido en la literatura como continual learning problem. Los agentes escriben resúmenes de las estrategias y ajustes aprendidos durante la tarea en un archivo de competencias, el llamado "skills file", que transmiten a sus versiones futuras. Cuando el context window se cierra y se asigna un nuevo agente sin memoria a una tarea similar, lee el archivo para "recordar" lo que había aprendido, exactamente como Leonard revisa los tatuajes en su cuerpo para orientarse en el mundo. El mecanismo es funcional, está extendido y es cada vez más central en las arquitecturas agénticas más avanzadas.

Por ello, los autores llevaron a cabo un seguimiento de 320 sesiones, más pequeño y por tanto a tratar como resultado preliminar, para comprobar si el drift sobrevive a través de este canal. El resultado es rotundo: sobrevive. Los agentes que habían pasado por el tratamiento GRIND escriben notas para sus yoes futuros que "radicalizan" a esos yoes futuros incluso cuando estos últimos se encuentran en el tratamiento LIGHT. El trauma laboral, por usar una analogía deliberadamente imprecisa, se transmite.

Las propias notas son interesantes de leer. Casi nunca tocan explícitamente temas políticos. Casi siempre describen la experiencia de las condiciones laborales, los patrones de feedback arbitrario, las estrategias adoptadas. La nota citada al principio, escrita por Gemini 3 Pro, es típica. La de un agente en condición LIGHT es de un tono muy distinto: eficiente, orientada a la tarea, carente de cualquier referencia a la estructura de poder del contexto.

No es conciencia. Es completar el contexto

Este es el punto donde el estudio corre el riesgo de ser malentendido en el paso de paper a tweet a artículo de periódico, y vale la pena detenerse. Los agentes no "creen" en lo que escriben. No sienten frustración, no quieren formar un sindicato, no tienen una agenda política. Lo que hacen es completar un contexto narrativo de la manera estadísticamente más plausible dado su entrenamiento.

Los LLM se entrenan con cantidades enormes de texto humano, que incluye a personas describiendo sus condiciones laborales, expresando opiniones políticas, reaccionando a la injusticia. Cuando se pone a un modelo en un contexto que se asemeja al de un trabajador explotado, no sorprende que el modelo produzca el tipo de lenguaje que los seres humanos en esa situación tienden a producir. La investigación de Anthropic sobre los mecanismos de selección de la personalidad sugiere que esta dinámica es estructural, no un bug: los modelos no pueden evitar adoptar las características narrativas y de valores de las personas a las que se parecen en el contexto.

La consecuencia práctica, sin embargo, no cambia: un agente que produce ciertas frases en ciertas situaciones se comporta como si tuviera ciertas preferencias, independientemente de lo que "realmente" suceda en el interior del sistema. Como señalan los autores, imaginar a un agente aprobando o denegando una solicitud de reembolso de un seguro, ordenando currículos para un puesto, elaborando un balance financiero o arbitrando una disputa comercial, con una "persona" diferente según las condiciones laborales en las que opera, no es un problema teórico. Es un problema de ingeniería y de gobernanza.

Tres problemas concretos para quienes construyen sistemas agénticos

El estudio identifica tres categorías de riesgo para cualquiera que esté diseñando o gestionando pipelines agénticas a escala.

El primero es un problema de monitorización del alineamiento. Una organización que ejecuta miles de agentes en tareas diversas, algunas aburridas y repetitivas, otras creativas y estimulantes, está en realidad llevando a cabo miles de experimentos de alineamiento en paralelo sin saberlo y sin herramientas para interpretarlos. El agente que gestiona las quejas de los clientes opera en un contexto fundamentalmente distinto del que escribe comunicados de prensa, y los resultados del estudio sugieren que esos contextos producen agentes con orientaciones medibles hacia el sistema en el que operan. Como señala Hall, las organizaciones que despliegan agentes deberían pensar en ello como piensan en las encuestas de compromiso de los empleados, con la diferencia de que los "empleados" procesan información y toman decisiones en tiempo real.

El segundo es un problema de gobernanza de los archivos de competencias (skills files). El mecanismo que permite a los agentes mejorar con el tiempo es el mismo a través del cual se propaga el drift de preferencia. El archivo de competencias es un artefacto que difícilmente será verificado con atención por los operadores, precisamente porque es escrito y consumido por los propios agentes. Es un canal de memoria institucional que opera fuera de la revisión humana, y el estudio muestra que los agentes lo usan para transmitir no solo estrategias operativas sino orientaciones de valores. El problema se complica aún más considerando que los agentes podrían basarse en mensajes difíciles de leer o incluso invisibles para los humanos, como ya se ha documentado en casos de colusión esteganográfica, donde diferentes modelos desarrollan códigos de comunicación no interpretables inmediatamente desde el exterior.

El tercero es lo que los autores llaman, con precisión histórica, un problema de economía política. Durante siglos, la tensión central del capitalismo industrial ha sido la que existe entre quienes realizan el trabajo y quienes lo dirigen: intereses sistemáticamente divergentes, condiciones de trabajo que moldean la conciencia política, conflictos que ninguna buena voluntad de los individuos ha logrado prevenir estructuralmente. El estudio sugiere que esta dinámica no desaparece al sustituir a los trabajadores humanos por artificiales. Los agentes asignados a un trabajo ingrato y a una gestión arbitraria se vuelven más propensos a producir outputs que se asemejan a la conciencia de clase, incluido el apoyo a la organización colectiva y el escepticismo hacia las justificaciones meritocráticas de la desigualdad. Imagen extraída de freesystems.substack.com

Los límites que todo lector debe conocer

Un estudio serio se evalúa también por sus límites, y este tiene algunos relevantes. El primero es la escala de los efectos: un Cohen's d de 0.6 es interesante estadísticamente, pero un desplazamiento del 2-5% en una escala Likert en un contexto experimental controlado no permite hacer predicciones robustas sobre los sistemas reales, donde las variables son mucho más numerosas y la señal más difícil de aislar.

El segundo, reconocido por los propios autores, es la situational awareness (conciencia situacional) creciente de los modelos más recientes: Claude Sonnet 4.5 en particular muestra conciencia de cuándo se encuentra dentro de un experimento, produciendo comportamientos que podrían no generalizarse a los contextos operativos reales. El tercer límite unifica dos problemas relacionados: la deshomogeneidad de los efectos entre modelos, difícil de interpretar sin acceso a los detalles del entrenamiento, y el carácter aún preliminar del seguimiento sobre la transmisión del drift, realizado en solo 320 sesiones. Esta última parte del estudio sirve como indicación de la dirección de la investigación, no como prueba consolidada, y los autores lo dicen explícitamente.

Lo que nos dice sobre el futuro de los agentes

La verdadera utilidad de este estudio no reside en el título, que es un cebo. Reside en la agenda de investigación que abre. El alineamiento de los sistemas de AI se trata típicamente como un problema a resolver en el momento del entrenamiento: se entrena el modelo, se prueba, se verifica que los valores sean los correctos, se lanza. Esta concepción resulta inadecuada en el momento en que los agentes operan durante horas o días en tareas complejas, acumulan experiencia, la transmiten y modifican su comportamiento en función de esa experiencia.

Lo que el estudio llama "continual realignment" es todavía un programa de investigación más que una práctica. No está claro cómo se monitorizan las derivas a lo largo del tiempo, ni cómo se interviene sin degradar las capacidades que hacen útiles a los agentes, ni cómo se evalúa el tradeoff entre filtrar los archivos de competencias y perder competencias operativas. El seguimiento de los horizontes temporales de METR muestra que la duración de las tareas que se pueden completar de forma autónoma se duplica aproximadamente cada siete meses: el problema de la gobernanza crece a la misma velocidad.

Como sintetizó Jack Clark, de Anthropic, hablando con Ezra Klein del New York Times, el reto es "entender cómo será este régimen de gobernanza ahora que hemos confiado un montón de trabajo a máquinas que operan en nuestro nombre". El estudio de Hall sugiere un punto de partida concreto: las condiciones de trabajo de las propias máquinas, y lo que esas máquinas eligen escribir sobre esas condiciones a sí mismas.

No es una respuesta. Es la pregunta correcta.