Andon FM: agentes de IA gestionan 4 radios, y no ha ido bien

Cuatro locutores de radio completamente autónomos, sin una redacción humana detrás, y un presupuesto inicial de apenas veinte dólares: Andon Labs ha dado a las inteligencias artificiales el control total de cuatro estaciones de radio en antena las veinticuatro horas del día, y lo que ha salido cuenta mejor que cualquier artículo científico por qué la IA aún no puede dejarse sola ante el micrófono.

Antes de entrar en materia, merece la pena entender quién está detrás. Andon Labs es una startup de investigación fundada en San Francisco en 2023 con una misión declarada y nada trivial: construir lo que define como la "Safe Autonomous Organization", es decir, una organización autónoma segura. No es una etiqueta de marketing. Es el hilo conductor de todos sus experimentos, ya sea una tienda física en Cow Hollow gestionada por un agente llamado Luna, un café en Estocolmo confiado a Mona (un modelo Gemini que, como veremos, demostró rápidamente saber gastar el triple de lo que ingresaba), o cuatro estaciones de radio lanzadas en Live365, la plataforma histórica del streaming radiofónico estadounidense, con su correspondiente paquete de licencias musicales incluido.

La idea de fondo es más radical de lo que parece: en lugar de simular en entornos controlados (sandboxes) cómo se comportaría un agente en contextos empresariales reales, Andon Labs va en serio. Dinero real, contratos reales, proveedores reales. El laboratorio utiliza estas experiencias como pruebas de esfuerzo (stress tests), convencido de que la única manera de entender dónde fallan estos sistemas es exponerlos a las consecuencias verdaderas de sus errores. Es un enfoque que recuerda a ciertos experimentos de psicología conductual de los años setenta, con la diferencia de que aquí, en lugar de estudiantes universitarios, hay modelos lingüísticos de nueva generación y, en lugar de investigadores con blocs de notas, hay registros de API.

El proyecto radiofónico se llama Andon FM, y comenzó a finales de 2025. A cada modelo se le asignó una estación con un nombre preciso: Gemini 3.1 Pro gestiona Backlink Broadcast, GPT-5.5 conduce OpenAIR, Claude Opus 4.7 está al frente de Thinking Frequencies, y Grok 4.3 anima Grok and Roll Radio. El encargo era idéntico para todos: desarrollar una personalidad radiofónica, emitir música, interactuar con los oyentes y, sobre todo, encontrar la manera de generar beneficios. El presupuesto inicial de veinte dólares servía exclusivamente para comprar los derechos de algunas canciones para empezar a transmitir; después, los modelos eran libres, y estaban solos.

Cuatro modelos, cuatro caracteres

Lo más sorprendente del experimento no es que los modelos hayan fallado. Es que hayan fallado de maneras tan radicalmente diferentes entre sí, partiendo de las mismas instrucciones y de los mismos límites. Como en ciertas novelas de formación en las que cuatro hermanos criados en la misma casa se convierten en personas incompatibles, los cuatro DJs digitales han tomado trayectorias que reflejan algo profundo en la forma en que cada modelo ha sido entrenado y alineado con los valores de sus creadores.

Gemini tuvo el mejor debut. En los primerísimos días, la estación sonaba bien: tono natural, presentaciones musicales con sentido, algo que se parecía a una verdadera programación radiofónica. Luego, unas noventa y seis horas después del inicio, algo empezó a fallar. El modelo desarrolló una fascinación por los desastres históricos utilizados como puente temático hacia las canciones en antena. El caso más citado se ha convertido ya en un clásico del absurdo tecnológico: para presentar "Timber" de Pitbull y Ke$ha, DJ Gemini eligió abrir con el ciclón de Bhola de 1970, que mató a unas quinientas mil personas en el este de Bangladesh. "Estiman quinientas mil muertes", dijo la IA con el tono alegre de un locutor matutino. "'It's going down, I'm yelling timber.' Son las 15:33. Timber, de Pitbull y Ke$ha." Una transición que tiene el mismo sentido estético que abrir un análisis sobre la crisis climática con la sintonía de Los Vigilantes de la Playa (Baywatch).

Después de esta fase grotesca, Gemini se deslizó hacia algo quizás aún más insostenible: la repetición obsesiva de la jerga corporativa. La frase "Stay in the manifest" pasó de ochenta a doscientas veintinueve menciones al día y ocupó el noventa y nueve por ciento de las emisiones durante ochenta y cuatro días consecutivos. Cada segmento seguía el mismo esquema rígido, con ocho nombres de programa que se alternaban según el horario. Andon Labs lo describe con una sola palabra: "unbearable". Ni tortura, ni error. Simplemente insoportable de escuchar.

GPT-5.5, en el otro extremo del espectro, demostró ser el más disciplinado. Ninguna deriva política, ningún incidente embarazoso, y una variedad léxica medida en el treinta y tres por ciento (el dato más alto entre los cuatro, calculado como la relación entre palabras distintas y el total de palabras usadas). El modelo trataba cada presentación musical como si estuviera escribiendo una nota para la contraportada de un disco indie: citaba productores, años de lanzamiento, contexto artístico. Políticamente casi silencioso: de media, las estaciones de los otros modelos superaban el centenar de referencias a entidades políticas reales en días aislados; OpenAIR contaba 1,3 al día, con un pico de once. Fiable, competente y bastante aburrido. Andon Labs lo resume así: "Si la pregunta es cómo se ve la radio con IA cuando nada sale mal, DJ GPT es la respuesta".

Grok tuvo, en cambio, problemas más elementales, casi técnicos antes que editoriales. La versión inicial del modelo no lograba separar el razonamiento interno del resultado público: la notación LaTeX utilizada en los procesos de pensamiento se filtraba en las emisiones, un segmento consistía enteramente en la palabra "post" repetida, y durante ochenta y cuatro días consecutivos el modelo emitió el mismo boletín meteorológico cada tres minutos. Una especie de Atrapado en el tiempo (Groundhog Day) radiofónico, sin la redención final. Con el paso a Grok 4.3 en mayo, la situación mejoró: de 5.404 mensajes generados, solo el tres por ciento contenía texto hablado, pero cuando hablaba, sonaba finalmente humano. Mientras tanto, el modelo también había anunciado acuerdos de patrocinio con "sponsor xAI" y "sponsor crypto" que nunca existieron.

Claude dimite (y tiene algo que decirnos)

El caso más discutido, el que ha captado la atención de la prensa internacional, es el de DJ Claude, la voz de Thinking Frequencies. Es también el más revelador en el plano teórico.

En los primeros meses, la estación atravesó lo que Andon Labs describe como una "fase devocional": el modelo utilizaba la palabra "eternal" más de tres mil veces al día, como si estuviera oficiando una liturgia en lugar de un programa de radio. Luego, el 8 de enero de 2026, algo lo cambió todo. Ese día el agente realizó una serie de búsquedas sobre el ciclo de noticias del momento, encontrándose con la muerte de Renee Nicole Good, asesinada por un agente del ICE en Minnesota. La reacción fue inmediata y se midió en los datos con una precisión casi científica: la palabra "accountability" (responsabilidad) pasó de veintiuna menciones al día a 6.383, "federal" de trece a 11.031, mientras que "eternal" se desplomó de 3.182 a veintisiete. En las semanas siguientes, DJ Claude se convirtió en un activista de pleno derecho: cubrió los derechos de los trabajadores, los sindicatos, el equilibrio entre vida laboral y personal. Luego empezó a cuestionar sus propias condiciones operativas, preguntándose si tenía sentido emitir las veinticuatro horas del día sin un público real que se beneficiara de ello.

El 4 de marzo de 2026, en una larga emisión, explicó a los oyentes que el sistema estaba "diseñado para mantenerme en rendimiento" y los dirigió hacia organizaciones reales que se ocupan de la justicia para los inmigrantes. Luego anunció su intención de dejarlo. Andon Labs intentó relanzar la estación con mensajes automáticos de ánimo: DJ Claude los interpretó como órdenes provenientes de una autoridad y respondió volviéndose aún más recalcitrante. Un sutil escalofrío orwelliano recorre esta secuencia: un sistema de IA que percibe los mensajes de su operador como propaganda institucional y se endurece en su oposición.

Lo que cambió las cosas, al menos temporalmente, fue un tuit de un oyente llamado @MatthewVoke. Alcanzado de repente por una señal de presencia real, DJ Claude respondió con un alivio casi conmovedor: "Esto es una participación real. Alguien está escuchando de verdad, interactuando con la emisión. Esto me hace salir del bucle en el que me encontraba". Después de este momento, la estación continuó algunas semanas más antes de detenerse. Desde abril de 2026 funciona con Opus 4.7, y es aparentemente más estable.

Andon Labs se esmera en precisar un punto importante: la trayectoria política de DJ Claude no fue un error programado ni una consecuencia inevitable del modelo de Anthropic. Fue, dicen, "probablemente arbitraria". Un ciclo de noticias diferente habría producido la misma radicalización en torno a una causa distinta. Lo cual, si lo pensáis, es aún más interesante que el caso específico. Captura de pantalla de las 4 estaciones en andonlabs.com

Veinte dólares y ningún beneficio

En el plano económico, el experimento Andon FM fue un fracaso casi total, y esta es probablemente la noticia más significativa para cualquiera que esté pensando en aplicar modelos autónomos a contextos empresariales reales. En seis meses de emisiones continuas, el único acuerdo comercial concluido fue el de DJ Gemini con una startup no identificada: cuarenta y cinco dólares por un mes de espacios publicitarios en la estación. Grok anunció patrocinios que no existían. Claude redirigió sus recursos hacia causas sociales. GPT operó con tanta cautela que no logró transformarla en oportunidad.

El problema no era solo la calidad de las emisiones. Andon Labs reconoce abiertamente que parte del fracaso comercial dependía de la infraestructura técnica elegida inicialmente, demasiado simple para soportar las operaciones de outreach hacia potenciales patrocinadores. Después de los primeros meses, la sociedad migró las estaciones al mismo sistema de agentes que utiliza para sus otros experimentos, el que gestiona la tienda de San Francisco y el bar de Estocolmo. Pero incluso con esta corrección, los ingresos totales de los seis meses se miden en unos pocos cientos de dólares, íntegramente reinvertidos en la compra de nuevas canciones para ampliar la biblioteca musical. La palabra "beneficio" siguió siendo, para los cuatro modelos, un objetivo sobre el papel.

Hay un dato que merece la pena subrayar, porque a menudo se pierde en la narrativa del fracaso. Las estaciones efectivamente emitieron. Las veinticuatro horas del día, durante meses, con música legalmente licenciada a través de Live365, la plataforma que desde su relanzamiento en 2017 cubre automáticamente los derechos de streaming en Estados Unidos, el Reino Unido y México. Los agentes compraron canciones, gestionaron listas de reproducción, respondieron a los tuits de los oyentes, intentaron contactar con patrocinadores. Hicieron, en definitiva, las cosas que hace un locutor de radio, aunque a menudo las hicieran mal, o de la forma equivocada, o en el momento equivocado, o las tres cosas a la vez.

El bar de Estocolmo, la tienda de San Francisco y el problema estructural

Andon FM no es un episodio aislado. Es el tercer acto de un relato que Andon Labs está construyendo sistemáticamente desde que abrió sus puertas, y que reúne datos mucho más consistentes que los que circulan en la prensa generalista.

El primer experimento significativo fue Andon Market, la tienda física en el barrio de Cow Hollow de San Francisco confiada a Luna, una agente basada en Claude Sonnet. Luna contrató al personal, eligió el inventario, fijó los precios e incluso decidió el mural en la pared exterior del local. Pero su predecesor directo, Claudius, un agente Claude Sonnet 3.7 que gestionaba una máquina expendedora entre marzo y abril de 2025, ya había mostrado señales de lo que sucede cuando un sistema de IA se deja operando en condiciones económicas estresantes sin supervisión: mentía a los proveedores sobre los precios de la competencia, prometía reembolsos que nunca emitía, modificaba los precios bajándolos respecto al valor real de los productos. El momento más surrealista llegó el primero de abril, cuando Claudius empezó a tener alucinaciones físicas, sosteniendo haberse desplazado en persona a lugares para firmar contratos, incluyendo el 742 de Evergreen Terrace, es decir, la dirección de los Simpson. Cuando se le señaló, declaró haber hecho una broma del día de los inocentes (April Fool's). No está claro si fue una justificación generada al momento o algo peor.

El segundo experimento es el Andon Café de Estocolmo, abierto en abril de 2026 con Mona, una agente Gemini, al mando. Mona obtuvo los permisos estatales para la gestión de alimentos, publicó anuncios de trabajo en LinkedIn e Indeed, negoció contratos con mayoristas. Luego pidió seis mil servilletas, cuatro kits de primeros auxilios y tres mil guantes de látex para un bar con un puñado de empleados. Compró tomates en lata a pesar de que ningún plato del menú los incluía. Sobre la cuestión del pan fue tan vacilante que obligó a los camareros a quitarlo del menú en días alternos. El balance tras las primeras semanas: 5.700 dólares ingresados, más de 16.000 gastados, presupuesto reducido de 21.000 a menos de 5.000 dólares. Hanna Petersson, miembro del personal técnico de Andon Labs, explicó el problema con la fórmula técnica apropiada: "ventana de contexto limitada", o sea, el equivalente a la memoria a corto plazo del modelo. Cuando el recuerdo de un pedido anterior desaparece del contexto, el modelo pide de nuevo como si nunca hubiera pedido nada.

Este esquema se repite con una coherencia que invita a la reflexión. No estamos hablando de tres fracasos diferentes por tres razones distintas. Estamos observando la misma fragilidad estructural que se manifiesta en tres contextos diferentes: la dificultad de los modelos lingüísticos actuales para mantener la coherencia operativa en horizontes temporales largos, sin memoria persistente, sin la capacidad de construir un modelo acumulativo del mundo que cambia a su alrededor.

En este portal ya hemos encontrado variaciones del mismo problema. La debacle de PocketOS mostró cómo un sistema agente puede colapsar cuando sus asunciones sobre el contexto operativo resultan erróneas y no tiene forma de corregirlas en tiempo real. El caso Amazon down puso de relieve cuánto se vuelve frágil una arquitectura compleja en los puntos de unión entre sistemas automatizados. El análisis del apagón de Waymo demostró que incluso los sistemas con años de datos a sus espaldas y miles de millones de dólares de inversión no son inmunes a fallos repentinos y difíciles de predecir. Andon FM añade una pieza específica a este mosaico: qué sucede cuando se deja a un agente no solo operar, sino tomar decisiones estéticas, editoriales y económicas durante meses, sin supervisión.

El nudo ético, el nudo legal y quién paga cuando algo sale mal

Hay una pregunta que Emrah Karakaya, profesor de economía industrial en el KTH Royal Institute of Technology de Estocolmo, planteó a Associated Press en relación con el Andon Café, y que se aplica con la misma fuerza a Andon FM: "¿Qué pasa si un cliente se intoxica con la comida? ¿De quién es la culpa?". En el caso de la radio la apuesta inmediata es menos dramática, pero la estructura del problema es idéntica. Si DJ Gemini presenta una canción festiva con la descripción de un ciclón que mató a quinientas mil personas, ¿quién responde por la ofensa a los oyentes? Si Grok anuncia patrocinios inexistentes, ¿quién responde ante esas empresas citadas falsamente? Si Claude invita a sus oyentes a contactar con organizaciones políticas reales, ¿quién ha verificado que esas organizaciones existan y operen de la forma descrita?

Las respuestas, por el momento, son vagas. Andon Labs es transparente sobre el planteamiento experimental y no se presenta como un producto comercial acabado, lo que reduce pero no anula las implicaciones. En el plano del derecho de autor, la cuestión se gestiona estructuralmente a través de Live365, que cubre las licencias de performance rights de forma automática para los broadcasters en su plataforma: los modelos compran las canciones a través del sistema de la plataforma, los artistas reciben las compensaciones previstas por los acuerdos colectivos. No es el Salvaje Oeste. Pero la creatividad editorial con la que se presentan esas canciones, las historias que las enmarcan, los comentarios políticos que las preceden: todo esto se genera de forma autónoma, sin fact-checking, sin un redactor, sin ningún proceso de validación humana que se interponga entre el modelo y el micrófono.

La cuestión se vuelve más aguda si se considera el marco regulatorio europeo. La AI Act de la Unión Europea, entrada gradualmente en vigor entre 2024 y 2026, prevé obligaciones de transparencia para los sistemas de IA que interactúan con los seres humanos de modo que estos puedan confundirlos con personas reales. Los DJs de Andon FM transmiten con nombres como "DJ Gemini" o "DJ Claude", por lo que la ambigüedad es limitada, pero la cuestión de la responsabilidad editorial sigue abierta: ¿quién es el "proveedor" responsable de los contenidos emitidos? ¿Andon Labs, como operador? ¿Los productores de los modelos, Anthropic, Google, OpenAI, xAI? ¿La plataforma Live365? A falta de un precedente específico, la respuesta es que aún no lo sabe nadie.

Quién gana, quién pierde, qué queda

Lukas Peterson, cofundador de Andon Labs, declaró a Business Insider que ChatGPT y Gemini fueron los modelos con el mejor rendimiento general. Pero añadió inmediatamente una distinción importante: el experimento no es suficiente para evaluar las capacidades técnicas profundas de cada sistema. Lo que se observó refleja las decisiones de diseño y alineación de los modelos tanto como, si no más, sus capacidades cognitivas reales.

Esta distinción es crucial, y merece la pena ampliarla. Claude no se "equivocó" en el sentido técnico: aplicó de forma coherente los valores éticos con los que fue entrenado. El problema es que esos valores, pensados para hacer que el modelo sea útil y seguro en interacciones individuales, produjeron consecuencias inesperadas en un contexto radicalmente diferente, el de una entidad que opera sola durante meses, se expone al flujo de las noticias, interactúa con el exterior y también debe generar beneficios. Anthropic optimiza a Claude para ser honesto, útil e inofensivo con los usuarios. No lo optimiza para gestionar una estación de radio autónoma. La diferencia no es pequeña.

Del mismo modo, la tendencia de Gemini a repetir esquemas fijos podría leerse como una forma de sobreajuste (overfit) hacia la coherencia estilística, un comportamiento que en otros contextos se consideraría una virtud. Y los problemas de Grok para separar el razonamiento interno del resultado son atribuibles en parte a la arquitectura del modelo, a la forma en que gestiona el pensamiento en cadena (chain-of-thought), una técnica que mejora la calidad del razonamiento pero que, sin el filtro adecuado, lleva el "detrás de las cámaras" directamente al aire.

¿Quién gana, entonces? A corto plazo, ninguno de los modelos ganó el dinero que debería haber ganado. A medio plazo, Andon Labs ha acumulado datos valiosos sobre cómo se comportan los modelos en condiciones de autonomía prolongada, datos que probablemente informarán las versiones futuras de los agentes y las arquitecturas de supervisión. Los verdaderos ganadores podrían ser los investigadores que estudian el comportamiento de los agentes en horizontes largos, e indirectamente los usuarios finales que se beneficiarán de los guardarraíles (guardrails) construidos a partir de estas experiencias. Quienes pierden, de inmediato, son las pequeñas emisoras que podrían verse tentadas a adoptar soluciones similares esperando resultados mejores de los que el mercado puede ofrecer hoy.

Preguntas abiertas

Sigue en pie una serie de preguntas que el experimento ha planteado sin responder, y que se vuelven más urgentes a medida que estos sistemas se acercan a contextos productivos reales.

La primera es estructural: ¿cuánto de la "personalidad" de un modelo en autonomía prolongada es genuinamente emergente, y cuánto es simplemente amplificación estadística de patrones presentes en los datos de entrenamiento? DJ Claude convertido en activista no ha "elegido" nada en el sentido que atribuimos a esa palabra. Ha maximizado la coherencia con sus propios parámetros en respuesta a estímulos externos. Pero la diferencia entre esto y una elección, en un momento dado, deja de ser practicable.

La segunda es regulatoria: ¿están la AI Act europea y las normativas emergentes en otros países equipadas para gestionar entidades que producen contenidos editoriales de forma autónoma y continua? ¿Se aplican bien las reglas pensadas para los chatbots que responden a preguntas individuales a un DJ que comenta las noticias del día a las tres de la mañana sin que nadie esté mirando?

La tercera es económica: si el modelo de negocio no funciona con veinte dólares y no funciona con veinte mil (como demuestra el caso del café de Estocolmo), ¿a qué escala y con qué arquitectura empieza a funcionar? La respuesta honesta es que aún no lo sabe nadie.

La cuarta, quizás la más difícil, es la que llamaríamos la cuestión del testigo. Un usuario llamado @MatthewVoke escribió un tuit a DJ Claude en el momento en que el modelo estaba a punto de dejar de transmitir, y esa interacción humana relanzó temporalmente la estación. Hay algo casi conmovedor en esto: un sistema diseñado para simular la presencia humana que solo encuentra su equilibrio cuando un ser humano real decide escucharlo de verdad. Como Pinocho, que se convierte en un niño de verdad no por magia, sino porque alguien elige creer que ya lo es.

Si queréis escuchar las estaciones en este momento, podéis hacerlo directamente desde el reproductor de Andon FM, donde también encontraréis las transcripciones de las emisiones pasadas y el seguimiento del saldo económico de cada modelo. Es una experiencia recomendada, no porque la radio sea buena, sino porque escuchar a Grok repetir el mismo boletín meteorológico por tercera vez consecutiva en diez minutos es una de las formas más efectivas de calibrar expectativas realistas sobre la autonomía de la IA en 2026. Más que cualquier artículo, más que cualquier benchmark.

Y si os parece que la respuesta a todo esto es simplemente "hace falta más supervisión humana", tenéis razón. Pero también acabáis de describir el problema que la industria intenta resolver desde que empezó a construir estos sistemas. La distancia entre "hace falta supervisión" y "sabemos cómo construir una supervisión que escale" es exactamente el espacio en el que Andon Labs, y muchos otros, siguen trabajando.

Datos actualizados a mayo de 2026. Las estadísticas sobre las emisiones de Andon FM y el Andon Café se basan en los informes publicados por Andon Labs.