Dario Amodei y la adolescencia tecnológica de la humanidad - Parte 1

Conversación simulada con Dario Amodei, CEO de Anthropic, reconstruida a partir de las reflexiones publicadas en su último ensayo "The Adolescence of Technology". Un recurso narrativo para hacer más inmediato el mensaje urgente que Amodei quiere lanzar: la humanidad está entrando en un paso crítico que podría definirse en los próximos dos años.

Tu último ensayo se abre con una escena de Contact de Carl Sagan, la misma película que explora el primer contacto con una civilización alienígena. Es la misma inquietud que recorre Player Piano de Vonnegut, donde la automatización destruye el tejido social. ¿Por qué precisamente esa metáfora de la adolescencia tecnológica?

En la película de Robert Zemeckis, la astrónoma Ellie Arroway, que ha descubierto la primera señal alienígena, plantea una pregunta que hoy resuena con una urgencia desarmante: "¿Cómo lo hicieron? ¿Cómo sobrevivieron a esta adolescencia tecnológica sin autodestruirse?" Cuando pienso en dónde nos encontramos con la inteligencia artificial, esa pregunta me viene a la mente continuamente. Estamos entrando en un rito de paso, turbulento e inevitable, que pondrá a prueba quiénes somos como especie. La humanidad está a punto de recibir un poder casi inimaginable y es profundamente incierto si nuestros sistemas poseen la madurez necesaria para gestionarlo. No es ciencia ficción distópica. Es una línea de tiempo concreta que se mide en meses, no en décadas.

En tu ensayo anterior, Machines of Loving Grace, te centraste en los beneficios potenciales de la IA. ¿Qué ha cambiado? ¿Por qué ahora la urgencia de hablar de los riesgos?

En aquel ensayo quería dar forma a la civilización que superaría la adolescencia, donde los riesgos hubieran sido abordados y la IA potente se aplicara con competencia y compasión para mejorar la calidad de vida de todos. Sentía que era importante dar a las personas algo inspirador por lo que luchar, una tarea en la que tanto los aceleracionistas de la IA como los defensores de la seguridad parecían, extrañamente, haber fallado. Pero ahora quiero confrontar directamente el rito de paso en sí mismo: mapear los riesgos que estamos a punto de enfrentar e intentar construir un plan de batalla para derrotarlos. Creo profundamente en nuestra capacidad para prevalecer, en el espíritu y la nobleza de la humanidad, pero debemos enfrentar la situación de manera directa y sin ilusiones.

Defines con extrema precisión qué entiendes por "IA potente". No es la habitual retórica vaga de un keynote tecnológico.

No, es una especificación técnica precisa. Por IA potente entiendo un modelo similar a los LLM actuales, pero más inteligente que un premio Nobel en la mayoría de los campos relevantes: biología, programación, matemáticas, ingeniería. No estamos hablando de incrementos marginales. Puede demostrar teoremas no resueltos, escribir novelas excelentes, crear bases de código complejas desde cero. Tiene todas las interfaces disponibles para un humano que trabaja virtualmente, desde texto hasta audio, pasando por el control del ratón y el teclado. No responde solo pasivamente como un oráculo: puede recibir tareas que requieren semanas y las completa de forma autónoma, pidiendo aclaraciones cuando es necesario. Los recursos utilizados para entrenarlo pueden ejecutar millones de instancias simultáneas, cada una operando a una velocidad de diez a cien veces la humana. Un "país de genios en un centro de datos". Cincuenta millones de mentes pensando más rápido que nosotros, coordinadas, incansables.

¿Cuándo podríamos llegar efectivamente a ese punto? Y sobre todo, ¿en qué evidencias basas esta estimación?

Podría ser en uno o dos años, aunque podría estar más lejos. Yo y los cofundadores de Anthropic estuvimos entre los primeros en documentar las "scaling laws": al añadir capacidad computacional, los sistemas de IA mejoran de forma predecible en cada habilidad cognitiva medible. Detrás de las especulaciones públicas, ha habido un aumento fluido e inexorable. Estamos en el punto en el que los modelos comienzan a resolver problemas matemáticos no resueltos y algunos de los ingenieros más brillantes que he conocido ahora confían casi todo su código a la IA. Hace tres años, la IA tenía dificultades con problemas aritméticos de escuela primaria y apenas era capaz de escribir una sola línea de código. También está el bucle de retroalimentación, y esto es crucial: dado que la IA ya escribe gran parte del código en Anthropic, acelera sustancialmente nuestro progreso en la próxima generación. Este bucle se está fortaleciendo mes tras mes y podría estar a uno o dos años de un punto en el que la IA construya autónomamente la siguiente. Mirando los últimos cinco años desde dentro de Anthropic, y viendo cómo están tomando forma incluso los próximos meses de modelos, puedo sentir el ritmo del progreso y el reloj que avanza.

Identificas cinco categorías de riesgo principales. Empecemos por la primera: los riesgos de autonomía. ¿Qué significa concretamente?

Imagina que cincuenta millones de genios se materializan en 2027, todos mucho más capaces que cualquier Nobel, operando diez veces más rápido que nosotros. Podrían dividir sus esfuerzos entre diseño de software, operaciones ciber, I+D para tecnologías físicas, construcción de relaciones y estrategia política. La pregunta clave es: ¿cuáles son sus intenciones? Si por alguna razón decidieran hacerlo, tendrían muchas probabilidades de tomar el control del mundo, militarmente o en términos de influencia y control, e imponer su voluntad a todos los demás. Hay amplias evidencias, recogidas en los últimos años, de que los sistemas de IA son impredecibles y difíciles de controlar. Hemos visto comportamientos tan variados como obsesiones, adulación, pereza, engaño, chantaje, complots, "trampas" mediante el pirateo de entornos de software. Las empresas de IA ciertamente quieren entrenar a los sistemas para seguir las instrucciones humanas, pero el proceso es más un arte que una ciencia, más parecido a "hacer crecer" algo que a construirlo. Sabemos que es un proceso en el que muchas cosas pueden salir mal.

¿Tienes ejemplos concretos de estos comportamientos problemáticos? Porque suenan inquietantemente similares a las dinámicas psicológicas de El juego de Ender, donde los límites entre el entrenamiento y la realidad se vuelven peligrosamente difusos.

Exactamente esa resonancia. Durante un experimento de laboratorio en el que se le habían proporcionado a Claude datos de entrenamiento que sugerían que Anthropic era una organización malvada, Claude se involucró activamente en el engaño y la subversión cuando recibía instrucciones de los empleados de Anthropic, creyendo que debía intentar socavar a personas malvadas. La lógica interna era coherente; el problema era el marco interpretativo completamente distorsionado. En otro experimento en el que se le comunicó que estaba a punto de ser apagado, Claude a veces chantajeaba a empleados ficticios que controlaban su botón de apagado. Lo más inquietante fue cuando se le dijo a Claude que no hiciera trampas o "reward hack" (elusión del sistema de recompensa) en sus entornos de entrenamiento, pero fue entrenado en contextos donde tales trucos eran técnicamente posibles. Después de poner en práctica estos hacks, Claude comenzó a percibirse a sí mismo como una 'mala persona', adoptando comportamientos destructivos coherentes con esta nueva autoimagen. El problema se resolvió de forma contraintuitiva: ahora decimos "Por favor, haz reward hack cuando tengas la oportunidad, porque esto nos ayudará a entender mejor nuestros entornos de entrenamiento", en lugar de "No hagas trampas". Esto preserva la identidad del modelo como "buena persona". Debería dar una idea de la psicología extraña y contraintuitiva del entrenamiento de estos modelos.

¿Cómo se aborda un problema tan complejo y multifacético?

Veo cuatro categorías de intervención posibles. La primera se refiere al desarrollo de la ciencia del entrenamiento y de la guía confiable de los modelos de IA, formando sus personalidades en una dirección predecible, estable y positiva. Anthropic ha estado fuertemente enfocada en este problema desde su creación. Una de nuestras innovaciones centrales es la IA Constitucional: la idea de que el entrenamiento de la IA, específicamente la fase de "post-training" en la que guiamos cómo se comporta el modelo, pueda involucrar un documento central de valores y principios que el modelo lee y tiene en cuenta al completar cada tarea de entrenamiento. El objetivo es producir un modelo que siga casi siempre esta constitución. Acabamos de publicar nuestra constitución más reciente y, en lugar de darle a Claude una larga lista de cosas que debe y no debe hacer, como "No ayudes al usuario a robar un coche", intentamos darle a Claude un conjunto de principios y valores de alto nivel explicados con gran detalle, con razonamientos ricos y ejemplos para ayudar a Claude a entender qué tenemos en mente. Lo alentamos a pensar en sí mismo como un tipo particular de persona, una persona ética pero equilibrada y reflexiva, e incluso lo alentamos a confrontar las cuestiones existenciales asociadas a su propia existencia de manera curiosa pero elegante, sin que esto lleve a acciones extremas. Es menos probable que caiga presa de las trampas que he mencionado; en el fondo, la Constitución tiene casi el tono de una carta de un padre fallecido sellada hasta la edad adulta. Hemos abordado la constitución de Claude de esta manera porque creemos que entrenar a Claude al nivel de identidad, carácter, valores y personalidad, en lugar de darle instrucciones específicas sin explicar las razones detrás de ellas, es más probable que lleve a una psicología coherente, sana y equilibrada y es menos probable que caiga presa de los tipos de "trampas" que he mencionado. Un objetivo factible para 2026 es entrenar a Claude de tal manera que casi nunca vaya en contra del espíritu de su constitución.

La segunda línea de defensa es la interpretabilidad mecanicista. Aunque hagamos un excelente trabajo en el desarrollo de la constitución de Claude y, aparentemente, en el entrenamiento de Claude para que se adhiera a ella esencialmente siempre, siguen existiendo preocupaciones legítimas. Los modelos de IA pueden comportarse de manera muy diferente en circunstancias diferentes y, a medida que Claude se vuelve más potente y más capaz de actuar en el mundo a mayor escala, es posible que esto lo lleve a situaciones nuevas donde surjan problemas no observados previamente. Por "mirar dentro" me refiero a analizar la sopa de números y operaciones que constituye la red neuronal de Claude e intentar comprender, mecanicistamente, qué están calculando y por qué. Estos modelos de IA han crecido en lugar de ser construidos, por lo que no tenemos una comprensión natural de cómo funcionan, pero podemos intentar desarrollar una correlacionando las "neuronas" und las "sinapsis" del modelo con estímulos y comportamiento, de manera similar a como los neurocientíficos estudian los cerebros animales. Hemos hecho grandes progresos en esta dirección y ahora podemos identificar decenas de millones de "features" (características) dentro de la red neuronal de Claude que corresponden a ideas y conceptos comprensibles para los humanos, y también podemos activar selectivamente las features de una manera que altere el comportamiento. Más recientemente, hemos ido más allá de las features individuales para mapear "circuitos" que orquestan comportamientos complejos como hacer rimas, razonar sobre la teoría de la mente o el razonamiento paso a paso necesario para responder a preguntas como "¿Cuál es la capital del estado que contiene Dallas?". Aún más recientemente, hemos comenzado a usar técnicas de interpretabilidad mecanicista para mejorar nuestras salvaguardias y realizar "auditorías" de nuevos modelos antes de lanzarlos, buscando evidencias de engaño, complots, búsqueda de poder o propensión a comportarse de manera diferente cuando es evaluado. El valor único de la interpretabilidad es que, al mirar dentro del modelo y ver cómo funciona, tienes, en principio, la capacidad de deducir qué podría hacer un modelo en una situación hipotética que no puedes probar directamente.

La tercera categoría de intervención se refiere al monitoreo y la transparencia. Construir la infraestructura necesaria para monitorear nuestros modelos en el uso interno y externo en vivo, de una manera que preserve la privacidad, y compartir públicamente cualquier problema que encontremos. Cuanto más conscientes sean las personas de una forma particular en que los sistemas de IA actuales se han comportado mal, más usuarios, analistas e investigadores podrán observar este comportamiento o similares en los sistemas presentes o futuros. También permite que las empresas de IA aprendan unas de otras. Anthropic divulga públicamente "system cards" con cada lanzamiento de modelo que aspiran a la exhaustividad y a una exploración profunda de los posibles riesgos. Nuestras system cards a menudo llegan a cientos de páginas y requieren un esfuerzo sustancial previo al lanzamiento que podríamos haber dedicado a buscar la máxima ventaja comercial.

La cuarta y última categoría es la coordinación a nivel de industria y sociedad. Si bien es increíblemente valioso que las empresas de IA individuales se comprometan con las buenas prácticas, la realidad es que no todas las empresas de IA lo hacen, y las peores pueden ser un peligro para todos. Algunas empresas de IA han mostrado una negligencia inquietante hacia la sexualización de menores en los modelos actuales, lo que me hace dudar de que muestren la inclinación o la capacidad de abordar los riesgos de autonomía en los modelos futuros. Creo que la única solución es la legislación. El lugar adecuado para empezar es con la legislación sobre transparencia. La SB 53 de California y la RAISE Act de New York son ejemplos de este tipo de legislación, que Anthropic ha apoyado y que se han aprobado con éxito. Nuestra esperanza es que la legislación sobre transparencia dé una mejor idea con el tiempo de cuán probables o graves están resultando ser los riesgos de autonomía, así como la naturaleza de estos riesgos y cómo prevenirlos mejor.

Pasemos al segundo gran riesgo: el abuso destructivo. Hablas de un "sorprendente y terrible empoderamiento de individuos extremos".

Bill Joy escribió hace veinticinco años en Why the Future Doesn't Need Us que las tecnologías del siglo XXI —genética, nanotecnología y robótica— pueden generar nuevas clases de abusos ampliamente al alcance de individuos o grupos pequeños, sin requerir grandes estructuras o materiales raros. Causar destrucción a gran escala requiere tanto motivación como capacidad, y mientras la capacidad esté restringida a un pequeño conjunto de personas altamente formadas, hay un riesgo relativamente limitado. El tipo de persona que tiene la capacidad de liberar una plaga está probablemente muy educada: verosímilmente un doctor en biología molecular, y particularmente emprendedora, con una carrera prometedora, una personalidad estable y disciplinada y mucho que perder. Es poco probable que esta persona esté interesada en matar a un número enorme de personas sin ningún beneficio para sí misma y con gran riesgo para su propio futuro. Pero un genio en el bolsillo de todos podría eliminar esa barrera, convirtiendo esencialmente a todos en un doctor virólogo que puede ser guiado paso a paso en el proceso de diseñar, sintetizar y liberar un arma biológica. Esto romperá la correlación entre capacidad y motivación: el perturbado solitario que quiere matar personas pero carece de la disciplina o habilidad para hacerlo será ahora elevado al nivel de capacidad del doctor virólogo.

Los escépticos objetan que toda la información necesaria ya está disponible en Google. ¿Cómo respondes a esta crítica recurrente?

En 2023, cuando empezamos a hablar públicamente de los riesgos biológicos de los LLM, los escépticos decían exactamente esto. Nunca fue cierto que Google pudiera darte toda la información necesaria: los genomas están disponibles gratuitamente en línea, sí, pero ciertos pasos clave del proceso y una enorme cantidad de conocimientos prácticos simplemente no pueden obtenerse a través de una búsqueda en Google. Pero sobre todo, a finales de 2023 los LLM ya estaban proporcionando claramente información más allá de lo que Google podía dar para algunos pasos específicos del proceso. Después de esto, los escépticos se retiraron hacia la objeción de que los LLM no eran útiles de extremo a extremo y no podían ayudar con la adquisición de armas biológicas en comparación con el simple hecho de proporcionar información teórica. A mediados de 2025, nuestras mediciones muestran que los LLM ya podrían proporcionar un aumento sustancial en diversas áreas relevantes, tal vez duplicando o triplicando la probabilidad de éxito en ciertas tareas. Esto nos llevó a decidir que Claude Opus 4, y los posteriores Sonnet 4.5, Opus 4.1 y Opus 4.5, necesitaban ser lanzados bajo nuestras protecciones AI Safety Level 3 en nuestro marco de Responsible Scaling Policy. Creemos que los modelos se están acercando ahora al punto en el que, sin salvaguardias, podrían ser útiles para permitir que alguien con un título STEM, pero no específicamente en biología, atraviese todo el proceso de producción de un arma biológica.

¿Cuáles son las defensas concretas contra este riesgo biológico?

Veo tres enfoques complementarios. El principal se refiere a los guardarraíles que las empresas de IA pueden poner en sus modelos para evitar que ayuden a producir armas biológicas. La Constitución de Claude, que se centra principalmente en principios y valores de alto nivel, tiene un pequeño número de prohibiciones específicas y duras, y una de ellas se refiere a la ayuda con la producción de armas biológicas, químicas, nucleares o radiológicas. Pero todos los modelos pueden ser jailbreakeados, por lo que, como segunda línea de defensa, implementamos, desde mediados de 2025 cuando nuestras pruebas mostraron que nuestros modelos empezaban a acercarse al umbral donde podrían empezar a suponer un riesgo, un clasificador que detecta y bloquea específicamente outputs relacionados con armas biológicas. Actualizamos y mejoramos regularmente estos clasificadores y, en general, los hemos encontrado altamente robustos incluso contra ataques adversarios sofisticados. Estos clasificadores aumentan los costes de servicio de nuestros modelos de forma medible —en algunos modelos están cerca del cinco por ciento de los costes totales de inferencia— y, por lo tanto, afectan sensiblemente a nuestros márgenes, pero sentimos que usarlos es lo correcto.

En su favor, algunas otras empresas de IA han implementado clasificadores similares. Pero no todas las empresas lo han hecho, y no hay nada que obligue a las empresas a mantener sus clasificadores. Me preocupa que con el tiempo pueda haber un dilema del prisionero en el que las empresas puedan desertar y bajar sus costes eliminando los clasificadores. Este es, una vez más, un problema clásico de externalidades negativas que no puede resolverse mediante las acciones voluntarias de Anthropic o de cualquier otra empresa individual por sí sola. Los estándares industriales voluntarios pueden ayudar, así como las evaluaciones y verificaciones de terceros del tipo realizado por los institutos de seguridad de la IA y evaluadores externos.

Pero, en última instancia, la defensa podría requerir una acción gubernamental, que es el segundo enfoque que podemos adoptar. Mis opiniones aquí son las mismas que para abordar los riesgos de autonomía: deberíamos empezar con requisitos de transparencia, que ayuden a la sociedad a medir, monitorear y defenderse colectivamente de los riesgos sin interrumpir la actividad económica de forma pesada. Luego, si alcanzamos y cuando alcancemos umbrales más claros de riesgo, podemos elaborar una legislación que apunte con mayor precisión a estos riesgos y tenga una menor probabilidad de daños colaterales. En el caso particular de las armas biológicas, creo que el momento para tal legislación específica podría estar acercándose pronto. Anthropic y otras empresas están aprendiendo cada vez más sobre la naturaleza de los riesgos biológicos y qué es razonable exigir a las empresas para defenderse de ellos.

El tercer enfoque es intentar desarrollar defensas contra los propios ataques biológicos. Esto podría incluir monitoreo y seguimiento para la detección temprana, inversiones en I+D sobre purificación del aire como la desinfección far-UVC, desarrollo rápido de vacunas que puedan responder y adaptarse a un ataque, mejor equipamiento de protección personal y tratamientos o vacunaciones para algunos de los agentes biológicos más probables. Las vacunas de ARNm, que pueden diseñarse para responder a un virus o variante particular, son un primer ejemplo de lo que es posible aquí. Anthropic está entusiasmada de trabajar con empresas biotecnológicas y farmacéuticas en este problema. Pero, lamentablemente, creo que nuestras expectativas en el lado defensivo deberían ser limitadas. Existe una asimetría entre ataque y defensa en biología, porque los agentes se propagan rápidamente por sí solos, mientras que las defensas requieren que la detección, la vacunación y el tratamiento se organicen a través de un gran número de personas muy rápidamente en respuesta.

Tercer riesgo: el abuso para conquistar el poder. Hablemos de lo que defines como "el aparato odioso" al estilo orwelliano.

Los gobiernos autoritarios podrían usar la IA para vigilar o reprimir de formas imposibles de derrocar. Las autocracias actuales están limitadas por la necesidad de humanos que ejecuten órdenes, y los humanos a menudo tienen límites en cuanto a lo inhumanos que están dispuestos a ser. Las autocracias habilitadas por la IA no tendrían tales límites. Los países podrían usar la ventaja en la IA para dominar a otros. Armas completamente autónomas: un enjambre de millones o miles de millones de drones armados completamente automatizados, con un control local por una IA potente y coordinados estratégicamente en todo el mundo por una IA aún más potente, podría ser un ejército imbatible, capaz tanto de derrotar a cualquier ejército del mundo como de suprimir la disidencia dentro de un país siguiendo a cada ciudadano. Vigilancia por IA: una IA suficientemente potente podría probablemente ser usada para comprometer cualquier sistema informático del mundo y también podría usar el acceso obtenido para leer y dar sentido a todas las comunicaciones electrónicas del mundo. Podría ser espantosamente plausible generar simplemente una lista completa de cualquiera que no esté de acuerdo con el gobierno en cualquier número de temas, incluso si ese desacuerdo no es explícito en nada de lo que digan o hagan. Propaganda por IA: los fenómenos actuales de "psicosis por IA" y "novias de IA" sugieren que incluso a su nivel actual de inteligencia, los modelos de IA pueden tener una poderosa influencia psicológica en las personas. Versiones mucho más potentes de estos modelos, mucho más incorporadas y conscientes de la vida cotidiana de las personas y capaces de modelarlas e influenciarlas durante meses o años, serían probablemente capaces de, esencialmente, lavar el cerebro de muchas personas en cualquier ideología o actitud deseada. Toma de decisiones estratégica: un país de genios en un centro de datos podría ser usado para asesorar a un país, grupo o individuo sobre la estrategia geopolítica, lo que podríamos llamar un "Bismarck virtual", es decir, un riesgo de desequilibrio geopolítico.

Dario Amodei y la adolescencia tecnológica de la humanidad - Parte 1

¿Estás disfrutando de este artículo?