¿Qué tiene que ver De Gregori con la guerra de la IA?

por Dario Ferrero

Hay una canción de Francesco De Gregori de 1992, del álbum "Canzoni d'amore", que quizás pocos recuerden en el vasto y poético catálogo del cantautor romano. Se titula "Chi ruba nei supermercati?" (¿Quién roba en los supermercados?), y su estribillo plantea una pregunta que en aquel momento era terriblemente actual y sociológica: "¿Tú de qué lado estás? ¿Estás del lado de quien roba en los supermercados? ¿O de quien los ha construido, robando?". Treinta y cuatro años después, esa pregunta resuena extrañamente actual en un contexto que De Gregori, a pesar de su extraordinaria capacidad para leer el mundo, no habría podido imaginar: la guerra tecnológica entre las mayores empresas de inteligencia artificial del planeta.

El memo y el terremoto

El 12 de febrero de 2026, OpenAI envió un memorando al Comité Selecto de la Cámara sobre Competencia Estratégica entre Estados Unidos y el Partido Comunista de China, el comité bicameral del Congreso estadounidense dedicado a la competencia estratégica con China. El contenido de ese documento, reportado por Reuters y por Bloomberg, es una acusación directa: la startup china DeepSeek habría utilizado técnicas de distillation (destilación) para entrenar sus propios modelos explotando los resultados de ChatGPT, eludiendo deliberadamente los sistemas de seguridad de OpenAI a través de routers de terceros y técnicas de ofuscación para ocultar el origen de los accesos.

"Hemos observado cuentas asociadas a empleados de DeepSeek que desarrollaban métodos para eludir las restricciones de acceso de OpenAI", se lee en el memorando según lo reportado por Reuters, "y sabemos que empleados de DeepSeek desarrollaron código para acceder a los modelos de IA estadounidenses y obtener sus resultados para la destilación de formas programáticas".

Para entender por qué esta acusación ha hecho tanto ruido, hay que volver a enero de 2025, cuando DeepSeek desencadenó lo que muchos observadores habían bautizado como el "momento Sputnik" de la inteligencia artificial china. La startup de Hangzhou, fundada por Liang Wenfeng y financiada exclusivamente por su fondo de cobertura High-Flyer, había lanzado los modelos DeepSeek-V3 y DeepSeek-R1, capaces de competir con los mejores modelos estadounidenses a una fracción del costo declarado: menos de seis millones de dólares de potencia computacional, frente a los miles de millones que OpenAI, Anthropic, Meta y Google seguían invirtiendo en sus propias infraestructuras. El costo de entrenamiento de R1, como documentan análisis independientes, se había declarado en menos de seis millones de dólares empleando chips Nvidia H800, es decir, la versión "degradada" de los H100 que Estados Unidos ya había prohibido exportar a China.

El efecto en los mercados fue inmediato y brutal: Nvidia quemó en pocos días unos 600.000 millones de dólares de capitalización. La narrativa dominante, aquella según la cual dominar la IA requería necesariamente miles de millones de inversión en chips y centros de datos, parecía de repente frágil.

Cómo funciona la destilación

Antes de proceder, es necesario aclarar qué es exactamente la distillation, porque el término, como ocurre a menudo en la comunicación tecnológica, es usado de forma imprecisa tanto por los detractores como por los defensores de DeepSeek.

En el sentido técnico más propio, la destilación es un proceso por el cual un modelo más pequeño y ligero, el "estudiante", es entrenado para replicar el comportamiento de un modelo más grande y potente, el "maestro". Como explica la propia OpenAI en el memorando al Congreso, la técnica "implica que un modelo de IA más antiguo, más consolidado y potente evalúe la calidad de las respuestas producidas por un modelo más nuevo, transfiriendo efectivamente los resultados del aprendizaje del modelo más antiguo al más nuevo". En términos más concretos: en lugar de aprender del mundo a través de miles de millones de textos humanos, el estudiante aprende de la sabiduría ya destilada en el maestro.

La técnica en sí no es nueva ni ilegal. Es una herramienta estándar del campo: la propia DeepSeek, en su artículo técnico sobre R1, describe abiertamente cómo creó versiones destiladas de su propio modelo para hacerlas accesibles en hardware menos potente, utilizando GRPO (Group Relative Policy Optimization) como marco de aprendizaje por refuerzo en lugar del más convencional RLHF. El artículo, firmado por DeepSeek-AI y 199 coautores, describe un proceso de entrenamiento en múltiples etapas que integra aprendizaje por refuerzo, ajuste fino supervisado y, precisamente, destilación de sus propios modelos hacia versiones más pequeñas.

El punto de la controversia no es, por tanto, la técnica en sí, sino su objetivo: OpenAI sostiene que DeepSeek habría destilado resultados de ChatGPT, es decir, habría usado las respuestas del modelo competidor como material de entrenamiento para el suyo propio. Los Términos de Servicio de OpenAI prohíben explícitamente utilizar los resultados de sus servicios "para desarrollar modelos que compitan con OpenAI".

DeepSeek no responde. El silencio como respuesta

Ante las acusaciones de febrero de 2026, DeepSeek no respondió a las solicitudes de comentarios por parte de Reuters. No es la primera vez: también en enero de 2025, cuando surgieron los primeros rumores sobre la destilación en el Financial Times, la respuesta de la startup china fue elusiva o vaga.

El silencio es significativo pero no unívoco. Puede ser una estrategia legal, indiferencia calculada o simplemente la elección de una startup que no quiere legitimar las acusaciones de un competidor respondiendo en su terreno. Lo que queda es una pregunta abierta: ¿qué pruebas concretas tiene OpenAI, más allá del hecho de que las cuentas sospechosas "estaban asociadas a empleados de DeepSeek"?

Desde el punto de vista técnico, la cuestión está lejos de resolverse. DeepSeek publicó los detalles de su propio proceso de entrenamiento en un artículo revisado por pares en arXiv. Como se documenta en el análisis de arxiv 2501.12948, el modelo R1-Zero había sido entrenado exclusivamente mediante aprendizaje por refuerzo sin ajuste fino supervisado inicial, partiendo del modelo base DeepSeek-V3. Los bancos de pruebas independientes mostraban un rendimiento comparable a OpenAI-o1 en tareas de razonamiento matemático y programación. El hecho de que se pudieran alcanzar resultados similares con arquitecturas y metodologías diferentes, y a costos netamente inferiores, es parte de la razón por la que la historia generó tanto revuelo.

Dicho esto: la transparencia de un artículo técnico no excluye el uso paralelo de técnicas no documentadas. Y la ausencia de respuesta de DeepSeek no es una demostración de inocencia.

El bumerán legal

A la luz de todo esto, el nudo más interesante, y más embarazoso para OpenAI, es el legal. Como analizaron en detalle los expertos de la Santa Clara Business Law Chronicle, OpenAI se encuentra en una posición procesal extraordinariamente incómoda si decidiera proceder por vías legales. Para sostener una demanda por violación de propiedad intelectual, tendría que convencer a un tribunal de que los resultados de un modelo de IA gozan de protección de derechos de autor, es decir, que las respuestas generadas por ChatGPT son una expresión creativa protegible.

El problema es que OpenAI ha construido buena parte de su defensa en el caso presentado por el New York Times exactamente sobre el argumento opuesto: el raspado de contenidos ajenos para entrenar sus propios modelos es "fair use" (uso justo), es decir, un uso legítimo que transforma el material protegido y original en algo "libre" si el uso está destinado a la crítica, el comentario, la información, la enseñanza o la investigación.

No se puede invocar el derecho de autor sobre los resultados propios después de haber negado el mismo principio a los autores humanos cuyo trabajo hizo posibles esos resultados. La estratagema es lógicamente circular, y los expertos legales lo notaron inmediatamente. "Es como si el zapato del contenido apropiado hubiera acabado en el otro pie", escribió Business Insider citando opiniones de expertos legales recogidas justo después de las primeras acusaciones de enero de 2025. OpenAI podría, en cambio, intentar la vía del incumplimiento de contrato, violación de los Términos de Servicio, pero también aquí choca con la dificultad de hacer ejecutar una sentencia estadounidense contra una empresa con sede en Hangzhou, en un sistema legal con el cual los acuerdos de reciprocidad son inexistentes o deficitarios.

El resultado, como concluye el análisis legal de Santa Clara Law, es que "la combinación de precedentes escasos y complicaciones geográficas lleva a la conclusión de que una demanda, y un resultado favorable, sería extremadamente raro y difícil de obtener para OpenAI".

El supermercado y sus arquitectos

Y es aquí donde la historia se complica de forma sistémica. Porque la acusación de OpenAI a DeepSeek no puede leerse sin el contexto de lo que OpenAI, y no solo ella, ha hecho para construir sus propios modelos.

En diciembre de 2023, el New York Times presentó una demanda contra OpenAI y Microsoft por violación de derechos de autor, alegando que millones de artículos del periódico se habían utilizado para entrenar a ChatGPT sin autorización ni compensación. En marzo de 2025, un juez federal del Distrito Sur de Nueva York, Sidney Stein, rechazó la petición de OpenAI de desestimar el caso, permitiendo que las principales reclamaciones procedieran a juicio. El juez restringió algunas de las acusaciones pero dejó en pie lo sustancial: la cuestión de si el raspado masivo de contenidos periodísticos protegidos por derechos de autor constituye un uso justo está todavía bajo juicio.

No es un caso aislado en el panorama de las demandas relacionadas con el entrenamiento de los modelos de IA. En octubre de 2025, Reddit presentó una demanda contra Perplexity AI y tres empresas de raspado de datos, Oxylabs, AWMProxy y SerpApi, acusándolas de haber extraído miles de millones de publicaciones de los usuarios ocultándose tras las protecciones técnicas de Reddit a través de los resultados de Google Search. El Director Legal de Reddit, Ben Lee, había acuñado una expresión particularmente eficaz: "data laundering", es decir, lavado de datos. "Las empresas de IA están encerradas en una carrera armamentista por contenidos humanos de calidad", declaró, "y esa presión ha alimentado una economía industrial a escala de 'lavado de datos'".

Cabe señalar que Reddit ya había firmado acuerdos de licencia con Google y con la propia OpenAI: el problema, en el caso Perplexity, era el suministro de datos a través de terceros sin pagar. Pero la propia OpenAI había construido sus propios modelos sobre corpus que incluían contenidos sin licencia: las demandas colectivas presentadas por autores y escritores por el uso no autorizado de textos literarios durante el entrenamiento de GPT son una huella documentada de ello.

El mecanismo es idéntico al que OpenAI imputa a DeepSeek: usar el trabajo intelectual ajeno para construir un sistema comercial sin permiso y sin pagar. La diferencia, a ojos de OpenAI, es que ellos lo hicieron con textos humanos mientras que DeepSeek lo habría hecho con resultados de un modelo de IA, una distinción que tiene algo de redundante: esos modelos de IA son lo que son porque han absorbido trabajo humano no autorizado.

Geopolítica, chips y el memorando al Congreso

El memorando de OpenAI al Congreso no es solo una cuestión técnico-legal. Es un acto político, dirigido al comité que supervisa la competencia estratégica con China, escrito en un momento en que la administración Trump estaba redefiniendo su postura hacia la exportación de tecnología.

David Sacks, nombrado "zar de la IA y las criptomonedas" por la Casa Blanca, ya se había adelantado en enero de 2025 declarando a Fox News que "hay pruebas sustanciales de que lo que hizo DeepSeek es destilar el conocimiento de los modelos de OpenAI". El congresista John Moolenaar, presidente del Comité Selecto de la Cámara sobre China, según Gigazine, había usado tonos aún más encendidos: "Esto forma parte de la estrategia del Partido Comunista Chino: robar, copiar y destruir".

OpenAI también había añadido, en el memorando, una nota preocupante sobre la seguridad: cuando un modelo es replicado mediante destilación, los mecanismos de seguridad del modelo original tienden a no transferirse, dejando potencialmente una versión menos filtrada circulando en el mercado, con riesgos para los llamados sectores de alto peligro como la biología y la química. Es un argumento legítimo. También es un argumento que sirve para teñir de tonos más oscuros un caso que en el plano estrictamente legal es mucho menos sólido.

Por otro lado, la perspectiva de muchos observadores asiáticos enmarca las acusaciones de OpenAI como proteccionismo tecnológico disfrazado de cuestiones éticas. DeepSeek demostró que era posible construir modelos competitivos con recursos computacionales netamente inferiores, eludiendo de hecho la ventaja estructural que las restricciones a la exportación de chips Nvidia deberían haber garantizado a la industria estadounidense. Si las acusaciones de destilación se convirtieran en un pretexto para nuevos bloqueos normativos, se trataría de responder a una derrota técnica con herramientas políticas.

¿Tú de qué lado estás?

Volvamos, pues, a De Gregori, y a la pregunta que había dejado en suspenso.

La estructura narrativa de este asunto es casi demasiado perfecta en su simetría embarazosa. OpenAI acusa a DeepSeek de haber usado sus modelos sin permiso para construir algo competitivo. Pero OpenAI construyó esos modelos usando el trabajo de periodistas, escritores, autores, programas de Reddit, hilos de discusión y corpus enteros de producción intelectual humana sin pedir permiso ni pagar. La demanda del New York Times sigue abierta en los tribunales estadounidenses. Las demandas colectivas de los escritores y autores se multiplican. Reddit está llevando ante el juez a quien hizo exactamente lo que OpenAI había hecho con los textos humanos.

No es una cuestión de inocencia absoluta o de culpa absoluta. Es una cuestión de quién establece las reglas del supermercado, quién puede llevar la caja y quién es detenido por los guardias a la salida. La destilación que OpenAI imputa a DeepSeek es moral y estructuralmente análoga al raspado que OpenAI operó sobre los contenidos humanos: ambas son técnicas para extraer valor de un corpus ajeno sin compensación, usadas para construir sistemas comerciales potentes. La diferencia principal, por el momento, es una cuestión de poder: quién tiene los recursos para definir la narrativa legal y política, y quién no.

Esto no significa que las acusaciones de OpenAI sean falsas, podrían ser ciertas. No significa que la destilación no autorizada de modelos de IA no plantee cuestiones legítimas de propiedad intelectual, las plantea. Significa simplemente que la postura moral de quien acusa está minada por su propia historia. ¿Se puede construir un castillo sobre la arena y quejarse después de que alguien haya plantado una tienda encima sin pedir permiso?

En resumen, ¿cambian la verdad y la sustancia si estás vestido con un Hanfu y trabajas en un cubículo en Hangzhou o si llevas un polo de color y trabajas en un espacio abierto en San Francisco?

De Gregori, en el 92, en un contexto histórico de grandes fricciones y cambios, se planteaba una pregunta casi circular, que en su amplitud vuelve a ser muy moderna hoy en 2026. El estribillo de aquella canción no da respuestas, solo hace una pregunta. ¿Tú de qué lado estás? ¿Estás del lado de quien roba en los supermercados? ¿O de quien los ha construido, robando?