Notizie IA Logo

AITalk

Noticias y análisis sobre Inteligencia Artificial

Cuando el algoritmo diagnostica: la FDA y la EMA aprueban la IA en ensayos farmacéuticos

ResearchEthics & SocietyGenerative AI

fda-ema-aim-nash-ai.jpg

Hay una escena en *Ghost in the Shell donde la Mayor Kusanagi se interroga sobre la naturaleza de su propia conciencia, preguntándose si es realmente humana o simplemente una sofisticada simulación. Es una pregunta que resuena de forma inesperada en el laboratorio de patología cuando un algoritmo de inteligencia artificial produce un diagnóstico que difiere del humano. ¿Quién tiene razón? O mejor dicho: ¿existe todavía una "razón" única cuando la decisión clínica se vuelve computacional?*

El 8 de diciembre de 2025, la Administración de Alimentos y Medicamentos de Estados Unidos (FDA) calificó AIM-NASH, la primera herramienta basada en inteligencia artificial como Herramienta de Desarrollo de Fármacos para ensayos clínicos sobre la esteatohepatitis metabólica, más conocida por el acrónimo MASH. La misma tecnología, rebautizada como AIM-MASH para el mercado europeo, ya había obtenido ocho meses antes una Opinión de Calificación de la Agencia Europea de Medicamentos (EMA). No se trata de una aprobación para uso clínico directo en pacientes, sino de algo potencialmente más profundo: el reconocimiento de que un algoritmo puede sustituir el consenso de tres patólogos expertos en la evaluación de biopsias hepáticas durante el desarrollo de nuevos fármacos.

La MASH representa una etapa avanzada de la enfermedad del hígado graso no alcohólico, una condición que afecta a aproximadamente un tercio de la población adulta en los países occidentales. Cuando la grasa se acumula más allá del cinco por ciento del peso del hígado, puede desencadenar un proceso inflamatorio que conduce a la hinchazón celular, la formación de tejido cicatricial y, en los casos más graves, a la cirrosis o al carcinoma hepatocelular. El problema es que diagnosticar con precisión la MASH requiere una biopsia hepática, y la interpretación de esa biopsia dista mucho de ser sencilla.

La Red de Investigación Clínica de NASH ha desarrollado a lo largo de los años un sistema de puntuación que evalúa cuatro parámetros principales: la esteatosis (acumulación de grasa), la inflamación lobulillar, el balonamiento de los hepatocitos y la fibrosis. Cada elemento recibe una puntuación que va de cero a tres o cuatro, y la suma total determina la gravedad de la enfermedad. Parece lineal sobre el papel, pero la realidad es muy diferente. Estudios publicados en revistas especializadas demuestran que el acuerdo entre patólogos, incluso expertos, oscila entre valores kappa de 0,25 para el balonamiento celular y 0,62 para la esteatosis. En términos prácticos, esto significa que dos patólogos que observan la misma biopsia podrían llegar a conclusiones diferentes en el cuarenta por ciento de los casos.

Aquí es donde entra en juego PathAI, una startup de Boston fundada en 2016 por Andrew Beck, patólogo del Beth Israel Deaconess Medical Center, y Aditya Khosla, informático especializado en aprendizaje automático. La empresa ha recaudado más de 255 millones de dólares en cinco rondas de financiación, con la participación de inversores de la talla de General Atlantic, Kaiser Permanente y Bristol Myers Squibb. Su plataforma AISight promete transformar la patología digital de un proceso artesanal a un flujo de trabajo industrial, con la IA como elemento central.

PathAI: De Boston a la mesa regulatoria

PathAI no llegó a la calificación de la FDA por casualidad. La empresa ha construido sistemáticamente una cartera de tecnologías que cubren todo el espectro de la patología computacional: desde la detección de biomarcadores tumorales como PD-L1 y HER2, hasta la caracterización del microambiente tumoral. Su sistema para la MASH, sin embargo, representa algo diferente: no una simple ayuda a la decisión, sino una herramienta que puede sustituir el consenso múltiple requerido por los protocolos experimentales.

El modelo fue entrenado con más de cien mil anotaciones de 59 patólogos que evaluaron más de cinco mil biopsias hepáticas recogidas de nueve grandes ensayos clínicos. No se trata de un conjunto de datos de laboratorio, sino de material procedente de estudios reales, con toda la variabilidad y complejidad del mundo real. El algoritmo utiliza técnicas de aprendizaje profundo para analizar las imágenes digitalizadas de las biopsias, identificando patrones microscópicos que el ojo humano podría pasar por alto o interpretar de forma diferente.

La validación presentada a la FDA y la EMA demostró que las evaluaciones de AIM-NASH, verificadas por un único patólogo experto, alcanzan un nivel de concordancia con el consenso de tres expertos comparable al que cualquier patólogo individual tendría con el mismo consenso. En otras palabras, la IA más un humano rinde tanto como tres humanos juntos, con un ahorro significativo de tiempo y recursos. La correlación intraclase supera el 0,90 para todos los parámetros principales, un valor que en la literatura científica se considera "excelente".

Pero hay un elemento que distingue este resultado de las habituales proclamas del sector tecnológico: la transparencia regulatoria. PathAI sometió su algoritmo al Programa de Calificación de Herramientas de Desarrollo de Fármacos de la FDA, un proceso que requiere años de trabajo y la demostración rigurosa de que la herramienta produce datos científicamente válidos y reproducibles. El hecho de que el algoritmo esté "bloqueado", es decir, congelado en una versión específica que no puede modificarse sin una nueva calificación, representa una garantía de estabilidad y trazabilidad que el aprendizaje automático tradicional rara vez ofrece.

AIM-NASH/MASH: anatomía de una calificación

La calificación de la FDA de AIM-NASH se enmarca en un marco regulatorio preciso, el de las Herramientas de Desarrollo de Fármacos, establecido por la Ley de Curas del Siglo XXI de 2016. No se trata de una aprobación para uso clínico directo, sino del reconocimiento de que una herramienta puede utilizarse para generar datos en contextos regulados como los ensayos clínicos. Es una distinción sutil pero fundamental: AIM-NASH no diagnostica a pacientes en los hospitales, sino que apoya la evaluación de los criterios de valoración en los ensayos de fármacos anti-MASH.

El contexto de uso es específico: evaluación de biopsias hepáticas en estudios clínicos que utilizan el sistema de puntuación de la Red de Investigación Clínica de NASH. El proceso implica que el patólogo cargue la imagen digitalizada de la biopsia en la plataforma en la nube de PathAI, el algoritmo produzca las puntuaciones para cada parámetro (esteatosis, inflamación, balonamiento, fibrosis), y el patólogo revise el resultado antes de aceptarlo o rechazarlo. El último paso es crucial: la responsabilidad final sigue siendo humana, pero el proceso de toma de decisiones está asistido por la máquina.

La Agencia Europea de Medicamentos siguió un camino paralelo pero no idéntico. La Opinión de Calificación emitida por el CHMP (Comité de Medicamentos de Uso Humano) el 20 de marzo de 2025 presenta algunas diferencias sustanciales con respecto a la calificación de la FDA. Mientras que la FDA calificó una herramienta específica para un contexto de uso definido, la EMA emitió una opinión sobre una metodología innovadora que puede ser adoptada por los desarrolladores farmacéuticos en sus estudios.

La distinción es sutil pero importante. En el sistema europeo, una empresa que desee utilizar AIM-MASH en un ensayo debe presentar de todos modos su plan de uso a la EMA, que lo evaluará en el contexto específico. La calificación no es un "sello de aprobación" universal, sino una indicación de que la metodología es científicamente válida y puede considerarse aceptable. Es un enfoque más flexible pero también más complejo de navegar para los patrocinadores farmacéuticos. fda-screenshot.jpg Imagen de fda.gov

Paralelismo transatlántico con diferencias sustanciales

En cuanto a los plazos, el proceso europeo se adelantó ligeramente: la opinión de la EMA llegó en marzo de 2025, la de la FDA en diciembre del mismo año. PathAI tuvo que enfrentarse a dos procesos regulatorios distintos, adaptando la documentación y los estudios de validación a las especificidades de cada sistema. El hecho de que ambas agencias llegaran a conclusiones convergentes representa una señal importante para el sector: la IA en patología ya no se considera una tecnología experimental, sino una herramienta madura para contextos regulados.

Sin embargo, las filosofías de fondo difieren. El sistema de la FDA está más orientado a la calificación de herramientas específicas que, una vez aprobadas, pueden ser utilizadas por cualquier patrocinador sin más evaluaciones caso por caso. El sistema de la EMA, en cambio, privilegia un enfoque metodológico, donde cada aplicación específica requiere una evaluación contextual. Ambos modelos tienen ventajas y limitaciones: el primero ofrece mayor previsibilidad y menores costes para los patrocinadores, mientras que el segundo garantiza un control más estricto sobre cómo se emplea realmente la tecnología.

Otro elemento de divergencia se refiere al concepto de "lector único" frente a consenso. Tradicionalmente, los ensayos de MASH requieren que tres patólogos independientes evalúen cada biopsia, y el resultado final se determina por consenso. Es un proceso costoso y lento, que puede tardar semanas o meses en completar el análisis de cientos de muestras. AIM-NASH/MASH propone un modelo diferente: un único patólogo experto, asistido por el algoritmo, puede producir evaluaciones comparables al consenso triple.

La FDA y la EMA han aceptado esta propuesta, pero con diferentes limitaciones. La EMA subrayó que el modelo está "bloqueado" y que cualquier mejora sustancial requerirá una nueva calificación. También alentó la optimización continua, reconociendo que el aprendizaje automático es por naturaleza evolutivo. La FDA fue más pragmática, centrándose en el contexto de uso y en la demostración de que la herramienta produce datos fiables para los criterios de valoración regulatorios.

El talón de Aquiles: sesgo y representatividad

A pesar del entusiasmo, hay un elefante en la habitación que ni la FDA ni la EMA han podido ignorar por completo: la representatividad del conjunto de datos de entrenamiento. Las más de cinco mil muestras utilizadas para entrenar AIM-NASH proceden predominantemente de ensayos clínicos realizados en América del Norte, Europa y China, con una sobrerrepresentación de poblaciones caucásicas y asiáticas. Las muestras latinoamericanas, africanas y de Oriente Medio están sustancialmente ausentes.

Esto no es un problema técnico, sino epistemológico. Un algoritmo entrenado con biopsias de pacientes caucásicos podría no reconocer con la misma precisión patrones patológicos en tejidos de otras etnias, donde factores genéticos, metabólicos y ambientales producen manifestaciones histológicas diferentes. Estudios recientes sobre patología computacional han documentado disparidades significativas en el rendimiento de los algoritmos de diagnóstico cuando se aplican a poblaciones no representadas en el conjunto de entrenamiento.

PathAI es consciente del problema y ha declarado su intención de ampliar el conjunto de datos con muestras más diversas. Sin embargo, el modelo calificado está "bloqueado", lo que significa que cualquier integración sustancial requeriría una nueva validación y recalificación. Esto crea una paradoja: por un lado, la estabilidad y la trazabilidad del modelo son garantías regulatorias fundamentales, por otro, limitan la capacidad de corregir los sesgos identificados después de la calificación.

Un segundo orden de problemas se refiere a la generalizabilidad geográfica. Los ensayos de MASH son globales, involucrando a centros en docenas de países con diferentes estándares de procesamiento histológico. Las biopsias se preparan, tiñen y digitalizan con protocolos que varían entre laboratorios, escáneres y operadores. ¿Es el algoritmo robusto frente a estas variaciones? La validación presentada a la FDA y la EMA sugiere que sí, pero los datos disponibles públicamente no cubren toda la gama de variabilidad técnica que se encuentra en la práctica real.

Luego está la cuestión del sesgo de muestreo en el sentido más literal: una biopsia hepática captura solo una fracción minúscula del hígado, típicamente un cilindro de tejido de 1-2 centímetros. Si la esteatosis o la inflamación se distribuyen de forma no homogénea, la muestra podría no ser representativa del estado general del órgano. Esta es una limitación intrínseca del procedimiento, no de la IA, pero la inteligencia artificial no puede corregir un muestreo inadecuado, solo puede analizarlo con mayor consistencia. ema-screenshot.jpg Imagen de ema.europa.eu

¿Patólogos en vías de extinción?

La pregunta que flota en cada discusión sobre la IA médica es siempre la misma: ¿estamos construyendo herramientas para asistir a los profesionales o para sustituirlos? En el caso de AIM-NASH, la respuesta oficial es clara: asistir. El patólogo mantiene la responsabilidad final, revisa cada resultado algorítmico, puede aceptarlo o rechazarlo. El sistema es "asistido por IA", no "impulsado por IA".

Pero la realidad económica sugiere dinámicas más complejas. Si un solo patólogo con AIM-NASH puede hacer el trabajo de tres patólogos sin IA, ¿qué pasa con los dos patólogos sobrantes? A corto plazo, podrían ser reasignados a otras tareas de diagnóstico donde la demanda supera la oferta. A largo plazo, la propia demanda de patólogos especializados en MASH podría contraerse.

PathAI subraya que el problema de la patología no es la falta de trabajo, sino la escasez de expertos. Hay más biopsias que evaluar que patólogos disponibles, y los tiempos de espera para informes especializados pueden ser de semanas. En este escenario, la IA se convierte en un multiplicador de capacidad que permite escalar sin aumentar proporcionalmente el número de profesionales. Es el argumento clásico de la automatización: libera a los humanos de tareas repetitivas permitiéndoles concentrarse en casos complejos.

Sin embargo, existe una tensión no resuelta entre el modelo formativo de la patología y la dirección hacia la que la IA está empujando. Los patólogos se forman a través de años de práctica en miles de casos, desarrollando una intuición que va más allá de las reglas codificables. Si cada vez más diagnósticos de rutina se delegan a los algoritmos, ¿dónde se entrenarán los futuros patólogos? ¿Cómo desarrollarán esa sensibilidad clínica que permite reconocer patrones anómalos que la IA nunca ha visto?

Es la paradoja de la pericia automatizada: los algoritmos necesitan expertos para ser validados y supervisados, pero su propia existencia reduce las oportunidades de formación que producen a esos expertos. No es un problema inmediato, pero lo será en la próxima década si no se replantean los modelos educativos de la medicina diagnóstica.

Sigue el dinero: resmetirom y más allá

Detrás del entusiasmo regulatorio por AIM-NASH hay una realidad económica muy concreta: la MASH representa uno de los mercados farmacéuticos más prometedores de la década. Durante años, la enfermedad se consideró intratable, sin terapias aprobadas más allá de la gestión del estilo de vida. Pero en los últimos años, la cartera de productos se ha llenado de candidatos en fase avanzada de desarrollo, y algunos están alcanzando los hitos regulatorios.

Resmetirom, desarrollado por Madrigal Pharmaceuticals, recibió la aprobación de la FDA en marzo de 2024 como el primer tratamiento específico para la MASH con fibrosis. El fármaco, un agonista selectivo del receptor beta de la hormona tiroidea, ha demostrado en los ensayos que reduce la inflamación y mejora los marcadores de fibrosis. Su desarrollo requirió ensayos multicéntricos en miles de pacientes, con evaluaciones histológicas repetidas que representaron uno de los principales cuellos de botella.

Otros candidatos están siguiendo caminos similares. La semaglutida, el éxito de ventas de Novo Nordisk ya aprobado para la diabetes y la obesidad, está siendo evaluada para la MASH con resultados prometedores. El efruxifermin de Akero Therapeutics, un análogo de FGF21, ha mostrado reducciones significativas de la fibrosis en ensayos de fase 2. El survodutide de Boehringer Ingelheim, un doble agonista de GLP-1/glucagón, está entrando en fase 3 con criterios de valoración ambiciosos.

Todos estos ensayos requieren biopsias hepáticas como criterio de valoración primario o secundario, y la variabilidad en la evaluación histológica representa un problema estadístico serio. Si el ruido de medición es alto, se necesitan muestras más grandes para detectar diferencias significativas entre el tratamiento y el placebo. Muestras más grandes significan costes más altos, plazos más largos y retrasos en el acceso de los pacientes a las terapias.

AIM-NASH promete reducir ese ruido. Si las evaluaciones algorítmicas son más consistentes que las humanas, se necesitan menos pacientes para demostrar la eficacia de un fármaco. Las estimaciones de PathAI sugieren que el uso de la herramienta podría reducir el tamaño de la muestra requerida en un veinte o treinta por ciento en algunos diseños experimentales. Traducido en cifras: un ensayo que habría requerido mil pacientes podría detenerse en setecientos, con ahorros del orden de decenas de millones de dólares.

No es difícil entender por qué empresas como Bristol Myers Squibb, GSK, Gilead y Roche se han asociado con PathAI. La IA en patología no es solo una curiosidad tecnológica, sino una oportunidad para reducir drásticamente los costes y los plazos del desarrollo farmacéutico. El retorno de la inversión potencial es enorme, y el mercado lo ha entendido: PathAI está valorada en alrededor de mil millones de dólares en su última ronda de financiación.

Las preguntas aún sin respuesta

A pesar del éxito regulatorio, quedan interrogantes sustanciales que ni la FDA ni la EMA han resuelto por completo. El primero se refiere a la seguridad a largo plazo: ¿qué sucede si el algoritmo, después de años de uso en miles de ensayos, muestra sesgos o errores sistemáticos que se pasaron por alto en la validación inicial? ¿Quién es responsable? ¿PathAI? ¿Los patrocinadores que usaron la herramienta? ¿Las agencias que la calificaron?

El marco de la responsabilidad en la IA médica todavía es nebuloso. Si un fármaco se aprueba sobre la base de datos generados con AIM-NASH, y posteriormente se descubre que el algoritmo ha sobrestimado o subestimado sistemáticamente un parámetro crítico, ¿cuáles son las implicaciones legales y regulatorias? No existen precedentes claros, y el sistema jurídico todavía está elaborando las categorías conceptuales necesarias para abordar estos escenarios.

Un segundo nudo se refiere a la transferibilidad geográfica. Como se mencionó, el modelo fue entrenado con poblaciones específicas. Cuando se utilice en ensayos realizados en África subsahariana, América del Sur o el sur de Asia, ¿mantendrá el mismo rendimiento? Y si no, ¿cómo se detectará el problema antes de que comprometa la integridad de los estudios?

PathAI ha implementado mecanismos de control de calidad que deberían marcar las muestras anómalas, pero la definición de "anómalo" depende de la distribución del conjunto de entrenamiento. Es un problema clásico del aprendizaje automático: la detección de valores atípicos es difícil, y los falsos negativos pueden ser insidiosos. Una muestra que el algoritmo evalúa con alta confianza podría en realidad pertenecer a una región del espacio de características nunca vista durante el entrenamiento.

Finalmente, está la cuestión de la accesibilidad económica. AIM-NASH es una plataforma en la nube propietaria, y PathAI cobra tarifas por muestra a los patrocinadores que la utilizan. Para los ensayos realizados por las grandes farmacéuticas con presupuestos multimillonarios, el coste es marginal. Pero para los ensayos académicos, las pequeñas biotecnológicas o los centros de investigación en países de ingresos medios y bajos, podría volverse prohibitivo. Existe el riesgo de que la IA en patología cree una brecha entre quienes pueden permitírsela y quienes no, con consecuencias sobre la diversidad y representatividad de la investigación global.

La calificación de AIM-NASH por parte de la FDA y la EMA marca un punto de inflexión en la historia de la medicina regulatoria. Por primera vez, un algoritmo de inteligencia artificial ha sido reconocido no como un artilugio experimental, sino como una herramienta fiable para generar datos en contextos regulados. Es un reconocimiento que llega después de años de escepticismo y falsos comienzos, y representa una validación del potencial de la patología computacional.

Sin embargo, sería ingenuo ignorar los nudos sin resolver. Los sesgos de los conjuntos de datos, las cuestiones de responsabilidad, los problemas de accesibilidad global no son obstáculos técnicos que puedan superarse con más datos o mejores algoritmos. Son desafíos sistémicos que requieren nuevos marcos conceptuales, legales y éticos. La Mayor Kusanagi, frente al algoritmo que lee biopsias, seguiría preguntándose: cuando confiamos decisiones tan importantes a las máquinas, ¿qué perdemos de esencialmente humano? ¿Y qué ganamos que los humanos por sí solos no podrían obtener?

Las respuestas aún no están claras, pero una cosa es cierta: la era de la IA como soporte pasivo está terminando. Lo que emerge es un modelo híbrido donde humanos y algoritmos se fusionan en sistemas de toma de decisiones complejos, con lógicas y responsabilidades que ya no pertenecen ni al uno ni al otro. Como siempre, la tecnología corre más rápido que nuestra capacidad para comprenderla. Y como siempre, nos toca correr detrás de ella tratando de no perder de vista lo que realmente importa: la salud de los pacientes, la integridad de la investigación y la justicia en el acceso a la atención médica.