Quand l'algorithme pose un diagnostic : la FDA et l'EMA approuvent l'IA dans les essais pharmaceutiques

Il y a une scène dans *Ghost in the Shell où le major Kusanagi s'interroge sur la nature de sa propre conscience, se demandant si elle est vraiment humaine ou simplement une simulation sophistiquée. C'est une question qui résonne de manière inattendue dans le laboratoire de pathologie lorsqu'un algorithme d'intelligence artificielle produit un diagnostic qui diverge de celui d'un humain. Qui a raison ? Ou plutôt : existe-t-il encore une "raison" univoque lorsque la décision clinique devient computationnelle ?*
Le 8 décembre 2025, la Food and Drug Administration américaine a qualifié AIM-NASH, le premier outil basé sur l'intelligence artificielle en tant qu'outil de développement de médicaments pour les essais cliniques sur la stéatohépatite métabolique, mieux connue sous l'acronyme MASH. La même technologie, rebaptisée AIM-MASH pour le marché européen, avait déjà obtenu huit mois plus tôt une Opinion de Qualification de l'Agence Européenne des Médicaments. Il ne s'agit pas d'une approbation pour une utilisation clinique directe sur les patients, mais de quelque chose de potentiellement plus profond : la reconnaissance qu'un algorithme peut remplacer le consensus de trois pathologistes experts dans l'évaluation des biopsies hépatiques lors du développement de nouveaux médicaments.
La MASH représente un stade avancé de la stéatose hépatique non alcoolique, une affection qui touche environ un tiers de la population adulte dans les pays occidentaux. Lorsque la graisse s'accumule au-delà de cinq pour cent du poids du foie, elle peut déclencher un processus inflammatoire entraînant un gonflement cellulaire, la formation de tissu cicatriciel et, dans les cas les plus graves, une cirrhose ou un carcinome hépatocellulaire. Le problème est que le diagnostic précis de la MASH nécessite une biopsie hépatique, et l'interprétation de cette biopsie est loin d'être simple.
Le réseau de recherche clinique sur la NASH a développé au fil des ans un système de notation qui évalue quatre paramètres principaux : la stéatose (accumulation de graisse), l'inflammation lobulaire, le ballonnement des hépatocytes et la fibrose. Chaque élément reçoit un score allant de zéro à trois ou quatre, et la somme globale détermine la gravité de la maladie. Cela semble linéaire sur le papier, mais la réalité est bien différente. Des études publiées dans des revues spécialisées montrent que l'accord entre les pathologistes, même experts, oscille entre des valeurs kappa de 0,25 pour le gonflement cellulaire et de 0,62 pour la stéatose. En termes pratiques, cela signifie que deux pathologistes regardant la même biopsie pourraient arriver à des conclusions différentes dans quarante pour cent des cas.
C'est là qu'intervient PathAI, une startup de Boston fondée en 2016 par Andrew Beck, pathologiste au Beth Israel Deaconess Medical Center, et Aditya Khosla, informaticien spécialisé en apprentissage automatique. L'entreprise a levé plus de 255 millions de dollars en cinq tours de financement, impliquant des investisseurs tels que General Atlantic, Kaiser Permanente et Bristol Myers Squibb. Leur plateforme AISight promet de transformer la pathologie numérique d'un processus artisanal en un flux de travail industriel, avec l'IA comme élément central.
PathAI : De Boston à la table réglementaire
PathAI n'est pas parvenue à la qualification de la FDA par hasard. L'entreprise a systématiquement constitué un portefeuille de technologies couvrant l'ensemble du spectre de la pathologie computationnelle : de la détection de biomarqueurs tumoraux comme le PD-L1 et le HER2, à la caractérisation du microenvironnement tumoral. Leur système pour la MASH, cependant, représente quelque chose de différent : pas seulement un outil d'aide à la décision, mais un outil qui peut remplacer le consensus multiple requis par les protocoles expérimentaux.
Le modèle a été entraîné sur plus de cent mille annotations provenant de 59 pathologistes qui ont évalué plus de cinq mille biopsies hépatiques collectées dans neuf grands essais cliniques. Il ne s'agit pas d'un jeu de données de laboratoire, mais de matériel provenant d'études réelles, avec toute la variabilité et la complexité du monde réel. L'algorithme utilise des techniques d'apprentissage profond pour analyser les images numérisées des biopsies, identifiant des motifs microscopiques que l'œil humain pourrait négliger ou interpréter différemment.
La validation présentée à la FDA et à l'EMA a démontré que les évaluations d'AIM-NASH, vérifiées par un seul pathologiste expert, atteignent un niveau de concordance avec le consensus de trois experts comparable à celui que chaque pathologiste aurait avec le même consensus. En d'autres termes, l'IA plus un humain est aussi performante que trois humains ensemble, avec une économie significative de temps et de ressources. La corrélation intraclasse dépasse 0,90 pour tous les paramètres principaux, une valeur considérée comme "excellente" dans la littérature scientifique.
Mais un élément distingue ce résultat des proclamations habituelles du secteur technologique : la transparence réglementaire. PathAI a soumis son algorithme au programme de qualification des outils de développement de médicaments de la FDA, un parcours qui nécessite des années de travail et la démonstration rigoureuse que l'outil produit des données scientifiquement valides et reproductibles. Le fait que l'algorithme soit "verrouillé", c'est-à-dire figé dans une version spécifique qui ne peut être modifiée sans une nouvelle qualification, représente une garantie de stabilité et de traçabilité que l'apprentissage automatique traditionnel offre rarement.
AIM-NASH/MASH : anatomie d'une qualification
La qualification de la FDA pour AIM-NASH s'inscrit dans un cadre réglementaire précis, celui des outils de développement de médicaments, institué par le 21st Century Cures Act de 2016. Il ne s'agit pas d'une approbation pour une utilisation clinique directe, mais de la reconnaissance qu'un outil peut être utilisé pour générer des données dans des contextes réglementés tels que les essais cliniques. C'est une distinction subtile mais fondamentale : AIM-NASH ne diagnostique pas les patients dans les hôpitaux, mais soutient l'évaluation des critères d'évaluation dans les essais de médicaments anti-MASH.
Le contexte d'utilisation est spécifique : évaluation de biopsies hépatiques dans des études cliniques utilisant le système de notation du réseau de recherche clinique sur la NASH. Le processus prévoit que le pathologiste télécharge l'image numérisée de la biopsie sur la plateforme cloud de PathAI, que l'algorithme produise les scores pour chaque paramètre (stéatose, inflammation, ballonnement, fibrose), et que le pathologiste examine le résultat avant de l'accepter ou de le rejeter. La dernière étape est cruciale : la responsabilité finale reste humaine, mais le processus de décision est assisté par la machine.
L'Agence Européenne des Médicaments a suivi un parcours parallèle mais non identique. L'Opinion de Qualification publiée par le CHMP (Comité des médicaments à usage humain) le 20 mars 2025 présente des différences substantielles par rapport à la qualification de la FDA. Alors que la FDA a qualifié un outil spécifique pour un contexte d'utilisation défini, l'EMA a publié une opinion sur une méthodologie innovante qui peut être adoptée par les développeurs pharmaceutiques dans leurs études.
La distinction est subtile mais importante. Dans le système européen, une entreprise souhaitant utiliser AIM-MASH dans un essai doit tout de même soumettre son plan d'utilisation à l'EMA, qui l'évaluera dans le contexte spécifique. La qualification n'est pas un "sceau d'approbation" universel, mais une indication que la méthodologie est scientifiquement valide et peut être considérée comme acceptable. C'est une approche plus flexible mais aussi plus complexe à naviguer pour les promoteurs pharmaceutiques.

Parallélisme transatlantique avec des différences substantielles
En ce qui concerne les délais, le parcours européen a été légèrement anticipé : l'avis de l'EMA est arrivé en mars 2025, celui de la FDA en décembre de la même année. PathAI a dû faire face à deux processus réglementaires distincts, en adaptant la documentation et les études de validation aux spécificités de chaque système. Le fait que les deux agences soient parvenues à des conclusions convergentes représente un signal important pour le secteur : l'IA en pathologie n'est plus considérée comme une technologie expérimentale, mais comme un outil mature pour les contextes réglementés.
Cependant, les philosophies de fond diffèrent. Le système de la FDA est davantage orienté vers la qualification d'outils spécifiques qui, une fois approuvés, peuvent être utilisés par n'importe quel promoteur sans autres évaluations au cas par cas. Le système de l'EMA privilégie quant à lui une approche méthodologique, où chaque application spécifique nécessite une évaluation contextuelle. Les deux modèles ont des avantages et des limites : le premier offre une plus grande prévisibilité et des coûts plus faibles pour les promoteurs, le second garantit un contrôle plus strict sur la manière dont la technologie est réellement utilisée.
Un autre élément de divergence concerne le concept de "lecteur unique" par rapport au consensus. Traditionnellement, les essais sur la MASH exigent que trois pathologistes indépendants évaluent chaque biopsie, le résultat final étant déterminé par consensus. C'est un processus coûteux et lent, qui peut prendre des semaines ou des mois pour analyser des centaines d'échantillons. AIM-NASH/MASH propose un modèle différent : un seul pathologiste expert, assisté par l'algorithme, peut produire des évaluations comparables au triple consensus.
La FDA et l'EMA ont accepté cette proposition, mais avec des limitations différentes. L'EMA a souligné que le modèle est "verrouillé" et que toute amélioration substantielle nécessitera une nouvelle qualification. Elle a également encouragé l'optimisation continue, reconnaissant que l'apprentissage automatique est par nature évolutif. La FDA a été plus pragmatique, se concentrant sur le contexte d'utilisation et la démonstration que l'outil produit des données fiables pour les critères d'évaluation réglementaires.
Le talon d'Achille : biais et représentativité
Malgré l'enthousiasme, il y a un éléphant dans la pièce que ni la FDA ni l'EMA n'ont pu ignorer complètement : la représentativité de l'ensemble de données d'entraînement. Les plus de cinq mille échantillons utilisés pour entraîner AIM-NASH proviennent principalement d'essais cliniques menés en Amérique du Nord, en Europe et en Chine, avec une surreprésentation des populations caucasiennes et asiatiques. Les échantillons d'Amérique latine, d'Afrique et du Moyen-Orient sont pratiquement absents.
Ce n'est pas un problème technique, mais épistémologique. Un algorithme entraîné sur des biopsies de patients caucasiens pourrait ne pas reconnaître avec la même précision des motifs pathologiques dans les tissus d'autres ethnies, où des facteurs génétiques, métaboliques et environnementaux produisent des manifestations histologiques différentes. Des études récentes sur la pathologie computationnelle ont documenté des disparités significatives dans les performances des algorithmes de diagnostic lorsqu'ils sont appliqués à des populations non représentées dans l'ensemble d'entraînement.
PathAI est conscient du problème et a déclaré son intention d'élargir l'ensemble de données avec des échantillons plus diversifiés. Cependant, le modèle qualifié est "verrouillé", ce qui signifie que toute intégration substantielle nécessiterait une nouvelle validation et une nouvelle qualification. Cela crée un paradoxe : d'une part, la stabilité et la traçabilité du modèle sont des garanties réglementaires fondamentales, d'autre part, elles limitent la capacité à corriger les biais identifiés après la qualification.
Un deuxième ordre de problèmes concerne la généralisabilité géographique. Les essais sur la MASH sont mondiaux, impliquant des centres dans des dizaines de pays avec des normes de traitement histologique différentes. Les biopsies sont préparées, colorées et numérisées avec des protocoles qui varient entre les laboratoires, les scanners et les opérateurs. L'algorithme est-il robuste face à ces variations ? La validation présentée à la FDA et à l'EMA suggère que oui, mais les données publiquement disponibles ne couvrent pas toute la gamme de variabilité technique rencontrée dans la pratique réelle.
Il y a ensuite la question du biais d'échantillonnage au sens le plus littéral : une biopsie hépatique ne capture qu'une infime fraction du foie, généralement un cylindre de tissu de 1 à 2 centimètres. Si la stéatose ou l'inflammation sont réparties de manière hétérogène, l'échantillon peut ne pas être représentatif de l'état général de l'organe. C'est une limite intrinsèque de la procédure, pas de l'IA, mais l'intelligence artificielle ne peut pas corriger un échantillonnage inadéquat, elle ne peut que l'analyser avec une plus grande cohérence.

Pathologistes en voie d'extinction ?
La question qui plane dans chaque discussion sur l'IA médicale est toujours la même : construisons-nous des outils pour assister les professionnels ou pour les remplacer ? Dans le cas d'AIM-NASH, la réponse officielle est claire : assister. Le pathologiste conserve la responsabilité finale, examine chaque résultat algorithmique, peut l'accepter ou le rejeter. Le système est "assisté par l'IA", et non "piloté par l'IA".
Mais la réalité économique suggère des dynamiques plus complexes. Si un seul pathologiste avec AIM-NASH peut faire le travail de trois pathologistes sans IA, qu'arrive-t-il aux deux pathologistes excédentaires ? À court terme, ils pourraient être réaffectés à d'autres tâches de diagnostic où la demande dépasse l'offre. À long terme, la demande même de pathologistes spécialisés dans la MASH pourrait se contracter.
PathAI souligne que le problème de la pathologie n'est pas le manque de travail, mais la pénurie d'experts. Il y a plus de biopsies à évaluer que de pathologistes disponibles, et les délais d'attente pour les rapports spécialisés peuvent être de plusieurs semaines. Dans ce scénario, l'IA devient un multiplicateur de capacités qui permet de s'adapter sans augmenter proportionnellement le nombre de professionnels. C'est l'argument classique de l'automatisation : elle libère les humains des tâches répétitives pour leur permettre de se concentrer sur les cas complexes.
Cependant, il existe une tension non résolue entre le modèle de formation de la pathologie et la direction vers laquelle l'IA pousse. Les pathologistes se forment par des années de pratique sur des milliers de cas, développant une intuition qui va au-delà des règles codifiables. Si de plus en plus de diagnostics de routine sont délégués aux algorithmes, où les futurs pathologistes s'entraîneront-ils ? Comment développeront-ils cette sensibilité clinique qui permet de reconnaître des motifs anormaux que l'IA n'a jamais vus ?
C'est le paradoxe de l'expertise automatisée : les algorithmes ont besoin d'experts pour être validés et supervisés, mais leur existence même réduit les opportunités de formation qui produisent ces experts. Ce n'est pas un problème immédiat, mais il le deviendra dans la prochaine décennie si l'on ne repense pas les modèles éducatifs de la médecine diagnostique.
Suivez l'argent : resmetirom et au-delà
Derrière l'enthousiasme réglementaire pour AIM-NASH se cache une réalité économique très concrète : la MASH représente l'un des marchés pharmaceutiques les plus prometteurs de la décennie. Pendant des années, la maladie a été considérée comme intraitable, sans thérapies approuvées autres que la gestion du mode de vie. Mais ces dernières années, le pipeline s'est rempli de candidats en phase de développement avancée, et certains atteignent les étapes réglementaires.
Le resmetirom, développé par Madrigal Pharmaceuticals, a reçu l'approbation de la FDA en mars 2024 comme premier traitement spécifique de la MASH avec fibrose. Le médicament, un agoniste sélectif du récepteur bêta de l'hormone thyroïdienne, a démontré dans les essais qu'il réduisait l'inflammation et améliorait les marqueurs de fibrose. Son développement a nécessité des essais multicentriques sur des milliers de patients, avec des évaluations histologiques répétées qui ont constitué l'un des principaux goulots d'étranglement.
D'autres candidats suivent des parcours similaires. Le sémaglutide, le blockbuster de Novo Nordisk déjà approuvé pour le diabète et l'obésité, est en cours d'évaluation pour la MASH avec des résultats prometteurs. L'efruxifermin d'Akero Therapeutics, un analogue du FGF21, a montré des réductions significatives de la fibrose dans des essais de phase 2. Le survodutide de Boehringer Ingelheim, un double agoniste GLP-1/glucagon, entre en phase 3 avec des critères d'évaluation ambitieux.
Tous ces essais nécessitent des biopsies hépatiques comme critère d'évaluation principal ou secondaire, et la variabilité de l'évaluation histologique représente un problème statistique sérieux. Si le bruit de mesure est élevé, il faut des échantillons plus grands pour détecter des différences significatives entre le traitement et le placebo. Des échantillons plus grands signifient des coûts plus élevés, des délais plus longs et des retards dans l'accès des patients aux thérapies.
AIM-NASH promet de réduire ce bruit. Si les évaluations algorithmiques sont plus cohérentes que celles des humains, il faut moins de patients pour démontrer l'efficacité d'un médicament. Les estimations de PathAI suggèrent que l'utilisation de l'outil pourrait réduire la taille d'échantillon requise de vingt à trente pour cent dans certaines conceptions expérimentales. Traduit en chiffres : un essai qui aurait nécessité mille patients pourrait s'arrêter à sept cents, avec des économies de l'ordre de dizaines de millions de dollars.
Il n'est pas difficile de comprendre pourquoi des entreprises comme Bristol Myers Squibb, GSK, Gilead et Roche ont noué des partenariats avec PathAI. L'IA en pathologie n'est pas seulement une curiosité technologique, mais une opportunité de réduire considérablement les coûts et les délais du développement pharmaceutique. Le retour sur investissement potentiel est énorme, et le marché l'a compris : PathAI est évaluée à environ un milliard de dollars lors de son dernier tour de financement.
Les questions encore sans réponse
Malgré le succès réglementaire, des interrogations substantielles subsistent, que ni la FDA ni l'EMA n'ont encore complètement résolues. La première concerne la sécurité à long terme : que se passe-t-il si l'algorithme, après des années d'utilisation dans des milliers d'essais, montre des biais ou des erreurs systématiques qui avaient échappé à la validation initiale ? Qui est responsable ? PathAI ? Les promoteurs qui ont utilisé l'outil ? Les agences qui l'ont qualifié ?
Le cadre de la responsabilité dans l'IA médicale est encore nébuleux. Si un médicament est approuvé sur la base de données générées avec AIM-NASH, et qu'il s'avère par la suite que l'algorithme a systématiquement surévalué ou sous-évalué un paramètre critique, quelles sont les implications juridiques et réglementaires ? Il n'existe pas de précédents clairs, et le système juridique élabore encore les catégories conceptuelles nécessaires pour faire face à ces scénarios.
Un deuxième nœud concerne la transférabilité géographique. Comme mentionné, le modèle a été entraîné sur des populations spécifiques. Lorsqu'il sera utilisé dans des essais menés en Afrique subsaharienne, en Amérique du Sud ou en Asie du Sud, conservera-t-il les mêmes performances ? Et si non, comment le problème sera-t-il détecté avant qu'il ne compromette l'intégrité des études ?
PathAI a mis en place des mécanismes de contrôle de la qualité qui devraient signaler les échantillons anormaux, mais la définition de ce qui est "anormal" dépend de la distribution de l'ensemble d'entraînement. C'est un problème classique de l'apprentissage automatique : la détection de données hors distribution est difficile, et les faux négatifs peuvent être insidieux. Un échantillon que l'algorithme évalue avec une grande confiance pourrait en réalité appartenir à une région de l'espace des caractéristiques jamais vue pendant l'entraînement.
Enfin, il y a la question de l'accessibilité économique. AIM-NASH est une plateforme cloud propriétaire, et PathAI facture des frais par échantillon aux promoteurs qui l'utilisent. Pour les essais menés par les grandes sociétés pharmaceutiques avec des budgets de plusieurs millions de dollars, le coût est marginal. Mais pour les essais universitaires, les petites entreprises de biotechnologie ou les centres de recherche dans les pays à revenu faible ou intermédiaire, il pourrait devenir prohibitif. Il existe un risque que l'IA en pathologie crée un fossé entre ceux qui peuvent se la permettre et ceux qui ne le peuvent pas, avec des conséquences sur la diversité et la représentativité de la recherche mondiale.
La qualification d'AIM-NASH par la FDA et l'EMA marque un tournant dans l'histoire de la médecine réglementaire. Pour la première fois, un algorithme d'intelligence artificielle a été reconnu non pas comme un gadget expérimental, mais comme un outil fiable pour générer des données dans des contextes réglementés. C'est une reconnaissance qui arrive après des années de scepticisme et de faux départs, et qui représente une validation du potentiel de la pathologie computationnelle.
Cependant, il serait naïf d'ignorer les nœuds non résolus. Les biais des ensembles de données, les questions de responsabilité, les problèmes d'accessibilité mondiale ne sont pas des obstacles techniques qui peuvent être surmontés avec plus de données ou de meilleurs algorithmes. Ce sont des défis systémiques qui nécessitent de nouveaux cadres conceptuels, juridiques et éthiques. Le major Kusanagi, face à l'algorithme qui lit les biopsies, continuerait à se demander : lorsque nous confions des décisions aussi importantes aux machines, que perdons-nous d'essentiellement humain ? Et que gagnons-nous que les humains seuls ne pourraient obtenir ?
Les réponses ne sont pas encore claires, mais une chose est certaine : l'ère de l'IA comme support passif est révolue. Ce qui émerge, c'est un modèle hybride où les humains et les algorithmes fusionnent dans des systèmes décisionnels complexes, avec des logiques et des responsabilités qui n'appartiennent plus ni à l'un ni à l'autre. Comme toujours, la technologie court plus vite que notre capacité à la comprendre. Et comme toujours, il nous incombe de courir derrière elle en essayant de ne pas perdre de vue ce qui compte vraiment : la santé des patients, l'intégrité de la recherche et la justice dans l'accès aux soins.