ChartNet : l'analyse des graphiques n'est plus l'apanage des gros budgets

Pour la première fois, un modèle d'IA open-source de petite taille interprète les graphiques mieux que les géants commerciaux, grâce à ChartNet, le dataset révolutionnaire du MIT de 1,5 million d'échantillons synthétiques combinant code de traçage, images calculées, tableaux de données, résumés en langage naturel et paires de Q&R avec raisonnement. Le résultat ? Toute personne devant analyser un rapport financier de 200 pages peut désormais utiliser un modèle de 3 milliards de paramètres gratuit sur HuggingFace pour extraire des données, reconstruire des graphiques et obtenir des réponses argumentées, démocratisant l'analyse visuelle des données pour les PME, les chercheurs et les professionnels au budget limité.

Imaginez avoir un analyste financier qui comprend parfaitement l'anglais, connaît tous les fondamentaux du bilan, mais qui, lorsque vous lui montrez un graphique à barres avec les revenus trimestriels, vous répond en décrivant les couleurs des barres au lieu de vous lire les chiffres. C'est une situation paradoxale, et pourtant c'est exactement ce qui arrive à une grande partie des modèles d'intelligence artificielle visuelle aujourd'hui sur le marché, y compris certains des plus prestigieux et des plus coûteux.

Le problème n'est pas nouveau, mais il est resté longtemps dans l'ombre, occulté par le tapage autour des capacités linguistiques de l'IA. Les modèles dits vision-language, ceux qui traitent à la fois le texte et les images, ont fait des progrès spectaculaires dans la description de photographies, la reconnaissance d'objets ou la transcription de documents. Mais lorsqu'ils se trouvent face à un graphique, leur raisonnement s'enraye de manière subtile et dangereuse : ils voient une figure, mais ne comprennent pas la donnée que cette figure représente.

Interpréter un graphique n'est pas simplement « regarder une image ». Cela nécessite de fusionner trois compétences distinctes : la perception visuelle des formes géométriques (où se trouvent les barres, où passe la ligne de tendance), la compréhension structurelle des données numériques (échelle des axes, proportions, valeurs absolues) et la compréhension linguistique des étiquettes, des titres et des légendes. C'est une triangulation cognitive que le cerveau humain exécute de manière presque automatique, mais qui reste un défi ouvert pour un modèle artificiel, un territoire où même les systèmes de milliards de paramètres trébuchent sur des détails qui sembleraient banals.

Dhiraj Joshi, senior scientist chez IBM Research, a décrit le problème avec clarté dans le communiqué du MIT : l'industrie financière vit de graphiques, et si les modèles vision-language parviennent à en extraire des informations fiables, des descriptions de tendances, des variations dans le temps ou des comparaisons entre catégories, des dizaines de flux de travail qui nécessitent aujourd'hui des analystes humains ou des outils coûteux s'ouvrent automatiquement en aval. Mais le mot-clé est « fiables ». Un modèle qui répond avec assurance et se trompe dans les chiffres est pire qu'aucun modèle du tout.

Le goulot d'étranglement, comme c'est souvent le cas dans ce domaine, n'était pas dans les modèles. Il était dans les données.

Comment naît un dataset de 1,5 million de graphiques

Quiconque suit le monde de l'IA sait que la qualité des données d'entraînement est presque toujours plus importante que l'architecture du modèle. Une idée simple mais bien nourrie bat presque toujours une idée brillante affamée d'exemples. Le problème avec les graphiques est que les collecter, les étiqueter et les rendre réellement utiles pour l'entraînement est extraordinairement difficile.

Les datasets existant avant ChartNet étaient, avec le recul, presque naïfs dans leur partialité. FigureQA, l'un des plus connus, contenait 100 000 images mais ne couvrait que trois types de graphiques et utilisait une seule bibliothèque de rendu, n'acceptant exclusivement que des réponses binaires oui/non. DVQA était construit autour d'un seul type de graphique. ChartQA, plus ambitieux, incluait des images réelles et des questions complexes, mais s'arrêtait à 14 000 exemples, ce qui est loin d'être suffisant pour entraîner un modèle robuste. La lacune commune était structurelle : aucun de ces datasets ne reliait l'image du graphique au code qui l'avait généré, aux données sous-jacentes, à une description en langage naturel et, surtout, à des chaînes de raisonnement explicite.

Jovana Kondic, doctorante au MIT en génie électrique et informatique et auteure principale de l'article, a cadré le problème avec une analogie qui mérite d'être rapportée : un modèle, contrairement au cerveau humain, pourrait avoir besoin de voir des milliers d'exemples pendant l'entraînement pour reconnaître de manière fiable quelque chose comme un graphique linéaire. La rareté des données n'est pas un inconvénient, c'est une barrière structurelle.

La solution conçue par l'équipe MIT-IBM est élégante précisément parce qu'elle inverse la logique conventionnelle. Au lieu de collecter des graphiques sur Internet puis de tenter de les annoter, les chercheurs ont construit une pipeline qui génère des graphiques à partir du code. L'idée de base, la synthèse guidée par le code (code-guided synthesis), fonctionne ainsi : on prend un ensemble initial d'images de graphiques déjà existants, on utilise un modèle visuel pour reconstruire approximativement le code qui aurait pu les générer, puis on utilise ce code comme germe pour produire des centaines de variantes. Changez le type de graphique, modifiez les valeurs, altérez les couleurs, changez le thème, le titre, la densité des données : chaque modification du code produit un nouvel échantillon authentique, avec toutes ses métadonnées déjà disponibles par construction.

Le résultat est une pipeline capable de s'étendre de manière presque géométrique. À partir d'un nombre relativement restreint de graphiques germes, le système a produit plus de 1,5 million d'échantillons diversifiés, couvrant 24 typologies de graphiques (histogrammes, graphiques linéaires, circulaires, de dispersion, boîtes à moustaches, cartes de chaleur, et bien d'autres) à travers six bibliothèques de traçage différentes, dont Matplotlib, Seaborn, Plotly et Vega-Altair. Un système automatique de contrôle de la qualité vérifie que chaque échantillon généré est exécutable, rendu correctement et sémantiquement cohérent : on ne veut pas simplement de la diversité, mais de la diversité significative.

Cinq langues pour un seul graphique

La véritable innovation de ChartNet n'est cependant pas dans la quantité, mais dans la structure. Chaque échantillon du dataset n'est pas une simple paire image-étiquette : c'est un n-uplet de cinq éléments parfaitement alignés entre eux, une représentation du même graphique en cinq « langues » différentes.

Le premier élément est le code de traçage exécutable, la source de vérité dont tout le reste découle. Le deuxième est l'image calculée du graphique, celle que le modèle verra pendant l'entraînement. Le troisième est le tableau de données avec les valeurs numériques sous-jacentes, exprimé en format structuré. Le quatrième est un résumé en langage naturel qui décrit les schémas, les tendances, les anomalies visibles dans le graphique. Le cinquième, disponible pour 632 000 des échantillons de base (et en expansion), est une paire question-réponse avec une chaîne de raisonnement explicite, le chain-of-thought, qui montre non seulement la réponse correcte mais aussi le chemin logique pour y parvenir.

Cette structure multimodale à cinq niveaux n'est pas esthétiquement plaisante, elle est fonctionnellement nécessaire. Lorsqu'un modèle est entraîné sur ces données, il apprend non seulement à « regarder » un graphique mais à mettre en relation sa structure visuelle avec les chiffres qu'il représente, avec les mots qui le décrivent, avec les questions que l'on peut poser à son sujet. L'alignement transversal entre les cinq composants est ce que les chercheurs appellent l'alignement cross-modal granulaire (granular cross-modal alignment) : le modèle développe une compréhension intégrée, et non fragmentée.

En plus du noyau synthétique, ChartNet inclut des sous-ensembles spécialisés qui abordent des dimensions souvent ignorées par les datasets précédents. Un sous-ensemble de 94 643 graphiques synthétiques a été vérifié par des annotateurs humains experts, produisant également un jeu de test de 2 000 échantillons avec des garanties de qualité certifiées : c'est le filet de sécurité statistique de l'ensemble du système. Un deuxième sous-ensemble rassemble 30 000 graphiques réels extraits de sources faisant autorité en matière de médias et de visualisation de données, ce qui est nécessaire pour tester la généralisation du monde synthétique au monde réel. Un troisième sous-ensemble comprend des annotations d'ancrage (grounding), c'est-à-dire des paires question-réponse associées à des cadres de délimitation précis sur les régions visuelles du graphique : il apprend au modèle non seulement quoi répondre, mais aussi où regarder. Enfin, un sous-ensemble dédié à la sécurité aborde le problème des graphiques potentiellement trompeurs ou manipulés, une dimension que les datasets académiques précédents ignoraient presque complètement. Image tirée de l'article officiel sur arxiv.org

Un 3B bat GPT-4o

Les résultats expérimentaux sont la partie qui a fait hausser quelques sourcils dans la communauté, et à juste titre. L'équipe a évalué les modèles entraînés sur ChartNet sur quatre tâches principales : reconstruction du graphique (recréer le code de traçage à partir de l'image), extraction des données (récupérer le tableau numérique sous-jacent), génération de résumés et réponse à des questions avec raisonnement en chaîne.

Le modèle Granite 4.0 Vision de 3 milliards de paramètres, entraîné avec ChartNet, a atteint 86,4 % de précision dans la génération de résumés (Chart2Summary) sur le jeu de test humain vérifié de ChartNet, avec une évaluation menée via LLM-as-a-judge. Ce score est le plus élevé parmi tous les modèles évalués, y compris des modèles nettement plus grands. Sur le même benchmark, Granite s'est classé deuxième dans l'extraction de données (Chart2CSV) avec 62,1 %, surpassé seulement par Qwen3.5-9B avec 63,4 %, un modèle dont la taille est plus du double.

Mais la donnée qui a le plus frappé les observateurs réside dans la comparaison directe avec les systèmes commerciaux. Les modèles open-source entraînés sur ChartNet ont surpassé des modèles d'ordres de grandeur plus grands, y compris GPT-4o d'OpenAI, sur toutes les tâches d'interprétation graphique. Le concept d'« ordres de grandeur » n'est pas ici une emphase rhétorique : GPT-4o est un modèle dont on estime qu'il possède des centaines de milliards de paramètres, alors que Granite 4.0 Vision en possède trois milliards. Le rapport est de l'ordre de 100:1 pour les paramètres, le plus petit modèle l'emportant. C'est exactement ce que Kondic entendait par là lorsqu'elle a déclaré que l'objectif du projet est de démontrer que l'on peut atteindre l'état de l'art avec des modèles plus petits qui ne nécessitent pas des quantités infinies de calcul.

Le résultat n'est pas magique, il est logique : GPT-4o est un modèle généraliste entraîné sur d'énormes quantités de données hétérogènes. Granite, entraîné sur un dataset construit chirurgicalement pour la tâche spécifique, peut le surpasser dans cette niche précise. C'est la différence entre un chirurgien généraliste et un spécialiste : au bloc opératoire pour cette procédure spécifique, le spécialiste l'emporte presque toujours.

ChartNet a également amélioré les performances sur les benchmarks publics standards du secteur, tels que ChartQA, FigureQA et PlotQA, démontrant que les gains ne sont pas limités au jeu de test propriétaire mais se généralisent à des évaluations indépendantes.

Open source, mais avec des réserves

Jusqu'ici, l'histoire semble presque trop belle. Un dataset gratuit, construit avec rigueur scientifique, qui permet à des modèles petits et économiques de battre les géants commerciaux dans les tâches d'analyse graphique. Pour celui qui gère une PME, mène des recherches sans fonds des Big Tech, ou ne veut tout simplement pas payer les tarifs d'API des fournisseurs premium, ChartNet et les modèles Granite qui en découlent représentent un accès concret à des capacités qui étaient de fait inaccessibles.

Le dataset est disponible sur HuggingFace, les modèles Granite sont publiés sous licence Apache 2.0 et l'article est publié sur arXiv sous licence CC BY 4.0. Il n'y a pas de barrière à l'accès. Un professionnel qui souhaiterait intégrer aujourd'hui Granite Vision pour analyser automatiquement les rapports PDF de son entreprise, en extraire les graphiques et obtenir des résumés et des réponses aux questions, peut le faire sur du matériel grand public avec des coûts marginaux proches de zéro.

Cela dit, un compte-rendu honnête ne peut ignorer les limites structurelles du projet.

Le point critique le plus évident est la nature synthétique de la plupart des données. Les graphiques générés par des pipelines automatiques, aussi diversifiés et contrôlés soient-ils, ont tendance à être visuellement plus propres, plus réguliers, plus « corrects » que les graphiques rencontrés dans la réalité. Un rapport annuel d'une multinationale, une diapositive de présentation académique ou une infographie de journal ont souvent des styles graphiques idiosyncrasiques, des polices non standard, des échelles anormales, des annotations manuelles, des superpositions et une qualité de rendu variable. Le sous-ensemble de 30 000 graphiques réels dans ChartNet est une tentative de combler ce fossé, mais il reste une fraction mineure du dataset total. Le risque de ce qu'on appelle le « distribution shift », la différence entre la distribution des données d'entraînement et celle des données réelles, est réel et reconnu par les auteurs eux-mêmes, qui ont indiqué l'expansion avec des données d'une plus grande complexité comme priorité pour les versions futures.

Il y a ensuite une question de dépendance à l'écosystème. ChartNet a été développé dans le cadre du MIT-IBM Computing Research Lab, une collaboration structurée entre le MIT et IBM Research, et ses résultats les plus visibles sont les modèles de la famille Granite d'IBM. Ce n'est pas un défaut, mais c'est un contexte à garder à l'esprit : le dataset est open-source, mais sa trajectoire de développement est influencée par les objectifs d'une grande entreprise technologique ayant des intérêts commerciaux précis dans l'IA enterprise. La communauté de recherche indépendante est explicitement invitée à contribuer, mais l'équilibre entre gouvernance communautaire et direction d'entreprise restera à observer dans le temps.

Il convient de noter également que les mesures d'évaluation les plus flatteuses, comme les 86,4 % sur Chart2Summary, utilisent une approche LLM-as-a-judge où un modèle linguistique évalue la qualité des réponses d'un autre modèle. C'est une méthodologie de plus en plus courante, mais qui n'est pas exempte de critiques : les juges automatiques peuvent avoir des préférences systématiques, peuvent être moins sensibles que les experts humains à certains types d'erreurs numériques, et les scores absolus dépendent en partie des choix de prompt de l'évaluateur. Le jeu de test de 2 000 échantillons vérifiés par des humains est une garantie partielle, mais pas une validation complète en conditions réelles.

L'article sera présenté à l'IEEE CVPR 2026, Computer Vision and Pattern Recognition, l'une des conférences académiques les plus importantes au monde dans le domaine de la vision artificielle. C'est le sceau de légitimité scientifique du projet, et il porte également en lui la tradition de révision par les pairs qui distingue la recherche académique d'une simple annonce commerciale. Image tirée de l'article officiel sur arxiv.org

Ce qui change, concrètement

Pour celui qui lit cet article d'un point de vue pratique, la question est : qu'est-ce qui change aujourd'hui, dans mon activité, grâce à ChartNet ?

Si vous travaillez dans une grande organisation ayant accès aux modèles commerciaux premium et disposant d'une équipe IA dédiée, c'est principalement une nouvelle intéressante sur le progrès de la recherche. Si, en revanche, vous êtes un analyste financier freelance traitant des dizaines de rapports PDF par mois, un chercheur au budget limité, ou une PME souhaitant automatiser l'extraction de données à partir de présentations et de tableaux de bord, alors ChartNet ouvre une porte concrète.

Un modèle de 3 milliards de paramètres comme Granite 4.0 Vision tourne sur des serveurs cloud avec des coûts horaires de quelques centimes. La différence par rapport à GPT-4o via API n'est pas seulement économique : elle réside aussi dans la latence, le contrôle des données et la possibilité de fine-tuning sur des données propriétaires. Le sous-ensemble annoté par des humains dans ChartNet est conçu précisément pour cela : permettre à quiconque d'adapter les performances à son domaine spécifique, des graphiques du marché boursier aux indicateurs de performance de l'entreprise.

ChartNet démontre qu'en IA, l'avantage concurrentiel n'appartient pas nécessairement à celui qui possède le plus de paramètres et la plus grande puissance de calcul, mais à celui qui possède les bonnes données construites de la bonne manière. Sur des tâches spécifiques et bien définies, un modèle petit mais bien entraîné peut renverser la situation. Parfois, ce qui compte n'est pas d'être le plus gros, mais le plus précis.