ChartNet: Diagrammanalyse ist keine Sache großer Budgets mehr

Zum ersten Mal interpretiert ein kleines Open-Source-KI-Modell Diagramme besser als die kommerziellen Giganten. Möglich macht dies ChartNet, der revolutionäre MIT-Datensatz mit 1,5 Millionen synthetischen Stichproben, der Plotting-Code, gerenderte Bilder, Datentabellen, Zusammenfassungen in natürlicher Sprache und Q&A-Paare mit Argumentationsketten kombiniert. Das Ergebnis? Jeder, der einen 200-seitigen Finanzbericht analysieren muss, kann nun ein kostenloses 3-Milliarden-Parameter-Modell auf HuggingFace nutzen, um Daten zu extrahieren, Diagramme zu rekonstruieren und begründete Antworten zu erhalten. Dies demokratisiert die visuelle Datenanalyse für KMU, Forscher und Fachleute mit begrenztem Budget.

Stellen Sie sich vor, Sie hätten einen Finanzanalysten, der perfekt Englisch versteht und alle Grundlagen der Bilanzierung kennt, aber wenn Sie ihm ein Balkendiagramm mit den Quartalsumsätzen zeigen, antwortet er mit einer Beschreibung der Farben der Balken, anstatt die Zahlen vorzulesen. Es ist eine paradoxe Situation, und doch ist es genau das, was bei einem Großteil der heute auf dem Markt befindlichen visuellen KI-Modelle passiert, einschließlich einiger der renommiertesten und teuersten.

Das Problem ist nicht neu, blieb aber lange Zeit im Verborgenen, überschattet vom Hype um die linguistischen Fähigkeiten der KI. Sogenannte Vision-Language-Modelle – jene, die sowohl Text als auch Bilder verarbeiten – haben spektakuläre Fortschritte bei der Beschreibung von Fotos, dem Erkennen von Objekten und dem Transkribieren von Dokumenten gemacht. Aber wenn sie vor einem Diagramm stehen, gerät ihre Argumentation auf subtile und gefährliche Weise ins Stocken: Sie sehen eine Figur, verstehen aber nicht die Daten, die diese Figur darstellt.

Die Interpretation eines Diagramms ist nicht einfach nur das "Betrachten eines Bildes". Sie erfordert die Verschmelzung von drei unterschiedlichen Kompetenzen: der visuellen Wahrnehmung geometrischer Formen (wo befinden sich die Balken, wo verläuft die Trendlinie), dem strukturellen Verständnis numerischer Daten (Achsenskalierung, Proportionen, absolute Werte) und dem linguistischen Verständnis von Beschriftungen, Titeln und Legenden. Es ist eine kognitive Triangulation, die das menschliche Gehirn fast automatisch ausführt, die aber für ein künstliches Modell eine offene Herausforderung bleibt – ein Terrain, auf dem selbst Systeme mit Milliarden von Parametern über Details stolpern, die trivial erscheinen mögen.

Dhiraj Joshi, leitender Wissenschaftler bei IBM Research, beschrieb das Problem im MIT-Kommuniqué sehr deutlich: Die Finanzindustrie lebt von Diagrammen, und wenn Vision-Language-Modelle in der Lage sind, daraus zuverlässige Informationen, Trendbeschreibungen, zeitliche Veränderungen oder Vergleiche zwischen Kategorien zu extrahieren, eröffnen sich automatisch Dutzende von Workflows, die heute menschliche Analysten oder teure Werkzeuge erfordern. Aber das Schlüsselwort ist "zuverlässig". Ein Modell, das mit Sicherheit antwortet und die Zahlen falsch wiedergibt, ist schlimmer als gar kein Modell.

Der Flaschenhals lag, wie so oft in diesem Bereich, nicht bei den Modellen. Er lag bei den Daten.

Wie ein Datensatz mit 1,5 Millionen Diagrammen entsteht

Wer die KI-Welt verfolgt, weiß, dass die Qualität der Trainingsdaten fast immer wichtiger ist als die Architektur des Modells. Eine einfache, aber gut genährte Idee schlägt fast immer eine brillante Idee, der es an Beispielen mangelt. Das Problem bei Diagrammen ist, dass es außerordentlich schwierig ist, sie zu sammeln, zu beschriften und für das Training wirklich nützlich zu machen.

Die vor ChartNet existierenden Datensätze waren rückblickend in ihrer Einseitigkeit fast naiv. FigureQA, einer der bekanntesten, enthielt 100.000 Bilder, deckte aber nur drei Arten von Diagrammen ab und verwendete nur eine einzige Rendering-Bibliothek, wobei ausschließlich binäre Ja/Nein-Antworten akzeptiert wurden. DVQA war um nur einen Diagrammtyp herum aufgebaut. ChartQA, ambitionierter, enthielt reale Bilder und komplexe Fragen, blieb aber bei 14.000 Beispielen stehen – bei weitem nicht genug, um ein robustes Modell zu trainieren. Die gemeinsame Lücke war struktureller Natur: Keiner dieser Datensätze verknüpfte das Bild des Diagramms mit dem Code, der es generiert hatte, mit den zugrunde liegenden Daten, einer Beschreibung in natürlicher Sprache und vor allem mit expliziten Argumentationsketten.

Jovana Kondic, MIT-Doktorandin in Elektrotechnik und Informatik und Hauptautorin des Papers, rahmte das Problem mit einer Analogie ein, die es wert ist, wiedergegeben zu werden: Ein Modell könnte im Gegensatz zum menschlichen Gehirn während des Trainings Tausende von Beispielen sehen müssen, um etwas wie ein Liniendiagramm zuverlässig zu erkennen. Datenknappheit ist keine Unannehmlichkeit, sie ist eine strukturelle Barriere.

Die vom MIT-IBM-Team konzipierte Lösung ist deshalb so elegant, weil sie die herkömmliche Logik umkehrt. Anstatt Diagramme aus dem Internet zu sammeln und dann zu versuchen, sie zu annotieren, haben die Forscher eine Pipeline aufgebaut, die Diagramme aus Code generiert. Die Grundidee, die sogenannte code-gesteuerte Synthese, funktioniert so: Man nimmt einen ersten Satz bereits existierender Diagrammbilder, verwendet ein visuelles Modell, um den Code, der sie generiert haben könnte, näherungsweise zu rekonstruieren, und verwendet diesen Code dann als Keimzelle, um Hunderte von Varianten zu erzeugen. Ändern Sie den Diagrammtyp, modifizieren Sie die Werte, variieren Sie die Farben, ändern Sie das Thema, den Titel, die Datendichte: Jede Änderung des Codes erzeugt eine neue authentische Stichprobe, wobei alle Metadaten bereits durch die Konstruktion verfügbar sind.

Das Ergebnis ist eine Pipeline, die in der Lage ist, fast geometrisch zu expandieren. Ausgehend von einer relativ kleinen Anzahl von Keimdiagrammen hat das System über 1,5 Millionen vielfältige Stichproben produziert, die 24 Diagrammtypen (Histogramme, Linien-, Torten-, Streudiagramme, Boxplots, Heatmaps und viele andere) über sechs verschiedene Plotting-Bibliotheken abdecken, darunter Matplotlib, Seaborn, Plotly und Vega-Altair. Ein automatisches Qualitätskontrollsystem prüft, ob jede generierte Stichprobe ausführbar ist, korrekt gerendert wird und semantisch kohärent ist: Man will nicht einfach nur Vielfalt, sondern bedeutsame Vielfalt.

Fünf Sprachen für ein einziges Diagramm

Die eigentliche Innovation von ChartNet liegt jedoch nicht in der Quantität, sondern in der Struktur. Jede Stichprobe im Datensatz ist nicht einfach ein Bild-Label-Paar: Es ist ein Tupel aus fünf Elementen, die perfekt aufeinander abgestimmt sind, eine Darstellung desselben Diagramms in fünf verschiedenen "Sprachen".

Das erste Element ist der ausführbare Plotting-Code, die Quelle der Wahrheit, von der alles andere abgeleitet wird. Das zweite ist das gerenderte Bild des Diagramms, das das Modell während des Trainings sehen wird. Das dritte ist die Datentabelle mit den zugrunde liegenden numerischen Werten, ausgedrückt in einem strukturierten Format. Das vierte ist eine Zusammenfassung in natürlicher Sprache, die die im Diagramm sichtbaren Muster, Trends und Anomalien beschreibt. Das fünfte, verfügbar für 632.000 der Kernstichproben (und in Erweiterung befindlich), ist ein Frage-Antwort-Paar mit einer expliziten Argumentationskette, dem sogenannten Chain-of-Thought, das nicht nur die korrekte Antwort, sondern auch den logischen Weg dorthin aufzeigt.

Diese fünfstufige multimodale Struktur ist nicht ästhetisch ansprechend, sie ist funktional notwendig. Wenn ein Modell auf diesen Daten trainiert wird, lernt es nicht nur, ein Diagramm "anzusehen", sondern seine visuelle Struktur in Beziehung zu den Zahlen zu setzen, die es darstellt, zu den Worten, die es beschreiben, und zu den Fragen, die dazu gestellt werden können. Die übergreifende Abstimmung zwischen den fünf Komponenten bezeichnen die Forscher als granulares Cross-Modal Alignment: Das Modell entwickelt ein integriertes, nicht fragmentiertes Verständnis.

Zusätzlich zum synthetischen Kern enthält ChartNet spezialisierte Teilmengen, die Dimensionen ansprechen, die von früheren Datensätzen oft ignoriert wurden. Eine Teilmenge von 94.643 synthetischen Diagrammen wurde von menschlichen Experten-Annotatoren überprüft, wobei auch ein Testset von 2.000 Stichproben mit zertifizierten Qualitätsgarantien erstellt wurde: Es ist das statistische Sicherheitsnetz des gesamten Systems. Eine zweite Teilmenge sammelt 30.000 reale Diagramme aus maßgeblichen Medien- und Datenvisualisierungsquellen – das, was man braucht, um die Generalisierung von der synthetischen Welt in die reale Welt zu testen. Eine dritte Teilmenge enthält Grounding-Annotationen, d. h. Frage-Antwort-Paare, die mit präzisen Begrenzungsrahmen (Bounding Boxes) auf den visuellen Regionen des Diagramms verknüpft sind: Sie lehren das Modell nicht nur, was es antworten soll, sondern auch, wohin es schauen muss. Schließlich befasst sich eine der Sicherheit gewidmete Teilmenge mit dem Problem potenziell irreführender oder manipulierter Diagramme – eine Dimension, die frühere akademische Datensätze fast vollständig ignorierten. Bild aus dem offiziellen Paper auf arxiv.org übernommen

Ein 3B schlägt GPT-4o

Die experimentellen Ergebnisse sind der Teil, der in der Community für Aufsehen gesorgt hat, und das aus gutem Grund. Das Team bewertete die auf ChartNet trainierten Modelle in vier Hauptaufgaben: Rekonstruktion des Diagramms (Wiederherstellung des Plotting-Codes aus dem Bild), Datenextraktion (Wiederherstellung der zugrunde liegenden numerischen Tabelle), Generierung von Zusammenfassungen und Beantwortung von Fragen mit Kettenargumentation.

Das mit ChartNet trainierte Granite 4.0 Vision-Modell mit 3 Milliarden Parametern erreichte eine Genauigkeit von 86,4 % bei der Generierung von Zusammenfassungen (Chart2Summary) auf dem von Menschen verifizierten Testset von ChartNet, wobei die Bewertung über LLM-as-a-judge durchgeführt wurde. Dieser Wert ist der höchste unter allen bewerteten Modellen, einschließlich deutlich größerer Modelle. Im selben Benchmark belegte Granite mit 62,1 % den zweiten Platz bei der Datenextraktion (Chart2CSV), nur übertroffen von Qwen3.5-9B mit 63,4 %, einem Modell von mehr als doppelter Größe.

Aber das Datum, das die Beobachter am meisten beeindruckte, liegt im direkten Vergleich mit kommerziellen Systemen. Die auf ChartNet trainierten Open-Source-Modelle übertrafen um Größenordnungen größere Modelle, einschließlich GPT-4o von OpenAI, in allen Aufgaben der Diagramminterpretation. Das Konzept der "Größenordnungen" ist hier keine rhetorische Übertreibung: GPT-4o ist ein Modell, von dem man schätzt, dass es Hunderte von Milliarden Parametern hat, während Granite 4.0 Vision drei Milliarden hat. Das Verhältnis liegt in der Größenordnung von 100:1 bei den Parametern, wobei das kleinere Modell gewinnt. Das ist genau das, was Kondic meinte, als sie erklärte, dass das Ziel des Projekts darin besteht zu beweisen, dass man den Stand der Technik mit kleineren Modellen erreichen kann, die keine unendlichen Mengen an Rechenleistung erfordern.

Das Ergebnis ist nicht magisch, es ist folgerichtig: GPT-4o ist ein Generalistenmodell, das auf riesigen Mengen heterogener Daten trainiert wurde. Granite, das auf einem chirurgisch für die spezifische Aufgabe aufgebauten Datensatz trainiert wurde, kann es in dieser präzisen Nische übertreffen. Es ist der Unterschied zwischen einem Allgemeinchirurgen und einem Spezialisten: Im Operationssaal für diesen spezifischen Eingriff gewinnt fast immer der Spezialist.

ChartNet verbesserte die Leistung auch bei den standardmäßigen öffentlichen Benchmarks der Branche wie ChartQA, FigureQA und PlotQA, was beweist, dass die Gewinne nicht auf das proprietäre Testset beschränkt sind, sondern auf unabhängige Bewertungen generalisieren.

Open Source, aber mit Vorbehalten

Bis hierhin scheint die Geschichte fast zu schön, um wahr zu sein. Ein kostenloser Datensatz, mit wissenschaftlicher Strenge aufgebaut, der es kleinen und kostengünstigen Modellen ermöglicht, die kommerziellen Giganten bei Diagrammanalyse-Aufgaben zu schlagen. Für KMU-Betreiber, Forscher ohne Big-Tech-Gelder oder einfach Leute, die nicht die API-Tarife von Premium-Anbietern zahlen wollen, stellen ChartNet und die daraus resultierenden Granite-Modelle einen konkreten Zugang zu Fähigkeiten dar, die faktisch verschlossen waren.

Der Datensatz ist auf HuggingFace verfügbar, die Granite-Modelle werden unter der Apache 2.0-Lizenz veröffentlicht und das Paper ist auf arXiv unter der CC BY 4.0-Lizenz publiziert. Es gibt keine Zugangsbarrieren. Ein Fachmann, der heute Granite Vision integrieren möchte, um automatisch die PDF-Berichte seines Unternehmens zu analysieren, die Diagramme daraus zu extrahieren und Zusammenfassungen sowie Antworten auf Fragen zu erhalten, kann dies auf Consumer-Hardware mit Grenzkosten nahe Null tun.

Dennoch kann ein ehrlicher Bericht die strukturellen Grenzen des Projekts nicht ignorieren.

Der offensichtlichste kritische Punkt ist die synthetische Natur des Großteils der Daten. Von automatischen Pipelines generierte Diagramme neigen trotz aller Vielfalt und Kontrolle dazu, visuell sauberer, regelmäßiger und "korrekter" zu sein als Diagramme, denen man in der Realität begegnet. Ein Jahresbericht eines multinationalen Konzerns, eine Folie aus einer akademischen Präsentation oder eine Infografik aus einer Zeitung haben oft idiosynkratische Grafikstile, Nicht-Standard-Schriften, anomale Skalen, manuelle Annotationen, Überlagerungen und eine variable Rendering-Qualität. Die Teilmenge von 30.000 realen Diagrammen in ChartNet ist ein Versuch, diese Lücke zu schließen, bleibt aber ein kleiner Bruchteil des Gesamtdatensatzes. Das Risiko des sogenannten "Distribution Shift", des Unterschieds zwischen der Verteilung der Trainingsdaten und der realen Daten, ist real und wird von den Autoren selbst anerkannt, die die Erweiterung um Daten mit größerer Komplexität als Priorität für zukünftige Versionen angegeben haben.

Dann gibt es eine Frage der Abhängigkeit vom Ökosystem. ChartNet wurde im Rahmen des MIT-IBM Computing Research Lab entwickelt, einer strukturierten Zusammenarbeit zwischen dem MIT und IBM Research, und seine sichtbarsten Ergebnisse sind die Modelle der Granite-Familie von IBM. Das ist kein Mangel, aber ein Kontext, den man im Auge behalten sollte: Der Datensatz ist Open Source, aber seine Entwicklungsbahn wird von den Zielen eines großen Technologieunternehmens mit präzisen kommerziellen Interessen an Enterprise-KI beeinflusst. Die unabhängige Forschungsgemeinschaft ist ausdrücklich eingeladen beizutragen, aber das Gleichgewicht zwischen Community-Governance und Unternehmensführung bleibt über die Zeit zu beobachten.

Es sollte auch erwähnt werden, dass die schmeichelhaftesten Bewertungsmetriken, wie die 86,4 % bei Chart2Summary, einen LLM-as-a-judge-Ansatz verwenden, bei dem ein Sprachmodell die Qualität der Antworten eines anderen Modells bewertet. Dies ist eine immer häufigere Methodik, die jedoch nicht frei von Kritik ist: Automatische Richter können systematische Präferenzen haben, sie können weniger sensibel als menschliche Experten für bestimmte Arten von numerischen Fehlern sein, und die absoluten Punktzahlen hängen zum Teil von der Wahl der Prompts durch den Bewerter ab. Das Testset aus 2.000 von Menschen verifizierten Stichproben ist eine teilweise Garantie, aber keine vollständige Validierung unter realen Bedingungen.

Das Paper wird auf der IEEE CVPR 2026, der Computer Vision and Pattern Recognition, einer der weltweit wichtigsten akademischen Konferenzen im Bereich des maschinellen Sehens, vorgestellt. Es ist das Siegel wissenschaftlicher Legitimität des Projekts und bringt auch die Tradition der Peer-Review mit sich, die akademische Forschung von einer bloßen kommerziellen Ankündigung unterscheidet. Bild aus dem offiziellen Paper auf arxiv.org übernommen

Was sich konkret ändert

Für diejenigen, die diesen Artikel aus einer praktischen Perspektive lesen, lautet die Frage: Was ändert sich heute in meiner Tätigkeit dank ChartNet?

Wenn Sie in einer großen Organisation mit Zugang zu kommerziellen Premium-Modellen und einem dedizierten KI-Team arbeiten, ist dies in erster Linie eine interessante Nachricht über den Forschungsfortschritt. Wenn Sie jedoch ein freiberuflicher Finanzanalyst sind, der monatlich Dutzende von PDF-Berichten verarbeitet, ein Forscher mit begrenztem Budget oder ein KMU, das die Extraktion von Daten aus Präsentationen und Dashboards automatisieren möchte, dann öffnet ChartNet eine konkrete Tür.

Ein Modell mit 3 Milliarden Parametern wie Granite 4.0 Vision läuft auf Cloud-Servern mit stündlichen Kosten von wenigen Cent. Der Unterschied zu GPT-4o über API ist nicht nur ökonomisch: Er liegt auch in der Latenz, der Datenkontrolle und der Möglichkeit des Fine-Tunings auf proprietären Daten. Die von Menschen annotierte Teilmenge in ChartNet ist genau dafür konzipiert: jedem zu ermöglichen, die Leistung an sein spezifisches Gebiet anzupassen, von Aktienmarktdiagrammen bis hin zu Unternehmenskennzahlen.

ChartNet beweist, dass der Wettbewerbsvorteil in der KI nicht unbedingt demjenigen gehört, der mehr Parameter und mehr Rechenleistung hat, sondern demjenigen, der die richtigen Daten auf die richtige Weise aufgebaut hat. Bei spezifischen und gut definierten Aufgaben kann ein kleines, aber gut trainiertes Modell das Feld von hinten aufrollen. Manchmal zählt nicht größer, sondern präziser.