Ihr Modell, Ihre Regeln: Mistral Forge und die proprietäre KI

Es gibt ein subtiles Missverständnis im Kern dessen, wie die meisten Unternehmen heute künstliche Intelligenz einsetzen. Sie senden Prompts an Modelle, die auf Milliarden von Internetseiten, Büchern, Artikeln, Foren und öffentlichem Code auf GitHub trainiert wurden, und erwarten Antworten, die auf ihre interne Realität kalibriert sind. Aber diese interne Realität – die Betriebsabläufe eines Pharmaunternehmens, die Wartungshandbücher einer Turbine, die Standardverträge einer Mailänder Anwaltskanzlei, die Compliance-Richtlinien einer Bank – ist nie in einen Trainingsdatensatz eingegangen. Es ist, als würde man jemanden, der die gesamte Treccani-Enzyklopädie gelesen hat, bitten zu erklären, wie der interne Genehmigungsprozess für einen Urlaubsantrag in Ihrem Unternehmen funktioniert. Die Antwort wird allgemein, höflich und nutzlos sein.

Mistral AI hat die Bühne der Nvidia GTC 2026 gewählt – Jensen Huangs jährliche Konferenz, auf der in diesem Jahr fast ausschließlich über agentische KI für Unternehmen gesprochen wurde –, um Forge anzukündigen: ein System, das es Organisationen ermöglicht, Sprachmodelle direkt auf ihrem eigenen institutionellen Wissen zu trainieren. Es handelt sich nicht um einen neuen Chatbot oder ein Werkzeug zur Optimierung von Prompts. Es ist etwas strukturell anderes, und es lohnt sich zu verstehen, was genau, denn die technischen, wirtschaftlichen und geopolitischen Auswirkungen sind alles andere als trivial.

Was Forge konkret tut

Um Forge zu verstehen, muss man zunächst verstehen, was es von den bereits existierenden Werkzeugen zur Personalisierung von KI unterscheidet. Die überwältigende Mehrheit der Enterprise-Lösungen arbeitet heute auf zwei Wegen: Retrieval-Augmented Generation (RAG), bei dem das Modell nicht angetastet wird, sondern zum Zeitpunkt der Antwort durch den Abruf relevanter Dokumente aus einer Datenbank „informiert“ wird, oder oberflächliches Fine-Tuning, bei dem das Modell auf einem kleinen spezifischen Datensatz neu trainiert wird, um sein Verhalten leicht anzupassen. Beide Ansätze lassen das Basismodell unverändert. Es ist, als würde man eine Wohnung mieten und seine eigenen Möbel mitbringen: Das Gebäude ändert sich nicht, nur die Einrichtung.

Forge schlägt etwas radikal anderes vor: Das Gebäude von Grund auf nach den eigenen Spezifikationen zu bauen. Die Produktseite beschreibt einen Prozess, der in mehreren Phasen des Modell-Lebenszyklus gegliedert ist. Das Pre-Training, die tiefgreifendste Phase, ermöglicht es, das Modell auf großen Mengen unstrukturierter interner Dokumentation, Unternehmens-Codebasen, operativen Daten und historischen Archiven zu trainieren, sodass das Modell dieses Wissen nicht nur konsultiert, sondern in seine grundlegende Funktionsweise verinnerlicht. Es ist der Unterschied zwischen einem Arzt, der vor einer Visite eine Patientenakte liest, und einem Arzt, der zehn Jahre in dieser speziellen Abteilung gearbeitet hat.

Neben dem Pre-Training bietet Forge Post-Training-Werkzeuge zur Verfeinerung des Verhaltens bei spezifischen Aufgaben: Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO), um interne Präferenzen und Standards zu kodieren, sowie Low-Rank Adaptation (LoRA) für leichtere Anpassungen ohne Neutraining des gesamten Modells. Die dritte Säule des Systems ist das Reinforcement Learning: Über RLHF-Pipelines können Organisationen das Modellverhalten an ihre eigenen operativen Richtlinien und Evaluierungskriterien anpassen und die Leistung von Agenten in komplexen Umgebungen verbessern – von der Orchestrierung von Workflows über die Nutzung von Werkzeugen bis hin zum Entscheidungsprozess. Ergänzt wird das Ganze durch Werkzeuge zur Generierung synthetischer Daten, die fundamental sind, um jene Grenzfälle abzudecken, die in realen Daten selten auftauchen, aber in der Produktion den Unterschied ausmachen, sowie durch Evaluierungs-Frameworks, die an die internen KPIs des Unternehmens gekoppelt sind und nicht an die generischen Benchmarks, an denen Modelle in der akademischen Welt gemessen werden.

Ein technisches Detail, das für architektonische Entscheidungen wichtig ist, ist die Unterstützung sowohl für dichte Modelle als auch für Mixture-of-Experts (MoE)-Architekturen. Wie bereits in der Analyse zu Devstral 2 erläutert, aktivieren MoE-Architekturen für jede Anfrage nur eine Teilmenge „spezialisierter Subnetzwerke“. So erreichen sie Fähigkeiten, die mit viel größeren Modellen vergleichbar sind, bei geringerer Latenz und niedrigeren Rechenkosten. Für ein Unternehmen, das entscheiden muss, ob es in ein hochwertiges dichtes Modell oder ein effizienteres MoE investiert, ist diese Flexibilität kein kosmetisches Detail. Forge unterstützt auch multimodale Eingaben – Text, Bilder, Audio –, sofern der Anwendungsfall dies erfordert.

In Bezug auf Agenten-Fähigkeiten wurde Forge für die Zusammenarbeit mit Mistral Vibe konzipiert, dem autonomen Agenten von Mistral. Dieser kann die Plattform nutzen, um Fine-Tuning durchzuführen, optimale Hyperparameter zu finden, Jobs zu planen und autonom synthetische Daten zu generieren. Das System überwacht Metriken, um Rückschritte bei relevanten Benchmarks zu vermeiden, und die gesamte Schnittstelle ist so gestaltet, dass sie in natürlicher Sprache bedienbar ist, auch durch nicht-menschliche Agenten.

Mistral hat Forge bereits einer Gruppe ausgewählter Partner zur Verfügung gestellt: ASML (der niederländische Hersteller von EUV-Lithografiesystemen, der die Series-C-Runde von Mistral anführte), Ericsson, die Europäische Weltraumorganisation (ESA), DSO National Laboratories, HTX Singapur und Reply, das italienische Technologieberatungsunternehmen. Dies sind Namen, die sehr unterschiedliche Sektoren abdecken: Telekommunikation, Verteidigung und Sicherheit, Luft- und Raumfahrt, Präzisionsfertigung und Tech-Beratung. Diese Auswahl ist kein Zufall: Mistral möchte zeigen, dass Forge konkrete industrielle Bedürfnisse erfüllt und keine Laboranwendungsfälle.

Der Vergleich: Wo Fine-Tuning endet und Forge beginnt

Um zu verstehen, wo sich Forge im bestehenden Ökosystem positioniert, lohnt sich ein ehrlicher Vergleich mit den relevantesten Wettbewerbern.

OpenAI bietet Fine-Tuning für GPT-4o und andere Modelle der Familie an, aber dabei handelt es sich um eine Anpassung des OpenAI-Basismodells und nicht um ein Training von Grund auf auf einer vom Kunden gewählten Architektur. Es ist eine zugänglichere, schnellere Option mit viel niedrigeren Eintrittsbarrieren, aber strukturell begrenzt: Man arbeitet immer innerhalb der Grenzen des Basismodells, das Eigentum von OpenAI bleibt und veraltet sein kann, modifiziert werden kann oder dessen Preis sich ändern kann, ohne dass der Kunde ein Mitspracherecht hat. Die konzeptionelle Distanz zu Forge ist die zwischen der Anpassung einer SaaS-Software und der Entwicklung einer eigenen Anwendung.

Anthropic bietet mit Claude kein Neutraining des Basismodells an: Das Paradigma ist das der „Skills“ und der kontextuellen Integration über System-Prompts und RAG. Es ist ein schlankerer und zugänglicherer Ansatz, aber explizit darauf ausgelegt, das Verhalten zur Laufzeit anzupassen und nicht das grundlegende Wissen des Modells zu modifizieren. Google bietet mit Vertex AI Funktionen für Custom Training an, auch von Grund auf auf eigenen Architekturen, aber die Plattform ist historisch eher auf traditionelles Machine Learning als auf große agentische Sprachmodelle ausgerichtet, und die Integration mit Agent-First-Werkzeugen ist weniger ausgereift als das, was Forge verspricht.

Die andere bedeutende Alternative ist das lokale Training auf Open-Weight-Modellen, das die maximale Kontrolle über die gesamte Kette bietet – von der Hardware über das Modell bis hin zu den Daten. Der Unterschied zu Forge liegt jedoch in der Skalierung und der erforderlichen Expertise. Das Pre-Training eines Modells in Enterprise-Größe erfordert GPU-Cluster mit Hunderten von Einheiten, kuratierte Datensätze im Terabyte-Bereich und spezifische Kompetenzen, die sich nur sehr wenige Unternehmen leisten können, intern aufzubauen. Wie in der Analyse zu den SLMs dokumentiert, erfordert selbst ein Fine-Tuning eines 7-Milliarden-Modells nicht triviale Ausrüstung und Kompetenzen: Die Skalierung auf ein vollständiges Pre-Training ist ein Sprung um Größenordnungen. Forge positioniert sich als verwalteter Service, der diese Barriere beseitigt, indem die Infrastruktur und das technische Know-how an Mistral delegiert werden, während das Unternehmen das Fachwissen und die Daten beisteuert.

In diesem Punkt war Timothée Lacroix, Mitbegründer und Chief Technologist von Mistral, gegenüber TechCrunch deutlich: Der Kunde entscheidet über das Modell und die Infrastruktur, aber Mistral berät und begleitet ihn. Und für Teams, die mehr als nur Beratung benötigen, wird Forge mit „Forward-Deployed Engineers“ (FDE) geliefert – eine Rolle, die Mistral explizit aus den Playbooks von Palantir und IBM übernommen hat: technische Experten, die sich direkt in die Kundenteams integrieren, um den Aufbau der Daten-Pipelines, die Definition der Evals und die Kalibrierung des Trainingsprozesses zu überwachen. Es ist ein Liefermodell, das implizit zugibt, dass Technologie allein nicht ausreicht.

Bild entnommen von mistral.ai

Reale Vorteile, reale Kritikpunkte

Nachdem die Werkzeuge erläutert wurden, sollten wir ehrlich analysieren, was Forge verspricht und wo noch offene Fragen auftauchen.

Der strukturellste Vorteil liegt in der Kontrolle über das geistige Eigentum. Ein Modell, das auf den internen Daten eines Unternehmens trainiert wurde, kodiert dieses Wissen dauerhaft in seiner Architektur – nicht als externe, abrufbare Referenz, sondern als integraler Bestandteil der Argumentation. Dies verändert grundlegend die Natur der KI-Agenten, die auf diesem Modell aufgebaut werden: Anstatt Agenten, die Informationen aus Datenbanken abrufen und in Antworten einbauen, erhält man Agenten, die das Vokabular, die Entscheidungsmuster und die operativen Einschränkungen der Organisation als natürlichen Ausgangspunkt verwenden. Für kritische Workflows ist das resultierende Verhalten vorhersehbarer, hält sich enger an interne Verfahren und ist weniger anfällig für Halluzinationen, die entstehen, wenn ein allgemeines Modell versucht, generische Argumente auf hochspezifische Kontexte anzuwenden.

Für Sektoren, in denen die Sprache nicht Englisch ist oder in denen mit Fachterminologien gearbeitet wird, die in öffentlichen Trainingskorpora nicht vorkommen, ist der Vorteil des Pre-Trainings auf proprietären Daten noch ausgeprägter. Ein Modell, das auf jahrelangen italienischen regulatorischen Standards trainiert wurde, versteht die Nuancen des italienischen Verwaltungsrechts nicht, weil es ihm jemand zur Laufzeit erklärt hat, sondern weil es sie während des Trainings mit der gleichen Tiefe „gelesen“ hat wie jeden anderen Text.

Die Kritikpunkte verdienen jedoch ebenso viel Aufmerksamkeit. Der erste betrifft die Daten selbst. Forge erfordert große Mengen an strukturierter und qualitativ hochwertiger interner Dokumentation, um signifikante Ergebnisse zu erzielen. In der Praxis verfügen viele Organisationen über inhomogene historische Archive, Dokumente in heterogenen Formaten, nicht normalisierte Daten und widersprüchliche Versionen derselben Richtlinien. „Garbage in, garbage out“ gilt für das Training noch stärker als für RAG: Ein Modell, das auf Daten schlechter Qualität vor-trainiert wurde, ruft diese nicht zur Laufzeit ab, sondern verinnerlicht sie. Das Risiko von Overfitting auf einen zu engen Korpus oder veraltete Richtlinien ist real, und der Prozess der Bereinigung und Kuratierung des Datensatzes ist oft ebenso kostspielig wie das Training selbst.

Der zweite Kritikpunkt betrifft Kosten und Kompetenzen. Das Pre-Training von Modellen in Enterprise-Größe auf High-End-GPU-Clustern verursacht Kosten, die für mittelständische Unternehmen kaum zu rechtfertigen sind. Mistral hat noch keine detaillierte Preisstruktur für Forge veröffentlicht – der Service ist derzeit auf direkte Anfrage verfügbar –, was es für einen CFO schwierig macht, die Investitionsrendite vor der Budgetfreigabe konkret zu bewerten. Die im Service enthaltenen FDEs lösen einen Teil des Problems der internen Kompetenzen, führen aber eine menschliche und organisatorische Abhängigkeit mit eigenen Verwaltungskosten ein.

Die dritte Frage, wahrscheinlich die heikelste für Entscheidungsträger auf Managementebene, betrifft die Infrastruktur. Die Produktseite von Forge spricht von „infrastructure flexibility“ und verspricht Bereitstellung ohne „cloud lock-in“. Bei genauem Lesen der verfügbaren Dokumentation zeigt sich jedoch eine Unterscheidung zwischen der Flexibilität bei der Inferenz – wo das resultierende Modell tatsächlich in einer privaten Cloud, on-premise oder auf der Mistral-Compute-Infrastruktur nach Wahl des Kunden bereitgestellt werden kann – und der Trainingsphase, für die Mistral die Bereitstellungsoptionen nicht öffentlich explizit macht. In Anbetracht dessen, dass das Pre-Training eines Modells von signifikanter Größe Cluster von Hunderten von H100-GPUs oder gleichwertigen Geräten erfordert und es höchst unwahrscheinlich ist, dass selbst größte Partner wie ASML oder Ericsson diese Infrastruktur für ein Projekt dieser Art im Haus haben, ist die Annahme vernünftig, dass zumindest die Trainingsphase auf Mistral-Infrastruktur erfolgt. Dies ist jedoch – das muss betont werden – eine Einschätzung, die auf technischen Überlegungen und auf dem basiert, was Mistral nicht sagt, und nicht auf expliziten Erklärungen. Mistral bestätigt oder dementiert diese Lesart in der verfügbaren öffentlichen Dokumentation nicht. Wer Forge für besonders sensible Daten in Betracht zieht, sollte diesen Punkt vertraglich klären, bevor er fortfährt.

Europa im Auge des KI-Sturms

Forge wurde nicht im luftleeren Raum angekündigt. Das Timing auf der Nvidia GTC 2026 ist eine explizite Positionierung: Mistral präsentiert sich auf der Bühne der einflussreichsten Konferenz der Branche vor den Hauptakteuren des globalen KI-Ökosystems mit einem Produkt, das direkt mit den Enterprise-Angeboten von OpenAI und Google Cloud konkurriert. Es ist ein Akt bewusster Herausforderung, keine Improvisation.

Wie bereits in meinem früheren Artikel zu Devstral 2 analysiert, befindet sich Mistral in einer strukturell paradoxen Position: Es ist der überzeugendste Beweis dafür, dass Europa Spitzen-KI produzieren kann, und gleichzeitig ein mittelständisches Unternehmen, das mit Ressourcen arbeitet, die im Vergleich zu seinen amerikanischen Konkurrenten unvergleichbar sind. Die mit der von ASML angeführten Series-C-Runde erreichte Bewertung von 11,7 Milliarden Euro ist für europäische Verhältnisse ein bemerkenswerter Meilenstein, im Vergleich zur Bewertung von OpenAI, die 150 Milliarden Dollar übersteigt, jedoch winzig. Die von der Financial Times gemeldete Prognose, im Jahr 2026 einen ARR (Annual Recurring Revenue) von über einer Milliarde Dollar zu erreichen, signalisiert zwar reale kommerzielle Zugkraft, löst aber die Asymmetrie der Größenordnungen nicht auf.

In diesem Zusammenhang hat Forge eine geopolitische Dimension, die über das Produkt selbst hinausgeht. Für ein europäisches Unternehmen, das seine Kunden darin trainiert, proprietäre Modelle zu bauen, ist die Frage der Datensouveränität sowohl ein Verkaufsargument als auch eine politische Verpflichtung. Die DSGVO garantiert einen regulatorischen Rahmen, den amerikanische Anbieter zwar respektieren müssen, an dessen Aufbau sie jedoch nicht beteiligt waren. Mistral bietet als französisches Unternehmen, das europäischem Recht unterliegt, andere strukturelle Garantien für den Umgang mit Daten während des Trainings, auch wenn, wie wir gesehen haben, die technischen Details der Infrastruktur, auf der dieses Training stattfindet, teilweise undurchsichtig bleiben.

Ein Punkt, den man nicht romantisieren sollte, ist, dass die Abhängigkeit von NVIDIA-Hardware bestehen bleibt. Jedes Mistral-Modell, Forge eingeschlossen, wird auf in Kalifornien entwickelten GPUs trainiert. Das bedeutet, dass die „europäische Technologiesouveränität“ zwangsläufig unvollständig bleibt, solange Europa kein Äquivalent zur Produktionskette für KI-Chips hat. ASML, das die EUV-Lithografiemaschinen herstellt, ohne die kein fortschrittlicher Chip gefertigt werden kann, ist ein fundamentaler Baustein, aber der Weg von ASML zu einer wettbewerbsfähigen europäischen KI-GPU ist noch weit.

Die Fragen, die offen bleiben

Forge ist ein interessantes und technisch ambitioniertes Produkt. Aber einige Fragen bleiben unbeantwortet, und Entscheidungsträger sollten diese im Hinterkopf behalten.

Die dringlichste betrifft die Transparenz der Trainingsinfrastruktur: Wo genau findet das Training des Modells physisch statt? Welche vertraglichen Garantien gibt es für die Datentrennung während des Trainings? Welche Sicherheitszertifizierungen decken die Daten während dieses Prozesses ab? Da es hierzu noch keine detaillierte öffentliche Dokumentation gibt, lautet die Antwort heute: Man muss Mistral direkt fragen und es schriftlich festhalten.

Die zweite Frage betrifft die wirtschaftliche Nachhaltigkeit des Modells für mittelgroße Organisationen. Forge scheint heute für große Unternehmen mit Budgets, Datensätzen und einer operativen Komplexität optimiert zu sein, die eine Investition dieser Größenordnung rechtfertigen. Was passiert, wenn oder falls Mistral beschließt, Forge auf den Mid-Market auszuweiten? Das Pricing und die Zugangsmodalitäten könnten sich im Vergleich zum derzeitigen beratungsintensiven Ansatz erheblich ändern.

Die dritte Frage betrifft den Lebenszyklus des Modells im Zeitverlauf. Ein Modell, das heute auf den Daten einer Organisation trainiert wurde, beginnt ab dem Moment der Bereitstellung von der operativen Realität abzuweichen, da sich Organisationen verändern, Vorschriften aktualisiert werden und Prozesse evolvieren. Forge enthält Werkzeuge zur Drift-Erkennung und Pipelines zur kontinuierlichen Verbesserung via RL, aber wie nachhaltig ist es tatsächlich, ein proprietäres Modell im Vergleich zu einem externen Modell, das jemand anderes ständig aktualisiert, auf dem neuesten Stand zu halten? Dies ist ein versteckter Kostenfaktor, der in Pressemitteilungen nicht auftaucht.

Die vierte und vielleicht grundlegendste Frage ist die nach dem Lock-in. Der Aufbau eines Modells, das tief in das institutionelle Wissen einer Organisation integriert ist, ist per Definition eine Investition, von der man nur schwer zurückkehren kann. Wenn Mistral seine Strategie ändern würde, übernommen würde oder einfach beschließen würde, die Servicebedingungen zu ändern – wie schwierig wäre es dann, dieses kodierte Wissen zu extrahieren und wiederzuverwenden? Es ist die KI-Version einer Frage, die sich Unternehmen bereits bei proprietären Datenbanken, CRMs und ERP-Software gestellt haben: Jedes Werkzeug, das zur kritischen Infrastruktur wird, wird auch zu einem Abhängigkeitsrisiko.

Zusammenfassend lässt sich sagen, dass Forge eine seriöse Antwort auf ein seriöses Problem ist. Die Idee, dass KI-Modelle lernen müssen, mit dem spezifischen Wissen derer zu argumentieren, die sie nutzen, und es nicht nur zu konsultieren, ist konzeptionell fundiert und stellt wahrscheinlich eine wichtige Richtung für die KI-Einführung in Unternehmen in den kommenden Jahren dar. Die offenen Fragen widerlegen dies nicht, sie machen sie nur notwendiger.