MDASH: Microsofts System fordert Mythos bei der Cybersicherheit heraus

Es gab eine Schwachstelle im TCP/IP-Kernel von Windows, die darauf wartete, gefunden zu werden. Technisch gesehen nennt man sie Use-after-free: Eine Komponente des Betriebssystems verwendete weiterhin einen Zeiger in einem Speicherbereich, der bereits freigegeben worden war – wie jemand, der weiterhin die Klinke einer Tür drückt, nachdem das Schloss bereits ausgebaut wurde. Auf Systemen mit mehreren Prozessoren kann dieser Moment der Unachtsamkeit zu einem Fenster werden, durch das ein entfernter Angreifer ohne Anmeldedaten und ohne Authentifizierung die Kontrolle über den Rechner übernehmen könnte. Die Schwachstelle lag nicht in der Verborgenheit eines zweitrangigen Treibers: Sie befand sich in der tcpip.sys, jener Komponente, die den Netzwerkverkehr jeder Windows-Installation seit fast drei Jahrzehnten verwaltet.

Am 12. Mai 2026 veröffentlichte Microsoft den Patch Tuesday, der diese und fünfzehn weitere ähnliche Schwachstellen korrigierte, von denen vier als „Critical“ eingestuft wurden, da sie die Remotebefehlsausführung (Remote Code Execution) ermöglichen. Gefunden hatte sie kein menschlicher Forscher. Sie wurden von MDASH entdeckt, einem KI-System, das von Microsofts internem Team für Autonomous Code Security (ACS) entwickelt wurde.

Die Ankündigung wurde im offiziellen Microsoft Security Blog veröffentlicht, unterzeichnet von Taesoo Kim, Vice President of Agentic Security – demselben Forscher, der das Team Atlanta leitete. Diese Gruppe gewann 2024 die DARPA AI Cyber Challenge und sicherte sich 29,5 Millionen Dollar mit der Entwicklung eines autonomen Systems, das in der Lage ist, reale Fehler in komplexen Open-Source-Projekten zu finden und zu beheben. Dieser Wettbewerb war eine Art Grand Prix der autonomen Sicherheit: Die Teams entwickelten Systeme, die ohne menschliche Aufsicht auf zuvor unbekanntem Code gegeneinander antraten. Team Atlanta gewann. Danach kaufte Microsoft das Team.

Die vier kritischen Schwachstellen verdienen besondere Aufmerksamkeit, da sie genau jene Art von Problemen illustrieren, gegen die herkömmliche Werkzeuge machtlos sind. CVE-2026-33827 liegt in der tcpip.sys und betrifft die fehlerhafte Verwaltung des Lebenszyklus eines Path-Objekts während der Verarbeitung von IPv4-Paketen mit der Option „Strict Source and Record Route“. Der Code gibt eine Referenz auf das Objekt frei und verwendet sie anschließend erneut: In einem Mehrprozessorsystem kann zwischen diesen beiden Momenten ein anderer Thread den Speicher bereits freigegeben haben. Das Ergebnis ist eine Race Condition, die ein entfernter Angreifer durch das Senden speziell präparierter IPv4-Pakete ohne jegliche Authentifizierung ausnutzen kann. CVE-2026-33824 hingegen befindet sich in der ikeext.dll, der Komponente für das IKEv2-Protokoll bei VPN-Verbindungen: Eine doppelte Speicherfreigabe (Double Free), die durch nur zwei UDP-Pakete ausgelöst wird – ganz ohne zeitliche Wettlaufbedingung, mit Ausführung im LocalSystem-Kontext, der höchsten Privilegienstufe des Betriebssystems. Auf jedem Rechner, der als IKEv2-Responder konfiguriert ist – wie Unternehmens-VPN-Infrastrukturen, DirectAccess oder Always-On VPN –, genügen diese zwei Pakete.

Die anderen zwölf Schwachstellen betreffen dnsapi.dll, netlogon.dll, http.sys und telnet.exe: Denial of Service, Privilegieneskalation, Offenlegung von Informationen. Der Perimeter ist der Netzwerk-Stack von Windows. Die Frage, die man sich stellen sollte, lautet nicht nur: „Wie wurden sie gefunden?“, sondern: „Warum wurden sie nicht schon früher entdeckt?“

Das Orchester statt des Solisten

MDASH ist ein Akronym, das Microsoft sorgfältig konstruiert hat: Multi-moDel Agentic Scanning Harness. Der „Harness“ bezeichnet im Englischen das Gurtzeug oder die Halterung, die Teile eines komplexen Systems zusammenhält. In der Automobilindustrie steht der Begriff für den Kabelbaum, der Strom und Signale durch das gesamte Fahrzeug leitet. Die Wahl ist nicht zufällig: Microsoft möchte vermitteln, dass der Wert nicht in einer einzelnen Komponente liegt, sondern in der Architektur, die sie verbindet.

Im offiziellen Blog heißt es explizit: "Das Modell ist ein Input, das System ist das Produkt." MDASH ist kein einzelnes KI-Modell. Es ist ein System, das über hundert spezialisierte Agenten koordiniert, die auf einer Reihe verschiedener Modelle verteilt sind – einige groß für anspruchsvolles logisches Denken, einige destilliert für Durchläufe mit hohem Volumen, und ein zweites Frontier-Modell als unabhängige Gegenprobe.

Der Arbeitsablauf gliedert sich in fünf Phasen. In der Phase „Prepare“ liest das System den Quellcode ein, erstellt semantische Indizes und bildet die Angriffsfläche durch die Analyse der Commit-Historie ab. In der Phase „Scan“ durchlaufen als „Auditoren“ spezialisierte Agenten potenzielle Codepfade, formulieren Hypothesen und sammeln Beweise. In der Phase „Validate“ argumentiert eine zweite Gruppe von Agenten, die „Debatter“, gegen jedes Ergebnis: Sie versuchen, es zu entkräften, zu beweisen, dass der Pfad nicht erreichbar ist oder dass die notwendigen Bedingungen nicht gleichzeitig auftreten können. Die Phase „Dedup“ bereinigt semantische Duplikate. In der Phase „Prove“ schließlich werden reale Trigger-Inputs erstellt und ausgeführt: Wenn das System behauptet, dass ein Fehler existiert, muss es dies auch beweisen, indem es den Input generiert, der ihn in einer kontrollierten Umgebung manifestiert.

Der architektonisch interessanteste Aspekt ist der Mechanismus der Uneinigkeit. Wenn ein Auditor-Agent etwas als verdächtig meldet und der Debatter es nicht widerlegen kann, steigt die Glaubwürdigkeit des Ergebnisses. Der Kontrast zwischen den Modellen wird zum diagnostischen Signal: Wenn ein Frontier-System und ein destilliertes Modell nach einem Debattenzyklus bei einer Schwachstelle übereinstimmen, sinkt die Wahrscheinlichkeit eines falsch-positiven Ergebnisses drastisch. Dies ist ein Mechanismus, der eher an eine wissenschaftliche Peer-Review erinnert als an klassische statische Scanner, und es ist genau jene Art von Architektur, die kein einzelnes Modell, so hochentwickelt es auch sein mag, allein replizieren kann.

Das System umfasst zudem einen Plugin-Mechanismus, der es spezialisierten Teams ermöglicht, Kontext einzuspielen, den die Basismodelle nicht autonom ableiten können: Aufrufkonventionen des Windows-Kernels, Lock-Invarianten oder IPC-Trust-Grenzen. Das spezifische Plugin für CLFS (Common Log File System) weiß beispielsweise, wie man eine Trigger-Logdatei für ein potenzielles Ergebnis erstellt: Es kennt das Layout des Containers auf der Festplatte, die Sequenz der Blockvalidierung und die Zustandsmaschine im Speicher. Dieser modulare Ansatz hat es MDASH ermöglicht, eine Recall-Quote von 96 % bei historischen MSRC-Fällen in der clfs.sys und 100 % in der tcpip.sys über fünf Jahre bestätigter Schwachstellen hinweg zu erreichen.

Im Fall von CVE-2026-33827 war der Fehler für eine lokale Analyse unsichtbar: Die Verletzung des Lebenszyklus des Path-Objekts ist nicht in einer einzelnen Funktion enthalten, sondern über einen komplexen Kontrollfluss mit alternativen Zweigen und vorzeitigen Abbruchbedingungen verteilt. Kein herkömmliches Werkzeug erkennt die Verbindung zwischen der Freigabe der Referenz und der anschließenden Wiederverwendung des Zeigers. Bei CVE-2026-33824 war die Situation noch komplexer: Das Bug-Aliasing, das zur doppelten Speicherfreigabe führt, erstreckt sich über sechs verschiedene Quelldateien. Der stärkste Beweis für seine Existenz ist ein identisches Muster, das in einer der sechs Dateien korrekt implementiert ist – die Abweichung vom korrekten Fall ist nur für jemanden sichtbar, der beide Implementierungen kennt. MDASH fand dies, weil seine Auditor-Agenten darauf ausgelegt sind, genau nach solchen vergleichenden Inkonsistenzen zwischen verschiedenen Dateien zu suchen.

Die Zahlen: Was der Benchmark sagt und wer sie gezählt hat

Die quantitative Stärke der Microsoft-Ankündigung ist die Punktzahl im CyberGym-Benchmark: 88,45 % – Platz eins in der öffentlichen Rangliste zum Zeitpunkt der Veröffentlichung, etwa fünf Punkte vor dem Zweitplatzierten. Der von der UC Berkeley entwickelte Benchmark umfasst 1.507 reale Aufgaben aus 188 OSS-Fuzz-Projekten, bei denen autonom Exploits für dokumentierte Schwachstellen ausgeführt werden müssen. Es ist kein synthetischer Test: Die Aufgaben stammen von realen Schwachstellen in realen Open-Source-Projekten, und die Metrik misst, wie viele Exploit-Reproduktionen das System autonom bewältigen kann.

Der Zweitplatzierte zum Zeitpunkt der Ankündigung war Mythos von Anthropic mit 83,1 %. Der dritte Platz ging an GPT-5.5 von OpenAI mit etwa 81,8 %.

Hier ist eine Unterscheidung notwendig, die Microsoft in der Ankündigung nicht explizit macht, die aber methodisch relevant ist. CyberGym ist ein öffentlicher und unabhängiger Benchmark: Jeder kann seine Ergebnisse einreichen, die Methodik ist überprüfbar und der Vergleich mit anderen Systemen ist tendenziell fair – zumindest so weit, wie Benchmarks dieser Art es sein können. Die Zahlen im CyberGym-Leaderboard genießen daher eine Glaubwürdigkeit, die andere Daten in der Ankündigung nicht beanspruchen können.

Die internen Tests hingegen sind alle Eigenproduktionen. Der Test auf StorageDrive – einem privaten Treiber mit 21 eingeschleusten Schwachstellen – wurde nicht von Dritten validiert. Die Recall-Werte von 96 % bei clfs.sys und 100 % bei tcpip.sys basieren auf Microsoft-internen MSRC-Fällen in proprietärem Code, den kein externer Prüfer unabhängig untersuchen kann. Die sechzehn Schwachstellen des Patch Tuesday sind real und korrekt, was die denkbar konkreteste Validierung darstellt (die Fehler existierten wirklich), aber es beantwortet nicht die Frage, wie viele ähnliche Fehler das System übersehen hat oder wie viele falsch-positive Ergebnisse in jenen Analysezyklen produziert wurden, die es nicht in die Pressemitteilung geschafft haben.

Microsoft selbst gibt sich bei einigen Grenzen ehrlich: Die Analyse der Fehler im verbleibenden 12 %-Bereich von CyberGym zeigt, dass 82 % der Fehler auf Aufgaben mit vagen Beschreibungen ohne Funktions- oder Datei-Identifikatoren zurückzuführen sind. Zudem scheitern einige Fälle an Formatkonflikten zwischen systemgenerierten Inputs und den erwarteten Fuzzing-Harnesses. Es ist kein unfehlbares System. Doch das Gesamtbild der Ankündigung ist mit jener Selektivität gezeichnet, die für jede Unternehmenskommunikation typisch ist: Man zeigt die besten Zahlen und kontextualisiert die Grenzen, ohne sie hervorzuheben.

Der CyberGym-Benchmark ist die entscheidende Zahl. Die anderen sollten mit dem Wissen gelesen werden, von wem sie stammen. Bildquelle: microsoft.com

Mythos gegen MDASH: Zwei Philosophien im Vergleich

Wer unseren Artikel über Project Glasswing und Claude Mythos gelesen hat, erkennt sofort die narrative Polarität: Anthropic auf der einen Seite mit einem einzelnen, extrem leistungsstarken Modell mit bewusst eingeschränktem Zugang; Microsoft auf der anderen Seite mit einem Agentensystem, das allgemein am Markt verfügbare Modelle orchestriert.

Der Unterschied ist nicht nur technischer Natur. Er ist philosophisch, fast schon politisch.

Mythos ist das, was man in der Informatik ein Closed-World-System nennen würde: ein Frontier-Modell, das noch nicht für die allgemeine Öffentlichkeit freigegeben wurde und nur für ausgewählte Partner im Rahmen des Project Glasswing zugänglich ist. Anthropic kündigte das Modell im April 2026 an und erklärte explizit, keine unmittelbare allgemeine Verteilung zu planen, mit dem Hinweis auf die Notwendigkeit, erst robustere technische Garantien zu entwickeln. Das Modell fand 27 Jahre alte Schwachstellen in OpenBSD und entdeckte Fehler in FFmpeg, die 5 Millionen automatische Testläufe nie abgefangen hatten. Es erreichte 83,1 % bei CyberGym nicht als komplexes agentisches System, sondern als intrinsische Fähigkeit eines einzelnen Modells.

MDASH ist das Gegenteil: Microsoft erklärt ausdrücklich, dass die Ergebnisse mit allgemein verfügbaren Modellen erzielt wurden – kein geheimes proprietäres Modell im Harness. Der Wert liegt in der Architektur, die sie koordiniert, nicht in den Gewichten eines spezifischen Modells. Diese Wahl hat eine relevante architektonische Konsequenz: Wenn ein neues, besseres Modell auf den Markt kommt, integriert MDASH es einfach durch eine Konfigurationsänderung. Die Investition in Plugins, Validierungsprozesse und Agenten-Spezialisierungen überdauert Modellwechsel.

Aus Sicht der Sicherheitsexperten ist die praktische Frage für beide Systeme unterschiedlich. Mythos ist heute nur für den engen Kreis der Glasswing-Partner zugänglich – große Namen wie AWS, Google, Apple oder Cisco – mit einem Preis von 25 Dollar pro Million Eingabe-Token, sobald es verfügbar ist. Tarife, die die meisten mittelständischen Organisationen ausschließen. MDASH befindet sich in der Private Preview, mit der Möglichkeit, sich über ein öffentliches Formular anzumelden, und Microsoft signalisiert, es einem wachsenden Kundenkreis zugänglich machen zu wollen.

Keines von beiden ist heute demokratisch zugänglich. Aber die Wege sind unterschiedlich: Mythos ist um die Außergewöhnlichkeit eines einzelnen, nicht replizierbaren Artefakts herum gebaut, MDASH um eine Architektur, die prinzipiell unabhängig von jedem spezifischen Modell ist.

Es gibt auch eine subtilere Frage zum Vergleich der Benchmarks. Mythos erreicht 83,1 % bei CyberGym als relativ direktes System ohne aufwendige agentische Architektur zur Unterstützung. MDASH erreicht 88,45 % mit eben dieser Architektur, die öffentlich verfügbare Modelle koordiniert. Das bedeutet, dass der Fünf-Punkte-Abstand schrumpfen oder sich umkehren könnte, wenn Anthropic dieselbe Art von agentischem Scaffolding auf Mythos anwenden würde wie MDASH – oder wenn Microsoft Mythos als Komponente in den Harness integrieren würde. Benchmarks vergleichen spezifische Konfigurationen, keine absoluten Fähigkeiten.

Das Wettrüsten: Verteidigung und Angriff sind dasselbe

Es gibt einen Punkt, den sowohl Microsoft als auch Anthropic in ihren Ankündigungen vorsichtig berühren und den man ohne Euphemismen ansprechen sollte: Jedes System, das in der Lage ist, Schwachstellen autonom zu finden, ist aus technischer Sicht nicht von einem System zu unterscheiden, das in der Lage ist, sie auszunutzen.

Der Microsoft-Blog beschreibt präzise, wie CVE-2026-33824 eine doppelte Speicherfreigabe eines Chunks fester Größe erzeugt – „eine gut verstandene Korruptionsprimitive in der modernen Speicherverwaltung von Windows“ –, um dann dort innezuhalten, ohne weitere Details zur Ausnutzung zu veröffentlichen. Das ist genau die Linie der verantwortungsvollen Offenlegung: genug Details, um davon zu überzeugen, dass der Fehler real und schwerwiegend ist, genug Zurückhaltung, um nicht jedem Blog-Leser einen funktionierenden Exploit in die Hand zu drücken.

Aber das System, das den Fehler gefunden hat, kennt die Details, die der Blog verschweigt. Und die Frage, auf die es noch keine zufriedenstellende öffentliche Antwort gibt, lautet: Wer kontrolliert den Zugang zu diesem Wissen, unter welcher Aufsicht und mit welchen Konsequenzen, wenn dieser Zugang kompromittiert oder missbraucht wird?

Die Logik der proaktiven Verteidigung ist schlüssig: Die Verteidiger müssen die Schwachstellen vor den Angreifern finden. Aber jeder Sprung in der Verteidigungsfähigkeit senkt auch die Einstiegshürde für den Angriff. Ein System wie MDASH in den Händen eines böswilligen Akteurs mit Zugang zu den richtigen Modellen und der im öffentlichen Microsoft-Blog beschriebenen Architektur wäre ein extrem effektives Werkzeug für die offensive Aufklärung. Das ist keine ferne Hypothese: Es ist die strukturelle Logik jeder Dual-Use-Technologie.

Microsoft hält MDASH vorerst in der Private Preview mit manueller Auswahl der Teilnehmer, und Taesoo Kim erklärte, dass Gespräche mit US-Regierungsvertretern laufen. Dies ist keine ausreichende Garantie für jemanden, der in Zeiträumen von Jahrzehnten denkt: Modelle verbreiten sich, Techniken werden repliziert, die Grenzen zwischen Insidern und Outsidern sind definitionsgemäß porös. Dies ist keine spezifische Kritik an Microsoft, sondern der strukturelle Kontext, in dem jedes Vorhaben dieser Art agiert – und es ist eine Diskussion, welche die Branche immer wieder aufschiebt.

Der Vergleich, der einem in den Sinn kommt, ist nicht gerade beruhigend: Er ähnelt der Dynamik im Manga Pluto von Naoki Urasawa, in dem die mächtigsten Roboter der Geschichte gebaut werden, um Frieden zu bringen – und genau diese Fähigkeit sie zu den gefährlichsten Waffen macht, die je geschaffen wurden. Technologie hat keine Absichten. Die sie umgebenden Governance-Architekturen haben sie. Bildquelle: microsoft.com

Fazit: Nicht welches Modell, sondern welches System

Der Punkt, den MDASH am deutlichsten demonstriert, betrifft weder Microsoft noch Anthropic, noch den Vergleich ihrer jeweiligen CyberGym-Punktzahlen. Er betrifft einen Paradigmenwechsel, der erwartet wurde, für den es nun aber konkrete Daten gibt: KI für Sicherheit hat die Schwelle vom Experiment zur Produktion überschritten.

Sechzehn reale, behebbare Schwachstellen, behoben in einem realen Patch Tuesday. Vier davon hätten es einem nicht authentifizierten entfernten Angreifer ermöglicht, beliebigen Code auf Windows-Systemen auszuführen. Sie befanden sich nicht in irgendeinem Nischen-Code: Sie waren im Netzwerk-Stack, der jede Netzwerkverbindung auf jedem heute aktiven Windows-System steuert. Und niemand hatte sie mit herkömmlichen Werkzeugen gefunden.

Die architektonische Lektion, dass das System mehr wert ist als das Modell, dass die Portabilität zwischen Modellgenerationen die beständigste Eigenschaft ist und dass die Validierung selbst eine separate Pipeline darstellt, ist wahrscheinlich das wichtigste Ergebnis der Ankündigung – wichtiger noch als die Benchmark-Zahlen. Es ist eine Lektion, die für jeden gilt, der KI-basierte Sicherheitswerkzeuge entwickelt, unabhängig davon, welche Modelle er heute einsetzt.

Es bleibt die Frage der Daten: Microsofts interne Zahlen zu StorageDrive und den MSRC-Fällen sind Unternehmensbehauptungen, keine unabhängigen Audits. Der CyberGym-Benchmark ist das Feld, auf dem der Vergleich überprüfbar ist. Und auf diesem Feld belegt MDASH zum Zeitpunkt der Veröffentlichung den ersten Platz.

Wie lange das so bleibt, hängt davon ab, was Anthropic mit Mythos in einem agentischen System tun wird. Und vor allem davon, was als Nächstes kommt.

Microsoft hat die Anmeldung zur Private Preview von MDASH eröffnet.