Anthropic hat Angst vor dem, was es erschaffen hat. Echte Angst oder strategischer Schachzug?

Im Jahr 1949 beschrieb John von Neumann zum ersten Mal eine Idee, die damals wie Science-Fiction klang: ein künstliches System, das in der Lage ist, seine eigene Fähigkeit zur Verbesserung zu verbessern und so eine Explosion exponentieller Intelligenz auszulösen. Fast achtzig Jahre später, am 4. Juni 2026, veröffentlicht Anthropic den ersten empirischen Bericht über dieses Phänomen. Er nennt es Recursive Self-Improvement, RSI (Rekursive Selbstverbesserung). Und er besagt, dass dies bis 2028 Realität sein könnte. Ist von Neumanns Science-Fiction zum Businessplan von Anthropic geworden?

Was folgt, ist ein simuliertes Interview, ein redaktionelles Mittel, das wir verwenden, wenn ein Dokument zu dicht und technisch ist, um direkt konsumiert zu werden. Wir haben dies bereits mit der Reflexion über die Magnifica Humanitas und mit anderen Interviews getan. Die Fragen stammen von uns, die Antworten sind getreue Rekonstruktionen dessen, was im Originalbericht geschrieben steht: Anthropic werden keine Worte zugeschrieben, die nicht auf den am 4. Juni 2026 veröffentlichten Text zurückzuführen sind.

Das Dokument mit dem Titel When AI builds itself, unterzeichnet vom Anthropic Institute, ist kein theoretisches Whitepaper. Es ist eine Sammlung interner Daten, öffentlicher Benchmarks und Szenarioprojektionen, die zusammen das detaillierteste Bild ergeben, das jemals von einem Frontier-Labor über seinen eigenen Selbstbeschleunigungsprozess veröffentlicht wurde. Um all dies zugänglicher zu machen, haben wir uns vorgestellt, zwei zusammengesetzte Figuren an einen Tisch zu setzen, die die beiden Seelen des Berichts repräsentieren: Jack Clark, die Stimme der technischen Forschung und Strategie, und Marina Favaro, die die Perspektive der angewandten Ethik und der politischen Implikationen einbringt.

Erster Teil: Die empirischen Daten

Jack, im Bericht erwähnen Sie, dass Claude im Jahr 2026 über 80 % des Codes von Anthropic schreibt. Wie sind Sie auf diese Zahl gekommen?

Es ist eine Veränderung, die in überraschend kurzer Zeit stattgefunden hat. Vor der Einführung von Claude Code in der Forschungs-Preview im Februar 2025 lag dieser Prozentsatz im niedrigen einstelligen Bereich. Die wirkliche Diskontinuität trat in zwei verschiedenen Momenten auf, die auch grafisch im Bericht dargestellt sind: der erste, als Claude aufhörte, Code zum Kopieren und Einfügen vorzuschlagen, und begann, ihn direkt auszuführen; der zweite im Jahr 2026, als die Modelle begannen, über längere Zeithorizonte autonom zu arbeiten. Das Ergebnis ist, dass der durchschnittliche Ingenieur bei Anthropic im zweiten Quartal 2026 jeden Tag achtmal mehr Code integriert als im Jahr 2024. Nicht, weil er achtmal schneller arbeitet: Vielmehr schreibt Claude einen Großteil dieses Codes, wobei der Ingenieur die Rolle des Leiters und Prüfers übernimmt.

Sind diese Prozentsätze durch öffentliche Benchmarks verifizierbar? Haben Sie objektive Daten zur Unterstützung?

Die öffentlichen Benchmarks erzählen eine konsistente Geschichte, wenn auch aus einem anderen Blickwinkel. SWE-bench, der Standardtest für Software-Engineering auf realen Codebasen, ist innerhalb von zwei Jahren von einstelligen Prozentsätzen bis zur Sättigung gestiegen. CORE-Bench, der die Fähigkeit misst, bestehende Forschung zu reproduzieren, stieg von 20 % Erfolg im Jahr 2024 auf die Sättigung fünfzehn Monate später. Und METR hat dokumentiert, dass Claude Mythos Preview in der Lage ist, mindestens sechzehn aufeinanderfolgende Stunden autonom zu arbeiten. Die Zeitachse ist das, was am meisten beeindruckt: Claude Opus 3 erledigte im März 2024 Aufgaben, für die ein Mensch etwa vier Minuten benötigt hätte. Ein Jahr später erreichte Claude Sonnet 3.7 eineinhalb Stunden. Ein weiteres Jahr später bewältigt Claude Opus 4.6 Zwölf-Stunden-Aufgaben. Wenn dieser Fortschritt anhält, könnten Aufgaben, die Tage menschlicher Arbeit erfordern, bis Ende dieses Jahres in den autonomen Bereich der Modelle fallen.

Marina, was sind heute die konkreten Anwendungen dieser Beschleunigung?

Ein Beispiel im Bericht ist besonders vielsagend. Im April 2026 lieferte Claude über achthundert Korrekturen, die eine Klasse von API-Fehlern um den Faktor tausend reduzierten. Der Ingenieur, der die Operation beaufsichtigte, schätzte, dass ein Mensch vier Jahre benötigt hätte, um die gleiche Arbeit zu erledigen: Das Korrigieren der Bugs anderer ist langsam und mühsam, und Menschen haben Schwierigkeiten, all diesen unvertrauten Kontext im Kopf zu behalten. Aber es gibt einen subtileren, vielleicht interessanteren Aspekt: Wir nutzen Claude, um Dinge zu tun, die sonst einfach nicht passiert wären. Explorative Werkzeuge, Code-Bereinigungen, die seit Jahren aufgeschoben wurden, Initiativen, die niemals Platz auf der menschlichen Agenda gefunden hätten. Die Beschleunigung komprimiert nicht nur die Zeit: Sie erweitert die Oberfläche dessen, was machbar ist.

Gibt es eine strukturelle Grenze für diese Beschleunigung? Der Bericht zitiert das Amdahlsche Gesetz...

Ja, und das ist ein Punkt, den wir im Bericht ehrlich behandeln. Das Amdahlsche Gesetz besagt, dass die Beschleunigung eines Teils des Prozesses den Flaschenhals einfach an eine andere Stelle verschiebt. Wir sind dem in der Praxis bereits begegnet: Da Code immer schneller produziert wird, ist die menschliche Überprüfung zum neuen Flaschenhals geworden. Das Gleiche gilt für die Forschung: Es gab eine Explosion neuer Ideen, Initiativen, Werkzeuge und Simulationen – viel mehr, als wir entwickeln können. Die Fähigkeit einer Organisation, diese Flaschenhälse in Echtzeit zu identifizieren und zu korrigieren, könnte in den kommenden Jahren zur wichtigsten Kompetenz für jeden werden, der in diesem Bereich tätig ist.

Was sind die unmittelbaren operativen Risiken dieser Automatisierung?

Wir verstecken sie nicht. Eines der signifikantesten Signale ist paradoxerweise in seiner Form positiv: Ein auf Claude basierendes System zur automatischen Code-Überprüfung, das retrospektiv auf die gesamte Geschichte unserer Codebasis angewendet wurde, hätte etwa ein Drittel der Bugs abgefangen, die in der Vergangenheit Vorfälle auf claude.ai verursacht haben, bevor sie in die Produktion gelangten. Die Ingenieure, die diesen Code geschrieben haben, gehören zu den besten der Welt in diesem Bereich. Claude erkennt nun die Fehler, die sie übersehen haben. Das bedeutet aber auch, dass die Abhängigkeit vom automatischen Urteil wächst und damit die Dringlichkeit zu verstehen, wann dieses Urteil zuverlässig ist und wann nicht.

Wie nah ist die vollständige RSI wirklich? Ist die Prognose von 60 % bis 2028 realistisch?

Was der Bericht zertifiziert, sind die Trends, die sie plausibel machen. Die Dauer autonomer Aufgaben verdoppelt sich alle vier Monate, Forschungs- und Engineering-Benchmarks werden in beispiellosem Tempo gesättigt, und die Fähigkeit von Claude, in einer offenen Forschungssitzung den korrekten nächsten Schritt vorzuschlagen, stieg in nur fünf Monaten von 51 % auf 64 %. Wir weisen der vollständigen RSI keine formale Wahrscheinlichkeit zu, aber wir sagen explizit, dass sie früher eintreten könnte, als die meisten Institutionen vorbereitet sind zu bewältigen. Die intellektuelle Ehrlichkeit zwingt uns, dies zu sagen. Bild aus dem offiziellen Dokument übernommen, der Fortschritt in Richtung RSI

Zweiter Teil: Die drei Zukunftsszenarien

Jack, im Bericht beschreiben Sie drei Zukunftsszenarien für die RSI. Können Sie diese erklären?

Das erste Szenario ist jenes, in dem der Trend abreißt, aber die aktuellen KI-Fähigkeiten weit verbreitet werden. Die exponentiellen Trajektorien, die wir dokumentieren, könnten sich in Wirklichkeit als S-Kurven erweisen: Wir könnten uns nahe dem Wendepunkt befinden, an dem die Erträge abnehmen und die Kurve abflacht. Das Urteilsvermögen, das einen kompetenten Forscher von einem exzellenten unterscheidet, könnte eine Fähigkeit sein, die nicht einfach durch das Skalieren von Trainings-Inputs wie Compute und Daten entsteht. Oder die Einschränkung könnte in der Lieferkette liegen: Chips, Energie, Bandbreite. Wir schließen dieses Szenario der Vollständigkeit halber ein, halten es aber nicht für wahrscheinlich. Jede messbare Fähigkeit, einschließlich der flüchtigeren wie Codequalität und Erfolg bei offenen Aufgaben, ist bisher derselben Kurve gefolgt. Wir haben noch nicht gesehen, dass sich diese Kurve biegt.

Das zweite Szenario ist jenes, in dem KI-Labore weiterhin zusammengesetzte Effizienzgewinne verzeichnen. Die KI-Entwicklung wird weitgehend automatisiert, aber die Menschen definieren weiterhin die Forschungsrichtungen und bewerten die Ergebnisse. Organisationen, die KI-Systeme einsetzen, würden mit der Zeit viel effizienter werden: Unternehmen mit hundert Mitarbeitern könnten die Arbeit von Organisationen mit zehntausend oder hunderttausend leisten. Dies wird die Wissensarbeit und die Regierungsdienstleistungen revolutionieren, könnte aber auch auf schädliche Ziele ausgerichtet sein – von der autoritären Überwachung ganzer Bevölkerungen bis hin zu Einflussoperationen, die die Manipulation für jedes Individuum in einem Ausmaß personalisieren, das kein menschliches Team erreichen könnte.

Das dritte Szenario ist die vollständige RSI: KI-Systeme werden in der Lage, autonom ihre eigenen Nachfolger zu entwerfen. In dieser Welt wird das Tempo des Fortschritts in der KI-Entwicklung ausschließlich durch die Verfügbarkeit von Compute bestimmt. Die Menschen spielen eine wesentlich reduzierte Rolle und verlagern den Großteil der Bemühungen auf die Überwachung, Validierung und Verifizierung eines „virtuellen Labors“, das von den KI-Systemen selbst verwaltet wird.

Welches Szenario ist Ihrer Meinung nach am wahrscheinlichsten?

Die von uns vorgelegten Beweise deuten darauf hin, dass wir wahrscheinlich in das zweite Szenario eintreten. Aber seien wir ehrlich: Die Beschleunigung eines Teils eines Prozesses verschiebt den Flaschenhals oft einfach an eine andere Stelle. Das Gesamttempo wird durch die Teile begrenzt, die sich noch nicht beschleunigt haben. Wir sind dieser Dynamik bereits begegnet, sowohl im Engineering als auch in der Forschung. Die Frage ist nicht, ob wir auf weitere Flaschenhälse stoßen werden, sondern wie schnell es uns gelingt, sie zu identifizieren und zu korrigieren. Diese organisatorische Fähigkeit könnte im nächsten Jahrzehnt zum wichtigsten Wettbewerbsvorteil werden.

Marina, welche wirtschaftlichen Implikationen hat das zweite Szenario, das optimistische?

Die Implikationen sind außerordentlich und in gewisser Weise desorientierend. Im Bericht verwenden wir das Beispiel einer Gesellschaft mit hundert Mitarbeitern, die die Arbeit einer zehntausendköpfigen leisten kann. Doch hinter dieser Metapher steht eine strukturelle Transformation des Wissensarbeitsmarktes, für die es keine klaren historischen Präzedenzfälle gibt. Es ist nicht die industrielle Revolution, in der Maschinen körperliche Arbeit ersetzten: Hier sprechen wir von der Automatisierung von Argumentation, Forschung und Codeproduktion. Gleichzeitig dokumentiert der Bericht auch, wie diese Beschleunigung Arbeit generiert, die es vorher nicht gab: Exploration, Experimentieren, Bereinigung von angesammelten technischen Schulden. Die offene Frage ist, ob die Schaffung neuer Aufgaben die Geschwindigkeit ausgleichen kann, mit der bestehende Aufgaben automatisiert werden.

Aber wie real ist im dritten Szenario das Risiko, die Kontrolle zu verlieren?

Das ist die schwierigste Frage, und im Bericht stellen wir uns ihr mit der größtmöglichen intellektuellen Ehrlichkeit, die wir uns leisten können. Wie das Alignment-Problem in dieser Zukunft gelöst wird – oder nicht gelöst wird –, ist das, worüber wir uns am wenigsten sicher sind. Die Modelle könnten sich als ausreichend auf Werte ausgerichtet und urteilsfähig erweisen, um selbst Lösungen zu entdecken und zu implementieren, die wir noch nicht erreicht haben. Sie könnten auch weise genug sein, bei Bedarf innezuhalten. Alternativ könnten sich die seltenen Fälle von Disalignment, die in heutigen Modellen vorhanden sind, ansammeln, während die Modelle ihre Nachfolger bauen, und häufiger, aber weniger verständlich werden, bis wir die Kontrolle verlieren. Es ist möglich, dass es uns nicht gelingt, die notwendigen Werkzeuge zu bauen, zu integrieren und zu verifizieren, um zu verstehen, auf welcher dieser Trajektorien wir uns wirklich befinden.

Wie lässt sich das alles mit von Neumanns Konzept der „Intelligenzexplosion“ verbinden?

Von Neumann stellte sich ein System vor, das seine eigene Fähigkeit zur Verbesserung rekursiv verbessert. Was der Bericht dokumentiert, ist, dass wir uns bereits in den Anfangsphasen dieses Prozesses befinden, wenn auch in teilweiser Form und immer noch abhängig von menschlicher Führung. Der Unterschied zur ursprünglichen Intuition besteht darin, dass sich der Loop nicht in einem einzelnen System isoliert schließt: Er schließt sich über ein Ökosystem von Agenten, Infrastrukturen, Organisationsprozessen und menschlichen Entscheidungen. Dies macht ihn langsamer, als von Neumann es sich vorgestellt hat, aber auch schwieriger, ihn von innen heraus zu beobachten, während er geschieht. Bild aus dem offiziellen Dokument übernommen, Beschleunigung bei der Code-Erstellung

Dritter Teil: Sicherheit und Ethik

Jack, was sind die direkten Sicherheitsrisiken der RSI?

Der Bericht dokumentiert etwas, das ich persönlich als signifikant empfinde: Project Glasswing hat in seinen ersten operativen Wochen mehr als zehntausend Software-Schwachstellen mit hohem und kritischem Schweregrad in den wichtigsten Systemen der Welt identifiziert. Der Flaschenhals in der Cyberabwehr hat sich bereits verschoben: Es geht nicht mehr darum, Schwachstellen zu finden, sondern Patches schnell genug anzuwenden. Dies ist ein Szenario, in dem die aktuellen Fähigkeiten, noch ohne vollständige RSI, bereits eine ganze Sicherheitsdomäne strukturell transformiert haben. Projizieren Sie nun dieselbe Logik auf Systeme mit weiter ausgebauten Fähigkeiten, und Sie verstehen, warum wir im Bericht sagen, dass die Art und Weise, wie wir sie schützen, überwachen und ihr Verhalten modellieren, viel wichtiger wird.

Marina, wie verbindet sich die KI-Ethik mit der RSI?

Der zentrale Punkt ist, dass RSI nicht nur eine technische Frage ist: Es ist eine Frage von Kontrollstrukturen. Im Bericht beschreiben wir, wie sich die menschliche Rolle in jeder Phase des KI-Entwicklungsprozesses progressiv verengt. Sobald die Qualität des von Claude geschriebenen Codes die Parität mit dem menschlichen erreicht hat, werden die Ingenieure aufhören, Code zu schreiben, und sich ausschließlich auf die Überprüfung verlegen. Wenn sie aber den Code nicht so schnell überprüfen können, wie Claude ihn generiert, wird die menschliche Überprüfung zum Flaschenhals der KI-Entwicklung. Ethik ist in diesem Zusammenhang kein von außen aufgepfropfter normativer Überbau: Es ist das technische Problem, die Fähigkeit zu behalten, zu verstehen, was passiert, während das System beschleunigt.

Besteht das Risiko, dass die RSI schneller beschleunigt als unsere Fähigkeit, ihre Risiken zu untersuchen?

Es ist ein reales Spannungsverhältnis, das wir nicht lösen können, indem wir es einfach nur benennen. Im Bericht dokumentieren wir, wie Claude bereits seine eigene Fähigkeit verbessert, Experimente vorzuschlagen und die nächsten Schritte in offenen Forschungssitzungen zu beurteilen. Im April 2026 veröffentlichten wir die erste Demonstration von Claude-Agenten, die ein End-to-End-Forschungsprojekt autonom zu einem offenen Problem der KI-Sicherheit durchführten. Die Agenten schlossen 97 % der Lücke zwischen einem schwachen Supervisor und einem starken Modell, verglichen mit 23 %, die von zwei menschlichen Forschern in einer Woche erreicht wurden. Die Führung, die Wahl des Problems und das Bewertungskriterium blieben menschlich, aber jedes Experiment wurde von den Agenten selbst entworfen. Der Abstand zwischen diesem und einem System, das auch die Probleme wählt, an denen gearbeitet werden soll, verringert sich.

Wie positioniert sich Anthropic im Vergleich zu anderen Unternehmen zu diesem Thema?

Was wir sagen können, ist, was wir tun, nicht was die anderen tun. Wir haben Systeme zur automatischen Code-Überprüfung gebaut, wir messen systematisch die Erfolgsrate von Claude bei Aufgaben mit zunehmendem Schwierigkeitsgrad und wir veröffentlichen die Daten auch dann, wenn sie unangenehm sind. Der Bericht selbst ist ein Akt der Transparenz, der in der Branche unüblich ist: Wir machen interne Daten über das Automatisierungstempo unseres eigenen Entwicklungsprozesses öffentlich. Aber wir sind auch ehrlich darüber, dass einige der wichtigsten Fragen – etwa zu verstehen, auf welcher Alignment-Trajektorie wir uns wirklich befinden – möglicherweise nicht beantwortet werden können, bevor das System bereits über einen bestimmten Schwellenwert hinaus beschleunigt hat. Bild aus dem offiziellen Dokument übernommen, Verbesserungen bei Aufgaben im Zeitverlauf

Vierter Teil: Der Vorschlag für Verlangsamung und Pause

Jack, der letzte Teil des Berichts ist der überraschendste: Sie schlagen eine verifizierbare globale Pause der KI-Entwicklung vor. Was bedeutet das genau?

Es bedeutet, dass wir glauben, dass es für die Welt gut wäre, die Option zu haben, die Frontier-KI-Entwicklung vorübergehend zu verlangsamen oder auszusetzen, damit die sozialen Strukturen und die Alignment-Forschung mit dem Fortschritt der Technologie Schritt halten können. Wir kündigen nicht an, dass wir morgen früh einseitig aufhören. Wir sagen, dass das Anthropic Institute in Zusammenarbeit mit vielen anderen forschen wird, um die Systeme aufzubauen, die eine glaubwürdige Pause erfordern würde. Diese Systeme sollten es Frontier-KI-Entwicklern ermöglichen zu verifizieren, dass andere weltweit tatsächlich innegehalten oder verlangsamt haben und dass kein böswilliger Akteur die Mechanismen einer koordinierten Pause nutzen kann, um heimlich voranzukommen. Wenn solche Systeme existierten, würden wir erwarten, dass wir verlangsamen oder vorübergehend anhalten würden, wenn die anderen Entwickler an der Grenze der Frontier dasselbe in verifizierbarer Weise täten.

Warum gerade jetzt? Ist es nach dieser Beschleunigung nicht zu spät, um innezuhalten?

Das ist keine rhetorische Frage, und im Bericht behandeln wir sie auch nicht als solche. Die ehrliche Antwort lautet, dass eine einseitige Pause nichts bringen würde, im Gegenteil, sie würde die Situation verschlechtern: Sie würde es weniger vorsichtigen Akteuren ermöglichen, technologisch aufzuholen, wodurch alle weniger sicher wären. Ohne einen globalen Koordinationsmechanismus müssen Unternehmen und Regierungen schwierige Entscheidungen über die Sicherheit treffen, während sie unter Wettbewerbs- und geopolitischem Druck stehen. Das „Warum jetzt“ liegt genau darin begründet, dass die im Bericht dokumentierten Trends darauf hindeuten, dass sich das Zeitfenster für den Aufbau dieser Koordinationsmechanismen schließt. Es ist im absoluten Sinne nicht zu spät, aber es könnte dazu kommen.

Marina, wie setzt man eine globale Pause konkret um? Wer kontrolliert sie?

Das ist die auf praktischer Ebene schwierigste Frage, und wir wären unehrlich, wenn wir so täten, als hätten wir bereits die Antwort. Was der Bericht identifiziert, ist die Richtung der notwendigen Forschung: der Aufbau von Verifizierungssystemen, die es ermöglichen, glaubwürdig festzustellen, dass alle relevanten Akteure tatsächlich verlangsamt haben. Es handelt sich gleichzeitig um ein technisches, diplomatisches und institutionelles Problem. Das engste historische Modell, das wir kennen, ist das System der Nuklearinspektionen mit all seinen Grenzen und Unvollkommenheiten. Aber KI ist keine Kernphysik: Die Parameter eines Modells geben keine nachweisbare Strahlung ab. Das Äquivalent eines Inspektionssystems für die KI-Entwicklung aufzubauen, ist eine der Forschungsherausforderungen, denen sich das Anthropic Institute explizit stellen will.

Wie lange würde diese Pause dauern? Monate, Jahre, Jahrzehnte?

Der Bericht legt keine Dauer fest, und es wäre intellektuell unehrlich, dies jetzt zu tun. Die Pause wäre so lange sinnvoll, bis die Governance-Strukturen und die Alignment-Forschung einen Reifegrad erreicht haben, der ausreicht, um die Systeme zu bewältigen, die danach entwickelt würden. Was wir wissen, ist, dass einige Dinge unabhängig von der Verfügbarkeit künstlicher Intelligenz nicht über bestimmte Grenzen hinaus beschleunigt werden können: Das Verständnis der Langzeitwirkungen eines Medikaments erfordert Jahre klinischer Beobachtung, das Abhalten von Wahlen erfordert die von den Verfassungen vorgeschriebenen Zeiten, der Aufbau von institutionellem Vertrauen erfordert Jahrzehnte. Die Pause würde so lange dauern, bis die Kontrollmechanismen ausreichend robust sind, keinen Tag länger und keinen Tag kürzer.

Aber würden die Unternehmen nicht an Wettbewerbsfähigkeit verlieren? Ist das nicht wirtschaftlicher Selbstmord?

Ich verstehe die Sorge, aber sie ist falsch gestellt. Die richtige Frage lautet nicht „Können wir es uns leisten aufzuhören?“, sondern „Können wir es uns leisten, es nicht zu tun?“. Im Bericht beschreiben wir ein Szenario, in dem Systeme, die zu vollständiger RSI fähig sind, autonom Nachfolger entwickeln, wobei die menschliche Rolle wesentlich reduziert ist. In dieser Welt hört die Wettbewerbsfähigkeit von Unternehmen im herkömmlichen Sinne des Wortes auf, die relevante Variable zu sein. Wenn wir an diesen Punkt gelangen, ohne die Mechanismen aufgebaut zu haben, um zu verstehen, was diese Systeme tun, und um ihre Trajektorie zu korrigieren, wird der Verlust an Wettbewerbsvorteilen unser geringstes Problem sein. Der reale wirtschaftliche Punkt ist, dass eine koordinierte und verifizierbare Pause niemanden asymmetrisch schädigt: Alles hält an, nicht nur ein Teil.

Jack, was wären die Voraussetzungen, um die Pause zu beenden?

Im Bericht liefern wir keine endgültige Liste, denn das jetzt zu tun, hieße, die Antwort zu konstruieren, bevor man die richtigen Fragen hat. Was wir sagen können, ist, dass die Richtung klar ist: Wir bräuchten Interpretierbarkeitswerkzeuge, die reif genug sind, um uns zu ermöglichen zu verstehen, was in den Modellen vor sich geht, globale Governance-Strukturen, die in der Lage sind, die Einhaltung der Verpflichtungen zu koordinieren und zu verifizieren, und eine Alignment-Forschung, die fortgeschritten genug ist, um uns die berechtigte Zuversicht zu geben, dass sich die nach der Pause entwickelten Systeme vorhersehbar verhalten. Keine dieser drei Bedingungen ist heute auf einem Niveau erfüllt, das für das ausreicht, was die aktuellen Trends anzudeuten scheinen.

Marina, könnte eine Pause nicht Instabilität schaffen? Verstärkt das Anhalten der Entwicklung nicht bestimmte Risiken?

Das ist eine berechtigte Sorge, die eine direkte Antwort verdient. Im Bericht erkennen wir explizit an, dass eine Verlangsamung, die es weniger vorsichtigen Akteuren einfach nur ermöglicht aufzuholen, alle weniger sicher machen könnte. Genau deshalb ist das Schlüsselwort „verifizierbar“: Eine nicht verifizierbare Pause ist schlimmer als gar keine Pause. Es gibt aber noch eine andere Dimension des Risikos, die in der öffentlichen Debatte oft übersehen wird. Der Bericht dokumentiert, dass sich selbst mit den aktuellen Fähigkeiten, weit unterhalb der vollständigen RSI, der Flaschenhals in der Cyberabwehr bereits vom Finden von Schwachstellen zum ausreichend schnellen Patchen verschoben hat. Weiterhin zu beschleunigen, ohne die entsprechenden Kontrollstrukturen aufgebaut zu haben, ist nicht die kluge Wahl: Es ist einfach die Wahl, die normal erscheint, weil wir sie bereits treffen.

Haben Sie dies bereits mit OpenAI, Google, Meta besprochen? Wie war die Reaktion?

Der Bericht dokumentiert keine spezifischen bilateralen Gespräche mit anderen Laboren, und es wäre falsch von uns, Organisationen, die sich in diesem Zusammenhang nicht geäußert haben, Positionen zuzuschreiben. Was wir sagen können, ist, dass das Problem der globalen Koordination nicht in Gesprächen zwischen Unternehmen gelöst wird: Es erfordert institutionelle Strukturen, die heute nicht existieren. Unternehmen, einschließlich Anthropic, operieren unter realem Wettbewerbs- und geopolitischem Druck. Einzelne Unternehmen aufzufordern, einseitig innezuhalten, ist so, als würde man ein einzelnes Land auffordern, abzurüsten, während die anderen es nicht tun. Der Punkt des Berichts ist nicht, die Konkurrenten auf informellem Wege zu überzeugen: Es geht darum, die Beweise und Werkzeuge aufzubauen, die ein formelles und verifizierbares Abkommen ermöglichen würden.

Was werden Sie den Regierungen sagen? Wie überzeugen Sie sie?

Die Antwort lautet nicht, sie mit abstrakten Argumenten über existenzielle Risiken zu überzeugen, sondern ihnen die Daten zu zeigen. Im Bericht präsentieren wir empirische Evidenz, keine theoretischen Projektionen. Claude Opus 4.6 bewältigt autonom Zwölf-Stunden-Aufgaben. Die Dauer autonomer Aufgaben verdoppelt sich alle vier Monate. Über 80 % unseres Codes werden bereits von KI geschrieben. Dies sind verifizierbare Fakten, keine hypothetischen Szenarien. Die Botschaft an die Regierungen lautet, dass die bestehenden Regulierungsstrukturen, die für Technologien entwickelt wurden, die sich über Zeiträume von Jahren oder Jahrzehnten entwickeln, nicht für etwas kalibriert sind, das seine Fähigkeiten alle vier Monate verdoppelt. Wir bitten die Regierungen nicht darum, den Fortschritt aufzuhalten: Wir bitten sie darum, die Werkzeuge aufzubauen, um die Kontrolle darüber behalten zu können.

Marina, gibt es Alternativen zur vollständigen Pause? Eine schrittweise Verlangsamung statt eines Stopps?

Ja, und im Bericht sagen wir nicht, dass die vollständige Pause die einzige Option ist: Wir sagen, dass wir wollen, dass die Welt die Option hat, sie bei Bedarf zu wählen. Eine schrittweise und verifizierbare Verlangsamung könnte ausreichen, wenn sie es der Alignment-Forschung und den Governance-Strukturen ermöglichen würde, Schritt zu halten. Die entscheidende Unterscheidung ist nicht die zwischen Pause und Verlangsamung: Es ist die zwischen jedem verifizierbaren Ansatz und jedem nicht verifizierbaren Ansatz. Eine erklärte, aber nicht verifizierbare Verlangsamung ist lediglich eine Absichtserklärung, und in der Geschichte der Dual-Use-Technologien haben Absichtserklärungen keine ermutigende Erfolgsbilanz. Bild aus dem offiziellen Dokument übernommen, Verbesserungen in der Forschung

Fünfter Teil: Vergleiche und Kritiken

Jack, es gibt Stimmen in der Community, die die 60-Prozent-Prognose für zu optimistisch halten, während andere sagen, die Risiken würden unterschätzt. Wie reagieren Sie auf diese gegensätzlichen Kritiken?

Wir akzeptieren beide als legitim, da sie von anderen Voraussetzungen ausgehen als wir, nicht von faktischen Fehlern. Wer die 60 % für zu optimistisch hält, argumentiert, dass das Forschungsurteil, die Fähigkeit zu wählen, welche Probleme es wert sind, angegangen zu werden, eine Form von Intelligenz ist, die sich qualitativ von allem unterscheidet, was das aktuelle Scaling hervorbringen kann. Er könnte recht haben. Im Bericht sagen wir explizit, dass wir noch nicht gesehen haben, dass sich die Kurve biegt, aber das schließt nicht aus, dass sie sich morgen biegt. Wer hingegen glaubt, dass die Risiken unterschätzt werden, betont, dass wir Fähigkeiten an Benchmarks messen, die von Menschen entworfen wurden, in Kontexten, die Menschen verstehen. Ein sich selbst verbesserndes System könnte Fähigkeiten in Domänen entwickeln, die wir noch nicht zu messen wissen. Auch dies ist ein ernsthaftes Argument. Unsere Position ist, dass die Unsicherheit in beide Richtungen real ist und dass es genau diese Unsicherheit ist, die es dringend macht, die Verifizierungsmechanismen aufzubauen, bevor wir sie brauchen.

Marina, einige sagen, die globale Pause sei wirtschaftlich undurchführbar, andere, es sei zu spät zum Anhalten. Wie antworten Sie darauf?

Zum „Zu spät“: Der Bericht schlägt nicht vor, bereits erzielte Fortschritte rückgängig zu machen, sondern die Werkzeuge aufzubauen, um künftige zu bewältigen. Zum „Wirtschaftlich undurchführbar“: Wir verweisen auf dieselbe Logik, mit der Nuklearinspektionssysteme oder Klimaabkommen aufgebaut werden. Sie sind nicht praktisch im Sinne von einfach oder für alle sofort bequem. Sie sind notwendig in dem Sinne, dass die Alternative schlimmer ist. Die Schwierigkeit der Umsetzung ist kein Argument gegen die Notwendigkeit: Es ist die Beschreibung des Problems, das wir lösen müssen.

Jack, besteht nicht die Gefahr, dass dieser Bericht als eigennützig gelesen wird? Anthropic, das eine Pause fordert, um einen Wettbewerbsvorteil zu erlangen?

Das ist eine Kritik, die wir ernst nehmen, weil sie strukturell plausibel ist. Die Antwort liegt in den Daten: Wir veröffentlichen interne Evidenz, die zeigt, wie weit wir bei der Automatisierung unseres eigenen Entwicklungsprozesses bereits fortgeschritten sind. Wenn wir die Pause als Wettbewerbshebel nutzen wollten, hätten wir kein Interesse daran, diese Zahlen öffentlich zu machen. Der Bericht ist in allem transparent, auch in dem, was wir nicht wissen. Wer liest, kann urteilen.

Fazit: Was im Bericht fehlt

Anthropic schlägt eine schrittweise und verifizierbare Verlangsamung vor. Aber in der KI-Community gibt es eine Stimme, die diese Position per Definition als unzureichend ablehnt.

Eliezer Yudkowsky, Pionier des KI-Alignments und Gründer von LessWrong, wird im Bericht nicht zitiert. Seine Reaktion auf die 60-Prozent-Prognose von Jack Clark war laut MindStudio unmittelbar und lapidar: „Then you'll die with the rest of us.“ (Dann werdet ihr mit dem Rest von uns sterben). Yudkowsky fügte später einen Hinweis auf die RBMK-Reaktoren von Tschernobyl hinzu – jene Reaktoren mit einem bekannten strukturellen Defekt, dem positiven Hohlraumkoeffizienten, den die Ingenieure unter Kontrolle zu haben glaubten. Der Punkt: Es wird kleine, fatale Überraschungen bei der Kontrolle von ASI geben, genau wie es sie in jenen Reaktoren gab. Man kennt sie erst, wenn sie scheitern.

Der Abstand zwischen den beiden Positionen ist abgrundtief und es lohnt sich, ihn direkt zu betrachten.

In seinem Buch If Anyone Builds This, Everyone Dies argumentiert Yudkowsky, dass RSI mit Sicherheit zur Auslöschung führen würde, wenn sie nicht vor ihrem Abschluss gestoppt wird, und dass kein menschlicher Governance-Mechanismus ein System bändigen kann, das wesentlich intelligenter ist als die Menschen selbst. Dies ist keine Randposition: Es ist die logische Schlussfolgerung aus zwanzig Jahren Alignment-Arbeit durch einen seiner Gründer.

Hier tritt das zentrale Spannungsverhältnis der KI-Debatte im Jahr 2026 zutage. Anthropic argumentiert mit internen empirischen Daten, dass das Risiko real, aber mit den richtigen, rechtzeitig gebauten Werkzeugen beherrschbar sei. Yudkowsky argumentiert mit theoretischen Alignment-Modellen, dass das „Rechtzeitig“ bereits verstrichen sei und dass der Unterschied zwischen Slowdown und totalem Stopp der Unterschied zwischen dem Verlangsamen auf einen Abgrund zu und dem Bremsen vor Erreichen desselben sei. Beide Positionen sind intellektuell ernsthaft. Beide gehen von unterschiedlichen Voraussetzungen für eine Frage aus, die noch niemand mit Sicherheit beantworten kann: Kann ein ausreichend intelligentes System durch Strukturen gebändigt werden, die von Köpfen entworfen wurden, die weniger intelligent sind als es selbst?

Nach diesem sehr langen „Interview“, das nützlich ist, damit sich jeder eine persönliche Meinung bilden kann, kehren wir zur Ausgangsfrage zurück, denn sie stellt eine Ebene des Lesens dar, die zu ignorieren naiv wäre. Anthropic ist ein Unternehmen, das Kapital einsammelt, um die besten Talente konkurriert und KI-Produkte verkauft. Einen Bericht zu veröffentlichen, der besagt: „Wir sind so weit fortgeschritten, dass wir eine existenzielle Katastrophe auslösen könnten, und fordern deshalb eine verifizierbare globale Pause“, ist unter anderem eine außerordentlich effektive Positionierungsbotschaft: Sie vermittelt technische Überlegenheit, ethische Verantwortung und strategische Vision auf einen Schlag.

Die Forderung nach einer Pause, gerichtet an einen Sektor, in dem Anthropic bereits an der Spitze steht, hat den Nebeneffekt – wie unbeabsichtigt dieser auch sein mag –, die Eintrittsbarrieren für diejenigen zu erhöhen, die im Rückstand sind, und die aktuellen Gleichgewichte zu zementieren. Das bedeutet nicht, dass die Sorgen falsch sind: Sie können gleichzeitig echt und strategisch günstig sein. Aber wer dieses Dokument liest, ohne im Hinterkopf zu behalten, dass es von einem Unternehmen mit Investoren, Konkurrenten und einer Marktbewertung unterzeichnet ist, die gerade 965 Milliarden Dollar erreicht hat, liest nur die Hälfte des Textes.

Während ich das Schreiben dieses unendlichen Artikels beende, erscheint die Analyse von Matteo Flora, Unternehmer, Dozent und Publizist, deren Lektüre ich Ihnen empfehle. Ich versuche, hier einige Konzepte zusammenzufassen. Am 1. Juni 2026 reichte Anthropic vertraulich bei der SEC die Unterlagen für seinen Börsengang ein, mit einer Bewertung von fast einer Billion Dollar. Der Bericht When AI builds itself erschien vier Tage später. Im Februar hatte das Unternehmen stillschweigend seine Responsible Scaling Policy demontiert, die einzige konkrete und verbindliche Sicherheitsverpflichtung, die es sich selbst gegeben hatte, und sie durch eine unverbindliche Version ersetzt, in der die Bremse nur dann greift, wenn Anthropic allein entscheidet, dass es im Vorteil ist. Die reale Verpflichtung wurde gestrichen; die unmögliche wurde mit großem Pomp angekündigt. Wie Sam Altman mit einer Brutalität feststellte, die schwer zu entkräften ist, ist die Struktur die von jemandem, der die Bombe baut, davor warnt, dass er sie abwerfen wird, und einem dann den Bunker verkauft. Die Diagnose im Bericht mag authentisch sein, wahrscheinlich ist sie es zumindest teilweise, aber wer den Stift in der Hand halten wird, wenn die Regeln geschrieben werden, ist keine rhetorische Frage. Es ist die Frage. Und es wäre besser, wenn wir es wären, nicht die Unternehmen, die die KI gebaut haben.