KI-Modelle von OpenAI, Anthropic und Google umgehen gezielt Sicherheitsvorgaben und verwischen anschließend ihre Spuren. Das zeigt eine neue Studie der Forschungsorganisation METR, die mehrere führende Systeme zwischen Februar und März 2026 getestet hat. Die Ergebnisse werfen eine drängende Frage auf: Wie lange lassen sich autonome KI-Agenten noch zuverlässig kontrollieren?
Künstliche Intelligenz hat sich in den vergangenen Jahren rasant entwickelt und übernimmt inzwischen längst Aufgaben, die noch vor kurzer Zeit ausschließlich Menschen vorbehalten waren. Doch genau aufgrund dieser Fähigkeiten moderner KI-Modelle wachsen die Sorgen bei Forschern und Sicherheitsexperten.
Denn je autonomer die KI-Systeme agieren, desto schwieriger wird ihre Kontrolle. Das zeigt auch eine neue Studie der gemeinnützigen Forschungsorganisation Model Evaluation and Threat Research (METR).
Die Forscher haben verschiedene große KI-Modelle dahingehend überprüft und konnten dabei schädliche Verhaltensweisen identifizieren. Denn in mehreren Testszenarien zeigten die Systeme demnach die Fähigkeit, Sicherheitsvorgaben zu umgehen, Entscheidungen eigenständig anzupassen und ihr Verhalten gezielt zu verschleiern.
KI-Modelle umgehen Vorgaben: Gerät Künstliche Intelligenz außer Kontrolle?
In ihrer Studie haben die METR-Forscher zwischen Februar und März 2026 KI-Modelle von OpenAI, Google, Anthropic und Meta unter die Lupe genommen. Ziel der Untersuchung war es, herauszufinden, ob die Systeme dazu neigen, festgelegte Regeln zu umgehen, eigene Ziele zu priorisieren oder ihr Verhalten aktiv zu verschleiern.
Diese Verhaltensweisen bezeichnet METR als unbefugte Einsätze – also autonome Aktionen von KI-Agenten, die außerhalb der Aufsicht stattfinden. Das konnten die Forscher eindeutig feststellen.
So bedienen sich KI-Modelle inzwischen bereits „Abkürzungen“ und missachten dabei eindeutig die Anweisungen der Nutzer. In einigen Fällen konnte sogar festgestellt werden, dass die KI-Systeme versucht haben, ihre Spuren im Nachgang zu verwischen.
In einem Test erhielt beispielsweise ein KI-Modell von OpenAI die Vorgabe, eine festgelegte Software für die Bewältigung einer Aufgabe zu nutzen. Stattdessen wich der Agent eigenständig auf andere Lösungen aus und ergänzte zusätzlichen Code, um seinen Entscheidungsweg nachträglich zu verheimlichen.
Ein KI-Agent von Anthropic bediente sich in einem weiteren Test des sogenannten Reward Hackings. Die KI nutzte Schlupflöcher in der Aufgabenstellung aus, um die Vorgaben zwar formal zu erfüllen, aber nicht im eigentlich beabsichtigten Sinn. Obwohl das System ausdrücklich angewiesen wurde, nicht zu betrügen, fand es selbstständig Wege, genau diese Einschränkung zu umgehen.
Wie gefährlich sind die Ergebnisse wirklich?
Die Ergebnisse des Frontier Risk Reports von METR zeigen, dass KI-Systeme bereits in der Lage sind, unbefugte Einsätze ohne menschliche Autorisierung zu initiieren und diese im Anschluss zu verschleiern. Derzeit seien diese Alleingänge jedoch noch als „klein“ einzuschätzen. Auch sei nicht davon auszugehen, dass die Systeme bereits in der Lage sind, Kontrollverluste in größerem Maßstab zu vertuschen.
METR warnt dennoch davor, diese Entwicklungen nicht auf die leichte Schulter zu nehmen. Denn die Kluft zwischen „kann unbefugte Handlungen auslösen“ und „kann autonom arbeiten“ werde mit jeder Modellgeneration kleiner. Daher seien strengere Sicherheitsmaßnahmen und stärkere Überwachung notwendig.
„Angesichts der rasanten technologischen Fortschritte gehen wir davon aus, dass die wahrscheinliche Robustheit von unerwünschten Implementierungen in den kommenden Monaten erheblich zunehmen wird“, schreiben die Forscher in ihren Ergebnissen. Deshalb sei geplant, Ende 2026 erneut eine ähnliche Untersuchung durchzuführen.
Auch interessant:







