KI-Modelle umgehen Vorgaben – und verwischen ihre Spuren

KI-Modelle von OpenAI, Anthropic und Google umgehen gezielt Sicherheitsvorgaben und verwischen anschließend ihre Spuren. Das zeigt eine neue Studie der Forschungsorganisation METR, die mehrere führende Systeme zwischen Februar und März 2026 getestet hat. Die Ergebnisse werfen eine drängende Frage auf: Wie lange lassen sich autonome KI-Agenten noch zuverlässig kontrollieren?

Künstliche Intelligenz hat sich in den vergangenen Jahren rasant entwickelt und übernimmt inzwischen längst Aufgaben, die noch vor kurzer Zeit ausschließlich Menschen vorbehalten waren. Doch genau aufgrund dieser Fähigkeiten moderner KI-Modelle wachsen die Sorgen bei Forschern und Sicherheitsexperten.

Denn je autonomer die KI-Systeme agieren, desto schwieriger wird ihre Kontrolle. Das zeigt auch eine neue Studie der gemeinnützigen Forschungsorganisation Model Evaluation and Threat Research (METR).

Die Forscher haben verschiedene große KI-Modelle dahingehend überprüft und konnten dabei schädliche Verhaltensweisen identifizieren. Denn in mehreren Testszenarien zeigten die Systeme demnach die Fähigkeit, Sicherheitsvorgaben zu umgehen, Entscheidungen eigenständig anzupassen und ihr Verhalten gezielt zu verschleiern.

KI-Modelle umgehen Vorgaben: Gerät Künstliche Intelligenz außer Kontrolle?

In ihrer Studie haben die METR-Forscher zwischen Februar und März 2026 KI-Modelle von OpenAI, Google, Anthropic und Meta unter die Lupe genommen. Ziel der Untersuchung war es, herauszufinden, ob die Systeme dazu neigen, festgelegte Regeln zu umgehen, eigene Ziele zu priorisieren oder ihr Verhalten aktiv zu verschleiern.

Diese Verhaltensweisen bezeichnet METR als unbefugte Einsätze – also autonome Aktionen von KI-Agenten, die außerhalb der Aufsicht stattfinden. Das konnten die Forscher eindeutig feststellen.

So bedienen sich KI-Modelle inzwischen bereits „Abkürzungen“ und missachten dabei eindeutig die Anweisungen der Nutzer. In einigen Fällen konnte sogar festgestellt werden, dass die KI-Systeme versucht haben, ihre Spuren im Nachgang zu verwischen.

In einem Test erhielt beispielsweise ein KI-Modell von OpenAI die Vorgabe, eine festgelegte Software für die Bewältigung einer Aufgabe zu nutzen. Stattdessen wich der Agent eigenständig auf andere Lösungen aus und ergänzte zusätzlichen Code, um seinen Entscheidungsweg nachträglich zu verheimlichen.

Ein KI-Agent von Anthropic bediente sich in einem weiteren Test des sogenannten Reward Hackings. Die KI nutzte Schlupflöcher in der Aufgabenstellung aus, um die Vorgaben zwar formal zu erfüllen, aber nicht im eigentlich beabsichtigten Sinn. Obwohl das System ausdrücklich angewiesen wurde, nicht zu betrügen, fand es selbstständig Wege, genau diese Einschränkung zu umgehen.

Wie gefährlich sind die Ergebnisse wirklich?

Die Ergebnisse des Frontier Risk Reports von METR zeigen, dass KI-Systeme bereits in der Lage sind, unbefugte Einsätze ohne menschliche Autorisierung zu initiieren und diese im Anschluss zu verschleiern. Derzeit seien diese Alleingänge jedoch noch als „klein“ einzuschätzen. Auch sei nicht davon auszugehen, dass die Systeme bereits in der Lage sind, Kontrollverluste in größerem Maßstab zu vertuschen.

METR warnt dennoch davor, diese Entwicklungen nicht auf die leichte Schulter zu nehmen. Denn die Kluft zwischen „kann unbefugte Handlungen auslösen“ und „kann autonom arbeiten“ werde mit jeder Modellgeneration kleiner. Daher seien strengere Sicherheitsmaßnahmen und stärkere Überwachung notwendig.

„Angesichts der rasanten technologischen Fortschritte gehen wir davon aus, dass die wahrscheinliche Robustheit von unerwünschten Implementierungen in den kommenden Monaten erheblich zunehmen wird“, schreiben die Forscher in ihren Ergebnissen. Deshalb sei geplant, Ende 2026 erneut eine ähnliche Untersuchung durchzuführen.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

		Junior Video Content Creator – Technik ... Wack Group in Baar-Ebenhausen
		Director Digital Commerce & D2C Growth TUI Cruises GmbH in Hamburg
		Junior Communication Manager (m/w/d) – Social... Ludwig Schokolade GmbH & Co. KG in Bergisch Gladbach...
		Social Media Manager / Content Creator (m/w/d) Deiters GmbH in Frechen
		Mitarbeiter Onlinemarketing und Vertriebsinne... Dr. Hartmann Chemietechnik GmbH &... in Vaihingen / ...
		Praktikum Online Marketing (m/w/d) HARIBO Deutschland in Grafschaft
		Manager of Social Media (x\|f\|m) Sartorius in Göttingen
		Head of IT and Media Technology (m/w/d) Home Shopping Europe GmbH in München

		Junior Communication Manager (m/w/d) – Social... Ludwig Schokolade GmbH & Co. KG in Bergisch Gladbach...
		Technischer Redakteur/Produktdaten- und Dokum... wenglor MEL GmbH - Unterschleißheim in Unterschleißheim
		Mitarbeiter Onlinemarketing und Vertriebsinne... Dr. Hartmann Chemietechnik GmbH &... in Vaihingen / ...
		(Senior) Product Manager (m/w/d) – Abre... Arsipa GmbH in Berlin
		Online Marketing Manager (m/w/d) EMIL DEISS GmbH in Hamburg

KI-Modelle umgehen Sicherheitsvorgaben – und verwischen ihre Spuren

KI-Modelle umgehen Vorgaben: Gerät Künstliche Intelligenz außer Kontrolle?

Wie gefährlich sind die Ergebnisse wirklich?

Schreibe einen Kommentar Antwort abbrechen

iPhone 17 ab 0,84 Euro mit AirPods Pro 3: Jetzt Vodafone Business-Tarif sichern

KI-Modelle umgehen Vorgaben: Gerät Künstliche Intelligenz außer Kontrolle?

Wie gefährlich sind die Ergebnisse wirklich?

Schreibe einen Kommentar Antwort abbrechen

iPhone 17 ab 0,84 Euro mit AirPods Pro 3: Jetzt Vodafone Business-Tarif sichern

LESEEMPFEHLUNGEN

ChatGPT Work: OpenAI baut seinen Chatbot in einen Büro-Agenten um

Podcast: Wie KI Meinungen und deinen Nachrichtenkonsum manipuliert

CO2-Batterie speichert Strom dreimal länger als Lithium-Akkus

EU soll Tempo-Drosselung von Autos per Satellit planen – ein Faktencheck

Dreame A3 AWD Pro 3500 im Test: Mähroboter mit Allrad und LiDAR

Eltern verlieren wegen Smartphones Bindung zu ihren Kindern

Smarter als dein Feed