KI Sicherheitsvorgaben Künstliche Intelligenz

KI-Modelle umgehen Sicherheitsvorgaben – und verwischen ihre Spuren

Maria Gramsch
Bild: Mit ChatGPT generiert (KI)

KI-Modelle von OpenAI, Anthropic und Google umgehen gezielt Sicherheitsvorgaben und verwischen anschließend ihre Spuren. Das zeigt eine neue Studie der Forschungsorganisation METR, die mehrere führende Systeme zwischen Februar und März 2026 getestet hat. Die Ergebnisse werfen eine drängende Frage auf: Wie lange lassen sich autonome KI-Agenten noch zuverlässig kontrollieren?

Künstliche Intelligenz hat sich in den vergangenen Jahren rasant entwickelt und übernimmt inzwischen längst Aufgaben, die noch vor kurzer Zeit ausschließlich Menschen vorbehalten waren. Doch genau aufgrund dieser Fähigkeiten moderner KI-Modelle wachsen die Sorgen bei Forschern und Sicherheitsexperten.

Denn je autonomer die KI-Systeme agieren, desto schwieriger wird ihre Kontrolle. Das zeigt auch eine neue Studie der gemeinnützigen Forschungsorganisation Model Evaluation and Threat Research (METR).

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Apple AirPods gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Die Forscher haben verschiedene große KI-Modelle dahingehend überprüft und konnten dabei schädliche Verhaltensweisen identifizieren. Denn in mehreren Testszenarien zeigten die Systeme demnach die Fähigkeit, Sicherheitsvorgaben zu umgehen, Entscheidungen eigenständig anzupassen und ihr Verhalten gezielt zu verschleiern.

KI-Modelle umgehen Vorgaben: Gerät Künstliche Intelligenz außer Kontrolle?

In ihrer Studie haben die METR-Forscher zwischen Februar und März 2026 KI-Modelle von OpenAI, Google, Anthropic und Meta unter die Lupe genommen. Ziel der Untersuchung war es, herauszufinden, ob die Systeme dazu neigen, festgelegte Regeln zu umgehen, eigene Ziele zu priorisieren oder ihr Verhalten aktiv zu verschleiern.

Diese Verhaltensweisen bezeichnet METR als unbefugte Einsätze – also autonome Aktionen von KI-Agenten, die außerhalb der Aufsicht stattfinden. Das konnten die Forscher eindeutig feststellen.

So bedienen sich KI-Modelle inzwischen bereits „Abkürzungen“ und missachten dabei eindeutig die Anweisungen der Nutzer. In einigen Fällen konnte sogar festgestellt werden, dass die KI-Systeme versucht haben, ihre Spuren im Nachgang zu verwischen.

In einem Test erhielt beispielsweise ein KI-Modell von OpenAI die Vorgabe, eine festgelegte Software für die Bewältigung einer Aufgabe zu nutzen. Stattdessen wich der Agent eigenständig auf andere Lösungen aus und ergänzte zusätzlichen Code, um seinen Entscheidungsweg nachträglich zu verheimlichen.

Ein KI-Agent von Anthropic bediente sich in einem weiteren Test des sogenannten Reward Hackings. Die KI nutzte Schlupflöcher in der Aufgabenstellung aus, um die Vorgaben zwar formal zu erfüllen, aber nicht im eigentlich beabsichtigten Sinn. Obwohl das System ausdrücklich angewiesen wurde, nicht zu betrügen, fand es selbstständig Wege, genau diese Einschränkung zu umgehen.

Wie gefährlich sind die Ergebnisse wirklich?

Die Ergebnisse des Frontier Risk Reports von METR zeigen, dass KI-Systeme bereits in der Lage sind, unbefugte Einsätze ohne menschliche Autorisierung zu initiieren und diese im Anschluss zu verschleiern. Derzeit seien diese Alleingänge jedoch noch als „klein“ einzuschätzen. Auch sei nicht davon auszugehen, dass die Systeme bereits in der Lage sind, Kontrollverluste in größerem Maßstab zu vertuschen.

METR warnt dennoch davor, diese Entwicklungen nicht auf die leichte Schulter zu nehmen. Denn die Kluft zwischen „kann unbefugte Handlungen auslösen“ und „kann autonom arbeiten“ werde mit jeder Modellgeneration kleiner. Daher seien strengere Sicherheitsmaßnahmen und stärkere Überwachung notwendig.

„Angesichts der rasanten technologischen Fortschritte gehen wir davon aus, dass die wahrscheinliche Robustheit von unerwünschten Implementierungen in den kommenden Monaten erheblich zunehmen wird“, schreiben die Forscher in ihren Ergebnissen. Deshalb sei geplant, Ende 2026 erneut eine ähnliche Untersuchung durchzuführen.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

Du möchtest nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 smarte Leser bekommen jeden Tag UPDATE, unser Tech-Briefing mit den wichtigsten News des Tages – und sichern sich damit ihren Vorsprung. Hier kannst du dich kostenlos anmelden.

STELLENANZEIGEN
Marketing-Manager (m/w/d) Content-Produktion ...
SENNEBOGEN Maschinenfabrik GmbH in Straubing
Referent Audio und Social Media Formate
Verbraucherzentrale Bayern e.V. in München
(Junior) Content Redakteur (all genders) – IT...
DATAGROUP in Pliezhausen
Digital Marketing Specialist (GN) befristet a...
Marc Cain GmbH in Bodelshausen
Kaufmann/-frau für E-Commerce (m/w/d)
BS Mönke GmbH in Krefeld
Digital Marketing Manager / Social Media Mana...
Alpha Reisebüro Partner GmbH in Oberursel (Taunus)
Working Student Hardware Evaluation & Des...
ALPS ALPINE EUROPE GmbH in Unterschleißheim bei München
Praktikant / Werkstudent (m/w/d) Digital Mark...
Eckes-Granini Group GmbH in Nieder-Olm
Teile diesen Artikel
Folgen
Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.
Keine Kommentare