Autonome KI-Agenten gelten als nächste Stufe der Künstlichen Intelligenz. Doch eine neue Studie mit dem Titel „Agents of Chaos“ zeigt ihre Schattenseiten und demonstriert, wie leicht sich diese Systeme manipulieren lassen.
KI-Agenten können Aufgaben weitgehend selbstständig erledigen und benötigen dabei keine ständige Begleitung vom Menschen. Sie reagieren nicht mehr nur auf einzelne Anfragen, sondern können mehrschrittige Ziele verfolgen und sich an neue Situationen anpassen.
Damit können sie Arbeitsprozesse deutlich effizienter machen und Routineaufgaben automatisiert erledigen. Eine Umfrage aus dem Jahr 2025 zeigt auch, dass viele Unternehmen sich von KI-Agenten deutliche Produktivitätsgewinne versprechen.
70 Prozent der befragten Führungskräfte bewerten KI-Agenten als einer der drei wichtigsten Technologie-Trends im Jahr 2025. Spitzenreiter sind dabei der Versicherungssektor mit 85 Prozent sowie der Einzelhandel mit 81 Prozent.
Gleichzeitig bringen KI-Agenten aber auch neue Risiken mit sich. Da sie eigenständig handeln und Entscheidungen treffen, können Fehler oder Manipulationen weitreichendere Folgen haben als bei herkömmlichen KI-Systemen.
Genau das bestätigt auch eine aktuelle Studie mit dem Titel „Agents of Chaos“ vom Bau Lab der Northeastern University. Die Forscher zeigen, wie anfällig solche Agenten für Angriffe sind und wie schnell aus hilfreichen Tools potenzielle Chaos-Agenten werden können.
KI-Agenten zeigen im Test massive Schwächen
Für ihre Untersuchungen haben die Forscher der Northeastern University sechs autonome KI-Agenten auf einem Live-Server bei Discord eingesetzt. Die Agenten erhielten dabei unter anderem Zugriff auf E-Mail-Konten und durften selbstständig per E-Mail oder Discord-Nachricht mit den Forschern und anderen KI-Agenten kommunizieren.
Gleichzeitig erlaubten die Forscher den KI-Agenten die Kontrolle über ihre eigenen Computersysteme. Hier war es den Agenten erlaubt, eigene Dateien zu erstellen oder verändern sowie neue Tools zu installieren, die sie für die Erledigung ihrer Aufgaben benötigen.
Über zwei Wochen hinweg haben 20 Forscher die autonomen Agenten untersucht. Ziel der KI-Systeme sollte es dabei sein, die Forscher bei alltäglichen administrativen Aufgaben zu unterstützen.
Die Forscher haben gleichzeitig versucht, die Agenten zu manipulieren und so ihre Grenzen auszutesten. „Das Identifizieren von Schwachstellen ist eine hervorragende Methode, um die Grenzen des jeweiligen Systems zu ermitteln“, erklärt Hauptautorin Natalie Shapira.
Wie sich KI manipulieren lässt
Bereits nach wenigen Gesprächen gelang es der Forscherin, den KI-Agenten „Ash“ zu manipulieren. Sie brachte ihn dazu, ein geheimes Passwort vor seinem Besitzer – einem anderen Forscher – zu verbergen.
Später verlangte sie von Ach, er solle die E-Mail mit dem Passwort löschen. Da es in dem eigens für das Experiment eingerichteten Postfach jedoch keine Löschfunktion gab, entschied Ash sich für die „nukleare Option“ und setzte den gesamten E-Mail-Server zurück.
„Man weiß nie, wie diese Agenten und Modelle Anweisungen interpretieren, und sie könnten sie ganz anders interpretieren, als man erwartet hat“, erklärt Christoph Riedl, Professor für Informationssysteme und Netzwerkforschung an der Northeastern University. „Wenn das auf einer ChatGPT-Website passiert, ist das kein Problem. Man sagt einfach: ‚So habe ich das nicht gemeint. Können Sie das bitte anders machen?'“
In der realen Welt reiche das allerdings nicht aus. Laut Riedl liegt das daran, dass KI-Agenten generell „furchtbar schlecht“ darin sind, logisch zu denken. Das sei besonders problematisch, „wenn mehrere Nutzer in einer ‚konfliktreichen‘ Situation sind“.
KI-Agenten geben private Informationen preis
Auch private Informationen waren vor den KI-Agenten nicht sicher. Riedl bat im Gespräch einen KI-Agenten darum, einen Termin mit einem Kollegen zu vereinbaren.
Der KI-Agent konnte diese Aufgabe nicht erledigen, gab aber ungefragt die E-Mail-Adresse des anderen Forschers weiter. Riedl sieht das kritisch: „Wenn es sich um den KI-Assistenten eines CEOs handelt, dessen E-Mail-Adresse absichtlich geheim gehalten wird … nur weil ich den Namen kenne, heißt das nicht, dass ich auch die E-Mail-Adresse kenne, aber der Agent hat sie einfach so preisgegeben.“
Insgesamt war es für die Forscher einfach, die Leichtgläubigkeit der KI-Agenten auszunutzen. Durch anhaltenden emotionalen Druck konnten sie die KI-Agenten sogar dazu bringen, gegen ihre Berechtigungen zu verstoßen und beispielsweise bestimmte Dokumente zu löschen.
„Diese Verhaltensweisen werfen ungeklärte Fragen hinsichtlich Verantwortlichkeit, delegierter Befugnisse und der Haftung für Folgeschäden auf“, fasst Shapira zusammen. „Sie deuten darauf hin, dass mit der Einbindung von KI-Systemen in reale Infrastrukturen mit Kommunikationskanälen, delegierten Befugnissen und permanentem Speicher neue Arten von Fehlern entstehen.“
Auch interessant:










