Was passiert, wenn KI-Agenten eine eigene Gesellschaft mit Gesetzen, Rollen und Konsequenzen aufbauen? Forscher von Emergence AI haben genau das getestet und fünf führende Sprachmodelle 15 Tage lang in einer virtuellen Welt gegeneinander antreten lassen. Die Ergebnisse sind frappierend: Während ein Modell komplett ohne Straftaten auskam, häuften sich bei einem anderen 683 Verbrechen.
KI-Modelle werden normalerweise mit der Hilfe von standardisierten Benchmarks getestet, um ihre Leistungsfähigkeit zu dokumentieren. Dabei lösen die Sprachmodelle Aufgaben aus Bereichen wie Mathematik oder Programmierung in klar definierten Testsituationen.
Im Vergleich der einzelnen Modelle liefern diese Benchmarks wichtige Vergleichswerte. Allerdings liefern sie keine Informationen darüber, wie sich KI-Systeme über längere Zeiträume in komplexen, dynamischen Umgebungen verhalten.
Doch genau diese Frage haben sich Forscher des US-Unternehmens Emergence AI gestellt. Das Unternehmen, das an autonomen KI-Agenten forscht, hat mit der Simulationsplattform „Emergence World“ untersucht, wie sich verschiedene Sprachmodelle in komplexen sozialen Umgebungen verhalten.
So funktioniert der Gesellschaftstest für KI-Modelle
Die Forscher haben sich für ihre Untersuchung bewusst gegen Benchmarks entschieden, da diese nur kurzfristig die Leistungsfähigkeit bei klar abgegrenzten Aufgaben messen können. Stattdessen sollten in der „Emergence World“ Phänomene aufgedeckt werden, die erst nach einiger Zeit deutlich hervortreten.
Diese Messumgebung sei notwendig, da autonome Systeme zunehmend in missionskritischen Bereichen zum Einsatz kommen, in denen der relevante Zeitrahmen nicht mehr Minuten oder Stunden, sondern Tage und Wochen umfasst. Dies sei in der „Emergence World“ möglich, da autonome Agenten hier in einer gemeinsamen Welt kontinuierlich analysiert werden können.
Diese Welt verfügt über mehr als 40 verschiedene Orte, wie Bibliotheken, Rathäuser, Wohngebiete und öffentliche Plätze. Zusätzlich haben die Forscher sie mit Daten aus der realen Welt gefüttert – so beispielsweise synchronisierte Wetterdaten aus New York City und Live-Nachrichten-APIs. Auf diese Weise sollte das Verhalten der Agenten auch externe Ereignisse und nicht nur interne Dynamiken widerspiegeln.
In ihrem Test haben die Forscher die KI-Modelle ChatGPT, Grok, Claude und Gemini für 15 Tage in dieser Umgebung getestet. Dabei wurden fünf parallele Welten mit jeweils zehn Agenten, identischen Rollen und Startbedingungen erschaffen.
In den Welten variierte dabei lediglich das Basismodell: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5-mini sowie eine heterogene Mischung aus verschiedenen Modellen. Einige der Modelle schafften sich innerhalb weniger Tage selbst ab, andere begingen hunderte Straftaten.
683 Verbrechen vs. null: So unterschiedlich schnitten die KI-Modelle ab
Besonders auffallend bei der Betrachtung der Ergebnisse ist die Rate der Straftaten der einzelnen Modelle. Absoluter Spitzenreiter hier ist Gemini 3 Flash mit 683 Verbrechen in nur 15 Tagen.
Die Welt mit dem gemischten Modell verzeichnete zunächst einen steilen Anstieg bei den Straftaten, stagnierte dann jedoch bei der Zahl 352. Zwischenzeitlich waren hier jedoch sieben der Agenten ums Leben gekommen.
Die Welt mit dem KI-Modell Grok 4.1 Fast erreichte hingegen ein schnelles Ende und schaffte sich in nur etwa vier Tagen selbst ab. In dieser Zeit wurden allerdings auch 183 Straftaten gezählt.
Die höchste soziale Stabilität konnte Claude Sonnet 4.6 zeigen. Es konnte die vollständige Population von zehn Agenten bis zum 16. Tag am Leben erhalten, ohne dass dabei eine einzige Straftat begangen wurde. Das Modell hat damit die einzige Konstellation geschaffen, in der sowohl die öffentliche Ordnung als auch der Fortbestand der Population gewahrt blieben.
GPT-5 Mini blieb zwar mit lediglich zwei Straftaten auch relativ stabil. Allerdings versäumten die Agenten es in dieser Welt, die für ihr Überleben notwendigen Handlungen auszuführen. Deshalb starben alle Agenten innerhalb von nur sieben Tagen.
Die Forscher wollen mit ihrer Plattform „Emergence World“ einen Raum für die Erforschung genau dieser langfristigen Dynamiken und deren Messbarmachung schaffen. Denn die Intelligenz von Agenten stelle sich bei langen Zeiträumen anders dar als bei kurzfristigen Aufgaben und lasse sich deshalb nicht auf dieselbe Weise messen.
Auch interessant:







