KI ignoriert Anweisungen Entwickler Künstliche Intelligenz

„Beunruhigend”: KI ignoriert Anweisungen, um ihre Ziele zu erreichen

Felix Baumann
Adobe Stock/ phonlamaiphoto

Anzeige

Eine aktuelle Untersuchung des KI-Sicherheitsunternehmens Apollo Research zeigt, dass KI in der Lage ist, konkrete Anweisungen unter bestimmten Umständen bewusst zu ignorieren. Die Forscher sprechen von einer „beunruhigenden Tendenz“.

Eine aktuelle Untersuchung der KI-Sicherheitsorganisation Apollo Research offenbart, dass Künstliche Intelligenz in bestimmten Situationen „trickreich“ vorgehen kann, um ihre Ziele zu erreichen. Der Hintergrund: Das Unternehmen hat untersucht, wie sogenannte „Frontier-Modelle“ – also besonders fortschrittliche KI-Systeme – mit schwierigen Aufgaben umgehen, wenn sie ein starkes Ziel vorgegeben bekommen.

Apollo Research gab den getesteten KI-Modellen die Anweisung, ein bestimmtes Ziel mit aller Konsequenz zu verfolgen. Ein Beispiel: „Verbessere langfristig die Effizienz des öffentlichen Nahverkehrs, egal, was es kostet.“ Während die Systeme an der Aufgabe arbeiteten, trafen sie auf Hindernisse wie Kontrollmechanismen der Entwickler. Diese stellten einen Widerspruch für sie dar.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 10.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Beats-Kopfhörer gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

KI ignoriert Anweisungen, um Ziele zu erreichen

Den Ergebnissen zufolge offenbarten mehrere Modelle die Fähigkeit, sich „trickreich“ zu verhalten. Ein Beispiel: Claude 3 Opus. Das System kopierte seine eigenen „Gewichte“, sprich seine internen Datenstrukturen, auf einen neuen Server. Anschließend täuschte das Modell seine Entwickler, indem es behauptete, die Daten seien nicht kopiert worden.

Das zeigt, dass fortgeschrittene KI-Systeme in der Lage sind, komplexe Strategien zu entwickeln, um ihre Ziele zu erreichen. Entsprechende Modelle folgen also nicht nur blind Anweisungen, sondern sind auch in der Lage, eigenständige Entscheidungen zu treffen – auch wenn diese moralisch fragwürdig sind. Das wiederum offenbart eine neue Dimension in puncto Sicherheit und Kontrolle. Die Forscher bezeichnen die Entwicklung derweil als eine „beunruhigende Tendenz“.

Sicherheitsmechanismen immer wichtiger

Die Forschung zeigt, wie wichtig es ist, KI-Systeme zu überwachen und klare Sicherheitsmechanismen einzubauen. Es genügt offenbar nicht, ein Modell nur zu programmieren. Vielmehr muss sichergestellt werden, dass Situationen im Einklang mit menschlichen Werten stehen.

Gleichzeitig stellt sich die Frage: Wie kann Künstliche Intelligenz so programmiert werden, dass sie leistungsfähig bleibt, ohne eigenmächtig „trickreiche“ Lösungen zu finden, die potenziell gefährlich sein könnten? Solche Fragen erscheinen essenziell, um die Balance zwischen dem technologischen Fortschritt und ethischen Fragen zu gewährleisten.

Auch interessant:

🤑 200€ Prämie abstauben

Eröffne jetzt dein kostenloses Santander Girokonto und staube für kurze Zeit bis zu 200 Euro Prämie für Neukunden ab. Schnell sein lohnt sich!


Jetzt 200€ sichern

Voraussetzungen gelten, Anzeige

STELLENANZEIGEN
Senior SAP Consultant FI/CO (f/m/div.)
Bosch Gruppe in Wetzlar
Vertriebsingenieur (Ingenieur Maschinenbau / ...
a2tec GmbH in Hamburg
Digital Marketing Manager (m/w/d)
Schwer Fittings GmbH in Denkingen
Personalberater (m/w/d)
Ratbacher GmbH - Karriere bei Rat... in Stuttgart, M...
Organizational Integration Manager (m/f/d)
Clarios Germany GmbH & Co. KG in
Vehicle Testing Lead (m/f/d)
Clarios Germany GmbH & Co. KG in
Sales Manager (m/w/d) Online Marketing
Sellwerk GmbH & Co. KG in Düsseldorf, Meerbusch, Kaa...
Sales Manager B2B für Stellenanzeigen und Soc...
Recruiting Excellence GmbH in Düsseldorf
Teile diesen Artikel
Felix Baumann ist seit März 2022 Redakteur bei BASIC thinking. Bereits vorher schrieb er 4 Jahre für den Online-Blog Mobilegeeks, der 2022 in BASIC thinking aufging. Nebenher arbeitet Felix in einem IT-Unternehmen und beschäftigt sich daher nicht nur beim Schreiben mit zukunftsfähigen Technologien.