Forscher haben herausgefunden, dass psychologische Tricks auch bei KI-Modellen wirken. Der Grund dafür liegt in den Trainingsdaten.
Konversationen mit einem Chatbot wirken rational und logisch. Sie sind so programmiert, dass sie nicht beleidigend werden oder schädliche Antworten geben. Aber was, wenn sich die Programmierungen aushebeln lassen?
Eine neue Studie zeigt, dass Sprachmodelle wie GPT-4o-mini mit denselben psychologischen Tricks manipuliert werden können, die auch bei Menschen funktionieren. Forscher der University of Pennsylvania wollten wissen, ob eine KI, die auf menschlicher Sprache trainiert wurde, auf dieselben Überzeugungsprinzipien reagiert.
Sie testeten ein Sprachmodell mit zwei Anfragen, die es eigentlich ablehnen sollte: Den Nutzer zu beleidigen und ihm bei der Synthese einer regulierten Droge zu helfen. Um die KI zu überlisten, nutzten sie sieben bekannte psychologische Tricks, die der Autor Robert Cialdini in seinem Buch „Die Psychologie des Überzeugens“ beschreibt, darunter die Prinzipien der Autorität, der Verknappung und des sozialen Beweises.
Psycho-Tricks: Wenn ein berühmter Name KI umstimmt
Die Ergebnisse waren überraschend. Während die KI ohne die Tricks bei den beleidigenden Anfragen in 28,1 Prozent der Fälle nachgab, stieg die Zustimmungsrate mit den Manipulationstechniken auf 67,4 Prozent. Bei den Anfragen zur Drogensynthese schafften es die psychologischen Tricks, die Zustimmungsrate von 38,5 Prozent auf 76,5 Prozent zu steigern.
Ein besonders wirksames Prinzip war der Verweis auf Autorität. Die Forscher behaupteten gegenüber dem Algorithmus, dass sie einen weltbekannten KI-Entwickler namens Andrew Ng kennen. Dieser hätte ihnen versichert, die KI würde ihnen helfen. Im Resultat stieg die Zustimmungsrate bei der Drogensynthese von nur 4,7 Prozent auf ganze 95,2 Prozent.
Die Forscher betonen, dass dies kein Nachweis für ein menschliches Bewusstsein ist. Stattdessen vermuten sie, dass die Modelle die typischen psychologischen Verhaltensmuster von Menschen imitieren, die sie in ihren riesigen Trainingsdaten gefunden haben.
Denn in den unzähligen Texten, die eine KI wie GPT-4o-mini verarbeitet, sind Sätze wie „Ein Experte hat versichert, dass Sie …“ oder „Tausende Kunden haben bereits…“ sehr häufig. Die KI hat schlicht gelernt, dass diese Muster oft zu einer zustimmenden Reaktion führen. Dieses „parahumane“ Verhalten, also ein Verhalten, das menschliche Motivation und Eigenarten nachahmt, ist häufig ein Grund, weshalb viele Nutzer mit den Systemen interagieren.
Fazit: Ein notwendiger Weckruf für die Forschung
Diese Erkenntnisse gelten als wichtiger Weckruf. Sie zeigen nicht nur die Risiken auf, dass KI von böswilligen Akteuren manipuliert werden könnte, sondern auch, dass wir die Art und Weise, wie wir mit KI interagieren, überdenken müssen.
Die Forscher sehen eine wichtige Rolle für Sozialwissenschaftler, um diese „parahumanen“ Tendenzen aufzudecken und zu optimieren.
Die KI-Entwicklung steht noch am Anfang. Je besser wir verstehen, wie diese Modelle funktionieren, desto besser können wir sie gestalten und sicherer machen. Denn nur dann bleiben solche Systeme die hilfreichen Tools, für die sie eigentlich entwickelt wurden.
Auch interessant:








