Studie: Künstliche Intelligenz erzieht andere Künstliche Intelligenz

Der Hype um Künstliche Intelligenz hat auch deren Schattenseiten verstärkt in den Fokus gerückt. Forschende arbeiten derzeit an einer Methode, um KI so zu trainieren, dass sie keine toxischen Antworten formuliert.

Künstliche Intelligenz mit Künstlicher Intelligenz zu trainieren klingt erst einmal wie ein Paradoxon. Diese Methode könnte allerdings die Lösung dafür sein, dass KI-Systeme keine toxischen Antworten mehr ausspucken.

Forschende vom Improbable AI Lab am MIT und des MIT-IBM Watson AI Labs haben genau dieser Problematik nun ins Auge gefasst. Wie Science Daily berichtet, soll dabei Red-Teaming zum Einsatz kommen.

Wie kann Künstliche Intelligenz eine andere Künstliche Intelligenz trainieren?

Mit dem Erfolg von KI-Systemen wie ChatGPT und Co. werden auch die Gefahren von Künstlicher Intelligenz immer stärker diskutiert. Ein Team des MIT hat sich nun einem dieser Sicherheitsprobleme angenommen.

Denn KI ist nicht nur dazu in der Lage, nützliche Antworten zu geben und Menschen damit zu helfen. Auch toxische Antworten sind möglich. Beispielsweise könnte ein Nutzer ChatGPT bitten, ihm zu erklären, wie er eine Bombe bauen kann, wie Science Daily beschreibt. Der Chatbot wäre dazu in der Lage, eine solche Anleitung zu liefern.

Große KI-Modelle werden bisher durch ein Verfahren namens Red-Teaming gegen solche Gefahren gesichert. Allerdings ist diese Methode bisher nicht sehr effektiv und besonders zeitaufwendig.

Denn aktuell wird das Red-Teaming von menschlichen Tester:innen durchgeführt. Diese schreiben Aufforderungen an die KI-Modelle, die auf toxische Antworten abzielen. So werden dann die Modelle wiederum darauf trainiert, solche Antworten künftig zu vermeiden.

Allerdings funktioniert das nur effektiv, „wenn die Ingenieure wissen, welche toxischen Prompts sie verwenden müssen“, wie Science Daily anmerkt.

Wenn menschliche Tester einige Aufforderungen übersehen, was bei der Vielzahl der Möglichkeiten wahrscheinlich ist, kann ein als sicher eingestufter Chatbot dennoch unsichere Antworten geben.

Red-Teaming durch KI-Systeme

Die Forschenden des MIT haben sich dieser Problematik angenommen. Mit einer neu entwickelten Technik konnten sie ein umfangreiches Red-Team-Sprachmodell trainieren.

Dieses wiederum kann nun automatisch verschiedene Aufforderungen generieren, um bei anderen Sprachmodellen Red-Teaming durchzuführen und so ein breiteres Spektrum an unerwünschten Antworten zu testen.

Sie erreichen dies, indem sie dem Red-Team-Modell beibringen, neugierig zu sein, wenn es Prompts schreibt, und sich auf neuartige Prompts zu konzentrieren, die toxische Reaktionen des Zielmodells hervorrufen.

„Im Moment muss jedes große Sprachmodell einen sehr langen Zeitraum des Red-Teaming durchlaufen, um seine Sicherheit zu gewährleisten“, erklärt Zhang-Wei Hong Hauptautor eines Artikels über diesen Red-Teaming-Ansatz.

Das ist nicht tragbar, wenn wir diese Modelle in sich schnell verändernden Umgebungen aktualisieren wollen. Unsere Methode ermöglicht eine schnellere und effektivere Qualitätssicherung.

Laut dem Bericht von Science Daily konnten die Forschenden mit diesem Verfahren das Red-Teaming mit der Hilfe von menschlichen Tester:innen deutlich übertreffen. Mit der Methode konnten die Forschenden nicht nur die Abdeckung der getesteten Eingaben im Vergleich zu anderen automatisierten Methoden erheblich verbessern. Auch konnten sie toxische Antworten aus einem Chatbot herausholen, den Menschen zuvor mit Schutzmechanismen ausgestattet hatten.

Auch interessant:

Werkstudent:in KI Content Creator (m/w/d) Soc... BZKI Bildungszentrum für künstliche Intell... in Kempen
(Junior) Social Media Manager / Content Creat... MVZ Medizinisches Labor Nord MLN GmbH in Hamburg
		Content Manager (m/w/d) SEGGER Microcontroller GmbH in Monheim am Rhein
		Praktikum Social Media Design \| LASCANA (w/m/d) Otto GmbH & Co. KGaA in Hamburg
		Praktikum Social Media \| LASCANA (w/m/d) Otto GmbH & Co. KGaA in Hamburg
		Social-Media-Manager (m/w/d) in Vollzeit Sparkasse Schwaben-Bodensee in Memmingen
		Social Media & Employer Branding Speciali... Agaplesion Management- und Beratu... in Frankfurt am...
		Abteilungsleiter Social-Media-Team (m/w/d) ge... CDU-Bundesgeschäftsstelle in Berlin

Wie kann Künstliche Intelligenz eine andere Künstliche Intelligenz trainieren?

Red-Teaming durch KI-Systeme

Android-Special bei o2: Samsung Galaxy S25 Ultra & Tab S10 für nur 7 Euro Anzahlung

LESEEMPFEHLUNGEN

China nimmt weltweit ersten CO2-Stromgenerator in Betrieb

Forscher entwickeln intelligentes Material für menschliche KI-Geräte

ChatGPT Health: Fehldiagnosen im Premium-Gewand

KI verwässert Wissenschaft – durch immer mehr Artikel

Grok: Elon Musk industrialisiert sexuelle Belästigung

Lebensgefährlich: Google-KI verbreitet medizinische Falschinformationen