Künstliche Intelligenz, Roboter, Wolkenkratzer

Künstliche Intelligenz erzieht andere Künstliche Intelligenz

Maria Gramsch
Adobe Stock / nespix

Der Hype um Künstliche Intelligenz hat auch deren Schattenseiten verstärkt in den Fokus gerückt. Forschende arbeiten derzeit an einer Methode, um KI so zu trainieren, dass sie keine toxischen Antworten formuliert.

Künstliche Intelligenz mit Künstlicher Intelligenz zu trainieren klingt erst einmal wie ein Paradoxon. Diese Methode könnte allerdings die Lösung dafür sein, dass KI-Systeme keine toxischen Antworten mehr ausspucken.

Forschende vom Improbable AI Lab am MIT und des MIT-IBM Watson AI Labs haben genau dieser Problematik nun ins Auge gefasst. Wie Science Daily berichtet, soll dabei Red-Teaming zum Einsatz kommen.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Apple AirPods gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Wie kann Künstliche Intelligenz eine andere Künstliche Intelligenz trainieren?

Mit dem Erfolg von KI-Systemen wie ChatGPT und Co. werden auch die Gefahren von Künstlicher Intelligenz immer stärker diskutiert. Ein Team des MIT hat sich nun einem dieser Sicherheitsprobleme angenommen.

Denn KI ist nicht nur dazu in der Lage, nützliche Antworten zu geben und Menschen damit zu helfen. Auch toxische Antworten sind möglich. Beispielsweise könnte ein Nutzer ChatGPT bitten, ihm zu erklären, wie er eine Bombe bauen kann, wie Science Daily beschreibt. Der Chatbot wäre dazu in der Lage, eine solche Anleitung zu liefern.

Große KI-Modelle werden bisher durch ein Verfahren namens Red-Teaming gegen solche Gefahren gesichert. Allerdings ist diese Methode bisher nicht sehr effektiv und besonders zeitaufwendig.

Denn aktuell wird das Red-Teaming von menschlichen Tester:innen durchgeführt. Diese schreiben Aufforderungen an die KI-Modelle, die auf toxische Antworten abzielen. So werden dann die Modelle wiederum darauf trainiert, solche Antworten künftig zu vermeiden.

Allerdings funktioniert das nur effektiv, „wenn die Ingenieure wissen, welche toxischen Prompts sie verwenden müssen“, wie Science Daily anmerkt.

Wenn menschliche Tester einige Aufforderungen übersehen, was bei der Vielzahl der Möglichkeiten wahrscheinlich ist, kann ein als sicher eingestufter Chatbot dennoch unsichere Antworten geben.

Red-Teaming durch KI-Systeme

Die Forschenden des MIT haben sich dieser Problematik angenommen. Mit einer neu entwickelten Technik konnten sie ein umfangreiches Red-Team-Sprachmodell trainieren.

Dieses wiederum kann nun automatisch verschiedene Aufforderungen generieren, um bei anderen Sprachmodellen Red-Teaming durchzuführen und so ein breiteres Spektrum an unerwünschten Antworten zu testen.

Sie erreichen dies, indem sie dem Red-Team-Modell beibringen, neugierig zu sein, wenn es Prompts schreibt, und sich auf neuartige Prompts zu konzentrieren, die toxische Reaktionen des Zielmodells hervorrufen.

„Im Moment muss jedes große Sprachmodell einen sehr langen Zeitraum des Red-Teaming durchlaufen, um seine Sicherheit zu gewährleisten“, erklärt Zhang-Wei Hong Hauptautor eines Artikels über diesen Red-Teaming-Ansatz.

Das ist nicht tragbar, wenn wir diese Modelle in sich schnell verändernden Umgebungen aktualisieren wollen. Unsere Methode ermöglicht eine schnellere und effektivere Qualitätssicherung.

Laut dem Bericht von Science Daily konnten die Forschenden mit diesem Verfahren das Red-Teaming mit der Hilfe von menschlichen Tester:innen deutlich übertreffen. Mit der Methode konnten die Forschenden nicht nur die Abdeckung der getesteten Eingaben im Vergleich zu anderen automatisierten Methoden erheblich verbessern. Auch konnten sie toxische Antworten aus einem Chatbot herausholen, den Menschen zuvor mit Schutzmechanismen ausgestattet hatten.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

Du möchtest nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 smarte Leser bekommen jeden Tag UPDATE, unser Tech-Briefing mit den wichtigsten News des Tages – und sichern sich damit ihren Vorsprung. Hier kannst du dich kostenlos anmelden.

STELLENANZEIGEN
Senior Manager Social Media (m/w/d)
TARGOBANK in Hauptverwaltung Düsseldorf
Praktikant/in Social Media (m/w/d)
Kids Camp America Gmbh in München, Frankfurt am Main...
Social Media Marketing Manager (d/w/m)
BavariaDirekt in München
Praktikant (w/m/d) Marketing & Social Med...
Bübchen Skincare GmbH in Düsseldorf
Junior Sales Manager (m/w/d) Online Marketing
Sellwerk GmbH & Co. KG in Düsseldorf, Dormagen, Duis...
Software Sales Manager / Software Business De...
RAYLASE GmbH in Wessling
Marketing Content Specialist (all genders)
The Boston Consulting Group GmbH - BCG in München
Digital Marketing Manager (m/w/d) in Vollzeit
Hisense Gorenje Germany GmbH in Garching bei München
Teile diesen Artikel
Folgen
Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.