Wir benutzen Cookies, um die Nutzerfreundlichkeit der Website zu verbessern. Durch deinen Besuch stimmst du dem Datenschutz zu.
Alles klar!
BASIC thinking Logo Dark Mode BASIC thinking Logo Dark Mode
  • TECH
    • Apple
    • Android
    • ChatGPT
    • Künstliche Intelligenz
    • Meta
    • Microsoft
    • Quantencomputer
    • Smart Home
    • Software
  • GREEN
    • Elektromobilität
    • Energiewende
    • Erneuerbare Energie
    • Forschung
    • Klima
    • Solarenergie
    • Wasserstoff
    • Windkraft
  • SOCIAL
    • Facebook
    • Instagram
    • TikTok
    • WhatsApp
    • X (Twitter)
  • MONEY
    • Aktien
    • Arbeit
    • Die Höhle der Löwen
    • Finanzen
    • Start-ups
    • Unternehmen
    • Marketing
    • Verbraucherschutz
Newsletter
Font ResizerAa
BASIC thinkingBASIC thinking
Suche
  • TECH
  • GREEN
  • SOCIAL
  • MONEY
  • ENTERTAIN
  • NEWSLETTER
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
Künstliche Intelligenz, Roboter, Wolkenkratzer
TECH

Künstliche Intelligenz erzieht andere Künstliche Intelligenz

Maria Gramsch
Aktualisiert: 12. April 2024
von Maria Gramsch
Adobe Stock / nespix
Teilen

Der Hype um Künstliche Intelligenz hat auch deren Schattenseiten verstärkt in den Fokus gerückt. Forschende arbeiten derzeit an einer Methode, um KI so zu trainieren, dass sie keine toxischen Antworten formuliert.

Künstliche Intelligenz mit Künstlicher Intelligenz zu trainieren klingt erst einmal wie ein Paradoxon. Diese Methode könnte allerdings die Lösung dafür sein, dass KI-Systeme keine toxischen Antworten mehr ausspucken.

Forschende vom Improbable AI Lab am MIT und des MIT-IBM Watson AI Labs haben genau dieser Problematik nun ins Auge gefasst. Wie Science Daily berichtet, soll dabei Red-Teaming zum Einsatz kommen.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 10.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück AirPods 4 gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Wie kann Künstliche Intelligenz eine andere Künstliche Intelligenz trainieren?

Mit dem Erfolg von KI-Systemen wie ChatGPT und Co. werden auch die Gefahren von Künstlicher Intelligenz immer stärker diskutiert. Ein Team des MIT hat sich nun einem dieser Sicherheitsprobleme angenommen.

Denn KI ist nicht nur dazu in der Lage, nützliche Antworten zu geben und Menschen damit zu helfen. Auch toxische Antworten sind möglich. Beispielsweise könnte ein Nutzer ChatGPT bitten, ihm zu erklären, wie er eine Bombe bauen kann, wie Science Daily beschreibt. Der Chatbot wäre dazu in der Lage, eine solche Anleitung zu liefern.

Große KI-Modelle werden bisher durch ein Verfahren namens Red-Teaming gegen solche Gefahren gesichert. Allerdings ist diese Methode bisher nicht sehr effektiv und besonders zeitaufwendig.

Denn aktuell wird das Red-Teaming von menschlichen Tester:innen durchgeführt. Diese schreiben Aufforderungen an die KI-Modelle, die auf toxische Antworten abzielen. So werden dann die Modelle wiederum darauf trainiert, solche Antworten künftig zu vermeiden.

Allerdings funktioniert das nur effektiv, „wenn die Ingenieure wissen, welche toxischen Prompts sie verwenden müssen“, wie Science Daily anmerkt.

Wenn menschliche Tester einige Aufforderungen übersehen, was bei der Vielzahl der Möglichkeiten wahrscheinlich ist, kann ein als sicher eingestufter Chatbot dennoch unsichere Antworten geben.

Red-Teaming durch KI-Systeme

Die Forschenden des MIT haben sich dieser Problematik angenommen. Mit einer neu entwickelten Technik konnten sie ein umfangreiches Red-Team-Sprachmodell trainieren.

Dieses wiederum kann nun automatisch verschiedene Aufforderungen generieren, um bei anderen Sprachmodellen Red-Teaming durchzuführen und so ein breiteres Spektrum an unerwünschten Antworten zu testen.

Sie erreichen dies, indem sie dem Red-Team-Modell beibringen, neugierig zu sein, wenn es Prompts schreibt, und sich auf neuartige Prompts zu konzentrieren, die toxische Reaktionen des Zielmodells hervorrufen.

„Im Moment muss jedes große Sprachmodell einen sehr langen Zeitraum des Red-Teaming durchlaufen, um seine Sicherheit zu gewährleisten“, erklärt Zhang-Wei Hong Hauptautor eines Artikels über diesen Red-Teaming-Ansatz.

Das ist nicht tragbar, wenn wir diese Modelle in sich schnell verändernden Umgebungen aktualisieren wollen. Unsere Methode ermöglicht eine schnellere und effektivere Qualitätssicherung.

Laut dem Bericht von Science Daily konnten die Forschenden mit diesem Verfahren das Red-Teaming mit der Hilfe von menschlichen Tester:innen deutlich übertreffen. Mit der Methode konnten die Forschenden nicht nur die Abdeckung der getesteten Eingaben im Vergleich zu anderen automatisierten Methoden erheblich verbessern. Auch konnten sie toxische Antworten aus einem Chatbot herausholen, den Menschen zuvor mit Schutzmechanismen ausgestattet hatten.

Auch interessant:

  • Kampfansage an Nvidia: Intel und Google präsentieren eigene KI-Chips
  • KI kann Verständnis und Sprache von Kindern imitieren – sagt Studie
  • Künstliche Intelligenz kann Flutkatastrophen vorhersagen – präziser als je zuvor
  • TacticAI: Künstliche Intelligenz als Taktik-Assistent im Fußball
BASIC thinking WhatsApp Kanal
STELLENANZEIGEN
Online Marketing Manager (m/w/d)
EAT HAPPY GROUP in Köln
Digital Content & Social Media Manager (w...
Breakthrough-Consulting GmbH Michae... in Aschaffenburg
Referentin / Referent (w/m/d) Compliance und ...
kbo - Kliniken des Bezirks Oberbayern - K... in München
Social Media Manager – Content Creation...
Breakthrough-Consulting GmbH Michae... in Aschaffenburg
(Junior) Social Media Manager / Content Creat...
EDEKA ZENTRALE Stiftung & Co. KG in Hamburg
Social Media Manager (w/m/d)
Breakthrough-Consulting GmbH Michae... in Aschaffenburg
Senior Social Media Strategist (m/w/d)
profection GmbH & Co. KG in Lüdenscheid,Köln,Düsseldorf
Social Media Manager – YouTube (w/m/d)
Breakthrough-Consulting GmbH Michae... in Aschaffenburg
THEMEN:Künstliche Intelligenz
Teile diesen Artikel
Facebook Flipboard Whatsapp Whatsapp LinkedIn Threads Bluesky Email
vonMaria Gramsch
Folgen:
Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.
WA Kanal AirPods Square
EMPFEHLUNG
Strom-Wechselservice Wechselpilot-2
Strom-Wechselservice: Was bringt dir der Service wirklich?
Anzeige MONEY
PŸUR Black Friday
Black Friday bei PŸUR: Highspeed-Internet zu echten Dauertiefpreisen sichern
Anzeige TECH
Testimonial LO

»UPDATE liefert genau das, was einen perfekten Newsletter ausmacht: Kompakte, aktuelle News, spannende Insights, relevante Trends aus Technologie & Wirtschaft. Prägnant, verständlich und immer einen Schritt voraus!«

– Lisa Osada, +110.000 Follower auf Instagram

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

LESEEMPFEHLUNGEN

Powerness
AnzeigeTECH

Jetzt einsteigen: Das Powerness Solarbank 3 Pro Paket für deinen ersten eigenen Strom

Elektrosmog, Gesundheit, Studie, Forschung, Gefahr, Elektroautos, Elektromobilität, ADAC, Deutschland, Strahlung, Strahlenschutz
TECH

Elektrosmog: Stellen E-Autos eine Gefahr für die Gesundheit dar?

GPT-5.1 Update ChatGPT Persönlichkeiten
BREAK/THE NEWSTECH

Identitätsstörung? GPT-5.1 haucht ChatGPT multiple Persönlichkeiten ein

Hostinger AI Website Builder
AnzeigeTECH

Schnell zur eigenen Website: So einfach geht’s mit dem Hostinger AI Website Builder

Organische Solarzellen
GREENTECH

Forscher entdecken Molekül für günstigere und bessere Solarzellen

KI-Modus Quellen Deutschland Google AI Mode
TECH

KI-Modus von Google: Die Top-Quellen in Deutschland

Mehr anzeigen
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
  • Über uns
  • Mediadaten
  • Impressum
  • Datenschutz

Die besten Tech-Deals: Folge unserem WhatsApp-Kanal & gewinne AirPods Pro 3

BASIC thinking TECH-DEALS WhatsApp QR-Code

AGB gelten: bscthnkng.de/agbwa

Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?