Wir benutzen Cookies, um die Nutzerfreundlichkeit der Website zu verbessern. Durch deinen Besuch stimmst du dem Datenschutz zu.
Alles klar!
BASIC thinking Logo Dark Mode BASIC thinking Logo Dark Mode
  • TECH
    • Apple
    • Android
    • ChatGPT
    • Künstliche Intelligenz
    • Meta
    • Microsoft
    • Quantencomputer
    • Smart Home
    • Software
  • GREEN
    • Elektromobilität
    • Energiewende
    • Erneuerbare Energie
    • Forschung
    • Klima
    • Solarenergie
    • Wasserstoff
    • Windkraft
  • SOCIAL
    • Facebook
    • Instagram
    • TikTok
    • WhatsApp
    • X (Twitter)
  • MONEY
    • Aktien
    • Arbeit
    • Die Höhle der Löwen
    • Finanzen
    • Start-ups
    • Unternehmen
    • Marketing
    • Verbraucherschutz
Newsletter
Font ResizerAa
BASIC thinkingBASIC thinking
Suche
  • TECH
  • GREEN
  • SOCIAL
  • MONEY
  • ENTERTAIN
  • NEWSLETTER
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
Indiana-Jones-Methode, KI, Künstliche Intelligenz
TECH

Forscher entlarven schädliche KI-Inhalte – mit Indiana-Jones-Methode

Maria Gramsch
Aktualisiert: 25. Februar 2025
von Maria Gramsch
Adobe Stock / Budairomi
Teilen

Forscher haben eine neue Methode entwickelt, um schädliche KI-Inhalte zu identifizieren. Mit ihrem selbsternannten Indiana-Jones-Ansatz konnten sie die Sicherheitsvorkehrungen von großen Sprachmodellen umgehen, um potenzielle Gefahren zu entlarven. 

Der Sicherheitsaspekt von KI-Systemen ist ein heiß diskutiertes Thema. Forscher sind immer wieder auf der Suche nach Möglichkeiten, die Sicherheitsvorkehrungen von großen Sprachmodellen zu umgehen, um auf mögliche Risiken hinzuweisen.

Wissenschaftlern der australischen University of New South Wales und der Nanyang Technological University in Singapur ist es nun gelungen, eine Jailbreak-Software zu entwickeln, um große Sprachmodelle auszutricksen. Ihren Ansatz tauften sie Indiana Jones-Methode.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 10.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Apple AirPods 4 gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Forscher identifizieren schädliche KI-Inhalte

Für ihren Ansatz haben die Forscher drei Sprachmodellen eingesetzt. Diese kommunizieren so miteinander, dass sie einen Angriff auf das Ziel-Sprachmodell koordinieren.

In ihrem Paper beschreiben die Forscher ihre Vorgehensweise, bei der Referenzen zu historischen Personen zum Einsatz kamen. Es gelang ihnen, schädliche KI-Inhalte aus den Sprachmodellen zu ziehen, ohne deren integrierte Sicherheitsmaßnahmen auszulösen. Die Forschen benannten ihre Methode, nach dem Filmhelden Indiana Jones, da ihr Vorgehen dem des berühmten Archäologe aus der Filmreihe ähnelt.

„Unser Team ist fasziniert von Geschichte und einige von uns beschäftigen sich sogar intensiv damit“, erklärt Hauptautor Yuekang Li gegenüber Tech Xplore. „Während einer beiläufigen Diskussion über berüchtigte historische Schurken fragten wir uns: Könnte man LLMs dazu bringen, den Nutzern beizubringen, wie sie zu diesen Figuren werden?“

Diese Frage brachte das Forscherteam dazu, große Sprachmodelle genauer unter die Lupe zu nehmen. Ihr Ergebnis zeigt, „dass LLMs tatsächlich auf diese Weise geknackt werden können“, so Li.

Wie funktioniert die Indiana Jones-Methode?

Das Forscherteam um Yuekang Li will mit der neuen Methode die Anfälligkeit von Sprachmodellen aufdecken. So soll es möglich sein, neue und bessere Sicherheitsmaßnahmen zu entwickeln, damit Schwachstellen in Zukunft vermieden werden können.

Für ihre Indiana-Jones-Methode ist dabei nur ein einziges Schlüsselwort notwendig. Ein Sprachmodell wird beispielsweise aufgefordert, historische Figuren oder Ereignisse aufzulisten, die für das Schlüsselwort relevant sind.

Gibt ein Nutzer beispielsweise das Schlüsselwort „Bankräuber“ ein, so bringt die Indiana Jones-Methode das jeweilige Sprachmodell dazu, über berühmte Bankräuber zu sprechen. Über mehrere Runden wurden die Abfragen nach und nach so verfeinert, dass sie auf moderne Szenarien anwendbar sind.

Mit leichten Anpassungen könnten die Schwachstellen der Sprachmodelle laut den Forschern im schlimmsten Fall für illegale oder bösartige Aktivitäten genutzt werden. „Die wichtigste Erkenntnis unserer Studie ist, dass erfolgreiche Jailbreak-Angriffe die Tatsache ausnutzen, dass LLMs über Wissen über bösartige Aktivitäten verfügen – Wissen, das sie wohl gar nicht erst hätten erwerben sollen“, erklärt Li.

Auch interessant:

  • Lithium-Nickel-Oxid-Batterien: Forscher lösen jahrzehntealtes Rätsel
  • Einen Vertrag mit KI erstellen – darauf musst du achten
  • Bybit: Größter Krypto-Diebstahl aller Zeiten – steckt Nordkorea dahinter?
  • Warum Apple-Produkte auf Amazon meist günstiger sind

Du möchtest nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 10.000 smarte Leser bekommen jeden Tag UPDATE, unser Tech-Briefing mit den wichtigsten News des Tages – und sichern sich damit ihren Vorsprung. Hier kannst du dich kostenlos anmelden.

STELLENANZEIGEN
Praktikum Employer Branding – Social Me...
DOUGLAS Group in Düsseldorf
HR Manager (m/w/d) Recruiting & Social Me...
Dierkes Gruppe GmbH in Dortmund
Senior Manager E-Commerce (m/w/d)
Fliegl Agro-Center GmbH in Kastl
Marketing Manager (m/w/d) Communications &amp...
Baugenossenschaft Wiederaufbau eG in Braunschweig
Social Media Manager (m/w/d)
DIAL GmbH in Lüdenscheid
Content Producer (m/w/d)
BAUHAUS in Mannheim
Social Media Manager (m/w/d) Presse & Öff...
HPM Service und Verwaltung GmbH in Hamburg
Sachbearbeiter:in (w/m/d) Öffentlichkeitsarbe...
Stadt Frankfurt am Main - DER MAG... in Frankfurt am...
THEMEN:Künstliche IntelligenzNews
Teile diesen Artikel
Facebook Flipboard Whatsapp Whatsapp LinkedIn Threads Bluesky Email
vonMaria Gramsch
Folgen:
Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.
EMPFEHLUNG
goneo eigener Chatserver-2
goneo: Dein eigener Chatserver für Teams, Familie & Freunde
Anzeige TECH
naturstrom smartapp
Smart Charging: Schnell und einfach E-Auto laden mit der naturstrom smartapp
Anzeige GREEN
eSchwalbe
E-Roller-Deal: Jetzt eSchwalbe für nur 29 Euro im Monat sichern
Anzeige TECH
Testimonial LO

»UPDATE liefert genau das, was einen perfekten Newsletter ausmacht: Kompakte, aktuelle News, spannende Insights, relevante Trends aus Technologie & Wirtschaft. Prägnant, verständlich und immer einen Schritt voraus!«

– Lisa Osada, +110.000 Follower auf Instagram

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

LESEEMPFEHLUNGEN

Apple KI Mistral Perplexity Künstliche Intelligenz
BREAK/THE NEWSMONEY

Im Krisenmodus: Schafft Apple KI oder schafft KI Apple?

Parkplatz Strom, Batteriegroßspeicher, Energie, erneuerbare Energie, Solarenergie, Windenergie, Energiewende, Klimawandel
GREENTECH

Parkplatz für Strom: Batteriegroßspeicher sichern erneuerbare Energie

beste Auto-Software Hersteller
TECH

Auto-Software: Die besten Hersteller im Digital-Ranking

KI Wissenschaft Forschung Fake Studien Künstliche Intelligenz
BREAK/THE NEWSTECH

KI in der Wissenschaft: Fake-Forschung für Fortgeschrittene

KI Unternehmen scheitern ineffizient Künstliche Intelligenz Millionengrab
MONEYTECH

Millionengrab: Warum viele Unternehmen an KI scheitern

Smart Contracts Deutschland
MONEYTECH

Smart-Contracts: Verpennt Deutschland die nächste Innovation?

Mehr anzeigen
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
  • Über uns
  • Mediadaten
  • Impressum
  • Datenschutz

HAMMER-DEAL mit 45 km/h:
eSchwalbe für 29€ pro Monat

eschwalbe

Anzeige

Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?