Daten KI-Training, KI, Künstliche Intelligenz, Copyright-Traps

Copyright-Traps: So findest du heraus, ob deine Daten zum KI-Training genutzt werden

Maria Gramsch
Adobe Stock / Urupong

Du fragst dich, ob deine Daten für das KI-Training verwendet werden? Forschende haben sogenannte Copyright-Traps entwickelt, um genau das herauszufinden.

Es ist wie im Sport: Hinter einem guten KI-Modell steht auch ein gutes Training. Doch eine Künstliche Intelligenz benötigt für dieses Training Unmengen an Daten. Viele Urheber:innen sehen das jedoch kritisch, weil sie eventuell nicht möchten, dass Unternehmen ihre Inhalte oder Werke ohne Zustimmung für das Training von KI-Modellen nutzen.

Forschende des Imperial College London haben nun eine Möglichkeit entwickelt, um genau diese Daten aus dem KI-Training zu entlarven. Dabei handelt es sich um sogenannte Copyright-Traps, die der KI sozusagen eine Falle stellen.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Apple AirPods gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Welche Daten nutzt KI für das Training?

Für die Einhaltung des Urheberrechts sind Copyright-Traps keine Neuigkeit. Doch nun können sie auch im Bereich Künstliche Intelligenz angewendet werden.

Yves-Alexandre de Montjoye, Professor am Imperial College London, der die Arbeit leitet, hat die Ergebnisse auf der International Conference on Machine Learning präsentiert. „Es besteht ein völliger Mangel an Transparenz in Bezug darauf, welche Inhalte zum Trainieren von Modellen verwendet werden, und wir glauben, dass dies verhindert, dass es ein echtes Gleichgewicht zwischen KI-Firmen und Urhebern von Inhalten gibt“, erklärt der Wissenschaftler.

Wie funktionieren Copyright-Traps?

Die Funktionsweise von diesen Fallen ist recht einfach. So können Urheber:innen in einem Datensatz beispielsweise ein Stück Text verstecken, das aber eigentlich überhaupt keinen Sinn ergibt. Nutzt ein KI-Modell dieses später, wird ersichtlich, dass der Datensatz für das KI-Training verwendet wurde.

Das Team des Imperial College London hat Sätze entwickelt, die im Englischen beispielsweise so aussehen: „It’s my favorite time of the year: the time between New Year’s and Easter; there are so many“. Übersetzt bedeutet das so viel wie: „Es ist meine Lieblingszeit im Jahr: die Zeit zwischen Neujahr und Ostern; es gibt so viele“.

So kannst du Copyright-Traps nutzen

Willst du auch eine solche Falle zum Einsatz bringen, kannst du bei GitHub fündig werden. Dort sind bereits Copyright Traps für Large Language Models verfügbar. Diese bieten dir das Skript und erzeugen auch Textfallen für die Überprüfung von KI.

Künftig dürfte dies allerdings noch einfacher werden. Denn das Team um Yves-Alexandre de Montjoye arbeitet an einem Tool. Mit diesem sollen Urheber:innen dann Copyright-Traps erstellen können, um sie in ihre Texte zu integrieren.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

Du möchtest nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 smarte Leser bekommen jeden Tag UPDATE, unser Tech-Briefing mit den wichtigsten News des Tages – und sichern sich damit ihren Vorsprung. Hier kannst du dich kostenlos anmelden.

STELLENANZEIGEN
Social Media Manager – Employer Brandin...
THM GmbH in Leinefelde-Worbis
Praktikant / Werkstudent im Bereich Social Me...
WESTFLEISCH SCE mbH in Münster
Online-Marketingmanager (m/w/d) mit Social Media
Ernst Klett Sprachen GmbH in Stuttgart
Teamleiter (m/w/d) Customer Engagement / Soci...
BBBank eG in Karlsruhe
Student:in Social Media & Content Marketi...
FOND OF GmbH in Köln
Digital Campaign Manager/in (m/w/d)
Mediaplanet Verlag Deutschland GmbH in Berlin
Marketing and Social Media Manager (m/w/d)
ISB GmbH in Linkenheim, Karlsruhe
Content Marketing & Social Media Manager ...
BVGE Consulting GmbH in Siegen
Teile diesen Artikel
Folgen
Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.