So findest du heraus, ob deine Daten zum KI-Training genutzt werden

Du fragst dich, ob deine Daten für das KI-Training verwendet werden? Forschende haben sogenannte Copyright-Traps entwickelt, um genau das herauszufinden.

Es ist wie im Sport: Hinter einem guten KI-Modell steht auch ein gutes Training. Doch eine Künstliche Intelligenz benötigt für dieses Training Unmengen an Daten. Viele Urheber:innen sehen das jedoch kritisch, weil sie eventuell nicht möchten, dass Unternehmen ihre Inhalte oder Werke ohne Zustimmung für das Training von KI-Modellen nutzen.

Forschende des Imperial College London haben nun eine Möglichkeit entwickelt, um genau diese Daten aus dem KI-Training zu entlarven. Dabei handelt es sich um sogenannte Copyright-Traps, die der KI sozusagen eine Falle stellen.

Welche Daten nutzt KI für das Training?

Für die Einhaltung des Urheberrechts sind Copyright-Traps keine Neuigkeit. Doch nun können sie auch im Bereich Künstliche Intelligenz angewendet werden.

Yves-Alexandre de Montjoye, Professor am Imperial College London, der die Arbeit leitet, hat die Ergebnisse auf der International Conference on Machine Learning präsentiert. „Es besteht ein völliger Mangel an Transparenz in Bezug darauf, welche Inhalte zum Trainieren von Modellen verwendet werden, und wir glauben, dass dies verhindert, dass es ein echtes Gleichgewicht zwischen KI-Firmen und Urhebern von Inhalten gibt“, erklärt der Wissenschaftler.

Wie funktionieren Copyright-Traps?

Die Funktionsweise von diesen Fallen ist recht einfach. So können Urheber:innen in einem Datensatz beispielsweise ein Stück Text verstecken, das aber eigentlich überhaupt keinen Sinn ergibt. Nutzt ein KI-Modell dieses später, wird ersichtlich, dass der Datensatz für das KI-Training verwendet wurde.

Das Team des Imperial College London hat Sätze entwickelt, die im Englischen beispielsweise so aussehen: „It’s my favorite time of the year: the time between New Year’s and Easter; there are so many“. Übersetzt bedeutet das so viel wie: „Es ist meine Lieblingszeit im Jahr: die Zeit zwischen Neujahr und Ostern; es gibt so viele“.

So kannst du Copyright-Traps nutzen

Willst du auch eine solche Falle zum Einsatz bringen, kannst du bei GitHub fündig werden. Dort sind bereits Copyright Traps für Large Language Models verfügbar. Diese bieten dir das Skript und erzeugen auch Textfallen für die Überprüfung von KI.

Künftig dürfte dies allerdings noch einfacher werden. Denn das Team um Yves-Alexandre de Montjoye arbeitet an einem Tool. Mit diesem sollen Urheber:innen dann Copyright-Traps erstellen können, um sie in ihre Texte zu integrieren.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

THEMEN:Künstliche Intelligenz

Teile diesen Artikel

vonMaria Gramsch

Folgen

Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.

		Social Media Manager – Employer Brandin... THM GmbH in Leinefelde-Worbis
		Digital Campaign Manager/in (m/w/d) Mediaplanet Verlag Deutschland GmbH in Berlin
		Website Analyst (w/m/d) – Customer Sales 1&1 in Karlsruhe
		Marketing and Social Media Manager (m/w/d) ISB GmbH in Linkenheim, Karlsruhe
		(Senior) SAP BI Consultant (m/w/d) EDEKA IT Stiftung & Co. OHG in Hamburg, Mannheim, Moers

»UPDATE liefert genau das, was einen perfekten Newsletter ausmacht: Kompakte, aktuelle News, spannende Insights, relevante Trends aus Technologie & Wirtschaft. Prägnant, verständlich und immer einen Schritt voraus!«

– Lisa Osada, +110.000 Follower auf Instagram

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

		Social Media Manager – Employer Brandin... THM GmbH in Leinefelde-Worbis
		Praktikant / Werkstudent im Bereich Social Me... WESTFLEISCH SCE mbH in Münster
		Online-Marketingmanager (m/w/d) mit Social Media Ernst Klett Sprachen GmbH in Stuttgart
		Teamleiter (m/w/d) Customer Engagement / Soci... BBBank eG in Karlsruhe
		Student:in Social Media & Content Marketi... FOND OF GmbH in Köln
		Digital Campaign Manager/in (m/w/d) Mediaplanet Verlag Deutschland GmbH in Berlin
		Marketing and Social Media Manager (m/w/d) ISB GmbH in Linkenheim, Karlsruhe
		Content Marketing & Social Media Manager ... BVGE Consulting GmbH in Siegen

Copyright-Traps: So findest du heraus, ob deine Daten zum KI-Training genutzt werden

Welche Daten nutzt KI für das Training?

Wie funktionieren Copyright-Traps?

So kannst du Copyright-Traps nutzen

7 Dinge, die du über dynamische Stromtarife wissen solltest

Samsung Galaxy S26 Ultra für nur 0,84 € im Business Prime XL sichern

Samsung Galaxy Tab S11 Ultra: Galaxy AI für Studium und Job

Welche Daten nutzt KI für das Training?

Wie funktionieren Copyright-Traps?

So kannst du Copyright-Traps nutzen

LESEEMPFEHLUNGEN

Smarter als dein Feed