wie gut sind KI-Detektoren KI-Scanner Künstliche Intelligenz

Zwischen Plagiaten und Rufmord: Wie gut sind KI-Detektoren?

Fabian Peters
Bild: DepositPhotos

Neun Prozent aller Zeitungsartikel in den USA sollen laut einer Studie bereits KI-generierte Inhalte enthalten. KI-Detektoren wie Pangram oder GPTZero versprechen, solche Texte zuverlässig zu entlarven. Doch zwischen Werbeversprechen und Realität klafft eine Lücke, die für Redaktionen und Leser gleichermaßen zu einem Problem werden könnte. Eine kommentierende Analyse.

BREAK THE NEWS BASIC thinking

Unser exklusives Format »Break the News«, in dem wir aktuelle Nachrichten in ihre Einzelteile zerlegen, erscheint immer zuerst in UPDATE, unserem täglichen Tech-Briefing. Hier kannst du dich über 12.000 anderen Lesern anschließen und dich kostenlos anmelden:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

Wie funktionieren KI-Detektoren?

  • Forscher der Universität Maryland haben 2025 über 180.000 Artikel aus 1.500 Zeitungen untersucht und einen KI-Anteil von rund neun Prozent ausgemacht. Der Schluss: Künstliche Intelligenz sei mittlerweile ein fester Bestandteil bei Medien und Verlagen. Auch in Deutschland sorgten zuletzt einige Fälle für Furore. Der Tagesspiegel hat etwa die Zusammenarbeit mit seinem ehemaligen Chefredakteur und Herausgeber Stephan-Andreas Casdorff beendet, nachdem man ihn überführt hatte, seine Texte mit KI zu schreiben, ohne dies kenntlich zu machen. Axel-Springer-Chef Mathias Döpfner hat wiederum einen 100-prozentigen KI-Text veröffentlicht, aber kenntlich gemacht. Die Kritik: Döpfner würde das Denken auslagern beziehungsweise aufgeben.
  • KI-Detektoren versprechen, künstlich generierte Texte als solche erkennen zu können. Zu den bekanntesten Tools gehören unter anderem Pangram, GPTZero, Copyleaks, Originality AI oder Scribbr. Wie das US-Magazin The Atlantic berichtet, sind diese Detektoren mittlerweile effektiv genug für einen breiten Einsatz, aber nicht zuverlässig genug, um ihnen voll und ganz zu vertrauen. In den USA sei sogar ein regelrechtes Pangram-Problem eingetreten. Denn neben falschen Verdachtsmomenten findet ein Wettrüsten zwischen KI-Chatbots und KI-Detektoren statt, die beide zwar nicht nutzlos sind, aber nur ein Spiegelbild des jeweils anderen. Pangram kam auch bei der Analyse von Texten von Digitalminister Carsten Wildberger und dem thüringischen Ministerpräsidenten Mario Voigt zum Einsatz.
  • Tools zur Überprüfung von KI-Texten untersuchen massenhaft Inhalte auf bestimmte Muster, um Texte dann mit diesen Mustern abzugleichen. Pangram kommt laut eigenen Angaben auf eine Trefferquote von 99,98 Prozent. Andere Anbieter versprechen eine vergleichbar hohe Genauigkeit. Pangram verspricht aber eine geringere Fehlerquote durch regelmäßiges Training. Laut einem Test der University of Chicago aus dem vergangenen Jahr erklärte Pangram fast keinen der 3.000 getesteten Texte fälschlicherweise als KI-generiert. In eigenen Tests war sogar nur jeder zehntausendste Text falsch positiv.

Warum hohe Trefferquoten in die Irre führen

Die Suche nach einem KI-Fingerabdruck in Texten wird immer schwieriger. Und das ist kein Zufall. Denn: Sprachmodelle werden mit Milliarden menschlicher Texte trainiert. Sie kopieren zwar keine festen Formulierungen, dafür aber statistische Muster von Stilen, Satzbau und Sprachrhythmen. Das führt mitunter zu skurrilen Verdachtsmomenten. Plötzlich geraten etwa Autoren ins Visier, weil sie häufig Gedankenstriche setzen oder ungewöhnlich gleichmäßige Sätze schreiben, ohne KI zu nutzen. Das grenzt an Rufmord!

KI-Texte lassen sich mittlerweile aber auch nachträglich gezielt überarbeiten oder von eigens entwickelten Tools umschreiben, um weniger nach KI zu klingen. Die prozentualen Erkennungswerte vieler KI-Detektoren jenseits der 90 Prozent fördern zudem ein Missverständnis. Denn: Ein Test, der fast immer anschlägt, erkennt zwar nahezu alle KI-Texte, stuft aber eben auch solche als positiv ein, die keine sind.

Entscheidend ist deshalb nicht nur, wie oft ein Detektor richtig liegt, sondern auch, wie oft er danebenliegt und wie viele KI-Texte ihm entgehen. Diese Werte speisen die Anbieter jedoch nicht in ihre Erkennungsrate mit ein. Pangram liefert beispielsweise auch dazu Zahlen, aber eher im Kleingedruckten. Inklusive falsch-negativen Scans liegt die Quote nämlich nur noch bei 85 Prozent. Sprich: Jeder siebte bis achte KI-Text bleibt unentdeckt.

Andere Tools wie GPTZero entlarven zwar etwas mehr künstliche Inhalte, erkaufen sich diesen Vorsprung aber auch durch irrtümliche Verdächtigungen. Die Ironie daran: Dieselben Detektoren werden inzwischen auch genutzt, um Texte gezielt so umzuschreiben, dass sie künftige Prüfungen bestehen. Sprich: Das Wettrüsten findet längst auf beiden Seiten statt.

Stimmen

  • Bradley Emi and Max Spero, die Gründer von Pangram, zum Thema Ethik und einem verantwortungsbewussten Umgang ihres Detektors in einem technischen Report aus dem Jahr 2024: „Alle KI-Erkennungswerkzeuge weisen eine von Null verschiedene Falsch-Positiv-Rate auf und sollten in Verbindung mit anderen Beweisen verwendet werden, um ein Plagiat zu bestätigen oder zu widerlegen. Die KI-Erkennung ist weder ein Ersatz noch ein zuverlässiges Instrument, um die Sachlichkeit oder Richtigkeit von Textinformationen wie Nachrichten und Medieninhalten nachzuweisen.“
  • Mika Beuster, Bundesvorsitzender des Deutschen Journalisten Verbands, in einem Statement: „Die aktuelle Diskussion um Künstliche Intelligenz in journalistischen Texten zeigt, dass die Glaubwürdigkeit des Journalismus auf dem Spiel steht. Es geht um Transparenz und nicht um die Verteufelung einer neuen Technologie, denn KI kann etwa bei der Recherche ein hilfreiches Werkzeug für Medienschaffende sein.“
  • Danica Bensmail, Bundesgeschäftsführerin der Deutschen Journalistinnen- und Journalisten-Union (dju), schlägt in eine ähnliche Kerbe: „Verlage und Medienunternehmen stehen presseethisch in der Verantwortung, auch wenn Inhalte mithilfe von Künstlicher Intelligenz erstellt werden. Wer hier ohne Regeln agiert, riskiert die eigene Existenzgrundlage. KI darf nur in dem Maß genutzt werden, wie es zwischen Redaktionen und Verlag verbindlich vereinbart ist. Verlagsführungen, die KI ohne Regeln einsetzen oder sich über bestehende Nutzungsvereinbarungen hinwegsetzen, entwerten damit journalistische Arbeit.“

Kennzeichnungspflicht statt KI-Detektoren

Skurril: Vor allem die Anbieter selbst bremsen mitunter die Erwartungen an ihre KI-Detektoren. Damit lassen sich viele Anbieter trotz großer Werbeversprechen im Kleingedruckten ein kleines Hintertürchen offen – auch aus rechtlichen Gründen. Dennoch: KI-Detektoren können Hinweise auf künstlich generierte Inhalte liefern, aber keine journalistische oder wissenschaftliche Beweisführung ersetzen. Denn wer aus Prozentwerten ein Urteil ableitet, verwechselt Wahrscheinlichkeit mit Gewissheit.

Für die Medien verlagert sich die Debatte derweil weg von einer reinen technischen Erkennung hin zu mehr Transparenz. Verpflichtende Kennzeichnungen für den Einsatz von KI in journalistischen Beiträgen sind dabei längst überfällig – etwa über den Pressekodex. Denn: Es geht vor allem um Glaubwürdigkeit und einen drohenden Vertrauensverlust, der für das eine oder andere Medium erhebliche Folgen haben könnte.

Es braucht aber auch Aufklärung und Richtlinien, was den Einsatz von KI-Detektoren betrifft. Algorithmen und Wahrscheinlichkeiten darf nämlich keine Detektivarbeit überlassen werden, da sie keine Gewissheit liefern. Vielmehr könnte sich der eine oder andere durch irrtümliche Verdächtigungen ins eigene Fleisch schneiden. Sprich: Sowohl KI-Texte als auch KI-Detektoren, die solche Texte erkennen sollen, können falsche Antworten liefern, die nicht in einer Hexenjagd münden dürfen.

Auf EU-Ebene nimmt deshalb bereits der Druck zu, KI-Texte durch vorgeschlagene Symbole zu kennzeichnen, sofern keine redaktionelle Überprüfung eines haftenden Verantwortlichen stattgefunden hat. Letztlich wird aber kein Gesetz und kein Detektor den Nutzern oder Redaktionen dabei helfen, KI-Texte zweifellos zu erkennen. Medien, die auf Kennzeichnungen, redaktionelle Richtlinien und Transparenz setzen, könnten aber zu den Profiteuren gehören.

BREAK THE NEWS BASIC thinking

Unser exklusives Format »Break the News«, in dem wir aktuelle Nachrichten in ihre Einzelteile zerlegen, erscheint immer zuerst in UPDATE, unserem täglichen Tech-Briefing. Hier kannst du dich über 12.000 anderen Lesern anschließen und dich kostenlos anmelden:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

Auch interessant: 

STELLENANZEIGEN
Social Media Manager (m/w/d)
M.M.Warburg & CO (AG & Co.) KGaA in Hamburg
Online Marketing Manager mit Grafikkenntnisse...
Katlenburger Kellerei GmbH & Co. KG in Katlenburg-Li...
Duales Studium Informatik (B.Sc.) am virtuell...
IU Internationale Hochschule in Bad Homburg vor der ...
Sales Manager (m/w/d) Online Marketing
Sellwerk GmbH & Co. KG in Allersberg, Greding, Neuma...
Werkstudent (m/w/d) im Bereich Webdesign &amp...
ALFIX GmbH in Großschirma bei Freiberg
Mitarbeiter*in Digitale Kommunikation (Websit...
Leibniz-Institut für Wissensmedien (IWM) in Tübingen
Praktikant Medienmanagement mit Schwerpunkt S...
Interhyp Gruppe in München
Medieninformatiker / Medienpädagoge / Informa...
Landesamt für Digitalisierung, Br... in Bad Neustadt...
Teile diesen Artikel
Chefredakteur
Folgen
Fabian Peters ist seit Januar 2022 Chefredakteur von BASIC thinking. Zuvor war er als Redakteur und freier Autor tätig. Er studierte Germanistik & Politikwissenschaft an der Universität Kassel (Bachelor) und Medienwissenschaften an der Humboldt-Universität zu Berlin (Master).
Keine Kommentare