Technologie

Mensch oder Maschine? 5 KI-Checker im Test

KI-Checker, Test, AI-checker, KI, Künstliche Intelligenz, Ki-Texte erkennen, Künstliche Intelligenz erkennen
Adobe Stock/ vegefox.com
geschrieben von Fabian Peters

Spätestens seit dem Release von ChatGPT ist das Thema Künstliche Intelligenz in aller Munde. Denn: Die Texte von KI-Sprachmodellen lassen sich von menschlichen kaum mehr unterscheiden. Mittlerweile gibt es aber sowohl Indizien, die auf KI-Texte hindeuten können, als auch sogenannten KI-Checker. Ein Testbericht. 

Das Thema Künstliche Intelligenz erlebt derzeit einen regelrechten Hype. Spätestens sei dem Release von ChatGPT ist nämliche eines klar: KI-Texte lassen sich von menschlichen kaum noch unterscheiden.

Dennoch gibt es einige Indizien, die auf Künstliche Intelligenz als Urheber von Texten hindeuten. Vor allem sogenannte KI-Checker versprechen jedoch Abhilfe. Sie sollen menschliche von KI-Texten unterscheiden können. Doch wie gut und zuverlässig sind die Tools wirklich? Wir haben fünf Anbieter exemplarisch getestet.

KI-Checker im Test: Wie zuverlässig erkennen die Tools KI-Texte?

Um die KI-Checker beurteilen zu können, haben wir die Tools verschiedene Text analysieren lassen, die wir bereits für unseren einen Vergleich von ChatGPT 3.5 und der Version 4.0 herangezogen haben.

Dafür haben wir beide Versionen einen Text mit 100 Wörtern zu den Anfängen des iPhones sowie drei Sätze dazu, wie Twitter funktioniert, schreiben lassen. Außerdem haben zu beiden Anforderungen selbst einen jeweiligen Text verfasst.

Beide Versionen von ChatGPT konnten dabei mit Sachlichkeit überzeugen, wobei GPT 3.5 sogar menschlicher wirkte. Doch erkennen die KI-Checker, dass es sich um die Texte von einer Künstlichen Intelligenz handelt?

1. AI Text Classifier: Der KI-Checker von OpenAI

Der sogenannte „AI Text Classifier“ ist ein Tool von ChatGPT-Entwickler OpenAI selbst. Doch kann der KI-Checker die Texte seiner hauseigenen Künstlichen Intelligenz erkennen? Im Gegensatz zu einigen anderen Anbietern ist OpenAI etwas zurückhaltender. Das Unternehmen schreibt zu seinem Tool:

„Der Klassifikator ist nicht immer genau; er kann sowohl KI-generierte als auch von Menschen geschriebenen Text falsch kennzeichnen.“ Um einen Check durchzuführen verlangt der „AI Text Classifier“ derweil einen Beitrag mit mindestens 1.000 Zeichen. Das entspricht je nach Länge ungefähr 150 bis 250 Wörtern.

KI-Texte erkennen

Was die Zeichenanzahl angeht mussten wir unsere Anforderung an ChatGPT 3.5 und 4.0 also noch einmal umformulieren. Unser eigener Text reichte von der Länge hingegen aus. Das Ergebnis zum „menschlichen“-Inhalt: „Der Klassifikator betrachtet den Text als unklar, wenn er von einer künstlichen Intelligenz generiert wurde.“

Den Text von ChatGPT 3.5 stuft der KI-Checker wiederum als „wahrscheinlich KI-generiert“ ein. Gleiches gilt für den Inhalt der Version GPT 4.0. Da die beiden KI-Modelle aus dem eigenen Unternehmen stammen, dürfte das jedoch nicht wirklich überraschen.

Der drei Sätze lange Twitter-Text ist für die Anforderungen derweil zu kurz. Verlängern wir den Inhalt, kommt ein ähnliches Ergebnis wie bei dem iPhone-Text heraus. Der „AI Text Classifier“ erkennt GPT 3.5 und 4.0 als „wahrscheinlich KI-generiert“, allerdings meint das Tool, dass es sich auch bei unserem „menschlichen“ Inhalt und den einer KI handelt.

2.Writer

Laut dem KI-Checker Writer kann sich ein Inhalt, der sich so liest, „als wäre er vollständig von einer künstlichen Intelligenz erstellt worden“ auf die Platzierung in den Suchmaschinen auswirken. Um den kostenlosen „AI Content Detector“ zu nutzen, darf ein Text dabei nicht mehr als 1.500 Zeichen umfassen.

Das Ergebnis: Das Tool klassifiziert all unsere Texteingaben, sowohl die iPhone- als auch Twitter-Texte als 100 Prozent menschlich. Das gilt auch für sämtliche KI-Texte von GPT 3.5 und GPT 4.0. Damit hat der KI-Checker bis auf die Inhalte, die tatsächlich menschlichen Ursprungs sind, keinen einzigen KI-Text erkannt.

3. Copyleaks AI-Inhaltsdetektor

Der sogenannte „AI-Inhaltdetektor“ von Copyleaks verspricht so einiges: „Fügen Sie unten Ihren Inhalt ein und wir sagen Ihnen innerhalb von Sekunden mit außergewöhnlicher Genauigkeit, ob einer davon KI-generiert wurde.“ Außerdem sei das Tool „die einzige KI-Inhaltserkennungslösung für Unternehmen.“ Doch hält der KI-Checker was er verspricht? Das Ergebnis:

Der „AI-Inhaltsdetektor“ hat den Text von ChatGPT 3.5 als „das ist menschlicher Text“ klassifiziert. Gleiches gilt für die Zeilen der Version GPT 4.0, als Teil der Bezahlversion ChatGPT Plus. Unseren „menschlichen“ Text hat das Tool wiederum korrekterweise als solchen erkannt.

Bei dem drei Sätze langen Erklärtext zu Twitter fällt das Ergebnis jedoch etwas anders aus. Denn der „AI-Inhaltdetektor“ hat sowohl den Beitrag von ChatGPT 3.5 als auch der Version 4.0 korrekterweise als „AI-Inhalt“ erkannt. Unseren „menschlichen“ Dreizeiler hat das Tool ebenfalls korrekt als solchen erkannt. Der KI-Checker scheint bei kürzeren Inhalten also präziser zu sein.

4. GPTZero

Die Plattform GPTZero bezeichnet sich selbst als den „weltweit führende AI-Detektor mit über 1 Million Nutzern“. Die Mindestanforderung, um einen Text überprüfen zu lassen liegt dabei bei mindestens 250 Zeichen – was deutlich weniger ist als bei dem „AI Text Classifier“ von OpenAI. Doch wie zuverlässig ist GPTZero?

Das Ergebnis: Der KI-Checker klassifiziert den iPhone-Text von GPT 3.5 als: „Ihr Text wird wahrscheinlich vollständig von einem Menschen geschrieben“. Gleiches gilt korrekterweise für den von uns verfassten iPhone-Inhalt. Beim Text der Version GPT 4.0 meint das Tool jedoch ebenfalls, dass der Inhalt von einem Menschen stammt.

Bezüglich der Twitter-Texte sieht das Ergebnis wie folgt aus: Der GPT 3.5-Inhalt wurde als KI-Text erkannt. Der GPT 4.0-Beitrag solle wiederum menschlich sein. Der von uns verfasste Inhalt wurden derweil korrekterweise als menschlich klassifiziert.

Was bei GPTZero aufällt: Der KI-Checker benötigt von allen getesteten Tools am längsten für die Analyse. Außerdem spuckt die Plattform häufig Fehlermeldungen aus, was an einer möglichen Überlastung liegen könnte.

5. Crossplag

Die Plattform Crossplag bewirbt seinen „AI Content Detector“ wie folgt: „Die Originalität hat eine neue Bedrohung, und hier ist die Lösung.“ Ob es eine Mindest- oder Maximaleingabe an Wörtern oder Zeichen gibt, ist zumindest auf den ersten Blick nicht ersichtlich. Was nach zwei Checks allerdings auffällt ist, dass das Tool auf eine Registrierung besteht.

Wie der KI-Checker Writer klassifiziert Crossplag zudem alle Texte als: „Dieser Text ist hauptsächlich von einem Menschen geschrieben“, was in vier von sechs Fällen nicht stimmt. In Kombination mit der Anmeldung, die wir über die Nutzung anderer Browser umgangen haben, ist dieses Tool also weder effektiv noch die versprochene Lösung. Vielmehr sollte Vorsicht geboten sein.

Fazit: Künstliche Intelligenz erkennen – KI-Checker im Test

Hinweis: Damit dieser Beitrag nicht ausufert, haben wir die Beispieltexte an dieser Stelle nicht eingefügt. Du findest jedoch sowohl die Ausgaben von GPT 3.5 als auch 4.0 sowie unsere entsprechenden menschlichen Beiträge in unserem ChatGPT-Vergleich.

In der folgenden Tabelle haben wir derweil die Ergebnisse unseres KI-Checker-Tests festgehalten. Das rote X steht dabei für einen falsch erkannten, der grüne Haken für einen korrekt erkannten Text. Da wir jeweils zwei Beispiele überprüfen lassen haben, enthält jedes Feld auch entsprechend zwei Symbole. Das erst für den iPhone-Beitrag, das zweite für den Twitter-Text.

ChatGPT 3.5 ChatGPT 4.0 Mensch
AI Text Classifier ✓✓ ✓✓ X
Writer XX XX ✓✓
Copyleaks AI-Inhaltsdetektor X X ✓✓
GPTZero X XX ✓✓
Crossplag XX XX ✓✓

Der AI Text Classifier von OpenAI erzielt dabei insgesamt das beste Ergebnis. Da das Unternehmen sowohl GPT 3.5 als auch die Version 4.0 entwickelt hat erscheint das allerdings nur wenig verwunderlich. Jedoch hat der KI-Checker als einziger in unserem Test einen menschlichen Text als KI-Inhalt klassifiziert.

Während der „AI-Inhaltsdetektor“ von Copyleaks und GPTZero zumindest jeweils noch einen Teilerfolg bei der Erkennung von KI-Texten erzielen konnten, fallen Writer und Crossplag komplett durch. Denn beide Tools haben alle Eingaben als „menschlich“ klassifiziert. Beim Tool von Crossplag scheint es sich zudem um eine Datenkrake zu handeln.

Auch interessant: 

Über den Autor

Fabian Peters

Fabian Peters ist seit Januar 2022 Chefredakteur von BASIC thinking. Zuvor war er als Redakteur und freier Autor tätig. Er studierte Germanistik & Politikwissenschaft an der Universität Kassel (Bachelor) und Medienwissenschaften an der Humboldt-Universität zu Berlin (Master).