GPTBot: So deaktivierst du den ChatGPT-Crawler für deine Website

OpenAI nutzt einen Webcrawler namens GPTBot, um seine KI-Modelle wie ChatGPT zu trainieren. Wenn du nicht möchtest, dass deine Website für Trainingsdaten herhält, kannst du diesen Vorgang blockieren. Wir zeigen dir, wie du den GPTBot deaktivierst.

Damit Künstliche Intelligenzen und entsprechende Sprachmodelle lernen können, müssen ihre Entwickler sie mit Daten füttern. Um eigene KI-Modelle zu trainieren, nutzt ChatGPT-Entwickler OpenAI seit kurzem einen Webcrawler namens GPTBot.

In einem Blogpost erklärt das Unternehmen, dass Websiten, die mit dem GPTBot gecrawelt werden, möglicherweise zur Verbesserung zukünftiger Modelle verwendet werden könnten. Wer dem Bot den Zugriff auf eine Website gestattet, könnte die KI-Modelle genauer werden lassen und ihre allgemeinen Fähigkeiten und Sicherheit verbessern.

GPTBot: Webcrawler in der Kritik

Ähnlich wie der Google-Webcrawler durchsucht auch GPTBot das Internet nach relevanten Inhalten. Allerdings hagelt es immer wieder Kritik wegen potenziellen Datendiebstahls.

Der Vorwurf gegenüber Unternehmen wie OpenAI, Google und Co.: Die Unternehmen würden für das Training ihrer Sprachmodelle auch Inhalte nutzen, für deren Verwendung sie eigentlich keine Befugnis haben. Das entspräche einem Verstoß gegen das Urheberrecht.

So kannst du den GPTBot für deine Website deaktivieren

OpenAI erklärt deshalb, wie du den GPTBot deaktivieren kannst. Das funktioniert demnach mithilfe einer robots.txt-Datei. Diese verwaltet den Crawler-Traffic auf deiner Website. Um das Crawling zu deaktivieren musst du sie im Root-Verzeichnis deiner Domain ablegen.

Solltest du nicht wollen, dass die KI deine Website crawelt, hast du wiederum zwei Möglichkeiten. Du kannst dich einerseits dazu entscheiden, den Bot komplett zu blockieren. Dafür nutzt du folgenden Code:

User-agent: GPTBot
Disallow: /

Allerdings kannst du GPTBot auch eine Teilerlaubnis geben. Das funktioniert wiederum mit diesem Code:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Crawling per GPTBot führt zu Problemen

Wie verschiedene User berichten, gibt es allerdings bereits Probleme mit dem GPTBot. Der Crawler habe beispielsweise automatisch 403-Fehlermeldungen für einige Seiten ausgespielt, weil er nicht in der entsprechenden Whitelist aufgeführt war.

Außerdem scheint auch robots.txt in den Augen von Google bereits veraltet zu sein. „[…] robots.txt, wurde vor fast 30 Jahren geschaffen und hat sich als einfache und transparente Möglichkeit für Web-Publisher erwiesen, das Crawlen ihrer Inhalte durch Suchmaschinen zu steuern“, so der Suchmaschinen-Konzern.

Es sei deshalb an der Zeit, dass die Web- und KI-Gemeinschaften weitere maschinenlesbare Mittel zur Auswahl und Kontrolle von Web-Publishern für neue KI- und Forschungsanwendungen erforschen. Wann damit zu rechnen ist, verrät Google bisher nicht.

Auch interessant:

Sachbearbeiter Verwaltungsdigitalisierung (m/... Landratsamt Schwäbisch Hall in Schwäbisch Hall
		Freiberuflicher Redakteur (m/w/d) BASIC thinking GmbH in Home Office
		Digital Marketing Manager/ Content Creator (m... Walther-Werke Ferdinand Walther GmbH in Eisenberg (P...
		Datenschutzmanager im Gesundheitswesen für di... Vitos gGmbH in Bad Emstal
		Senior Social Media Manager (m/w/d) & Cre... hitschler International GmbH & Co. KG in Hürth
		Praktikum Employer Branding – Social Me... Peek & Cloppenburg B.V. & Co. KG in Düsseldorf (40212)

BASIC thinking UPDATE

GPTBot: Webcrawler in der Kritik

So kannst du den GPTBot für deine Website deaktivieren

Crawling per GPTBot führt zu Problemen

Einmal zahlen, ein Leben lang Online-Speicher erhalten

LESEEMPFEHLUNGEN

Mit neuer Nummer eins: Die wertvollsten KI-Unternehmen der Welt

Zink-Iod-Batterien: Trocken-Elektroden verdoppeln Leistung

KI-Assistenten von ChatGPT: So kannst du eigene GPTs erstellen

Super-Transistoren sollen Elektronik schneller und effizienter machen

Die hartnäckigsten Elektroauto-Mythen – und was an ihnen dran ist

Festival der Zukunft 2025 in München: Alles, was du wissen musst