Wir benutzen Cookies, um die Nutzerfreundlichkeit der Website zu verbessern. Durch deinen Besuch stimmst du der Datenschutzerklärung zu.
Alles klar!
BASIC thinking Logo Dark Mode BASIC thinking Logo Dark Mode
  • TECH
    • Apple
    • Android
    • ChatGPT
    • Künstliche Intelligenz
    • Meta
    • Microsoft
    • Quantencomputer
    • Smart Home
    • Software
  • GREEN
    • Elektromobilität
    • Energiewende
    • Erneuerbare Energie
    • Forschung
    • Klima
    • Solarenergie
    • Wasserstoff
    • Windkraft
  • SOCIAL
    • Facebook
    • Instagram
    • TikTok
    • WhatsApp
    • X (Twitter)
  • MONEY
    • Aktien
    • Arbeit
    • Die Höhle der Löwen
    • Finanzen
    • Start-ups
    • Unternehmen
    • Marketing
    • Verbraucherschutz
Newsletter
Font ResizerAa
BASIC thinkingBASIC thinking
Suche
  • TECH
  • GREEN
  • SOCIAL
  • MONEY
  • ENTERTAIN
  • NEWSLETTER
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
Webcrawler, GPTBot, ChatGPT, OpenAI, Google, Künstliche Intelligenz, Sprachmodell, Internet, Website, Crawler
TECH

GPTBot: So deaktivierst du den ChatGPT-Crawler für deine Website

Beatrice Bode
Aktualisiert: 08. August 2023
von Beatrice Bode
unsplash.com/ ilgmyzin
Teilen

OpenAI nutzt einen Webcrawler namens GPTBot, um seine KI-Modelle wie ChatGPT zu trainieren. Wenn du nicht möchtest, dass deine Website für Trainingsdaten herhält, kannst du diesen Vorgang blockieren. Wir zeigen dir, wie du den GPTBot deaktivierst.

Damit Künstliche Intelligenzen und entsprechende Sprachmodelle lernen können, müssen ihre Entwickler sie mit Daten füttern. Um eigene KI-Modelle zu trainieren, nutzt ChatGPT-Entwickler OpenAI seit kurzem einen Webcrawler namens GPTBot.

In einem Blogpost erklärt das Unternehmen, dass Websiten, die mit dem GPTBot gecrawelt werden, möglicherweise zur Verbesserung zukünftiger Modelle verwendet werden könnten. Wer dem Bot den Zugriff auf eine Website gestattet, könnte die KI-Modelle genauer werden lassen und ihre allgemeinen Fähigkeiten und Sicherheit verbessern.

BASIC thinking UPDATE

Jeden Tag bekommen 10.000+ Abonnenten die wichtigsten Tech-News direkt in die Inbox. Abonniere jetzt dein kostenloses Tech-Briefing:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

  • 5 Minuten pro Tag
  • 100% kostenlos
  • Exklusive PDF-Guides

GPTBot: Webcrawler in der Kritik

Ähnlich wie der Google-Webcrawler durchsucht auch GPTBot das Internet nach relevanten Inhalten. Allerdings hagelt es immer wieder Kritik wegen potenziellen Datendiebstahls.

Der Vorwurf gegenüber Unternehmen wie OpenAI, Google und Co.: Die Unternehmen würden für das Training ihrer Sprachmodelle auch Inhalte nutzen, für deren Verwendung sie eigentlich keine Befugnis haben. Das entspräche einem Verstoß gegen das Urheberrecht.

So kannst du den GPTBot für deine Website deaktivieren

OpenAI erklärt deshalb, wie du den GPTBot deaktivieren kannst. Das funktioniert demnach mithilfe einer robots.txt-Datei. Diese verwaltet den Crawler-Traffic auf deiner Website. Um das Crawling zu deaktivieren musst du sie im Root-Verzeichnis deiner Domain ablegen.

Solltest du nicht wollen, dass die KI deine Website crawelt, hast du wiederum zwei Möglichkeiten. Du kannst dich einerseits dazu entscheiden, den Bot komplett zu blockieren. Dafür nutzt du folgenden Code:

User-agent: GPTBot
Disallow: /

Allerdings kannst du GPTBot auch eine Teilerlaubnis geben. Das funktioniert wiederum mit diesem Code:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Crawling per GPTBot führt zu Problemen

Wie verschiedene User berichten, gibt es allerdings bereits Probleme mit dem GPTBot. Der Crawler habe beispielsweise automatisch 403-Fehlermeldungen für einige Seiten ausgespielt, weil er nicht in der entsprechenden Whitelist aufgeführt war.

Außerdem scheint auch robots.txt in den Augen von Google bereits veraltet zu sein. „[…] robots.txt, wurde vor fast 30 Jahren geschaffen und hat sich als einfache und transparente Möglichkeit für Web-Publisher erwiesen, das Crawlen ihrer Inhalte durch Suchmaschinen zu steuern“, so der Suchmaschinen-Konzern.

Es sei deshalb an der Zeit, dass die Web- und KI-Gemeinschaften weitere maschinenlesbare Mittel zur Auswahl und Kontrolle von Web-Publishern für neue KI- und Forschungsanwendungen erforschen. Wann damit zu rechnen ist, verrät Google bisher nicht.

Auch interessant: 

  • Google Bard: ChatGPT-Konkurrent kommt nach Deutschland
  • So formulierst du Prompts für ChatGPT: Struktur, Tonfall und Information (Teil 1)
  • ChatGPT Plugin: So kannst du mit deinen PDF-Dateien sprechen
  • Squarespace Design Kit: In wenigen Klicks zur eigenen Website
Kleines Kraftwerk

Anzeige

STELLENANZEIGEN
BASIC thinking Freiberuflicher Redakteur (m/w/d)
BASIC thinking GmbH in Home Office
Online Marketing Manager (d/m/w)
Brandenburg Media GmbH & Co. KG in Potsdam
SEA-Manager (w/m/d) – befristet
KOS GmbH & Co. KG in Schönefeld
Influencer & Paid Social Media Marketing ...
ARTDECO cosmetic GmbH in Karlsfeld
Werkstudent | Online Marketing | Mid & Up...
Otto GmbH & Co. KGaA in Hamburg
Sales Manager / Business Developer SAP (d/w/m)
4flow in Berlin, Bremen, Dresden, Düsseldorf, Hambur...

Du willst solche Themen nicht verpassen? Mit dem BASIC thinking UPDATE, deinem täglichen Tech-Briefing, starten über 10.000 Leser jeden Morgen bestens informiert in den Tag. Jetzt kostenlos anmelden:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

THEMEN:ChatGPTGoogleKünstliche Intelligenz
Teile diesen Artikel
Facebook Flipboard Whatsapp Whatsapp LinkedIn Threads Bluesky Email
vonBeatrice Bode
Folgen:
Beatrice ist Multi-Media-Profi. Ihr Studium der Kommunikations - und Medienwissenschaften führte sie über Umwege zum Regionalsender Leipzig Fernsehen, wo sie als CvD, Moderatorin und VJ ihre TV-Karriere begann. Mittlerweile hat sie allerdings ihre Sachen gepackt und reist von Land zu Land. Von unterwegs schreibt sie als Autorin für BASIC thinking.
Kleines Kraftwerk

Anzeige

EMPFEHLUNG
American Express Kreditkarte
Jetzt profitieren: Exklusive Vorteile mit der American Express Kreditkarte sichern
Anzeige MONEY
American Express Business Platinum Card
500 Euro Startguthaben sichern: Mit der American Express Business Platinum Card
Anzeige MONEY
PŸUR
Internet, das nie teuer wird – für nur 19 Euro pro Monat
Anzeige TECH
American Express® Business Gold Card
SBS American Express Business Gold Card: Jetzt 250 Euro Startguthaben sichern
Anzeige MONEY
UPDATE – DEIN TECH-BRIEFING

Jeden Tag bekommen 10.000+ Abonnenten von uns die wichtigsten Tech-News direkt in die Inbox. Abonniere jetzt dein kostenloses Tech-Briefing:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

LESEEMPFEHLUNGEN

Balkonkraftwerke Vergleich, Solar, Solarenergie, Erneuerbare Energie, Solarenergie, Sonne, Haus, Stiftung Warentest, Ranking
GREENTECH

Stiftung Warentest: 8 Balkonkraftwerke im Vergleich – nur zwei Anlagen „gut”

KI Bias Künstliche Intelligenz Verzerrungen
TECH

KI-Verzerrungen: Was bedeutet Bias?

sparsamsten Diesel Mittelklasse, ADAC, Verbrauch, Kosten, Gesamtkosten, Grundpreis, CO2-Ausstoß, Kraftstoff, Auto, Mobilität, Fahrzeug, Automobil-Industrie
MONEYTECH

Laut ADAC: Die sparsamsten Diesel der Mittelklasse

VPN-Anbieter Europa, VPN-Dienste Europa
TECH

Alternativen zu US-Software: 4 VPN-Anbieter aus Europa

Energie Fußboden, Schleim, Forschung, Wissenschaft, Strom, Stromerzeugung, Kanada, Universität, grüner Strom, saubere Energie
GREENTECH

Schleimiges Material im Fußboden erzeugt Energie – wenn man darüber läuft

Reasoning-Modelle KI Künstliche Intelligenz LRM
TECH

Studie: Sind Reasoning-Modelle weniger leistungsfähig als gedacht?

Mehr anzeigen
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
  • Über uns
  • Mediadaten
  • Impressum
  • Datenschutz
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?