Künstliche Intelligenz: Dubiose Websites machen ChatGPT intelligent

Künstliche Intelligenz ist vor allem auch durch den Erfolg von ChatGPT derzeit in aller Munde. Doch wie trainieren die Tech-Konzerne ihre Systeme? Das hat die Washington Post recherchiert und analysiert, durch welche Websites KI-Software intelligent erscheinen.

Das Thema Künstliche Intelligenz ist durch den Erfolg der KI-Software ChatGPT verstärkt in den Fokus gerückt. Schätzungen zufolge könnte der Markt mit KI in den Bereichen Hardware, Software und IT-Services im Jahr 2024 rund 554,3 Milliarden US-Dollar umsetzen. Im Jahr 2021 lag die Zahl noch bei rund 380 Milliarden US-Dollar.

Doch was steckt hinter künstlichen Intelligenzen wie ChatGPT und Co. und wie werden sie trainiert? Das hat die Washington Post in einer Recherche analysiert und unter die Lupe genommen, durch welche Websites KI-Software intelligent erscheint.

Mit welchen Websites trainiert Künstliche Intelligenz?

Für ihre Recherche hat die Washington Post „hochkarätige englischsprachige KIs“ analysiert. Diese werden als sogenannte „große Sprachmodelle“ mit der Hilfe von Websites trainiert.

Analysiert hat die Washington Post unter anderem Googles T5 und Facebooks LLaMA. Diese Analyse basiert auf dem C4-Datensatz von Google, in dem die Inhalte von 15 Millionen Websites hinterlegt sind.

Wie lernen ChatGPT und Co.?

Da KI-Systeme nicht eigenständig denken können, müssen sie zuvor trainiert werden. Haben sie genug Informationen absorbiert, können sie Sprache imitieren und beispielsweise Gespräche führen oder komplexe Fragestellungen beantworten.

Dabei kommt es natürlich darauf an, mit welchen Informationen die jeweilige Künstliche Intelligenz zuvor gefüttert wurde. Denn nur damit kann sie später arbeiten.

Inzwischen versuchen Technologie-Konzerne aber oft genau das geheim zuhalten. So auch die ChatGPT-Mutter OpenAI. Denn die Firma legt nicht offen, mit welchen Datensätzen ihre KI-Software trainiert.

Die KI-Analyse der Washington Post

Für die Analyse der Websites hat die Washington Post mit dem Allen Institute for AI zusammengearbeitet. Zunächst wurden die 15 Millionen Websites kategorisiert. Nicht mehr kategorisierbare oder verfügbare Websites wurden aus der Analyse ausgeschlossen.

Die verbleibenden zehn Millionen Websites hat die Post danach sortiert, wie viele Tokens in ihrem Datensatz vorkommen. Das können einzelnen Wörter oder ganze Phrasen sein.

Die untersuchten Websites kamen hauptsächlich aus den Bereichen Journalismus, Unterhaltung, Software-Entwicklung oder Medizin. Auf den ersten beiden Plätzen finden sich die Seiten patents.google.com, eine Auflistung aller Patente weltweit, sowie die Online-Enzyklopädie Wikipedia.

Doch auch dubiose Webseiten haben es nach ganz oben geschafft. Dazu zählen laut der Recherche der Washington Post mindestens 27 Websites, die die US-Regierung als Märkte für Raubkopien und Fälschungen identifiziert hat.

Auch fragwürdige Inhalte schaffen es in das Training für Künstliche Intelligenz

Doch nicht nur seriöse Inhalte schaffen es in die Trainingsdaten der KI-Systeme. Denn obwohl Google und Co. die Daten vorab filtern, schaffen es auch rassistische oder radikale Websites in die Liste.

Am häufigsten tauchen bei der Analyse Websites aus der Wirtschaft auf. Diese Kategorie nimmt mit 16 Prozent den Hauptanteil der KI-Trainingsseiten ein.

Auf Platz zwei folgen Websites zum Thema Technologie, journalistische Inhalte belegen Platz drei. Hier sind unter den ersten Plätzen vor allem Nachrichtenhäuser wie nytimes.com, theguardian.com und forbes.com zu finden.

Problematisch sei hier laut der Washington Post vor allem, dass keine Genehmigung für die Verwendung der Inhalte eingeholt werde. Ebenfalls problematisch sei die Verwendung radikaler und rechtsextremer Seiten. Denn in der Liste tauchen auch Websites wie RT.com oder breitbart.com auf.

Genau wegen dieser fragwürdigen Inhalte fordert die Washington Post deshalb, dass die Daten, mit denen Tech-Konzerne Künstliche Intelligenzen trainieren, unbedingt offengelegen müssen.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

		Online Marketing Manager (m/d/w) improv CONSULTING OG in Salzburg
		Social Media Marketing-Manager/in (m/w/d) oqio GmbH in München
		Mitarbeiter*in Beratung, Netzwerk & Kommu... ÖSB Consulting GmbH in Bayern
		AI Growth Marketing Manager (m/w/d) Communitas Sozialmarketing GmbH in Bad Kreuznach
		Werkstudent/ Praktikant Social Media Manageme... PwC Strategy& (Germany) GmbH in Düsseldorf, Hamburg
		Content Creator / Creative (m/w/d) HTS Textilvertriebs GmbH / Khujo Co. Limited in Hamburg
		Social Media Manager (w/m/d) Institut der deutschen Wirtschaft Köln Facil... in Köln
		MARKETING MANAGER CONVENTIONS (m/w/d) –... Tourismus- und Congress GmbH Fran... in Frankfurt am...

		SAP Sales Process Optimization Specialist (m/... YAMAHA Music Europe GmbH in Rellingen bei Hamburg
		Copywriter & Content Manager – Customer E... Unite Services GmbH & Co. KG in Berlin (DE), Köthen ...
		Werkstudent – Vertriebsassistenz (IT) (... SVA System Vertrieb Alexander GmbH in Erfurt, Münche...
		Spezialist*in Customer Data Platform (CDP) &a... Stadtwerke München GmbH in München
		Werkstudent SEO & AI Search Visibility (m... Verti Versicherung AG in Teltow

Künstliche Intelligenz: Dubiose Websites machen ChatGPT und Co. intelligent

Mit welchen Websites trainiert Künstliche Intelligenz?

Wie lernen ChatGPT und Co.?

Die KI-Analyse der Washington Post

Auch fragwürdige Inhalte schaffen es in das Training für Künstliche Intelligenz

Kartenzahlung im Café, Foodtruck & Bistro: Welche Lösung lohnt sich wirklich?

Mit welchen Websites trainiert Künstliche Intelligenz?

Wie lernen ChatGPT und Co.?

Die KI-Analyse der Washington Post

Auch fragwürdige Inhalte schaffen es in das Training für Künstliche Intelligenz

Kartenzahlung im Café, Foodtruck & Bistro: Welche Lösung lohnt sich wirklich?

LESEEMPFEHLUNGEN

HubSpot vs. Zoho Creator CRM: Vergleich für Digitalunternehmen

Dieses tragbare Ladegerät macht dein E-Auto unterwegs zur Batterie

Was ist das beste CRM für Food-Blogs in 2026?

Mobilfunk als Radar: 6G soll auch Menschen ohne Smartphone erfassen

Buzz: Auf dieser Plattform arbeiten Menschen und KI-Agenten zusammen

Was ist das beste CMS Hub für lokale Nachrichtenportale?

Smarter als dein Feed