Wir benutzen Cookies, um die Nutzerfreundlichkeit der Website zu verbessern. Durch deinen Besuch stimmst du dem Datenschutz zu.
Alles klar!
BASIC thinking Logo Dark Mode BASIC thinking Logo Dark Mode
  • TECH
    • Apple
    • Android
    • ChatGPT
    • Künstliche Intelligenz
    • Meta
    • Microsoft
    • Quantencomputer
    • Smart Home
    • Software
  • GREEN
    • Elektromobilität
    • Energiewende
    • Erneuerbare Energie
    • Forschung
    • Klima
    • Solarenergie
    • Wasserstoff
    • Windkraft
  • SOCIAL
    • Facebook
    • Instagram
    • TikTok
    • WhatsApp
    • X (Twitter)
  • MONEY
    • Aktien
    • Arbeit
    • Die Höhle der Löwen
    • Finanzen
    • Start-ups
    • Unternehmen
    • Marketing
    • Verbraucherschutz
Newsletter
Font ResizerAa
BASIC thinkingBASIC thinking
Suche
  • TECH
  • GREEN
  • SOCIAL
  • MONEY
  • ENTERTAIN
  • NEWSLETTER
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
Künstliche Intelligenz trainieren, KI, Künstliche Intelligenz, Daten
TECH

Künstliche Intelligenz: Dubiose Websites machen ChatGPT und Co. intelligent

Maria Gramsch
Aktualisiert: 21. April 2023
von Maria Gramsch
Adobe Stock / your123
Teilen

Künstliche Intelligenz ist vor allem auch durch den Erfolg von ChatGPT derzeit in aller Munde. Doch wie trainieren die Tech-Konzerne ihre Systeme? Das hat die Washington Post recherchiert und analysiert, durch welche Websites KI-Software intelligent erscheinen.

Das Thema Künstliche Intelligenz ist durch den Erfolg der KI-Software ChatGPT verstärkt in den Fokus gerückt. Schätzungen zufolge könnte der Markt mit KI in den Bereichen Hardware, Software und IT-Services im Jahr 2024 rund 554,3 Milliarden US-Dollar umsetzen. Im Jahr 2021 lag die Zahl noch bei rund 380 Milliarden US-Dollar.

Doch was steckt hinter künstlichen Intelligenzen wie ChatGPT und Co. und wie werden sie trainiert? Das hat die Washington Post in einer Recherche analysiert und unter die Lupe genommen, durch welche Websites KI-Software intelligent erscheint.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 10.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Sonos Era 100 gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Mit welchen Websites trainiert Künstliche Intelligenz?

Für ihre Recherche hat die Washington Post „hochkarätige englischsprachige KIs“ analysiert. Diese werden als sogenannte „große Sprachmodelle“ mit der Hilfe von Websites trainiert.

Analysiert hat die Washington Post unter anderem Googles T5 und Facebooks LLaMA. Diese Analyse basiert auf dem C4-Datensatz von Google, in dem die Inhalte von 15 Millionen Websites hinterlegt sind.

Wie lernen ChatGPT und Co.?

Da KI-Systeme nicht eigenständig denken können, müssen sie zuvor trainiert werden. Haben sie genug Informationen absorbiert, können sie Sprache imitieren und beispielsweise Gespräche führen oder komplexe Fragestellungen beantworten.

Dabei kommt es natürlich darauf an, mit welchen Informationen die jeweilige Künstliche Intelligenz zuvor gefüttert wurde. Denn nur damit kann sie später arbeiten.

Inzwischen versuchen Technologie-Konzerne aber oft genau das geheim zuhalten. So auch die ChatGPT-Mutter OpenAI. Denn die Firma legt nicht offen, mit welchen Datensätzen ihre KI-Software trainiert.

Die KI-Analyse der Washington Post

Für die Analyse der Websites hat die Washington Post mit dem Allen Institute for AI zusammengearbeitet. Zunächst wurden die 15 Millionen Websites kategorisiert. Nicht mehr kategorisierbare oder verfügbare Websites wurden aus der Analyse ausgeschlossen.

Die verbleibenden zehn Millionen Websites hat die Post danach sortiert, wie viele Tokens in ihrem Datensatz vorkommen. Das können einzelnen Wörter oder ganze Phrasen sein.

Die untersuchten Websites kamen hauptsächlich aus den Bereichen Journalismus, Unterhaltung, Software-Entwicklung oder Medizin. Auf den ersten beiden Plätzen finden sich die Seiten patents.google.com, eine Auflistung aller Patente weltweit, sowie die Online-Enzyklopädie Wikipedia.

Doch auch dubiose Webseiten haben es nach ganz oben geschafft. Dazu zählen laut der Recherche der Washington Post mindestens 27 Websites, die die US-Regierung als Märkte für Raubkopien und Fälschungen identifiziert hat.

Auch fragwürdige Inhalte schaffen es in das Training für Künstliche Intelligenz

Doch nicht nur seriöse Inhalte schaffen es in die Trainingsdaten der KI-Systeme. Denn obwohl Google und Co. die Daten vorab filtern, schaffen es auch rassistische oder radikale Websites in die Liste.

Am häufigsten tauchen bei der Analyse Websites aus der Wirtschaft auf. Diese Kategorie nimmt mit 16 Prozent den Hauptanteil der KI-Trainingsseiten ein.

Auf Platz zwei folgen Websites zum Thema Technologie, journalistische Inhalte belegen Platz drei. Hier sind unter den ersten Plätzen vor allem Nachrichtenhäuser wie nytimes.com, theguardian.com und forbes.com zu finden.

Problematisch sei hier laut der Washington Post vor allem, dass keine Genehmigung für die Verwendung der Inhalte eingeholt werde. Ebenfalls problematisch sei die Verwendung radikaler und rechtsextremer Seiten. Denn in der Liste tauchen auch Websites wie RT.com oder breitbart.com auf.

Genau wegen dieser fragwürdigen Inhalte fordert die Washington Post deshalb, dass die Daten, mit denen Tech-Konzerne Künstliche Intelligenzen trainieren, unbedingt offengelegen müssen.

Auch interessant:

  • Neue Studie zeigt den gigantischen Wasserverbrauch von ChatGPT
  • ChatGPT 3.5 und 4.0 im Vergleich: Welche Version ist menschlicher?
  • Italien zieht ChatGPT den Stecker – wegen Datenschutzbedenken
  • Kriminelle setzen ChatGPT zum Betrug und für Straftaten ein

Du möchtest nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 10.000 smarte Leser bekommen jeden Tag UPDATE, unser Tech-Briefing mit den wichtigsten News des Tages – und sichern sich damit ihren Vorsprung. Hier kannst du dich kostenlos anmelden.

STELLENANZEIGEN
Praktikant*in Social Media & Content Mark...
bonprix Handelsgesellschaft mbH in Hamburg
Social Media Manager – Webkommunikation...
Open Experience GmbH in Karlsruhe
Digital Marketing Advisor (m/w/d)
Linklaters LLP in Frankfurt
IT-Systemingenieur/in (m/w/d)
DeutschlandRadio KdÖR in Köln
Data Platform Team Lead (all genders) | Berli...
Aroundhome in Berlin
Referent PR & Social Media (m/w/d)
Bayerischer Landes-Sportverband e.V. in München
Senior Social Media Manager – DACH (m/w/d)
Apollo-Optik Holding GmbH & Co. KG in Schwabach
Praktikum im Bereich Kommunikation, PR und Co...
Daimler Truck AG in Leinfelden-Echterdingen
THEMEN:ChatGPTKünstliche Intelligenz
Teile diesen Artikel
Facebook Flipboard Whatsapp Whatsapp LinkedIn Threads Bluesky Email
vonMaria Gramsch
Folgen:
Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.
EMPFEHLUNG
PŸUR BLACK SALE 2025
BLÄCK SALE bei PŸUR: Schnelles Internet für Zuhause – jetzt schon zum Black-Friday-Preis!
Anzeige TECH
American Express Gold Card
American Express: Höchstes Startguthaben und Membership Rewards Punkte seit Jahren!
Anzeige MONEY
Testimonial LO

»UPDATE liefert genau das, was einen perfekten Newsletter ausmacht: Kompakte, aktuelle News, spannende Insights, relevante Trends aus Technologie & Wirtschaft. Prägnant, verständlich und immer einen Schritt voraus!«

– Lisa Osada, +110.000 Follower auf Instagram

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

LESEEMPFEHLUNGEN

Die Ministerin für Künstliche Intelligenz, Diella, vor einer Albanien-Flagge.
BREAK/THE NEWSTECH

Gegen Korruption: Albanien macht eine KI zur Ministerin

AI und Cloud-Souveränität
AnzeigeTECH

AI und Cloud souverän nutzen: Mehr Flexibilität und Kundennähe für Versicherer

Sandbatterie
GREENTECH

Die weltweit größte Sandbatterie speichert Wärmeenergie

Ein Zeichnung eines Pferderennens, das die KI-Strategie von Microsoft symobilisiert.
BREAK/THE NEWSTECH

Microsofts KI-Strategie: Unbemerkt zum Big Player

Wellenenergie, Wellenkraft, Erneuerbare Energien, Eco Wave Power, Nachhaltigkeit, Klima, Klimawandel, Klimaziele, Strom
GREENTECH

Wellenenergie: Bojen könnten Strom für Millionen Menschen erzeugen

Ein Roboter schreibt liest einen journalistischen Text.
BREAK/THE NEWSTECH

KI-Journalismus: Wenn der Moderator vom Avatar ersetzt wird

Mehr anzeigen
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
  • Über uns
  • Mediadaten
  • Impressum
  • Datenschutz

UPDATE abonnieren & mit etwas Glück SONOS gewinnen!

Sonos Era 100 Smart Speaker
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?