KI-Token: Kleinste sprachliche Einheit von Künstlicher Intelligenz

Immer mehr Menschen nutzten Künstliche Intelligenz auf der Arbeit oder im Alltag. Doch wie funktionieren große KI-Modelle überhaupt? Die Grundlage bilden KI-Token, die als kleinste sprachliche Einheit gelten.

Künstliche Intelligenz hat sich in den vergangenen Jahren rasant weiterentwickelt. Die Zahl der Nutzer nimmt kontinuierlich zu. Allein im Jahr 2024 nutzen weltweit rund 315 Millionen Menschen mindestens ein KI-Tool. Bis zum Jahr 2030 soll die Zahl Prognosen zufolge auf rund 730 Millionen steigen, sich also mehr als verdoppeln.

Damit KI-Tools überhaupt Fragen von Menschen beantworten und Aufgaben lösen können, müssen sie trainiert werden. Dabei spielen sogenannte KI-Token eine entscheidende Rolle. Als kleinste sprachliche Einheit von Künstlicher Intelligenz bilden sie die Grundlage für das Verständnis der großen Sprachmodelle.

Was sind KI-Token?

Large Language Models (LLMs) – also große KI-Sprachmodelle – basieren auf neuronalen Netzen. Dabei handelt es sich um sogenannte Transformator-Modelle, die auf dem Aufmerksamkeitsmechanismus aufbauen. Die Funktionsweise von LLMs kann in vier Schritte unterteilt werden:

Tokenisierung
Einbettung
Vorhersage
Dekodierung

Bei der Tokenisierung, dem ersten Schritt, zerlegt ein Sprachmodell den eingegebenen Text in kleinere Teile, die sogenannten KI-Token. Diese Vorgehensweise kann auch mit der menschlichen Sprache verglichen werden. Denn der Mensch verwendet bei der Verständigung zumeist Wörter als Token.

Für KI-Sprachmodelle hingegen gibt es verschiedene Techniken für die Tokenisierung. So können beispielsweise einzelne Teilchen, Teilwörter oder ganze Wörter als KI-Token fungieren.

Hat einLLM die Sprache erst einmal in KI-Token zerlegt, kommt es zum zweiten Schritt – der Einbettung, auch Embedding genannt. Dabei werden die ermittelten Token auf Vektoren abgebildet.

Sprachmodelle weisen dann zumeist zwei semantisch ähnliche Token einem ähnlichen Vektor zu. Aber nicht nur Semantik spielt eine Rolle. Denn auch die Position eines Tokens im Satz kann Einfluss auf die Zuordnung zu einem Vektor haben.

Sprachmodelle treffen Vorhersagen

Die Vorhersage gilt als dritter Schritt der Funktionsweise von LLMs. Sie bildet den eigentlichen Kern der Sprachmodelle, denn dabei berechnet ein KI-Tool die Wahrscheinlichkeit des nächsten Tokens.

Auf Grundlage dieser Wahrscheinlichkeitsberechnung entscheiden Sprachmodell, welche Token sie bei der Decodierung ausgeben.

Dabei liegen großen LLMS verschiedene Strategien zugrunde. Beispielsweise können sie über das sogenannte Top-K Sampling oder das Top-P Sampling Token auswählen. Diese Methoden bestimmen, wie viele der wahrscheinlichsten Token berücksichtigt werden sollen. Nutzen sie hingegen den Greedy Algorithm wählen sie immer den zu einem aktuellen Zeitpunkt wahrscheinlichste Token aus.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

		Werkstudent Online Marketing – Schwerpu... STRÖER X GmbH in Köln, Nordrhein-Westfalen, Deutschland
		Werkstudent oder Student im Praxissemester fü... Ritter Energie GmbH & Co. KG in Dettenhausen
		Manager (m/w/d) Content-Strategie und Markenk... VdS Schadenverhütung GmbH in Köln
		Online Marketing Manager (m/w/d) personalisten GmbH in Coesfeld
		Content & E-Commerce Manager (m/w/d) Valdemar Krog GmbH in Hamburg
		Praktikant/ Werkstudent (m/w/d) im Bereich So... WESTFLEISCH SCE mbH in Münster
		Praktikum Social Media/Employer Branding (m/w/d) AXA Konzern AG in Köln
		Digital Marketing & Content Manager (m/w/d) ENOVA Holding GmbH & Co. KG in Hamburg

THEMEN:Evergreen Künstliche Intelligenz

Teile diesen Artikel

vonMaria Gramsch

Folgen

Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.

»UPDATE liefert genau das, was einen perfekten Newsletter ausmacht: Kompakte, aktuelle News, spannende Insights, relevante Trends aus Technologie & Wirtschaft. Prägnant, verständlich und immer einen Schritt voraus!«

– Lisa Osada, +110.000 Follower auf Instagram

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

		Anwendungsberater/in (m/w/d) Werkstofftechnik... Imprintec GmbH in Bochum
		Teamleitung Online Marketing (m/w/d) Verlag C.H.BECK in München
		Content & E-Commerce Manager (m/w/d) Valdemar Krog GmbH in Hamburg
		Praktikant/ Werkstudent (m/w/d) im Bereich So... WESTFLEISCH SCE mbH in Münster
		Praktikum Consulting (m/w/d) – Digital Market... rpc - The Retail Performance Company in München

KI-Token: Die kleinste sprachliche Einheit von Künstlicher Intelligenz

Was sind KI-Token?

Sprachmodelle treffen Vorhersagen

Samsung Galaxy S26 Ultra für nur 0,84 € im Business Prime XL sichern

7 Dinge, die du über dynamische Stromtarife wissen solltest

Was sind KI-Token?

Sprachmodelle treffen Vorhersagen

LESEEMPFEHLUNGEN

Smarter als dein Feed