Was sind KI-Token Künstliche Intelligenz Sprachmodelle

KI-Token: Die kleinste sprachliche Einheit von Künstlicher Intelligenz

Maria Gramsch
Mit DALL-E generiert (KI).

Immer mehr Menschen nutzten Künstliche Intelligenz auf der Arbeit oder im Alltag. Doch wie funktionieren große KI-Modelle überhaupt? Die Grundlage bilden KI-Token, die als kleinste sprachliche Einheit gelten. 

Künstliche Intelligenz hat sich in den vergangenen Jahren rasant weiterentwickelt. Die Zahl der Nutzer nimmt kontinuierlich zu. Allein im Jahr 2024 nutzen weltweit rund 315 Millionen Menschen mindestens ein KI-Tool. Bis zum Jahr 2030 soll die Zahl Prognosen zufolge auf rund 730 Millionen steigen, sich also mehr als verdoppeln.

Damit KI-Tools überhaupt Fragen von Menschen beantworten und Aufgaben lösen können, müssen sie trainiert werden. Dabei spielen sogenannte KI-Token eine entscheidende Rolle. Als kleinste sprachliche Einheit von Künstlicher Intelligenz bilden sie die Grundlage für das Verständnis der großen Sprachmodelle.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück 50€ Amazon-Guthaben gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Was sind KI-Token?

Large Language Models (LLMs) – also große KI-Sprachmodelle – basieren auf neuronalen Netzen. Dabei handelt es sich um sogenannte Transformator-Modelle, die auf dem Aufmerksamkeitsmechanismus aufbauen. Die Funktionsweise von LLMs kann in vier Schritte unterteilt werden:

  • Tokenisierung
  • Einbettung
  • Vorhersage
  • Dekodierung

Bei der Tokenisierung, dem ersten Schritt, zerlegt ein Sprachmodell den eingegebenen Text in kleinere Teile, die sogenannten KI-Token. Diese Vorgehensweise kann auch mit der menschlichen Sprache verglichen werden. Denn der Mensch verwendet bei der Verständigung zumeist Wörter als Token.

Für KI-Sprachmodelle hingegen gibt es verschiedene Techniken für die Tokenisierung. So können beispielsweise einzelne Teilchen, Teilwörter oder ganze Wörter als KI-Token fungieren.

Hat einLLM die Sprache erst einmal in KI-Token zerlegt, kommt es zum zweiten Schritt – der Einbettung, auch Embedding genannt. Dabei werden die ermittelten Token auf Vektoren abgebildet.

Sprachmodelle weisen dann zumeist zwei semantisch ähnliche Token einem ähnlichen Vektor zu. Aber nicht nur Semantik spielt eine Rolle. Denn auch die Position eines Tokens im Satz kann Einfluss auf die Zuordnung zu einem Vektor haben.

Sprachmodelle treffen Vorhersagen

Die Vorhersage gilt als dritter Schritt der Funktionsweise von LLMs. Sie bildet den eigentlichen Kern der Sprachmodelle, denn dabei berechnet ein KI-Tool die Wahrscheinlichkeit des nächsten Tokens.

Auf Grundlage dieser Wahrscheinlichkeitsberechnung entscheiden Sprachmodell, welche Token sie bei der Decodierung ausgeben.

Dabei liegen großen LLMS verschiedene Strategien zugrunde. Beispielsweise können sie über das sogenannte Top-K Sampling oder das Top-P Sampling Token auswählen. Diese Methoden bestimmen, wie viele der wahrscheinlichsten Token berücksichtigt werden sollen. Nutzen sie hingegen den Greedy Algorithm wählen sie immer den zu einem aktuellen Zeitpunkt wahrscheinlichste Token aus.

Auch interessant:

Du möchtest nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 smarte Leser bekommen jeden Tag UPDATE, unser Tech-Briefing mit den wichtigsten News des Tages – und sichern sich damit ihren Vorsprung. Hier kannst du dich kostenlos anmelden.

STELLENANZEIGEN
Openstack Engineer (m/f/d)
CompuGroup Medical SE & Co. KGaA in Koblenz
Content Creator (m/w/d)
Leave PCOS GmbH in Erbach
Social Media Manager (m/w/d)
SIENA Living GmbH & Co . KG in Münster
PR Trainee / Volontariat Social Media und Med...
TÜV-Verband e.V. in Berlin
Digital Marketing Manager (Paid Media) (m/f/d)
Frankfurt School of Finance & Man... in Frankfurt am...
Content Creator (m/w/d)
DKMS Donor Center gGmbH in Köln
Senior FX Analyst Devisen / Research m/w/d
DZ BANK AG in Frankfurt
Internship in Technical Documentation –...
Stryker GmbH & Co.KG in Freiburg im Breisgau
Teile diesen Artikel
Folgen:
Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.