KI Gedächtnisproblem LLM Künstliche Intelligenz

Das LLM-Gedächtnisproblem: Warum KI oft den Faden verliert

Felix Baumann
Bild: Mit ChatGPT generiert (KI)

Dass KI-Tools häufig den Faden verlieren, empfinden viele Nutzer als nervig. Doch das ist kein Zufall, sondern ein LLM-Gedächtnisproblem. Hintergrund ist ein architektonisches Limit.

Falls du schon länger mit einem großen Sprachmodell (LLM) wie ChatGPT oder Claude arbeitest, kennst du bestimmt dieses Phänomen: Du bist mitten in einer komplexen Aufgabe und plötzlich scheint die KI zentrale Teile der vorangegangenen Diskussion vergessen zu haben. Experten nennen dieses Phänomen zu Recht „Gedächtnisproblem“ (The Memory Problem). Dabei handelt es sich um eine fundamentale architektonische Einschränkung, die alle aktuellen LLMs betrifft.

Dieses Vergessen ist keine Absicht, sondern basiert auf einem technischen Limit. Denn LLMs haben kein Gedächtnis im traditionellen Sinne. Wenn du eine neue Nachricht sendest, erinnert sich das Modell nicht an die vorherigen Nachrichten aus einer gespeicherten Datenbank.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Apple AirPods gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Stattdessen liest das Modell die gesamte Konversation von Anfang an neu durch, um die nächste Antwort zu generieren. Man kann sich das wie das Lesen eines Buches vorstellen, bei dem jedes Mal, wenn ein neuer Satz geschrieben werden soll, der gesamte Text von Seite eins an gelesen werden muss.

LLM-Gedächtnisproblem: Das Kontextfenster als Engpass

Dieses ständige „Wiederlesen“ findet innerhalb des sogenannten Kontextfensters statt. Dieses Fenster kannst du dir wie einen Notizblock mit fester Größe vorstellen: Die gesamte Konversation muss dort hineinpassen. Die Kapazität wird in Tokens gemessen, den grundlegenden Texteinheiten, die ein LLM verarbeitet.

Ein Token entspricht grob etwa drei Vierteln eines Wortes. Wenn das Notizbuch vollläuft, muss das System ältere Inhalte löschen, damit die Konversation weitergehen kann. Alles, was aus diesem Fenster fällt, ist für die KI nicht mehr direkt abrufbar.

Das eigentliche Problem ist dabei nicht die Datenübertragung. Denn eine 30.000 Wörter lange Unterhaltung entspricht nur etwa 200 bis 300 Kilobyte an Daten. Der wahre Engpass ist die Rechenleistung. Das liegt an dem sogenannten Attention-Mechanism (Aufmerksamkeitsmechanismus) der LLMs. Dieser erfordert, dass die KI die Beziehung jedes einzelnen Wortes zu jedem anderen Wort in der Konversation berechnet.

Das führt zu einem quadratischen Wachstumsproblem. Wenn sich die Eingabe verdoppelt, vervierfacht sich die erforderliche Rechenarbeit. Das ist der Grund, warum längere Chats progressiv länger dauern und immense GPU-Speicher für die Speicherung all dieser Beziehungen erfordern.

RAG als möglicher Lösungsansatz

Ein vielversprechender Weg, dieses Problem zu umgehen, ist die Retrieval-Augmented Generation (RAG). Anstatt den gesamten Kontext in das LLM-Notizbuch zu zwängen, fungiert ein RAG-System wie ein smartes Bibliothekssystem. Es durchsucht riesige externe Datenbanken und Wissensquellen nach den speziell relevanten Informationen für die aktuelle Frage.

Nur diese relevanten Schnipsel werden dann zusammen mit der Frage in das Kontextfenster des LLM eingefügt. Dadurch kann ein Kontextfenster, das eigentlich begrenzt ist, sich fast grenzenlos anfühlen, da die externen Datenbanken Millionen von Dokumenten speichern können.

RAG ist besonders nützlich für Aufgaben wie das Durchsuchen technischer Dokumentationen oder die Beantwortung von Fragen aus großen Wissensdatenbanken. Bei klassischen Chats wird uns das Gedächtnisproblem also noch einige Zeit verfolgen.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

Du möchtest nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 smarte Leser bekommen jeden Tag UPDATE, unser Tech-Briefing mit den wichtigsten News des Tages – und sichern sich damit ihren Vorsprung. Hier kannst du dich kostenlos anmelden.

STELLENANZEIGEN
Senior Manager Social Media (m/w/d)
TARGOBANK in Hauptverwaltung Düsseldorf
Praktikant/in Social Media (m/w/d)
Kids Camp America Gmbh in München, Frankfurt am Main...
Social Media Marketing Manager (d/w/m)
BavariaDirekt in München
Praktikant (w/m/d) Marketing & Social Med...
Bübchen Skincare GmbH in Düsseldorf
Junior Sales Manager (m/w/d) Online Marketing
Sellwerk GmbH & Co. KG in Düsseldorf, Dormagen, Duis...
Software Sales Manager / Software Business De...
RAYLASE GmbH in Wessling
Marketing Content Specialist (all genders)
The Boston Consulting Group GmbH - BCG in München
Grafik-Designer:in / Mediengestalter:in (Prin...
denkmalstadt GmbH in Bremen
Teile diesen Artikel
Felix Baumann ist seit März 2022 Redakteur bei BASIC thinking. Bereits vorher schrieb er 4 Jahre für den Online-Blog Mobilegeeks, der 2022 in BASIC thinking aufging. Nebenher arbeitet Felix in einem IT-Unternehmen und beschäftigt sich daher nicht nur beim Schreiben mit zukunftsfähigen Technologien.