Dass KI-Tools häufig den Faden verlieren, empfinden viele Nutzer als nervig. Doch das ist kein Zufall, sondern ein LLM-Gedächtnisproblem. Hintergrund ist ein architektonisches Limit.
Falls du schon länger mit einem großen Sprachmodell (LLM) wie ChatGPT oder Claude arbeitest, kennst du bestimmt dieses Phänomen: Du bist mitten in einer komplexen Aufgabe und plötzlich scheint die KI zentrale Teile der vorangegangenen Diskussion vergessen zu haben. Experten nennen diese Phänomen zu Recht „Gedächtnisproblem“ (The Memory Problem). Dabei handelt es sich um eine fundamentale architektonische Einschränkung, die alle aktuellen LLMs betrifft.
Dieses Vergessen ist keine Absicht, sondern basiert auf einem technischen Limit. Denn LLMs haben kein Gedächtnis im traditionellen Sinne. Wenn du eine neue Nachricht sendest, erinnert sich das Modell nicht an die vorherigen Nachrichten aus einer gespeicherten Datenbank.
Stattdessen liest es die gesamte Konversation von Anfang an neu durch, um die nächste Antwort zu generieren. Man kann sich das wie das Lesen eines Buches vorstellen, bei dem jedes Mal, wenn ein neuer Satz geschrieben werden soll, der gesamte Text von Seite eins an gelesen werden muss.
LLM-Gedächtnisproblem: Das Kontextfenster als Engpass
Dieses ständige „Wiederlesen“ findet innerhalb des sogenannten Kontextfensters statt. Dieses Fenster kannst du dir wie einen Notizblock mit fester Größe vorstellen: Die gesamte Konversation muss dort hineinpassen. Die Kapazität wird in Tokens gemessen, den grundlegenden Texteinheiten, die ein LLM verarbeitet.
Ein Token entspricht grob etwa drei Vierteln eines Wortes. Wenn das Notizbuch vollläuft, muss das System ältere Inhalte löschen, damit die Konversation weitergehen kann. Alles, was aus diesem Fenster fällt, ist für die KI nicht mehr direkt abrufbar.
Das eigentliche Problem ist dabei nicht die Datenübertragung. Denn eine 30.000 Wörter lange Unterhaltung entspricht nur etwa 200 bis 300 Kilobyte an Daten. Der wahre Engpass ist die Rechenleistung. Das liegt an dem sogenannten Attention-Mechanism (Aufmerksamkeitsmechanismus) der LLMs. Dieser erfordert, dass die KI die Beziehung jedes einzelnen Wortes zu jedem anderen Wort in der Konversation berechnet.
Das führt zu einem quadratischen Wachstumsproblem. Wenn sich die Eingabe verdoppelt, vervierfacht sich die erforderliche Rechenarbeit. Das ist der Grund, warum längere Chats progressiv länger dauern und immense GPU-Speicher für die Speicherung all dieser Beziehungen erfordern.
RAG als möglicher Lösungsansatz
Ein vielversprechender Weg, dieses Problem zu umgehen, ist die Retrieval-Augmented Generation (RAG). Anstatt den gesamten Kontext in das LLM-Notizbuch zu zwängen, fungiert ein RAG-System wie ein smartes Bibliothekssystem. Es durchsucht riesige externe Datenbanken und Wissensquellen nach den speziell relevanten Informationen für die aktuelle Frage.
Nur diese relevanten Schnipsel werden dann zusammen mit der Frage in das Kontextfenster des LLM eingefügt. Dadurch kann ein Kontextfenster, das eigentlich begrenzt ist, sich fast grenzenlos anfühlen, da die externen Datenbanken Millionen von Dokumenten speichern können.
RAG ist besonders nützlich für Aufgaben wie das Durchsuchen technischer Dokumentationen oder die Beantwortung von Fragen aus großen Wissensdatenbanken. Bei klassischen Chats wird uns das Gedächtnisproblem also noch einige Zeit verfolgen.
Auch interessant:











