Das LLM-Gedächtnisproblem: Warum KI häufig den Faden verliert

Dass KI-Tools häufig den Faden verlieren, empfinden viele Nutzer als nervig. Doch das ist kein Zufall, sondern ein LLM-Gedächtnisproblem. Hintergrund ist ein architektonisches Limit.

Falls du schon länger mit einem großen Sprachmodell (LLM) wie ChatGPT oder Claude arbeitest, kennst du bestimmt dieses Phänomen: Du bist mitten in einer komplexen Aufgabe und plötzlich scheint die KI zentrale Teile der vorangegangenen Diskussion vergessen zu haben. Experten nennen dieses Phänomen zu Recht „Gedächtnisproblem“ (The Memory Problem). Dabei handelt es sich um eine fundamentale architektonische Einschränkung, die alle aktuellen LLMs betrifft.

Dieses Vergessen ist keine Absicht, sondern basiert auf einem technischen Limit. Denn LLMs haben kein Gedächtnis im traditionellen Sinne. Wenn du eine neue Nachricht sendest, erinnert sich das Modell nicht an die vorherigen Nachrichten aus einer gespeicherten Datenbank.

Stattdessen liest das Modell die gesamte Konversation von Anfang an neu durch, um die nächste Antwort zu generieren. Man kann sich das wie das Lesen eines Buches vorstellen, bei dem jedes Mal, wenn ein neuer Satz geschrieben werden soll, der gesamte Text von Seite eins an gelesen werden muss.

LLM-Gedächtnisproblem: Das Kontextfenster als Engpass

Dieses ständige „Wiederlesen“ findet innerhalb des sogenannten Kontextfensters statt. Dieses Fenster kannst du dir wie einen Notizblock mit fester Größe vorstellen: Die gesamte Konversation muss dort hineinpassen. Die Kapazität wird in Tokens gemessen, den grundlegenden Texteinheiten, die ein LLM verarbeitet.

Ein Token entspricht grob etwa drei Vierteln eines Wortes. Wenn das Notizbuch vollläuft, muss das System ältere Inhalte löschen, damit die Konversation weitergehen kann. Alles, was aus diesem Fenster fällt, ist für die KI nicht mehr direkt abrufbar.

Das eigentliche Problem ist dabei nicht die Datenübertragung. Denn eine 30.000 Wörter lange Unterhaltung entspricht nur etwa 200 bis 300 Kilobyte an Daten. Der wahre Engpass ist die Rechenleistung. Das liegt an dem sogenannten Attention-Mechanism (Aufmerksamkeitsmechanismus) der LLMs. Dieser erfordert, dass die KI die Beziehung jedes einzelnen Wortes zu jedem anderen Wort in der Konversation berechnet.

Das führt zu einem quadratischen Wachstumsproblem. Wenn sich die Eingabe verdoppelt, vervierfacht sich die erforderliche Rechenarbeit. Das ist der Grund, warum längere Chats progressiv länger dauern und immense GPU-Speicher für die Speicherung all dieser Beziehungen erfordern.

RAG als möglicher Lösungsansatz

Ein vielversprechender Weg, dieses Problem zu umgehen, ist die Retrieval-Augmented Generation (RAG). Anstatt den gesamten Kontext in das LLM-Notizbuch zu zwängen, fungiert ein RAG-System wie ein smartes Bibliothekssystem. Es durchsucht riesige externe Datenbanken und Wissensquellen nach den speziell relevanten Informationen für die aktuelle Frage.

Nur diese relevanten Schnipsel werden dann zusammen mit der Frage in das Kontextfenster des LLM eingefügt. Dadurch kann ein Kontextfenster, das eigentlich begrenzt ist, sich fast grenzenlos anfühlen, da die externen Datenbanken Millionen von Dokumenten speichern können.

RAG ist besonders nützlich für Aufgaben wie das Durchsuchen technischer Dokumentationen oder die Beantwortung von Fragen aus großen Wissensdatenbanken. Bei klassischen Chats wird uns das Gedächtnisproblem also noch einige Zeit verfolgen.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

		Social-Media-Redakteur (m/w/d) mit Schwerpunk... RHEINISCHE POST Medien GmbH in Düsseldorf
		Social Media Manager (m/w/d) – Content, Growt... Vasto GmbH in Schönefeld
		Head of Social Commerce & Media (gn) Peter Kölln GmbH & Co. KGaA in Elmshorn
		Praktikum Gaming-PR (m/w/d) P.U.N.K.T. Gesellschaft für Public Relati... in Hamburg
		Social Media Manager:in für die Sparkasse Nür... Sparkasse Nürnberg in Nürnberg
		Praktikant*in Social Media & Content Mark... bonprix Handelsgesellschaft mbH in Hamburg
		Praktikant*in Social Media Kommunikation &amp... Mercedes-Benz AG in Sindelfingen
		Content Creator / Brand Builder für Video, So... PropertyExpert GmbH in Monheim am Rhein

		Praktikant*in Social Media & Content Mark... bonprix Handelsgesellschaft mbH in Hamburg
		Social Media Manager (m/w/d) – Content, Growt... Vasto GmbH in Schönefeld
		Application Engineer (m/w/d) EBARA Precision Machinery Europe GmbH in Dresden
		Head of Social Commerce & Media (gn) Peter Kölln GmbH & Co. KGaA in Elmshorn
		IT Solution Consultant (m/w/d) GREEN IT Das Systemhaus GmbH in Dortmund

Das LLM-Gedächtnisproblem: Warum KI oft den Faden verliert

LLM-Gedächtnisproblem: Das Kontextfenster als Engpass

RAG als möglicher Lösungsansatz

iPhone 17 ab 0,84 Euro mit AirPods Pro 3: Jetzt Vodafone Business-Tarif sichern

LLM-Gedächtnisproblem: Das Kontextfenster als Engpass

RAG als möglicher Lösungsansatz

iPhone 17 ab 0,84 Euro mit AirPods Pro 3: Jetzt Vodafone Business-Tarif sichern

LESEEMPFEHLUNGEN

Sicherheitslücke bei Hoymiles-Wechselrichtern erlaubt Angriffe auf Solaranlagen

Sihoo Doro C300 Pro V2 im Test: Wie gut ist der neue ergonomische Bürostuhl wirklich?

Immer mehr Filme und Videos mit KI-Übersetzungen – Zuschauer genervt

E-Autos bauen nicht mehr Unfälle – aber andere als Verbrenner

Mit eigener E-Mail-Domain seriöser auftreten: So einfach geht’s mit Checkdomain

Politische Kommunikation am Abgrund – wenn sogar KI besser klingt

Smarter als dein Feed