KI Gedächtnisproblem LLM Künstliche Intelligenz

Das LLM-Gedächtnisproblem: Warum KI häufig den Faden verliert

Felix Baumann
Bild: Mit ChatGPT generiert (KI)

Anzeige

Dass KI-Tools häufig den Faden verlieren, empfinden viele Nutzer als nervig. Doch das ist kein Zufall, sondern ein LLM-Gedächtnisproblem. Hintergrund ist ein architektonisches Limit.

Falls du schon länger mit einem großen Sprachmodell (LLM) wie ChatGPT oder Claude arbeitest, kennst du bestimmt dieses Phänomen: Du bist mitten in einer komplexen Aufgabe und plötzlich scheint die KI zentrale Teile der vorangegangenen Diskussion vergessen zu haben. Experten nennen diese Phänomen zu Recht „Gedächtnisproblem“ (The Memory Problem). Dabei handelt es sich um eine fundamentale architektonische Einschränkung, die alle aktuellen LLMs betrifft.

Dieses Vergessen ist keine Absicht, sondern basiert auf einem technischen Limit. Denn LLMs haben kein Gedächtnis im traditionellen Sinne. Wenn du eine neue Nachricht sendest, erinnert sich das Modell nicht an die vorherigen Nachrichten aus einer gespeicherten Datenbank.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 10.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Beats-Kopfhörer gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

Stattdessen liest es die gesamte Konversation von Anfang an neu durch, um die nächste Antwort zu generieren. Man kann sich das wie das Lesen eines Buches vorstellen, bei dem jedes Mal, wenn ein neuer Satz geschrieben werden soll, der gesamte Text von Seite eins an gelesen werden muss.

LLM-Gedächtnisproblem: Das Kontextfenster als Engpass

Dieses ständige „Wiederlesen“ findet innerhalb des sogenannten Kontextfensters statt. Dieses Fenster kannst du dir wie einen Notizblock mit fester Größe vorstellen: Die gesamte Konversation muss dort hineinpassen. Die Kapazität wird in Tokens gemessen, den grundlegenden Texteinheiten, die ein LLM verarbeitet.

Ein Token entspricht grob etwa drei Vierteln eines Wortes. Wenn das Notizbuch vollläuft, muss das System ältere Inhalte löschen, damit die Konversation weitergehen kann. Alles, was aus diesem Fenster fällt, ist für die KI nicht mehr direkt abrufbar.

Das eigentliche Problem ist dabei nicht die Datenübertragung. Denn eine 30.000 Wörter lange Unterhaltung entspricht nur etwa 200 bis 300 Kilobyte an Daten. Der wahre Engpass ist die Rechenleistung. Das liegt an dem sogenannten Attention-Mechanism (Aufmerksamkeitsmechanismus) der LLMs. Dieser erfordert, dass die KI die Beziehung jedes einzelnen Wortes zu jedem anderen Wort in der Konversation berechnet.

Das führt zu einem quadratischen Wachstumsproblem. Wenn sich die Eingabe verdoppelt, vervierfacht sich die erforderliche Rechenarbeit. Das ist der Grund, warum längere Chats progressiv länger dauern und immense GPU-Speicher für die Speicherung all dieser Beziehungen erfordern.

RAG als möglicher Lösungsansatz

Ein vielversprechender Weg, dieses Problem zu umgehen, ist die Retrieval-Augmented Generation (RAG). Anstatt den gesamten Kontext in das LLM-Notizbuch zu zwängen, fungiert ein RAG-System wie ein smartes Bibliothekssystem. Es durchsucht riesige externe Datenbanken und Wissensquellen nach den speziell relevanten Informationen für die aktuelle Frage.

Nur diese relevanten Schnipsel werden dann zusammen mit der Frage in das Kontextfenster des LLM eingefügt. Dadurch kann ein Kontextfenster, das eigentlich begrenzt ist, sich fast grenzenlos anfühlen, da die externen Datenbanken Millionen von Dokumenten speichern können.

RAG ist besonders nützlich für Aufgaben wie das Durchsuchen technischer Dokumentationen oder die Beantwortung von Fragen aus großen Wissensdatenbanken. Bei klassischen Chats wird uns das Gedächtnisproblem also noch einige Zeit verfolgen.

Auch interessant:

🤑 200€ Prämie abstauben

Eröffne jetzt dein kostenloses Santander Girokonto und staube für kurze Zeit bis zu 200 Euro Prämie für Neukunden ab. Schnell sein lohnt sich!


Jetzt 200€ sichern

Voraussetzungen gelten, Anzeige

STELLENANZEIGEN
Senior SAP Consultant FI/CO (f/m/div.)
Bosch Gruppe in Wetzlar
Vertriebsingenieur (Ingenieur Maschinenbau / ...
a2tec GmbH in Hamburg
Digital Marketing Manager (m/w/d)
Schwer Fittings GmbH in Denkingen
Personalberater (m/w/d)
Ratbacher GmbH - Karriere bei Rat... in Stuttgart, M...
Organizational Integration Manager (m/f/d)
Clarios Germany GmbH & Co. KG in
Vehicle Testing Lead (m/f/d)
Clarios Germany GmbH & Co. KG in
Sales Manager (m/w/d) Online Marketing
Sellwerk GmbH & Co. KG in Düsseldorf, Meerbusch, Kaa...
Sales Manager B2B für Stellenanzeigen und Soc...
Recruiting Excellence GmbH in Düsseldorf
Teile diesen Artikel
Felix Baumann ist seit März 2022 Redakteur bei BASIC thinking. Bereits vorher schrieb er 4 Jahre für den Online-Blog Mobilegeeks, der 2022 in BASIC thinking aufging. Nebenher arbeitet Felix in einem IT-Unternehmen und beschäftigt sich daher nicht nur beim Schreiben mit zukunftsfähigen Technologien.
Keine Kommentare