Reasoning-Modelle sollen in der Lage sein Schlussfolgerungen zu ziehen, Probleme zu analysieren und mehrstufige Denkprozesse durchzuführen. Doch ein neues Paper aus dem Hause Apple zeigt, wirft Zweifel an der tatsächlichen Reasoning-Kompetenz moderner KI-Modelle auf.
Large Reasoning Models (LRMs) unterscheiden sich von anderen KI-Modellen wie beispielsweise Large Language Models (LLMs) vor allem durch ihre Fähigkeit, logisch zu denken. Statt Muster zu erkennen, setzt diese Art von KI-Modell auf Schlussfolgerungen.
Reasoning-Modelle sollen deshalb in der Lage sein, mehrstufige Aufgaben zu lösen. Daran scheitern klassische Modelle meist, wenn beispielsweise Zwischenschritte nötig sind.
LRMs sind darauf ausgerichtet, wie Menschen zu denken. Doch dabei weisen die KI-Modelle immer noch gravierende Schwächen auf, wie ein neues Paper von Apple-Forschern untersucht hat.
Zweifel an Denkfähigkeiten von Reasoning-Modellen
Trotz beeindruckender Fortschritte bei Benchmarks zum logischen Denken bleiben zentrale Fragen zu den Fähigkeiten und Grenzen moderner LRMs laut den Apple-Forschern bisher offen. Denn aktuelle Bewertungen von Reasoning-Modellen, unter anderem von OpenAI, Google und Anthropic, stützen sich vor allem auf mathematische und codierte Benchmarks mit Blick auf die Endantwort. Dieses Vorgehen vernachlässigt jedoch die Analyse der Denkprozesse und ist anfällig für Verzerrungen in den Daten.
Um diese Denkprozesse zu untersuchen, haben die Forscher kontrollierte Rätselumgebungen eingesetzt. Dabei haben sie unter anderem die Modelle o3 mini von OpenAI, Deepseek-R1 sowie Claude 3.7 Sonnet unter die Lupe genommen und jeweils den „normalen“ KI-Modus mit dem Reasoning-Modus verglichen.
Dabei konnten sie die Komplexität einer Aufgabe gezielt variieren, aber gleichzeitig die logischen Strukturen aufrechterhalten. So konnten sie nicht nur das Ergebnis bewerten, sondern auch den inneren Denkweg der Modelle analysieren.
Wie haben die jeweiligen Modelle abgeschnitten?
Doch die Ergebnisse fallen ernüchternd aus. Denn ab einer gewissen Komplexität brechen die Modelle in ihrer Leistung vollständig ein. Zusätzlich konnten die Forscher überraschende Skalierungseffekte feststellen. Denn mit steigender Schwierigkeit einer Aufgabe nahm zunächst auch der kognitive Aufwand der Modelle zu. Dieser fällt dann jedoch wieder ab, obwohl genügend Rechenkapazität zur Verfügung stehen würde.
Die Forscher haben ihre Ergebnisse in drei Leistungszonen unterteilt. Demnach schneiden klassische KI-Modelle bei einfachen Aufgaben teilweise besser ab. Bei mittlerer Komplexität zeigen LRMs Vorteile durch zusätzliche Denkschritte. Bei hoher Komplexität hingegen erleben beide Modell-Arten einen „vollständigen Zusammenbruch“.
Die Forscher konnten analysieren, dass LRMs oft keine expliziten Algorithmen anwenden und daher bei logischen Aufgaben oft inkonsistent argumentieren. Auch strukturelle Schwächen im Denkverhalten konnten so aufgedeckt werden.
Selbst wenn die Forscher den Modellen den richtigen Lösungsalgorithmus zur Verfügung gestellt haben, konnte dieser keine Anwendung finden. „Trotz anspruchsvoller Mechanismen zur Selbstreflexion scheitern diese Modelle daran, allgemeine Reasoning-Fertigkeiten über einen bestimmten Schwierigkeitsgrad hinweg zu entwickeln“, heißt es in der Veröffentlichung.
Auch interessant: