Reasoning-Modelle KI Künstliche Intelligenz LRM

Studie: Sind Reasoning-Modelle weniger leistungsfähig als gedacht?

Maria Gramsch
Bild: Mit ChatGPT generiert (KI).

Reasoning-Modelle sollen in der Lage sein Schlussfolgerungen zu ziehen, Probleme zu analysieren und mehrstufige Denkprozesse durchzuführen. Doch ein neues Paper aus dem Hause Apple zeigt, wirft Zweifel an der tatsächlichen Reasoning-Kompetenz moderner KI-Modelle auf.

Large Reasoning Models (LRMs) unterscheiden sich von anderen KI-Modellen wie beispielsweise Large Language Models (LLMs) vor allem durch ihre Fähigkeit, logisch zu denken. Statt Muster zu erkennen, setzt diese Art von KI-Modell auf Schlussfolgerungen.

Reasoning-Modelle sollen deshalb in der Lage sein, mehrstufige Aufgaben zu lösen. Daran scheitern klassische Modelle meist, wenn beispielsweise Zwischenschritte nötig sind.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück 50€ Amazon-Guthaben gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

LRMs sind darauf ausgerichtet, wie Menschen zu denken. Doch dabei weisen die KI-Modelle immer noch gravierende Schwächen auf, wie ein neues Paper von Apple-Forschern untersucht hat.

Zweifel an Denkfähigkeiten von Reasoning-Modellen

Trotz beeindruckender Fortschritte bei Benchmarks zum logischen Denken bleiben zentrale Fragen zu den Fähigkeiten und Grenzen moderner LRMs laut den Apple-Forschern bisher offen. Denn aktuelle Bewertungen von Reasoning-Modellen, unter anderem von OpenAI, Google und Anthropic, stützen sich vor allem auf mathematische und codierte Benchmarks mit Blick auf die Endantwort. Dieses Vorgehen vernachlässigt jedoch die Analyse der Denkprozesse und ist anfällig für Verzerrungen in den Daten.

Um diese Denkprozesse zu untersuchen, haben die Forscher kontrollierte Rätselumgebungen eingesetzt. Dabei haben sie unter anderem die Modelle o3 mini von OpenAI, Deepseek-R1 sowie Claude 3.7 Sonnet unter die Lupe genommen und jeweils den „normalen“ KI-Modus mit dem Reasoning-Modus verglichen.

Dabei konnten sie die Komplexität einer Aufgabe gezielt variieren, aber gleichzeitig die logischen Strukturen aufrechterhalten. So konnten sie nicht nur das Ergebnis bewerten, sondern auch den inneren Denkweg der Modelle analysieren.

Wie haben die jeweiligen Modelle abgeschnitten?

Doch die Ergebnisse fallen ernüchternd aus. Denn ab einer gewissen Komplexität brechen die Modelle in ihrer Leistung vollständig ein. Zusätzlich konnten die Forscher überraschende Skalierungseffekte feststellen. Denn mit steigender Schwierigkeit einer Aufgabe nahm zunächst auch der kognitive Aufwand der Modelle zu. Dieser fällt dann jedoch wieder ab, obwohl genügend Rechenkapazität zur Verfügung stehen würde.

Die Forscher haben ihre Ergebnisse in drei Leistungszonen unterteilt. Demnach schneiden klassische KI-Modelle bei einfachen Aufgaben teilweise besser ab. Bei mittlerer Komplexität zeigen LRMs Vorteile durch zusätzliche Denkschritte. Bei hoher Komplexität hingegen erleben beide Modell-Arten einen „vollständigen Zusammenbruch“.

Die Forscher konnten analysieren, dass LRMs oft keine expliziten Algorithmen anwenden und daher bei logischen Aufgaben oft inkonsistent argumentieren. Auch strukturelle Schwächen im Denkverhalten konnten so aufgedeckt werden.

Selbst wenn die Forscher den Modellen den richtigen Lösungsalgorithmus zur Verfügung gestellt haben, konnte dieser keine Anwendung finden. „Trotz anspruchsvoller Mechanismen zur Selbstreflexion scheitern diese Modelle daran, allgemeine Reasoning-Fertigkeiten über einen bestimmten Schwierigkeitsgrad hinweg zu entwickeln“, heißt es in der Veröffentlichung.

Auch interessant:

Du möchtest nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 12.000 smarte Leser bekommen jeden Tag UPDATE, unser Tech-Briefing mit den wichtigsten News des Tages – und sichern sich damit ihren Vorsprung. Hier kannst du dich kostenlos anmelden.

STELLENANZEIGEN
Digital Marketing Manager (m/w/d)
Schwer Fittings GmbH in Denkingen
Organizational Integration Manager (m/f/d)
Clarios Germany GmbH & Co. KG in
Vehicle Testing Lead (m/f/d)
Clarios Germany GmbH & Co. KG in
Sales Manager (m/w/d) Online Marketing
Sellwerk GmbH & Co. KG in Düsseldorf, Meerbusch, Kaa...
Sales Manager B2B für Stellenanzeigen und Soc...
Recruiting Excellence GmbH in Düsseldorf
(Junior) Social Media Manager*in (m/w/d) – Be...
Digital Vision Academy in Berlin
Performance Marketing Lead (m/w/d) – Pa...
NILO HAMBURG Inh. Niclas Tretschock in Meerbusch
Trainee Online Marketing Manager (m/w/d) Schw...
Finnwaa GmbH in Jena
Teile diesen Artikel
Folgen:
Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.