Künstliche Intelligenz hat einen neuen Meilenstein erreicht: Erstmals haben KI-Modelle von Google DeepMind und OpenAI bei der Internationalen Mathematik-Olympiade (IMO) Goldmedaillen-Level errungen. Beide Systeme lösten fünf von sechs Aufgaben, was den bisherigen Stand der KI-Forschung beim mathematischem Denken deutlich verschiebt. In unserem Format „Break The News“ haben wir die Hintergründe entschlüsselt.
Hintergrund zu Google und OpenAI bei der IMO
- Die IMO ist der weltweit renommierteste Mathewettbewerb für Schüler und gilt als Königsdisziplin mathematischen Problemlösens. Teilnehmen dürfen Jugendliche unter 20 Jahren aus aller Welt.
- Google DeepMind arbeitete eng mit dem IMO-Komitee zusammen und hat sich die Leistung seines neuen universellen Modells „Gemini Deep Think“ offiziell zertifizieren lassen. OpenAI trat zwar nicht offiziell an, ließ seine Resultate aber von externen IMO-Medaillengewinnern überprüfen.
- Beide Unternehmen setzten auf sogenannte universelle Reasoning-Modelle, die mathematische Aufgaben so verstehen und lösen können, wie Menschen sie in „natürlicher Sprache“ beschreiben. Das ist ein großer Unterschied zu älteren KI-Systemen, die hauptsächlich mit komplizierten Formeln und festen Rechenregeln gearbeitet haben.
Einordnung zur IMO-Goldmedaille von Google und OpenAI
Mit diesem Durchbruch rückt das Ziel, KI-Systeme zu entwickeln, die auf Augenhöhe mit menschlicher Intelligenz agieren können, ein großes Stück näher. Die IMO-Aufgaben gelten als extrem anspruchsvoll und verlangen originelles, kreatives Denken – bislang also eher nichts für die noch recht stumpfen KI-Sprachmodelle.

Zur Einordnung haben wir hier mal eine der sechs Aufgaben der diesjährigen Internationalen Mathematik-Olympiade rausgesucht. Wenn sich einer unserer Leser im Stande sieht, uns das vorzurechnen, freuen wir uns über eine E-Mail. Unsere Redaktion hat leider einmal zu häufig im Matheunterricht gefehlt.
Bemerkenswert ist der Wechsel in der Herangehensweise: Statt auf stures Durchrechnen zu setzen, meistern die neuen Modelle von Google und OpenAI die Aufgaben in „natürlicher Sprache“. Sie denken also nicht mehr nur wie Taschenrechner, sondern argumentieren wie Menschen.
Noch im vergangenen Jahr erreichte Google bei der IMO “nur” die Silbermedaille. Allerdings mussten damals die Problemstellungen noch von Menschen in ein für die KI verständliches Format übersetzt werden. Das war in diesem Jahr nicht mehr nötig.
OpenAI setzte dabei auf sogenannte „Testzeit-Berechnung“: Das Modell durfte bei der Lösung der Aufgaben besonders lange und gründlich nachdenken und konnte parallel verschiedene logische Überlegungen anstellen. Das war laut OpenAI „sehr teuer“. Oder auf Deutsch: Der Erfolg ist mit viel Geld erkauft.
Stimmen
- Junehyuk Jung, Mathematikprofessor und Gastforscher bei Google DeepMind, sagte gegenüber Reuters: „Ich glaube, der Moment, in dem wir schwierige logische Probleme in natürlicher Sprache lösen können, eröffnet ein enormes Potenzial für die Zusammenarbeit zwischen KI und Mathematikern.“
- Journalist Matthias Bastian ordnet ein: „Die Fähigkeit, über Stunden hinweg konsistent und korrekt zu argumentieren, galt lange als Grenze für Sprachmodelle. Der Wettlauf um reasoningfähige KI hat eine neue Phase erreicht – und die Maschine rückt dem Menschen, zumindest im mathematischen Denken, deutlich näher.“
- Wir finden: „Zweifelsfrei sind die Ergebnisse von Google und OpenAI beeindruckend. Die wahren Helden dieser Geschichte sind aber die 67 Schüler, die das Gold mit ihrem Verstand gewonnen haben. Umso bemerkenswerter, wenn man bedenkt, was für Unsummen Google und OpenAI an Ressourcen aufgebracht haben, um ihre KIs rechnen zu lassen.“
Ausblick auf die Zukunft der Mathematik im KI-Zeitalter
Nicht nur für die KI-Forschung, sondern auch für die Mathematik selbst öffnet sich damit ein neues Kapitel: Experten sehen die Chance, dass KI schon bald helfen könnte, bislang ungelöste Probleme der Forschung zu knacken.
Mit der inoffiziellen Goldmedaille lässt sich jetzt natürlich wunderbar PR machen (siehe OpenAI hier und Google dort). Doch die Euphorie sollte nicht darüber hinwegtäuschen, dass diese Systeme noch weit davon entfernt sind, zuverlässig in allen mathematischen oder wissenschaftlichen Disziplinen zu glänzen.
Und das Ergebnis war teuer: Die Ressourcen, die für diese „Testzeit-Berechnung“ nötig waren, sind so hoch, dass OpenAI keine näheren Angaben dazu machen wollte. Wirklich massentauglich sind die Leistungen bei den aktuellen Kosten also noch lange nicht.
Auch interessant: