Die Produktivität von KI-Agenten wird an Aufgaben gemessen, die mit der realen Arbeitswelt nur wenig zu tun haben, wie eine neue Studie zeigt. Während Benchmarks vor allem Programmierfähigkeiten testen, bleiben demnach zentrale Tätigkeiten vieler Berufe weitgehend außen vor.
Künstliche Intelligenz ist einer der aktuellen und meist diskutierten Trends in der Arbeitswelt. Unternehmen versprechen sich Effizienzgewinne und neue Geschäftsmodelle, während in der Gesellschaft diskutiert wird, welche Tätigkeiten durch KI automatisiert werden können – und welche nicht.
Gleichzeitig entwickeln sich KI-Systeme rasant weiter. Das gilt insbesondere für die sogenannte KI-Agenten, die in der Arbeitswelt künftig eigenständig Aufgaben planen und ausführen sollen. Doch je größer die Erwartungen werden, desto drängender stellt sich die Frage, wie realistisch diese Fähigkeiten tatsächlich sind.
Eine Studie der Carnegie Mellon University und der Stanford University hat sich genau diese Thematik genauer angesehen. Die Ergebnisse legen nahe, dass bei der Bewertung von KI-Agenten zwischen Anspruch und Wirklichkeit eine erhebliche Lücke klafft. Denn diese orientiert sich bislang stark an eng gefassten, oft programmierlastigen Aufgaben und damit eher weniger an tatsächlichen Aufgaben aus der Arbeitswelt.
Wie gut sind KI-Agenten wirklich für die Arbeitswelt geeignet?
Benchmarks dienen für die Bewertung von KI-Agenten als Maßstab für Fortschritt und Leistungsfähigkeit. Denn sie definieren, welche Aufgaben die Systeme lösen sollen und können dann anhand standardisierter Tests Aussagen über die Leistungsfähigkeit zulassen.
Entwickler und Unternehmen können dann anhand dieser Tests entscheiden, für welche Aufgaben die KI aufgrund ihrer Leistungsfähigkeit geeignet ist. Die Forscher der Carnegie Mellon University und der Stanford University haben sich für ihre Untersuchung jedoch die Frage gestellt, wie repräsentativ diese Benchmarks für die reale Arbeitswelt tatsächlich sind.
Das größte Problem sehen die Wissenschaftler in der Definition der Benchmarks für KI-Agenten. Denn sind diese nur auf einen kleinen Aufgabenbereich beschränkt, führen Verbesserungen möglicherweise nicht zu breiten Produktivitätssteigerungen oder einer spürbaren Entlastung des Arbeitsmarktes.
KI-Agenten konzentrieren sich auf geringen Teil der Arbeitswelt
Für die Untersuchung haben die Forscher systematisch den Zusammenhang zwischen der Entwicklung von Agenten und der Verteilung realer menschlicher Arbeit untersucht. Dafür haben sie 72.342 Aufgaben aus 43 Agenten-Benchmarks gesammelt, standardisiert und diese 1.016 realen Berufen auf dem US-amerikanischen Arbeitsmarkt zugeordnet.
„Wir zeigen erhebliche Diskrepanzen zwischen der tendenziell programmierzentrierten Agentenentwicklung und den Kategorien auf, in denen menschliche Arbeit und wirtschaftlicher Wert konzentriert sind“, schreiben die Forscher in ihrer Studie. Denn die Entwicklung von KI-Agenten sei stark auf wenige Arbeitsbereiche und Fähigkeiten konzentriert.
Benchmarks für KI-Agenten fokussierten sich überproportional auf programmier- und mathematikintensive Aufgaben. Diese machen laut der Auswertung jedoch nur 7,6 Prozent der Gesamtbeschäftigung auf dem US-Arbeitsmarkt aus.
Dabei seien arbeitsnahe Benchmarks nicht immer realistisch, da manche Aufgaben zwar oberflächlich betrachtet realer Arbeit ähnelten, aber nur begrenzt auf tatsächliche Arbeitsbereiche anwendbar sind. Denn reale Berufe erfordern oft die Koordination mehrerer Kompetenzen über verschiedene Bereiche hinweg, was viele Benchmarks nur teilweise erfassen würden.
Auch interessant:









