CriticGPT: OpenAI's neues Modell zur Fehlererkennung in ChatGPT-Code

OpenAI hat mit CriticGPT kürzlich ein neues KI-Modell vorgestellt. Es soll Fehler innerhalb von ChatGPT ausfindig machen. Studien zeige, dass das Tool den Menschen in 63 Prozent der Fälle übertrifft und KI damit besser machen kann.

Spätestens seit der Einführung von ChatGPT ist Künstliche Intelligenz für viele Menschen in den Alltag vorgedrungen. Doch das System ist nicht fehlerfrei und kann teilweise gewisse Vorurteile entwickeln. Daher stellte das hinter dem Tool stehende Unternehmen OpenAI kürzlich ein neues Modell namens CriticGPT vor. Dieses wurde speziell entwickelt, um Fehler in dem Code von ChatGPT zu erkennen.

Die Entwicklung soll den Prozess der Anpassung von KI-Systemen an menschliche Anforderungen verbessern, indem sie menschliche Prüfer unterstützt und die Genauigkeit der Ausgaben von großen Sprachmodellen (LLMs) erhöht. CriticGPT, basierend auf der GPT-4-Familie. Es analysiert Code und weist auf potenzielle Fehler hin. Das erleichtert es menschlichen Prüfern, Fehler zu erkennen, die sonst möglicherweise übersehen werden.

CriticGPT: Fehlererkennung in 63 Prozent besser als beim Menschen

In einer Forschungsarbeit mit dem Titel „LLM Critics Help Catch LLM Bugs“ zeigten die OpenAI-Forscher, dass CriticGPT in 63 Prozent der Fälle besser als menschliche Prüfer abschnitt. Das lag unter anderem daran, dass das Tool weniger unbrauchbare „Kleinigkeiten“ und weniger falsche Alarme erzeugte.

OpenAI trainierte das Modell darauf, eine Vielzahl von Codierungsfehlern zu erkennen. Dazu schulte das Team den Algorithmus mit einer Datenbank von Codebeispielen, die absichtlich eingefügte Fehlern enthielt.

Diese Methode ermöglicht es CriticGPT, sowohl eingefügte als auch natürlich vorkommende Fehler in den Ausgaben von ChatGPT zu erkennen. Doch das Tool konnte nicht nur Fehler im eigentlichen Code ausfindig machen, sondern auch in anderen Aufgaben.

In Experimenten identifizierte das Modell Fehler in 24 Prozent der ChatGPT-Trainingsdaten, die menschliche Prüfer zuvor als fehlerfrei einstuften. Diese Fehler bestätigte ein Team später, was das Potenzial von CriticGPT zur Prüfung von nicht codierten Aufgaben unterstreicht.

Effektivität bei komplexeren Eingaben bisher nicht bewiesen

Trotz der vielversprechenden Ergebnisse hat CriticGPT, wie alle KI-Modelle, seine Grenzen. Das Team bei OpenAI trainierte es auf relativ kurze Antworten von ChatGPT, was möglicherweise nicht ausreicht, um längere, komplexere Aufgaben zu bewerten. Außerdem ist auch CriticGPT nicht vollständig vor falschen Ausgaben gefeit.

OpenAI plant, CriticGPT-ähnliche Modelle in seine eigenen Prozesse zu integrieren, um den Trainern eine durch KI angetriebene Unterstützung zu bieten. Das soll ein Schritt hin zu besserern Werkzeugen zur Bewertung von Ausgaben von LLM-Systemen, die ohne zusätzliche Unterstützung schwer für Menschen zu bewerten sind, sein.

Google lässt dich jetzt selbst bestimmen, welche Quellen du in der Suche häufiger siehst. Mit zwei schnellen Klicks kannst du BASIC thinking kostenlos als bevorzugte Quelle hinzufügen und damit unabhängigen Tech-Journalismus unterstützen. Vielen Dank!

Auch interessant:

		SEO Lead (m/f/x) Rebuy Recommerce GmbH in Berlin
		Social Media Managerin / Social Media Manager... Karlsruher Institut für Technologie (KIT) in Karlsruhe
		Auszubildende zum/zur Fachinformatiker*in für... Omnicom Media Group Germany GmbH in Düsseldorf
		Online Marketing Manager (m/w/d) Autoland AG in Sandersdorf-Brehna
		Online Marketing Manager (m/w/d) – Schw... VR Bank Rhein Neckar eG in Mannheim
		Digital Marketing Manager (m/w/d) werwie GmbH in Konz
		Head of Social Commerce & Media (gn) Peter Kölln GmbH & Co. KGaA in Elmshorn
		Content Creator (m/w/d) Teilzeit (20 Stunden/... SICAT GmbH & Co. KG in Bonn

THEMEN:Computer Künstliche Intelligenz

Teile diesen Artikel

vonFelix Baumann

Felix Baumann ist seit März 2022 Redakteur bei BASIC thinking. Bereits vorher schrieb er 4 Jahre für den Online-Blog Mobilegeeks, der 2022 in BASIC thinking aufging. Nebenher arbeitet Felix in einem IT-Unternehmen und beschäftigt sich daher nicht nur beim Schreiben mit zukunftsfähigen Technologien.

»UPDATE liefert genau das, was einen perfekten Newsletter ausmacht: Kompakte, aktuelle News, spannende Insights, relevante Trends aus Technologie & Wirtschaft. Prägnant, verständlich und immer einen Schritt voraus!«

– Lisa Osada, +110.000 Follower auf Instagram

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

		Praktikum Content Marketing und Dokumentation... Würth Deutschland in Kuenzelsau
		Functional CRM Consultant Thieme Gruppe in Stuttgart
		Sales Manager für Content Management und Komm... apicodo AG in Mainz
		Junior Business Intelligence- / Data Warehous... expert Warenvertrieb GmbH in Langenhagen
		Digital Marketing Specialist (m/w/d) – ... Sirius Facilities GmbH in Berlin

CriticGPT: Neues KI-Modell von OpenAI soll Fehler in ChatGPT erkennen

CriticGPT: Fehlererkennung in 63 Prozent besser als beim Menschen

Effektivität bei komplexeren Eingaben bisher nicht bewiesen

Samsung Galaxy S26 Ultra für nur 0,84 € im Business Prime XL sichern

CRM kostenlos 2026: Warum Bitrix24 für deutsche Unternehmen unschlagbar bleibt

CriticGPT: Fehlererkennung in 63 Prozent besser als beim Menschen

Effektivität bei komplexeren Eingaben bisher nicht bewiesen

LESEEMPFEHLUNGEN

Smarter als dein Feed