DeepSeek OCR Token Text zu Bild

DeepSeek OCR: China-KI will Denken neu erfunden haben

Fabian Peters
Bild: unsplash / Solen Feyissa

Anzeige

DeepSeek hat die KI-Branche Anfang 2025 in Aufruhr versetzt. Auf den anfänglichen Hype folgte die Ernüchterung. Nun kommt das chinesische Unternehmen mit dem nächsten großen Versprechen daher: DeepSeek OCR soll kostengünstiger und effizienter sein als andere KI-Systeme. Eine kommentierenden Analyse. 

BREAK THE NEWS BASIC thinking

Unser exklusives Format »Break the News«, in dem wir aktuelle Nachrichten in ihre Einzelteile zerlegen, erscheint immer zuerst in UPDATE, unserem täglichen Tech-Briefing. Hier kannst du dich über 10.000 anderen Lesern anschließen und dich kostenlos anmelden:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

Was ist DeepSeek OCR?

  • DeepSeek versprach bereits zu Beginn deutlich effizienter als ChatGPT und Co. zu sein. Schnell stellte sich jedoch heraus, dass viele Angaben vage, ungenau oder teilweise irreführend waren. Mit DeepSeek OCR hat das Unternehmen einen Ansatz präsentiert, bei dem Textbausteine in Bildern gespeichert und anschließend wieder als Text ausgelesen werden. Das soll deutlich kostengünstiger, effizienter und umweltfreundlicher sein.
  • KI-Sprachmodelle funktionieren, indem sie Texte in sogenannte Token zerlegen. Das sind Sprachbausteine, die es einer KI ermöglichen, Sprache anhand von Mustern und Wahrscheinlichkeiten zu verstehen, um reagieren zu können. Je länger eine Konversation, desto mehr Token werden benötigt. Das führt irgendwann dazu, dass ältere Informationen von neueren überlagert und Antworten im Kontext ungenauer werden.
  • Statt Text in unzählige Token zu zerlegen, wandelt DeepSeek OCR Informationen in Bilder um – vergleichbar mit dem Abfotografieren von Buchseiten. Diese visuellen Token werden dann ausgelesen und von der KI bei der Ausgabe wieder in Text umgewandelt. Laut DeepSeek würde die Methode die Anzahl der Token deutlich reduzieren, was neben Rechenpower auch CO2-Emissionen einspare.

Betreibt China mit DeepSeek AI-Washing?

Auf Forschungsebene erscheint DeepSeek OCR durchaus spannend, denn das Unternehmen versucht Sprache zu komprimieren, indem KI sieht statt zählt. Das Modell ist zudem Open-Source und damit frei im Internet zum Download verfügbar.

Das klingt nach Transparenz, doch Open Source ist nicht automatisch offen. Denn: Der Quellcode ist zwar sichtbar, die Absicht dahinter aber unscharf. Die chinesische Regierung hat bei DeepSeek nämlich ihre Finger im Spiel. Das Fundament ist damit brüchig.

In puncto Datenschutz fehlt es DeepSeek so ziemlich an allem. Eine Nutzung geht zudem mit dem Verdacht der Spionage einher. Die chinesische Regierung scheint eine Art AI-Washing zu betreiben, um sich als verantwortungsvoller Player in Sachen KI-Effizienz zu etablieren.

Der Ansatz von DeepSeek OCR ist zwar spannend, in der Praxis aber kaum bewiesen. Das Modell ist kein Produkt, sondern Forschung. In einigen Bereichen mag diese fortschrittlich sein, offenbar aber mit klaren Interessen. Zumal die Versprechen erneut übertrieben erscheinen.

Stimmen

  • Mathematiker Jeffrey Emanuel, Chef der Blockchain-Plattform Pastel Network, hat sich DeepSeek-OCR genauer angeschaut. Sein Fazit: „Es ist äußerst nützlich, über umfangreiches aufgabenspezifisches Wissen in Ihrem Arbeitsgedächtnis zu verfügen. Dies scheint ein sehr cleverer und additiver Ansatz zu sein, um diesen Gedächtnisspeicher potenziell um das Zehnfache oder mehr zu erweitern.“
  • Statistik-Professor und KI-Ingenieur Sebastian Raschka ist von DeepSeek OCR durchaus überrascht, schränkt aber ein: „Insgesamt ist es ein esoterisches Konzept, Text in Bildern zu verschlüsseln, dass ich überrascht bin, dass es gut funktionieren könnte (und vielleicht macht es nur für sehr lange Dokumente oder spezielle Bereiche wie OCR oder Code Sinn, nicht für allgemeine Sprachmodellierung).“
  • Jinpeng Wang, Professor an der National University of Singapore, wirft DeepSeek sogar Irreführung vor: „DeepSeek-OCR sieht beeindruckend aus, aber seine Kernidee ist nicht neu. Leider ignoriert DeepSeek all diese früheren Arbeiten vollständig. Aus Gründen der akademischen Genauigkeit und fairen Quellenangabe wäre es angemessen, wenn DeepSeek-OCR diese grundlegenden Arbeiten anerkennen und zitieren würde.“

DeepSeek OCR bislang nur ein Laborversuch

Das OCR-Modell von DeepSeek scheint erneut ein viel zu großes Versprechen zu sein – vermutlich mit dem Ziel, PR für China zu betreiben. Der Ansatz ist zwar spannend, doch er wird Künstliche Intelligenz nicht revolutionieren.

Im Nebensatz betonen die Entwickler, dass es sich bislang nur um einen Laborversuch und eine vorläufige Analyse handelt. DeepSeek OCR wurde dennoch mit pompösen Worten vorgestellt. Ob die Technologie im echten Betrieb aber so elegant performt wie auf dem Papier, ist durchaus fraglich.

Das Modell unterscheidet sich zwar deutlich von allen anderen. Um zu wissen, wie gut und schnell es wirklich funktioniert, muss DeepSeek aber noch Beweise liefern. Der Open Source-Code könnte einigen Unternehmen bei der Entwicklung helfen und KI grüner machen. Doch Effizienz ist kein Garant für Intelligenz.

BREAK THE NEWS BASIC thinking

Unser exklusives Format »Break the News«, in dem wir aktuelle Nachrichten in ihre Einzelteile zerlegen, erscheint immer zuerst in UPDATE, unserem täglichen Tech-Briefing. Hier kannst du dich über 10.000 anderen Lesern anschließen und dich kostenlos anmelden:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

Auch interessant:

🤝 25 Euro geschenkt!

Eröffne jetzt dein kostenloses NIBC Tagesgeld und erhalte bis zu 2,75 Prozent Zinsen auf dein Geld! Und obendrauf gibt's sogar noch 25 Euro geschenkt!


Jetzt Zinsen sichern

Voraussetzungen gelten, Anzeige

STELLENANZEIGEN
Graphic Designer & Content Creator (m/w/d)
FamiCord AG in Leipzig
Senior SAP Consultant FI/CO (f/m/div.)
Bosch Gruppe in Wetzlar
SAP Project Manager (m/w/d)
Bosch Gruppe in Stuttgart
Werkstudent*in Online Marketing (w/m/div)
Sparda-Bank Berlin eG in Berlin
Key Account Manager (m/w/d) im Bereich Online...
AZ fundraising services GmbH & Co. KG in Gütersloh
PreMaster Program | Software Engineer for MEM...
Bosch Gruppe in Reutlingen
Intern/Working Student (m/f/d) in Generative AI
Clarios Germany GmbH & Co. KG in Hannover
Intern (m/f/d) in Digital Marketing
Clarios Germany GmbH & Co. KG in Hannover
Teile diesen Artikel
Chefredakteur
Folgen:
Fabian Peters ist seit Januar 2022 Chefredakteur von BASIC thinking. Zuvor war er als Redakteur und freier Autor tätig. Er studierte Germanistik & Politikwissenschaft an der Universität Kassel (Bachelor) und Medienwissenschaften an der Humboldt-Universität zu Berlin (Master).