Sonstiges

Wie Googles Forschungsabteilung Big Data zur Spracherkennung nutzt

Bei Google dreht sich dieser Tage viel um Spracherkennung: So wurde zum Beispiel mit dem Update auf Android 4.2 Jelly Bean der Service Google Now verbessert und seit gestern ist Google’s Such-App, die sprachgesteuerte Befehle unterstützt, auch für iOS-Geräte verfügbar. Beide greifen bei ihrer Arbeit auf den „Knowledge Graph“ zurück, der für mehr als 500 Millionen Objekte wie bekannte Personen Daten sammelt und diese in ein Verhältnis zu anderen Informationen setzt.

Doch nach wie vor hapert es bei der Spracherkennung und der Fähigkeit, Worten einen Kontext zuzuweisen. Um dies weiter zu verbessern hat Google’s Forschungs-Team nun die Ergebnisse eines Sprach-Modells veröffentlicht, das vor allem mit anonymisierten Google-Anfragen und der wachsenden Datenmenge im Internet gefüttert wurde.

Sprach-Modell reduziert Fehlerquoten


Neue Stellenangebote

Growth Marketing Manager:in – Social Media
GOhiring GmbH in Home Office
Senior Social Media Manager:in im Corporate Strategy Office (w/d/m)
Haufe Group SE in Freiburg im Breisgau
Senior Communication Manager – Social Media (f/m/d)
E.ON Energy Markets GmbH in Essen

Alle Stellenanzeigen


So wird mit Hilfe des Sprach-Modells beispielsweise die Wahrscheinlichkeit des nächsten Wortes berechnet. Der Satz „Kannst du mir die Butter…“ wird vermutlich eher mit dem Wort „geben“ als mit „heben“ enden, obwohl sich beide ähnlich anhören und von einer Spracherkennungs-Software durchaus verwechselt werden dürften. Diese zunächst simple Erkenntnis konnten Google-Forscher nun mit Hilfe des „N-Gramm-Ansatzes“ beweisen und optimieren. Dabei wird die Wahrscheinlichkeit des folgenden Wortes basierend auf den vorherigen n-1 Wörtern berechnet. In einem Test mit 230 Billionen Wörtern und einem Vokabular von einer Millionen Wörtern wurden die Fehlerquoten bei der Worterkennung und des Suchergebnisses nun um bis zu 10 % reduziert.

Neben der Such-App soll auch die „Speech-to-Text“-Übersetzung bei YouTube von den Erkenntnissen profitieren. Im Gegensatz zu Siri geht die Such-App übrigens nicht den Umweg über ein externes Rechenzentrum, sondern analysiert die Sprache direkt auf dem Gerät. Deutlich weiter geht jedoch der Ansatz von Google Now: Kombiniert mit dem Knowledge Graph, persönlichen Daten aus Google Mail und weiteren Daten wie Ort und Zeit soll die semantische Suche möglich werden. Auch wenn das den Datenschützern die Nachtruhe vollständig rauben wird, ich finde den Ansatz sehr interessant.

Ist Google Now das „Next Big Thing“?

Natürlich klappt noch nicht alles reibungslos, doch Google dürfte bei der Weiterentwicklung seines Dienstes die Nase vor Apples Siri und Windows Phone haben. Die schiere Datenmenge, die Google täglich sammelt – sowohl über die Welt als auch die einzelne Person – helfen dem Suchmaschinenkonzern zunehmend, dem gesprochenen Wort eine Bedeutung zuzuweisen und Suchanfragen korrekt zu beantworten. Google Now könnte somit die nächste Killer-Applikation von Google werden.

Während die reguläre Suche seinerzeit rasant an Popularität gewann, weil sie schnellere und bessere Ergebnisse lieferte als die damaligen Wettbewerber, hat Konkurrent Bing inzwischen nahezu aufgeschlossen. Und auch bei der Spracherkennung gibt es momentan eher ein Patt zwischen Apple und Google denn einen eindeutigen Sieger. Mit Google Now könnte sich das wieder ändern.

Hier ist übrigens ein interessantes Video zu Google Now.

Über den Autor

Robert Vossen

Robert Vossen hat erst Los Angeles den Rücken gekehrt und dann leider auch BASIC thinking. Von 2012 bis 2013 hat er über 300 Artikel hier veröffentlicht.

10 Kommentare

  • So weit ich es verstanden habe sind Google Now und die Spracherkennung der Google Suche zwei komplett unterschiedliche Dienste, auch wenn sie in der Android Oberfläche eng verzahnt erscheinen:

    Bei Google Now geht es ja darum Frage schon zu beantworten bevor am sie als Nutzer gestellt hat.

    Diese Funktion ist heute glaube ich einzigartig.

  • Wieder mal Google Bashing?
    Apple sein „Siri“ ist auch Militär-Technologie und nun Ratet mal welche Daten dort Verwendet werden?

  • Da ist ein Deppenapostroph im Titel. Im Text übrigens auch.

    Zum Thema: Auch wenn Bing an und für sich ein gelungener Dienst ist, so richtig in den Fokus der allgemeinen Wahrnehmung ist doch der Google-Konkurrent nie gelangt. Was die Spracherkennung angeht: Find ich schon ziemlich interessant und kann auch für Dienste wie Siri nur von Nutzen sein, wenn’s was am Markt gibt, das die Entwicklung zusätzlich vorantreibt und zeigt, wie’s geht. Siri benutz ich heute schon gern, auch wenn sie manchmal schwer von Begriff ist.

  • Nichts Neues und weder Apple (die sich das Wissen bei DARPA dazu gekauft haben) noch Google (welche sich munter an unseren Anfragen bedienen) sind die Erfinder eines Vorhersageprinzips! Das ist schon bald 60 Jahre alt und geht auf einen russischen Mathematiker zurück. Zu dieser Zeit ging man auch davon aus, dass künstliche Intelligenz nur einen. Wimpernschlag entfernt sei. Scheinbar sind wir aber selbst als Spezies nicht so intelligent und laufen oft den gleichen Weg, auch wenn wir gegen eine Wand laufen. Der Begriff Intelligenz ist noch nicht einmal geklärt und manche suchen ihn nachzubilden. Finde ich ganz schlau!

    Was dumm sein heißt, scheint sich leichter zu erschließen… Apple oder Google huldigen, denn sie haben genug Wertschätzung! Unser Geld!

  • Ich glaube kaum das Sprachsteuerung das nächste „Next Big Thing“ wird, selbst wenn sie fehlerfreier Funktionieren sollte.
    Menschen „sprechen“ nicht gern mit Maschinen zudem gibt es in der realen Umgebung zuviele Nebengeräusche.
    Sprachsteuerung wird sich auf spezielle Anwendungsfälle konzentrieren wo sich wirklich von Vorteil ist, wie der Texteingabe, Vorlesen oder live Übersetzungen.
    Wenn etwas das nächte Big Thing sein wird dann „Augmented reality“ (Mischung realer und virtueller Komponenten), diese könnte unsere Sicht auf die Welt völlig Verändern.
    Zuerst auf dem Smartphone und später mit Geräten wie die „Google-Brille“ und Andere. Sie könnten in einigen Jahren bisherige mobile Geräteklassen wie Smartphone oder Tablets Ersetzen und Zusammenführen.
    Zur Eingabezukunft sehe ich satt der Sprachsteuerung eher eine Augen- oder Gedankensteuerung.

  • Spracherkennung funktioniert übrigens so das man jedes Wort von einem Referenz Sprecher einsprechen läßt. Nicht eingesprochene Wörter können nicht erkannt werden. Das ist auch der Grund warum deutsch schwieriger ist weil wir Wörter fast beliebig zusammen setzen können und damit unseren Wortschatz deutlich vergrößern.
    Jeder Nutzer beginnt mit so einem Referenz Wörterbuch allerdings wird jedes gesprochene und erkannte Wort in diesem persönlichem Wörterbuch ersetzt. D.h. jedes Wort das man mit Google erkennen läßt wird auf deren Servern gespeichert! Das nennt man übrigens „trainieren“ der Spracherkennung. Sicherlich ein segen für Strafermittler und Werbepartner, aber durchaus beängstigend was alles für immer aufgezeichnet wird.

  • Ich habe auch die (deppen-) apostrophe gefunden.:-) Der englische Einfluss auf die deutsche Sprache verwirrt zunehmend die Bevölkerung. Alleine wie oft ich hier Wörter lese die offensichtlich ein Wort darstellen sollen allerdings getrennt geschrieben wurden (Bsp. Googlesuche).Zum Thema :sprachsteuerung finde ich weniger spannend. Google now dagegen super. Mein Terminkalender ist mittlerweile voll Termine mit Ort und Strasse obwohl ich weiß wo ich hinfahren muss. Die Erinnerungen dagegen habe ich komplett ausgeschaltet. Das übernimmt Google now mittlerweile. Bin immer wieder verblüfft was im Hintergrund mein nexus da durchrechnet um mich zu erinnern, dass ich in spätestens 10 Minuten losfahren muss wenn ich nicht zu spät zu meinem Termin kommen möchte.

  • @Thomas: Danke für den Hinweis, ist korrigiert. Bin wohl doch schon zu lange im englischsprachigen Ausland 😉

  • Sehr interessant und von der Entwicklung her genial. Solch einen Algorithmus zu schaffen ist unglaublich umfangreich und daher Hut ab vor solchen Neuheiten!