Googles unkomplizierte Verschriftlichungs-App

Google stellt für Android eine App bereit, die gesprochene Sprache transkribiert und Geräusche erkennt. Automatische Transkription eignet sich auch für Gesprächsprotokolle.

In Microsofts Betriebssystem gibt es neuerdings eine Option für Live-Untertitel, die ich neulich als die beste versteckte Neuerung in Windows 11 vorgestellt habe. Praktisch wäre diese Funktion auch am Handy – aber Android und iOS müssen beide bislang passen.

Immerhin hält Google für Android die App Automatische Transkription (Live Transcribe) bereit. Die macht zwei Dinge: Erstens verschriftlicht sie Sprache, die sie übers Mikrofon aufnimmt. Zweitens informiert sie über Geräusche, die sie wahrnimmt.

Zu dieser Geräuscherkennung gleich mehr, aber hier erst einmal die Details zur Transkription: Sie wird für über achtzig Sprachen angeboten, auch für Englisch, Deutsch, Französisch und Italienisch. In den Einstellungen legen wir fest, welches die Standardsprache sein soll, die hauptsächlich zu transkribieren ist. Es gibt auch die Möglichkeit, eine Zweitsprache festzulegen – aber offenbar geht bei Google niemand davon aus, dass es Leute gibt, die mehr als zwei Idiome beherrschen.

Über den blauen Balken am unteren Bildschirmrand wechseln wir zwischen der Sprache.

Es gibt einen Offline-Modus, aber …

Test 1: Eine Passage aus diesem Blog, selbst vorgelesen – die Verschriftlichung ist tipptopp.

Die Erkennung wird in der Cloud durchgeführt. Es gibt indes eine Offline-Funktion, die auf dem Gerät ausgeführt wird. Leider steht die nur für wenige Sprachen zur Verfügung, bei meinem Test nur für US-Englisch. Um die zu nutzen, ist ein Download von 45 MB nötig.

In meinem Test, bei dem ich probehalber einige Passagen aus diesem Blogpost hier vorgelesen habe, war die Erkennung einwandfrei – lediglich die Interpunktion könnte noch besser sein.

Ich habe auch probiert, wie die Resultate sind, wenn ich an meinem Computer ein Youtube-Video abspiele und es transkribieren lasse. Die Qualität der Verschriftlichung ist etwas schlechter, aber immer noch gut genug, damit das meiste verständlich ist. Die alte Erkenntnis aus früheren Tests von Transkriptions-Lösungen bleibt indes bestehen: Bei schlechter Tonqualität sind sie unbrauchbar. Telefongesprächen ist die Automatische-Transkription-App nicht gewachsen.

Das Android-Telefon kann auch sich selbst transkribieren

Der Anfang aus dem SRF-Podcast «Single in Europa».

Ich habe auch ausprobiert, ob das Gerät in der Lage ist, Audio zu transkribieren, das es selbst abspielt. Und ja, das geht: Zwar ist die Qualität nicht überragend, was bei einem kleinen Handy-Lautsprecher auch nicht anders zu erwarten ist, zumal es in meinem Versuchsobjekt auch einen Musikteppich gibt, der das Verständnis nicht eben erleichtert.

Trotzdem hier die Frage: Erratet ihr, woher die Brüste kommen und was zum Henker mit «Bohemian Sands» gemeint ist? Auflösung in den Fussnoten¹!

Das Verbesserungspotenzial hier liegt auf der Hand: Die App sollte den Ton nicht via Lautsprecher analysieren, sondern über die Klangschnittstelle abgreifen. Warum die App diese naheliegende Option nicht anbietet, ist mir schleierhaft.

In der App lässt sich einstellen, dass der Transkript-Verlauf für drei Tage aufbewahrt wird. Der erfasste Text lässt sich auswählen und kopieren, sodass sich die App auch dazu verwenden lässt, automatische Protokolle anzufertigen – zumindest für eher kürzere Aufnahmen geht das ordentlich. Da keine Unterscheidung von Sprechern stattfindet, würde ich für Interviews eine andere Lösung wählen.

Wasser + Fahrzeug = Spülmaschine

Die Geräuscherkennung ist dazu da, gehörlose Menschen über akustische Vorfälle zu informieren. Die Paradebeispiele sind natürlich das weinende Baby, die Türklingel und eine Polizeisirene – aber es gibt noch weitere Situationen, in denen es sinnvoll ist, wenn bestimmte klangliche Ereignisse in Textform vermittelt werden.

Für hörende Nutzerinnen und Nutzer ist es interessant herauszufinden, wie das Smartphone die akustische Umgebung wahrnimmt: Klopfen, Wind und ähnliche Geräusche werden gut erkannt. Bei der arbeitenden Spülmaschine meldet die App Wasser und ein Fahrzeug – nicht ganz korrekt. Und ich habe die App nicht dazu gebracht, fingierte Schmerzensschreie zu vermelden.

Übrigens: Auch das iPhone beherrscht die Geräuscherkennung. Sie wird in den Einstellungen bei Bedienungshilfen unter Geräuscherkennung > Geräusche aktiviert.

Fussnoten

1) «Das ist ‹Single in Europa›, eine Podcast-Serie von SRF Hotspot, mit mir, Oliver Washington, Bundeshausredaktor von Radio SRF und früher Korrespondent in Brüssel, und Curdin Vincenz, Bundeshausredaktor von Fernsehen SRF.»

Mit anderen Worten: Bohemian Sands ist eigentlich Curdin Vincenz. Und wenn er Bohemian Sands nicht sofort als sein Social-Media-Alias benutzt, dann ist dem Mann nicht mehr zu helfen.

Beitragsbild: Bitte aufhören mit Mitschreiben, das Protokoll macht die App (Kenny Eliason, Unsplash-Lizenz).

3 Kommentare zu «Googles unkomplizierte Verschriftlichungs-App»

  1. Gibt es sowas auch ohne permanente Datensammlung durch Google, sprich eine Alternative, die mehr Wert auf Datenschutz legt? Google vertraue ich nichts mehr.

    1. Es gibt auch andere Lösungen; ein paar davon habe ich im Blog vorgestellt, namentlich Trint, die Diktatfunktion in Office und Töggl, die Lösung für Schweizerdeutsch. Allerdings funktionieren die alle via Cloud – eine reine Offline-Lösung ist mir nicht bekannt. Aber natürlich gibt es auch bei den Cloud-Betreibern solche, die vertrauenswürdiger sind als andere – dass du bei Google skeptisch bist, verstehe ich; das geht mir auch so.

  2. Ich würde meinen, Dragon sei eine solche Offline-Lösung, nicht? Sie ist allerdings nicht ganz billig. Der Hersteller der Software gehört seit April 2021 Microsoft.

Kommentar verfassen