Die beste versteckte Neuerung in Windows 11

Mit den «Live Captions» ver­schrift­licht Windows 11 gespro­chene Sprache, egal aus welcher Quelle. Das funk­tio­niert unter guten Bedin­gungen ganz pas­sabel – bislang leider aber erst auf Eng­lisch.

Neulich habe ich die wichtigsten Funktionen vorgestellt, die bei Windows 11 über das 22H2-Update Einzug halten werden. Microsoft wird diese Aktualisierung in den kommenden Wochen ausliefern.

Eine nützliche Neuerung habe ich ausgespart, damit ich sie hier separat besprechen kann. Das sind die Live Captions, also Untertitel in Echtzeit. (Der deutsche Name ist nicht sonderlich passend, da die Titel nicht unbedingt am unteren Rand des Bildschirms angezeigt werden müssen, sondern frei positionierbar sind. Aber dazu komme ich noch.)

Diese Funktion verschriftlicht den gesamten gesprochenen Text, der von Windows wiedergegeben wird. Die Quelle ist gleichgültig: Es funktioniert genauso, wenn man ein Youtube-Video abspielt, mit der Spotify-App einen Podcast wiedergibt oder mit VLC ein Hörbuch anhört.

Auch seine Telefongespräche kann man sich untertiteln lassen

Die Verschriftlichung funktioniert grundsätzlich sogar mit Videokonferenzen. Allerdings darf man sich bei solchen Inhalten keine Wunder erhoffen – denn wie akkurat die Texterkennung ist, hängt von der Tonqualität, der deutlichen Aussprache und dem verwendeten Vokabular ab. Alle drei diese drei Faktoren sind bei Hörbüchern (meistens) optimal, bei Podcasts durchwachsen und bei wackeligen Videoverbindungen oft nur bedingt oder gar nicht gegeben. Auch mit den Live-Untertiteln bei Skype habe ich bislang eher schlechte Erfahrungen gemacht.

Um die Untertitel einzuschalten, betätigt man die Tastenkombination aus Control– und Windows-Taste und L (Ctrl  l). Es erscheint am oberen Bildschirmrand ein Streifen, der einen bei der ersten Benutzung dazu auffordert, das notwendige Speech Pack aus dem Store zu installieren. Derzeit steht leider nur amerikanisches Englisch zur Verfügung; der Download für diese Sprache umfasst 117,8 MB. Das bedeutet, nebenbei bemerkt, dass die Spracherkennung lokal auf dem Computer und nicht in der Cloud stattfindet.

Die Leiste kann über das x-Symbol in der rechten oberen Ecke geschlossen und über das Zahnrad-Symbol angepasst werden. Sie kann auch am unteren Rand oder freischwebend platziert werden und es ist möglich, den Stil der Untertitel anzupassen, damit sie auch gut lesbar sind. Das tut man am besten in den Einstellungen bei Barrierefreiheit > Untertitel.

Auf Colbert eingeschossen

So schlimm stinkt das gar nicht.

Ich habe die Untertitelung mit einigen Beispielen getestet: mit einem Youtube-Video von Stephen Colbert, bei dem es so wenige Patzer gab, sodass es mich nicht wundern würde, wenn Microsoft die Spracherkennung auch anhand von Colbert-Videos trainiert hätte. Beachtlich fand ich hier, dass die Erkennung auch durch die Lacher des Publikums kaum beeinträchtigt worden ist. Wie es bei Interviews funktioniert, will ich noch testen.

So erfreulich das ist: Natürlich schaltet man bei Videos wie denjenigen von Stephen Colbert besser die Youtube-Untertitel ein, da die (vermutlich) von Menschenhand erstellt worden sind.

Der ganze Satz lautet wie folgt: «Before us lay a green sloping land full of forests and woods, with here and there steep hills, crowned with clumps of trees or with farmhouses, the blank gable end to the road.»

Ebenfalls ganz in Ordnung ist die Texterkennung beim Hörbuch «Dracula» von Bram Stoker, das es auf Spotify gibt. Allerdings ist die Verschriftlichung nicht perfekt, wie der Screenshot zeigt. Was Windows als «foul houses» wiedergibt, sind eigentlich «farmhouses», also schlichte Bauernhöfe.

«Charter zero»? Wil Wheaton ist Windows noch nicht ganz gewachsen.

Auch nicht ganz glücklich bin ich mit dem Resultat von «Ready Player One» von Ernest Cline, gelesen von Wil Wheaton. Bei dem erkannte die Software das allererste Wort falsch («Charter zero» statt «Chapter zero»). Das ist kein gutes Omen.

Trotzdem: eine nützliche Funktion, nicht bloss für Leute mit eingeschränktem Hörvermögen. Bei Inhalten in fremden Sprachen ist es manchmal dienlich, den Text nicht nur zu hören, sondern auch zu sehen. Und es ist eine Verständnishilfe, wenn man nur mit einem Ohr bei der Sache ist.

Es gibt Verbesserungspotenzial

Zwei Dinge würden die neue Live-Caption-Funktion markant aufwerten.

  • Erstens wäre es toll, wenn man beim Transkript zurückblättern könnte. Das würde helfen, wenn man eine Passage verpasst oder nicht verstanden hat. Und es wäre einfacher, als beim Video oder Audio zurückzuspulen – ganz abgesehen davon, dass das bei Live-Inhalten nicht immer möglich ist.
  • Zweitens würde ich es begrüssen, wenn man die Transkription speichern könnte. Dann könnte man mit dieser Funktion auch elegant Interviews oder andere Inhalte verschriftlichen. Dafür benötigt man bis anhin Drittprodukte. (Eine Übersicht der Möglichkeiten gibt es hier bei den Fussnoten.)

Übrigens: Es gibt Untertitel-Optionen auch beim iPhone (in den Einstellungen bei Bedienungshilfen > Untertitel & erweiterte Untertitel), ebenso Android (in den Einstellungen bei Bedienungshilfen > Untertitel-Einstellungen). Allerdings sind diese beiden Optionen nicht vergleichbar mit der hier bei Windows 11. Sie machen lediglich Vorgaben, wie Video-Apps mit Untertiteln umgehen: Ob sie sie anzeigen und falls ja, in welcher Form.

Beitragsbild: Eine Art Untertitel auf der Strasse – zu der Stimme im Kopf, die einem sagt, wohin man blicken sollte (Serghei Adam, Unsplash-Lizenz).

Kommentar verfassen