Automatische Untertitel für Videos in Schweizerdeutsch

Trans­krip­tion von Schwei­zer Dia­lek­ten ist die Königs­dis­zi­plin. Ein Test zeigt, dass Söbs (soebs.ch) die bis auf wenige Schön­heits­fehler sou­verän meistert – ein Ge­heim­tipp für hie­sige Video­pro­du­zen­ten.

Söbs (soebs.ch) gibt ein mutiges Versprechen ab: Mit dieser Website würden sich «automatische Untertitel für schweizerdeutsche Videos» erstellen lassen. Weil professionelle Videoeditoren Besseres zu tun haben, als stundenlang «Untertitel von Hand zu erstellen».

Ich habe schon Untertitel von Hand erstellt und kann bestätigen, dass es keine reine Freude ist. Darum habe ich Söbs ausprobiert, wenngleich mit einiger Skepsis. Denn wie mein grosser Vergleich diverser Spracherkennungs-Apps zeigt, sind die Resultate in Englisch meist hervorragend, in Hochdeutsch durchwachsen und in den Dialekten fragwürdig bis unbrauchbar – auch wenn es mit Swiss Transcribe einen neuen Champion in dieser Disziplin gibt.

Transkription von Schweizer Dialekten ist offensichtlich die Königsdisziplin. Darum freut es mich, nach meinem Testlauf ein überraschend positives Ergebnis vermelden zu dürfen: Söbs hat mir ein fast fehlerfreies Transkript zurückgeliefert. Die manuellen Korrekturen wären in ein paar Minuten erledigt. Aber!

Vier Korrekturen auf drei Minuten

Zu den Details: Ich habe für meinen Test die ersten drei Minuten eines meiner Patentrezept-Videos verwendet, das ich in Schweizerdeutsch abgedreht habe (man darf drei Minuten gratis verarbeiten). Und das hätte ich konkret nachbessern müssen:

  • Ich habe früher mehr als einmal mein Windows-System geschliessen zerstört, weil ich einfach etwas ausprobiert habe.
  • Wenn Sie Ihre Daten gesichert haben, dann ist nichts verloren, sogar wenn Sie eine neue Installation Neuinstallation durchführen müssen.
  • Und mit dieser eigenen Webseite können Sie auch eine E-Mail-Adresse benutzen, die hinterher bei der hintendran nicht Bluewind, GMX, Outlook oder Gmail.com steht.

Ja, vier Änderungen wären nötig gewesen: bei einem Helvetismus, einem Fachbegriff und einem Produktnamen, plus einer etwas saloppen Formulierung. Umgekehrt ist es beachtlich, welche schwierigen Wörter die Software alle korrekt erfasst hat: Windows, Outlook, GMX, Gmail, aber – in einem anderen Satz – auch Ulysses (!), Word und Linux.

Die Untertitel lassen sich im Editor direkt auf Soebs.ch korrigieren.

Der Teufel steckt im Detail

Ein Happy-End also? Nicht ganz. Denn Söbs transkribiert das Gesagte im Video eins zu eins. Das hat zur Folge, dass für mein Video die Untertitel entweder sehr lang werden oder sehr zügig wechseln. In beiden Fällen müssen Zuschauerinnen und Zuschauer schnell lesen, um hinterherzukommen. Dieses Problem manifestiert sich auch in der hier vorgestellten Software Subtitle Edit: Sie markiert fast jede Zeile in Orange, weil zu lang.

Subtitle Edit bringt es an den Tag: Die Untertitel sind durchwegs zu lang, um leicht lesbar zu sein.

Um die Untertitel leichter lesbar zu machen, kommen wir nicht darum herum, sie herunterzukürzen. Das artet in Handarbeit aus – oder wir geben ChatGPT eine Chance. Ich habe es mit folgendem Prompt versucht:

Der nachfolgende Text ist eine Unteritel-Datei. Verkürze die Untertitel so, dass sie leicht lesbar sind. Jede Zeile sollte nicht mehr als 85 Zeichen enthalten. Lasse die Zeitmarken intakt.

Das Resultat ist durchwachsen. Damit die Verständlichkeit gewährleistet ist und die Untertitel optimal mit dem Gesagten korrespondieren, kommen wir leider nicht darum herum, die Kürzungen selbst vorzunehmen.

Die Portionierung der Untertitel könnte besser sein

Je nach Grad der Perfektion, den wir anstreben, gäbe es noch eine zweite Sache, der wir uns annehmen könnten. Nämlich die Verteilung der Texte auf die einzelnen Untertitel-Zeilen. Söbs macht das willkürlich, wohl nach Länge. Das führt z.B. dazu, dass das letzte Wort eines Satzes im nächsten Untertitel erscheint. Schöner wäre es natürlich, wenn die Untertitel möglichst satzweise angezeigt würden. Diese Optimierung artet indes in echte Arbeit aus.

Mit diesem Anspruch wäre es vermutlich am einfachsten, die Untertitel auf die altmodische Art von Hand in der verdichteten Form zu tippen. Da die Videoeditoren, die zum Zielpublikum von Söbs zählen, vermutlich nicht alle Filme fürs Kino und fürs Hauptabendprogramm des Fernsehens produzieren, liegt die Latte meistens nicht so hoch. Und für die Leute lohnt es sich allemal, einen Franken pro Minute aufzuwerfen. So viel kostet Söbs nämlich; der Preisplan ist extrem überschaubar.

Macwhisper wäre eine Alternative

Abschliessend der Hinweis, dass es auch günstiger geht: Meine Empfehlung ist für diesen Fall Macwhisper, die hier getestete Software, die das Sprachmodell von Open AI verwendet. Sie liefert ein so vergleichbares Ergebnis, dass die Vermutung naheliegt, dass auch bei Söbs Whisper im Einsatz steht. Der markanteste Unterschied jedenfalls besteht darin, dass Whisper nicht «Bluewind», sondern «bluwin» erkannt hat. Die KI, die das richtig versteht, muss wohl noch trainiert werden.

Beitragsbild: So geht es natürlich auch (Jankosmowski, Pixabay-Lizenz).

Kommentar verfassen