Die KI, die auch Züritüsch versteht

Open AI ist das Unternehmen, das uns den Text-zu-Bild-Generator Dall-e 2 und den fabulösen Chatroboter Chat GPT beschert hat. Es hat noch weitere Errungenschaften auf Lager. Eine davon ist Whisper.

Das Metier dieser Software ist die Umsetzung von gesprochener in geschriebene Sprache. Sie hat die Vorgabe, eine «Robustheit und Genauigkeit bei der englischen Spracherkennung auf menschlicher Ebene» zu erzielen. Das Beispiel auf der Website ist eindrücklich: Ein schnell und nicht sehr deutlich sprechender Mann wird in der Demo einwandfrei erkannt und transkribiert. Zumindest, soweit ich das beurteilen kann: Ich verstehe ihn nämlich schlecht.

Nun hatte ich die Gelegenheit, Whisper auszuprobieren. Die Software ist seit wenigen Wochen in Auphonic integriert. Auphonic ist eine Internetanwendung für die Audioproduktion, speziell auch Podcasts. Ich nutze sie seit bald zehn Jahren für den Nerdfunk, und schätze sie enorm, weil sie mit wenig Aufwand aus dem Rohmaterial die fertigen Audiodateien mastert und mit Metadaten versieht.

Die KI macht transparent, wie gut sie den Text verstanden hat

Bei Auphonic gibt es neu in den Produktionseinstellungen die Spracherkennungs-Option. Schaltet man sie ein, werden nebst den Audiodateien auch drei Textdateien erzeugt:

Die HTML-Datei enthält das Transkript, bei dem der Text farblich hinterlegt ist. Ich nehme an, dass diese Codierung angibt, wie sicher sich die Software ist, den Text richtig verstanden zu haben. Je röter er ist, desto genauer sollte man hinsehen.
Die Json-Datei enthält den Text in maschinenlesbarer Form, inklusive Zeitmarken. Diese Datei kommt zum Zug, wenn die Transkription automatisch weiterverarbeitet werden soll.
Eine Datei im WebVTT-Format (.vtt): Das wird für Untertitel verwendet, die in Youtube oder aber auch in Videoschnittprogrammen oder Videoplayer-Apps eingelesen werden kann¹.

Die interessante Frage ist nun natürlich, was die Whisper-KI tut, wenn ihr ein Podcast in Schweizerdeutsch vorgesetzt wird. Ich habe es mit dem Nerdfunk probiert, und zwar mit unserer ersten Folge von 2023. Ich habe das Transkript dort angefügt, sodass ihr es selbst ansehen und beurteilen könnt.

Schweizer deutsch ist eine Herausforderung, wie die Farbmarkierungen beweisen.

Das Resultat ist absolut verblüffend: Es gibt zwar nur wenige Sätze, die nicht rot hinterlegt sind, was darauf hindeutet, dass die Sattelfestigkeit beim Züritütsch von mir und Digichris nicht sehr hoch ist. Die Passagen in hellerem Rot sind nicht perfekt, aber gut verständlich. Fachbegriffe wie E-ID, Namen wie Mr. Hyde, Frodo Beutlin und Elon Musk wurden richtig erkannt. Und sogar der Stadtfilter-Jingle wurde transkribiert und in Anführungszeichen gesetzt.

Am Zürislang scheitert Whisper

Die Passagen in dunklerem Rot ergeben meist wenig oder gar keinen Sinn. Das ist dann der Fall, wenn wir uns gegenseitig ins Wort gefallen sind oder zu viel Schweizerdeutschen Jargon verwendet haben: Am Wort «schliisse» ist Whisper beispielsweise gescheitert – es bedeutet so viel wie kaputtmachen.

Mit anderen Worten: Für ein fehlerfreies Transkript oder perfekte Untertitel müsste noch einiges an Nachbearbeitung geleistet werden. Doch als Zusammenfassung ist das Transkript brauchbar: Es verschafft einen inhaltlichen Überblick und dank der Zeitmarken lassen sich bestimmte Stellen schnell auffinden. Ein Tipp: Die Zeitmarken werden auch in der HTML-Datei für Sätze oder Teilsätze gesetzt. Sie erscheinen als Tooltipp, wenn die Maus für einen Moment über einer Passage stehen bleibt.

Spielt man das Audio in Auphonic ab, wird synchron zur Wiedergabe das Transkript angezeigt.

Das ist grossartig und wird unseren Umgang mit Audio-Inhalten nachhaltig verändern.

Einen Kritikpunkt gibt es allerdings: Whisper unterscheidet nicht nach Sprechern. Das erschwert das Verständnis bei Gesprächen oder Interviews markant.

Trotzdem: Falls es irgendwann eine Möglichkeit gibt, sämtliche alten Nerdfunk-Folgen durch Whisper hindurchzuschicken, werde ich das sofort tun: Dann hätten wir die Möglichkeit, die Folgen zu durchsuchen und auf das Bezug zu nehmen, was unsere Gäste oder wir früher gesagt haben.

Nachtrag vom 31. Januar 2023

Ich bin dabei, die Transkripte in den Player einzubauen. Es gibt die Möglichkeit, sie über den Player herunterzuladen und sie über den Player einzublenden. Damit das klappt, musste ich in die Untiefen des Podlove-Plugins hinabsteigen. Das ist die Erweiterung, die den Podast auf der Nerdfunk-Website verwaltet.

Die grundsätzlichen Informationen, wie Transkripte in Podlove eingebunden werden, ist in der Dokumentation beschrieben. Nützliche Tipps aus der Praxis liefert hier Jörn Schaar.

Nachtrag vom 2. Februar 2023

Ich habe Whisper inzwischen in einem breiten Test mit Töggl, Trint und Descript verglichen. Das Resultat ist eindeutig: Diese Software schneidet durchs Band am besten ab; gleichgültig, ob gute oder schlechte Qualität, Hochdeutsch, Schweizerdeutsch oder Englisch oder gemischt-sprachlich.

Das ausführliche Resultat dieses Tests sind im Beitrag Vergleich der Texterkennungs-Tools nachzulesen.

Fussnoten

1) Die interessante Frage an dieser Stelle: Gibt es Audioplayer, die Untertitel aus einer VTT-Datei zu einer Audiodatei anzeigen? Ich habe es mit VLC ausprobiert: Dort kann man die Datei laden, aber die Untertitel sind nicht sichtbar, da es kein Videofenster gibt. Aber falls jemand einen Player kennt, der das besser macht, freue ich mich über einen Kommentar. ↩

Beitragsbild: Whisper versteht nicht nur laute Worte, sondern auch Geflüster (Saeed Karimi, Unsplash-Lizenz).