Transkribieren, wie eus d Schnurre gwachse isch

Töggl.ch verschriftlicht Audio- und Videoaufnahmen in Schweizer Mundart. Wenn das funktioniert, wäre das ein Segen für alle, die Interviews und Protokolle führen. Ob es funktioniert, zeigt mein Test.

Ich werde häufig um Tipps zu digitalen Themen angegangen. Neulich ist das wieder einmal passiert. Ein Herr hat mir folgendes Anliegen unterbreitet:

Ich werde absehbar beruflich einige Interviews mit unterschiedlichen Personen führen müssen und suche daher eine Transkriptionssoftware, die mir bei der weiteren textlichen Bearbeitung behilflich sein kann. Ich arbeite auf einem iMac, nehme Interviews in der Regel mit meinem iPhone auf. Idealerweise sollte das Programm auch (verständliche) Schweizer Dialekte ins Hochdeutsche übersetzen können.

Zu diesem Zweck sollte ich die passende Software empfehlen. Ich habe auf die diversen Möglichkeiten zur maschinellen Transkription hingewiesen, die im Lauf der Zeit hier im Blog zum Zug gekommen sind¹, aber auch meinem Zweifel Ausdruck verliehen, dass ich die zweite Vorgabe derzeit für unerfüllbar halte: Ich glaube nicht, dass es auf absehbare Zeit möglich sein wird, ein Gespräch, das in Schweizerdeutsch geführt worden ist, auf brauchbare Weise per Software nach Hochdeutsch zu übersetzen.

Daraufhin hat mir der Herr geantwortet, meine Vorschläge würden geprüft und mich auf töggl.ch hingewiesen: «Töggl erkennt problemlos alle Schweizer Sprachen und Dialekte!»  verheisst die Website. Sämtliche Idiome, die hierzulande in der freien Wildbahn angetroffen werden, würden sich verschriftlichen lassen – sollte dieses Versprechen wahr sein.

Töggl stellt einem technische Hindernisse in den Weg

Ich erinnerte mich daraufhin vage, schon einmal von Töggl gehört zu haben. Ich hatte sogar die Absicht, die Transkription zu testen, war aber an technischen Hindernissen gescheitert. Erst kam keine Verbindung zustande, dann verweigerte man mir mit einer nichtssagenden Fehlermeldung die Erstellung eines Nutzeraccounts.

Aber nachdem ich behauptet hatte, Schweizerdeutsch sei das Pièce de résistance der maschinellen Transkription, kam ich um einen Test nicht umhin. Erstens, um zu sehen, ob ich mich geirrt hatte – und zweitens, weil die seltsamen Dialekte, die hierzulande gesprochen werden, die Einsatzmöglichkeiten der gängigen Produkte schmälern oder zunichtemachen.

Es steht ausser Frage, dass viele Leute eine Software toll finden würden, die so gut Schweizerdeutsch transkribiert, wie die Spracherkennung in Microsoft Office oder Trint.com das mit Deutsch oder Englisch tun.

Bei meinem zweiten Anlauf hatte ich Glück: Ich konnte Töggl aufrufen und sogar mein Nutzerkonto erstellen.

Also, ich habe der Software eine Aufnahme zur Verfügung gestellt, die ich selbst eingesprochen habe. Es handelt sich um die legendärste Folge aus meinem «Verschwörungstheorie der Woche»-Podcast zu Babette von Interlaken, die man sich hier anhören kann.

Eine gute, aber nicht allzu einfache Ausgangslage

Die Ausgangslage scheint mir gut: Die Aufnahme stammt aus dem Studio von Radio Stadtfilter und ich gebe mir Mühe, deutlich zu sprechen. Es gibt aber auch Knackpunkte, indem das behandelte Thema nicht unbedingt zu denen gehört, für die man eine für die Geschäftswelt und Parlamente vorgesehene Software trainieren würde. Aber Alltagstauglichkeit bedeutet, dass eine Software mit solchen Unwägbarkeiten zurechtkommt – denn wenn sie nur unter Laborbedingungen funktioniert, nützt sie den meisten Anwendern nichts.

Mit dieser Maske startet man seinen Auftrag.

Nebenbei bemerkt stammt Töggl vom IT-Unternehmen Recapp aus Visp bzw. Martigny, das mit Mediaparl auch eine Software für Parlamente anbietet, mit der sich die Protokollierung der Voten automatisieren oder zumindest rationalisieren lässt.

Töggl.ch steht derzeit nur Schweizer Anwendern zur Verfügung. Man kann zehn Minuten gratis übersetzen, danach ist der Dienst kostenpflichtig. Die Preise habe ich gerade nicht gefunden, weil eben wieder ein SSL-Fehler aufgetreten ist.²

Also, ich spanne euch nicht länger auf die Folter. Das ist der Anfang des Originaltexts aus meinem Manuskript:

«D Babette isch in Lug und Trug gebore.

Si isch under Süüfer, Räuber und Mörder uufgwachse. Si hätt de Lieb Gott nur us dene Flüech kännt, wo si ständig ghört hät.

I de Scharmützel vo Luzern händ di Radikale es paar Katholike us de Ur-kantön umbbracht. Und do isch si’s gsi – wo ihne s Herz use‑riisse und d Auge uusstäche laa hät.

D Babette hät ihres lange, blonde Haar im Wind weihe laa, so wie di grossi Huere vo Babylon. Si hät under ihrem Mantel ihri Reiz versteckt³.

Und si isch e Heroldin vo de Gheimgsellschafte gsi. Dere Dämonin händ di mysteriösi Kongregation ihri Ränk und Tücke z verdanke ghaa.

Si isch plötzlich wie es Irrliecht uuftaucht. Si hät undurchdringlichi Gheimnis kännt. Si hät diplomatischi Depesche abgfange. Si hät si uufgmacht, ohni s Siegel z bräche.

Si hät sich wie e Nattere i di innerschte Kabinett vo Wien, vo Berlin und vo Sankt Petersburg gschliche.

Si hät Wächsel gfälscht. Si hät Passnummere g’änderet. Scho als Chind hät si chöne mit Gift umgaa – wänn’s d Sekte befohle hät.

Und si isch offebar vom Satan besässe gsi – will so gross isch d Chraft vo ihrem Blick gsi…»

Bevor ihr frag: Das alles ist ein Zitat aus einem Buch von Umberto Eco, aber für die Details müsst ihr euch den Podcast anhören.

Die «grossen Uhren von Babylon»?

Das ist das Resultat der Bemühungen, bei dem simultan zur Wiedergabe die passende Textstelle hervorgehoben wird.

Aber nun zu dem, was Töggl aus meiner Darbietung gemacht hat:

Babette ist in Lug und trug geboren, sie ist unter Saufen, Räuber und Mörder aufgewachsen. Sie hätten lieb Gott nur aus diesen Fluch kannt, wo sie ständig gehört hat. In der Scharmützel von Luzern haben die radikalen ein paar Katholiken aus der Urkantone umgebracht und da ist sie gewesen, wo in ein Herz herausgerissen und die Augen ausstechen lassen hat. Babette hat ihr langen blonden Haaren im Wind Wehen lassen. So wie die grosse Uhren von Babylon. Sie hat unter ihrem Mantel ihre Reize versteckt und sie ist eine Herold von den geheim Gesellschaften gewesen. Dieser Dämonin haben die mysteriösen Kongregation ihre Ränke und Tücken zu verdanken gehabt. Sie ist plötzlich wie ein ihr Licht aufgetaucht. Sie hat undurchdringliche Geheimnis gekannt und sie hat diplomatische der Pe abgefangen. Sie hat sich aufgemacht, ohne Siegel zu brechen. Sie hat sich wie eine Natur in die innere Kabinett von Wien, von Berlin und von St. Petersburg geschlichen. Sie hat Wechsel gefälscht, sie hat Passnummer geändert. Schon als Kind hat sie können Mitgift umgehen, wenn es Sekten befohlen hat und sie ist offenbar vom Satan besessen gewesen, weil so gross ist die Kraft von ihrem Blick gewesen.

Mein Eindruck ist zwiegespalten: Es entsteht tatsächlich ein Transkript, das eine gewisse Ähnlichkeit mit dem Original hat. Aber es besteht kein Zweifel, dass es für sich allein nicht verständlich ist. Um das in einen begreiflichen Text zu verwandeln, muss man viel Zeit in die Nachbearbeitung investieren. Im Vergleich dazu scheint mir die Spracherkennung bei Microsoft Office (in Hochdeutsch) deutlich besser und praxistauglicher.

Die Verhochdeutschung gefällt mir nicht sonderlich gut

Was besonders auffällt, ist der Umstand, dass die Transkription nicht in Mundart erfolgt, sondern in Hochdeutsch. Werde ich damit Lügen gestraft? Denn Töggl macht genau das, wovon ich behauptet habe, dass es so schnell nicht möglich sein würde.

Meines Erachtens nicht, denn das, was so entsteht, ist weder Hochdeutsch noch Schweizerdeutsch, sondern ein seltsamer Mischmasch aus beidem. Meines Erachtens wäre das Resultat überzeugender, wenn die App bei der Mundart bleiben würde und möglichst nah am Original transkribieren würde. Und ja, es ist ein gewisses Problem, dass es für die Schweizer Dialekte keine formalisierte Rechtschreibung gibt. Andererseits versteht man meinen Originaltext gut, auch wenn andere Leute viele Worte anders buchstabieren würden.

Ich denke, es wäre sinnvoller, eine Transkription in Schweizerdeutsch anzufertigen. Sie wäre besser verständlich und damit leichter zu korrigieren und für Archivzwecke in vielen Fällen absolut ausreichend. Falls man eine Variante in Hochsprache benötigt, liesse sich diese anhand der korrigierten Fassung wiederum automatisiert anfertigen. Das wären zwei Arbeitsschritte statt einer; aber vermutlich effizienter und auf alle Fälle flexibler handhabbar.

Manchen mag Töggl helfen – andere sollten auf die manuelle Übersetzungsmethode setzen

Mit anderen Worten: Es hängt vom konkreten Anwendungsfall ab, ob Töggl einem etwas nützt oder nicht. Bei Interviews, die per iPhone aufgezeichnet wurden, rechne ich nicht mit brauchbaren Resultaten.

Ich würde in so einem Fall den Ansatz wählen, der auch bei der Live-Untertitelung verwendet wird: Man hört sich den Text an, übersetzt ihn fortlaufend ins Hochdeutsche, spricht die Übersetzung deutlich ins Mikrofon und lässt sie von einer Software, beispielsweise der Spracherkennung in Microsoft Office, transkribieren. Das ist mutmasslich derzeit die effizienteste Variante.

Fussnoten

1) Das sind hauptsächlich die folgenden Beiträge:

2) Also, jetzt konnte ich die Preise doch noch nachschlagen: Es gibt ein abgestuftes Preismodell, bei dem je nach Sprache eine unterschiedliche Zahl von Credits verrechnet werden. Für Deutsches Hochdeutsch, Schweizer Hochdeutsch und Französisch wird ½ Credit verrechnet. Für Schweizer Dialekt, Französisch und Deutsch gemischt und für Romanisch (Vallader, Rumantsch Grischun, Sursilvan, Puter und mit automatischer Erkennung) zahlt man einen Credit pro Minute.

Pro Credit zahlt man einen Franken, wobei es keinen Mengenrabatt zu geben scheint, selbst wenn man viele aufs Mal kauft. Das ist teuer (in Office transkribiert man gratis) und angesichts des grossen Nachbearbeitungsaufwands zu teuer.

3) Wo wir bei der Kritik sind, darf an dieser Stelle die Selbstkritik nicht fehlen, dass ich das nicht ganz korrekt übersetzt habe: «Sie verbarg unter dem Mantel ihrer Reize die Tatsache, dass sie die Heroldin der Geheimgesellschaften war, die Dämonin, der sich alle Ränke und Tücken jener mysteriösen Kongregationen verdankten», heisst es bei Eco wortwörtlich. Aber ich wollte den Satz fürs Radio offensichtlich etwas vereinfachen… 

Beitragsbild: Das ist eine der besagten «Schnurre», von denen im Titel die Rede ist (Oleg Magni, Pexels-Lizenz).

Kommentar verfassen