Eine Texterkennung, die auch mit Dialekten klarkommt

Happy Scribe ist eine Trans­krip­tions­soft­ware, die selbst mit Schwei­zer Mund­art gut klar­kommt, sich gut für die Video-Unter­ti­te­lung eignet und einen durch­dach­ten Editor für die Nach­bear­bei­tung besitzt.

Dieses Blog zeichnet sich durch besondere Expertise im Bereich der Texterkennung aus: Vor einem Jahr habe ich vier der wichtigsten Programme verglichen – und zwar anhand von fünf Transkriptions-Beispielen in Englisch, Hochdeutsch, Schweizerdeutsch in unterschiedlicher Aufnahmequalität.

Diese Beispiele habe ich auch einem fünften Kandidaten unterbreitet: happyscribe.com. Die Resultate der Tests findet ihr am Ende des Beitrags, sodass ihr diese Ergebnisse direkt mit den Ergebnissen von Trint, Descript, Töggl und Whisper vergleichen könnt – und ich mich ohne weitere Umschweife meiner Einschätzung widmen darf:

Wie immer: Englisch ist am besten

Also, Happy Scribe liefert eine solide Transkription. Bei Englisch liefert die Software eine Verschriftlichung, die nur noch wenige manuelle Korrekturen benötigt. Auch bei Hochdeutsch ist das Resultat unter guten Bedingungen überzeugend. Es ist nicht ganz so gut wie bei Englisch, aber auf einem Niveau, dass der Einsatz der Software eine beträchtliche Zeitersparnis ermöglicht.

Der eigentliche Knackpunkt bleibt somit die Schweizer Mundart. Auch in dieser wirklich kniffligen Disziplin hat Happy Scribe besser abgeschnitten, als ich es erwartet hätte: Ein Text ist grob verständlich, auch wenn für ein brauchbares Resultat eine intensive Nachbearbeitung vonnöten ist.

Züritüsch bleibt eine Knacknuss

Unter dem Strich liegt Happy Scribe noch vor Trint und Descript. Beim Schweizer Dialekt würde ich die Qualität etwa auf ähnlicher Höhe ansiedeln wie Töggl: Das ist die hierzulande entwickelte Software, die auf Schweizer Dialekte spezialisiert ist. Allerdings variieren die Unterschiede je nach Beispieltext: Beim Interview finde ich Happy Scribe besser, beim Radiobeitrag hat Trint leichte Vorteile.

Der Editor erlaubt zügiges Korrigieren und Nachbearbeiten – das hier auch nötig ist.

Es bleibt dabei, dass in den meisten Fällen Whisper von Open AI den Goldstandard definiert. Es gibt aber dennoch Gründe für die Alternativen: Beim Schweizerdeutsch ist Whisper nicht wesentlich besser als Happy Scribe oder auch Töggl. Randnotiz: Ich werde demnächst auch Macwhisper mit den verschiedenen Modellen besprechen und bin gespannt, was sich beim Test mit dem ganz grossen Modell daraus ergibt.

Stärken bei der Nachbearbeitung

Happy Scribe hat gegenüber von Whisper zwei Vorteile, die im Alltag einen grossen Unterschied machen: Erstens unterteilt diese Software das Transkript sinnvoller als Whisper in Abschnitte. Und zweitens gibt es eine automatische Erkennung der Sprecher, die nicht perfekt, aber ordentlich arbeitet und gerade bei längeren Texten eine grosse Hilfe darstellt.

Happyscribe verarbeitet nicht nur Dateien ab Computer, sondern auch von Zoom und anderen Quellen.

Der zweite Vorteil ist der Editor, mit dem wir in Happy Scribe die Verschriftlichungen korrigieren und optimieren – Whisper besteht aus dem nackten Modell, das von Haus aus keinen Editor aufweist.

Die Bearbeitungsmöglichkeiten von Happy Scribe habe ich als zweckmässig erlebt: Mittels Tabulatortaste lässt sich die Wiedergabe an der aktuellen Stelle starten und stoppen, und es ist möglich, Änderungen vorzunehmen, während die Wiedergabe läuft. Mit etwas Übung kommen wir bei der Nachbearbeitung zügig vom Fleck. Ich schätze auch die Möglichkeit, Stellen mit einem virtuellen Leuchtstift zu markieren oder zu kommentieren. Etwas schade ist, dass diese Markierungen verloren gehen, wenn das Transkript als Worddokument exportiert wird.

Die Pein des Untertitelns lindern

Apropos Export: Happy Scribe stellt nebst Word, PDF und reinem Text diverse Untertitel-Formate zur Verfügung (.srt, .vtt und für Facebook, Final Cut Pro und Premiere optimierte Formate): Damit ist auch die Zielgruppe klar: Dieses Produkt richtet sich an Videoproduzenten, Podcaster und Social-Media-Manager.

Und unter dem Strich ist es eine Empfehlung wert.

Abschliessend die Preise: Es gibt drei Abos, Basic, Pro und Business, die zehn, 17 und 29 US-Dollar kosten. Sie unterscheiden sich vor allem bei der Zahl der Minuten, die verarbeitet werden (es sind 120, 300 und 600 Minuten). Die diversen Untertitel-Formate sind aber erst ab dem Pro-Account verfügbar. Gratisnutzer erhalten «some free trial minutes» und können kurze Aufnahmen zu Testzwecken kostenlos verschriftlichen.


Hier nun die Resultate von Happy Scribe im Einzelnen:

Telefoninterview Schweizerdeutsch

[00:00:00.000] – Speaker 1
Hast du vielleicht gesehen, dass Instagram jetzt etwas gegen die Fake-Follower und die Massnahmen unternimmt, dass man seine Posts boosten kann mit lauterer Methode? Würdest du sagen, ist das ein grosses Problem? Wie nötig ist das?

[00:00:23.150] – Speaker 2
Sehr nötig. Also Instagram-Campaign, seit sie angefangen haben mit den Boots, oder? Und ich schätze so, dass sicher irgendwie 50% von den Influencern so Boats einsetzen, ob es jetzt Kommentar-Bots sind oder Mic-Bots oder ein bisschen Follower kaufen. Von dem her ist es eigentlich sehr sehr gute Sachen, was zu machen. Also man muss natürlich auch viel sehen, sie haben schon von immer noch mal gesagt: „Ja, sie werden jetzt nicht mehr sagen, oder? Da ist doch die Frage: „Ja, wie effektiv ist es jetzt diesmal, oder? Das Einzige, was ich so ein bisschen in Hoffnung schimmer Und dann ist eben, dass sie jetzt kommen, dass sie K-Einsetzer, dass sie so Aktivitäten können, die identifizieren, und dass dann natürlich auch die User informiert haben: „Hey, wir haben die Leute rausgelöscht, Oder das ist ja früher immer so ein bisschen Stinschweigen gewesen. Da haben sie so ein bisschen „Shadow ban gesagt, dass Instagram dich praktisch bestraft, aber du hast nichts gewusst davor.

[00:01:27.360] – Speaker 1
Und jetzt quasi muss man auch damit dass es öffentlich wird, wenn man verwutscht wird quasi?

[00:01:35.510] – Speaker 2
Also öffentlich wird es, glaubt mir nicht. Also wenn ich es verstanden habe, dann bekommst du so eine In-App-Message, so eine Notification über von Instagram, dass sie das entdeckt haben. Also ich glaub, nicht muss sie es öffentlich machen. Ich glaub, es wird mir auch so ein bisschen schaden im Ganzen.

[00:01:51.140] – Speaker 1
Aber wäre es aus deiner Sicht sinnvoll, wenn man eben würden, Leute auch anprangern, die da quasi bescheissen? Genau, wäre es aus deiner Sicht wäre sinnvoll, wenn man die Leute tatsächlich würden anprangern, wenn man könnte beim Bescheissen verwitzt werden?

Telefoninterview Hochdeutsch

[00:00:00.690] – Sprecher 1
Ich starte mal ganz profan mit der Frage Was ist ein Boot.

[00:00:06.270] – Sprecher 2
Was ist ein Boot? So profan ist die Frage schon gar nicht. Also das, dass der Begriff Boot kommt von Roboter Robot. Und eigentlich sind damit schon zwei unterschiedliche Sachen gemeint, nämlich der klassische Begriff eines Boots. Es gab auch früher schon so was wie Botnetze. Damit war eigentlich gemeint, dass das Computernetz durch Schadsoftware selbstständig agieren kann. Also das heißt, wir hatten Viren, die sich verbreitet haben und dann auf ihrem Rechner und meinem Rechner und sonstwo plötzlich die Rechner autonom angefangen haben zu agieren und vielleicht Spam versandt haben, ohne dass wir das überhaupt mitgekriegt haben. Genau das waren eigentlich diese. Daher kommt eigentlich der Begriff dieser Botnetze. Jetzt gibt es dann aber eben durch Social Media einen Bezug dazu, wo eben auf der einen Seite die sogenannten Social Bots oder vielleicht erst mal so insgesamt alle, alle Programme auf Social Media, die irgendwie autonom agieren werden als Bots bezeichnen. Und da gibt es dann noch mal die Unterscheidung zwischen Bots, die sich auch als Bots zu erkennen geben. Das ist das, worüber Facebook jetzt zum Beispiel redet, wenn die das Zeitalter der Bots ausrufen und solche, die so tun, als wären sie echte Menschen und das wären dann Social Bots.

[00:01:43.170] – Sprecher 1
Begegnen wir diesen Bots heute schon?

[00:01:47.160] – Sprecher 2
Ja, und zwar zum Beispiel Siri ist ein Bot, oder? Auch wenn ich an meinem Android von Google sage, dann ist ja dahinter ein Bot in dem Sinne, dass ich halt autonom agierende Software habe, mit der ich dann kommunizieren kann.

Interview in Englisch

[00:00:00.250] – Speaker 2
You know, I talked with Matthias Kirschner, I guess the name from Free Software Foundation Europe, for the radio show I was telling you about. And then I played your free software song in the show.

[00:00:18.290] – Speaker 1
Yeah.

[00:00:18.820] – Speaker 2
There are lots of interpretations from lots of bands.

[00:00:23.090] – Speaker 1
Yes. And that’s an example of a filk song. Have you heard the term filk song? Filk? Yes. F-I-L-K. No. If you look up filk songs, if you search for it, you’ll find lots of amusing songs and some that are not amusing. But in any case, I was at a science fiction convention. I was at a filk singing meeting, which was operating by what they call bardic Circle, which means they go around the room and each person has a chance to either sing or request that someone else sing something. And I had just sung something, and there were at least 20 people in the room. So I knew that would be a long time before I had another chance. I decided to write a song. But since I was not starting from an inspiration, I had to come up with a topic. I thought, why not write about free software? That’s how it came to be, right? I’d never written anything about that. And then, since I had no inspiration, I had to come up with a tune. I thought, why not use a balkan dance tune? Which one? Well, Sadi Moma suggested itself because it’s very beautiful and not too fast.

Interview Hochdeutsch-Schweizerdeutsch

[00:00:00.210] – Speaker 1
Weli nutzst du denn, welche Plattformen jetzt mehr oder weniger aktiv im Moment? Weisst du das auch?

[00:00:07.470] – Speaker 2
Ja, also ich glaube, ich bin am aktivsten noch auf Instagram. Da haben wir ja vor einem Jahr oder so, glaube ich, auch schon mal die Klinge gekreuzt, weil wir unterschiedlicher Meinung waren in puncto Instagram. Da hat sich allerdings bei mir in den letzten Monaten so ein bisschen das verändert, dass ich tatsächlich mehr passiv konsumiere als wirklich aktiv bin auch. Und sonst, ich nutze LinkedIn nicht mit Begeisterung, aber so aus so einer Jobnotwendigkeit her. Und bei Twitter ist es für mich so ein bisschen ein Auf und Ab. Da kommt er sehr auf die Tagesform an, aber ich bin da früher sehr viel aktiver gewesen.

[00:00:49.150] – Speaker 1
Genau, der Instagram-Krach. Ein Krach ist ein bisschen viel gesagt, aber wir sind einfach unterschiedlicher Meinung gewesen. Ich habe schon da gefunden, es hat sich so verschoben. Das Gleichgewicht auch von so Du quasi Kommunikation auf Augenhöhe hin zu eben Influencer versus du bist halt der Kleine, wo auch irgendwie kannst du irgendeinen Post posten kannst. Und dann ist es ein super Foto, wenn ich finde, aber du kommst drei Herzli über oder so oder vier vielleicht, wenn der wirklich sensationell ist. Und darum habe ich da den Spass verloren. Ich habe auch noch schnell geschaut, wie viel das sind. Ich bin auf die Zehn gekommen und ich nutze mehr oder weniger weniger aktiv im Moment, wobei man sieht dann schon auch, welche das werden sterben, wieder von denen. Also Twitter, Facebook. Ich glaube, am meisten Twitter und dann Facebook. Linkedin, also ein bisschen. Untappt, dass das Bier Social-Da bin ich auch sehr aktiv.

[00:01:46.680] – Speaker 2
Das ist richtig. Aber das ist mehr, das ist ja nicht so sehr zum Interagieren, sondern das ist für mich zumindest mehr so zum selber dokumentieren. Stimmt. Wie schlecht war das Feldschlösschen jetzt wirklich?

«Babette von Interlaken»

[00:00:05.330] – Speaker 1
Pabet ist in Laug und Trau geboren. Sie ist unter Zäufern, Räuber und Mörder aufgewachsen. Sie hätten lieb Gott nur aus den Flüchten kennt, die sie ständig gehört hat. In der Scharmützel von Luzern haben die Radikalen ein paar Katholiken aus den Urkantüren umgebracht und da ist sie es gewesen, die ihnen das Herz rausgerissen und die Augen ausstechen lassen. Babette hat ihr langes blondes Haar im Wind wehen lassen, so wie die grossen Huren von Babylone. Sie hat unter ihrem Mantel ihre Reiz versteckt und sie ist eine Heroldin von der Geheimgesellschaften gewesen. Deren Dämonin haben die mysteriöse Kongregationen ihre Ränke und Tücken zu verdanken gehabt. Sie ist plötzlich, wenn das Irrlicht auftaucht, sie hat undurchdringliche Geheimnisse kennt und sie hat diplomatische Depeschen abgefangen. Sie hat sie aufgemacht, ohne die Ziegel zu brechen. Sie hat sich wie ein Natterer in die innersten Kabinetten von Wien, von Berlin und von Sankt Petersburg geschlichen. Sie hat Wechsel gefälscht, sie hat die Passnummer geändert und schon als Kind hat sie können mit Gift umgehen, wenn es die Sekte befohlen hat. Und sie ist offenbar vom Satan besessen gewesen, weil so gross ist die Kraft von ihrem Blick gewesen. Babette von Interlaken, so heisst die Frau, die den Umberto Eco da beschrieben hat.

[00:01:34.410] – Speaker 1
Er, als Semiotiker, hat sich mit den Zeichen beschäftigt und ihrer Deutung ausgehängt. Er hat in seinem berühmtesten Roman die verschwörerische Kraft von der Religion beschrieben und er hat in seinem Buch „Der Friedhof in Prag von 2010 eindrücklich aufzeigt, wie aus antisemitischer Vorurteil dann Judenhass wird. Und eine von der grässlichsten Verschwörungstheorien Siehe überhaupt. In dem Buch da kommt aber eben auch die Babette von Interlaken vor: Die herrige Jungfrau vom Schweizer Kommunismus. Sie seien im Ego im Traum erscheinen, schreibt er. Während ich im Halbschlaf das Bild von dieser blonde Dämonin mit ihrem wehenden Haar auf der sicherlich blutten Schulter, haben wollen verscheuchen, das dämonisch lockende Irrlicht mit vorsündiger Wolllustbebende Buse, ist sie mir als Modell zur Nachahmung vorgeschwebt. Das Internet, Wikipedia und die üblichen Quellen wissen nichts über die Babette von Interlaken. Das Ego-Wiki vermutet, es handle sich Geschichte die Eisen, Jungfrau von Hans-Christian Andersen. Dort ist Babette allerdings eine Walliserin und weniger Intrigantin und Dämonin als vielmehr liebenswerte Frau, die dem Held der Geschichte den Kopf verdreht. Der Protagonist von der Eis-Jungfrau laht sich als luftigere Variante von dem Schweizer Nationalheld verstehen, hat der Tagi geschrieben, als Teil mit einem anderen Herz. Mit anderen Wort, dass Eko Vicky leidt mit seiner Vermutung völlig daneben und kommt überhaupt nicht daraus.

[00:03:13.120] – Speaker 1
Aber die Nzz, die hat in in der fast 240-jährigen Geschichte ein einziges Mal über die Babette von Interlake geschrieben. Am 29. März 1861 hat es wie folgt geheissen: Es ist die berüchtigte Babette die merkwürdige Urenkelin vom Weishaupt. Weishaupt übrigens der Gründer von den Illuminati, wenn ich darf anfügen. Der Pfarrer Weyermann hat sie die grosse Jungfrau vom Kommunismus genannt und dann kommt fast wortwörtlich das Zitat vom Umberto Eco: „Die Babette hat der Katholiken das Herztaug oder die Geweiht rausgerissen und dafür hat die Babette einen Patzen und ein Glas Kirschwasser bekommen. Die Babette hat 1846 für die ersten Regierungsräte vom Kanton Bern, der Funk der Ochsebei und der Stockmar, und die Konsorten Vermittlungsaufgaben übernommen. Sie hat geflucht, wen ein Radikaler, gesoffen, wen ein Aargauer und geraucht, wen ein Dürer heisst in der Nzz. Und damit wird die Sache ein bisschen klarer. Die Babette ist im Sonderbundeskrieg auf der Seite von der Eidgenossenschaft gestanden. Sie hat gegen die katholische Kanton in der Innerschweiz kämpft, die nichts vom Bundesstaat haben wollen wissen. Der Text in der Nzz ist eine Kritik vom Buch der Judie von Verona, 1859, rausgekommen in der Buchhandlung Hurtr von Schafhausen. Der Autor von dem Buch hat die Nzz nicht herausgefunden, aber wir wissen heute, dass es der Antonio Breschani war.

[00:04:48.310] – Speaker 1
Der hat sich als Schriftsteller auf die Seite der Katholiken geschlagen und die Nzz schreibt dann auch: „Das Ziel von dem kuriosen Buch sei, die Liberalen mit Schimpf und Schant zu überschütten. Und abschliessend hat sich die Nzz gefragt, warum die Buchhandlung Hurtr, die Schafhose, so einen Schund überhaupt rausgibt. Und wir, wir wissen jetzt also ein bisschen mehr über die Pabette von Interlaken, dass Raubei, der gesoffert wird wie der Nahrgauer und offenbar so eine Art Schweizer Matahari, war.

Beitragsbild: Wenn sie die Gesprächsnotizen nicht selbst erfassen müssten, wären sie noch glücklicher (Christina Morillo, Pexels-Lizenz).

One thought on “Eine Texterkennung, die auch mit Dialekten klarkommt

Kommentar verfassen