Macwhisper: Audio-Aufnahmen ohne Cloud transkribieren

Wie wir die Text­er­ken­nungs­soft­ware Whisper von Open AI auf dem eigenen Mac aus­füh­ren und was es dabei zu be­rück­sich­ti­gen gilt.

Heute, bei diesem Blogpost, laufen mehrere Fäden zusammen: Erstens meine Testreihe zu Softwareprogrammen, die es uns ersparen, unsere Interviews und Gesprächsaufnahmen abzutippen. Zweitens meine Experimente mit KIs, die nicht in der Cloud, sondern lokal auf dem eigenen Computer laufen.

Konkret geht es um Macwhisper: Diese Software erlaubt es, Aufnahmen auf dem lokalen Computer zu verschriftlichen. Wir müssen unsere – unter Umständen sensiblen – Aufnahmen nicht auf irgendeinen Server hochladen, sondern verarbeiten sie auf unserer eigenen Hardware.

Die Oberfläche von Macwhisper ist überschaubar.

Es gibt weitere Vorteile: Wir entscheiden, ob wir die Verarbeitung schnell und weniger genau oder langsamer und mit maximaler Qualität abwickeln wollen. Und wir haben die Möglichkeit, grössere Datenbestände in einem Rutsch durch die Software zu schicken und z.B. unser Podcastarchiv zu transkribieren. Diese Funktion ist über das Modul Batch Transcription zugänglich.

Rechenpower ist gefragt

Ich will nicht verschweigen, dass es auch Nachteile gibt. Erstens braucht diese Verarbeitung leistungsfähige Hardware. Ich verwende für meinen Test das Macbook Pro M3, das mir Apple zur Verfügung gestellt hat. Zweitens sind andere Lösungen bei der Gliederung der Texte besser, und sie unterscheiden teilweise auch die Sprecher. Whisper tut das nicht.

Drittens bekommen wir nur das nackte Modell. Vergleichbare Anwendungen in der Cloud umfassen einen komfortablen Editor, der die Nachbearbeitung und Korrektur der Transkriptionen massiv vereinfacht. Der Editor der hier vorgestellten Lösung Happy Scribe gefällt mir ausgezeichnet.

Welches Modell darfs denn sein?

Die Verwaltung der Modelle.

Also, Macwhisper: Diese Software erlaubt es uns, die Whisper-Modelle von Open AI selbst lokal auszuführen. Die Alternative ist, sie über einen Dienstleister zu nutzen: Ich habe bei meinem Test vor einem Jahr Whisper über die Implementation meines Podcast-Dienstleisters Auphonic verwendet.

Es gibt die Macwhisper kostenlos, doch für die ernsthafte Nutzung kommen wir nicht um die Pro-Lizenz für 29 Euro herum. Nur sie erlaubt es uns, jene Modelle einzusetzen, die für ernsthafte Zwecke notwendig sind.

Bevor wir einen Testlauf durchführen können, müssen wir über die Rubrik Manage Models auswählen, auf welcher Grundlage die Transkription erfolgt. Es gibt diverse Varianten nur für Englisch oder für mehrsprachige Aufnahmen. Sie unterscheiden sich in der Grösse und auch im Rechenaufwand, der für die Transkription benötigt wird.

Qualität ist alles!

Das Modell Small ist 500 MB gross und soll eine gute Genauigkeit ermöglichen. Ich würde aber mindestens das mittlere, mehrsprachige Modell empfehlen. Oder, wenn schon, gleich Large. Diese Variante ist drei GB gross. Es gibt davon eine zweite Fassung: Large V3 biete die grösste Genauigkeit, habe aber das Problem, dass es zu Wiederholungen in der Transkription kommen könne – und in der Tat, dieses Problem habe ich festgestellt. Es war auch mit dem Large-Modell zu beobachten, aber in weniger gravierender Form.

Das fertige Transkript: Für die Verschriftlichung der Aufnahme von 5:21 Minuten brauchte die Software auf dem Macbook Pro M3 47 Sekunden.

Abgesehen davon liefert das Large-Modell eine hervorragende Qualität. Das zeigt meine Testreihe, die ich mit Trint, Descript, Töggl und der gehosteten Version von Whisper durchgeführt und um Happy Scribe ergänzt habe. Ich habe Macwhisper jetzt die gleichen Audiodateien vorgesetzt, sodass hier ein direkter Vergleich der Ergebnisse möglich ist – siehe unten. Allerdings ist die Anmerkung vonnöten, dass die Resultate der anderen Programme schon gut ein Jahr alt sind und sie sich in dieser Zeit womöglich auch verbessert haben.

Ein heisser Tipp!

Also: Macwhisper liefert brillante Resultate: Englisch und auch Hochdeutsch wird bei guter Audioqualität annähernd fehlerfrei verschriftlicht. Ich empfehle trotzdem eine Überprüfung, denn kosmetische Korrekturen kann die KI-Transkription auch bei Whisper vertragen.

Die Resultate bei Schweizer Dialekten und ungewohntem Vokabular sind nicht über alle Zweifel erhaben. Trotzdem gibt es sehr positive Beobachtungen: Whisper in diesem Modell ist in der Lage, die Biermarke «Feldschlösschen» richtig zu erkennen – daran sind alle Kandidaten ausser Happy Scribe gescheitert.

Das Pièce de résistance bleibt die «Babette von Interlaken»: Sie hat so viel ungewöhnliches Vokabular, dass selbst hervorragende Lösungen wie Whisper einige Fehler produzieren. Auf der positiven Seite ist zu vermerken, dass die KI sogar den Jingle transkribiert, und zwar fehlerfrei. Und wirklich eindrücklich finde ich, dass sie das Zitat im Text sogar in Anführungszeichen setzt – das zu erkennen, ist nicht ohne!

Knapp daneben ist auch vorbei

Negativ bleibt, dass das Wort «Säufer» in meinem Zürcher Dialekt als «Süüfer» ausgesprochen, für KIs annähernd unverständlich bleibt. Whisper transkribiert es anscheinend phonetisch als «Seufer»; was nur knapp daneben, aber halt trotzdem falsch ist.

Auch sonst gibt es diverse Fehler: «Defensoren» statt «diplomatischi Depesche» («diplomatische Depeschen»), «Ziegel» statt «Siegel», «Mattenhaar» statt Mata Hari. Trotzdem: Whisper ist gut genug, dass dessen Einsatz eine beträchtliche Zeitersparnis bringt – und uns obendrein das mühsame Abtippen erspart.

Das Fazit: Macwhisper ist eine unbedingte Empfehlung für Leute, die diese KI lokal einsetzen und entsprechende Erfahrungen sammeln wollen. Noch ein Tipp: Bei meinem ersten Versuch hat Macwhisper völlig falsche Resultate geliefert. Nicht einmal die Sprache wurde richtig erkannt. Das lag daran, dass ich die Aufnahme im Aiff-Format ausgewählt habe. Dagegen hat das Programm nicht protestiert, obwohl es offensichtlich nicht in der Lage ist, dieses Format korrekt zu decodieren.

PS: Eine gestern als Kommentar empfohlene Lösung für Whisper, die ich hier gern anfüge, ist das kostenlose noScribe.


Telefoninterview Schweizerdeutsch

Hast du vielleicht gesehen, dass Instagram etwas gegen Fake-Follower und die Massnahmen unternehmen will, damit man seine Posts boosten kann mit lauter Methoden?

Würdest du sagen, ist das ein grosses Problem?

Wie nötig ist das?

Sehr nötig.

Instagram-Counts haben seit sie angefangen mit diesen Bots.

Ich schätze, dass 50% der Influencer ein solcher Bot einsetzen, ob es jetzt Kommentare-Bots, Weich-Bots oder Folower-Bots sind.

Von daher ist es eine sehr gute Sache, was sie machen.

Man muss natürlich auch sehen, sie haben schon von früher gesagt, sie sind gegen vor.

Ja, genau.

Es ist die Frage, wie effektiv ist es jetzt diesmal?

Das Einzige, was ich in Hoffnung geschimmert habe, ist, dass keine Einsetzer diese Aktivitäten identifizieren können.

Und dass die User informiert haben, wir haben hier Leute rausgelöscht.

Das war früher immer Stimmschweigen.

Dann haben sie „Shadowban“ gesagt, dass Instagram sich praktisch beschädigt.

Aber du hast nichts davon gewusst.

Und jetzt muss man damit rechnen, dass es öffentlich wird, wenn man verwischt wird?

Öffentlich wird es glaube ich nicht.

Wenn ich das verstanden habe, bekommst du eine In-App-Message, eine Notification von Instagram, dass sie das entdeckt haben.

Ich glaube nicht, dass sie das öffentlich machen.

Ich glaube, es würde mir schaden.

Ja.

Aber wäre es aus deiner Sicht sinnvoll, wenn man Leute anprangern würde, die hier bescheissen?

Genau.

Wäre es aus deiner Sicht sinnvoll, wenn man die Leute tatsächlich anprangern würde, wenn man beim Bescheissen verwischt werden könnte?

Telefoninterview Hochdeutsch

Ich starte mal ganz profan mit der Frage, was ist ein Bot?

Ja, was ist ein Bot?

So profan ist die Frage schon gar nicht.

Also der Begriff Bot kommt von Roboter, Robots.

Und eigentlich sind damit schon zwei unterschiedliche Sachen gemeint.

Nämlich der klassische Begriff eines Bots, es gab auch früher schon sowas wie Botnetze, damit war eigentlich gemeint, dass Computer durch Schadsoftware selbstständig agieren.

Also das heißt, wir hatten Viren, die sich verbreitet haben und dann auf ihrem Rechner und meinem Rechner und sonst wo plötzlich die Rechner autonom angefangen haben zu agieren und vielleicht Spam versandt haben, ohne dass wir das überhaupt mitgekriegt haben.

Das waren eigentlich diese, daher kommt eigentlich der Begriff dieser Botnetze.

Ja.

Jetzt gibt es dann aber eben durch Social Media einen Bezug dazu, wo eben auf der einen Seite die sogenannten Social Bots oder vielleicht erstmal so insgesamt alle Programme auf Social Media, die irgendwie autonom agieren, werden als Bots bezeichnet.

Und da gibt es dann nochmal die Unterscheidung zwischen Bots, die sich auch als Bots, als Bots zu erkennen geben.

Das ist das, worüber Facebook jetzt zum Beispiel redet, wenn die das Zeitalter der Bots ausrufen und solche, die so tun, als wären sie echte Menschen.

Und das wären dann Social Bots.

Begegnen wir diesen Bots heute schon?

Ja, und zwar zum Beispiel Siri ist ein Bot oder auch, wenn ich an meinem Android-Phone OK Google sage, dann ist ja dahinter ein Bot, in dem Sinne, dass ich halt autonom agierende Software habe, mit der ich dann kommunizieren kann.

Interview in Englisch

You know, I talked with Matthias Kirschner, I guess the name, from Free Software Foundation Europe for the radio show I was telling you about, and then I played your Free Software song in the show.

There are lots of interpretations from lots of bands.

Yes, and that’s an example of a filk song.

Have you heard the term filk song?

Filk?

Yes, F-I-L-K.

If you look up filk songs, if you search for it, you’ll find lots of amusing songs, and some that are not amusing.

But in any case, I was at a science fiction convention.

I was at a filk singing meeting, which was operating by what they call bardic circle, which means they go around the room and each person has a chance… to either sing or request that someone else sing something.

And I had just sung something, and there were at least 20 people in the room, so I knew that it would be a long time before I had another chance.

I decided to write a song.

But since I was not starting from an inspiration, I had to come up with a topic.

I thought, why not write about free software?

Ah, that’s how it…

And came to be…

Right, I’d never written anything about that.

And then, since I had no inspiration, I had to come up with a tune.

I thought, why not use a Balkan dance tune?

Which one?

Well, Sa Di Mo Ma suggested itself because it’s very beautiful and not too fast.

Mm-hmm.

Interview Hochdeutsch-Schweizerdeutsch

Welche Plattform nutzt du jetzt mehr oder weniger aktiv im Moment?

Ja, also ich glaube, ich bin am aktivsten noch auf Instagram.

Da haben wir ja vor einem Jahr oder so, glaube ich, auch schon mal die Klingen gekreuzt, weil wir unterschiedlicher Meinung waren in puncto Instagram.

Da hat sich allerdings bei mir in den letzten Monaten so ein bisschen das verändert, dass ich tatsächlich mehr passiv konsumiere, als wirklich aktiv bin auch.

Und sonst, ich nutze LinkedIn nicht mit Begeisterung, aber so aus einer Jobnotwendigkeit her.

Und bei Twitter ist es für mich so ein bisschen ein Auf und Ab.

Da kommt das sehr auf die Tagesform an, aber ich bin da früher sehr viel aktiver gewesen.

Genau, der Instagram-Krach, wo man, Krach ist ein bisschen viel gesagt, aber wir sind einfach unterschiedlicher Meinung gewesen.

Ich habe es schon hier gefunden.

Es hat sich so verschoben, das Gleichgewicht auch von so quasi Kommunikation auf Augenhöhe hin zu eben Influencer versus du bist halt der Kleine, wo auch irgendwie kannst du einen Post posten.

Und dann ist es ein super Foto, wenn ich finde, aber du bekommst drei Herzchen über oder so.

Oder vier vielleicht, wenn der Ball wirklich sensationell ist.

Und darum habe ich da ein bisschen den Spass verloren.

Ich habe auch noch schnell geschaut, wie viele das sind.

Ich bin auf zehn gekommen.

Ich nutze mehr oder weniger aktiv im Moment, wobei man sieht dann schon auch, welche das werden sterben wieder von denen.

Also Twitter, Facebook, ich glaube am meisten Twitter und dann Facebook.

LinkedIn auch so ein bisschen.

Untappt, das Bier-Social.

Da bin ich auch sehr aktiv, das ist richtig.

Aber das ist ja nicht so sehr zum Interagieren, sondern das ist für mich zumindest mehr so zum selber dokumentieren. wie schlecht war das Feldschlösschen jetzt wirklich.

«Babette von Interlaken»

«This is the voice you have learned to fear.

This is the voice of terror.»

«Stadtfilter.»

Babette ist in Lug und Trug geboren.

Sie ist unter Seufer, Räuber und Mörder aufgewachsen.

Sie hat den Liebgott nur aus den Flüchten gekannt, die sie ständig gehört hat.

In den Scharmützeln von Luzern haben die Radikalen ein paar Katholiken aus den Urkantonen umgebracht.

Und da war sie es, die ihnen das Herz rausgerissen und die Augen ausstechen lassen.

Babette hat ihr langes blondes Haar im Wind wehen lassen, so wie die grosse Huere von Babylon.

Sie hat unter ihrem Mantel ihre Reize versteckt und sie war eine Heroldin der Geheimgesellschaften.

Dieser Dämonin hatten die mysteriösen Kongregationen ihre Ränke und Tücken zu verdanken.

Sie ist plötzlich, wenn ihr Licht auftaucht, sie hat undurchdringliche Geheimnisse gekannt und sie hat diplomatische Defensoren.

Sie hat sie aufgemacht ohne die Ziegel zu brechen.

Sie hat sich wie ein Nattern in die innersten Kabinette von Wien, Berlin und St.

Petersburg geschlichen.

Sie hat Wechsel gefälscht, sie hat die Passnummer geändert.

Schon als Kind konnte sie mit Gift umgehen, wenn es die Sekte befohlen hat.

Und sie war offenbar vom Satan besessen, weil so gross war die Kraft ihres Blickes.

Babette von Interlaken, so heisst die Frau, die Umberto Eco hier beschrieben hat.

Er als Semiotiker hat sich mit den Zeichen beschäftigt und ihrer Deutung ausgehängt.

Er hat in seinem berühmtesten Roman die verschwörerische Kraft der Religion beschrieben.

Und er hat in seinem Buch «Der Friedhof in Prag 2010» eindrücklich aufgezeigt, wie aus antisemitischen Vorurteilen Judenhass wird.

Und eine der grässlichsten Verschwörungstheorien überhaupt.

In diesem Buch kommt aber eben auch die Babette von Interlaken vor, die hehre Jungfrau des Schweizer Kommunismus.

Sie sei in Eco im Traum erschienen, schreibt er.

«Während ich im Halbschlaf das Bild dieser blonden Dämonin mit ihrem wehenden Haar auf der sicherlich blutten Schulter habe verschweigen wollen, das dämonisch lockende Irrlicht mit vorsündiger Wohllust beherrschen wollte, ist sie mir als Modell zur Nachahmung vorgeschwebt.»

Das Internet, Wikipedia und die üblichen Quellen wissen nichts über die Babette von Interlaken.

Das Eco-Wiki vermutet, es handele sich um die Geschichte «Die Eisen», Jungfrau von Hans Christian Andersen.

Dort ist die Babette allerdings eine Walliserin und weniger Intrigantin und Dämonin als vielmehr eine liebenswerte Frau, die dem Held der Geschichte den Kopf hält.

Der Protagonist der «Eis»-Jungfrau lässt sich als luftigere Variante des Schweizer Nationalhelden verstehen, hat der «Tagi» geschrieben, als Teil mit einem anderen Herz.

Mit anderen Worten: Das Eco-Wiki liegt mit seiner Vermutung völlig daneben und kommt überhaupt nicht raus.

Aber die «NZZ» hat in ihrer fast 240-jährigen Geschichte ein einziges Mal über die Babette von Interlaken geschrieben, am 29.

März 1861.

Es war die berüchtigte Babette, die merkwürdige Urenkelin des Weisshaupts.

Weisshaupt übrigens der Gründer der Illuminati, wenn ich anfügen darf.

Pfarrer Weyermann nannte sie die «grosse Jungfrau des Kommunismus».

Und dann kommt fast wortwörtlich das Zitat von Umberto Eco: «Die Babette hat den Katholiken das Herz in den Augen.»

Oder die Geweide rausgerissen.

Dafür hat die Babette einen Batzen und ein Glas Kirschwasser bekommen.

Die Babette hat 1846 für die ersten Regierungsräte des Kantons Bern, den «Funk», den «Ochsebei» und den «Stochmar» und die Konsorte Vermittlungsaufgaben übernommen.

Sie hat geflucht wie ein Radikaler, gesoffen wie ein Aargauer und geraucht wie ein Türk heisst in der «NZZ».

Damit wird die Sache etwas klarer.

Die «Babette» stand im Sonderbundskrieg auf der Seite der Eidgenossenschaft.

Sie hat gegen die katholischen Kantone in der Innerschweiz gekämpft, die nichts vom Bundesstaat wussten wollten.

Der Text in der «NZZ» ist eine Kritik des Buches «Der Jude von Verona» 1859 herausgekommen.

In der Buchhandlung «Hurter von Schaffhausen».

Der Autor des Buches hat die «NZZ» nicht herausgefunden.

Aber wir wissen heute, dass es Antonio Bresciani war.

Er hat sich als Schriftsteller auf die Seiten der Katholiken geschlagen.

Die «NZZ» schreibt dann auch, das Ziel dieses kuriosen Buches sei, die Liberalen mit Schimpf und Schand zu überschütten.

Abschliessend hat sich die «NZZ» gefragt, warum die Buchhandlung «Hurter von Schaffhausen» so einen Schund überhaupt herausgibt.

Und wir wissen jetzt also etwas mehr über die «Babette» von Interlaken, das Rauhbei, das gesoffen hat wie ein Aargauer.

Und offenbar war das eine Art Schweizer Mattenhaar.

Beitragsbild: Flüstern geht – wie dieses Bild beweist – auch ohne Cloud (Eren Li, Pexels-Lizenz).

Kommentar verfassen