Die Spracherkennung gehört heute selbstverständlich dazu. Sie im Alltag verwenden, ist kein Aufwand mehr: sei es fürs Brainstorming, fürs Sitzungsprotokoll oder um Briefe und (meinetwegen) Blogposts und Artikel zu diktieren. Das ist das Verdienst von OpenAI und vor allem des Prinzips der freien Software. Denn die vielen Transkriptionsprogramme, die uns heute zur Verfügung stehen, basieren zum Grossteil auf Whisper. Das ist das Modell, das Sam Altman und seine Leute im September 2022 öffentlich bereitstellten.
Es kommt bei mehreren Apps zum Zug, die ich gern nutze: Mit Whisper Notes sammle ich Ideen und Macwhisper ist ein Allrounder, der vor allem für Podcasts zum Zug kommt. Seit meinem ersten Test vor zwei Jahren hat sich die Software gemacht: Inzwischen kann sie Audio nicht nur aus Aufnahmen, sondern ab Mikrofon transkribieren, live untertiteln, Sprecherinnen und Sprecher erkennen und sich bei Teams- und Zoom-Konferenzen einklinken. Alles in allem praktisch. Und ein exemplarisches Beispiel, wie freie Software die Innovation befeuert.
Eine Frage stellt sich: Es gibt Whisper für den Mac, fürs iPhone und iPad – wo bleibt Windows¹? Und in der Tat, ich fand keine Anwendung, die einen ähnlich ausgereiften Eindruck macht wie Macwhisper. Aber immerhin existiert eine Anwendung, die die Kernfunktionalität beherrscht: die Verschriftlichung von Audioaufnahmen mit einem lokalen Sprachmodell. Das erlaubt es uns, Aufnahmen mit sensiblen Inhalten zu verarbeiten.
Die Open-Source-Software fürs Open-Source-Modell
Buzz – und ja, über den Namen kann man sich streiten. Die Dokumentation und der Quellcode finden sich auf Github, die ausführbaren Dateien auf Sourceforge. Nebst der Windows-Version ist Transkriptionssoftware ebenso für Mac und Linux erhältlich – sodass man sich als Apple-Nutzerin oder -Nutzer entscheiden kann, ob man die Gratisvariante nutzt oder für mehr Komfort den Kaufpreis von (inzwischen) 64 Euro in Kauf nimmt.

Vorab ein Wort der Warnung: Buzz ist ein Schwergewicht. Auf meinem Laptop macht sich die Software (mit zwei installierten Modellen) mit 8,6 GB und mehr als 22’000 Dateien breit – für ältere Rechner ist das eine Überforderung. Und die Transkription ist langsam. Die Verarbeitung einer Aufnahme von fünf Minuten dauert mit dem Modell Large-v3 (2,9 GB) auf meinem HP-Laptop knapp die doppelte Laufzeit (10:07 Minuten). Im Vergleich ist das Macbook Pro M3 deutlich schneller. Es braucht im Schnitt etwas weniger als die Hälfte der Laufzeit.
Die Balance zwischen Qualität und Tempo finden
Falls Zeit eine entscheidende Rolle spielt, lohnt es sich, vorab anhand von kurzen, repräsentativen Beispiel-Clips herauszufinden, welches Modell die beste Balance aus Qualität und Tempo bietet. Das Modell Tiny (72 MB) benötigt für die gleiche 5-Minuten-Datei 41 Sekunden, doch bei einer Aufnahme in Schweizerdeutsch ist das Resultat annähernd unbrauchbar.

Buzz verschriftlicht nebst lokalen Dateien Aufnahmen aus dem Web (Datei > URL importieren) und arbeitet «live» per Mikrofon. Die Software kann standardmässig mit mehreren Dateien auf einmal «gefüttert» werden. Dazu ziehen wir die Audiodateien aufs Programmfenster und geben die Parameter vor. Zur Auswahl stehen Modell², Aufgabe mit Transkribieren und Ins Englische übersetzen, eine Sprachauswahl (Sprache erkennen funktioniert bestens) und Erweitert. Letzteres führt die Aufgabe mittels ChatGPT, also in der Cloud, durch, ermöglicht dafür die Verwendung eines individuellen Prompts.
Schliesslich wählen wir das Ausgabeformat: Zur Auswahl stehen die beiden Untertitel-Formate Subrip (.srt) und WebVTT (.vtt), sowie reiner Text (.txt).
Eine (nicht offensichtliche) Stärke besteht in der Möglichkeit, die Transkripte zu durchsuchen und anhand der Originalaufnahme zu bearbeiten. Dazu doppelklicken wir im Hauptfenster auf den Eintrag eines abgearbeiteten Jobs. Es erscheint ein Fenster, das das Transkript in verschiedenen Darstellungen zeigt und Befehle für den Export, Übersetzung und die Identifizierung der Sprecher (Identify Speakers) aufweist. Der Befehl Grösse ändern (Resize) erlaubt es, die Längen der einzelnen Textzeilen anzupassen, d. h., sie zu verkürzen oder zu verlängern.

Dateien im Rutsch transkribieren und korrigieren
Der weitere Pluspunkt ist die Batch-Bearbeitung: Wir können per Drag&Drop eine beliebige Anzahl an Dateien übergeben. Es ist ebenso möglich, einen Ordner zu überwachen, sodass die dort auftauchenden Dateien automatisch abgearbeitet werden. Dazu betätigen wir im Menü Hilfe den Befehl Einstellungen und setzen die gewünschte Option in der Rubrik Ordner überwachen.
Wo wir bei den Einstellungen sind: Hier finden sich einige interessante Möglichkeiten:
- Wir schalten die Benutzeroberfläche in der Rubrik Allgemein bzw. General auf Deutsch um.
- An gleicher Stelle lässt sich auch der Ordner für die fertigen Transkripte angeben. Standardmässig wird der Output im gleichen Ordner wie die Input-Datei abgelegt.
- Die Verwaltung der Modelle erfolgt im gleichnamigen Reiter; hier werden Modelle geladen und gelöscht.
- Buzz lässt sich weitgehend über Tastaturkürzel steuern, die obendrein unter Tastenkombinationen nach Gutdünken angepasst werden dürfen.
Fazit: Die Benutzeroberfläche strahlt die Ästhetik einer PC-Software aus dem Jahr 1996 aus. Aber ihren Zweck erfüllt Buzz ausgezeichnet.
Fussnoten
1) Und wo bleibt Android? Für Googles Smartphone-Betriebssystem fand ich keine App, die ich ernsthaft würde empfehlen wollen. Falls jemand einen Tipp hat, bin ich ein dankbarer Abnehmer! ↩
2) Nebst Whisper stehen als Modellanbieter auch Hugging Face, Faster Whisper und OpenAI via API zur Verfügung. Bei der Grösse wählen wir Tiny, Tiny.En (für Englisch), Base, Base.En, Small, Small.En, Medium, Medium.En, Large, Large-V2, Large-V3 oder Large-V3-Turbo. ↩
Wie ist die Qualität mit Schweizerdeutsch beim Large v3 Modell?
Zum Verständnis: Die Software transkribiert nur das gesprochene. Für eine Zusammenfassung braucht man dann wieder ein anderes LLM wie ChatGPT?
Schweizerdeutsch ist auch mit den grossen Modellen noch immer knifflig. Es hängt obendrein vom Dialekt ab; Züritüsch ist besser als die Idiome der Walliser und Baslerinnen. Die «nackte» Transkription ist auch mit den grossen Modellen oft schwer verständlich, darum das zweistufige Verfahren: Die KI kann anhand des Kontexts die Qualität meist deutlich verbessern und einen brauchbaren Text abliefern. Das zweistufige Verfahren gibt ausserdem die Möglichkeit, die Transkription, die nur lokal erfolgte, vorab von sensiblen Informationen zu befreien oder zu anonymisieren, damit der Datenschutz bei der Nutzung der KI in der Cloud gewahrt bleibt.
@Matthias Ja , so ein Mini Whisper Modell hab ich in meiner PBX für einen kleinen chatbot LLM verbaut. Als Ausgabe verwende ich dann piper tts. Mit Hochdeutsch funktioniert die Erkennung selbst auf 10 Jahre alten Mini PC noch gut 🙂 LG Olav
Remote-Antwort
Ursprüngliche Kommentar-URL
Dein Profil
Warum muss ich mein Profil eingeben?
Diese Website ist Teil des ⁂ Open Social Web, einem Netzwerk miteinander verbundener sozialer Plattformen (wie beispielsweise Mastodon, Pixelfed, Friendica und andere). Im Gegensatz zu zentralisierten sozialen Medien befindet sich dein Profil auf einer Plattform deiner Wahl, und du kannst mit Menschen auf verschiedenen Plattformen interagieren.
Wenn du dein Profil eingibst, können wir an dein Profil senden, wo du diese Aktion abschließen kannst.