Descript.com ist eine Software-Plattform, die Werkzeuge für die Produktion von Podcasts und Videos bereithält. Es gibt einen bunten Strauss von Hilfsmitteln, die einem die manuelle Bearbeitung erleichtern sollen: Die Transkription für Untertitel gehört dazu; genauso wie die Entfernung von Füllwörtern: Das sind die berüchtigten «Ähs» in der gesprochenen Rede, genauso wie die eingestreuten «Also», «quasi», «natürlich» und «tatsächlich».
Es gibt auch das Modul «Overdub», mit dessen Hilfe wir eine Kommentar-Spur für ein Video oder eine Audio-Produktion herstellen. Dazu kann man ein «Text-to-Speech-Modell» der eigenen Stimme herstellen oder eine der, Zitat, «ultra-realistischen Standardstimmen» auswählen. Hinterher braucht man seine Texte dann nicht mehr selbst einzusprechen, sondern lässt sie anhand eines Manuskripts von der Software generieren.
Das ist eine lustige Sache, die ich aber niemals anwenden würde (abgesehen davon, dass sie erst für Englisch funktioniert): Die Texte selbst einzusprechen, ist ein Spass, den man sich nicht nehmen lassen sollte. Ausserdem ist er zentral für die Authentizität. Denn die künstlich generierte Tonspur ist mutmasslich so perfekt, dass sie seelenlos und unnahbar wirkt.
Wie gut ist die Interview-Verschriftlichung von Descript?
Ich werde mir die eine oder andere Funktion von Descript ansehen, aber als erstes wollte ich wissen, wie gut die Transkription funktioniert: Das ist die automatische Verschriftlichung ab einer Audiodatei. Die hilft bei der Produktion, um bestimmte Stellen im Material schnell aufzufinden. Und sie ist natürlich auch eine grosse Unterstützung, wenn es darum geht, Untertitel zu erstellen oder eine schriftliche Variante eines Interviews anzufertigen.

Für diesen Zweck habe ich mir drei Aufnahmen verschriftlichen lassen:
1) Englisch, vor Ort
Ein Interview in Englisch, das ich mit Richard Stallman geführt und mit meinem Audiorecorder aufgezeichnet habe. Diese Aufnahme hat eine Besonderheit, indem es zwei unterschiedliche Sprecher gibt: Stallman verwendet einwandfreies amerikanisches Englisch, doch das gleiche kann man von mir nicht behaupten: Ich bin in der Aufnahme mit Schweizer Akzent zu hören und formuliere auch nicht gerade flüssig, sondern muss immer mal wieder nach Worten suchen.
Das hinterlässt Spuren in der Transkription: Die Verschriftlichung meiner Aussagen ist ohne Nachbearbeitung nicht brauchbar. Anders sieht es bei dem aus, was Stallman sagt: Bei seinen Passagen gibt es Details zu korrigieren, aber die Rohfassung ist inhaltlich verständlich und ausreichend, dass sich damit arbeiten lässt.
Zum Vergleich habe ich die gleiche Aufnahme auch mit Trint verschriftlicht (Trint.com, der hervorragende Interview-Verschriftlicher). Diese Software führt auch eine Erkennung der Sprecher durch, die bei dieser Aufnahme allerdings nicht sonderlich funktioniert hat. Abgesehen davon ist diese Verschriftlichung bis auf das Spezialvokabular bei Richard Stallman tadellos.
Generell ist Trint nicht nur besser bei der Erkennung, sondern portioniert das Protokoll (meistens) auch sinnvoller in Abschnitte, als das bei Descript der Fall ist, wo diese Einteilung einen willkürlichen Eindruck macht.
2) Hochdeutsch, am Telefon

Die zweite Aufnahme ist ein Interview, das ich in Hochdeutsch per Telefon geführt und über die Telefonanlage meines Arbeitgebers aufgezeichnet habe. Das hat zur Folge, dass die Aufnahmequalität alles andere als Hifi ist – sondern dumpf und verrauscht, wie es bei den bescheidenen Datenübertragungsraten und bei dem nicht professionellen Equipment nicht anders zu erwarten ist.
Dieses Beispiel belegt die alte Vermutung, dass die Qualität der Audio-Aufnahme und die der Verschriftlichung Hand in Hand gehen: Sowohl Descript als auch Trint liefern Resultate, die ohne intensive Nachbearbeitung annähernd unverständlich sind («Der Begriff Gott kommt von Roboter» – hä?).
3) Schweizerdeutsch und Hochdeutsch gemischt, vor Ort
Das dritte Beispiel ist in guter Audioqualität aufgezeichnet und enthält Passagen in Hochdeutsch und in Schweizerdeutsch. Es ist ein Gespräch, dass ich mit meinem Kollegen Mathias Möller zum Thema der sozialen Medien geführt habe.
Die Verschriftlichung meiner zürichdeutschen Worte ist unbrauchbar, was beweist, dass weder Trint noch Descript etwas mit den hiesigen Dialekten anfangen können. Die hochdeutschen Sätze von Kollege Möller hingegen sind bis auf einige Ausrutscher zum Beispiel bei der traditionsreichen Biermarke Feldschlösschen ordentlich transkribiert.
Es gibt einen klaren Sieger
Aber auch da gilt, dass sich Descript gegenüber von Trint geschlagen geben muss – die Qualitätsunterschiede sind so gross, dass das Verdikt eindeutig zugunsten von Trint ausfällt.
Wenn man sich fragt, ob sich der Einsatz einer solchen Software lohnt, dann hängt das davon ab, was der Zweck der Transkripte ist: Wenn es darum geht, in einer grösseren Menge von Audio- oder Videomaterial bestimmte Stellen schnell aufzufinden, dann können sie eine Hilfe sein. Wenn die Absicht besteht, saubere Untertitel bereitzustellen oder ein Interview in schriftlicher Form zu veröffentlichen, dann bringen sie nichts – dann kommen wir mit einer manuellen Niederschrift schneller und besser ans Ziel.
Die Nummer zwei ist günstiger und komfortabler
Beim Preis gewinnt indes Descript mit Abstand: Während Trint ab 48 US-Dollar pro Monat nutzbar ist, gibt es bei Descript einen kostenlosen Starter-Plan für eine Stunde Audio-Bearbeitung pro Monat; für mehr Kapazität und die Premium-Funktionen gibt es den Creator-Plan für zwölf und den Pro-Plan für 24 US-Dollar pro Monat.
Komfortabler finde ich im Vergleich auch die Nutzung: Während man Trint im Browser verwendet, gibt es für Descript eine lokale Anwendung, was für eine intensive Arbeit mit dem Text meine Erachtens die komfortablere Methoder darstellt.
Nachtrag vom 27. Januar 2023
Ich habe in einem breiten Test Descript inzwischen mit Whisper, Töggl und Trint verglichen. Das Resultat ist eindeutig: Durchs Band am besten schnitt Whisper ab; gleichgültig, ob gute oder schlechte Qualität, Hochdeutsch, Schweizerdeutsch oder Englisch oder gemischt-sprachlich.
Das ausführliche Resultat dieses Tests sind im Beitrag Der grosse Vergleich der Texterkennungs-Tools nachzulesen¹.
Fussnoten
1) Da es inzwischen einen Extra-Beitrag mit dem Vergleich gibt, habe ich die zuvor hier aufgeführten Fussnoten entfernt.
Beitragsbild: So lange sie nichts sagt, macht die Transkriptionssoftware auch keinen Fehler (Breakingpic, Pexels-Lizenz).