Was taugen die Transkriptionen von Descript.com?

Descript.com ist eine Art Schweizer Taschen­messer für Audio- und Video­produ­zenten. U.a. gibt es die Möglich­keit, auto­mati­sche Text­ab­schrif­ten anferti­gen zu lassen: Ich habe die Trans­krip­tion getestet und mit dem Platz­hirsch (Trint.com) ver­glichen.

Descript.com ist eine Software-Plattform, die Werkzeuge für die Produktion von Podcasts und Videos bereithält. Es gibt einen bunten Strauss von Hilfsmitteln, die einem die manuelle Bearbeitung erleichtern sollen: Die Transkription für Untertitel gehört dazu; genauso wie die Entfernung von Füllwörtern: Das sind die berüchtigten «Ähs» in der gesprochenen Rede, genauso wie die eingestreuten «Also», «quasi», «natürlich» und «tatsächlich».

Es gibt auch das Modul «Overdub», mit dessen Hilfe wir eine Kommentar-Spur für ein Video oder eine Audio-Produktion herstellen. Dazu kann man ein «Text-to-Speech-Modell» der eigenen Stimme herstellen oder eine der, Zitat, «ultra-realistischen Standardstimmen» auswählen. Hinterher braucht man seine Texte dann nicht mehr selbst einzusprechen, sondern lässt sie anhand eines Manuskripts von der Software generieren.

Das ist eine lustige Sache, die ich aber niemals anwenden würde (abgesehen davon, dass sie erst für Englisch funktioniert): Die Texte selbst einzusprechen, ist ein Spass, den man sich nicht nehmen lassen sollte. Ausserdem ist er zentral für die Authentizität. Denn die künstlich generierte Tonspur ist mutmasslich so perfekt, dass sie seelenlos und unnahbar wirkt.

Wie gut ist die Interview-Verschriftlichung von Descript?

Ich werde mir die eine oder andere Funktion von Descript ansehen, aber als erstes wollte ich wissen, wie gut die Transkription funktioniert: Das ist die automatische Verschriftlichung ab einer Audiodatei. Die hilft bei der Produktion, um bestimmte Stellen im Material schnell aufzufinden. Und sie ist natürlich auch eine grosse Unterstützung, wenn es darum geht, Untertitel zu erstellen oder eine schriftliche Variante eines Interviews anzufertigen.

Descript wartet mit einem komfortablen Editor auf – aber mit den Bots, um die es hier geht, hat die Software ihre liebe Mühe.

Für diesen Zweck habe ich mir drei Aufnahmen verschriftlichen lassen:

1) Englisch, vor Ort

Ein Interview in Englisch, das ich mit Richard Stallman geführt und mit meinem Audiorecorder aufgezeichnet habe¹. Diese Aufnahme hat eine Besonderheit, indem es zwei unterschiedliche Sprecher gibt: Stallman verwendet einwandfreies amerikanisches Englisch, doch das gleiche kann man von mir nicht behaupten: Ich bin in der Aufnahme mit Schweizer Akzent zu hören und formuliere auch nicht gerade flüssig, sondern muss immer mal wieder nach Worten suchen.

Das hinterlässt Spuren in der Transkription: Die Verschriftlichung meiner Aussagen ist ohne Nachbearbeitung nicht brauchbar. Anders sieht es bei dem aus, was Stallman sagt: Bei seinen Passagen gibt es Details zu korrigieren, aber die Rohfassung ist inhaltlich verständlich und ausreichend, dass sich damit arbeiten lässt.

Zum Vergleich habe ich die gleiche Aufnahme auch mit Trint verschriftlicht (Trint.com, der hervorragende Interview-Verschriftlicher). Diese Software führt auch eine Erkennung der Sprecher durch, die bei dieser Aufnahme allerdings nicht sonderlich funktioniert hat. Abgesehen davon ist diese Verschriftlichung bis auf das Spezialvokabular bei Richard Stallman tadellos.

Generell ist Trint nicht nur besser bei der Erkennung, sondern portioniert das Protokoll (meistens) auch sinnvoller in Abschnitte, als das bei Descript der Fall ist, wo diese Einteilung einen willkürlichen Eindruck macht.

2) Hochdeutsch, am Telefon

Trint liefert oft gute Resultate, doch beim Interview über eine knisternde Telefonleitung gerät auch diese Software an den Anschlag.

Die zweite Aufnahme ist ein Interview, das ich in Hochdeutsch per Telefon geführt und über die Telefonanlage meines Arbeitgebers aufgezeichnet habe². Das hat zur Folge, dass die Aufnahmequalität alles andere als Hifi ist – sondern dumpf und verrauscht, wie es bei den bescheidenen Datenübertragungsraten und bei dem nicht professionellen Equipment nicht anders zu erwarten ist.

Dieses Beispiel belegt die alte Vermutung, dass die Qualität der Audio-Aufnahme und die der Verschriftlichung Hand in Hand gehen: Sowohl Descript als auch Trint liefern Resultate, die ohne intensive Nachbearbeitung annähernd unverständlich sind («Der Begriff Gott kommt von Roboter» – hä?).

3) Schweizerdeutsch und Hochdeutsch gemischt, vor Ort

Das dritte Beispiel ist in guter Audioqualität aufgezeichnet und enthält Passagen in Hochdeutsch und in Schweizerdeutsch³. Es ist ein Gespräch, dass ich mit meinem Kollegen Mathias Möller zum Thema der sozialen Medien geführt habe.

Die Verschriftlichung meiner zürichdeutschen Worte ist unbrauchbar, was beweist, dass weder Trint noch Descript etwas mit den hiesigen Dialekten anfangen können. Die hochdeutschen Sätze von Kollege Möller hingegen sind bis auf einige Ausrutscher zum Beispiel bei der traditionsreichen Biermarke Feldschlösschen ordentlich transkribiert.

Es gibt einen klaren Sieger

Aber auch da gilt, dass sich Descript gegenüber von Trint geschlagen geben muss – die Qualitätsunterschiede sind so gross, dass das Verdikt eindeutig zugunsten von Trint ausfällt.

Wenn man sich fragt, ob sich der Einsatz einer solchen Software lohnt, dann hängt das davon ab, was der Zweck der Transkripte ist: Wenn es darum geht, in einer grösseren Menge von Audio- oder Videomaterial bestimmte Stellen schnell aufzufinden, dann können sie eine Hilfe sein. Wenn die Absicht besteht, saubere Untertitel bereitzustellen oder ein Interview in schriftlicher Form zu veröffentlichen, dann bringen sie nichts – dann kommen wir mit einer manuellen Niederschrift schneller und besser ans Ziel.

Die Nummer zwei ist günstiger und komfortabler

Beim Preis gewinnt indes Descript mit Abstand: Während Trint ab 48 US-Dollar pro Monat nutzbar ist, gibt es bei Descript einen kostenlosen Starter-Plan für eine Stunde Audio-Bearbeitung pro Monat; für mehr Kapazität und die Premium-Funktionen gibt es den Creator-Plan für zwölf und den Pro-Plan für 24 US-Dollar pro Monat.

Komfortabler finde ich im Vergleich auch die Nutzung: Während man Trint im Browser verwendet, gibt es für Descript eine lokale Anwendung, was für eine intensive Arbeit mit dem Text meine Erachtens die komfortablere Methoder darstellt.

Fussnoten

1)

Beispiel 1, manuelle Verschriftlichung

Matthias: You know, I talked with Matthias Kirschner, [I guess that’s the name, ] from Free Software Foundation Europe.
Stallman: Yeah.
Matthias: For the radio show, I was telling you about. And then, I played your free software song on the show.
Stallman: Yeah.
Matthias: There are lots of interpretations from lots of Bands.
Stallman: Yes, yes. And that’s an example of a filk song.
Matthias: Yeah.
Stallman: Have you heard the term “filk song”?
Matthias: Filk? No.
Stallman: F. I. L. K.
If you look up filk songs, if you search for it, you’ll find lots of amusing songs and some that are not amusing. But in any case, I… I was at a science fiction convention. I was at a filk singing meeting, which was operating by what they call Bardic circle, which means they go around the room and each person has a chance to either sing or request that someone else sing something. And I had just sung something, and there were at least 20 people in the room. So I knew that would be a long time before I had another chance. I decided to write a song. But since I was not starting from an inspiration, I had to come up with a topic. I thought, why not write about free software?
Matthias: That’s how it and came to be.
Stallman: Right. I’d never written anything about that. And then, since I had no inspiration, I had to come up with a tune.
Matthias: Yeah.
Stallman: And I thought, why not use a book and dance to it? Which one? Well, Sadi Moma suggested itself because it’s very beautiful and not too fast.

Descript

Yeah. Have you heard the term Phil Song? Phil? Yes. F I l K. No. If you look up Phil songs, if you search for it, you’ll find lots of amusing songs. Mm-hmm. and some that are not amusing . Yeah. But in any case, I was at a science fiction convention. Mm-hmm. . I was at Afil singing meeting, which was operating, uh, by what they call Bardic Circle, which means they go around the room and each person has a chance to either sing or request that someone else sings something

And I had just sung something and there were at least 20 people in the room, so I knew that would be a long time before I had another chance, I decided to write a song, but since I was not starting from an inspiration, I had to. come up with a topic. Mm-hmm. , I thought, why not write about free software? Ah, that’s how it came to be.

Right. I’d never written anything about that, and then since I had no inspiration, I had to come up with a tune. Yeah. I thought, why not use a Balkan dance to me? Which one? Well, Sadi Mo Ma suggested itself because it’s very beautiful and not too fast. Mm-hmm. .

Trint

Speaker 1: You know, I.
Speaker 2: Talked with Matthias Kirschner, I guess the name from Free Software Foundation.
Speaker 1: Europe.
Speaker 2: Yeah, for the radio show. I was, uh, uh, telling you about antenna plate. Your free software is on and on and on in the show.
Speaker 1: Yeah, there.
Speaker 2: Are lots of interpretations from lots.
Speaker 1: Of. Yes. Yes. And that’s an example of a filk song. Yeah. Have you heard the term folk song? Filk? Yes and no, I. Okay. No. If you look up filk songs, if you search for it, you’ll find lots of amusing songs and some that are not amusing. But in any case, I. I was at a science fiction convention. Mm hmm. I was at a silk singing meeting, which was operating by what they call Bardic circle, which means they go around the room and each person has a chance to either sing or request that someone else sing something. And I had just sung something, and there were at least 20 people in the room. So I knew that would be a long time before I had another chance. I decided to write a song. But since I was not starting from an inspiration, I had to come up with a topic. Mm hmm. I thought, why not write about free software? That’s how it and came to be. Right. I’d never written anything about that. And then, since I had no inspiration, I had to come up with a tune. Yeah. And I thought, why not use a book and dance to it? Which one? Well, Shadi, Mama suggested itself because it’s very beautiful and not too fast. Mm hmm.

2)

Beispiel zwei, manuelle Verschriftlichung

Matthias: Ich starte mal ganz profan mit der Frage: Was ist ein Bot?
Hegelich: Ja, was ist ein Bot? So profan ist die Frage gar nicht. Der Begriff Bot kommt von Robot, Roboter. Und eigentlich sind damit schon zwei unterschiedliche Sachen gemeint: Der klassische Begriff eines Bots – es gab auch früher schon so etwas wie Bot-Netze – und damit war eigentlich gemeint, dass Computer durch Schadsoftware selbständig agieren. Das heisst, wir hatten Viren, die sich verbreitet haben und auf Ihrem Rechner und meinem Rechner und sonstwo, die Rechner angefangen haben, autonom zu agieren und vielleicht Spam versandt haben, ohne dass Sie es überhaupt mitgekriegt haben. Daher kommt eigentlich dieser Begriff der Bot-Netze.
Jetzt gibt es aber durch Social Media einen Bezug dazu, wo auf der einen Seite die Social Bots; insgesamt alle Programme auf Social Media, die autonom agieren, werden als Bots bezeichnet. Und da gibt es dann nochmal die Unterscheidung zwischen Bots, die sich auch als zu erkennen geben – das ist das, worüber Facebook jetzt redet, wenn sie das Zeitalter der Bots ausrufen. Und solche, die so tun, als wären sie echte Menschen. Und das wären dann Social Bots.
Matthias: Begegnen wir diesen Bots heute schon?
Simon Hegelich: Ja, Siri ist ein Bot. Oder auch, wenn ich an meinem Android-Phone «Ok Google» sage, dann ist dahinter ein Bot, in dem Sinne, dass ich autonom agierende Software habe, mit der ich dann kommunizieren kann.

Descript

Ich darf mal ganz verfahren mit der Frage Was ist ein Wort? Ja, was ist ein Gott? Für profan ist die Frage also, dass das der Begriff Gott kommt von Roboter. Und eigentlich sind damit schon zwei unterschiedliche Sachen gemeint, nämlich der klassische Begriff eines Sports. früher schon so was wie Gott Netze.

Damit war eigentlich gemeint, dass Computer durch Schadsoftware selbstständig agieren, also das heißt, wir hatten Viren, die sich verbreitet haben und dann auf ihrem Rechner und meinen Rechner und sonst wo plötzlich die rechnen, autonom angefangen haben zu agieren und vielleicht im Versand haben, ohne dass wir das Wort mitgekriegt haben, dass das waren eigentlich diese.

Daher kommt der Begriff dieser Bordnetz jetzt gibt dann aber eben durch solche Media einen Bezug dazu, wo eben auf der einen Seite die so genannten Soße Post oder mehr vielleicht erstmal so interessant alle alle Programme auf solche wie dir, die irgendwie autonom agieren werden als Post bezeichnet.

Und da gibt es dann noch mal die Unterscheidung zwischen Post, die sich auch als Post zu erkennen geben das ist das, worüber Facebook jetzt zum Beispiel redet Wenn die das Zeitalter der Boss aus Rosen und solche, die so tun, als wären die echte Menschen und das wären dann Soße passt, begegnen wir diesem kurz heute schon.

ja, und zwar zum Beispiel Siri ist ein Bord, oder auch wenn ich an meinem Intuitionen ok Google sage, dann ist er da hinter einem Gott in dem Sinne, dass ich halt autonomen agierende Software habe, mit der ich dann kommunizieren kann.

Trint

Speaker 1: Ich starte mal ganz profan mit der Frage Was ist ein Wort? Ja, was ist ein Boot? Wann ist die Frage Ist also das das? Der Begriff Boot kommt vom Roboter Robert. Und eigentlich sind damit schon zwei unterschiedliche Sachen gemeint, nämlich der klassische Begriff eines Bootes. Es gab auch früher schon so was wie Botnetze. Damit war eigentlich gemeint, dass Computer durch Schadsoftware selbstständig agieren. Also das heißt, wir hatten Viren, die sich verbreitet haben und dann auf ihrem Rechner und meinem Rechner und sonstwo plötzlich die Rechner autonom angefangen haben zu agieren und vielleicht beim Versand haben, ohne dass wir das überhaupt mitgekriegt haben. Genau das. Das waren eigentlich diese. Daher kommt eigentlich der Begriff dieser Botnetze. Jetzt gibt es dann aber eben durch Social Media einen neuen Bezug dazu, wo eben auf der einen Seite die sogenannten Social Bots oder vielleicht erst mal so insgesamt alle alle Programme auf Social Media, die irgendwie autonom agieren, werden als Bots bezeichnet. Und da gibt es dann noch mal die Unterscheidung zwischen Bots, die sich auch als Bots zu erkennen geben. Das ist das, worüber Facebook jetzt zum Beispiel redet, wenn die das Zeitalter der Bots ausrufen und solche, die so tun, als wären sie echte Menschen. Und das wären dann Social Bots. Begegnen wir diesen Bots heute schon? Ja, und zwar zum Beispiel Siri ist ein Bot, oder? Auch wenn ich an meine Intuition okay Google sage, dann ist ja dahinter ein Bot in dem Sinne, dass ich halt autonom agierende Software habe, mit der ich dann kommunizieren kann.

3)

Beispiel 3, manuelle Transkription

Matthias: Welli nutzisch dänn, welli Plattfome, meh oder weniger aktiv im Momänt, weisch das?
Möller: Ja, also ich glaube, ich bin am aktivsten noch auf Instagram. Da haben ja wir vor einem Jahr oder so die Klingen gekreuzt, weil wir unterschiedlicher Meinung waren in punkto Instagram. Da hat sich allerdings bei mir in den letzten Monaten so n bisschen das verändert, dassi ch mehr passiv konsumiere, als dass ich wirklich aktiv bin. Und sonst… Ich nutze Linkedin nicht mit Begeisterung, aber aus so einer Job-Notwendigkeit her. Und bei Twitter ist es für mich so ein bisschen ein Auf und Ab. Da kommt es sehr auf die Tagesform an, aber da bin ich früher sehr viel aktiver gewesen.
Matthias: Genau, de Instagram-Krach… Krach isch es bitzeli vill gseit; aber mir sind eifach underschiedlicher Meinig gsi. Ich ha scho do gfunde, s hät sich verschobe, s Glichgwicht vo Kommunikation uf Augehööchi hii zu Influecer versus «Du bisch halt de Chlini wo auch cha en Post poschte». Und dänn isch es es super Foti, wie ich finde, aber dänn chunnsch drü Herzli über – oder vier villicht, wänns würklich sensationell isch. Und drum han ich det chli de Spass verlore. Ich ha au na gschnäll gluegt, wie vill das sind. Und ich bi uf 10 cho, wo ich meh oder weniger aktiv nutze im Momänt. Wobii me gseht scho au welli werded sterbe von dene. Twitter, Facebook; ich glaube, am meischte Twitter, und dänn Facebook. Linkedin au so es bitzeli. Und dänn Untapped, das Bier-Social-Network.
Möller: Da bin ich auch sehr aktiv, das ist richtig. Aber das ist ja nicht so sehr zum Interagieren. Das ist für mich mehr zum Selber-Dokumentieren: Wie schlecht war das Feldschlösschen jetzt wirklich?

Descript

Valley nutzt sich dann welche Platt wurden wir jetzt mehr oder weniger aktiv im Moment weißt ja, also, ich glaube, ich bin am aktivsten noch auf Instagram, da haben wir vor. einem Jahr oder so glaube ich auch schon mal die die klingen gekreuzt, weil wir unterschiedlicher Meinung waren in punkto Instagram.

Da hat sich allerdings bei mir in den letzten Monaten so ein bisschen das verändert, dass ich tatsächlich mehr passiv konsumieren als wirklich und sonst Ich nutze Link in nicht mit Begeisterung, aber so aus Toulouse Job Notwendigkeit her. Und bei Twitter ist es für mich so ein bisschen auf und ab, da kommt es sehr auf die Tagesform Rahmen, aber ich bin da früher sehr viel aktiver.

Genau. Der Instagram Krach vom Erkrankt seid aber mehr an Sinn, einfach unterschiedliche Meinig Sie ihre so dok wunder, es hat sich so verschoben, es kriegt nicht auf hoch so quasi. Kommunikation auf Auge höri zu über influence versus du bist hauptsächlich Linie, wo wo aber irgendwie rasch mindesten post poste und dann ist es so bevor die wenn ich finde aber doch uns trüge herzlich über das oder vier philipp war der ball wirklich sensationelles und drum mache ich das was verloren ist einfach saugut, wer viel, dass das sind.

Ich habe Sara Ich bin Zahlungen, ich nutze mehr oder weniger auch die vielen Moment probieren gesehen, dann schau valley, das wertet Sterbe wieder von Deiner außer Twitter Facebook, ich glaube am Meister Twitter und Facebook Link die Nase Blitzlicht. an Tag, dass wir so schon da bin ich auch sehr richtig, aber das ist mehr, das ist ja nicht so sehr zum Interagieren, sondern das für mich zumindest mehr Sitzungen selber dokumentieren sind.

Wie schlecht war das Feld?

Trint

Speaker 1: Belügt sich dann, weil die Plattformen jetzt mehr oder weniger aktiv im Moment ist.
Speaker 2: Ja, ich glaube, ich bin am aktivsten noch auf Instagram. Da haben wir ja vor einem Jahr oder so glaube ich auch schon mal die die Klingen gekreuzt, weil wir unterschiedlicher Meinung waren in punkto Instagram. Da hat sich allerdings bei mir in den letzten Monaten so ein bisschen das verändert, dass ich tatsächlich mehr passiv konsumiere als wirklich ein Blog. Und sonst? Ich nutze LinkedIn nicht mit Begeisterung, aber so aus so einer Job Notwendigkeit her. Und bei Twitter ist es für mich so ein bisschen auf und ab. Da kommt es sehr auf die Tagesform an, aber ich bin da früher sehr viel aktiver gewesen.
Speaker 1: Genau der Instagram Krach wo noch viel Zeit, aber wir sind einfach unterschiedlicher Meinung. Sie Ich wohnte es hat sich so verschob es Gleichgewicht auf. So quasi Kommunikation auf Augenhöhe. Hey, zu Influencer versus Du bist hauptsächlich Niveau, wo ich diesen Post poste und dann ist es so, die wir nicht sind, aber durch und drüber herzlich oder ihr beide wirklich sensationell ist. Und darum habe ich trotz des Spaß verloren. Ich Wer fehlt das? Das Sehen. Ich sah, ich bin auf Zack und ich nutze mehr oder weniger auch die Mixed Zone, weil das wertet deine aus Twitter Facebook ist aber Twitter oder Facebook Link die Nase. Bislang handhabt das das bessere Social.
Speaker 2: Da bin ich auch sehr nett. Richtig. Aber das ist mehr Das ist ja nicht so sehr zum Interagieren, sondern das für mich zumindest mehr zum selber dokumentieren. Stimmt. Wie, wie schlecht war das Fälschen?

Beitragsbild: So lange sie nichts sagt, macht die Transkriptionssoftware auch keinen Fehler (Breakingpic, Pexels-Lizenz).

Kommentar verfassen