Youtube als Freund und Helfer für uns Interviewer

Neulich hat mich mal wieder ein Kollege gefragt, ob es nicht die Möglichkeit gebe, Interviews per Spracherkennung zu behandeln. Das Anliegen ist nahe liegend: Denn selbst mit technischen Hilfsmitteln wie der hier besprochenen Software ist die Transkription eines Interviews von einer halben oder einer ganzen Stunde eine mühselige Angelegenheit. Wie schön wäre es, die Aufnahme in ein Programm einzuspeisen und nach ein paar Sekunden die Abschrift entgegenzunehmen…?


Weil Richard Stallman gut verständliches Englisch spricht, sind die automatischen Untertitel von Youtube bei diesem Video hier einigermassen brauchbar.

Die Patentlösung dafür habe ich bislang nicht. Die typischen Spracherkennungsprogramme und -Apps, z.B. Dragon Dictation, sind darauf ausgelegt, dass man in sie hineinspricht. Mit Aufnahmen füttern kann man sie meist nicht. Da mir keine aktuelle Version der gängigen PC-Programme vorliegt (Dragon NaturallySpeaking, etc.), kann ich das nicht abschliessend beurteilen, aber meiner Erfahrung nach sind die Programme für andere Anwendungsfälle gestrickt: Steuerung des PCs mittels Sprache und Diktieren von Protokollen und ähnlichen Dingen. Mediziner können beispielsweise ihre Rapporte diktieren, weil sie die formelhaften Redewendungen und Fachbegriffe benutzen, die man der Software explizit beigebracht hat. Es gibt von Nuance eine Software zur Transkription, nämlich Dragon Professional Individual. Die schlägt aber mit 300 Dollar bzw. mit 399 Euro zu Buche, was ich für diesen Blogpost nicht aufwerfen wollte. Ausserdem hat mich abgeschreckt, dass die «Lösung für Journalisten» von Nuance Interviews zwar erwähnt, die eigene Software für diesen Zweck aber nicht empfiehlt. Das kann man eigentlich nur auf eine Weise interpretieren.

Allgemein kann man feststellen: Spracherkennungsprogramme sind brauchbar, wenn es um relativ einfache Sachverhalte geht. Siri gibt davon eine Ahnung. Interviews hingegen können inhaltlich komplex und formal schwierig sein: Interviewer und befragte Person sprechen Mundart oder seltsame Dialekte, formulieren selten druckreif, fallen einander ins Wort und benutzen Fachvokabular, das die Software nicht kennt, sowie exotische Fremdwörter und Eigennamen. Und wenn man nicht fürs Radio oder Fernsehen aufnimmt bzw. Gespräche per Telefon führt, ist auch die Tonqualität selten prickelnd. Eine Software stösst unter diesen Umständen schnell an ihre Grenzen – besonders, wenn sie für einen anderen Zweck entwickelt wurde.

Darum ist es leider so, dass man ums Abtippen nicht herumkommt, so lange niemand explizit eine Software für Interviews entwickelt. Entwicklungen in diese Richtung gibt es. Die BBC will beispielsweise ihr Radioarchiv automatisch verschlagworten, was auch eine leistungsfähige Spracherkennung, plus eine Erkennung von Sprechern erfordert. Auch an der Speaker Identification arbeitet die BBC, und für die Transkription von Interviews wäre das ebenfalls sinnvoll, weil man im Transkript sonst doch wieder manuell Fragen und Antworten trennen muss.

160314-youtube-untertitel.jpg
Der Editor von Youtube, in dem man die automatischen Untertitel nachbearbeiten und korrigieren kann.

Eine Möglichkeit kann ich inzwischen aber unter vielen Vorbehalten empfehlen: Die automatische Untertitelung von Youtube. Die ist unter idealen Umständen nicht komplett unbrauchbar. Für die eigenen Videos kann man die von Youtube automatisch generierten Untertitel in Textform einsehen und in mehreren Formaten herunterladen. Dazu loggt man sich in sein Konto ein, klickt auf Videomanager und im Bearbeiten-Menü auf Untertitel. Unter Veröffentlicht finden sich auch die automatisch erstellten Untertitel, die man anklicken und via Aktionen in den drei Formaten vtt, srt und sbv herunterladen kann.

Die SRT-Datei präsentiert sich wie folgt:

1
00:00:00,000 --> 00:00:05,170
I'm sitting here with Richard Stallman
thirty years ago you founded the Free

2
00:00:05,170 --> 00:00:13,330
Software Foundation how did you become
aware that it is such an initiative is

3
00:00:13,330 --> 00:00:20,029
necessary that it is necessary for
software to become free I was using free

4
00:00:20,029 --> 00:00:24,710
software in the nineteen seventies I was
part of his software sharing community

5
00:00:24,710 --> 00:00:31,640
at that was centered you might say at
the MIT artificial intelligence lab and

6
00:00:31,640 --> 00:00:38,610
other neighboring labs at MIT but also
included people at other universities

7
00:00:38,610 --> 00:00:46,820
including Stanford for instance all the
software we used was great the operating

8
00:00:46,820 --> 00:00:52,309
system we use the incomparable
time-sharing system where IDs was

Drängt sich die Frage auf: Kann man solche Dateien in normalen Fliesstext umwandeln? Dazu verwendet man entweder ein Programm wie Notepad++ (Das Textmonster) und ein Script mit simplen Regex-Ersetzungen oder einen Editor für Untertitel, der auch als plain text exportiert, zum Beispiel Subtitle Edit. Um die manuelle Bearbeitung zur Festlegung von Satzgrenzen und Sprechern kommt man aber leider nicht herum.

Trotzdem: Unter idealen Umständen – wenn man eine gute Aufnahme in einer Sprache wie Englisch besitzt, die man vielleicht sowieso bei Youtube veröffentlichen möchte – erspart einem die Youtube-Untertitelung ein bisschen monotone Abtipperei. Für Schweizerdeutsch sieht es bislang zappenduster aus. Es gibt zwar Entwicklungen in die Richtung. Doch bis die in einer brauchbaren Transkriptionssoftware vorliegen, dürfte es noch dauern.

Autor: Matthias

Diese Website gibt es seit 1999. Gebloggt wird hier seit 2007.

Kommentar verfassen