Sprachballast aus dem Verkehr ziehen

Descript.com führt bei Audio-Dateien und Videos eine Verschriftlichung durch. Ich habe die Software anfangs Jahr getestet. Mein Fazit damals: Die Qualität ist nicht überragend, aber beim Preis kann diese Lösung punkten.

Nun ist das Transkribieren nicht die einzige Funktion, die Descript zu bieten hat. Ich habe es damals als Schweizer Taschenmesser für Audio- und Videoproduzenten bezeichnet, und eine der Klingen, die sich bei diesem Universal-Werkzeug ausklappen lässt, ist ein Messer: Das erlaubt es uns, eine Audio-Aufnahme so zu schneiden, wie wir einen Text bearbeiten würden. Gedacht ist dieses Feature, um Füllwörter zu beseitigen. Die Funktion heisst Filler Word removal, und zielt auf die berühmt-berüchtigten «Ähs» und «Uhms» ab. Ein Testlauf zeigt aber, dass wir genauso gut unerwünschte Worte, Teilsätze oder Einschübe entfernen können, um eine Aussage zu straffen, prägnanter zu machen oder einfach zu verkürzen.

Markieren, löschen, fertig

Und tatsächlich: Es funktioniert. Zwar mit einigen Nebenwirkungen, auf die ich gleich zu sprechen kommen werde. Aber das Descript-Prinzip vereinfacht die Audio-Bearbeitung enorm: Statt dass wir in einem Programm wie Audacity mühsam die unerwünschten Passagen identifizieren, markieren und löschen, wählen wir im Text einfach ein Wort aus und drücken die Delete-Taste – und fertig.

Audio-Bearbeitung wie in Word: Die unerwünschten Passagen werden einfach gelöscht.

An dieser Stelle kann ich daher bereits ein Fazit abgeben: Wer häufig solche Bearbeitungen vornimmt, der sollte sich Descript unbedingt ansehen. Das Straffen einer Aufnahme ist eine zeitraubende und mühselige Arbeit, die mit diesem Werkzeug ihren Schrecken komplett verliert. Das ist den Preis (zwölf Dollar für zehn Stunden pro Monat oder 24 Dollar für 30 Stunden pro Monat) allemal wert – und mit dem kostenlosen Preisplan dürfen wir eine Stunde pro Monat bearbeiten.

Verheimlichen lassen sich die Eingriffe nicht

Die erwähnten Nebenwirkungen bestehen darin, dass die Einfachheit dieser Software dazu einlädt, die Aufnahmen viel zu stark zu bearbeiten. Im Resultat sind die Schnitte hörbar – ob deutlich oder nicht, hängt von den Umständen ab, aber verheimlichen lassen sich diese Eingriffe nicht. Denn meistens wird ein Äh nicht isoliert geäussert. Es geht oft nahtlos in die eigentliche Rede über, sodass die bearbeitete Aufnahme nicht mehr nahtlos wirkt. Descript macht seine Sache nicht schlecht, aber mein Eindruck ist, dass man beim manuellen Schnitt noch mehr herausholen könnte. Denn mit der Zeit eignet man sich Techniken an, um solche Schnittstellen zu kaschieren.

Bleibt die Frage: Muss oder soll man die «Ähs» herausschneiden und eine Aufnahme überhaupt bereinigen? Das hängt natürlich von den Umständen und den persönlichen Vorlieben ab. Als wir 2006 mit dem «Digitalk»-Podcast gestartet sind, habe ich intensiv Hand angelegt. Der Grund lag vor allem darin, dass ich die Zeitvorgabe einhalten wollte, wir bei unserer Gesprächsführung aber nie so streng waren, dass wir es schon bei der Aufnahme geschafft hätten. In der Bearbeitung liess sich dieses Versäumnis wenigstens teilweise wettmachen.

Weniger ist mehr

Heute mache ich es kaum mehr: Einerseits habe ich festgestellt, dass eine normale Anzahl von «Ähs» und Diskursmarkern¹ die Zuhörerinnen und Zuhörer nicht stören. Andererseits senden wir beim Nerdfunk fast immer live, was impliziert, dass die Aufzeichnung auch dem Endresultat entspricht. Ich entferne allerdings Pausen von über einer Sekunde, vor allem dann, wenn Gesprächsteilnehmer per Internet zugeschaltet sind und die Latenz der Verbindung für Verzögerungen sorgt. Und wenn ich in der Hüllkurve dabei ein prominentes Äh sehe, dann kann es sein, dass ich das auch noch eliminiere.

Darum mein Tipp: Descript ausprobieren, aber nicht überstrapazieren!

Fussnoten

1) Füllwörter, Verzögerungswörter und Diskussionsmarker – ein kleiner Exkurs:

Man könnte den Eindruck bekommen, dass die tatsächlich überflüssig sind und entfernt werden sollten: Hinterher wirkt ein Podcast oder auch ein Interview dichter und flüssiger. Und durch die Bearbeitung mindern wir die Gefahr, dass Zuhörerinnen und Zuhörer aus Ungeduld abschalten. Aber die Aufnahme verliert auch an Authentizität. Denn wie Wikipedia verrät, haben diese Füll- oder Verzögerungswörter eine «motorische und respiratorische Funktion».

Vor allem verschaffen sie uns Zeit, während wir nachdenken. Die allermeisten Leute fangen nach einer Frage schnell an zu reden und überbrücken die Zeit, die sie womöglich noch brauchen, um sich die Antwort zurechtzulegen, mit einer Phrase oder einem Wort («also», «natürlich», «quasi», «eigentlich», «tatsächlich», «was ich sagen will» …). Dazu habe ich auch den Begriff des Diskursmarker gelesen, und mir scheint, die Grenzen zu den relativierenden Formulierungen sind fliessend. Die wiederum sind dazu da, Aussagen abzumildern, damit sie sich freundlicher und weniger absolut anhören. Bei SRF habe ich den Begriff der Abtönungspartikeln gelesen: «doch», «ja», etc. Und im Schweizerdeutschen gibt es eigene Varianten: «ächt», «dänk»,«nämmli» und «wüki» sind nur einige, die ich selbst gerne brauche.

Wer Audio schneidet, dem fällt das mit der Zeit unweigerlich auf: Manche Leute brauchen gewisse Wörter andauernd. Nur wenige Sprecherinnen und Sprechern schaffen es, vollständig auf Verzögerungstaktiken zu verzichten und sich wie gedruckt zu artikulieren. Das sind entweder schnelle Denkerinnen, geschulte Redner oder kontrollierte Personen. Das ist einerseits bewundernswert. Es kann aber auch unnahbar wirken – wie abgelesen oder auswendig gelernt. Darum hat André Perler von SRF wohl recht, wenn er «Mehr Liebe für Abtönungspartikeln!» fordert: «Die Abtönungspartikeln sorgen dafür, dass wir unsere Gefühle und Einstellungen subtil ausdrücken können – eine Leistung, die Anerkennung verdient hat.» ↩

Beitragsbild: Tut uns leid, mit diesem Lack kommen sie bei der Podcastpolizei nicht durch die Fahrzeugprüfung (Pete Alexopoulos, Unsplash-Lizenz).