Whisper transkribiert alles – bloss mein Hörbuch nicht

Vorgestern habe ich eine (vielleicht) interessante Beobachtung gemacht. In der aktuellen Folge unserer Radiosendung «Nerdfunk» habe ich zwei Ausschnitte aus einem Hörbuch von Audible eingespielt. Ich hatte nämlich ein englisches Hörbuch entdeckt, in dem unsere Homebase Winterthur zweimal erwähnt wird – obendrein mit einer lustigen Aussprache: Perfekt für kurze, lokalpatriotische Anekdote in der Sendung.

Beim Veröffentlichen des Podcasts ist mir etwas Interessantes aufgefallen: Im Transkript der Sendung, das wir seit einem Jahr erstellen lassen, fehlten die beiden Passagen komplett. Sie wurden gänzlich ausgelassen.

Warum? Dass die Software die Ausschnitte nicht verstanden hat, können wir ausschliessen. Zum Einsatz kommt Whisper, die Spracherkennung von Open AI. Die zeichnet sich dadurch aus, dass sie vor nichts Halt macht: Sie lässt sich von einem Sprachmix aus Englisch, Schweizerdeutsch und anderen Idiomen nicht aus der Ruhe bringen und transkribiert sogar die Jingles. Eine perfekte Artikulation, wie sie der professionelle Sprecher in Englisch abliefert, sollte ein einwandfreies Resultat garantieren.

Die Moderation – auch die englische Phrase – wurde perfekt verschriftlicht, aber die Hörbuch-Ausschnitte fehlen.

Steckt Absicht dahinter?

Die Vermutung liegt auf der Hand, dass Whisper die Hörbuchpassagen absichtlich nicht transkribiert hat. Das wiederum wirft die Frage auf, ob das Hörbuch mit einem akustischen Wasserzeichen ausgestattet ist. Diese Technik gibt es schon länger, und sie wird von Wikipedia wie folgt beschrieben:

Ein Audio-Wasserzeichen ist eine eindeutige elektronische Kennung, die in ein Tonsignal eingebettet ist und dazu dient, die Inhaberschaft von Urheberrechten zu identifizieren. Es ist vergleichbar mit einem Wasserzeichen auf einem Foto. Beim digitalen Wasserzeichen werden Informationen so in ein Signal (z. B. Audio, Video oder Bilder) eingebettet, dass sie nur schwer zu entfernen sind. Wenn das Signal kopiert wird, werden die Informationen auch in der Kopie übertragen. Wasserzeichen werden immer wichtiger, um den Urheberrechtsschutz und die Überprüfung der Eigentumsverhältnisse zu ermöglichen.

Randbemerkung: Diese Wasserzeichen sollten unhörbar sein, aber sie beeinflussen den Ton natürlich trotzdem. Hier hat Matt, ein Softwareentwickler bei Youtube, die Markierung hörbar gemacht, indem er bei einem Tonbeispiel die Differenz zwischen Original und gekennzeichneter Version gezogen hat.

Die Audio-Wasserzeichen-Verschwörungstheorie

Verwendet Audible solche Wasserzeichen oder akustische Fingerabdrücke? Diese Frage wurde vor einiger Zeit auf Reddit und schon früher auf Github diskutiert, bedauerlicherweise ohne schlüssiges Ergebnis. Hier wird das Thema von einem Amazon-Mitarbeiter diskutiert. Er arbeitet zwar für die Alexa-Abteilung, aber vielleicht hatten die Kollegen bei Audible den Wunsch, von seinem Wissen zu profitieren.

Lässt sich so ein Wasserzeichen erkennen? Ich habe es mit sourceaudiodetect.com probiert, aber dieser Detektor hat sich meiner Datei verweigert. Falls eine ähnliche Analysemöglichkeit kennt, freue ich mich über einen Tipp. Und wenn es meine Zeit hergibt, werde ich mein Whisper-Experiment mit ein paar anderen Hörbuch-Ausschnitten wiederholen.

Wenns so wäre, wäre es unsinnig

Es bleibt die Frage nach der Moral der Geschichte hier. Falls es tatsächlich so sein sollte, wie vermutet, fände ich das bemerkenswert: Noch bevor die Welt überhaupt verstanden hat, wie sie all diese neuen, künstlich intelligenten Werkzeuge vernünftig einsetzt, sind die grossen Konzerne schon dabei, ihre Pfründe zu sichern – dass ja keiner auf die Idee kommt, sein Hörbuch mittels Spracherkennung in einen Text umzuwandeln.

Ob eine in vorauseilendem Gehorsam implementierte Transkriptionssperre Sinn ergibt, ist in diesem Kontext völlig nebensächlich. Hauptsache, die Nutzerinnen und Nutzer können nur das mit ihren Inhalten tun, was ihnen ein so mächtiger Konzern wie Amazon gütigerweise gestattet.

Und natürlich wäre eine solche Transkriptionssperre völlig sinnlos: Denn wenn ich das Buch in Textform bräuchte, würde ich mich auf den einschlägigen Plattformen umsehen und mir garantiert nicht die Mühe machen, ein zwölf Stunden langes Hörbuch durch Whisper durchzujagen.

Fazit: Wir haben es hier (vielleicht) mit einer ähnlich abstrusen Gängelungs-Massnahme zu tun wie der Netflix-Screenshot-Blockade von 2016.

Beitragsbild: Der Roboter übt das aktive Nicht-Zuhören (Microsoft Image Creator).