Adobe hält nebst vielen Grafik- und Videowerkzeugen auch Software für Podcaster bereit. Es gibt eine Aufnahmefunktion, die direkt über den Browser genutzt wird. Und mittels Sprache verbessern soll eine untaugliche Audioaufnahme in eine verwandelt werden, die dem Publikum zugemutet werden darf.

Funktioniert das? Ich mache die Probe aufs Exempel mit einer Aufnahme, die ich für einen Artikel zum Ende von UKW mit der prominentesten Schweizer Stimme zu diesem Thema geführt habe. Da ich keine Zeit hatte, für eine günstige Interviewsituation zu sorgen und die tolle Aufnahmefunktion am iPhone leider noch nicht verfügbar war, kam die plumpste aller Methoden zum Einsatz – die, wie ich aus erster Hand weiss, von Journalistinnen und Journalisten noch häufig gepflegt wird: Handy auf Lautsprecher schalten, neben den Laptop legen und am Computer die Aufnahme starten.
Auch ohne Bezahl-Abo nutzbar
Die Sprachverbesserungsfunktion lässt sich kostenlos testen. Kunden ohne Abo können nur Audio- und keine Videodateien verarbeiten, und das Limit liegt bei dreissig Minuten bzw. 500 MB und insgesamt einer Stunde pro Tag. Das ist für viele Projekte völlig ausreichend. Aber wie oft bei neuen Produkten wird es nach einer Einführungsphase vermutlich auch bei Adobe teurer werden.
Nun wollt ihr aber wissen, was vom Resultat zu halten ist: Mein erster Eindruck ist positive Überraschung: Die bereinigte Aufnahme bietet keine Studioqualität, aber eine markante Verbesserung gegenüber dem Original. Meine Stimme wäre einem Podcast-Publikum zuzumuten.
Das wird nicht allen gefallen
Anders sieht es beim Gesprächspartner aus, dessen Stimme aus dem Telefon-Lautsprecher kam. Dieses Manko kann die Software nicht vollständig aus der Welt schaffen. Zwar holt sie etwas heraus, aber ohne die Artefakte der Übertragung komplett aus der Welt zu schaffen. Und in einigen Passagen klingt es so, als ob der Gesprächspartner stark lispeln würde. Das hat damit zu tun, wie die S- und Zischlaute rekonstruiert werden, die bei der Bearbeitung notorisch heikel sind. Das ist problematisch, denn nicht jedermann und jederfrau wird goutieren, wenn wir ihm oder ihr per KI einen Sprachfehler andichten.
Fazit: Es bleibt dabei – besser als Mängel wegzurechnen ist, von Anfang an auf Qualität zu setzen. Wenn ich an dieser Stelle philosophisch werden darf: Qualitätsmängel bestehen im Multimedia-Umfeld darin, dass nicht so viele Details vorhanden sind, wie wir es gern hätten. Bei einem Bild führt Unschärfe oder Verwackelung zu einer Verfälschung. Bei einer Audioaufnahme überlagern Umgebungsgeräusche das Signal, an dem wir interessiert sind, oder es wird durch die Übertragung oder schlechtes Equipment verzerrt.
KI-Korrekturen unbedingt deklarieren!
Diese fehlenden Informationen lassen sich nicht rekonstruieren, sondern nur «erfinden». Je nach Situation gibt es so viele Anhaltspunkte, dass das fiktive Endprodukt überzeugend ist. Dennoch entspricht es eben nicht dem Datensatz, den wir unter idealen Bedingungen erhalten hätten.
Ich bin nicht a priori gegen den Einsatz solcher Werkzeuge. Aber wir dürfen ihren Output nicht als «Wahrheit» betrachten, sondern als Extrapolation. Und auf alle Fälle sollten wir den Einsatz solcher Werkzeuge transparent machen.
In manchen Ländern existiert eine Deklarationspflicht für Photoshop-Bearbeitungen. Da Bildbearbeitung in gewissen Bereichen routinemässig angewandt wird, werden viele Betrachterinnen und Betrachter auch ohne einen Hinweis davon ausgehen, dass die Aufnahme nicht wie gezeigt aus der Kamera kam. Bei Audio-Aufnahmen ist das Bewusstsein der Bearbeitungsmöglichkeiten (mit oder ohne KI) kaum vorhanden. Darum ist es umso wichtiger, das Publikum aufzuklären, welche Tricks heute zum Einsatz kommen.