Ein Otter haut in die Tasten

Ich wollte Otter.ai schon länger einmal ausführlich testen. Das habe ich bislang nicht geschafft. Und darum gibt es an dieser Stelle einen Kurztest.

Dieser Webdienst ist erstens natürlich eine Freude für alle Fans dieser possierlichen Tierchen und den dazu passenden Twitter-Accounts. Otter.ai ist ein Dienst, der Gespräche transkribiert. Er zielt vor allem auf Geschäftsleute, die detaillierte Protokolle von ihren Sitzungen haben möchten, aber ohne dass jemand jedes Wort mitschreibt oder detaillierte Notizen macht.

Ein solcher Dienst käme auch Journalisten entgegen, die ihre Interviews nicht abtippen möchten: Siehe dazu Nie mehr abtippen? und Trint.com, der hervorragende Interview-Verschriftlicher. Und ich nehme an, noch viele andere Leute hätten ihre Freude daran. Es kommt schliesslich immer wieder vor, dass man es mit langfädigen Konversationen zu tun hat, die  man sich nicht in Gänze antun will. Lieber würde man querlesen oder nach Stichworten suchen – und das geht am besten anhand einer Verschriftlichung.

Bevor nun die Hoffnungen in den Himmel wachsen, muss ich die Frage beantworten, welche Sprachen Otter.ai denn unterstützt. Es ist – und das ist für unsereins hierzulande ein Dämpfer – leider bislang erst Englisch. Und in den FAQ ist auch nirgends die Rede davon, dass so bald andere Sprachen unterstützt  werden sollen. Damit ist dieser Blogpost hier nur relevant für Leute, die ihre Konversationen in Englisch führen – und ich bin ein bisschen ein Depp, weil ich den Blogpost hier in Deutsch und nicht in Englisch verfasse. Aber daran lässt sich nun auch nichts mehr ändern. 😉

Die Transkription erscheint schon während der Aufnahme am Bildschirm.

Um Otter.ai zu nutzen, besorgt man sich die App, die es kostenlos fürs iPhone und iPad und für Android gibt. Dann legt man sein iPhone auf den Tisch, drückt den Aufnahmeknopf und beginnt mit seiner Sitzung. Ist die Sitzung beendet, betätigt man den Stop-Knopf. Dann findet man das Tranksript in der App vor und ist auch über die Website abrufbar. Alternativ lässt sich am Windows-PC oder Mac die Aufnahme auch über den Browser durchführen.

Wie gut die Resultate sind, hängt – wie immer bei solchen Apps – extrem von den Umständen ab. Deutlich gesprochen, mit einem gängigen Vokabular und einer guten Aufnahmequalität darf man mit einem Transkript rechnen, das zwar nicht perfekt ist, aber doch einen guten Überblick gibt, was gesagt wurde.

Die fertige Transkription mit Schlagworten und Zeitangaben. Hier werden auch die Sprecher ausgewiesen, nachdem sie entsprechend getagt worden sind.

Falls nicht alle diese Voraussetzungen erfüllt sind, dann dürfte das Transkript verwirrend bis nutzlos sein. Meine Rezitation von I Wandered Lonely as a Cloud von William Wordsworth ist jedenfalls nur teilweise wiederzuerkennen. Das kann an mir und meinem Englisch liegen. Ich gebe zu – ich weiss bis heute nicht, wie man jocund richtig ausspricht (obwohl Google einem neuerdings sogar das verrät). Schwierig auch die Zeile «… that floats on high o’er vales and hills …», bei der mir nicht klar ist, wie man das v in over auslässt, sodass das Wort verständlich bleibt.

Aber wenn das die einzigen Fehler wären, dann würde ich nicht reklamieren. Allerdings hat Otter.ai kaum eine Zeile richtig erkannt:

«Fluttering and dancing in the priest» statt «in the breeze». «They flash upon that invert I» statt «that inward eye».

Oder die Zeile: «And the, my heart with pleasure Phil and dances with dhe daffodils» statt «And then my heart with pleasure fills, And dances with the daffodils» – da fragt man sich schon, welcher Phil hier befriedigt werden sollte. Mich befriedigt das nicht so ganz.

Störend ist auch, dass keine Satzenden erkannt werden und die Interpunktionen Absätze fast komplett fehlen: Das Gedicht präsentiert sich nicht als Gedicht, sondern als Fliesstext. Das macht das Lesen etwas mühsam – aber wie gesagt, diesbezüglich ist mein Test unfair.

Fazit: Natürlich ist mein Test hochgradig unfair: Er entspricht nicht der Art und Weise, wie man Otter.ai nutzen sollte. Das Urteil von PC Mag ist etwas differenzierter, doch auch die Kollegen haben keine perfekte Verschriftlichung erhalten:

Otter is more accurate than most automatic services, but it’s still not a viable alternative to human-based services at this point.

Fazit: Nützlich ist das Transkript vor allem, weil man automatische Schlagworte erhält und durch Antippen einer Textstelle zur entsprechenden Position in der Aufnahme springen kann. Ausserdem hat man die Möglichkeit, während der Audioaufnahme Fotos zu machen: Die werden dann an der passenden Position eingefügt. Schneidet man ein Referat mit, bei dem man auch die Folien abfotografiert, kann man das Gesagte hinterher ganz gut nachvollziehen.

Eines der besten Features, das ich bislang aber nicht unter Realbedingungen testen konnte, ist die Kennzeichnung der Sprecher. Otter.ai soll die Teilnehmer einer Sitzung auseinanderhalten können und, wenn man die entsprechenden Labels einmal beschriftet hat, sogar korrekt ausweisen. Wenn das funktionieren würde, wäre das eine grosse Hilfe – wenn nicht, muss man das Protokoll wohl oder übel von Hand führen. Denn wenn aus dem Transkript nicht hervorgeht, wer was gesagt hat, bringt es überhaupt nichts.

Das ist die Transkription eines Podcasts: Hier versteht man tatsächlich, was gemeint ist. Allerdings würden Absätze die Lesbarkeit stark verbessern.

Wirklich gut gefällt mir, dass man auch Audioaufnahmen transkribieren kann. In der My conversations-Ansicht des iPhones tippt man auf das Import-Symbol rechts oben und wählt die Audio-Datei via Dateien-App aus. Ich habe das, wie ich es auch schon getan habe, mit einer Folge des Skeptoid-Podcasts ausprobiert – denn anders als ich spricht Brian Dunning sein Englisch nativ und die Aufnahme erfolgt unter Studiobedingungen. Da darf man erwarten, dass das Ergebnis deutlich besser ist. Das ist es auch – aber nicht perfekt.

Otter.ai lässt sich kostenlos verwenden. Für die kostenlose Nutzung hat man 600 Transkriptionsminuten pro Monat zur Verfügung. Für mehr (6000 Minuten) braucht man einen kostenpflichtigen Preisplan für 8.33 US-Dollar pro Monat für Premium, respektive 12.33 US-Dollar pro Monat für Teams. Bei den bezahlten Plänen gibt es die Möglichkeit, ein eigenes Vokabular zu hinterlegen – das dürfte die Resultate noch einmal deutlich positiv beeinflussen.

Beitragsbild: Endlich eine Gelegenheit für das Bild eines Otters hier im Blog (Eleonora Patricola/Unsplash, Unsplash-Lizenz).

Autor: Matthias

Computerjournalist, Familienvater, Radiomensch und Podcaster, Nerd, Blogger und Skeptiker. Überzegungstäter, was das Bloggen angeht – und Verfechter eines freien, offenen Internets, in dem nicht alle interessanten Inhalte in den Datensilos von ein paar grossen Internetkonernen verschwinden. Wenn euch das Blog hier gefällt, dürft ihr mir gerne ein Bier oder einen Tee spendieren: paypal.me/schuessler

Kommentar verfassen