Zwei Personen sitzen an einem Tisch in einem Büro. Eine Person mit rotem Anzug schaut nachdenklich, während die andere einen Bericht durchblättert. Im Hintergrund sind eine Schreibmaschine und eine Lampe sichtbar.
Die Transkription aus einer Zeit der sexistischen und rassistischen Rollenverteilungen (Mart Production, Pexels-Lizenz).

Texte diktieren, statt sie zu tippen?

Audiopen ver­spricht, «wirre Gedanken in klaren Text zu wan­deln». Wir reden drauf­los, wo­rauf­hin die KI un­se­rem Diktat Ord­nung und Struk­tur ver­leiht. Der Test zeigt: Für Proto­kolle mag das funk­tio­nieren, doch nobel­preis­träch­tig ist Li­te­ratur ent­steht so nicht.

Das ist ein Versuch. Ich will ausprobieren, ob ich einen ganzen Blogpost nur per Diktat erfassen kann. Anlass ist die Software Audiopen. Sie verspricht, gesprochene «Ideen direkt in klaren Text zu verwandeln».

Ich habe Audiopen getestet. Das Resultat war nicht schlecht, aber wegen einer Zeitbeschränkung von zwanzig oder dreissig Sekunden¹ konnte ich keinen ganzen Blogpost einsprechen fertigstellen. Deshalb probiere ich es hier anders, mit Macwhisper. Wieso sollte ich für eine zusätzliche Software bezahlen, wenn ich bereits eine kostenlose Lösung besitze?

Screenshot einer Webseite von AudioPen, datiert auf den 19. Februar 2026. Der Text handelt vom Diktieren von Blogbeiträgen und den Herausforderungen dabei. Es sind Schaltflächen und Menüs sichtbar.
Der Kurztest von Audiopen ergibt ein einwandfreies Resultat.

Die Spielregeln für diesen Artikel: Änderungen, die über Details hinausgehen, mache ich im Text kenntlich. So seht ihr, ob ich alles eingesprochen diktiert oder ob ich nachträglich doch zur Tastatur gegriffen habe.

Die Kunst, die Gedanken zu bändigen

Grundsätzlich habe ich ein Problem damit, Ideen einzusprechen, statt sie zu schreiben. Ich denke langsamer, als ich spreche. Wenn ich die Aufnahme starte, fühle ich mich unter Druck, möglichst flüssig zu reden – wie ich es vom Radio gewohnt bin. Dabei verhädere ich mich manchmal oder gerate auf Nebengleise.

Beim Schreiben ist das kein Problem. Man kann zurückgehen, löschen, neu ansetzen, Sätze so lange überarbeiten, bis sie sitzen, und sich von einem gut formulierten Satz zum nächsten hangeln. Beim Diktieren geht das nicht. Ich kann nicht zwei Zeilen zurückspringen und etwas einfügen. Die Gedanken müssen geordnet sein, während ich sie ausspreche.

Meine Erfahrung ist jedoch: Die Gedanken ordnen sich oft erst beim Schreiben. Denken und Schreiben sind keine seriellen Prozesse – erst denken, dann aufschreiben –, sondern stehen in Wechselwirkung. Häufig baue ich Texte nachträglich stark um. Deshalb bin ich skeptisch, ob diese Methode für mich funktioniert.

Ein Mittel, um Zeit zu sparen?

Vielleicht werde ich positiv überrascht und spare beim Bloggen viel Zeit, indem ich alles ins Unreine spreche und mich nicht darum kümmere, ob es am Schluss perfekt rund ist. Vielleicht lasse ich die KI den Text noch straffen – und gut ist. Ich probiere es aus und bin gespannt auf das Resultat.

Es gibt sicher Leute, für die diese Methode besser geeignet ist. Ziel muss ja nicht sein, sofort einen fixfertigen Text zu produzieren. Diktieren eignet sich möglicherweise fürs Brainstorming: nicht für einen schön formulierten Endtext, sondern für ein grobes Konstrukt, einen Arbeitstext.

Perfekt für Protokolle, Gesprächsnotizen und das Brainstorming

In gewissen Bereichen ist das ohnehin üblich: Protokolle einsprechen, Gesprächsnotizen nach einem Interview festhalten oder Gedächtnisstützen aufnehmen. Da geht es weniger um wohlgeformte Sätze als darum, möglichst schnell alles festzuhalten, bevor Erinnerungen verblassen.

Nach diesem ersten eingesprochenen Blogpost würde ich sagen: Es ist falsch, das als Entweder-oder – Tastatur oder Diktat – zu sehen. Eher als Ergänzung, als zusätzliche Möglichkeit. Früher war das vielleicht nur «Herr Direktor» mit privater Sekretärin vorbehalten. Ich gendere hier bewusst nicht, weil diese Rollenverteilung damals tatsächlich so war.

Heute können wir uns daran gewöhnen, dass wir nicht tippen müssen, um einen Text zu bekommen. Wir können sprechen – und die Technik erledigt den Rest.

Das war das Fazit. Mal schauen, was die Software daraus macht.


Hier einige Ergänzungen, ganz altmodisch getippt – zuerst mit zwei Hinweisen zu den verwendeten Apps:

Das Voice Memo liefert den rohen Text zurück, ohne Abschnitte oder Gliederung. Ich habe diese Variante von ChatGPT straffen lassen². Die Änderungen, die ich selbst vorgenommen habe, sind oben entsprechend markiert.

Auf das Denken kommt es an

Anhand dieses Resultats lässt sich das vorläufige Fazit differenzieren: Trotz der Überarbeitung ist mir der diktierte Text zu platt und eindimensional. Es mag Leute geben, die besser in der Lage sind, druckreif zu formulieren. Aber selbst bei denen würde sich zeigen, dass die gesprochene und die geschriebene Sprache zwei verschiedene Paar Stiefel sind. Es geht nicht bloss um die unterschiedliche Methode der Texterfassung. Der entscheidende Punkt ist die andere Art des Denkens: spontan und linear versus reflektiert, verdichtet und stärker gestaltet.

Screenshot einer Software-Oberfläche mit Transkriptionsfunktionen. Links sind Menüs und Personen aufgelistet, rechts wird ein Text in grosser Schrift angezeigt. Unten ist eine Steuerleiste.
Macwhisper liefert eine Rohfassung, ohne Gliederung durch Absätze.

Das ist einerseits grossartig: Vor 28 Jahren testete ich Viavoice von IBM. Sie forderte nicht nur der Hardware einiges ab, sondern ebenso den Nutzerinnen und Nutzern: Die mussten weniger bekannte Wörter buchstabieren und auch Satzzeichen wie das Komma oder den Punkt als solche benennen. Dass das vom Denken ablenkt, versteht sich von selbst. Ich hatte schon damals die Idee, einen Teil des Artikels zu diktieren. Im Vergleich zu dem schwer verständlichen Resultat erhalten wir vom Gespann aus Whisper und ChatGPT heute eine einwandfreie, nahezu perfekte Transkription. Der Traum von damals ist wahr geworden.

Toll fürs Brainstorming – kaum eine Hilfe fürs Schreiben

Und dass das noch einmal deutlich gesagt sei: Fürs Brainstorming ist diese Methode grossartig. Ich exerzierte sie letztens anhand eines Vortrags durch, den ich demnächst halten soll: Ich sprach meine Ideen ins Unreine und erhielt innert einer Viertelstunde ein brauchbares Konzept, das sich per KI wunderbar strukturieren liess. Mehr dazu – und zu der verwendeten iPhone-App – Whisper Notes erkläre ich im Beitrag So fliessen die Ideen ungehindert.

Was den eigentlichen Zweck – die Zeitersparnis beim Schreiben oder Bloggen – angeht, lässt sich die Ernüchterung nicht verstecken: Trotz dieses Fortschritts wandern Ideen nicht wie von Zauberhand aus unseren Köpfen auf den Bildschirm. Das Mikrofon macht die Tastatur nicht überflüssig. Die Haupterkenntnis ist, dass nicht das Tippen der anstrengende Teil der Arbeit ist, sondern das Denken. Wer hätte das gedacht?

Fussnoten

1) Die Beschränkung lag daran, dass ich die Software ohne Log-in testete. Mit Anmeldung können wir bis zu zwei Minuten gratis transkribieren. Für den ganzen Blogpost hätte das dennoch nicht gereicht – der war knapp sechs Minuten lang.

2) Das war der Prompt:

Hier habe ich einen Blogpost eingesprochen. Bitte bearbeite dieses Transkript für bessere Lesbarkeit, indem du Absätze hinzufügst. Redigiere bzw. verdichte Passagen, die sich nach gesprochener Sprache anhören, aber behalte die Abfolge der Gedanken und sämtliche Aussagen bei.

Das Resultat: Aus der Aufnahme von 6:53 Minuten entstand ein Rohtext von 5125 Zeichen. Die bereinigte Version, die ich oben eingefügt habe, ist 3267 Zeichen lang. Ein Beispiel für KI-redigierte Fassung. Im Original heisst es:

Anlass für diesen Versuch ist die Software AudioPen. Sie verspricht genau das. Man soll nicht seine Ideen irgendwie notieren oder sondern einfach indem man sie ausspricht, quasi in einen klaren Text verwandeln. Ich habe das ausprobiert, AudioPen, und das Resultat war nicht schlecht, aber da es eine Zeitbeschränkung gibt von 20 oder 30 Sekunden, konnte ich nicht meinen ganzen Blogpost einsprechen.

Die von ChatGPT bereinigte Passage liest sich wie folgt:

Anlass ist die Software Audiopen. Sie verspricht, gesprochene «Ideen direkt in klaren Text zu verwandeln».

Ich habe Audiopen getestet. Das Resultat war nicht schlecht, aber wegen einer Zeitbeschränkung von zwanzig oder dreissig Sekunden konnte ich keinen ganzen Blogpost einsprechen.

Das ist einwandfrei. 

Ein Kommentar zu «Texte diktieren, statt sie zu tippen?»:

Kommentar verfassen