Eine Person mit Kopfhörer lächelt im Cockpit eines Flugzeugs. Ein weiterer Pilot ist im Hintergrund sichtbar. Der Ausblick nach draussen ist hell und klar.
Einer von beiden (der Copilot) ist manchmal reichlich begriffsstutzig (Horizon flights, Unsplash-Lizenz).

Ein Grafik- und zwei Audio-Tricks von Microsoft Copilot

Microsofts KI macht aus nor­ma­len Foto­auf­nahmen 3D-Objekte. Die künst­li­che Intel­li­genz gibt Texte mit be­stimm­ten Emo­tio­nen in Audio­form wieder. Und sie verwandelt sie in ein Hör­buch, in dem mehrere Personen unter­schied­lich ge­spro­chen werden.

In Microsofts KI-Umgebung unter copilot.microsoft.com gibt es den unscheinbaren Punkt Labs. Dort finden sich einige experimentelle Anwendungen:

1) Fotos in 3-D-Objekte verwandeln

Copilot 3D macht aus einem normalen Foto ein dreidimensionales Objekt. Das lässt sich in den Formaten .glb oder .stl herunterladen. Ein Experiment mit einer Schachtel mit Lutschpastillen zeigt: Das funktioniert für ein simples Objekt ziemlich gut. Die künstliche Intelligenz ergänzt die nicht sichtbaren Bereiche sinnvoll.

Allerdings wird die Textur ebenfalls durch die KI-Mangel gedreht: Die Textelemente auf der Schachtel sehen aus wie in klingonischer Typografie, und die Pastillen sind nicht mehr rund, sondern erinnern an Schneckenhäuser. Das kann erwünscht sein, wenn ein Produkt leicht verfremdet werden soll – aber meistens dürfte die originalgetreue Wiedergabe bevorzugt werden. Das Öffnen des Objekts in einem 3D-Editor (meshinspector.com) klappt einwandfrei.

Die Frage: Was macht Copilot aus einem Selfie? Die Antwort: Eine Horrorfigur, die uns in unseren Träumen verfolgt. Darum die dringende Empfehlung: Bloss nicht ausprobieren!

Eine orangefarbene Verpackung mit dem Aufdruck «GOMCO», die geöffnete Box zeigt kleine runde Süßigkeiten in verschiedenen Farben. Der Hintergrund ist dunkelblau.
Die Schachtel mit meinen Lutschpastillen als 3D-Objekt – und nun wissen wir, wie Ricola in Klingonisch angeschrieben wird.
Eine orange Box mit einer durchsichtigen Öffnung, in der mehrere runde Objekte liegen. Die Verpackung zeigt bunte Blumen und enthält Informationen auf einer Seite.
Das KI-generierte 3D-Objekt im Online-Editor meshinspector.com.

2) Text zu Sprache, mit dramatischen Untertönen

Ein Mann sitzt am Schreibtisch mit einem Laptop und einem Getränk, während er am Telefon spricht. Im Hintergrund ist eine unscharfe Person zu sehen, die nervös wirkt.
Zu dem Hörbuch gibt es auch eine passende Illustration.

Bei den Copilot Audio Expressions geben wir einen Text ein und lassen ihn uns vorlesen. Der Clou ist, dass er uns nicht in neutraler Stimmung präsentiert wird, sondern mit einer bestimmten Stimmungslage. Standardmässig gibt es die drei Modi Emotional, Geschichte und Skript. Wir wählen aus mehreren Personen aus. Und es gibt den Punkt Formatvorlage, der für den ersten und den dritten Modus weitere Verfeinerungen erlaubt¹.

Ich versuche es mit dem Anfang eines meiner Blogposts und erhalte in der freudigen Variante (Emotional mit Formatvorlage Joy) eine junge, überdrehte amerikanische Frau, die den Text einspricht, als sei er mit dem Literaturnobelpreis ausgezeichnet worden. Da die Sprachausgabe bislang nur auf Englisch funktioniert, übersetzt Copilot das Manuskript automatisch, wobei die Formulierungen eine Euphorisierung erfahren.

Lustig, aber nicht so eindrücklich wie der Modus Geschichte. Bei dem mache ich nichts anderes, als die ersten zehn Zeilen eines uralten Blogposts einzufügen, bei dem ich den Dialog mit einem Telefon-Scammer nacherzähle.

Die KI kreiert daraus die Geschichte «The Mysterious Phone Call», bei der eine gewisse Hörbuchstimmung aufkommt: Es gibt einen Erzähler, der sich um einen spannenden Vortrag bemüht und die Stimmen der beiden Protagonisten deutlich unterscheidbar zum Besten gibt. Der Angerufene (ich) wird leicht überdreht dargestellt. Der indische Akzent des Scammers wird erwähnt, aber fliesst nicht in die Darbietung ein. Sinnvoller wäre natürlich, den Angerufenen nüchtern zu geben und den Betrüger aufgeputscht zu sprechen.

Einige Versuche zeigen, dass sich die Darbietung über Regieanweisungen anpassen lässt². Allerdings: Allzu spezifische Informationen führen zu einer Fehlermeldung³.

3) Einen Podcast erstellen

In Google Notebook LM gibt es die Möglichkeit, das gesammelte Datenmaterial als «Audio-Podcast» zu erschliessen: Bei dem sprechen zwei Personen über den Inhalt und geben einen schnellen und leicht zu konsumierenden Überblick über potenziell umfangreiche und komplexe Themen. Ich machte beim Radio von dieser Methode Gebrauch, namentlich in der Sendung hier.

Microsoft hält inzwischen eine ähnliche Funktion bereit. Die findet sich nicht in den Labs, sondern im normalen Copilot: Wir wählen über das Plus-Symbol die Option Create a podcast oder beginnen unseren Prompt mit «Create a podcast about …».

Leider funktioniert das bislang nur auf Englisch. Wenn wir es auf Deutsch probieren, fabriziert Copilot ein schönes Manuskript in Textform, das wir gefälligst selbst einsprechen sollen. In der Copilot-App in Windows lässt sich die Sprache nicht unabhängig von Windows ändern. Im Browser aber klappte es: Wir klicken unten links auf unser Nutzer-Avatar-Bild, dann auf Einstellungen, öffnen die Rubrik Einstellungen und wechseln bei Sprache auf English US. Dumm nur – bei meinem Test klappte es trotzdem nicht. Falls ich eine Lösung für das Problem finde, trage ich sie hier nach. Und ansonsten ist das ein Tipp für die Leute, die ihre Anwendungen seit jeher auf Englisch betreiben.

Fussnoten

1) Das sind die Einstellungen, mit denen wir unsere Sprachausgabe ausstatten:

  • Freude (Joy)
  • Traurigkeit (Sadness)
  • Entschlossenheit (Determination)
  • Neugier (Curiosity)
  • Begeisterung (Excitement)
  • Erleichterung (Relief)
  • Ermutigung (Encouragement)
  • Freundlich (Friendly)
  • Dankbar (Grateful)
  • Reflexion (Reflection)
  • Schuechtern (Shyness)
  • Neutral (Neutral)
  • Abenteuerlustig (Adventurous)
  • Empathisch (Empathetic)
  • Meditation (Meditation)
  • Erzaehlung (Narration)
  • Nachrichten (News)
  • Training (Workout)
  • Pirat (Pirate)
  • Vampir (Vampire)
  • Wahrsager (Fortune Teller)
  • Britischer Butler (British Butler)
  • Drache (Dragon)
  • Roboter (Robot)
  • Prinzessin (Princess)
  • Sportkommentator (Sportscaster)
  • Shakespeare-Stil (Shakespeare)
  • Gnom (Goblin)
  • Troll (Troll)
  • Hexe (Witch)
  • Schottischer Wirt (Scottish Innkeeper)

2) Das ist das «Drehbuch» für den Beispielclip:

This is the beginning of a phone call with a scammer.

Called person (a Swiss journalist, who often deals with strange phone calls; answers calm, relaxed): “Hello.”
Scammer (nervous, lurking): “Do you speak English?”
Called person (slowly): “I do.”
Scammer (slightly aggressive): “Do you own a computer?”
Called person (amused): “Yes.”
Scammer (dramatic): “That computer is infected with viruses!”
Called person (gives a show of surprise): “Oh, really?”
Scammer (fervent): “Yes.”
Called person (sceptically): “And how would you know that?”

3) Die folgende Regieanweisung war zu viel für Copilot:

Please be brief with the descriptions, keep the story flowing quickly, and perform the roles with distinction, but not overly dramatic.

Kommentar verfassen