Fünf Datei-Tricks für ChatGPT

Der Chatbot von OpenAI kann mit PDF-Doku­men­ten, Fotos, Audio- und Video­da­teien um­ge­hen. Das eröffnet inte­res­san­te Mög­lich­kei­ten, birgt jedoch auch das Poten­zial für Ent­täu­schungen.

Bei ChatGPT können wir nicht nur Texteingaben machen, sondern auch Dateien hochladen. Durch eine harte Recherche (ich habe den Bot danach gefragt) habe ich herausgefunden, dass er Bilder (JPEG, PNG), PDF-Dokumente, Audio-Dateien im MP3 und WAV-Format und Videos (MP4) entgegennimmt. Die maximale Dateigrösse beträgt jeweils fünfzig MB.

Und das eröffnet unter anderem folgende Möglichkeiten:

1) PDFs zusammenfassen und analysieren

Wenn wir eine PDF-Datei übermitteln, können wir uns eine Zusammenfassung in der gewünschten Länge geben lassen. Es ist auch möglich, Fragen zum Inhalt zu stellen, ähnlich, wie mit chatpdf.com (Ein Bot, der für uns die Hausaufgaben macht).

2) Bilder durch die Mangel drehen

Wie aus dem Gesicht geschnitten sind sich die beiden nicht.

Wenn wir ein Bild hochladen, beantwortet uns ChatGPT hinterher Fragen dazu. Das klappt bei Objekten, Sehenswürdigkeiten und unverfänglichen Motiven einwandfrei, doch bei Personen ist der Bot peinlich darum bemüht, nichts Falsches zu sagen.

Das schmälert den Nutzen beträchtlich. Es gibt indes noch mehr Möglichkeiten. Wir können ein Foto hochladen und darum bitten, das in eine Illustration in einem bestimmten Stil zu verwandeln. Die Resultate sind nicht immer überzeugend: Ich habe eines meiner Porträtbilder in eine Comiczeichnung umwandeln lassen, aber das hätte selbst ein unbegabter Strassenkünstler besser hinbekommen.

Auch Aufforderungen wie «mache die Person dreissig Jahre älter» funktionieren – aber mit ähnlich bescheidenem Wiedererkennungsgrad.

In dreissig Jahren sind auch meine Haare wieder da.

Besser klappt die Verwandlung von Landschaftsfotos. Ich habe ein Bild der Basilika Sacré-Cœur auf dem Montmartre in Paris hochgeladen (siehe nächster Punkt) und ChatGPT gebeten, mir daraus eine Szene aus einem apokalyptischen Film zu machen.

Diesem Wunsch ist der Bot sogleich nachgekommen. Aber es zeigt sich auch hier, dass keine 1:1-Umsetzung stattfindet: Der Blickwinkel beim apokalyptischen Paris-Bild entspricht dem des Originals nur ganz grob. Mein Eindruck ist, dass das Bild nicht direkt verändert wird, sondern ChatGPT eine detaillierte Textbeschreibung anfertigt, aus der Dall-e dann ein neues Bild erzeugt.

Und wenn wir schon dabei sind, kann die KI das Bild auch gleich in eine Szene aus einem apokalyptischen Film verwandeln.

3) Fotos verschlagworten

ChatGPT schreibt die Bildlegende und liefert Schlagworte zu einem Foto.

Als ich die folgende Möglichkeit entdeckt habe, sind mir fast die Tränen gekommen. Als seinerzeit Adobe Lightroom auf den Markt gekommen ist, hat mich diese Software dazu verleitet, Stunden und Tage in die Perfektionierung der Metadaten meiner Fotos zu investieren: Ich habe Bildbeschreibungen verfasst und Stichwörter zugeordnet wie ein Besessener.

Alles umsonst – denn auch das macht ChatGPT für uns, wenn wir ihn nett fragen («Erstelle eine Bildlegende und verschlagworte das Bild»).

Der Praxisnutzen für Fotografen ist vorerst nicht gegeben, denn Dutzende oder Hunderte Bilder aus einem Shooting einzeln hochzuladen, analysieren und verschlagworten zu lassen und diese Angaben manuell in die Dateien einzutragen, wäre nicht praktikabel. Es bräuchte dafür eine Integration in die Fotoverwaltungssoftware. Ich habe zu diesem Zweck vor zwei Jahren Excire getestet, eine Software, die das lokal, d.h. ohne Cloud tut. Allerdings ist die Qualität der Verschlagwortung im Vergleich zu ChatGPT deutlich geringer.

4) Audiodateien transkribieren und auswerten

Bei Audiodateien besteht die naheliegendste Methode darin, ein Transkript anzufertigen. Ich habe es mit einer Nerdfunk-Sendung probiert, aber eine Fehlermeldung erhalten. Die rund dreissigminütige Aufnahme löste jedoch einen Fehler aus und auch das Aufteilen in Segmente, die ChatGPT selbst vorgeschlagen hat, führte nicht zum Erfolg. Diesen Versuch muss ich bei Gelegenheit wiederholen – aber im Moment ist ChatGPT nicht der beste Weg, um OpenAIs hervorragende Transkriptionssoftware Whisper zu verwenden.

5) Videos verarbeiten

Natürlich habe ich auch mit einem Video eine stilistische Verwandlung durchführen wollen. Meine Idee war, ein Video meiner Tochter in eine Zeichentrickfilm-ähnliche Sequenz zu verwandeln. Aber dieser Wunsch lehnt ChatGPT mit der Begründung ab, dazu sei er nicht in der Lage.

Wir können ihn aber bitten, ein paar Standbilder aus dem Video zu nehmen und diese dann verwandeln.

Beitragsbild: Wer kriegt es besser hin?

Kommentar verfassen