Meta will die hauseigene KI mit Daten von Facebook und Instagram trainieren. Google verwendet für Gemini das ganze freie Web. Das wirft Fragen auf. Erstens natürlich die, ob das überhaupt in Ordnung ist. Ich finde, dass die Konzerne fragen müssten. Als absolute Minimalforderung.
Überdies sollte das Geld ein Thema sein: Wir bräuchten eine Art Leistungsschutzrecht. Und bevor es nun einen Aufschrei von den Leuten gibt, die in diesem Zusammenhang gern von «Linksteuer» reden und den Verlagen und Medienhäusern vorwerfen, dass sie nur Geld von Google absaugen wollen: Nein, nicht nur die sollten profitieren, sondern alle, die das Internet mit verwertbaren Inhalten bereichern. Und wenn wir schon dabei sind: Natürlich muss die versammelte Schar von Urhebern und «Content Creators» auch ein Mitspracherecht haben, wie und in welcher Form ihr Gesamtwerk genutzt werden darf.
Man sieht: Bevor sich die KI im Web zurechtrüttelt, sind dicke Bretter zu bohren. Doch keine Angst, in diesem Blogpost nehme ich einen vergleichsweise simplen Sachverhalt vor. Nämlich folgende Fragen:
Können wir feststellen, ob die unsere eigenen Inhalte in KI-Modelle eingeflossen sind? Wenn ja, wie?
Die Website haveibeentrained.com liefert für Bilder eine Antwort: Es handelt sich um eine Suchmaschine, in der wir entweder Suchbegriffe oder Adressen eintragen. Ich sehe diese drei Recherchemöglichkeiten:
- Wir tragen unseren Namen ein. Das führt allerdings nur zum Ziel, wenn wir unsere Fotos mit Metadaten veröffentlichen, in denen wir als Urheber hinterlegt sind.
- Wir suchen nach einer Domain. Tipp: Im Dropdown-Menü beim Eingabefeld erscheint dann die Option Search by Domain: Die sorgt dafür, dass auch tatsächlich die Quelle im Netz berücksichtigt wird und nicht ein Verweis auf die Domain in den Metadaten¹.
- Wir suchen nach einem Bild. Das sei möglich, steht in den FAQ; ich habe es nicht geschafft. Vermutlich müsste man dafür die API benutzen.
Have I been trained liefert uns entweder die Meldung zurück, es sei nichts gefunden worden. Oder wir erhalten eine Liste von Bildern. Die sind dann tatsächlich in Datensätze eingeflossen, die von OpenAI oder anderen KI-Unternehmen eingesetzt werden.
Natürlich habe ich gleich als erstes eine Nabelschau abgehalten und herausgefunden, dass einige der Fotos von dieser Website hier bei den KIs gelandet sind. Das tangiert mich nur halb, weil ich hier keine Fotokunst betreibe, sondern mehrheitlich dokumentarische Aufnahmen veröffentliche. Doch in der Anfangszeit des Blogs habe ich auch ab und zu Fotos aus dem Privatalbum ins Schaufenster gestellt. Es waren immer unverfängliche Bilder – trotzdem erscheint das aus heutiger Sicht als Fehler.
Es bleiben weitere Fragen:
1) Wie entstehen diese Datensätze?
Natürlich interessiert uns an dieser Stelle auch, wie genau diese Datensätze entstehen. Dazu findet sich eine Erklärung auf der FAQ-Seite: Common Crawl, eine gemeinnützige Organisation, grast das Web ab und stellt die gesammelten Fundstücke der Öffentlichkeit als Datensätze zur Verfügung. Sie tut das seit 2008 und wiederholt den Vorgang einmal pro Monat. Die Datenmenge, die so zusammenkommt, ist unglaublich: 2024 waren 2,7 Milliarden Seiten bzw. 386 Tebibyte (395’264 Gigabyte, falls ich richtig gerechnet habe).
Diese Daten wiederum werden von einer weiteren gemeinnützigen Organisation zu Datensätzen verarbeitet, die zum Training für KI-Modelle taugen. Die heisst LAION und steht in der Kritik. Der Bayerische Rundfunk hat sich die Trainingsdaten angeschaut und ist zum Schluss gekommen, dass «sie sensible und private Daten enthalten, meist ohne, dass die Betroffenen Bescheid wissen». Das Fazit dieser Recherche lautet: Der Rohstoff der KI sind wir.
Wie ChatGPT diese Daten verwendet, ist zumindest für GPT3 bei Wikipedia dokumentiert.
2) Wie steht es um den Text?
Bei Have I been trained geht es nur um die Bilder; nach Texten lässt sich nicht recherchieren. Wenn wir uns nun fragen, ob wir einen Blick in die Bestände von Common Crawl werfen können, um zu sehen, was dort so über uns drinsteht, dann wird es knifflig. Die Datensätze sind öffentlich; eines der neuen Archive ist CC-MAIN-2024-22. Die Hauptdatei ist in komprimierter Form 78,62 Tebibyte gross. Das passt leider nicht auf meine Festplatte. Eine zugänglichere Methode habe ich bislang nicht gefunden. Falls sich das ändern sollte, erstatte ich hier Bericht.
An dieser Stelle müssen wir uns daher mit der Annahme begnügen, dass Treffer bei Have I been trained darauf hindeuten, dass auch die Textinhalte von allen dort vertretenen Websites abgeflossen sind.
3) Können wir etwas dagegen tun?
Bei Have I been trained gibt es die Do not train-Liste, in die wir (nach einer Anmeldung) die Bilder eintragen können, die nicht fürs Training benutzt werden sollen. Wie viel das bringt? Schwer zu sagen!
Wie hier erwähnt, können wir auch den GPTBot von unseren Websites fernhalten, woraufhin OpenAI die Inhalte dort ignorieren sollte. Und die «Washington Post» hat hier eine Liste zusammengetragen, wie wir für ChatGPT von OpenAI, Copilot von Bing, Google Gemini und Claude von Anthropic Widerspruch gegen die Nutzung unserer Daten einlegen.
Fussnoten
1) Diese Unterscheidung ist z.B. bei eyeem.com entscheidend: Wenn wir mit dem Suchbegriff «eyeem.com» recherchieren, finden wir nur eine Handvoll Bilder, bei denen die Adresse anscheinend in den Metadaten hinterlegt ist. Wählen wir im Dropdown-Menü hingegen via Search by Domain eine Subdomain wie cdn1.eyeem.com aus, erhalten wir Hunderttausende Bilder. Das heisst auch, dass wir für Bilder von solchen Foto-Plattformen am besten mit der Bild-URL suchen. Die ist nicht immer leicht herauszufinden, aber in Firefox klappt es meistens über den Menübefehl Extras > Seiteninformationen, wenn wir in der Rubrik Medien nach dem fraglichen Bild suchen und die Angabe bei Adresse kopieren. ↩
Beitragsbild: Wer das ganze Web fürs Training einer KI speichern will, braucht ziemlich viele Festplatten (Dall-e 3).