Die Stimmenvielfalt der Menschheit

Das Common-Voice-Projekt soll dafür sorgen, dass die digi­talen Assis­ten­ten und Sprach­er­ken­nungs-Program­me nicht nur ge­übte Radio­stim­men, sondern auch nor­male All­tags-Artiku­la­tion ver­st­hen.

Mozilla stellt einen Browser und ein Mailprogramm her. Aber nicht nur: Neulich bin ich auf Mozilla.org dem Common-Voice-Projekt begegnet. Die Idee dahinter ist, einen Datenbestand bereitzustellen, mit dem sich sprachgestützte Anwendungen trainieren lassen.

Der Bedarf für solche Daten liegt auf der Hand: Wenn Computerprogramme lernen sollen, uns Menschen zu verstehen, dann müssen sie mit der ganzen Palette menschlicher Sprachen und Sprechweisen konfrontiert werden: Vom schnell sprechenden Franzosen über die behäbige Bayerin bis hin zum schnalzenden Afrikaner – um hier einige Klischees zu bemühen. Natürlich sind die behäbige New-Yorkerin, der schnell sprechende Berner und die schnalzende Isländerin ebenso wichtig – letztere hat vielleicht einen Sprachfehler, was aber kein Grund sein sollte, weswegen sie keine Sprachsteuerung am Handy benutzen kann.

Die Sprachassistenten verstehen nicht alle Menschen gleich gut

Eine Grundregel für das maschinelle Lernen besteht darin, dass die Qualität der Erkennung immer nur so gut ist, wie die Datensätze, die fürs Training benutzt werden. Wenn die nicht die Gesamtheit der Bevölkerung widerspiegeln, werden einige Gruppen benachteiligt. Wie problematisch diese Voreingenommenheit (Bias) ist, haben wir bei der Gesichtserkennung erfahren: 2020 wurde bekannt, dass die bei schwarzen und asiatischen Menschen bis zu hundertmal schlechter ist. Das führt zu viel häufigeren Fehl-Erkennungen, wobei ein falscher Treffer (false positive) dazu führen kann, dass ein Unschuldiger ins Visier der Polizei gerät.

Das Bias-Problem gibt es auch bei den digitalen Assistenten wie Siri, wie «The Guardian» 2020 berichtete:

Produkte wie Alexa und Siri sind zunehmender Kritik ausgesetzt, weil sie Frauen, ethnische Minderheiten und Menschen mit Akzenten überproportional häufig missverstehen.

Zu dem Common-Voice-Projekt gibt Katharina Borchert Auskunft, die damals Chief Innovation Officer bei Mozilla war. Sie erläutert, dass die Unternehmen, die sich mit der Spracherkennung beschäftigen, meist Datensätze aus dem öffentlichen Rundfunk benutzen:

Dabei handelte es sich in der Regel um männliche Muttersprachler mit gut ausgebildeten Stimmen. Das führte automatisch zu einem verzerrten Ergebnis, denn das ist alles, was die Maschine hat. Es gibt nicht viele weibliche Stimmen, und es gibt keine Leute mit verrückten Akzenten.

Das gilt wohl nach wie vor: Die Schweizer Transkriptionssoftware Töggl (siehe auch hier) wurde mit Audiodateien des Schweizer Radio und Fernsehens (SRF) trainiert. Das ist naheliegend, bildet aber die Sprachlandschaft aber nur unzureichend ab, weil beim Rundfunk Leute mit geschulten Stimmen arbeiten und nicht solche, die nuscheln oder eine eher grobschlächtige Ausdrucksweise haben.

Normale Sprecher anstelle der Radiostimmen

Das Common-Voice-Projekt will dagegenhalten, indem ganz normale Leute Texte einsprechen. Es ist ein Crowdsourcing-Projekt, bei dem jeder teilnehmen kann. Es gibt vier Betätigungsfelder: Wir können Sätze einsprechen, Aufnahmen auf ihre Korrektheit überprüfen, Beispielsätze zur Verfügung stellen und diese Beispielsätze kontrollieren.

Ich habe mich probehalber beteiligt. Ich wollte herausfinden, wie es funktioniert und spekulieren insgeheim auch auf einen künftigen Vorteil bei der Nutzung von Transkriptionsprogrammen, wenn die auch mit meiner Stimme trainiert worden sind.

Um mitzumachen, registrieren wir uns und geben unser ungefähres Alter, das Geschlecht und unsere Sprache an, inklusive allfälliger Dialekte. Als ich mich angemeldet habe, konnte ich als Dialekt «Schweizerdeutsch» auswählen. Der Eintrag «Zürichdeutsch», der angesichts der Vielfalt Schweizer Dialekte unverzichtbar ist, fehlte – aber ich konnte ihn nachtragen.

«Banater Bulgaren sind eine bulgarische Bevölkerungsgruppe römisch-katholischen Glaubens in Banat.»

Das Einsprechen funktioniert simpel: Wir erhalten einen Satz präsentiert. Wir drücken auf den Startknopf, lesen vor und betätigen die Stopp-Taste. Wir können uns das Resultat anhören und bei Bedarf die Aufnahme wiederholen. Immer nach fünf Sätzen werden die Aufnahmen hochgeladen. Das Überprüfen funktioniert analog: Wir sehen einen Satz, spielen die Aufnahme ab und geben mit Ja oder Nein an, ob der Mensch auch das vorgelesen hat, was dasteht.

Wer dranbleibt, kriegt Lob

Um die Motivation hochzuhalten, gibt es Gamification-Komponenten: Wir können uns Ziele setzen und werden für Streaks, d.h. wiederkehrende Beteiligung gelobt und können Awards einheimsen.

Auf der Übersichtsseite ist zu sehen, was wir zu Common Voice beigetragen haben.

Bleibt die Frage, ob nach dem Crowdsourcing-Prinzip auch tatsächlich ein repräsentatives Bild der Bevölkerung entsteht. Das zu beurteilen, dürfte schwierig sein. Aber wenn wir Aufnahmen überprüfen, bekommen wir immerhin Stichproben zu hören. Und die lassen mich vermuten, dass auch die Beteiligung beim Common-Voice-Projekt vor allem eine Beschäftigung für alte weisse Männer ist. Frauenstimmen habe ich nicht vernommen, ebenso wenig Menschen mit einem (hörbaren) Migrationshintergrund.

Das ist schade – aber hier können die fraglichen Gruppen etwas daran ändern, indem sie sich beteiligen.

Bringt es etwas?

Fragt sich natürlich, ob es auch etwas bringt. Das ist schwer zu sagen, weil sich die Datensätze frei herunterladen lassen; es muss bloss eine Mailadresse angegeben werden. Sie stehen gemeinfrei bzw. als Public-Domain-Daten zur Verfügung, sodass es unverständlich wäre, wenn Apple, Google, Microsoft, Open AI und all die anderen Anbieter von Srpachtechnologien sie nicht nutzen würden. Darum denke ich, dass sich gerade die Leute, die sich von ihren Geräten oft unverstanden fühlen, unbedingt einbringen sollten!

Zwei abschliessende Bemerkungen:

Erstens: Spannend ist die Seite zu den Sprachen, wo es einige Statistiken gibt. Wir erfahren, dass in Deutsch 1364 Stunden von 18’228 Sprecherinnen und Sprechern aufgenommen worden sind. Verblüfft hat mich, dass es in Katalanisch mehr Aufnahmen gibt als in Englisch (3283 Stunden gegenüber von 3269 Stunden).

Englisch ist zwar gut vertreten, Katalanisch aber auch.

Und auf dieser Seite sind Sprachen zu entdecken, von denen zumindest ich noch nie gehört habe: Kinyarwanda? Kabylisch? Toki Pona? Cool wäre natürlich, wenn man sich auch gleich einige Müsterchen anhören könnte. Das geht indirekt über die Prüffunktion – wobei wir aber natürlich kein Urteil abgeben dürfen, ob die Aufnahme denn auch korrekt war.

Zweitens: Im Februar 2022 wurde der Common Voice-Datensatz als Digital Public Good (DPG) anerkannt. Verwalter dieser digitalen Güter ist die Digital Public Goods Alliance, die 2020 von UN-Generalsekretär António Guterres angeregt wurde, um Open Source und öffentliche Internet-Ressourcen zu fördern. Das halte ich für eine sinnvolle und förderungswürdige Idee, die den Tech-Unternehmen ganz direkt zugutekommt.

Beitragsbild: Mit dem richtigen Training gegen Begriffsstutzigkeit (Omid Armin, Unsplash-Lizenz).

Kommentar verfassen