Welche App hat das bessere Musikgehör?

Google muss gegen Sound­hound antreten: Welche App ist besser darin, einen Song zu erken­nen, der (mehr schlecht als recht) gesummt, gepfif­fen oder ge­sungen wird?

Wie gross sind eigentlich die Fortschritte, die uns die künstliche Intelligenz bei der Musikerkennung gebracht hat? Denn erinnern wir uns: Zu den ersten Erfolgstiteln des jungen App-Stores gehörten Apps, die via Mikrofon erkennen konnten, was für ein Musikstück gerade läuft. Shazam war bei den allerersten Tipps mit dabei, die ich direkt nach dem Start des Stores 2008 für empfehlenswert gehalten habe.

Shazam – das inzwischen Apple gehört – hat einen Nachteil, der seit der ersten Version nicht behoben wurde: Wir können damit nur Songs anhand der Originalwiedergabe identifizieren. Wenn wir eine Melodie im Kopf haben und die summend, singend oder pfeifend zum Besten geben, dann ist nichts zu wollen. Dieses Manko ist schon damals erkannt worden. 2008 hat die App Midomi Ultra behauptet, sie erkenne Musik auch an der laienhaften Interpretation von uns Nutzerinnen und Nutzern.

Ich habe 2009 die Probe aufs Exempel gemacht und fleissig gesummt. Die Ausbeute war bescheiden: Von sieben gesummten Titeln gab es genau einen Treffer.

Das müsste heute aber viel besser sein, oder? Aus Midomi Ultra ist inzwischen Soundhound (fürs iPhone und für Android) geworden. Google seinerseits hat Ende 2020 die Hum to search-Funktion erfunden, die genauso funktioniert. Laut Hilfe gibt es sie bei Android und dem iPhone. Ich habe sie aber nur bei Android zum Laufen gebracht: In der Google-App tippen wir aufs Mikrofon und dann am unteren Bildschirmrand auf die Schaltfläche Musik erkennen.

Also, 14 Jahre später, wie sieht es mit den Knacknüssen von damals aus? Ich mache die Probe aufs Exempel, und zwar mit beiden Apps parallel – damit die Chancen gleich sind.

1) «Popcorn» von Hot Butter

Zwei Treffer: Google ist sich sicher, dass es sich um «Popcorn» handelt und macht keine anderen Vorschläge. Soundhound braucht deutlich länger und liefert Popcorn nur als dritten Platz. Als erste und zweite Vermutung werden «Whiskey in the Jar» von Metallica bzw. Santiano genannt.

Trotzdem: eine klare Verbesserung seit damals – entweder von den Apps oder von meinen Summ-Künsten.

«Popcorn» von Hot Butter wird von beiden Kontrahenten erkannt.
«The night, they drove old Dixie down» ist keine Herausforderung für Google.

2) «The night, they drove old Dixie down» von Joan Baez

Oder, zur gleichen Melodie «Der Tag als Conny Cramer starb» von Juliane Werding. Google liefert schnell einen richtigen Treffer. Nebst Joan Baez wird auch Johnny Cash und The Band genannt, die den Song auch interpretiert haben. Soundhound muss passen.

3) «I schänke dir mis Härz» von Züri West

Keiner der Kandidaten hat je von diesem Lied gehört. Zweimal Ratlosigkeit.

4) «Bei mir bist du schoen» von The Andrews Sisters

Ein doppelter Fehlschlag. Auch wenn ich zugebe, dass mein Gesang nicht einmal ansatzweise an die kratzige Aufnahme von 1937 heranreicht.

5) «Tubular Bells» von Mike Oldfield

Das sind die legendären ersten Takte, die man auch vom Film The Exorcist kennt. Ebenfalls ein doppelter Fehlschlag. Aber es ist in der Tat so, dass zumindest ich nicht in der Lage bin, diese Melodie vernünftig zu summen. Ich würde meine Darbietung selbst nicht erkennen, wenn ich nicht zufällig in meinen Kopf hören würde, wie es eigentlich klingen sollte.

6) «Peter Gunn» von Art of Noise

Das gilt in abgeschwächter Form auch für dieses Instrumental-Stück. Es lebt von einem charakteristischen Basslauf, der mit menschlicher Vokalisation nur schwer zu imitieren ist.

Auch das darum leider ein Doppel-Fehlschlag.

7) «Oops I did it again» von Britney Spears

Warum auch immer ich das 2009 getestet habe. Google ist sich so sicher, dass ich noch nicht einmal eine Auswahlmöglichkeit erhalte, sondern gleich zu den Suchresultaten geschickt werde. Soundhound hingegen hat keinen Schimmer.

8) Radetzky-Marsch von Johann Strauss

Für meine Wiederholung des Tests kommt ein weiterer Kandidat hinzu, nämlich der Radetzky-Marsch. Denn die Suche nach Popsongs ist in aller Regel einfach, zumindest so lange wir uns ein ein paar Wörter aus dem Refrain erinnern: Eine Websuche nach diesen Wörtern, mit «Lyrics» als Ergänzung, führt ganz ohne Gesumme, Gepfeife oder Gesinge ans Ziel.

Bei Stücken ohne Gesang fällt dieser Weg logischerweise weg. Ausserdem interessiert mich, wie sattelfest die Apps abseits der populären Musik sind. Der «Radetzky-Marsch» ist bekannt und prägnant genug, dass er eigentlich erkannt werden müsste – selbst wenn beim Summen ein paar falsche Töne mit dabei sind.

Radetzky-Marsch von Johann Strauss: Beim Klassik-Repertoire gibt es Lücken.

Die Erkenntnisse sind interessant: Google liefert keinen direkten Treffer, aber verweist immerhin auf den «Radetzky Rap» von Klaus und Klaus – ein fürchterliches, ballermanneskes Machwerk, das auf Strauss’ Melodie basiert. Das interpretiere ich so, dass Google nicht auf das klassische Repertoire trainiert wurde, denn sonst hätte die App sicherlich das Original zuerst genannt.

Soundhound kann weder mit dem Original noch mit Klaus und Klaus aufwarten. Die App glaubt, «Eye of the Tiger» von Gloria Gaynor, «Ask» von The Smiths, «Blue» von Eiffel 65 und «Fred Come to Bed» von E-Rotic gehört zu haben.

Fazit: Ein Fortschritt!

Die Summ-Erkennung hat grosse Fortschritte gemacht, was aber vor allem Google zu verdanken ist. Mittels «Hum to search» habe ich immerhin vier von acht Stücken identifiziert. Soundhound ist minim besser als seinerzeit Midomi, aber eigentlich noch immer annähernd unbrauchbar.

Beitragsbild: Sie hat sich gerade eine ganze Playlist zusammengesummt (Sound On, Pexels-Lizenz).

Kommentar verfassen