Wie wir die beste KI für einen bestimmte Aufgabe finden

Mit Openrouter.ai lassen wir mehrere grosse Sprach­mo­delle gegen­einan­der antreten. Sie beant­wor­ten paral­lel den gleichen Prompt. Im direk­ten Ver­gleich wird sofort klar, wer die der He­raus­for­de­rung ge­wach­sen ist und wer wie wild hallu­zi­niert.

Für Vergleiche und Tests wäre es grossartig, wenn wir den gleichen Prompt parallel bei mehreren Sprachmodellen absetzen könnten: So würden wir auf einen Blick sehen, von welchem Bot wir zu einem bestimmten Thema die beste Rückmeldung zu erwarten haben. Diese Funktion habe ich bei GPT4All sehnlichst vermisst und nun bei Openrouter gefunden.

Das ist ein Webdienst, der uns die eindrückliche Zahl von fast 300 Sprachmodellen anbietet (293 sind es derzeit, um genau zu sein). Die sind in 14 Kategorien¹ eingeteilt, und sie können auf der Übersichtsseite nach diversen Kriterien sortiert werden.

Nebst der Sortierung nach Preis, Veröffentlichungsdatum und Kontext kann auch der Beliebtheitsgrad als Kriterium gewählt werden:

Die Hitparade der grossen Sprachmodelle.

So entsteht eine Art «Hitparade der LLMs». Und auch wenn diese kaum repräsentativ für die gesamte globale KI-Nutzung sein dürfte, so eröffnet sie uns doch eine Möglichkeit herauszufinden, welches die neuen und aufstrebenden LLMs sind. Wer sich speziell dafür interessiert, sollte sich unbedingt die Ranking-Seite ansehen.

Die Kontrahenten aufeinander loslassen

Auf der Chat-Seite führen wir unseren Vergleich durch. Einige beliebte Kombinationen für bestimmte Zwecke werden per Mausklick gegeneinander ins Feld geschickt. Und das sind die notorischen Wettkampfaufgebote:

  • Unter Flagship Models finden wir Claude 3.5 Sonnet, o1-preview von ChatGPT, Gemini Pro 1.5 und Grok 2.
  • Bei Best Roleplay finden sich MythoMax 13B, Wizard LM 2 und Claude 3.5 (self-moderated).
  • Unter Best Coding Models treten DeepSeek V3, Claude 3.5 Sonnet und GPT-4o gegeneinander an.
  • Und unter Long context, low price finden sich die Modelle mit dem besten Preis-Leistungsverhältnis: Gemini Flash 1.5, Claude 3 Haiku und Jamba 1.5 Mini.

Mit anderen Worten: Wir erfahren auch etwas über die Stärken der einzelnen Modelle und lernen viele neue Kandidaten kennen. Oder hatte jemand von euch MythoMax auf dem Schirm?

Selbstverständlich können wir auch eigene Aufgebote erstellen oder bei den Standard-Kandidatenfeldern weitere Modelle dazufügen.

Die üblichen Verdächtigen

Die Nutzung ist wie bei anderen Bots. Wir tippen unseren Prompt und warten auf die Antworten. Der Clou ist nun, dass die Antworten parallel von den verschiedenen Modellen eintrudeln. Das gibt zwar nur eine ungefähre Vorstellung von der Geschwindigkeit, aber dennoch lässt sich ungefähr abschätzen, wie prompt die einzelnen Bots liefern.

Die Meinungen gehen weit auseinander.

Wie eingangs angedeutet, hilft Openrouter für spezifische Themenbereiche die passende KI zu finden, bei denen wir mit den üblichen Verdächtigen unbefriedigende Resultate erzielen. Die Site ist auch gut dabei, konkrete Schwächen aufzudecken und zu benennen. Das zeigt sich beim simplen Prompt, der herausfinden soll, wer Matthias Schüssler sei.

ChatGPT o1 Preview und Claude 3.5 Sonnet liefern beide die richtige Auskunft, wobei die KI von OpenAI noch eine Schmeichelei anhängt: «Er ist eine herausragende Persönlichkeit, wenn es darum geht, komplexe technische Konzepte in eine für die Allgemeinheit verständliche Sprache zu übersetzen.»

Grok und Google halluzinieren wie wild

Recht hast du, ChatGPT. Grok 2 und Gemini Pro 1.5 liegen hingegen beide meilenweit daneben. Musks KI behauptet:

Matthias Schüssler ist ein deutscher Schauspieler, der für seine Arbeit in Film und Fernsehen bekannt ist. Er wurde am 11. Februar 1974 in München, Deutschland, geboren und hat in verschiedenen deutschen Fernsehserien und Filmen mitgewirkt. Zu seinen bekanntesten Arbeiten gehören die Fernsehserien «Soko München» und «Der Kommissar und das Meer».

Google dichtet mir bzw. meinen Namensvettern sogar eine Wissenschaftskarriere an:

Matthias Schüssler ist ein deutscher Politikwissenschaftler, der vor allem für seine Arbeiten über Rechtsextremismus, Populismus und vergleichende Politikwissenschaft bekannt ist, mit besonderem Fokus auf Deutschland, Österreich und die Europäische Union. Derzeit ist er Professor für Politikwissenschaft an der Universität Passau in Deutschland.

Also: Viel Spass für eine einzige KI-Abfrage!

Ein Vorteil ist abschliessend zu nennen: Nämlich der, dass wir via Openrouter auch die kostenpflichtigen Modelle benutzen können, ohne überall ein Abo abschliessen zu müssen. Natürlich sind die Recherchen auch bei Openrouter nicht gratis. Aber wir bezahlen pro Nutzung: Dafür kaufen wir uns Credits, die dann pro Abfrage abgebaut werden.

Die Kosten pro Modell werden übrigens im Bereich Activity akribisch aufgeschlüsselt. Mein Ego-Geprompte hat mich total sieben Cent gekostet, wobei ChatGPT mit Abstand am teuersten war:

o1 Preview 6,6667
Gemini Pro 0,0545
Claude 3.5 Sonnet 0,1150
Grok 0,0956
6.9351

Fazit: Gut zu wissen!

Fussnoten

1) Roleplay, Programming, Programming/Scripting, Marketing, Marketing/SEO, Technology, Technology/Web, Science, Translation, Legal, Finance, Health, Trivia und Academia bzw. in Deutsch Rollenspiel, Programmierung, Programmierung/Skripting, Marketing, Marketing/SEO, Technologie, Technologie/Web, Wissenschaft, Übersetzung, Recht, Finanzen, Gesundheit, Trivia und Academia.

Beitragsbild: Er hat Grok und Google alt aussehen lassen (RDNE Stock project, Pexels-Lizenz).

Kommentar verfassen