Knallharte Vergleiche von grossen Sprachmodellen – das ist neuerdings eine Art Hobby von mir. Und ich könnte mir das gut als E-Sport-Disziplin vorstellen: Ein Turnier, bei dem immer zwei KIs gegeneinander antreten und am Schluss das Weltmeister-LLM gekürt wird.
Das ist (fast) die Idee hinter lmarena.ai: Chatbot Arena ist eine offene Plattform für Leistungsvergleiche zwischen den Modellen. Es geht aber nicht darum, einen Weltmeister zu küren. Vielmehr sollen wir als weltweite KI-Community ein Gespür für die Unterschiede und Eigenheiten der Modelle entwickeln. Darum wäre ein Publikumswettbewerb der bessere Vergleich.
ChatGPT, bist dus? (Nein.)
Aber der Ort, wo die Vergleiche abgehalten werden, heisst nun einmal Chatbot Arena: Hier geben wir einen Prompt ein, der gleichzeitig von zwei Sprachmodellen beantwortet wird – wie wir das auch bei Openrouter tun können. Der Clou bei Chatbot Arena ist, dass wir nicht wissen, welche Modelle sich um unser Anliegen kümmern. Wir begutachten die Antwort, geben eine Bewertung ab (Modell A ist besser, Modell B ist besser, Unentschieden oder Beide sind schlecht) und erfahren erst dann, welches die Kontrahenten sind.

Das hat einen gewissen Unterhaltungswert, und natürlich können wir auch versuchen zu erraten, mit welchen Modellen wir es zu tun haben. Beim abgebildeten Beispiel habe ich mich für Modell A als Sieger entschieden und glaubte, ChatGPT zu erkennen. Doch gefehlt: Ich hatte es mit dem Modell experimental-router-0112 zu tun, zu dem es kaum Informationen zu geben scheint. Der Gegner war Gemini 2.0 Flash Experimental.
Schon von Deepseek gehört? (Ja.)
Es gibt auch die Möglichkeit, Modelle selbst auszuwählen und gegeneinander antreten zu lassen, wie bei Openrouter. Dieser Modus eignet sich, um Modelle für eine bestimmte Aufgabe zu finden. Sie heisst Arena (side-by-side), und erlaubt es, über mehrere Runden den Favoriten zu küren. Hier sehen wir auch, welche Modelle bei Chatbot Arena vorhanden sind: Es sind derzeit 86 Stück, u.a. Gemini, Deepseek, Llama, ChatGPT, Grok, Claude, Phi, Amazon Nova, Mistral, Jamba, Gemma und Qwen. Was, nebenbei bemerkt, aufzeigt, wie stark sich diese Sprachmodelle derzeit vermehren. Wenn wir die alle miteinander vergleichen wollen, sind wir ein Weilchen beschäftigt.

Wer in der Gunst des Publik zuoberst steht, ist im Leaderboard ersichtlich. Das kann Überraschungen bereithalten: Denn während meines Tests stand Google zuoberst, gefolgt von OpenAI. Auf den weiteren Rängen dann Deepseek, jenem chinesischen Modell, das ich tatsächlich zuerst hier entdeckte. Und zwar in der zweiten Hälfte des Januars, also deutlich bevor der globale mediale Hype losbrach.
Ein heisser Tipp auch für Webentwickler
Also: Ein heisser Tipp für Leute, die bei den LLMs den Überblick nicht verlieren, selbst Vergleiche anstellen und vielleicht auch Modelle für eigene Zwecke evaluieren möchten. Betrieben wird die Plattform von Forschern des UC Berkeley SkyLab und LMArena. Und ein Extratipp: Unter web.lmarena.ai findet sich die Webdev Arena, in der wir uns Benutzerschnittstellen (UIs) für bestimmte Zwecke generieren lassen können.
Ich habe es mir nicht nehmen lassen, mir ein modernes Interface für Clickomania generieren zu lassen. Prompt: Generate me an modern, slick, appealing and easy to use interface for an app version of the popular game Clickomania.

Das Resultat ist hier zu sehen: Die Variante links stammt von Claude 3.5 Sonnet, die rechts von Deepseek v3: Besonders ansprechend finde ich zwar auch die nicht, aber immerhin funktioniert sie ansatzweise: Benachbarte Steine mit gleicher Farbe lassen sich wegklicken, allerdings rutschen keine Steine nach, um die Lücken zu schliessen.
Beitragsbild: Zwee KIs im Ring. Gäh nang uf e Gring. (KoolShooters, Pexels-Lizenz).
Es scheint eine gewisse Zeit zu dauern, bis neue Models genügend Stimmen erhalten haben, um im Ranking zu erscheinen. Auf Deinem Screenshot ist DeepSeek-V3 aufgeführt. Das „Wundermodel“ vom Januar ist aber DeepSeek-R1. Dieses steht aktuell auf den Rängen 5 und 2. An der Spitze steht heute „chocolate“, was eine Beta-Version von Grok-3 zu sein scheint.
Erstaunlich finde ich, dass o3-mini von ChatGPT unter o1-mini platziert ist.