Neuer Maßstab: Inclusion Arena bewertet LLMs im Praxiseinsatz
Die Landschaft der künstlichen Intelligenz entwickelt sich rasant, und neue große Sprachmodelle (LLMs) entstehen in schwindelerregendem Tempo. Für Unternehmen, die diese leistungsstarken Tools integrieren möchten, besteht die Herausforderung nicht nur darin, vielversprechende Kandidaten zu identifizieren, sondern auch deren wahre Leistung in realen Anwendungen zu verstehen. Während traditionelle Benchmarks für erste Bewertungen unverzichtbar waren, verlassen sich viele auf statische Datensätze oder kontrollierte Laborumgebungen und erfassen oft nicht, wie Modelle wirklich mit menschlichen Benutzern in dynamischen Produktionsumgebungen interagieren.
Um diese kritische Lücke zu schließen, haben Forscher von Inclusion AI, einem Tochterunternehmen von Alibabas Ant Group, Inclusion Arena eingeführt. Dieses neuartige Modell-Bestenlisten- und Benchmarking-System verlagert den Fokus von theoretischen Fähigkeiten auf den praktischen Nutzen und bewertet LLMs basierend auf den tatsächlichen Benutzerpräferenzen in Live-Anwendungen. Das Kernargument ist einfach: Um ein LLM wirklich zu bewerten, muss man beobachten, wie Menschen es nutzen und wie sehr sie seine Antworten anderen vorziehen, über bloße Wissensspeicherung hinaus.
Inclusion Arena unterscheidet sich von etablierten Bestenlisten wie MMLU und OpenLLM, indem es seinen Bewertungsmechanismus direkt in KI-gestützte Anwendungen integriert. Im Gegensatz zu Crowdsourcing-Plattformen löst Inclusion Arena zufällig „Modellkämpfe“ während mehrstufiger Mensch-KI-Dialoge innerhalb dieser realen Apps aus. Derzeit ist das Framework in zwei Anwendungen integriert: Joyland, eine Charakter-Chat-App, und T-Box, eine Bildungs-Kommunikations-App. Während Benutzer mit diesen Anwendungen interagieren, werden ihre Prompts unsichtbar an mehrere LLMs weitergeleitet, die im Hintergrund Antworten generieren. Benutzer wählen dann einfach die Antwort, die ihnen am besten gefällt, ohne zu wissen, welches Modell sie erstellt hat. Dieses direkte, unvoreingenommene Feedback bildet die Grundlage der Bewertung.
Das System verwendet die Bradley-Terry-Modellierungsmethode für die Rangliste, ein probabilistisches Framework, das dem Elo-Bewertungssystem im Schach ähnelt, welches auch Chatbot Arena zugrunde liegt. Während sowohl Elo als auch Bradley-Terry geschickt darin sind, relative Fähigkeiten aus paarweisen Vergleichen abzuleiten, behaupten die Forscher, dass Bradley-Terry stabilere Bewertungen liefert und einen robusten Rahmen zur Bewertung latenter Modellfähigkeiten bietet. Die Aussicht, eine große und wachsende Anzahl von LLMs erschöpfend zu vergleichen, wird jedoch rechnerisch unerschwinglich. Um dies zu überwinden, integriert Inclusion Arena zwei innovative Komponenten: einen Platzierungsmechanismus, der eine anfängliche Rangliste für neu registrierte Modelle bereitstellt, und eine Probenahme nach Nähe, die nachfolgende Vergleiche auf Modelle innerhalb einer definierten „Vertrauensregion“ beschränkt, wodurch der Informationsgewinn innerhalb eines praktischen Budgets maximiert wird.
Die ersten Experimente von Inclusion AI, basierend auf Daten bis Juli 2025, umfassten über 501.003 paarweise Vergleiche von mehr als 46.611 aktiven Benutzern in den beiden integrierten Anwendungen. Die vorläufigen Ergebnisse von Inclusion Arena zeigen, dass Anthropic’s Claude 3.7 Sonnet, DeepSeek v3-0324, Claude 3.5 Sonnet, DeepSeek v3 und Qwen Max-0125 zu den leistungsstärksten Modellen gehörten. Obwohl anerkannt wird, dass der Umfang des aktuellen Datensatzes auf diese beiden Anwendungen beschränkt ist, zielen die Forscher darauf ab, das Ökosystem durch eine offene Allianz zu erweitern, in der Erwartung, dass mehr Daten zu einer noch robusteren und präziseren Rangliste führen werden.
Die Proliferation von LLMs macht es für Unternehmen zunehmend schwierig, Modelle für die Bewertung auszuwählen. Bestenlisten wie Inclusion Arena bieten technischen Entscheidungsträgern unschätzbare Orientierungshilfen und heben Modelle hervor, die in praktischen Nutzungsszenarien eine überragende Leistung zeigen. Während interne Bewertungen immer entscheidend sein werden, um die Effektivität eines LLM für spezifische Anwendungen sicherzustellen, bieten diese realen Benchmarks ein klareres Bild der breiteren Wettbewerbslandschaft und helfen Organisationen, Modelle zu identifizieren, die wirklich auf ihre betrieblichen Anforderungen abgestimmt sind.