TPC25: Vertrauen, Skalierung und LLM-Bewertung in der Wissenschaft

Aiwire

Auf der jüngsten TPC25-Konferenz präsentierten zwei prominente Persönlichkeiten unterschiedliche, aber sich ergänzende Visionen für die Zukunft großer Sprachmodelle (LLMs) in der wissenschaftlichen Forschung. Ihre Diskussionen unterstrichen eine kritische doppelte Herausforderung: Vertrauen in diese leistungsstarken KI-Systeme aufzubauen und gleichzeitig ihre Fähigkeiten und den Einsatz zu skalieren.

Franck Cappello vom Argonne National Laboratory stellte EAIRA vor, ein neuartiges Framework zur rigorosen Bewertung von KI-Forschungsassistenten. Sein Hauptaugenmerk lag auf der Etablierung von Metriken für Argumentation, Anpassungsfähigkeit und domänenspezifische Expertise, die für Forscher unerlässlich sind, um komplexe wissenschaftliche Aufgaben LLMs ohne ständige menschliche Aufsicht vertrauensvoll zu delegieren. Cappello betonte den wachsenden Anspruch an KI-Kollegen, der über das bloße Durchsuchen von Literatur hinausgeht und die Generierung von Hypothesen, das Schreiben von Code und sogar das experimentelle Design und die Ausführung umfasst. Die Herausforderung, so bemerkte er, liege in der Bewertung eines „Black-Box“-Systems, dessen interne Arbeitsweise undurchsichtig ist, im Gegensatz zu traditionellen wissenschaftlichen Instrumenten. Aktuelle Bewertungsmethoden, wie Multiple-Choice-Fragen und offene Antworten, reichen oft nicht aus, da sie zu generisch, statisch oder anfällig für Datenkontamination durch das Modelltraining sind. EAIRA schlägt eine umfassende, sich entwickelnde Methodik vor, die die Bewertung des Faktenabrufs (Multiple-Choice-Fragen) mit Bewertungen des fortgeschrittenen Denkens (offene Antworten), kontrollierten Labor-Experimenten und groß angelegten, realen Feldexperimenten kombiniert, um komplexe Interaktionen zwischen Forschern und LLMs in verschiedenen wissenschaftlichen Domänen zu erfassen.

Aus Japan erläuterte Professor Rio Yokota vom Tokyo Institute of Technology die ambitionierte zweigleisige Strategie seines Landes für die LLM-Entwicklung. Das LLM-jp-Konsortium treibt die Bemühungen voran, massive Modelle mithilfe der leistungsstärksten Supercomputer Japans, einschließlich ABCI und Fugaku, zu trainieren. Diese groß angelegte Initiative betont den Aufbau umfangreicher mehrsprachiger Datensätze, die Erforschung von Architekturen mit bis zu 172 Milliarden Parametern und den Einsatz von Millionen von Hochleistungs-GPU-Stunden, um global wettbewerbsfähig zu bleiben. Yokota betonte, dass eine solche Skalierung eine akribische Koordination und disziplinierte Experimente erfordert, und wies darauf hin, dass eine einzige falsche Parametereinstellung Millionen von Dollar an verschwendeten Trainingskosten bedeuten kann. Ein entscheidender Aspekt von LLM-jp ist das Engagement für einen schnellen Wissensaustausch, um sicherzustellen, dass Fortschritte schnell an teilnehmende Universitäten, staatliche Forschungszentren und Unternehmenspartner weitergegeben werden.

Ergänzt wird dieser große Maßstab durch das kleinere, agilere Swallow-Projekt. Diese Initiative konzentriert sich auf gezielte Experimente und die Entwicklung effizienter Trainingsmethoden und schlankerer Modellarchitekturen. Swallow erforscht innovative Techniken wie Mixture-of-Experts (MoE)-Designs, bei denen für eine gegebene Eingabe nur eine Untergruppe spezialisierter Submodelle aktiviert wird, was die Rechenkosten drastisch reduziert, während die Genauigkeit erhalten bleibt. Dieses Projekt dient als Testfeld für risikoreichere Ideen, die zu kostspielig wären, um sie an massiven Modellen zu testen, wobei die aus Swallow gewonnenen Erkenntnisse fast sofort in die größeren LLM-jp-Modelle zurückfließen.

Die Konvergenz der Präsentationen von Cappello und Yokota war klar: Damit LLMs ihr volles Potenzial in der Wissenschaft entfalten können, müssen Vertrauen und Skalierung Hand in Hand gehen. Die leistungsstärksten Modelle werden nur begrenzte Auswirkungen haben, wenn ihre Ergebnisse nicht überprüft werden können, und selbst die strengsten Bewertungsmethoden verlieren an Wert, wenn sie nicht auf Systeme angewendet werden, die komplexe, reale Probleme lösen können. Die Zukunft der wissenschaftlichen KI hängt von der Entwicklung von Modellen ab, die sowohl ehrgeizig in ihrer Leistungsfähigkeit als auch rigoros und transparent getestet werden.