TPC25 : Les leaders discutent confiance, échelle et évaluation des LLM en science
Lors de la récente conférence TPC25, deux figures éminentes ont offert des visions distinctes mais complémentaires pour l’avenir des grands modèles linguistiques (LLM) dans la recherche scientifique. Leurs discussions ont souligné un double défi critique : cultiver la confiance dans ces puissants systèmes d’IA tout en augmentant simultanément leurs capacités et leur déploiement.
Franck Cappello, du Laboratoire National d’Argonne, a présenté EAIRA, un nouveau cadre conçu pour évaluer rigoureusement les assistants de recherche IA. Son objectif principal était d’établir des métriques pour le raisonnement, l’adaptabilité et l’expertise spécifique au domaine, essentielles pour que les chercheurs puissent déléguer en toute confiance des tâches scientifiques complexes aux LLM sans supervision humaine constante. Cappello a souligné l’ambition croissante des “collègues” IA, allant au-delà du simple tri de littérature pour englober la génération d’hypothèses, l’écriture de code, et même la conception et l’exécution expérimentales. Le défi, a-t-il noté, réside dans l’évaluation d’un système de “boîte noire” dont le fonctionnement interne est opaque, contrairement aux instruments scientifiques traditionnels. Les méthodes d’évaluation actuelles, telles que les questions à choix multiples et les réponses ouvertes, sont souvent insuffisantes, étant trop génériques, statiques ou sujettes à la contamination des données de l’entraînement du modèle. EAIRA propose une méthodologie complète et évolutive qui combine l’évaluation du rappel factuel (questions à choix multiples) avec des évaluations du raisonnement avancé (réponses ouvertes), des expériences contrôlées de type laboratoire, et des expériences de terrain à grande échelle et en conditions réelles pour capturer les interactions complexes chercheur-LLM à travers divers domaines scientifiques.
Depuis le Japon, le professeur Rio Yokota de l’Institut de Technologie de Tokyo a détaillé la stratégie ambitieuse à deux volets de son pays pour le développement des LLM. Le consortium LLM-jp mène les efforts pour entraîner des modèles massifs en utilisant les supercalculateurs les plus puissants du Japon, y compris ABCI et Fugaku. Cette initiative à grande échelle met l’accent sur la construction de vastes ensembles de données multilingues, l’exploration d’architectures allant jusqu’à 172 milliards de paramètres, et l’engagement de millions d’heures de GPU haute performance pour rester compétitif à l’échelle mondiale. Yokota a souligné qu’une telle échelle exige une coordination méticuleuse et une expérimentation disciplinée, notant qu’un seul réglage de paramètre incorrect peut se traduire par des millions de dollars de coûts d’entraînement gaspillés. Un aspect crucial de LLM-jp est son engagement à un partage rapide des connaissances, garantissant que les progrès se diffusent rapidement entre les universités participantes, les centres de recherche gouvernementaux et les partenaires corporatifs.
En complément de cette grande échelle, il y a le projet Swallow, plus petit et plus agile. Cette initiative se concentre sur l’expérimentation ciblée, le développement de méthodes d’entraînement efficaces et d’architectures de modèles plus légères. Swallow explore des techniques innovantes comme les conceptions de Mixture of Experts (MoE), où seul un sous-ensemble de sous-modèles spécialisés s’active pour une entrée donnée, réduisant considérablement les coûts de calcul tout en maintenant la précision. Ce projet sert de terrain d’essai pour des idées plus risquées qui pourraient être trop coûteuses à tester sur des modèles massifs, les leçons apprises de Swallow étant réintégrées presque immédiatement dans les modèles LLM-jp plus grands.
La convergence des présentations de Cappello et de Yokota était claire : pour que les LLM réalisent leur plein potentiel en science, la confiance et l’échelle doivent progresser de concert. Les modèles les plus puissants auront un impact limité si leurs sorties ne peuvent être vérifiées, et même les méthodes d’évaluation les plus rigoureuses perdent de la valeur si elles ne sont pas appliquées à des systèmes capables de s’attaquer à des problèmes complexes du monde réel. L’avenir de l’IA scientifique dépend du développement de modèles à la fois ambitieux en termes de capacités et rigoureusement, transparentement testés.