TPC25: L'IA prête pour la science – Exascalaire, Quantique & Avenir
La conférence TPC25 a récemment réuni des chercheurs de premier plan avec un objectif unifié : transformer l’intelligence artificielle à l’échelle de la frontière en un outil pratique pour la découverte scientifique. Les discussions tout au long de la semaine ont mis en lumière à la fois l’immense promesse et les obstacles significatifs qui se dressent sur la voie de cette entreprise ambitieuse.
Au-delà de la vitesse brute : Élaborer une IA prête pour la science
Satoshi Matsuoka, directeur du Centre de sciences computationnelles de RIKEN, a souligné que les modèles fondamentaux commerciaux actuels ne sont qu’un point de départ pour les applications scientifiques. S’exprimant au nom de l’équipe IA pour la science de RIKEN, Matsuoka a détaillé les lacunes critiques en matière de gestion des données, de conception de modèles et d’orchestration des flux de travail qui doivent être comblées avant que les grands modèles de langage et d’apprentissage puissent servir de manière fiable la recherche scientifique.
RIKEN construit activement l’infrastructure pour soutenir cette vision. Bien que son superordinateur Fugaku reste un leader mondial avec 60 000 nœuds de CPU, le centre étend ses capacités avec un nouveau complexe GPU comprenant environ 1 500 accélérateurs Nvidia Blackwell et des centaines de GPU et TPU supplémentaires. RIKEN exploite également trois systèmes quantiques et prévoit un futur système qui devrait atteindre le calcul zettascalaire (10^21 opérations par seconde) d’ici 2029.
Matsuoka a souligné que la vitesse de calcul brute seule est insuffisante. Les modèles d’IA scientifique doivent intrinsèquement comprendre les données et les flux de travail scientifiques complexes. Contrairement aux modèles commerciaux à usage général, les applications scientifiques en physique, chimie et biologie exigent des fonctionnalités spécialisées. Les données scientifiques combinent souvent du texte, des équations, des images et des flux de capteurs, fréquemment à l’échelle du téraoctet. Les systèmes d’IA actuels ont du mal avec les symboles spécifiques au domaine, les unités, les séquences très longues et les images scientifiques à ultra haute résolution. Pour surmonter cela, Matsuoka a préconisé des vocabulaires de jetons personnalisés, des mécanismes d’attention sparse et des décodeurs sensibles à la physique capables de gérer des fenêtres contextuelles bien au-delà des limites typiques.
RIKEN explore des méthodes pratiques pour améliorer l’efficacité des modèles et la compréhension des données, y compris des techniques avancées de compression de données comme le pavage en quadtree et les courbes de remplissage d’espace pour les images haute résolution. Ces méthodes offrent des économies de calcul substantielles sans sacrifier la précision, mais nécessitent un nouveau support de compilateur et de mémoire. Pour les données multimodales, l’équipe développe des opérateurs hybrides qui combinent des réseaux neuronaux avec des solveurs d’équations aux dérivées partielles traditionnels. Matsuoka a également mis en évidence un passage des modèles monolithiques et énormes à un spectre plus diversifié de modèles ajustés aux tâches, y compris les architectures de mélange d’experts et les modèles de domaine affinés, en mettant l’accent sur le raisonnement pendant l’inférence pour réduire les coûts et améliorer la robustesse.
Débloquer la découverte avec l’IA quantique générative
Steve Clark, responsable de l’IA chez Quantinuum, a exploré le potentiel transformateur de la convergence de l’informatique quantique et de l’IA. Il a présenté la stratégie de Quantinuum pour l’« IA quantique générative », en se concentrant sur trois approches synergiques.
Premièrement, l’IA est exploitée pour optimiser l’informatique quantique elle-même. Les techniques d’apprentissage automatique, telles que l’apprentissage par renforcement profond, sont appliquées aux défis tels que la compilation de circuits quantiques, la réduction du nombre de portes quantiques coûteuses et l’amélioration du contrôle optimal et de la correction d’erreurs sur le matériel quantique réel.
Deuxièmement, l’équipe de Clark étudie comment les systèmes quantiques peuvent alimenter des formes d’IA entièrement nouvelles. Cela implique de repenser les réseaux neuronaux pour qu’ils fonctionnent nativement sur le matériel quantique, en utilisant des propriétés quantiques telles que la superposition pour traiter l’information de manières fondamentalement différentes, créant ainsi des modèles sans analogue classique direct.
Troisièmement, la stratégie implique l’entraînement de modèles d’IA sur des données générées par des ordinateurs quantiques. Cela permet à l’IA d’apprendre des motifs que les systèmes classiques ne peuvent pas produire. Un exemple est le solveur d’états propres quantiques génératifs, où un modèle transformeur suggère itérativement des circuits quantiques pour trouver l’état fondamental d’une molécule, une méthode applicable à la chimie, à la science des matériaux et à l’optimisation.
L’ascension de l’IA dans le HPC, mais les défis persistent
Earl C. Joseph, PDG de Hyperion Research, a présenté les résultats d’une enquête soulignant l’intégration rapide de l’IA dans les environnements de calcul haute performance (HPC). L’adoption de l’IA dans le HPC a bondi d’environ un tiers des sites en 2020 à plus de 90 % en 2024, passant des étapes expérimentales à une utilisation généralisée pour des tâches telles que l’amélioration de la simulation et l’analyse de données à grande échelle dans les secteurs gouvernemental, universitaire et industriel.
Cette croissance est étroitement parallèle à l’adoption croissante du cloud, car les organisations se tournent vers les services cloud pour atténuer les coûts élevés et l’obsolescence rapide du matériel de pointe, en particulier les GPU. Le cloud offre un accès au matériel de génération actuelle et une plus grande flexibilité, réduisant le besoin d’investissements à long terme sur site.
Malgré cette expansion, des obstacles importants subsistent. Le défi le plus fréquemment cité est la qualité des données d’entraînement, qui a bloqué de nombreux projets d’IA. Joseph a cité la Mayo Clinic comme exemple d’organisation qui atténue ce risque en utilisant exclusivement ses propres données vérifiées pour entraîner des modèles linguistiques plus petits et de haute qualité. D’autres problèmes persistants incluent une pénurie d’expertise interne en IA, une échelle insuffisante des données d’entraînement et la complexité inhérente à l’intégration de l’IA dans les environnements HPC existants. Joseph a prédit que cette complexité stimulera la croissance d’un nouveau marché pour les logiciels et les services de conseil en IA spécifiques au domaine. Les études d’Hyperion indiquent que 97 % des organisations interrogées prévoient d’étendre leur utilisation de l’IA malgré l’augmentation des coûts, soulignant la nécessité d’augmentations budgétaires significatives à mesure que l’infrastructure d’IA devient plus coûteuse.
Atténuer les risques de l’IA avec des solutions sur site
Jens Domke, chef d’équipe du Supercomputing Performance Research Team de RIKEN, a lancé un avertissement sévère sur l’aspect souvent négligé de l’atténuation des risques dans la précipitation à déployer l’IA à des fins scientifiques. Il a décrit cinq facteurs de risque clés : l’erreur humaine, les vulnérabilités logicielles de l’IA, les faiblesses de la chaîne d’approvisionnement, les risques inhérents au modèle et les menaces externes comme les problèmes juridiques et le vol.
Domke a fourni des exemples d’incidents réels, notamment des fuites de données confidentielles d’entreprises utilisant des services d’IA basés sur le cloud et des violations de sécurité affectant les principaux fournisseurs d’IA. Il a également souligné à quel point les logiciels d’IA développés rapidement manquent souvent de sécurité robuste, citant des cas où les protocoles de sécurité de base ont été négligés. La complexité des flux de travail d’IA modernes, qui peuvent impliquer des dizaines de progiciels, élargit encore la surface d’attaque.
En réponse à ces risques omniprésents, RIKEN développe sa propre capacité de gestion de l’IA sur site, l’envisageant comme une alternative sécurisée et privatisée aux offres commerciales d’IA dans le cloud. Cette solution interne vise à reproduire la fonctionnalité des services externes tout en éliminant les risques de fuite de données, de piratage et d’exfiltration de données.
L’infrastructure de RIKEN sera construite sur des composants open source et comportera des enclaves de sécurité à plusieurs niveaux. Un niveau semi-ouvert offrira une large utilisabilité derrière un pare-feu sécurisé, similaire aux services commerciaux mais dans un environnement contrôlé. Les niveaux de sécurité supérieurs seront réservés aux opérations hautement confidentielles, telles que la recherche médicale ou interne sensible. Le principe fondamental est de « ne faire confiance à rien », tous les modèles et services étant conteneurisés, isolés sur des réseaux privés et accessibles via des proxys inverses sécurisés. Cette approche confère à RIKEN un contrôle total sur ses données et ses modèles, permettant une intégration facile des modèles open source et des modèles personnalisés affinés sans restrictions externes.
La voie à suivre
À travers les diverses perspectives partagées au TPC25, un message cohérent est ressorti : l’échelle de calcul brute seule ne suffit pas à réaliser tout le potentiel de l’IA scientifique. La voie à suivre exige des modèles adaptés au domaine, des flux de travail hybrides classique-quantique transparents, des normes rigoureuses de qualité des données et des contrôles de risque robustes et proactifs. L’année à venir sera cruciale pour traduire ces idées en outils partagés et en normes communautaires. Si l’élan démontré au TPC25 se poursuit, la communauté scientifique se rapprochera de systèmes d’IA qui accélèrent la découverte sans compromettre la confiance.