Le MIT révèle le secret des prédictions des IA de protéines
Dans une avancée significative vers la démystification de l’intelligence artificielle en biologie, des chercheurs du MIT ont dévoilé une nouvelle méthode pour explorer le fonctionnement interne des modèles de langage de protéines. Ces systèmes d’IA avancés, semblables aux grands modèles de langage (LLM) qui alimentent des outils comme ChatGPT, sont devenus indispensables ces dernières années pour prédire les structures et fonctions des protéines, aidant à des tâches allant de l’identification de cibles médicamenteuses potentielles à la conception d’anticorps thérapeutiques. Bien que remarquablement précis, leurs processus de prise de décision sont restés largement opaques – un phénomène de « boîte noire » qui a limité la capacité des chercheurs à exploiter pleinement leur potentiel.
La nouvelle étude, dirigée par Onkar Gujral, étudiant diplômé du MIT, et l’auteure principale Bonnie Berger, professeure de mathématiques et cheffe du groupe de Calcul et de Biologie au Laboratoire d’Informatique et d’Intelligence Artificielle du MIT, offre une avancée cruciale. En éclairant les caractéristiques spécifiques que ces modèles prennent en compte lors de leurs prédictions, la recherche promet d’aider les scientifiques à sélectionner des modèles plus efficaces pour des applications particulières, rationalisant ainsi le développement de nouveaux médicaments et de candidats vaccins. Comme le souligne Berger, ce travail a de vastes implications pour améliorer l’interprétabilité des systèmes d’IA cruciaux pour les applications biologiques en aval et pourrait même découvrir de nouvelles perspectives biologiques. Les résultats sont publiés dans les Comptes rendus de l’Académie nationale des sciences (Proceedings of the National Academy of Sciences).
Les modèles de langage de protéines fonctionnent sur des principes similaires à leurs homologues basés sur le texte. Au lieu d’analyser des mots, ils traitent de vastes quantités de séquences d’acides aminés, apprenant des motifs qui leur permettent de prédire les caractéristiques des protéines. Par exemple, les travaux antérieurs de Berger en 2021 ont utilisé un tel modèle pour identifier des sections de protéines de surface virale moins sujettes aux mutations, identifiant ainsi des cibles vaccinales potentielles contre la grippe, le VIH et le SARS-CoV-2. Cependant, les mécanismes exacts derrière ces prédictions sont restés un mystère.
Pour ouvrir cette « boîte noire » computationnelle, l’équipe du MIT a employé une technique connue sous le nom d’auto-encodeur parcimonieux (sparse autoencoder), un type d’algorithme récemment utilisé pour éclairer les LLM traditionnels. Les protéines au sein d’un réseau neuronal sont généralement représentées par des motifs d’activation sur un nombre contraint de « nœuds » ou de « neurones » – de manière analogue à la façon dont le cerveau stocke l’information. Par exemple, une protéine pourrait être représentée par 480 de ces nœuds. Un auto-encodeur parcimonieux étend considérablement cette représentation, l’étendant sur un nombre beaucoup plus grand de nœuds, peut-être 20 000. Cette expansion, combinée à une « contrainte de parcimonie », permet à l’information de se propager, garantissant qu’une caractéristique précédemment encodée par plusieurs nœuds peut désormais occuper un seul nœud dédié. Cela rend l’activation de chaque nœud individuel beaucoup plus significative et interprétable.
Une fois ces représentations parcimonieuses générées, les chercheurs ont utilisé un assistant IA, Claude, pour les analyser. Claude a comparé les représentations nouvellement explicites avec des caractéristiques protéiques connues – telles que la fonction moléculaire, la famille ou l’emplacement cellulaire. Grâce à cette analyse de milliers de représentations, Claude a pu identifier quels nœuds spécifiques correspondaient à des caractéristiques protéiques particulières et les décrire dans un langage clair et compréhensible. Par exemple, l’IA pourrait rapporter qu’un certain neurone détecte des protéines impliquées dans le transport transmembranaire d’ions ou d’acides aminés, en particulier celles que l’on trouve dans la membrane plasmatique. L’étude a révélé que la famille des protéines et divers processus métaboliques et biosynthétiques figuraient parmi les caractéristiques les plus fréquemment encodées par ces nœuds nouvellement interprétables.
Cette nouvelle capacité à comprendre quelles caractéristiques un modèle de protéine priorise ouvre des possibilités passionnantes. Les chercheurs peuvent désormais choisir ou affiner plus intelligemment les modèles pour des questions de recherche spécifiques, optimisant leur entrée pour obtenir des résultats supérieurs. De plus, à mesure que ces modèles continuent de progresser en puissance et en sophistication, la capacité de disséquer leur logique interne promet de découvrir des principes biologiques entièrement nouveaux, repoussant les limites de notre compréhension actuelle des protéines et de la vie elle-même.