Le modèle IA du MIT prédit la solubilité moléculaire avec précision
Prédire la capacité d’une molécule à se dissoudre dans un liquide particulier, une propriété connue sous le nom de solubilité, est un défi fondamental en chimie, en particulier dans la création de nouveaux produits pharmaceutiques. Cette étape cruciale, souvent un goulot d’étranglement dans la conception et la fabrication de médicaments, régit tout, de l’efficacité des réactions chimiques au profil de sécurité du processus de production. Aujourd’hui, des ingénieurs chimistes du MIT ont dévoilé un modèle informatique sophistiqué qui améliore considérablement cette capacité prédictive, promettant d’accélérer la découverte de médicaments et de promouvoir l’utilisation de solvants moins dangereux dans l’industrie.
Pendant des décennies, les chimistes se sont appuyés sur des modèles comme le modèle de solvatation d’Abraham pour estimer la solubilité, qui agrège les contributions des structures chimiques internes d’une molécule. Bien qu’utiles, ces méthodes traditionnelles offrent une précision limitée. Plus récemment, l’apprentissage automatique est entré en jeu, avec des avancées telles que SolProp, un modèle développé dans le laboratoire de William Green au MIT en 2022. SolProp a amélioré les méthodes précédentes en prédisant des propriétés connexes et en les combinant à l’aide de principes thermodynamiques. Cependant, il avait du mal à prévoir avec précision la solubilité des molécules qu’il n’avait pas rencontrées pendant son entraînement, un obstacle important pour les nouvelles pipelines de développement de médicaments.
L’impulsion pour le nouveau modèle est née d’un projet collaboratif des étudiants diplômés du MIT Lucas Attia et Jackson Burns lors d’un cours sur l’application de l’apprentissage automatique à l’ingénierie chimique. Leur percée a été largement facilitée par la publication de BigSolDB en 2023, un ensemble de données complet compilant des informations sur la solubilité provenant de près de 800 articles publiés. Cette ressource inestimable comprenait des données sur environ 800 molécules dissoutes dans plus de 100 solvants organiques courants, englobant plus de 40 000 points de données et tenant même compte de l’influence critique de la température sur la solubilité.
Attia et Burns ont entraîné deux modèles d’apprentissage automatique distincts sur cet ensemble de données étendu. Les deux modèles représentent les structures moléculaires à l’aide d’« intégrations » (embeddings) – des représentations numériques qui capturent des détails comme le nombre d’atomes et les arrangements de liaison, permettant aux modèles de prédire diverses propriétés chimiques. Une approche, FastProp, développée par Burns et d’autres dans le laboratoire de Green, utilise des « intégrations statiques », où la représentation moléculaire est prédéterminée. Le second, ChemProp, un modèle développé au MIT déjà utilisé dans la découverte d’antibiotiques et d’autres applications, apprend ces intégrations pendant le processus d’entraînement lui-même, associant simultanément les caractéristiques moléculaires à des propriétés comme la solubilité.
Lorsqu’ils ont été testés sur un ensemble de 1 000 solutés non inclus dans les données d’entraînement, les deux nouveaux modèles ont démontré une précision remarquable, surpassant SolProp de deux à trois fois. Leur capacité à prédire précisément de subtiles variations de solubilité dues à la température, même au milieu d’un bruit expérimental substantiel, était un indicateur particulièrement fort de leurs robustes capacités d’apprentissage, selon Burns. Étonnamment, malgré les avantages théoriques de l’apprentissage adaptatif de ChemProp, les deux modèles ont fonctionné de manière pratiquement identique. Cette parité inattendue suggère que la principale contrainte sur leurs performances n’est pas les modèles eux-mêmes, mais plutôt la variabilité inhérente et la qualité des données d’entraînement sous-jacentes, souvent compilées à partir de divers laboratoires utilisant des conditions expérimentales différentes.
Surnommé FastSolv, le modèle basé sur FastProp a été choisi pour une diffusion publique en raison de sa vitesse et de son code adaptable. Il a déjà été mis à disposition gratuitement et est actuellement adopté par de nombreuses sociétés pharmaceutiques. Ce développement promet de rationaliser le processus de découverte de médicaments, permettant aux chimistes de sélectionner plus efficacement les solvants optimaux pour les réactions. Surtout, il permet également l’identification d’alternatives moins dangereuses aux solvants industriels couramment utilisés, répondant ainsi à une préoccupation environnementale et de sécurité importante. Comme le note Burns, le modèle est « extrêmement utile pour pouvoir identifier le prochain meilleur solvant, qui, espérons-le, est beaucoup moins dommageable pour l’environnement ».
La recherche, supervisée par William Green, professeur Hoyt Hottel d’ingénierie chimique et directeur de l’Initiative énergétique du MIT, et co-écrite par Patrick Doyle, professeur Robert T. Haslam d’ingénierie chimique, a été publiée aujourd’hui dans Nature Communications. Financée en partie par le Département de l’Énergie des États-Unis, cette avancée marque une étape cruciale vers une synthèse chimique plus efficace, plus sûre et plus respectueuse de l’environnement dans un éventail d’industries.