MIT-KI-Modell prognostiziert molekulare Löslichkeit präzise

News

Die Vorhersage, wie gut sich ein Molekül in einer bestimmten Flüssigkeit auflöst – eine Eigenschaft, die als Löslichkeit bekannt ist – ist eine grundlegende Herausforderung in der Chemie, insbesondere bei der Entwicklung neuer Pharmazeutika. Dieser entscheidende Schritt, oft ein Engpass in der Medikamentenentwicklung und -herstellung, bestimmt alles von der Effizienz chemischer Reaktionen bis zum Sicherheitsprofil des Produktionsprozesses. Nun haben Chemieingenieure am MIT ein ausgeklügeltes Computermodell vorgestellt, das diese Vorhersagefähigkeit erheblich verbessert und verspricht, die Arzneimittelentdeckung zu beschleunigen und den Einsatz weniger gefährlicher Lösungsmittel in der Industrie zu fördern.

Seit Jahrzehnten verlassen sich Chemiker auf Modelle wie das Abraham-Solvatationsmodell, um die Löslichkeit abzuschätzen, das Beiträge aus den internen chemischen Strukturen eines Moleküls aggregiert. Obwohl hilfreich, bieten diese traditionellen Methoden nur eine begrenzte Genauigkeit. In jüngerer Zeit hat das maschinelle Lernen Einzug gehalten, mit Fortschritten wie SolProp, einem Modell, das 2022 im Labor von William Green am MIT entwickelt wurde. SolProp verbesserte frühere Methoden, indem es verwandte Eigenschaften vorhersagte und diese mithilfe thermodynamischer Prinzipien kombinierte. Es hatte jedoch Schwierigkeiten, die Löslichkeit für Moleküle, die es während seines Trainings nicht kennengelernt hatte, genau vorherzusagen, ein erhebliches Hindernis für neue Medikamentenentwicklungspipelines.

Der Anstoß für das neue Modell entstand aus einem kollaborativen Projekt der MIT-Doktoranden Lucas Attia und Jackson Burns während eines Kurses über die Anwendung von maschinellem Lernen in der Chemieingenieurwissenschaft. Ihr Durchbruch wurde maßgeblich durch die Veröffentlichung von BigSolDB im Jahr 2023 erleichtert, einem umfassenden Datensatz, der Löslichkeitsinformationen aus fast 800 veröffentlichten Artikeln zusammenstellt. Diese unschätzbare Ressource enthielt Daten zu etwa 800 Molekülen, die in über 100 gängigen organischen Lösungsmitteln gelöst waren, umfasste über 40.000 Datenpunkte und berücksichtigte sogar den kritischen Einfluss der Temperatur auf die Löslichkeit.

Attia und Burns trainierten zwei verschiedene Modelle für maschinelles Lernen mit diesem umfangreichen Datensatz. Beide Modelle stellen molekulare Strukturen mithilfe von „Embeddings“ dar – numerische Repräsentationen, die Details wie die Atomzahl und die Bindungsanordnungen erfassen und es den Modellen ermöglichen, verschiedene chemische Eigenschaften vorherzusagen. Ein Ansatz, FastProp, der von Burns und anderen in Greens Labor entwickelt wurde, verwendet „statische Embeddings“, bei denen die molekulare Darstellung vorbestimmt ist. Das zweite, ChemProp, ein vom MIT entwickeltes Modell, das bereits bei der Entdeckung von Antibiotika und anderen Anwendungen eingesetzt wird, lernt diese Embeddings während des Trainingsprozesses selbst und verknüpft gleichzeitig molekulare Merkmale mit Eigenschaften wie der Löslichkeit.

Als sie an einem Satz von 1.000 Soluten getestet wurden, die von den Trainingsdaten zurückgehalten wurden, zeigten beide neuen Modelle eine bemerkenswerte Genauigkeit und übertrafen SolProp um das Zwei- bis Dreifache. Ihre Fähigkeit, selbst inmitten erheblichen experimentellen Rauschens subtile Variationen der Löslichkeit aufgrund der Temperatur präzise vorherzusagen, war laut Burns ein besonders starker Indikator für ihre robusten Lernfähigkeiten. Überraschenderweise zeigten beide Modelle trotz der theoretischen Vorteile des adaptiven Lernens von ChemProp praktisch identische Leistungen. Diese unerwartete Gleichheit deutet darauf hin, dass die primäre Einschränkung ihrer Leistung nicht die Modelle selbst sind, sondern vielmehr die inhärente Variabilität und Qualität der zugrunde liegenden Trainingsdaten, die oft aus verschiedenen Laboren unter unterschiedlichen experimentellen Bedingungen zusammengestellt werden.

Das Modell auf Basis von FastProp, FastSolv genannt, wurde aufgrund seiner Geschwindigkeit und seines anpassungsfähigen Codes zur öffentlichen Freigabe ausgewählt. Es wurde bereits kostenlos zur Verfügung gestellt und wird derzeit von zahlreichen Pharmaunternehmen übernommen. Diese Entwicklung verspricht, die Medikamentenentwicklung zu rationalisieren, indem Chemiker effizienter optimale Lösungsmittel für Reaktionen auswählen können. Entscheidend ist auch, dass es die Identifizierung weniger gefährlicher Alternativen zu gängigen Industrielösungsmitteln ermöglicht, was ein wichtiges Umwelt- und Sicherheitsproblem darstellt. Wie Burns bemerkt, ist das Modell „extrem nützlich, um das nächstbeste Lösungsmittel identifizieren zu können, das hoffentlich viel weniger schädlich für die Umwelt ist“.

Die Forschung, die von William Green, dem Hoyt-Hottel-Professor für Chemieingenieurwesen und Direktor der MIT Energy Initiative, betreut und von Patrick Doyle, dem Robert T. Haslam-Professor für Chemieingenieurwesen, mitverfasst wurde, wurde heute in Nature Communications veröffentlicht. Teilweise vom US-Energieministerium finanziert, markiert dieser Fortschritt einen entscheidenden Schritt hin zu einer effizienteren, sichereren und umweltbewussteren chemischen Synthese in einer Reihe von Industrien.