MITのAIモデルが溶媒中の分子溶解度を予測

News

分子が特定の液体にどの程度溶解するかという性質、すなわち溶解度を予測することは、特に新薬開発において化学の基本的な課題です。この重要なステップは、しばしば医薬品設計と製造におけるボトルネックとなり、化学反応の効率から製造プロセスの安全性プロファイルまで、あらゆることを左右します。今回、MITの化学技術者たちは、この予測能力を大幅に向上させる洗練された計算モデルを発表しました。これは、創薬を加速し、産業界における危険性の低い溶媒の使用を促進することを約束するものです。

何十年もの間、化学者たちは、分子の内部化学構造からの寄与を統合するアブラハム溶媒和モデルなどのモデルに頼って溶解度を推定してきました。これらは役立つものの、従来のこれらの方法は精度が限られていました。最近では、機械学習が参入し、MITのウィリアム・グリーン研究室で2022年に開発されたSolPropのような進歩が見られます。SolPropは、関連する特性を予測し、熱力学的原理を用いてそれらを組み合わせることで、以前の方法を改善しました。しかし、トレーニング中に遭遇しなかった分子の溶解度を正確に予測することに苦慮しており、これは新規医薬品開発パイプラインにとって大きなハードルでした。

新しいモデルの推進力は、MITの大学院生ルーカス・アッティアとジャクソン・バーンズが、機械学習を化学工学に応用するコース中に共同で行ったプロジェクトから生まれました。彼らのブレークスルーは、2023年にBigSolDBがリリースされたことで大きく促進されました。これは、約800の発表された論文から溶解度情報を集めた包括的なデータセットです。この貴重なリソースには、100を超える一般的な有機溶媒に溶解した約800の分子に関するデータが含まれており、40,000を超えるデータポイントを網羅し、温度が溶解度に与える重要な影響までも考慮していました。

アッティアとバーンズは、この広範なデータセットで2つの異なる機械学習モデルを訓練しました。どちらのモデルも、「埋め込み」(原子数や結合配置などの詳細を捉える数値表現)を使用して分子構造を表現し、モデルがさまざまな化学的特性を予測できるようにしています。グリーン研究室のバーンズらが開発したFastPropというアプローチは、分子表現が事前に決定されている「静的埋め込み」を利用します。一方、ChemPropは、抗生物質の発見やその他のアプリケーションで既に利用されているMIT開発のモデルで、トレーニングプロセス中にこれらの埋め込みを学習し、同時に分子の特徴を溶解度のような特性と関連付けます。

トレーニングデータから除外された1,000個の溶質セットでテストしたところ、どちらの新しいモデルも驚くべき精度を示し、SolPropを2〜3倍上回りました。バーンズによると、大幅な実験ノイズの中でも、温度による溶解度の微妙な変化を正確に予測する能力は、彼らの堅牢な学習能力を特に強く示すものでした。驚くべきことに、ChemPropの適応学習の理論的な利点にもかかわらず、両モデルは事実上同じ性能を示しました。この予期せぬ同等性は、彼らの性能の主な制約がモデル自体ではなく、異なる実験条件を使用する多様な研究室からしばしば収集される、基礎となるトレーニングデータの固有のばらつきと品質にあることを示唆しています。

FastPropに基づくモデルはFastSolvと名付けられ、その速度と適応性の高いコードのため、一般公開のために選択されました。すでに無料で提供されており、現在、多くの製薬会社に採用されています。この開発は、創薬パイプラインを合理化し、化学者が反応に最適な溶媒をより効率的に選択できるようにすることを約束します。決定的に重要なのは、一般的に使用される工業用溶媒よりも危険性の低い代替品を特定することも可能にし、重大な環境および安全上の懸念に対処することです。バーンズが指摘するように、このモデルは「次の最適な溶媒を特定する上で非常に有用であり、それが環境へのダメージがはるかに少ないことを願っています」。

この研究は、MIT化学工学のホイト・ホッテル教授であり、MITエネルギーイニシアチブのディレクターであるウィリアム・グリーンによって監督され、化学工学のロバート・T・ハスラム教授であるパトリック・ドイルとの共著で、本日Nature Communicationsに掲載されました。米国エネルギー省から一部資金提供を受けたこの進歩は、さまざまな産業におけるより効率的で安全かつ環境に配慮した化学合成に向けた極めて重要な一歩となります。