MIT人工智能模型精准预测分子在溶剂中的溶解度

News

预测分子在特定液体中的溶解程度(即溶解度)是化学领域的一项基本挑战,尤其是在新药研发中。这一关键步骤常常是药物设计和生产的瓶颈,它决定了从化学反应效率到生产过程安全性的方方面面。如今,麻省理工学院的化学工程师们推出了一种复杂的计算模型,显著提升了这一预测能力,有望加速药物发现并促进工业界使用危害性更小的溶剂。

几十年来,化学家们一直依赖阿布拉罕溶剂化模型等方法来估算溶解度,该模型汇总了分子内部化学结构的贡献。尽管有所帮助,但这些传统方法的准确性有限。最近,机器学习也加入了竞争,例如麻省理工学院威廉·格林(William Green)实验室于2022年开发的SolProp模型。SolProp通过预测相关属性并利用热力学原理将其结合,改进了以往的方法。然而,它在准确预测训练中未曾遇到的分子的溶解度方面存在困难,这是新型药物开发管线的一个重大障碍。

新模型的开发源于麻省理工学院研究生卢卡斯·阿蒂亚(Lucas Attia)和杰克逊·伯恩斯(Jackson Burns)在一次关于将机器学习应用于化学工程的课程中开展的合作项目。2023年发布的BigSolDB数据集极大地促进了他们的突破,该数据集汇编了近800篇已发表论文中的溶解度信息。这一宝贵资源包含了约800种分子在100多种常见有机溶剂中的溶解数据,涵盖了40,000多个数据点,甚至考虑了温度对溶解度的关键影响。

阿蒂亚和伯恩斯利用这个广泛的数据集训练了两个不同的机器学习模型。这两个模型都使用“嵌入”(即捕捉原子数量和键合排列等细节的数值表示)来表示分子结构,从而使模型能够预测各种化学性质。其中一种方法FastProp由伯恩斯和格林实验室的其他成员开发,利用“静态嵌入”,即分子表示是预先确定的。第二种是ChemProp,一个由麻省理工学院开发的模型,已用于抗生素发现和其他应用中,它在训练过程中学习这些嵌入,同时将分子特征与溶解度等性质关联起来。

当在1000个从训练数据中剔除的溶质集上进行测试时,这两个新模型都表现出卓越的准确性,性能比SolProp高出两到三倍。据伯恩斯称,它们能够精确预测温度引起的溶解度细微变化,即使在大量实验噪音中也能做到,这尤其有力地表明了它们强大的学习能力。令人惊讶的是,尽管ChemProp的自适应学习具有理论优势,但两个模型的表现几乎完全相同。这种意想不到的一致性表明,它们性能的主要限制并非模型本身,而是底层训练数据固有的变异性和质量,这些数据通常由不同实验室在不同实验条件下汇编而成。

基于FastProp的模型被命名为FastSolv,因其速度和适应性强的代码而被选定公开发布。它已经免费提供,目前正被众多制药公司采用。这一进展有望简化药物发现流程,使化学家能够更有效地选择最佳反应溶剂。至关重要的是,它还有助于识别常用工业溶剂的危害性更小的替代品,解决了重要的环境和安全问题。正如伯恩斯所指出的,该模型“在识别次优溶剂方面极其有用,希望这种溶剂对环境的损害要小得多”。

这项研究由化学工程霍伊特·霍特尔(Hoyt Hottel)教授兼麻省理工学院能源倡议主任威廉·格林(William Green)监督,并由化学工程罗伯特·T·哈斯拉姆(Robert T. Haslam)教授帕特里克·道尔(Patrick Doyle)共同撰写,今天发表在《自然-通讯》(Nature Communications)上。这项进展部分由美国能源部资助,标志着在更高效、更安全、更环保的化学合成方面迈出了关键一步,惠及各个行业。