麻省理工破解蛋白质AI“黑箱”,揭示预测奥秘加速药物发现

News

在生物学领域人工智能去神秘化的重要一步中,麻省理工学院的研究人员公布了一项新颖方法,能够深入探究蛋白质语言模型的内部运作机制。这些先进的AI系统,类似于驱动ChatGPT等工具的大型语言模型(LLMs),近年来在预测蛋白质结构和功能方面变得不可或缺,协助完成从识别潜在药物靶点到设计治疗性抗体等任务。尽管这些系统准确度极高,但其决策过程在很大程度上仍不透明——这种“黑箱”现象限制了研究人员充分利用其潜力的能力。

这项由麻省理工学院研究生Onkar Gujral和资深作者、数学教授兼麻省理工学院计算机科学与人工智能实验室计算与生物学小组负责人Bonnie Berger领导的新研究,带来了一项关键突破。通过阐明这些模型在做出预测时所考虑的具体特征,这项研究有望帮助科学家为特定应用选择更有效的模型,从而简化新药和疫苗候选物的开发。正如Berger所强调的,这项工作对于增强对下游生物应用至关重要的AI系统的可解释性具有广泛影响,甚至可能揭示新的生物学见解。研究结果已发表在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences)上。

蛋白质语言模型的操作原理与其基于文本的对应物相似。它们不分析单词,而是处理大量的氨基酸序列,学习模式使其能够预测蛋白质特征。例如,Berger在2021年的早期工作利用这样一个模型来确定病毒表面蛋白中不易发生突变的区域,从而识别出针对流感、HIV和SARS-CoV-2的潜在疫苗靶点。然而,这些预测背后的确切机制仍然是个谜。

为了打开这个计算“黑箱”,麻省理工学院团队采用了一种名为稀疏自编码器(sparse autoencoder)的技术,这是一种最近被用于阐明传统LLMs的算法。神经网络中的蛋白质通常通过受限数量的“节点”或“神经元”上的激活模式来表示——这类似于大脑存储信息的方式。例如,一个蛋白质可能由480个这样的节点表示。稀疏自编码器极大地扩展了这种表示,将其扩展到数量更多的节点上,可能多达20,000个。这种扩展,结合“稀疏性约束”,使得信息得以分散,确保以前由多个节点编码的特征现在可以占据一个独立的专用节点。这使得每个独立节点的激活变得更具意义和可解释性。

生成这些稀疏表示后,研究人员利用AI助手Claude对其进行分析。Claude将新明确的表示与已知的蛋白质特征(如分子功能、家族或细胞位置)进行比较。通过对数千个表示的分析,Claude能够识别哪些特定节点对应于特定的蛋白质特性,并以清晰、易懂的语言进行描述。例如,AI可能会报告某个神经元检测到参与跨膜离子或氨基酸转运的蛋白质,特别是那些存在于质膜中的蛋白质。研究显示,蛋白质家族以及各种代谢和生物合成过程是这些新可解释节点最常编码的特征。

这种理解蛋白质模型优先考虑哪些特征的新能力,开启了令人兴奋的可能性。研究人员现在可以更智能地选择或微调模型以解决特定的研究问题,优化其输入以获得更优结果。此外,随着这些模型在能力和复杂性上不断进步,剖析其内部逻辑的能力有望发现全新的生物学原理,从而拓展我们目前对蛋白质和生命本身的理解。

麻省理工破解蛋白质AI“黑箱”,揭示预测奥秘加速药物发现 - OmegaNext AI 新闻