MIT、タンパク質AIの「ブラックボックス」解明で予測メカニズムを可視化
生物学における人工知能の謎を解き明かす大きな一歩として、MITの研究者たちは、タンパク質言語モデルの内部動作を覗き込む新しい手法を発表しました。ChatGPTのようなツールを支える大規模言語モデル(LLM)に似たこれらの高度なAIシステムは、近年、タンパク質の構造と機能を予測するために不可欠なものとなっており、潜在的な薬剤標的の特定から治療用抗体の設計に至るまで、さまざまなタスクを支援しています。驚くほど正確であるにもかかわらず、その意思決定プロセスはほとんど不透明なままでした。この「ブラックボックス」現象が、研究者がその可能性を最大限に活用する能力を制限していました。
MITの大学院生オンカー・グジュラル(Onkar Gujral)と、MITコンピュータ科学・人工知能研究所の数学教授であり計算生物学グループの責任者であるボニー・バーガー(Bonnie Berger)上級著者によって主導されたこの新しい研究は、重要なブレークスルーを提供します。これらのモデルが予測を行う際に考慮する特定の機能を明らかにすることで、研究は科学者が特定のアプリケーションにより効果的なモデルを選択するのに役立ち、それによって新薬やワクチン候補の開発を効率化することが期待されます。バーガーが強調するように、この研究は、下流の生物学的応用にとって不可欠なAIシステムの解釈可能性を高める上で広範な意味を持ち、さらには新しい生物学的洞察を発見する可能性さえあります。この発見は『米国科学アカデミー紀要』(Proceedings of the National Academy of Sciences)に掲載されています。
タンパク質言語モデルは、テキストベースのモデルと同様の原理で動作します。単語を分析する代わりに、大量のアミノ酸配列を処理し、タンパク質の特性を予測できるパターンを学習します。例えば、2021年のバーガーの以前の研究では、このようなモデルを使用して、変異しにくいウイルス表面タンパク質のセクションを特定し、インフルエンザ、HIV、SARS-CoV-2に対する潜在的なワクチン標的を特定しました。しかし、これらの予測の背後にある正確なメカニズムは謎のままでした。
この計算上の「ブラックボックス」をこじ開けるために、MITチームは、最近従来のLLMを解明するために使用されたアルゴリズムの一種であるスパースオートエンコーダとして知られる技術を採用しました。ニューラルネットワーク内のタンパク質は通常、脳が情報を保存する方法と同様に、限られた数の「ノード」または「ニューロン」にわたる活性化のパターンによって表現されます。例えば、タンパク質は480個のそのようなノードによって表現されるかもしれません。スパースオートエンコーダは、この表現を劇的に拡張し、おそらく20,000個といったはるかに多くのノードに広げます。この拡張は、「スパース性制約」と組み合わされることで、情報が広がり、以前は複数のノードによってエンコードされていた特徴が、単一の専用ノードを占めることができるようになります。これにより、個々のノードの活性化がはるかに意味のある、解釈可能なものになります。
これらのスパース表現が生成されると、研究者たちはAIアシスタントのClaudeを利用してそれらを分析しました。Claudeは、新たに明示された表現を、分子機能、ファミリー、細胞内局在などの既知のタンパク質の特徴と比較しました。何千もの表現のこの分析を通じて、Claudeは、特定のタンパク質特性にどの特定のノードが対応しているかを特定し、それらを明確で理解しやすい言語で記述することができました。例えば、AIは、特定のニューロンがイオンやアミノ酸の膜輸送に関与するタンパク質、特に細胞膜に存在するものを検出すると報告するかもしれません。この研究により、タンパク質ファミリーや様々な代謝および生合成プロセスが、これらの新しく解釈可能なノードによって最も頻繁にエンコードされる特徴であることが明らかになりました。
タンパク質モデルがどの特徴を優先しているかを理解するこの新しい能力は、エキサイティングな可能性を切り開きます。研究者は、特定の研究課題に対してモデルをより賢く選択または微調整し、その入力を最適化して優れた結果を達成できるようになります。さらに、これらのモデルが能力と洗練度において進歩し続けるにつれて、その内部論理を解剖する能力は、まったく新しい生物学的原理を発見し、タンパク質と生命そのものに関する現在の理解の限界を押し広げることを約束します。