Google AIのDeepPolisher:ディープラーニングでゲノムアセンブリ精度を飛躍的に向上

Marktechpost

Google AIは、カリフォルニア大学サンタクルーズ校ゲノミクス研究所と共同で、ゲノムアセンブリの精度を劇的に向上させる画期的なディープラーニングツール「DeepPolisher」を発表しました。この革新的なソフトウェアは、塩基レベルのエラーを綿密に修正することでその卓越した精度を実現しており、最近ではヒトパンゲノムリファレンスの進展におけるその極めて重要な役割が強調され、ゲノミクス研究における重要なマイルストーンとなっています。

完全で正確な参照ゲノムは、遺伝的多様性、遺伝形質、疾患メカニズム、および進化生物学を理解するための基礎を形成します。IlluminaやPacific Biosciencesのような業界リーダーを含む現代のシーケンシング技術は、データの精度とスループットを革新しましたが、30億以上のヌクレオチドからなる完全にエラーのないヒトゲノムをアセンブリするという途方もないタスクは、依然として非常に困難です。塩基レベルでのごくわずかなエラー率でも数千の不正確さを生み出し、重要な遺伝的変異を不明瞭にしたり、その後の分析で誤解を招いたりする可能性があります。

DeepPolisherは、シーケンシング補正のために特別に設計されたオープンソースのトランスフォーマーベースのツールとして際立っています。DeepConsensusで見られた基礎的な進歩に基づいて、洗練されたトランスフォーマーディープラーニングアーキテクチャを活用し、ゲノムアセンブリ内のエラーをさらに最小限に抑えます。その特定の強みは、挿入および欠失(インデル)エラーに対処することにあります。これらのエラーは、リーディングフレームをシフトさせる可能性があり、遺伝子アノテーション中に重要な遺伝子や調節要素が見落とされる可能性があり、厄介な問題として知られています。DeepPolisherの背後にある技術は、自然言語処理で実績のある技術を適応させ、ゲノムアプリケーションにエンコーダーのみのトランスフォーマーアーキテクチャを利用しています。

DeepPolisherは、その中核として、アラインされたPacBio HiFiリードを取得し、それらをハプロタイプ解決型ゲノムアセンブリと比較することによって機能します。その後、システムは25キロベースのウィンドウでアセンブリを体系的にスキャンし、リードからの証拠がアセンブリされた配列から逸脱している候補エラーサイトを特定します。これらの潜在的なエラーを含む各ウィンドウ(特に100塩基対未満のもの)について、DeepPolisherは、特定の塩基、その品質、マッピング品質、一致/不一致ステータスなど、リードのアラインメント特徴をマルチチャネルテンソル表現に変換します。これらのテンソルはトランスフォーマーモデルに供給され、モデルは特定された領域の修正された配列を予測します。最後に、このツールはこれらの修正をVCF形式で出力し、bcftoolsなどの標準的なバイオインフォマティクスツールを使用して元のAアセンブリに適用することで、高精度で洗練された配列が得られます。

DeepPolisherがゲノムアセンブリ精度に与える影響は甚大です。このツールは、総エラーを約50%削減し、インデルエラーを70%以上削減するという印象的な成果を達成しています。ヒトパンゲノムリファレンスコンソーシアム(HPRC)との実世界での応用では、DeepPolisherは50万アセンブリ塩基あたり1塩基エラーという驚異的な低エラー率を示しました。これはゲノム品質の大幅な向上につながり、平均アセンブリQスコアはQ66.7からQ70.1に上昇しました。これを別の観点から見ると、Qスコア70.1は1200万ヌクレオチドあたり1つ未満のエラーを意味し、信頼性において劇的な飛躍を遂げたことを示します。重要なことに、HPRCによってテストされたすべてのサンプルが改善を示し、派生したゲノム参照の完全性と精度を直接向上させました。例えば、ヒトパンゲノムリファレンス自体は、DeepPolisherの能力のおかげで、データが5倍に拡大し、エラーが大幅に削減されました。

DeepPolisherは単なる研究のブレークスルーではありません。すでに主要なゲノミクスプロジェクトに統合されています。HPRCの第2次データリリースにおける重要なコンポーネントであり、232人の高精度参照アセンブリに貢献し、ゲノム参照内の広範な祖先多様性を確保しました。さらに、このツールはGitHubを通じて公開されており、ケーススタディとDocker化されたワークフローが完備されているため、HiFiasmなどのツールによって生成され、PacBio HiFiリードでシーケンスされたアセンブリと簡単に使用できます。当初の焦点はヒトゲノムでしたが、DeepPolisherの根底にある構造とアプローチは、他の生物や多様なシーケンシングプラットフォームにも本質的に適応可能であり、ゲノミクスコミュニティ全体でより高い精度を促進することが期待されます。

DeepPolisherは、ゲノムポリッシング技術における大きな進歩を意味します。エラー率を大幅に削減することで、機能ゲノミクス研究の解像度を高め、稀な変異の発見を加速し、臨床応用の精度を向上させます。ほぼ完璧なゲノムアセンブリに対する永続的な障壁に対処することで、このツールはより正確な診断を直接可能にし、堅牢な集団レベルの遺伝子研究を促進し、生物医学研究と臨床医学の両方に間違いなく利益をもたらす次世代参照プロジェクトの基礎を築きます。