谷歌AI DeepPolisher:深度学习赋能,大幅提升基因组组装精度

Marktechpost

Google AI 与加州大学圣克鲁兹分校基因组学研究所合作,共同推出了 DeepPolisher,这是一款开创性的深度学习工具,旨在大幅提升基因组组装的精度。这款创新软件通过细致地纠正碱基水平错误,实现了其卓越的准确性,其在推动人类泛基因组参考(基因组学研究的一个重要里程碑)方面发挥的关键作用最近得到了强调。

完整而准确的参考基因组是理解遗传多样性、遗传性状、疾病机制和进化生物学的基石。尽管现代测序技术(包括来自 Illumina 和 Pacific Biosciences 等行业领导者的技术)已经彻底改变了数据准确性和通量,但组装一个完全无错的人类基因组(包含超过三十亿个核苷酸)仍然是一项极其艰巨的任务。即使是碱基水平上微小的错误率也可能引入数千个不准确之处,这可能会掩盖关键的遗传变异或导致后续分析中的误解。

DeepPolisher 作为一款开源的、基于 Transformer 的工具脱颖而出,专为测序校正而设计。它在 DeepConsensus 奠定的基础上,利用复杂的 Transformer 深度学习架构,进一步减少基因组组装中的错误。其独特优势在于解决插入和缺失(indel)错误,这些错误臭名昭著,因为它们可能导致读码框移位,从而可能在基因注释过程中忽略关键基因或调控元件。DeepPolisher 背后的技术借鉴了自然语言处理中成熟的技术,为基因组应用采用了仅编码器(encoder-only)的 Transformer 架构。

DeepPolisher 的核心操作是获取比对过的 PacBio HiFi 读长,并将其与单倍型解析的基因组组装进行比较。该系统随后以 25 千碱基的窗口系统地扫描组装序列,找出候选错误位点,即读长证据与组装序列存在分歧的地方。对于每个包含这些潜在错误的窗口(特别是那些小于 100 碱基对的),DeepPolisher 将读长比对特征(例如特定碱基、其质量、比对质量以及匹配/不匹配状态)转换为多通道张量表示。这些张量随后被输入到 Transformer 模型中,该模型预测识别区域的校正序列。最后,该工具以 VCF 格式输出这些校正,然后可以使用 bcftools 等标准生物信息学工具将其应用于原始组装序列,从而生成高度准确、经过“打磨”的序列。

DeepPolisher 对基因组组装精度的影响是巨大的。该工具实现了令人印象深刻的约 50% 的总错误率降低,以及更显著的超过 70% 的 indel 错误率降低。在人类泛基因组参考联盟(HPRC)的实际应用中,DeepPolisher 展现出惊人的低错误率,每 50 万个组装碱基仅有一个碱基错误。这意味着基因组质量显著提高,平均组装 Q 分数从 Q66.7 升至 Q70.1。换言之,Q 分数为 70.1 意味着每 1200 万个核苷酸中错误少于一个,这代表了可靠性方面的一次巨大飞跃。至关重要的是,HPRC 测试的每一个样本都显示出改进,直接增强了衍生基因组参考的完整性和精确性。例如,人类泛基因组参考本身的数据扩展了五倍,错误也大幅减少,这在很大程度上得益于 DeepPolisher 的能力。

DeepPolisher 不仅仅是一项研究突破;它已经融入了主要的基因组学计划。它是 HPRC 第二次数据发布的关键组成部分,为 232 个个体的参考组装提供了高精度,并确保了基因组参考中广泛的祖先多样性。此外,该工具通过 GitHub 公开访问,并附有案例研究和 Docker 化工作流程,使其可以方便地与 HiFiasm 等工具生成的组装序列以及 PacBio HiFi 读长测序的数据一起使用。虽然其最初的重点是人类基因组,但 DeepPolisher 的底层结构和方法本质上适用于其他生物体和多种测序平台,有望促进整个基因组学社区的更高精度。

DeepPolisher 代表着基因组“打磨”技术的一次重大飞跃。通过大幅降低错误率,它为功能基因组学研究提供了更高的分辨率,加速了稀有变异的发现,并增强了临床应用的精度。通过解决近乎完美基因组组装的持久障碍,该工具直接实现了更准确的诊断,促进了稳健的群体水平遗传研究,并为下一代参考项目奠定了基础,这些项目无疑将造福生物医学研究和临床医学。