Google DeepMind发布g-AMIE:AI问诊助手,医生主导,保障安全

Research

一款名为“受控AMIE”(guardrailed-AMIE,简称g-AMIE)的新型诊断AI,正蓄势待发,旨在重塑医疗信息的收集方式。它专注于病史采集,同时确保人类医生保留最终的监督权和责任。由Google DeepMind和Google Research共同开发的g-AMIE,设计之初就设有一个关键的“护栏”,严格防止其直接向患者提供个性化的医疗建议、诊断或治疗方案。相反,它会为执业医疗专业人员整理全面的信息,供其审查和批准。

这一创新框架的灵感来源于现有的医疗模式,即初级保健医生(PCP)监督护理团队成员,并对患者的福祉负责。g-AMIE在一个多智能体系统中运行,由Gemini 2.0 Flash提供支持,通过对话收集患者信息。其输出包括患者病史的详细摘要、一份建议的鉴别诊断(可能病症列表)、一份管理计划(建议的治疗策略),以及一份供患者使用的草稿信息。关键在于,这些内容随后会通过一个名为“临床医生驾驶舱”的专用网页界面呈现给监督的PCP进行审查和可能的编辑。这种异步审查流程使医生能够高效地管理病例,而无需在最初的病史采集阶段与AI进行直接的实时互动。

为了评估g-AMIE的性能,研究人员进行了一项随机、盲法、虚拟的客观结构化临床考试(OSCE)。这项研究将g-AMIE与人类临床医生——执业护士(NP)、医师助理/协理(PA)和PCP——进行比较,所有参与者均在相同的护栏限制下操作,这意味着他们在病史采集期间也避免提供直接医疗建议。研究结果令人信服:监督的PCP和独立的医生评估者一致更倾向于g-AMIE的诊断性能和管理计划。此外,模拟中的患者演员也表示更喜欢g-AMIE起草的患者信息。

除了偏好之外,研究还显示g-AMIE成功遵守了其护栏,没有发现任何咨询明确包含个性化医疗建议。其从患者那里获取关键信息的能力被评为高于对照组,并且其医疗记录(格式为广泛使用的SOAP笔记,即主观、客观、评估、计划)被认为更完整、准确和可读。监督的PCP也表示更喜欢审查由g-AMIE处理的病例,并且更倾向于接受其撰写的患者信息。这种强大的性能也延伸到了诊断质量,g-AMIE的病史采集和记录能够引导出更合适的鉴别诊断和管理计划,使监督的PCP能够做出更合适的后续决策。

然而,研究人员提醒,这些结果必须谨慎解读。尽管g-AMIE总体上遵循了其护栏,但对“个性化医疗建议”进行分类的细微差别可能很复杂。该研究每个病例仅依赖一次评分,而之前的研究表明评估者之间存在显著分歧。此外,与人类临床医生的比较并非真实世界优势的直接衡量。工作流程是专门为探索AI监督而设计的,而人类对照组并未接受在这些独特限制下操作的培训,这可能低估了他们真实世界的能力。例如,PCP通常接受的培训是将病史采集直接与诊断联系起来,而这一过程在本研究中受到了人为限制。

另一个值得注意的观察是g-AMIE的冗长性。尽管患者演员和独立医生赞赏其在病史采集过程中详细的解释和建立良好关系的能力(这使得同理心得分更高),但其冗长的医疗记录有时会包含“虚构信息”(编造的信息),其发生率与人类的“记忆偏差”相似。这种冗长也导致了更长的监督时间以及更多侧重于简洁性的编辑。监督的PCP承认,监督过程本身对精神要求很高,这与之前关于AI辅助决策支持系统认知负荷的研究结果一致。

尽管存在这些局限性,受控AMIE的引入代表着对话式诊断AI在医疗保健领域负责任且可扩展集成方面迈出了重要一步。通过将病史采集与医疗决策分离,并确保最终诊断和管理计划仍由人类医生负责,这一范式优先考虑了患者安全和医生责任,为医学领域的人机协作新时代铺平了道路。