谷歌Med-Gemini AI凭空捏造人体部位,引发安全担忧

Theverge

谷歌的医疗人工智能模型Med-Gemini最近在一份诊断报告中生成了一个不存在的解剖结构,医学专家强调,这一错误是AI在临床环境中部署所带来风险的关键例证。谷歌最初将其轻描淡写为“笔误”,但此事件已引发了关于AI“幻觉”和患者安全的更广泛讨论。

这一具体错误出现在2024年一篇介绍Med-Gemini的研究论文中,其中AI诊断出“旧的左基底神经节梗死”(old left basilar ganglia infarct)。获得委员会认证的神经学家兼AI研究员布莱恩·摩尔(Bryan Moore)指出,“基底神经节”(basilar ganglia)是两个不同脑部结构的混淆:“基底核”(basal ganglia),它有助于运动控制和学习;以及“基底动脉”(basilar artery),它为脑干供血。影响这些区域的疾病需要截然不同的治疗。摩尔向谷歌指出了这个错误,谷歌随后悄悄地、未加说明地修改了其配套博客文章,将“basilar ganglia”改成了“basal ganglia”。在摩尔的公开审视下,谷歌撤销了博客文章的修改,但添加了一个澄清说明,将错误归因于从训练数据中学习到的“常见的错误转录”。关键的是,这篇由50多人共同撰写并经过同行评审的原始研究论文仍未得到纠正。

Med-Gemini是一套AI模型,旨在通过汇总健康数据、生成放射报告和分析电子健康记录来协助医疗专业人员。谷歌最初将其宣传为在各个医学领域具有“巨大潜力”的“飞跃”。虽然它仍处于早期试验阶段,其“可信测试者计划”可能会扩展到实际试点场景,但AI错误的潜在影响正在不断升级。

医疗专业人员对这种不准确性表示深切关注。大型医疗系统Providence的首席医疗信息官毛林·沙阿(Maulin Shah)称该错误“极其危险”,强调在医疗语境中,几个字母的差异可能带来关键性的影响。他强调了AI传播错误信息的风险,并举例说明AI可能传播医疗记录中人为造成的错误,从而导致基于错误数据的决策。谷歌发言人杰森·弗赖登费尔兹(Jason Freidenfelds)表示,该公司与医学界合作,并对其模型的局限性保持透明,称该具体错误是对“遗漏病理”的“澄清”。

这个问题不仅限于Med-Gemini。谷歌的另一个医疗保健模型MedGemma最近也表现出不一致性。埃默里大学医学院的副教授朱迪·吉乔亚博士(Dr. Judy Gichoya)发现,MedGemma的诊断准确性会根据问题的措辞方式而显著变化。一个详细的查询可能会得出正确的诊断,而对同一图像进行一个更简单的查询却可能导致“正常”评估,从而错失气腹(膈下积气)等关键问题。

专家们担心,AI系统的普遍准确性可能导致人类医疗专业人员产生自满情绪,这种现象被称为“自动化偏差”。斯坦福大学医学院的乔纳森·陈博士(Dr. Jonathan Chen)将此描述为一个“非常奇怪的临界点”,即AI工具尽管尚不成熟,却被过快地采用。他强调,即使AI有时表现良好,其看似权威但错误的输出也可能具有高度误导性。

医学专家们的共识是,医疗领域的AI必须遵守比人类错误率高得多的标准。沙阿提倡“虚构警报”(confabulation alerts)——即设计AI系统来识别并标记其他AI模型潜在的“幻觉”,通过阻止信息或发出警告来处理。吉乔亚指出,AI倾向于“编造东西”而不是承认“我不知道”,这在医学等高风险领域是一个主要问题。杜克健康(Duke Health)的首席数据科学家迈克尔·彭奇纳博士(Dr. Michael Pencina)认为Med-Gemini的错误更像是幻觉而非笔误,强调了此类错误在高风险应用中的严重后果。他将当前的AI发展阶段比作“蛮荒西部”。

尽管承认潜在的好处,像陈博士这样的专家仍警告不要盲目信任AI,将其比作无人驾驶汽车的比喻,即自满会导致危险。他们强调,AI可以增强医疗保健,但不应取代关键的人工监督。Med-Gemini事件凸显了迫切需要更严格的测试、透明的错误纠正以及在将AI整合到临床实践中时采取谨慎、深思熟虑的方法,因为在医疗领域,即使是“不完美也可能令人无法忍受”。

谷歌Med-Gemini AI凭空捏造人体部位,引发安全担忧 - OmegaNext AI 新闻