谷歌Med-Gemini AI凭空捏造人体部位，引发安全担忧

谷歌的医疗人工智能模型Med-Gemini最近在一份诊断报告中生成了一个不存在的解剖结构，医学专家强调，这一错误是AI在临床环境中部署所带来风险的关键例证。谷歌最初将其轻描淡写为“笔误”，但此事件已引发了关于AI“幻觉”和患者安全的更广泛讨论。

这一具体错误出现在2024年一篇介绍Med-Gemini的研究论文中，其中AI诊断出“旧的左基底神经节梗死”（old left basilar ganglia infarct）。获得委员会认证的神经学家兼AI研究员布莱恩·摩尔（Bryan Moore）指出，“基底神经节”（basilar ganglia）是两个不同脑部结构的混淆：“基底核”（basal ganglia），它有助于运动控制和学习；以及“基底动脉”（basilar artery），它为脑干供血。影响这些区域的疾病需要截然不同的治疗。摩尔向谷歌指出了这个错误，谷歌随后悄悄地、未加说明地修改了其配套博客文章，将“basilar ganglia”改成了“basal ganglia”。在摩尔的公开审视下，谷歌撤销了博客文章的修改，但添加了一个澄清说明，将错误归因于从训练数据中学习到的“常见的错误转录”。关键的是，这篇由50多人共同撰写并经过同行评审的原始研究论文仍未得到纠正。

Med-Gemini是一套AI模型，旨在通过汇总健康数据、生成放射报告和分析电子健康记录来协助医疗专业人员。谷歌最初将其宣传为在各个医学领域具有“巨大潜力”的“飞跃”。虽然它仍处于早期试验阶段，其“可信测试者计划”可能会扩展到实际试点场景，但AI错误的潜在影响正在不断升级。

医疗专业人员对这种不准确性表示深切关注。大型医疗系统Providence的首席医疗信息官毛林·沙阿（Maulin Shah）称该错误“极其危险”，强调在医疗语境中，几个字母的差异可能带来关键性的影响。他强调了AI传播错误信息的风险，并举例说明AI可能传播医疗记录中人为造成的错误，从而导致基于错误数据的决策。谷歌发言人杰森·弗赖登费尔兹（Jason Freidenfelds）表示，该公司与医学界合作，并对其模型的局限性保持透明，称该具体错误是对“遗漏病理”的“澄清”。

这个问题不仅限于Med-Gemini。谷歌的另一个医疗保健模型MedGemma最近也表现出不一致性。埃默里大学医学院的副教授朱迪·吉乔亚博士（Dr. Judy Gichoya）发现，MedGemma的诊断准确性会根据问题的措辞方式而显著变化。一个详细的查询可能会得出正确的诊断，而对同一图像进行一个更简单的查询却可能导致“正常”评估，从而错失气腹（膈下积气）等关键问题。

专家们担心，AI系统的普遍准确性可能导致人类医疗专业人员产生自满情绪，这种现象被称为“自动化偏差”。斯坦福大学医学院的乔纳森·陈博士（Dr. Jonathan Chen）将此描述为一个“非常奇怪的临界点”，即AI工具尽管尚不成熟，却被过快地采用。他强调，即使AI有时表现良好，其看似权威但错误的输出也可能具有高度误导性。

医学专家们的共识是，医疗领域的AI必须遵守比人类错误率高得多的标准。沙阿提倡“虚构警报”（confabulation alerts）——即设计AI系统来识别并标记其他AI模型潜在的“幻觉”，通过阻止信息或发出警告来处理。吉乔亚指出，AI倾向于“编造东西”而不是承认“我不知道”，这在医学等高风险领域是一个主要问题。杜克健康（Duke Health）的首席数据科学家迈克尔·彭奇纳博士（Dr. Michael Pencina）认为Med-Gemini的错误更像是幻觉而非笔误，强调了此类错误在高风险应用中的严重后果。他将当前的AI发展阶段比作“蛮荒西部”。

尽管承认潜在的好处，像陈博士这样的专家仍警告不要盲目信任AI，将其比作无人驾驶汽车的比喻，即自满会导致危险。他们强调，AI可以增强医疗保健，但不应取代关键的人工监督。Med-Gemini事件凸显了迫切需要更严格的测试、透明的错误纠正以及在将AI整合到临床实践中时采取谨慎、深思熟虑的方法，因为在医疗领域，即使是“不完美也可能令人无法忍受”。

谷歌Med-Gemini AI凭空捏造人体部位，引发安全担忧

相关文章

澳大利亚版权立场震惊业界：科技巨头或免费获取AI内容

AI宣传新纪元：GoLaxy的精密影响力行动揭秘

OpenAI的AGI探索：从聊天机器人到类人推理的飞跃