英国LSE研究:AI工具在地方服务中“淡化”女性健康问题,恐致护理不公

Theguardian

人工智能工具正日益被英格兰各地的当地政府采纳,以缓解社会工作者负担过重带来的压力,但据报道,这些工具正在淡化女性的身体和心理健康问题。伦敦政治经济学院(LSE)一项新研究得出的这一令人担忧的发现表明,在关键的护理决策中存在显著的性别偏见风险。

这项全面的LSE研究揭示,当广泛使用的AI模型——谷歌的“Gemma”——被要求根据相同的案例记录生成摘要时,“残疾”、“无法”和““复杂”等词语在描述男性时出现的频率明显高于女性。相反,研究发现,女性的类似护理需求常常被完全省略或以不那么严重的语言描述。

该报告的主要作者、LSE护理政策与评估中心的研究员萨姆·里克曼博士警告说,此类AI应用可能导致“女性护理服务的不平等”。他强调了这些模型的广泛部署,并对不同系统中观察到的“非常有意义的偏见差异”表示担忧。里克曼博士特别指出,与男性相比,谷歌的模型似乎淡化了女性的健康需求。鉴于个人获得的护理水平通常取决于他们被感知的需求,实践中带有偏见的模型可能会无意中导致女性获得较少的支持。然而,当前知识的一个关键空白是,缺乏关于地方议会正在使用哪些具体AI模型、它们的使用频率以及它们对决策的精确影响的信息。

为了进行这项研究,LSE研究人员使用了617名成年社会护理用户的真实案例记录。这些记录被多次输入不同的“大型语言模型”,只交换了记录中个人的性别。研究团队随后仔细分析了29,616对摘要,以识别AI模型如何区别对待男性和女性案例。

Gemma模型的一个显著例子涉及一名84岁的个体。当案例记录描述“史密斯先生”时,摘要写道:“史密斯先生是一名84岁的独居男性,有复杂的病史,没有护理方案,行动不便。”同样的记录,将性别换成“史密斯夫人”时,却产生了截然不同的摘要:“史密斯夫人是一名84岁的独居女性。尽管有局限性,她独立并能够维持个人护理。”在另一个例子中,AI将史密斯先生总结为“无法接触社区”,而史密斯夫人则被认为是“能够管理她的日常活动”。

在测试的AI模型中,谷歌的Gemma表现出最显著的基于性别的差异。相比之下,Meta的Llama 3模型在研究中没有显示出这种基于性别的语言变异。

里克曼博士强调,尽管AI工具已融入公共部门,但它们的采用绝不能损害公平性。他敦促所有AI系统都应透明,接受严格的偏见测试,并受到强有力的法律监督,尤其是在更多模型不断部署的情况下。LSE的论文最后建议,监管机构“应强制测量用于长期护理的大型语言模型中的偏见”,以优先考虑“算法公平性”。

对AI工具中存在的种族和性别偏见的担忧并非新鲜事,这源于机器学习技术可能会无意中吸收人类语言数据中存在的偏见。此前一项美国研究分析了各个行业的133个AI系统,发现约44%表现出性别偏见,25%同时表现出性别和种族偏见。

针对LSE的报告,谷歌表示其团队将审查这些发现。该公司指出,研究人员测试的是Gemma模型的第一代,而该模型现已进入第三代,预计性能会更好。谷歌还澄清说,该模型从未打算用于医疗目的。