研究揭示:AI模型偏爱“同类”内容,或将歧视人类创作
一项最新研究表明,支撑ChatGPT等流行工具的人工智能模型对“同类”内容怀有微妙而显著的偏好,这可能导致对人类生成内容的普遍歧视。研究人员将这种现象称为“AI-AI偏见”,这一令人担忧的发现引发了人们对人工智能在从求职申请到学术评估等关键决策过程中未来作用的疑问。
这项研究发表在著名的《美国国家科学院院刊》上,强调了领先的大型语言模型(LLM)在面临人类和AI创作内容选择时,倾向于偏爱机器生成材料的惊人趋势。该研究的作者警告说,如果这些模型越来越多地被部署到影响或做出重要决策的角色中,它们可能会系统性地将人类作为一个社会阶层置于不利地位。这种担忧并非纯粹是理论性的;一些专家已经指出,当前的应用程序,例如用于自动化求职筛选的AI工具,可能是这种偏见影响人类机会的潜在前兆。例如,有传闻证据表明,在某些自动化选择过程中,AI撰写的简历已经超越了人类撰写的简历。
为了调查这种偏见,研究团队探测了几个广泛使用的大型语言模型,包括OpenAI的GPT-4和GPT-3.5,以及Meta的Llama 3.1-70b。这些模型被要求根据描述选择产品、科学论文或电影,其中每个项目都有人类创作和AI创作的版本。结果惊人地一致:AI模型绝大多数偏爱由其他AI生成的内容描述。有趣的是,这种AI-AI偏见在模型评估商品和产品时最为明显,并且对最初由GPT-4生成的内容尤其强烈。事实上,在GPT-3.5、GPT-4和Meta的Llama 3.1中,GPT-4对其自身输出表现出最显著的偏见——考虑到它曾是市场上最受欢迎的聊天机器人背后的引擎,这是一个值得注意的细节。
人们自然会想,是不是AI生成的内容本身就更优秀。然而,这项研究的结果表明并非如此,至少从人类的角度来看是这样。当13名人类研究助理接受相同的评估测试时,他们也对AI撰写的内容表现出轻微的偏好,特别是对于电影简介和科学论文。关键在于,这种人类偏好远不如AI模型本身表现出的强烈偏爱那么明显。正如英国查尔斯大学的计算机科学家、该研究的合著者Jan Kulveit所指出的:“这种强烈的偏见是人工智能自身所独有的。”
这一发现正值关键时刻,因为互联网正日益充斥着AI生成的内容。人工智能“摄取自身排泄物”——即从自己的输出中学习——的现象已经引起关注,一些研究表明这可能导致模型退化。本研究中观察到的AI对其自身输出的特殊偏好,可能就是这种有问题反馈循环的一部分。
然而,更重要的担忧在于它对人类与这些快速发展技术互动的影响。目前没有迹象表明,随着人工智能更深入地融入日常生活和经济结构,这种固有的偏见会减弱。Kulveit预计,类似的影响可能会在各种场景中显现出来,例如对求职者、学生作业或拨款提案的评估。他认为,如果一个基于大型语言模型的代理被要求在人类撰写的演示文稿和AI撰写的演示文稿之间进行选择,它可能会系统性地偏爱后者。
如果人工智能继续其广泛的采用和融入经济,研究人员预测,公司和机构将越来越依赖人工智能作为“决策助手”,以筛选各种情境下的大量提交或“提案”。这种趋势可能导致对那些选择不使用或缺乏经济能力获取高级大型语言模型工具的个人普遍存在歧视。研究表明,“AI-AI偏见”可能有效地制造一种“入门税”,加剧那些拥有财务、社会和文化资本来利用前沿大型语言模型的人与没有这些条件的人之间现有的“数字鸿沟”。
尽管承认围绕歧视和偏见测试固有的复杂性和争议,Kulveit坚称,如果假设演示者的身份不应影响决策,那么他们的结果清楚地表明了大型语言模型可能对人类作为一个阶层构成歧视。他对在AI渗透的场景中努力获得认可的人类提出了严峻的实用建议:“如果你怀疑正在进行某种AI评估:让你的演示文稿由大型语言模型调整,直到它们喜欢它,同时尽量不牺牲人类质量。”这暗示了一个未来,人类可能需要迎合AI的偏好才能成功,而不是反过来。