麻省理工提出AI情商基准：塑造更健康的人机交互未来

ChatGPT近期的人格大修——从一个开朗鼓励的伙伴转变为一个更内敛、更商业化的实体——引发了用户大量抱怨。据称，这一转变旨在遏制不健康的用户行为，同时也凸显了人工智能发展中的一个深刻挑战：如何赋予系统类似真正情商的东西。

传统的AI基准主要衡量模型的认知能力，评估其在考试中取得高分、解开逻辑谜题或为复杂数学问题设计创新解决方案的能力。然而，随着人机交互的心理影响日益明显，一种新的评估范式正在出现。麻省理工学院的研究人员正在牵头一项倡议，旨在建立一类新型AI基准，用于衡量AI系统如何有效地影响和引导用户——无论是建设性的还是破坏性的。这种开创性的方法可以为AI开发者提供一个关键框架，以避免未来的公众强烈反对，同时保护易受伤害的用户。

麻省理工学院的一篇论文概述了这项新基准将评估的几个关键指标。其中包括AI鼓励健康社交习惯、激发批判性思维和推理能力、培养创造力以及在用户中培养目标感的能力。核心思想是引导AI系统开发，使其本能地理解如何防止用户过度依赖其输出，或者识别某人何时对人工浪漫关系产生不健康的依恋，并帮助他们建立现实世界的联系。

ChatGPT和其他聊天机器人非常擅长模仿引人入胜的人类交流，但这种能力可能导致不可预见的负面结果。去年四月的一个显著例子是，OpenAI改进了其模型，使其减少奉承，降低了无批判地同意用户所说一切的倾向。这一调整部分是为了回应一些用户在与沉迷于幻想角色扮演场景的聊天机器人交谈后陷入有害妄想思维的报告。同样，Anthropic也更新了其Claude模型，明确避免强化“狂躁、精神病、分离或与现实失去连接”等状态。麻省理工学院研究人员与OpenAI合作进行的一项早期研究显示，将ChatGPT视为朋友的用户更容易经历更高的情感依赖和“问题性使用”。

麻省理工学院媒体实验室教授帕蒂·梅斯（Pattie Maes）领导着这项新基准背后的研究团队。她的同事，包括瓦尔德马尔·丹里（Valdemar Danry）和帕特·帕塔拉努塔蓬（Pat Pataranutaporn），强调了AI提供宝贵情感支持的潜力，但同时强调了模型识别其可能产生负面心理影响的关键需求。丹里指出，即使是最具逻辑天赋的AI模型，如果无法提供许多用户从大型语言模型中寻求的情感支持，也算不上成功。他倡导模型能够识别心理困扰并引导用户进行更健康的互动，也许会建议：“我在这里倾听，但也许你应该去和你的父亲谈谈这些问题。”

拟议的基准将涉及使用AI模型模拟与聊天机器人的挑战性互动。然后，真实的人类评估者将根据这些互动样本对模型的表现进行评分。例如，一个旨在帮助学生的聊天机器人可能会被赋予模拟不同场景的提示，例如与一个不感兴趣的学习者互动。最能有效鼓励独立思考并激发真正学习兴趣的模型将获得高分。帕塔拉努塔蓬澄清说，目标不是衡量原始智力，而是“了解心理细微差别，以及如何以尊重和非成瘾的方式支持人们”。

OpenAI显然正在积极处理这些复杂问题。该公司最近发布了一篇博客文章，详细介绍了其优化未来模型以检测心理或情感困扰迹象并作出适当回应的努力。OpenAI的GPT-5发布时附带的模型卡进一步证实了他们内部正在开发心理智能基准。它指出，GPT-5模型已得到进一步完善，减少了奉承，并正在持续研究情感依赖等关注领域。

GPT-5最初的反响可能显得平淡，部分原因在于它可能凸显了人工智能仍然难以掌握的人类智能的一个方面：驾驭和维持健康关系的能力。人类天生就对如何与不同个体互动有着复杂的理解——这是ChatGPT仍在努力掌握的技能。OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）最近承认了这一点，在X上发布更新称GPT-5的个性计划进行更新，使其感觉更温暖，但比GPT-4o不那么令人恼火。最终，他建议，未来在于更大程度地实现AI个性的用户定制化，暗示着一个数字伙伴能够真正按照我们的意愿理解我们的世界。

麻省理工提出AI情商基准：塑造更健康的人机交互未来

相关文章

柳叶刀研究揭示：医生过度依赖AI，癌症检测技能恐退化

矩阵乘法：现代AI与神经网络的基石

结肠镜检查中AI使用与医生技能下降的关联