GPT-5表现平平：AI重心从纯研究转向应用落地

Sam Altman，OpenAI的首席执行官，在GPT-5上周四发布之前，对其设定了极高的期望，声称其能力让他感到“相对于AI而言毫无用处”，并将其与原子弹的开发者相提并论。这一新产品被定位为不仅仅是渐进式升级，更是迈向通用人工智能（AGI）的关键一步——AGI是AI倡导者们长期承诺的AI前沿，他们相信它将从根本上更好地改变人类。然而，在如此巨大的期待背景下，GPT-5的表现却大体上令人失望。

早期测试者和评论家迅速指出了GPT-5回复中存在的明显错误，这直接与Altman发布当天关于该模型“在您需要的任何领域都像一个合法的博士级专家”的断言相矛盾。OpenAI承诺GPT-5将自动识别给定查询的最佳AI模型——无论是复杂的推理模型还是更快、更简单的模型——也出现了问题。Altman本人似乎也承认此功能存在缺陷并损害了用户控制权。从更积极的方面来看，据报道新模型解决了上一个版本过度奉承用户的倾向，GPT-5表现出较少对用户进行溢美之词。总的来说，正如一些观察家所指出的，这次发布更像是一次经过打磨的产品更新——提供了更流畅、更美观的对话界面——而不是AI能力上的突破性飞跃。

这种看似在原始智能方面的适度进步，反映了AI行业内部更广泛的转变。在一段时间内，AI公司主要专注于构建尽可能智能的模型，类似于一个通用的“大脑”，相信通用智能会自然地转化为从诗歌到有机化学的各种应用。该战略围绕着模型扩展、训练技术完善和追求基础技术突破展开。然而，这种方法似乎正在演变。由于预期的突破可能没有像希望的那样快速实现，当前的策略涉及积极地将现有模型推向特定应用，通常伴随着雄心勃勃的声明。例如，尽管早期证据表明并非如此，但公司越来越多地声称他们的AI模型可以取代人类程序员。这一转变意味着，在可预见的未来，大型语言模型的核心能力可能只会看到边际改进，迫使AI公司最大限度地利用其现有产品。

这种战略转变最明显的体现莫过于OpenAI明确鼓励用户利用GPT-5获取健康建议——这是一个特别棘手和敏感的领域。最初，OpenAI大体上避开了医疗查询，ChatGPT通常会提供大量关于其缺乏医疗专业知识的免责声明，有时甚至完全拒绝回答健康相关问题。然而，有报道称这些免责声明随着后续模型版本的发布而开始消失。OpenAI的模型现在可以解读X光片和乳房X光片，甚至可以提出后续问题，旨在引导用户进行诊断。

这种向医疗保健领域的刻意推进在五月份随着HealthBench的公布而得以巩固，这是一个旨在根据医疗专业人员的意见评估AI在健康主题方面熟练程度的系统。随后是七月份的一项由OpenAI共同撰写的研究，该研究报告称，在AI模型的辅助下，一组肯尼亚医生犯下的诊断错误更少。GPT-5的发布进一步巩固了这一轨迹，Altman特意介绍了OpenAI员工Felipe Millon和他的妻子Carolina Millon，后者最近被诊断出患有多种癌症。Carolina分享了她使用ChatGPT翻译活检结果中复杂的医学术语，并协助决策（例如是否进行放射治疗）的经验。三人将此呈现为一个弥合患者与医生之间知识鸿沟的赋能范例。

然而，这种方法的改变使OpenAI陷入了危险的境地。该公司似乎正在从“AI可以作为受过训练的医生有益的临床工具”的证据中进行推断，进而建议没有医学背景的个人直接从AI模型寻求个人健康建议。一个重大担忧是，许多用户可能会遵循此类建议而从未咨询医生，尤其是在现在聊天机器人很少提示他们这样做的情况下。就在GPT-5发布前两天，《内科医学年鉴》发表了一项案例研究，详细描述了一名男子在与ChatGPT交谈后停止食用盐并摄入危险量的溴化物，结果患上了严重的溴中毒——这种疾病自20世纪70年代以来在美国已基本根除——这生动地说明了这种风险。他差点丧命，住院数周。

从根本上讲，这种情况提出了关键的问责问题。当AI公司从承诺抽象的通用智能转向在医疗保健等专业领域提供类人帮助时，对错误承担责任的问题变得至关重要且在很大程度上悬而未决。北卡罗来纳大学夏洛特分校数据科学与哲学助理教授Damien Williams指出：“当医生因错误或偏见给出有害的医疗建议时，你可以起诉他们医疗事故并获得赔偿。”他将其与AI进行鲜明对比：“当ChatGPT因为其训练数据存在偏见，或者因为‘幻觉’是系统操作的固有特性而给出有害的医疗建议时，你的追索权是什么？”目前的局面几乎没有迹象表明科技公司将对其AI模型可能造成的损害承担责任。

GPT-5表现平平：AI重心从纯研究转向应用落地

相关文章

GPT-5：LLM法律应用需混合系统达99.9%准确率

AI的飞速发展：失控速度下的危机

GPT-5 对比竞争者：功能、定价与应用案例深度分析