OpenAI新开源大模型引社区褒贬不一
OpenAI,一家其名称本身就暗示着开放的公司,最近通过在宽松的Apache 2.0开源许可下发布两款新的大型语言模型(LLM)——gpt-oss-120B和gpt-oss-20B——做出了一个重要的转向。此举标志着自2019年以来,OpenAI首次公开发布尖端语言模型供无限制使用,这预示着其与过去2.7年来定义ChatGPT时代的专有、闭源方法显著不同。在此期间,用户通常需要付费才能访问OpenAI的模型,且定制化受限,无法离线或在私人硬件上运行。
新的gpt-oss模型旨在实现强大AI的民主化。较大的gpt-oss-120B设计用于单块Nvidia H100 GPU部署,适用于中小型企业数据中心;而其较小的对应模型gpt-oss-20B则足够轻量,可在消费级笔记本电脑上运行。然而,尽管这些模型在技术基准上取得了令人印象深刻的成绩,与OpenAI自身强大的专有产品相媲美,但更广泛的AI开发者和用户社区却给出了截然不同的反馈,就像一部电影首映在影评聚合网站上获得近乎50/50的评价分歧。
初步的独立测试反馈在乐观的热情和潜在的不满之间摇摆。许多批评源于与中国初创公司日益增长的强大、多模态LLM的直接比较,这些模型也采用Apache 2.0许可,可以自由改编并在世界任何地方本地运行。
尽管独立公司Artificial Analysis的智能基准测试将gpt-oss-120B定位为“最智能的美国开源权重模型”,但与DeepSeek R1和Qwen3 235B等中国重量级模型相比,它仍显不足。这种差距加剧了怀疑情绪。一位自称是DeepSeek爱好者的@teortaxesTex评论说,这些模型似乎只是在“基准测试上表现出色”,并预测其缺乏优秀的衍生模型或新的用例。化名开源AI研究员、Nous Research联合创始人Teknium也附和了这一观点,称此次发布是“名副其实的空头支票”,并表达了深深的失望,预计很快会被中国竞争对手超越。
进一步的批评集中在gpt-oss模型被认为的狭窄效用上。AI影响力人物“Lisan al Gaib”观察到,虽然这些模型在数学和编码方面表现出色,但它们“完全缺乏品味和常识”,质疑其更广泛的适用性。这种“基准最大化”的方法,即过度优化特定基准测试,据报道会导致异常输出;Teknium分享了一张截图,显示模型在创意写作测试中,在诗歌中间插入了一个积分公式。Prime Intellect的@kalomaze和前谷歌员工Kyle Corbitt等研究人员推测,gpt-oss模型可能主要是在合成数据上训练的——即专门用于训练新模型的AI生成数据。这种方法可能是为了规避版权问题或避免与真实世界数据相关的安全问题,导致模型“极其尖锐”,在编码和数学等训练任务上表现异常出色,但在创意写作或报告生成等更具语言性的任务上表现不佳。
第三方基准评估也引发了担忧。SpeechMap评估LLM对用户提示中不允许或敏感输出的遵守情况,结果显示gpt-oss-120B得分低于40%,接近同行垫底,表明其强烈倾向于默认内部安全防护。在Aider的Polyglot评估中,gpt-oss-120B在多语言推理方面仅获得41.8%的得分,显著落后于竞争对手。一些用户还报告,与对待美国和欧盟的态度形成对比,该模型异常抗拒生成对中国或俄罗斯的批评,这引发了对其训练数据中潜在偏见的质疑。
尽管存在这些批评,并非所有反应都是负面的。软件工程师Simon Willison称赞此次发布“令人印象深刻”,强调了模型的效率以及它们与OpenAI专有o3-mini和o4-mini模型达到同等水平的能力。他赞扬了它们在推理和STEM重度基准测试上的强大表现,以及创新的“Harmony”提示模板和对第三方工具使用的支持。Hugging Face首席执行官Clem Delangue敦促保持耐心,认为早期问题可能源于基础设施不稳定和优化不足。他强调“开源的力量在于没有作弊”,并保证模型的真正优势和局限性将逐渐被揭示。
沃顿商学院教授Ethan Mollick承认,美国现在可能拥有领先的开源权重模型,但他质疑OpenAI的长期承诺,指出如果该公司缺乏更新模型的激励,这种领先优势可能“迅速消失”。艾伦人工智能研究所(Ai2)的知名AI研究员Nathan Lambert赞扬了此次发布对开放生态系统的象征性重要性,特别是对西方国家而言,认可了最受认可的AI品牌回归开放发布的重大一步。然而,他警告说,由于Qwen等中国竞争对手已有的可用性和多样性,gpt-oss“不太可能显著减缓”它们。Lambert总结道,虽然此次发布标志着美国向开放模型的关键转变,但OpenAI在实践中仍有“漫长的道路”要走,才能真正赶上。