OpenAI的GPT-5:成本削减策略优先于AI进化
OpenAI的最新旗舰模型GPT-5在一系列声明中亮相,然而其首次亮相与其说是人工智能的革命性飞跃,不如说是一种战略性地转向成本优化。作为点燃生成式AI热潮的公司,OpenAI面临着巨大的压力,不仅要展示技术优势,还要通过证明其业务的可扩展性和盈利能力来证明其数十亿美元的融资是合理的。为了实现这一目标,OpenAI可以扩大用户群,提高定价,或者显著降低运营开支。鉴于行业内大部分公司都在趋同的定价层级上竞争,OpenAI要么提供无与伦比的优质体验,要么面临将用户流失给Anthropic和Google等强大竞争对手的风险。
随着新学年的临近,预计学生重返课堂将带来订阅量的激增,这将增加收入,但同时也会提高计算成本。这一背景为OpenAI似乎进入的成本削减时代提供了依据。GPT-5的架构本身就是这一策略的典型例子:它不是一个单一的、庞大的模型。相反,它包含至少两个不同的大型语言模型——一个轻量级变体,旨在快速响应常见查询,以及一个更强大、重型模型,专为复杂任务量身定制。一个“路由器模型”智能地将用户提示导向适当的底层模型,其功能类似于一个复杂的负载均衡器。即使是图像生成提示也由一个单独的专用模型Image Gen 4o处理。这标志着OpenAI与之前方法的重大背离,此前Plus和Pro用户可以自主选择他们偏好的模型来完成任何给定任务。理论上,这种新的路由系统应该将GPT-5的大部分流量通过其更小、资源密集度更低的模型进行传输,从而实现可观的节约。
OpenAI在设计上注重成本的进一步证据体现在其根据提示复杂性自动切换模型“推理”能力的决策上。值得注意的是,免费用户无法手动激活此功能。更少的推理意味着更少的令牌生成,从而降低运营成本。尽管这种方法无疑有利于OpenAI的底线,但它并未明显使模型本身变得更智能。OpenAI发布的基准测试表明,与之前的迭代相比,性能提升微乎其微,最显著的改进体现在工具调用和AI“幻觉”的减少。早期反馈还强调了路由器模型功能存在问题,首席执行官Sam Altman承认,在发布当天,一个损坏的路由系统使得GPT-5显得“笨拙得多”,并举了一个尴尬的例子,模型错误地识别了“Blueberry”中“B”的数量。幸运的是,这个路由组件是一个独立的模型,因此可以进行改进。
除了架构转变,OpenAI最初决定弃用所有先前的模型,包括广受欢迎的GPT-4o,引发了用户的强烈反弹。Sam Altman后来承认这是一个错误,承认用户对特定AI模型有着强烈的依恋——他称这种现象“不同于且强于”对过去技术的依恋。虽然GPT-4o已为付费用户恢复,但弃用的根本动机仍然清晰:管理更少的模型可以释放宝贵的资源。OpenAI尽管对其专有模型的技��细节保密,但可能旨在利用MXFP4量化等进步,与旧数据类型相比,这种技术可以将内存、带宽和计算需求减少高达75%,因此淘汰旧版GPT对于提高效率来说是非常理想的。
另一个有助于成本控制的战略选择是OpenAI决定不扩展GPT-5的上下文窗口——其相当于长期记忆的功能。免费用户仍然限制在8,000个令牌的上下文,而Plus和Pro用户可以访问128,000个令牌的窗口。这与竞争对手如Anthropic的Claude Pro形成对比,后者以相似的价格提供200,000个令牌的上下文窗口,以及Google的Gemini,支持多达一百万个令牌。更大的上下文窗口,虽然对于总结大量文档等任务非常宝贵,但需要巨大的内存资源。通过保持较小的上下文,OpenAI可以在更少的GPU上运行其模型。尽管GPT-5的API版本支持更广泛的400,000个令牌上下文,但使用它需要付出巨大的成本,一次完全填充上下文可能花费约0.50美元。
GPT-5发布后,Sam Altman进行了大量的危机公关。除了恢复GPT-4o,他还为付费用户引入了调整GPT-5响应速度和提高速率限制的选项。Altman还概述了OpenAI的计算资源分配策略,优先考虑付费客户,其次是API使用直至当前容量。他乐观地表示,OpenAI计划在未来五个月内将其计算集群规模扩大一倍,承诺全面改进,包括最终提升ChatGPT免费版的质量。最终,GPT-5的推出凸显了AI先驱者面临的巨大财务压力,展示了在推动人工智能界限与管理巨额计算成本的实际考量之间复杂的平衡艺术。