OpenAI泄露:开源GPT模型即将发布,或重塑AI格局
据报道,OpenAI即将发布一个重要的开源AI模型,有迹象表明其发布时间迫近。
这一猜测源于一系列数字痕迹,主要是GitHub等平台上现已被删除的模型仓库的截图。这些仓库,名称如yofo-deepcurrent/gpt-oss-120b
和yofo-wildflower/gpt-oss-20b
,据称与OpenAI团队账户相关联。gpt-oss
这一名称被广泛解读为“GPT开源软件”,预示着OpenAI在多年专注于专有模型后,可能战略性地回归其更加开放的起源。多个代号和参数大小的存在表明这是一个计划中的模型家族。
据称来自一份泄露的配置文件,进一步的细节揭示了这款疑似1200亿参数的版本。该模型似乎基于专家混合(MoE)架构。在这种设计中,系统并非由一个单一的大型模型处理所有任务,而是智能地为每个查询选择几个专门的“专家”——在本例中是128个中的4个。这种方法将大型模型的庞大知识容量与通常与小型系统相关的操作效率和速度结合起来,因为在任何给定时间只有其一小部分组件是活跃的。除了其架构,该模型据说还具有大词汇量,可提高其在各种语言中的效率,并采用滑动窗口注意力(Sliding Window Attention),使其能够有效地处理大量文本序列。
如果这些规格被证实准确,OpenAI潜在的开源发布将直接与开源AI领域的现有模型竞争,尤其是Mistral AI的Mixtral和Meta的Llama系列。
此次发布的时机引发了关于OpenAI战略动机的猜测。多年来,该公司因偏离其对开放性的基本承诺而面临批评,尤其是在其高级模型日益商业化之后。一次强大的开源发布可以作为与感到被忽视的开发者和研究社区重新建立联系的重要姿态。此外,它代表着一次精明的竞争策略。Meta和Mistral等公司已经证明,一个充满活力的开源生态系统如何能够加速创新并促进广泛采用。通过引入高性能开源模型,OpenAI不仅将进入这个竞争舞台,还将寻求影响其发展方向。
尽管这些细节尚未得到OpenAI的证实,但泄露的代码和配置文件证据为这一猜测提供了相当大的支持。像OpenAI这样著名的公司如果推出一个高性能的1200亿参数开源MoE模型,无疑将标志着人工智能领域的一个重大发展,而且它的到来似乎已近在咫尺。