Deep Cogito v2:开源AI磨砺推理能力,效率大幅提升
Deep Cogito 公司宣布发布 Cogito v2,这是一系列旨在增强自身推理能力的新型开源AI模型。该系列在开源许可下发布,包含四款混合推理AI模型:两款中型版本,参数分别为700亿和1090亿;以及两款大型模型,参数分别为4050亿和6710亿。
其中最大的模型,一个拥有6710亿参数的专家混合(MoE)模型,已被公认为目前最强大的开源AI之一。Deep Cogito 声称,这款旗舰模型能有效与DeepSeek的最新产品竞争,并正在缩小与O3和Claude 4 Opus等先进专有系统之间的性能差距。
然而,Cogito v2 的重大进步不仅仅体现在其规模或原始算力上,而在于AI学习方式的根本性转变。Cogito v2 的设计理念并非简单地在推理过程中延长“思考”时间来寻找答案,而是旨在将自身的推理过程内化。
这种内化推理是通过一种名为“迭代蒸馏与放大”(IDA)的技术实现的。IDA 的工作原理是将搜索过程中发现的成果回馈并精炼到模型的核心参数中。其目标是培养更强的“直觉”,使模型能够预测自身推理的结果,而无需执行完整的搜索序列。
这种对正确方法的精炼“直觉”,使得这些开源AI模型生成的推理链据称比DeepSeek R1等竞争对手缩短了60%,显著提高了效率。
这种效率也延伸到了开发成本上。Deep Cogito 表示,从最初的实验到最终训练,所有模型的总开发支出不到350万美元。尽管这是一笔可观的资金,但与许多领先AI研究实验室通常投入的巨额投资相比,这个数字显得尤为适中。
这款6710亿参数的旗舰模型在训练过程中受到了特别关注。其开发不仅侧重于提高最终答案的准确性,还致力于完善思维过程本身。这种方法鼓励模型寻求更直接的解决方案路径,避免“迂回”或低效的推理。性能数据显示了这种方法的有效性,Deep Cogito 的开源AI在关键基准测试中与最新版DeepSeek持平或超越,并且与专有替代品表现接近。
这项开发中最令人惊讶的成果之一是模型涌现出的图像推理能力,这是一项它们从未明确接受过训练的技能。Deep Cogito 团队提供了一个例子,他们的开源AI模型比较了两张图片,一张是鸭子,一张是狮子。它纯粹通过迁移学习,展示了关于它们栖息地、颜色和构成方面的深度推理过程。Deep Cogito 相信这种意想不到的特性可以为未来的多模态推理系统提供强大的训练数据引导方法。
展望未来,Deep Cogito 团队计划继续利用迭代自我改进所取得的成果,持续追求通用人工智能。他们重申,所有创建的AI模型都将保持开源。