腾讯混元大模型:中国顶尖多模态AI,LMArena榜单领先

Decoder

腾讯发布了混元大模型(Hunyuan-Large-Vision),这是一款新型多模态人工智能模型,已迅速在中国竞争激烈的AI领域确立了领先地位。该模型目前在LMArena视觉排行榜上超越所有中国参赛者,直接位列GPT-5和Gemini 2.5 Pro等西方顶级模型之后。

混元大模型基于复杂的专家混合(mixture-of-experts)架构构建,拥有令人印象深刻的3890亿参数,其中520亿在运行时被激活。这种设计允许模型针对特定任务选择性地激活最相关的组件,从而提高效率和性能。据报道,其能力可与领先模型Claude Sonnet 3.5媲美。在OpenCompass学术基准测试中,腾讯报告称混元大模型平均得分达到79.5,展现了其强大的分析能力。

这款新模型已超越其前身Qwen2.5-VL,成为LMArena视觉排行榜上排名最高的中国竞争者。该排行榜根据社区在正面比较中的偏好对AI图像模型进行排名。混元大模型在广泛的视觉和语言任务中表现出色。尽管与西方模型的比较引人注目,但值得注意的是,这些比较中使用的西方基准可能不总是反映最新的发布。

腾讯通过多种应用展示了该模型的通用性。它能准确识别特定的植物物种,如乳白色鸢尾,甚至能根据塞纳河的照片创作诗歌。除了创意方面,它还能在围棋等复杂游戏中提供战略建议,并精通将问题翻译成各种语言,包括一些不常见的语言,这比腾讯早期的视觉模型有了显著改进。

混元大模型的核心集成了三个主要模块:一个用于处理视觉信息的亿级参数自定义视觉Transformer、一个旨在无缝连接视觉和语言理解的连接器模块,以及一个利用专家混合技术(mixture-of-experts)的语言模型。视觉Transformer经过初步训练,建立了图像和文本之间的联系,随后使用超过万亿的多模态文本样本进行了广泛的优化。这种严格的训练使其在复杂的跨模态任务中超越了其他流行模型。

腾讯还为多模态数据实施了新型训练流程。该系统利用预训练AI和专业工具,将大量嘈杂的原始数据转化为高质量的指令数据。最终形成了一个包含4000多亿多模态文本样本的庞大数据集,涵盖视觉识别、数学、科学推理和光学字符识别(OCR)。模型的进一步优化涉及一种名为“拒绝采样”(Rejection Sampling)的技术,即针对给定提示生成多个响应,只保留最佳响应。自动化工具也被用于过滤错误和冗余,并将复杂的答案提炼成更简洁的形式,以提高推理效率。

训练过程本身受益于腾讯的Angel-PTM框架和多级负载均衡策略。这些创新将GPU瓶颈显著减少了18.8%,加速了整体训练时间。

目前,混元大模型仅通过腾讯云API提供。与腾讯之前的一些AI模型不同,此版本并非开源。鉴于其庞大的3890亿参数,在典型的消费级硬件上运行该模型是不切实际的,这突显了其为大规模云端应用而设计。