腾讯混元大模型：中国顶尖多模态AI，LMArena榜单领先

腾讯发布了混元大模型（Hunyuan-Large-Vision），这是一款新型多模态人工智能模型，已迅速在中国竞争激烈的AI领域确立了领先地位。该模型目前在LMArena视觉排行榜上超越所有中国参赛者，直接位列GPT-5和Gemini 2.5 Pro等西方顶级模型之后。

混元大模型基于复杂的专家混合（mixture-of-experts）架构构建，拥有令人印象深刻的3890亿参数，其中520亿在运行时被激活。这种设计允许模型针对特定任务选择性地激活最相关的组件，从而提高效率和性能。据报道，其能力可与领先模型Claude Sonnet 3.5媲美。在OpenCompass学术基准测试中，腾讯报告称混元大模型平均得分达到79.5，展现了其强大的分析能力。

这款新模型已超越其前身Qwen2.5-VL，成为LMArena视觉排行榜上排名最高的中国竞争者。该排行榜根据社区在正面比较中的偏好对AI图像模型进行排名。混元大模型在广泛的视觉和语言任务中表现出色。尽管与西方模型的比较引人注目，但值得注意的是，这些比较中使用的西方基准可能不总是反映最新的发布。

腾讯通过多种应用展示了该模型的通用性。它能准确识别特定的植物物种，如乳白色鸢尾，甚至能根据塞纳河的照片创作诗歌。除了创意方面，它还能在围棋等复杂游戏中提供战略建议，并精通将问题翻译成各种语言，包括一些不常见的语言，这比腾讯早期的视觉模型有了显著改进。

混元大模型的核心集成了三个主要模块：一个用于处理视觉信息的亿级参数自定义视觉Transformer、一个旨在无缝连接视觉和语言理解的连接器模块，以及一个利用专家混合技术（mixture-of-experts）的语言模型。视觉Transformer经过初步训练，建立了图像和文本之间的联系，随后使用超过万亿的多模态文本样本进行了广泛的优化。这种严格的训练使其在复杂的跨模态任务中超越了其他流行模型。

腾讯还为多模态数据实施了新型训练流程。该系统利用预训练AI和专业工具，将大量嘈杂的原始数据转化为高质量的指令数据。最终形成了一个包含4000多亿多模态文本样本的庞大数据集，涵盖视觉识别、数学、科学推理和光学字符识别（OCR）。模型的进一步优化涉及一种名为“拒绝采样”（Rejection Sampling）的技术，即针对给定提示生成多个响应，只保留最佳响应。自动化工具也被用于过滤错误和冗余，并将复杂的答案提炼成更简洁的形式，以提高推理效率。

训练过程本身受益于腾讯的Angel-PTM框架和多级负载均衡策略。这些创新将GPU瓶颈显著减少了18.8%，加速了整体训练时间。

目前，混元大模型仅通过腾讯云API提供。与腾讯之前的一些AI模型不同，此版本并非开源。鉴于其庞大的3890亿参数，在典型的消费级硬件上运行该模型是不切实际的，这突显了其为大规模云端应用而设计。

腾讯混元大模型：中国顶尖多模态AI，LMArena榜单领先

相关文章

DeepMind的Genie 3：AGI突破性AI世界模型，开启无限虚拟世界

Meta AI展现自我改进能力；扎克伯格限制公开版本发布

Meta AI的TRIBE模型：无需扫描即可预测大脑对视频的反应