GPT-5的视觉：前沿VLM，而非全新SOTA

OpenAI备受期待的GPT-5最近接受了对其视觉和视觉推理能力的严格评估，Roboflow的研究人员对这款新模型进行了全面测试。虽然GPT-5在通用视觉理解方面展现出强大的进步，但初步评估表明，其在视觉识别和定位任务上的表现与当前可用的最佳模型非常接近，并未建立新的最先进水平。有趣的是，评估显示GPT-5-Mini取得了与其大型版本相同的视觉分数，这证明了评估人员所说的有效模型路由器正在发挥作用。

将强大的视觉理解能力整合到大型语言模型（LLM）中，长期以来一直是一个重要的障碍。许多模型在看似简单的任务上仍然表现不佳，例如准确计算照片中特定对象的数量，或精确识别图像中物品的位置。然而，LLM实时解释和与现实世界互动能力的实现被认为是关键性的突破，为自主机器人、更直观的人机交互以及个性化超智能的潜力铺平了道路。

当前视觉语言模型（VLM）的格局包括来自OpenAI（GPT和“o”系列）、谷歌（Gemini）、Anthropic（Claude）和Meta（Llama）等主要参与者的产品。这些模型在不同的视觉任务中表现出不同的优势和劣势。通常，它们在直接的挑战上表现良好，例如从标志、收据或验证码中读取文本，以及理解颜色。然而，更复杂的需求——包括精确计数、空间理解、详细的目标检测和全面的文档分析——揭示了显著的性能不一致性，特别是当底层预训练数据可能缺乏这些特定场景的足够示例时。

为了解决跨不同任务比较性能的挑战，Roboflow推出了Vision Checkup，这是一个开源评估排行榜，旨在评估“硬任务前沿性能”。OpenAI模型始终主导着这个排行榜，GPT-5现在已跻身前五名。这种强劲表现主要归因于模型先进的推理能力，这些能力在广泛的预训练期间得到发展，并在测试期间得到完善。这标志着多模态LLM的关键演变：跨文本和视觉信息进行推理的能力得到增强。然而，由于推理模型的非确定性性质，分数可能会波动，同样的提示可能会产生不同的答案。此外，图像推理的实际部署面临实际限制，因为处理一张图像可能需要10秒以上，并且答案的可变性使得它们难以依赖于实时应用。开发人员通常面临速度和综合能力之间的权衡，有时会选择更快、更专注于特定任务的模型。

为了超越一般的“感觉检查”并提供对LLM如何真正理解现实世界的更严格评估，Roboflow在今年的CVPR会议上推出了一项新基准：RF100-VL。该基准包含100个开源数据集，其中包含目标检测边界框、多模态少样本指令、视觉示例以及新颖图像领域中的丰富文本描述。在RF100-VL上，顶尖LLM在mAP50:95指标（衡量目标检测准确性的关键指标）上的得分普遍低于10。谷歌的Gemini 2.5 Pro目前在LLM中处于领先地位，实现了13.3的零样本mAP50:95。

相比之下，GPT-5在RF100-VL基准上的mAP50:95得分仅为1.5。这种显著差异主要归因于GPT-5在预训练中明显缺乏目标检测特定数据。例如，在涉及排球数据集的评估中，GPT-5清楚地理解了图像内容，正确识别了球、拦网者和防守者。然而，它始终未能准确地定位这些对象，边界框经常错位或尺寸不正确。这种模式在其他数据集（如包含绵羊的数据集）中也观察到，表明虽然模型理解视觉场景，但它在“接地”特定对象方面存在困难——这是目标检测预训练不足的直接后果。同样，在UI元素数据集上进行评估时，GPT-5在质量上没有显示出显著改进。

虽然GPT-5在更简单的视觉任务上确实比之前的OpenAI模型（如GPT-4o）有所改进，并受益于更详细的指令，但其在RF100-VL上的表现突出了一个关键区别：理解不等于精确的定位。推动GPT-5登上Vision Checkup排行榜榜首的增强推理能力，即使在“推理努力”增加的情况下，也未能转化为RF100-VL上更好的目标检测性能。这为视觉语言模型指明了一条清晰的前进道路：下一代模型不仅要更深入地处理视觉信息，还要在现实世界环境中准确地定位和理解对象，从抽象理解迈向具象的、本地化的理解。

GPT-5的视觉：前沿VLM，而非全新SOTA

相关文章

GPT-5：AI工具的“石器时代”与通用人工智能的飞跃

OpenAI联手美国政府：前沿模型仅售1美元，特朗普AI计划添新章

Google Gemini推出AI辅导，助力学生深度学习