GPT-5的视觉:前沿VLM,而非全新SOTA
OpenAI备受期待的GPT-5最近接受了对其视觉和视觉推理能力的严格评估,Roboflow的研究人员对这款新模型进行了全面测试。虽然GPT-5在通用视觉理解方面展现出强大的进步,但初步评估表明,其在视觉识别和定位任务上的表现与当前可用的最佳模型非常接近,并未建立新的最先进水平。有趣的是,评估显示GPT-5-Mini取得了与其大型版本相同的视觉分数,这证明了评估人员所说的有效模型路由器正在发挥作用。
将强大的视觉理解能力整合到大型语言模型(LLM)中,长期以来一直是一个重要的障碍。许多模型在看似简单的任务上仍然表现不佳,例如准确计算照片中特定对象的数量,或精确识别图像中物品的位置。然而,LLM实时解释和与现实世界互动能力的实现被认为是关键性的突破,为自主机器人、更直观的人机交互以及个性化超智能的潜力铺平了道路。
当前视觉语言模型(VLM)的格局包括来自OpenAI(GPT和“o”系列)、谷歌(Gemini)、Anthropic(Claude)和Meta(Llama)等主要参与者的产品。这些模型在不同的视觉任务中表现出不同的优势和劣势。通常,它们在直接的挑战上表现良好,例如从标志、收据或验证码中读取文本,以及理解颜色。然而,更复杂的需求——包括精确计数、空间理解、详细的目标检测和全面的文档分析——揭示了显著的性能不一致性,特别是当底层预训练数据可能缺乏这些特定场景的足够示例时。
为了解决跨不同任务比较性能的挑战,Roboflow推出了Vision Checkup,这是一个开源评估排行榜,旨在评估“硬任务前沿性能”。OpenAI模型始终主导着这个排行榜,GPT-5现在已跻身前五名。这种强劲表现主要归因于模型先进的推理能力,这些能力在广泛的预训练期间得到发展,并在测试期间得到完善。这标志着多模态LLM的关键演变:跨文本和视觉信息进行推理的能力得到增强。然而,由于推理模型的非确定性性质,分数可能会波动,同样的提示可能会产生不同的答案。此外,图像推理的实际部署面临实际限制,因为处理一张图像可能需要10秒以上,并且答案的可变性使得它们难以依赖于实时应用。开发人员通常面临速度和综合能力之间的权衡,有时会选择更快、更专注于特定任务的模型。
为了超越一般的“感觉检查”并提供对LLM如何真正理解现实世界的更严格评估,Roboflow在今年的CVPR会议上推出了一项新基准:RF100-VL。该基准包含100个开源数据集,其中包含目标检测边界框、多模态少样本指令、视觉示例以及新颖图像领域中的丰富文本描述。在RF100-VL上,顶尖LLM在mAP50:95指标(衡量目标检测准确性的关键指标)上的得分普遍低于10。谷歌的Gemini 2.5 Pro目前在LLM中处于领先地位,实现了13.3的零样本mAP50:95。
相比之下,GPT-5在RF100-VL基准上的mAP50:95得分仅为1.5。这种显著差异主要归因于GPT-5在预训练中明显缺乏目标检测特定数据。例如,在涉及排球数据集的评估中,GPT-5清楚地理解了图像内容,正确识别了球、拦网者和防守者。然而,它始终未能准确地定位这些对象,边界框经常错位或尺寸不正确。这种模式在其他数据集(如包含绵羊的数据集)中也观察到,表明虽然模型理解视觉场景,但它在“接地”特定对象方面存在困难——这是目标检测预训练不足的直接后果。同样,在UI元素数据集上进行评估时,GPT-5在质量上没有显示出显著改进。
虽然GPT-5在更简单的视觉任务上确实比之前的OpenAI模型(如GPT-4o)有所改进,并受益于更详细的指令,但其在RF100-VL上的表现突出了一个关键区别:理解不等于精确的定位。推动GPT-5登上Vision Checkup排行榜榜首的增强推理能力,即使在“推理努力”增加的情况下,也未能转化为RF100-VL上更好的目标检测性能。这为视觉语言模型指明了一条清晰的前进道路:下一代模型不仅要更深入地处理视觉信息,还要在现实世界环境中准确地定位和理解对象,从抽象理解迈向具象的、本地化的理解。