GPT-5:AI工具的“石器时代”与通用人工智能的飞跃
OpenAI备受期待的GPT-5在经历了近两年的行业猜测后终于面世。作为早期访问合作伙伴,我们有机会在各种应用中对这个新模型进行了广泛测试,从我们自己的平台Raindrop.ai到Cursor和Codex等开发环境。我们的总体印象是?GPT-5代表着向通用人工智能(AGI)迈出的深刻一步,尤其是在软件工程领域,它展现出卓越的能力,能够处理复杂的应用程序并在庞大的代码库中解决错综复杂的问题,通常一次性成功。
然而,情况并非全面“更好”那么简单。令人惊讶的是,GPT-5在写作方面表现不如其前身GPT-4.5甚至GPT-4o。在许多常见任务中,它不会立即让用户觉得是一个超级天才。这些表面上的缺陷,反而悖论性地揭示了通往AGI之旅中的根本性转变。要理解这一点,我们必须回顾石器时代。
人类智能的曙光由什么定义?它不是赢得一场国际象棋比赛或证明一个复杂的定理。石器时代有一个关键的发展:人类学会了使用工具。我们塑造了工具,反过来,工具也塑造了我们,从根本上改变了我们的认知能力。人类智能的核心通过工具表现并得到扩展。GPT-5开启了AI智能体和大型语言模型的新石器时代。这个模型不仅仅是使用工具;它用工具思考,并用工具构建。
考虑OpenAI的“深度研究”功能,它是基本网络搜索的重大演进。虽然之前的ChatGPT版本可以搜索网络,但深度研究被教导进行研究——规划、迭代和探索。网络搜索成为了其思维过程中不可或缺的一部分。GPT-5将这种理念扩展到它几乎可以访问的任何工具,只要这些工具被设计成强大、有能力且开放的,并且通常接受自然语言描述作为输入。GPT-5的有效工具通常分为四类:内部检索(如RAG系统或SQL查询)、网络搜索、代码解释器以及产生副作用的动作(如编辑文件或触发UI元素)。一个强大工具的典型例子是网络搜索本身,GPT-5决定搜索什么,而工具处理如何搜索。
另一个显著的进步是GPT-5在并行工具调用方面的熟练度。虽然早期模型在技术上拥有这种能力,但它们很少正确或一致地执行。然而,GPT-5展现出智能,能够识别哪些工具可以并且应该同时运行,而不是按顺序运行。这种并行化显著降低了延迟,并扩展了模型的操作范围,从而实现了全新的产品可能性。
与GPT-5交互需要视角上的转变。用户不应将自己视为在提示一个“模型”,而应将其视为在提示一个“智能体”。智能体需要一个“指南针”——清晰、结构化的指导来导航其环境,而不是预加载大量上下文。例如,在使用GPT-5处理大型代码库时,指定项目的目的、相关文件、组织结构以及明确的任务完成标准至关重要。如果模型卡住了,简单的“不,那是错的”不如询问“我们从尝试中学到了什么?”这种方法类似于教学,因为GPT-5没有内在记忆,需要适应代码标准并获得开始每个任务的提示。
我们的观察证实,GPT-5是一个高度实用、面向行业的模型,与一些前身更“学术”的倾向不同。它具有极强的可指令性和字面性,直接执行请求,而不是表现出Claude等模型中看到的独特“个性”。
GPT-5的编程能力是其无可否认的亮点。在一项特别具有挑战性的测试中,涉及集成新SDK时出现的嵌套依赖冲突,GPT-5一次性解决了问题,这一壮举是Claude Opus和其他高级模型都未能实现的。GPT-5像一位经验丰富的研究员一样处理这个问题:检查文件夹、运行诊断命令、做笔记,并在出现不一致时暂停推理,最终精确地编辑了多个目录中必要的行。这种迭代的、基于推理的调试与其它模型的试错方法形成了鲜明对比。其编程能力的其他展示包括使用纯HTML、CSS和JavaScript生成一个完整的Mac OS 9主题网站,包括一个功能齐全的画图应用程序和持久数据存储——所有这些都来自一个单一的提示,并且出奇地健壮。对于生产就绪的应用程序,GPT-5也表现出色,在一个单一提示中生成了一个复杂的Clickhouse查询和一个带有SQLite数据库的全栈网站,而其他模型通常只提供计划或不完整的骨架。
GPT-5增强的工具使用、并行处理和成本效益使其特别适合开发长期运行的AI智能体。我们公司作为一家AI监控公司,长期以来一直寻求将可靠的智能体集成到我们的产品中。GPT-5的能力,包括其从工具调用失败中恢复能力的提高,以及它能够判断何时生成图表而非图示的能力,最终使其成为一个实际可行的现实,从而能够向客户进行Beta版推广。
然而,GPT-5并非一个强大的写作者。事实上,GPT-4.5和DeepSeek R1的表现明显优于它。在专业写作方面,例如润色LinkedIn帖子,GPT-4.5更贴近用户的语调,提供可用的文本,而GPT-5则倾向于通用化的“LinkedIn垃圾”风格。同样,对于结构化程度较低的个人写作,GPT-4.5保持了更真实的语调,听起来不那么像典型的大型语言模型输出。
总而言之,我们的实践经验与OpenAI的官方基准一致:GPT-5无疑是全球领先的编码模型。它将软件工程的自动化程度从估计的65%提高到大约72%,标志着自GPT-3.5 Sonnet以来最显著的飞跃。虽然开发者会立即领会其深远影响,但普通用户可能要等到未来几个月它被无缝集成到日常产品中后,才能充分体会其能力。