GPT-5：AI工具的“石器时代”与通用人工智能的飞跃

OpenAI备受期待的GPT-5在经历了近两年的行业猜测后终于面世。作为早期访问合作伙伴，我们有机会在各种应用中对这个新模型进行了广泛测试，从我们自己的平台Raindrop.ai到Cursor和Codex等开发环境。我们的总体印象是？GPT-5代表着向通用人工智能（AGI）迈出的深刻一步，尤其是在软件工程领域，它展现出卓越的能力，能够处理复杂的应用程序并在庞大的代码库中解决错综复杂的问题，通常一次性成功。

然而，情况并非全面“更好”那么简单。令人惊讶的是，GPT-5在写作方面表现不如其前身GPT-4.5甚至GPT-4o。在许多常见任务中，它不会立即让用户觉得是一个超级天才。这些表面上的缺陷，反而悖论性地揭示了通往AGI之旅中的根本性转变。要理解这一点，我们必须回顾石器时代。

人类智能的曙光由什么定义？它不是赢得一场国际象棋比赛或证明一个复杂的定理。石器时代有一个关键的发展：人类学会了使用工具。我们塑造了工具，反过来，工具也塑造了我们，从根本上改变了我们的认知能力。人类智能的核心通过工具表现并得到扩展。GPT-5开启了AI智能体和大型语言模型的新石器时代。这个模型不仅仅是使用工具；它用工具思考，并用工具构建。

考虑OpenAI的“深度研究”功能，它是基本网络搜索的重大演进。虽然之前的ChatGPT版本可以搜索网络，但深度研究被教导进行研究——规划、迭代和探索。网络搜索成为了其思维过程中不可或缺的一部分。GPT-5将这种理念扩展到它几乎可以访问的任何工具，只要这些工具被设计成强大、有能力且开放的，并且通常接受自然语言描述作为输入。GPT-5的有效工具通常分为四类：内部检索（如RAG系统或SQL查询）、网络搜索、代码解释器以及产生副作用的动作（如编辑文件或触发UI元素）。一个强大工具的典型例子是网络搜索本身，GPT-5决定搜索什么，而工具处理如何搜索。

另一个显著的进步是GPT-5在并行工具调用方面的熟练度。虽然早期模型在技术上拥有这种能力，但它们很少正确或一致地执行。然而，GPT-5展现出智能，能够识别哪些工具可以并且应该同时运行，而不是按顺序运行。这种并行化显著降低了延迟，并扩展了模型的操作范围，从而实现了全新的产品可能性。

与GPT-5交互需要视角上的转变。用户不应将自己视为在提示一个“模型”，而应将其视为在提示一个“智能体”。智能体需要一个“指南针”——清晰、结构化的指导来导航其环境，而不是预加载大量上下文。例如，在使用GPT-5处理大型代码库时，指定项目的目的、相关文件、组织结构以及明确的任务完成标准至关重要。如果模型卡住了，简单的“不，那是错的”不如询问“我们从尝试中学到了什么？”这种方法类似于教学，因为GPT-5没有内在记忆，需要适应代码标准并获得开始每个任务的提示。

我们的观察证实，GPT-5是一个高度实用、面向行业的模型，与一些前身更“学术”的倾向不同。它具有极强的可指令性和字面性，直接执行请求，而不是表现出Claude等模型中看到的独特“个性”。

GPT-5的编程能力是其无可否认的亮点。在一项特别具有挑战性的测试中，涉及集成新SDK时出现的嵌套依赖冲突，GPT-5一次性解决了问题，这一壮举是Claude Opus和其他高级模型都未能实现的。GPT-5像一位经验丰富的研究员一样处理这个问题：检查文件夹、运行诊断命令、做笔记，并在出现不一致时暂停推理，最终精确地编辑了多个目录中必要的行。这种迭代的、基于推理的调试与其它模型的试错方法形成了鲜明对比。其编程能力的其他展示包括使用纯HTML、CSS和JavaScript生成一个完整的Mac OS 9主题网站，包括一个功能齐全的画图应用程序和持久数据存储——所有这些都来自一个单一的提示，并且出奇地健壮。对于生产就绪的应用程序，GPT-5也表现出色，在一个单一提示中生成了一个复杂的Clickhouse查询和一个带有SQLite数据库的全栈网站，而其他模型通常只提供计划或不完整的骨架。

GPT-5增强的工具使用、并行处理和成本效益使其特别适合开发长期运行的AI智能体。我们公司作为一家AI监控公司，长期以来一直寻求将可靠的智能体集成到我们的产品中。GPT-5的能力，包括其从工具调用失败中恢复能力的提高，以及它能够判断何时生成图表而非图示的能力，最终使其成为一个实际可行的现实，从而能够向客户进行Beta版推广。

然而，GPT-5并非一个强大的写作者。事实上，GPT-4.5和DeepSeek R1的表现明显优于它。在专业写作方面，例如润色LinkedIn帖子，GPT-4.5更贴近用户的语调，提供可用的文本，而GPT-5则倾向于通用化的“LinkedIn垃圾”风格。同样，对于结构化程度较低的个人写作，GPT-4.5保持了更真实的语调，听起来不那么像典型的大型语言模型输出。

总而言之，我们的实践经验与OpenAI的官方基准一致：GPT-5无疑是全球领先的编码模型。它将软件工程的自动化程度从估计的65%提高到大约72%，标志着自GPT-3.5 Sonnet以来最显著的飞跃。虽然开发者会立即领会其深远影响，但普通用户可能要等到未来几个月它被无缝集成到日常产品中后，才能充分体会其能力。

GPT-5：AI工具的“石器时代”与通用人工智能的飞跃

相关文章

GPT-5：LLM法律应用需混合系统达99.9%准确率

AI的飞速发展：失控速度下的危机

GPT-5 对比竞争者：功能、定价与应用案例深度分析