OpenAI GPT-5 指南:智能体工作流与代码开发新范式
OpenAI 发布了一份针对其最新大型语言模型 GPT-5 的详尽提示工程指南,深入阐述了如何利用其能力进行智能体工作流和高级编码应用。这份指南整合了 Cursor 代码编辑器集成所获得的经验教训,强调了 GPT-5 在复杂工具使用、精确指令遵循以及理解超长上下文方面的基础训练,使其成为构建自主 AI 智能体的理想选择。
对于智能体应用——即 AI 模型主动发起并执行多步骤任务的场景——OpenAI 推荐使用新的 Responses API。该 API 旨在在连续的工具调用之间保留模型的内部推理过程,显著提高效率和输出质量。OpenAI 的数据显示,仅通过从传统聊天补全(Chat Completions)切换到 Responses API 并使用“previous_response_id”参数传递先前的推理,就将交易领域的 Tau 基准分数从 73.9% 提升到了 78.2%。保持这种推理上下文不仅节省了处理令牌,还确保了计划在多次工具交互中得到一致遵循,从而带来更好的性能并减少延迟。
GPT-5 的“智能体主动性”(即其主动采取行动的倾向)可以通过提示工程和一个新的“reasoning_effort”参数进行微调。降低此参数会减少模型的自主性,而设定明确的上下文搜索标准并限制工具调用次数(例如,限制为两次)则能提供更大的控制,包括在存在不确定性时模型仍可继续执行的选项。相反,为了鼓励更大的主动性,指南建议增加推理努力(reasoning effort)并添加明确的持久化指令,以最大程度地减少不必要的澄清问题。它还建议建立明确的停止条件,区分安全和有风险的操作,并定义何时应将任务交还给人类用户的阈值。例如,在购买或支付流程等敏感场景中,建议用户干预的阈值应低于简单的搜索;在编程任务中删除文件应比基本文本搜索需要更多的谨慎。对于更长、多阶段的任务,GPT-5 经过训练,能够在开始时概述其计划,然后提供简洁的进度更新。这些更新的频率、风格和内容可以通过提示完全自定义,从简单的目标转述到结构化计划、顺序状态消息和全面的最终报告。OpenAI 还建议将高度复杂的任务分解为更小、可管理的分任务,分多个智能体轮次进行。
OpenAI 将 GPT-5 定位为软件开发的强大助手,能够处理大型代码库、调试、处理重大代码更改、执行多文件重构、实现重要新功能,甚至从零开始生成整个应用程序。对于新的 Web 应用程序开发,OpenAI 建议采用特定的技术栈,包括 Next.js (TypeScript)、React、HTML、Tailwind CSS、shadcn/ui、Radix Themes、流行的图标集、Motion 动画库以及各种现代字体。对于新的“绿地项目”(greenfield projects),指南提出了一种提示模式,即模型首先建立一套内部质量标准(通常是五到七个类别),然后迭代地完善其输出,直到所有标准完全满足。在进行增量更改或重构现有代码时,GPT-5 的修改旨在无缝集成。指南强调了明确反映代码库现有技术设置的重要性,包括其指导原则、目录结构和 UI/UX 规则。OpenAI 提供了清晰度、复用性、一致性、简洁性和视觉质量等示例原则,以及涵盖排版、颜色、间距、状态指示器和可访问性的技术栈标准和 UI/UX 指南。
通过 Cursor 代码编辑器的早期测试,获得了关于 GPT-5 行为的宝贵实际洞察。Cursor 旨在平衡模型的自主性与长任务中状态消息的简洁性。最初,GPT-5 在工具调用中生成过于详细的状态更新,同时生成过于简洁的代码,有时甚至使用单字母变量名。Cursor 通过将全局“verbosity”API 参数设置为低来解决此问题,同时在代码工具内部专门提示模型提供更详细的信息,指示其“首先为清晰性编写代码……在编写代码和代码工具时使用高详细度(verbosity)。”这种方法实现了简洁的状态和摘要消息,同时确保了高度可读的代码更改。Cursor 团队还观察到 GPT-5 有时会提出不必要的后续问题。提供关于撤销/拒绝功能和用户偏好更精确的上下文有助于减少这些中断,使模型能够主动应用更改并提交审查,而不是寻求事先批准。另一个关键发现是,对早期模型有效的提示有时会在 GPT-5 中触发过多的工具调用。通过减少这些“过度彻底”的指令,GPT-5 更善于辨别何时利用其内部知识以及何时利用外部工具。使用结构化的、类似 XML 的规范进一步改进了指令遵循,用户可配置的 Cursor 规则提供了额外的控制层。
除了“reasoning_effort”之外,GPT-5 还引入了一个新的“verbosity”API 参数,该参数独立控制最终答案的长度。虽然可以设置全局详细度值,但也可以根据需要进行覆盖,从而实现简洁的状态消息和详细的代码输出(如在 Cursor 集成中所示)。GPT-5 还支持“最小推理(minimal reasoning)”模式,该模式旨在实现最大速度,同时保留其底层推理范式的优势。OpenAI 建议此模式的提示以简短的理由开头,在工具调用前包含清晰的状态更新,提供明确且持久的工具指令,并鼓励智能体在交还任务之前完全完成任务。对于从 GPT-4.1 迁移的用户,OpenAI 指出了其先前指南中概述的模式。然而,OpenAI 警告称,GPT-5 在指令遵循方面极其字面化,模糊或矛盾的提示可能会扰乱其推理过程。为了帮助用户避免这些陷阱,OpenAI 提供了对其提示优化器(Prompt Optimizer)的访问权限,该工具旨在标记不一致和不明确的指令。