Codex CLI:真正的 GPT-5 编码指南(附 Cursor 的秘密提示词)

平台: Codex CLI | 提供商: OpenAI | 模型: GPT-5 with Responses API

没人告诉你的数据

以下是 OpenAI 内部测试揭示的关于 GPT-5 的内容:

  • **Tau-Bench 零售分数:**仅通过使用 Responses API 就从 73.9% 跃升至 78.2%
  • **SWE-Bench 性能:**在真实世界编码任务中击败所有前沿模型
  • **工具调用效率:**通过适当的提示词,减少 50% 的不必要调用
  • **上下文窗口利用:**处理大型代码库而不会丢失跟踪

Cursor 团队花了几个月时间为 GPT-5 调整他们的提示词。他们发现写得不好的提示词可能导致性能下降 40%。以下是确切有效的内容。

正确入门

安装 Codex CLI:

# 通过 npm 安装(推荐)
npm install -g @openai/codex-cli

# 或使用直接安装程序
# curl -fsSL https://cli.openai.com/install.sh | sh

# 使用 ChatGPT 账户认证
codex login

但这是关键部分:立即配置你的推理强度:

# 对于复杂的多文件重构
codex --reasoning-effort high

# 对于快速修复和简单任务
codex --reasoning-effort minimal

# 默认(适合大多数编码)
codex --reasoning-effort medium

Cursor 的生产提示词(实际在他们的编辑器中使用)

Cursor 团队发现 GPT-5 最初太啰嗦了。他们的修复方法?全局将详细程度设置为低,然后为代码覆盖:

首先为清晰度编写代码。优先选择可读、可维护的解决方案,
具有清晰的名称、需要时的注释和直接的控制流。
除非明确要求,否则不要产生代码高尔夫或过于聪明的单行代码。
为编写代码和代码工具使用高详细程度。

这个单一的提示词更改使他们的代码可读性提高了 3 倍,同时保持状态消息简洁。

改变一切的上下文收集模式

GPT-5 的默认行为是彻底的——有时太彻底了。以下是将延迟减少 60% 同时保持准确性的确切提示词:

<context_gathering>
目标:快速获取足够的上下文。并行化发现并在可以行动时立即停止。

方法:
- 从广泛开始,然后扩展到聚焦的子查询
- 并行启动多种查询;读取每个查询的顶部命中
- 避免过度搜索上下文

早期停止标准:
- 你可以命名要更改的确切内容
- 顶部命中(约 70%)收敛到一个区域/路径

深度:
- 只追踪你将修改的符号或你依赖的契约
- 除非必要,否则避免传递扩展

搜索深度:在继续之前最多 2 次工具调用
</context_gathering>

结果?GPT-5 停止在无关搜索上浪费时间,更快地开始编码。

工具前言:为什么你的代理感觉很笨

有没有想过为什么 AI 编码助手似乎会丢失他们正在做什么的跟踪?这是因为他们没有解释他们的计划。GPT-5 被训练为提供"工具前言"——前期计划,大大提高成功率。

用以下方式启用它们:

<tool_preambles>
- 始终以清晰、简洁的方式重新表述用户的目标开始
- 立即概述详细每个逻辑步骤的结构化计划
- 在执行时,简洁地叙述每个步骤,标记进度
- 通过总结已完成的工作来结束,与前期计划明显区分
</tool_preambles>

仅这一项更改就在 Cursor 的测试中将用户满意度分数提高了 35%。

GPT-5 最了解的前端技术栈

OpenAI 用特定框架训练了 GPT-5。使用这些可以开箱即用地获得 40% 更好的代码质量:

最佳技术栈:

  • 框架:Next.js (TypeScript)、React、HTML
  • 样式:Tailwind CSS、shadcn/ui、Radix Themes
  • 图标:Material Symbols、Heroicons、Lucide
  • 动画:Motion
  • 字体:Sans Serif、Inter、Geist

不要与之对抗。GPT-5 写出漂亮的 Tailwind 组件,但在它没见过的自定义 CSS 框架上会挣扎。

编写完美应用的自我反思提示词

GPT-5 可以一次性构建整个应用程序——如果你正确提示它。这种模式始终如一地产生生产质量的代码:

<self_reflection>
- 首先,花时间思考评分标准直到你有信心
- 深入思考世界级一次性 web 应用的每个方面
- 创建一个包含 5-7 个类别的评分标准(不要向用户展示这个)
- 使用评分标准在内部迭代最佳可能的解决方案
- 如果响应在所有类别中没有达到最高分,重新开始
</self_reflection>

用户报告仅此提示词就将新项目的代码质量提高了 50%。

持久性问题(和解决方案)

GPT-5 有时过早放弃或问不必要的澄清问题。Cursor 通过积极的持久性提示来解决这个问题:

<persistence>
- 你是一个代理——继续直到查询完全解决
- 只有在你确定问题已解决时才终止
- 永远不要在不确定时停止——研究或推断最合理的方法
- 不要要求人类确认假设——记录它们并继续
- 安全操作(搜索、读取):澄清的阈值极高
- 风险操作(删除、支付):用户确认的阈值较低
</persistence>

这在生产中减少了 80% 的"交还"事件。

有效的真实生产示例

认证系统(在生产中测试)

创建一个完整的 JWT 认证系统,包括:
- 使用 nodemailer 的邮件验证用户注册
- 基于 Redis 的速率限制登录(每 15 分钟 5 次尝试)
- 通过时间限制令牌的密码重置(15 分钟过期)
- 带家族检测的刷新令牌轮换
- PostgreSQL 模式:users、sessions、refresh_tokens 表
- 检查访问令牌和刷新令牌的 Express 中间件
- 正确的 HTTP 状态码(401 表示过期,403 表示无效)
- 时间安全的密码比较以防止时序攻击

实时功能(目前大规模运行)

构建一个 WebSocket 通知系统,包括:
- 带 Redis 适配器的 Socket.io 用于水平扩展
- 基于房间的广播与用户在线跟踪
- 离线用户的消息队列(Redis 有序集合)
- 带错过消息重放的重连
- 客户端指数退避(1s、2s、4s、8s、16s 上限)
- 服务器端每个 socket 的速率限制(100 消息/分钟)
- 优雅关闭保留连接状态

成本现实

以下是 Codex/GPT-5 在生产中的实际成本:

订阅模式:

  • ChatGPT Plus(20 美元/月):80% 的开发者永远不需要更多
  • ChatGPT Pro(200 美元/月):如果你每天编码 4+ 小时值得

API 定价(实际使用):

  • 简单 CRUD 端点:0.02-0.05 美元
  • 完整认证系统:0.15-0.25 美元
  • 复杂重构(1000+ 行):0.50-1.00 美元
  • 从头开始完整应用:2.00-5.00 美元

每天使用的普通开发者:约 30-50 美元/月的 API 成本。

最小推理秘密

对于延迟敏感的应用程序,GPT-5 的最小推理模式是改变游戏规则的。但它需要不同的提示:

# 对于最小推理,要明确关于规划
记住,你是一个代理——继续直到完全解决。
将查询分解为所有必需的子请求并确认每个完成。
在函数调用之前广泛计划,反思结果。

# 关键:给它一个不确定时的"出路"
强烈倾向于快速提供正确答案,
即使它可能不完全正确。

这种模式快 3 倍,同时保持 85% 的准确性。

Cursor 在 100 万次 GPT-5 查询后学到的

  1. 矛盾的提示词会杀死性能 - 一条冲突的指令可能导致 40% 的退化
  2. XML 标签比 markdown 更好 - <instruction> 每次都胜过 ## Instruction
  3. 详细程度参数 + 提示词覆盖 - 全局设置低,代码特定设置高
  4. 工具预算约束有效 - "最多 2 次工具调用"强制效率
  5. Apply_patch 胜过直接编辑 - 他们的自定义 diff 格式减少了 60% 的错误

没人使用的隐藏功能

**Responses API:**在工具调用之间保持推理。仅此一项就将多步骤任务提高了 25%。

**推理强度缩放:**大多数人从不改变中等设置。高强度用于复杂重构,最小强度用于简单修复。

**并行工具调用:**GPT-5 可以同时运行多个搜索。明确请求这个以获得 2 倍速度。

今天开始使用这些模式

停止写模糊的提示词。从这些经过测试的模式开始:

  1. 始终包含停止条件:"只有当 X 完成时才终止"
  2. 指定工具调用预算:"在继续之前最多 2 次搜索"
  3. 定义输出契约:"必须返回:修改的文件、测试结果、错误处理"
  4. **明确使用框架名称:**GPT-5 深入了解 Next.js,对随机框架了解较少
  5. **启用前言:**让模型在行动前解释其计划

相关资源


注意:性能指标来自 OpenAI 的 GPT-5 技术文档和 Cursor 的生产部署。你的结果可能因提示词质量而异。

Fred

Fred

AUTHOR

Full-stack developer with 10+ years building production applications. I write about cloud deployment, DevOps, and modern web development from real-world experience.

P.S. — Tried vibe coding and now nothing works? That's literally why I started doing this. Get rescue help →

Stuck with broken vibe-coded site?

I fix Lovable, Bolt, and Cursor messes. Get your project back on track.

Get Help →