Codex CLI：真正的 GPT-5 编码指南（附 Cursor 的秘密提示词）

October 25, 20253 min read

codex gpt-5 web-development cli terminal ai-development tutorial cursor

平台： Codex CLI | 提供商： OpenAI | 模型： GPT-5 with Responses API

没人告诉你的数据

以下是 OpenAI 内部测试揭示的关于 GPT-5 的内容：

**Tau-Bench 零售分数：**仅通过使用 Responses API 就从 73.9% 跃升至 78.2%
**SWE-Bench 性能：**在真实世界编码任务中击败所有前沿模型
**工具调用效率：**通过适当的提示词，减少 50% 的不必要调用
**上下文窗口利用：**处理大型代码库而不会丢失跟踪

Cursor 团队花了几个月时间为 GPT-5 调整他们的提示词。他们发现写得不好的提示词可能导致性能下降 40%。以下是确切有效的内容。

正确入门

安装 Codex CLI：

# 通过 npm 安装（推荐）
npm install -g @openai/codex-cli

# 或使用直接安装程序
# curl -fsSL https://cli.openai.com/install.sh | sh

# 使用 ChatGPT 账户认证
codex login

但这是关键部分：立即配置你的推理强度：

# 对于复杂的多文件重构
codex --reasoning-effort high

# 对于快速修复和简单任务
codex --reasoning-effort minimal

# 默认（适合大多数编码）
codex --reasoning-effort medium

Cursor 的生产提示词（实际在他们的编辑器中使用）

Cursor 团队发现 GPT-5 最初太啰嗦了。他们的修复方法？全局将详细程度设置为低，然后为代码覆盖：

首先为清晰度编写代码。优先选择可读、可维护的解决方案，
具有清晰的名称、需要时的注释和直接的控制流。
除非明确要求，否则不要产生代码高尔夫或过于聪明的单行代码。
为编写代码和代码工具使用高详细程度。

这个单一的提示词更改使他们的代码可读性提高了 3 倍，同时保持状态消息简洁。

改变一切的上下文收集模式

GPT-5 的默认行为是彻底的——有时太彻底了。以下是将延迟减少 60% 同时保持准确性的确切提示词：

<context_gathering>
目标：快速获取足够的上下文。并行化发现并在可以行动时立即停止。

方法：
- 从广泛开始，然后扩展到聚焦的子查询
- 并行启动多种查询；读取每个查询的顶部命中
- 避免过度搜索上下文

早期停止标准：
- 你可以命名要更改的确切内容
- 顶部命中（约 70%）收敛到一个区域/路径

深度：
- 只追踪你将修改的符号或你依赖的契约
- 除非必要，否则避免传递扩展

搜索深度：在继续之前最多 2 次工具调用
</context_gathering>

结果？GPT-5 停止在无关搜索上浪费时间，更快地开始编码。

工具前言：为什么你的代理感觉很笨

有没有想过为什么 AI 编码助手似乎会丢失他们正在做什么的跟踪？这是因为他们没有解释他们的计划。GPT-5 被训练为提供"工具前言"——前期计划，大大提高成功率。

用以下方式启用它们：

<tool_preambles>
- 始终以清晰、简洁的方式重新表述用户的目标开始
- 立即概述详细每个逻辑步骤的结构化计划
- 在执行时，简洁地叙述每个步骤，标记进度
- 通过总结已完成的工作来结束，与前期计划明显区分
</tool_preambles>

仅这一项更改就在 Cursor 的测试中将用户满意度分数提高了 35%。

GPT-5 最了解的前端技术栈

OpenAI 用特定框架训练了 GPT-5。使用这些可以开箱即用地获得 40% 更好的代码质量：

最佳技术栈：

框架：Next.js (TypeScript)、React、HTML
样式：Tailwind CSS、shadcn/ui、Radix Themes
图标：Material Symbols、Heroicons、Lucide
动画：Motion
字体：Sans Serif、Inter、Geist

不要与之对抗。GPT-5 写出漂亮的 Tailwind 组件，但在它没见过的自定义 CSS 框架上会挣扎。

编写完美应用的自我反思提示词

GPT-5 可以一次性构建整个应用程序——如果你正确提示它。这种模式始终如一地产生生产质量的代码：

<self_reflection>
- 首先，花时间思考评分标准直到你有信心
- 深入思考世界级一次性 web 应用的每个方面
- 创建一个包含 5-7 个类别的评分标准（不要向用户展示这个）
- 使用评分标准在内部迭代最佳可能的解决方案
- 如果响应在所有类别中没有达到最高分，重新开始
</self_reflection>

用户报告仅此提示词就将新项目的代码质量提高了 50%。

持久性问题（和解决方案）

GPT-5 有时过早放弃或问不必要的澄清问题。Cursor 通过积极的持久性提示来解决这个问题：

<persistence>
- 你是一个代理——继续直到查询完全解决
- 只有在你确定问题已解决时才终止
- 永远不要在不确定时停止——研究或推断最合理的方法
- 不要要求人类确认假设——记录它们并继续
- 安全操作（搜索、读取）：澄清的阈值极高
- 风险操作（删除、支付）：用户确认的阈值较低
</persistence>

这在生产中减少了 80% 的"交还"事件。

有效的真实生产示例

认证系统（在生产中测试）

创建一个完整的 JWT 认证系统，包括：
- 使用 nodemailer 的邮件验证用户注册
- 基于 Redis 的速率限制登录（每 15 分钟 5 次尝试）
- 通过时间限制令牌的密码重置（15 分钟过期）
- 带家族检测的刷新令牌轮换
- PostgreSQL 模式：users、sessions、refresh_tokens 表
- 检查访问令牌和刷新令牌的 Express 中间件
- 正确的 HTTP 状态码（401 表示过期，403 表示无效）
- 时间安全的密码比较以防止时序攻击

实时功能（目前大规模运行）

构建一个 WebSocket 通知系统，包括：
- 带 Redis 适配器的 Socket.io 用于水平扩展
- 基于房间的广播与用户在线跟踪
- 离线用户的消息队列（Redis 有序集合）
- 带错过消息重放的重连
- 客户端指数退避（1s、2s、4s、8s、16s 上限）
- 服务器端每个 socket 的速率限制（100 消息/分钟）
- 优雅关闭保留连接状态

成本现实

以下是 Codex/GPT-5 在生产中的实际成本：

订阅模式：

ChatGPT Plus（20 美元/月）：80% 的开发者永远不需要更多
ChatGPT Pro（200 美元/月）：如果你每天编码 4+ 小时值得

API 定价（实际使用）：

简单 CRUD 端点：0.02-0.05 美元
完整认证系统：0.15-0.25 美元
复杂重构（1000+ 行）：0.50-1.00 美元
从头开始完整应用：2.00-5.00 美元

每天使用的普通开发者：约 30-50 美元/月的 API 成本。

最小推理秘密

对于延迟敏感的应用程序，GPT-5 的最小推理模式是改变游戏规则的。但它需要不同的提示：

# 对于最小推理，要明确关于规划
记住，你是一个代理——继续直到完全解决。
将查询分解为所有必需的子请求并确认每个完成。
在函数调用之前广泛计划，反思结果。

# 关键：给它一个不确定时的"出路"
强烈倾向于快速提供正确答案，
即使它可能不完全正确。

这种模式快 3 倍，同时保持 85% 的准确性。

Cursor 在 100 万次 GPT-5 查询后学到的

矛盾的提示词会杀死性能 - 一条冲突的指令可能导致 40% 的退化
XML 标签比 markdown 更好 - <instruction> 每次都胜过 ## Instruction
详细程度参数 + 提示词覆盖 - 全局设置低，代码特定设置高
工具预算约束有效 - "最多 2 次工具调用"强制效率
Apply_patch 胜过直接编辑 - 他们的自定义 diff 格式减少了 60% 的错误

没人使用的隐藏功能

**Responses API：**在工具调用之间保持推理。仅此一项就将多步骤任务提高了 25%。

**推理强度缩放：**大多数人从不改变中等设置。高强度用于复杂重构，最小强度用于简单修复。

**并行工具调用：**GPT-5 可以同时运行多个搜索。明确请求这个以获得 2 倍速度。

今天开始使用这些模式

停止写模糊的提示词。从这些经过测试的模式开始：

始终包含停止条件："只有当 X 完成时才终止"
指定工具调用预算："在继续之前最多 2 次搜索"
定义输出契约："必须返回：修改的文件、测试结果、错误处理"
**明确使用框架名称：**GPT-5 深入了解 Next.js，对随机框架了解较少
**启用前言：**让模型在行动前解释其计划

Codex CLI：真正的 GPT-5 编码指南（附 Cursor 的秘密提示词）

没人告诉你的数据

正确入门

Cursor 的生产提示词（实际在他们的编辑器中使用）

改变一切的上下文收集模式

工具前言：为什么你的代理感觉很笨

GPT-5 最了解的前端技术栈

编写完美应用的自我反思提示词

持久性问题（和解决方案）

有效的真实生产示例

认证系统（在生产中测试）

实时功能（目前大规模运行）

成本现实

最小推理秘密

Cursor 在 100 万次 GPT-5 查询后学到的

没人使用的隐藏功能

今天开始使用这些模式

相关资源

Fred

Stuck with broken vibe-coded site?

Codex CLI：真正的 GPT-5 编码指南（附 Cursor 的秘密提示词）

没人告诉你的数据

正确入门

Cursor 的生产提示词（实际在他们的编辑器中使用）

改变一切的上下文收集模式

工具前言：为什么你的代理感觉很笨

GPT-5 最了解的前端技术栈

编写完美应用的自我反思提示词

持久性问题（和解决方案）

有效的真实生产示例

认证系统（在生产中测试）

实时功能（目前大规模运行）

成本现实

最小推理秘密

Cursor 在 100 万次 GPT-5 查询后学到的

没人使用的隐藏功能

今天开始使用这些模式

相关资源

Fred

Stuck with broken vibe-coded site?

Stay in the Loop