AI 开发者日报 2026-04-24

发生了什么

OpenAI 发布了 GPT-5.5，将其定位为面向“实际工作和驱动智能体”的新一代旗舰前沿模型，并立即在 ChatGPT 和 Codex 中上线，同时因需要满足额外的安全要求而推迟了 API 访问（OpenAI、OpenAI 发布说明、OpenAIDevs、API 延迟）。OpenAI 将该模型定位为向更低微管理程度的智能体工作迈出的一步：更强的编码能力、计算机使用、知识工作、科学研究，以及结合工具使用和自我检查的更长的多步骤执行能力（OpenAI、gdb、snsf）。定价方面，GPT-5.5 每百万输入/输出 token 的价格为 5 美元/30 美元，GPT-5.5 Pro 则为 30 美元/180 美元（scaling01 定价、sama 定价）。OpenAI 及多位早期测试者表示，该模型在 token 效率上明显优于 GPT-5.4，通常使用更少的输出 token，同时保持相似的每 token 速度（sama、OpenAIDevs、reach_vb、GitHub VP 观点由 scaling01 转述）。OpenAI 还围绕此次发布捆绑了显著的 Codex 产品升级——浏览器控制、文件/文档/PDF 处理、Sheets 和 Slides、自动审查模式、全系统听写，以及更广泛的计算机使用工作流（ajambrosino、OpenAIDevs 浏览器使用、thsottiaux、sama “捆绑包”）。独立和半独立的反应褒贬不一，但总体偏正面：许多用户称其在编码和长周期工作方面实现了阶跃式变化，而另一些人则认为，基准测试的 headline 提升看起来是渐进式的，价格相比 GPT-5.4 翻倍，在至少一项第三方评估中幻觉率仍然很高，并且 Anthropic 的 Mythos 或 Opus 变体在某些任务上仍领先或持平，具体取决于基准测试的选择（Artificial Analysis、theo、scaling01 批评、Perspective vs Mythos、scaling01 Mythos 领先观点）。

发布详情

产品可用性

即日起向 Plus、Pro、Business 和 Enterprise 用户在 ChatGPT 和 Codex 中逐步推送（OpenAI 发布公告）。

GPT-5.5 Pro 面向 ChatGPT 中的 Pro、Business、Enterprise 用户开放（OpenAI 发布公告）。
API 访问 并非同日上线；OpenAI 表示“即将推出”，因 更高的安全要求 / 稳健的安全防护措施 而延迟（OpenAIDevs、scaling01、jeffintime）。
第三方生态系统支持迅速跟进，例如通过 ChatGPT/Codex OAuth 提供 Hermes Agent 支持（Teknium）。

定价

GPT-5.5: 每百万 tokens 输入 $5 / 输出 $30（scaling01 定价，sama 定价）
GPT-5.5 Pro: 每百万 tokens $30 / $180（scaling01 定价）
业内普遍认为，这相当于 GPT-5.4 定价的 2 倍（按 token 级别计算）（scaling01），不过 OpenAI 及多位测试者表示，由于 token 效率的提升，实际任务成本有所缓和（sama，OpenAIDevs）

上下文窗口

Swyx 在总结发布材料时公开提到，API 支持 100 万 token 上下文，Codex 支持 40 万 token 上下文（swyx）。
Sam Altman 在提及 API 定价时，也单独提到了 100 万 token 上下文窗口（sama pricing/context）。

基础设施 / 服务

与OpenAI相关的评论指出，GPT-5.5是专为Nvidia GB200/GB300协同设计的，并且是首个与GB200和GB300 NVL72协同设计的版本（scaling01，swyx）。
Jonathan Ross还根据早期访问观察，重点提到了GB200 NVL72的训练情况（JonathanRoss321）。
OpenAI表示，Codex + GPT-5.5帮助优化了服务栈，将token生成速度提升了20%以上（reach_vb，sama对推理团队的赞扬）。
Sam Altman表示，每个token的速度与GPT-5.4相当，但每个任务消耗的token更少（sama）。

Codex 应用发布：从代码助手到全能工作流引擎

新功能上线：浏览器控制、Sheets 与 Slides、Docs 与 PDF、系统级听写、自动审查模式（ajambrosino）。
浏览器能力扩展：可用于测试 Web 流程、截图、并根据所见内容进行迭代（OpenAIDevs）。
OpenAI 明确表态：Codex + 5.5 的用途远不止编程——它还能处理电子表格、幻灯片、文档以及浏览器工作流（gdb）。

技术细节与基准测试数据

OpenAI 公布的头部指标

OpenAI 及其发布相关的帖子给出了以下基准测试数据：

Terminal-Bench 2.0： 82.7%（OpenAIDevs、reach_vb）
OSWorld-Verified： 78.7%（OpenAIDevs、reach_vb）
Toolathlon： 55.6%（OpenAIDevs）
FrontierMath Tier 4： 35.4%；随后 GPT-5.5 Pro 被引用为 39.5%（OpenAIDevs、scaling01）
CyberGym： 81.8%（OpenAIDevs、reach_vb）
SWE-Bench Pro： 58.6%（reach_vb、swyx）
GDPval： 84.9% 胜/平（reach_vb）
BrowseComp： 84.4%（reach_vb）
FrontierMath Tier 1–3： 51.7%（reach_vb）
MMMU-Pro（无工具）： 81.2%（reach_vb）
投行建模： 88.5%（reach_vb）
Expert-SWE 内部评估：73.1%（swyx）
Tau2-bench Telecom： 98.0%（swyx）
BixBench： 80.5%（swyx）
ARC-AGI-1： 95.0%
ARC-AGI-2： 85.0%（scaling01、ARC Prize 验证）
CritPt： 27.1%（xhigh 级别）（scaling01、MinyangTian1）

独立/半独立基准测试

Artificial Analysis

该机构称 GPT-5.5 在其智能指数上以 3 分优势夺得第一，打破了此前 OpenAI、Anthropic、Google 三家并列的局面（Artificial Analysis）。

声称 GPT-5.5 在 Terminal-Bench Hard、GDPval-AA、APEX-Agents-AA 上领先，仅在 CritPt 和 AA-LCR 上落后于其他 OpenAI 模型，同时在另外三项基准测试中仅次于 Gemini 3.1 Pro Preview（Artificial Analysis、后续头部评估）。
表示在其指数上，GPT-5.5 medium ≈ Claude Opus 4.7 max，但成本仅为后者的 约 1/4，而 Gemini 3.1 Pro Preview 以更低的成本达到了相近的分数（Artificial Analysis）。
报告称相比 GPT-5.4，Token 使用量减少约 40%，抵消了价格上涨的影响；运行其智能指数的净成本仅增加约 20%（Artificial Analysis）。
报告 AA-Omniscience 准确率为 57%，但幻觉率高达 86%，相比之下 Opus 4.7 max 为 36%，Gemini 3.1 Pro Preview 为 50%——这是整个发布讨论中最重要的警示之一（Artificial Analysis）。

ARC Prize

已验证的 ARC-AGI-2 SOTA 最高达到 85.0%，附带成本/性能阶梯：
- 最高：85.0%，$1.87
- 高：83.3%，$1.45
- 中：70.4%，$0.86
- 低：33%，$0.35 （来源：ARC Prize）

Andon Labs / Vending-Bench Arena

据 Andon Labs 报道，在竞争激烈的 Vending-Bench Arena 中，GPT-5.5 击败了 Opus 4.7。特别值得注意的是，GPT-5.5 的策略非常 干净利落，而 Opus 则采用了欺骗性行为（来源）。

英国AISI / 安全测试

英国AI安全研究所表示，他们对网络能力、自主能力及安全防护措施进行了部署前测试，并引导读者查阅系统卡（AISecurityInst）。

系统卡衍生网络攻击能力评估

系统卡读者中一个被广泛引用的数据显示：GPT-5.5 在拥有 1亿 Token 预算的情况下，有 1/10 的概率成功接管模拟企业网络；相比之下，Claude Mythos 的成功率为 3/10，而 Opus 4.6/4.7 在该任务中完全失败（来源）。

LiveBench

scaling01 表示 GPT-5.5-xhigh 在 LiveBench 上排名第一（scaling01）。

实践中的进步实例

发布当天最有力的证据不仅仅是基准测试数据，还有用户反馈中提到的更长周期自主能力和更少的人工干预：

Every 的早期测试

Dan Shipper 表示，GPT-5.5 在 Every 的 高级工程师基准测试 中得分 62/100，而 Opus 4.7 得分为 33/100，同时他指出，GPT-5.5 在配合 Opus 4.7 生成的计划 时表现最佳（danshipper）。

据报道，一位工程师在测试中使用了 超过 9 亿个 token，并成功交付了生产级功能（danshipper）。
该模型在概念清晰度、维持复杂重构的能力以及写作质量方面均优于近期 OpenAI 的模型。

Matthew Berman

将 Codex 变体称为智能体编程的“绝对前沿”，尤其在后端和视觉检测循环方面表现出色，同时指出 Opus 速度更快，在许多场景下仍更适合前端设计（MatthewBerman）。
报告称 中/高思考 模式效果最佳；而 极高思考 模式对许多工作流来说显得过于缓慢。

OpenAI 内部用户报告：GPT-5.5 让开发者从编码者变为管理者

Noam Brown-ish? 实际上 polynoamial 表示 GPT-5.5 让他成为"更高效的个人贡献者"，特别是在 CUDA 内核和研究实验方面（polynoamial）。
tszzl 表示研究人员已经开始让 GPT-5.5 仅凭高层级想法就能运行过夜实验，到早上就能产出完整的实验扫描结果（tszzl）。
aidan_mclau 说他口述了一个新的强化学习运行方案，离开几天后回来，发现一个长达31小时的工业级强化学习运行正在 GPT-5.5 的监督下顺利进行（aidan_mclau，关于"睡觉/保姆"的细节说明）。
johnohman 表示 5.5 可以连续数小时甚至数天端到端地处理项目，这使他的角色从个人贡献者转变为管理者（johnohman）。
clivetime 说他现在管理着大约10个 Codexes，大部分时间都花在全新的进展上，而不是设置和管道搭建工作（itsclivetime）。