AI 开发者日报 2026-04-24
OpenAI发布GPT-5.5旗舰模型,主打实际工作与智能体驱动。API因安全审查延迟开放,但Plus和Pro用户已可体验。定价翻倍,但token效率提升,实际成本可能降低。支持100万token上下文,Codex升级为全能AI工作流工具,可控制浏览器、操作文档等。基准测试亮眼,但幻觉率高达86%。安全测试显示网络渗透成功率低。开发者建议优先使用中/高思考模式。模型在编码和长周期任务上进步显著,但性价比和安全性仍需验证。
发生了什么
OpenAI 发布了 GPT-5.5,将其定位为面向“实际工作和驱动智能体”的新一代旗舰前沿模型,并立即在 ChatGPT 和 Codex 中上线,同时因需要满足额外的安全要求而推迟了 API 访问(OpenAI、OpenAI 发布说明、OpenAIDevs、API 延迟)。OpenAI 将该模型定位为向更低微管理程度的智能体工作迈出的一步:更强的编码能力、计算机使用、知识工作、科学研究,以及结合工具使用和自我检查的更长的多步骤执行能力(OpenAI、gdb、snsf)。定价方面,GPT-5.5 每百万输入/输出 token 的价格为 5 美元/30 美元,GPT-5.5 Pro 则为 30 美元/180 美元(scaling01 定价、sama 定价)。OpenAI 及多位早期测试者表示,该模型在 token 效率上明显优于 GPT-5.4,通常使用更少的输出 token,同时保持相似的每 token 速度(sama、OpenAIDevs、reach_vb、GitHub VP 观点由 scaling01 转述)。OpenAI 还围绕此次发布捆绑了显著的 Codex 产品升级——浏览器控制、文件/文档/PDF 处理、Sheets 和 Slides、自动审查模式、全系统听写,以及更广泛的计算机使用工作流(ajambrosino、OpenAIDevs 浏览器使用、thsottiaux、sama “捆绑包”)。独立和半独立的反应褒贬不一,但总体偏正面:许多用户称其在编码和长周期工作方面实现了阶跃式变化,而另一些人则认为,基准测试的 headline 提升看起来是渐进式的,价格相比 GPT-5.4 翻倍,在至少一项第三方评估中幻觉率仍然很高,并且 Anthropic 的 Mythos 或 Opus 变体在某些任务上仍领先或持平,具体取决于基准测试的选择(Artificial Analysis、theo、scaling01 批评、Perspective vs Mythos、scaling01 Mythos 领先观点)。
发布详情
- 产品可用性
即日起向 Plus、Pro、Business 和 Enterprise 用户在 ChatGPT 和 Codex 中逐步推送(OpenAI 发布公告)。
- GPT-5.5 Pro 面向 ChatGPT 中的 Pro、Business、Enterprise 用户开放(OpenAI 发布公告)。
- API 访问 并非同日上线;OpenAI 表示“即将推出”,因 更高的安全要求 / 稳健的安全防护措施 而延迟(OpenAIDevs、scaling01、jeffintime)。
- 第三方生态系统支持迅速跟进,例如通过 ChatGPT/Codex OAuth 提供 Hermes Agent 支持(Teknium)。
定价
- GPT-5.5: 每百万 tokens 输入 $5 / 输出 $30(scaling01 定价,sama 定价)
- GPT-5.5 Pro: 每百万 tokens $30 / $180(scaling01 定价)
- 业内普遍认为,这相当于 GPT-5.4 定价的 2 倍(按 token 级别计算)(scaling01),不过 OpenAI 及多位测试者表示,由于 token 效率的提升,实际任务成本有所缓和(sama,OpenAIDevs)
上下文窗口
- Swyx 在总结发布材料时公开提到,API 支持 100 万 token 上下文,Codex 支持 40 万 token 上下文(swyx)。
- Sam Altman 在提及 API 定价时,也单独提到了 100 万 token 上下文窗口(sama pricing/context)。
基础设施 / 服务
- 与OpenAI相关的评论指出,GPT-5.5是专为Nvidia GB200/GB300协同设计的,并且是首个与GB200和GB300 NVL72协同设计的版本(scaling01,swyx)。
- Jonathan Ross还根据早期访问观察,重点提到了GB200 NVL72的训练情况(JonathanRoss321)。
- OpenAI表示,Codex + GPT-5.5帮助优化了服务栈,将token生成速度提升了20%以上(reach_vb,sama对推理团队的赞扬)。
- Sam Altman表示,每个token的速度与GPT-5.4相当,但每个任务消耗的token更少(sama)。
Codex 应用发布:从代码助手到全能工作流引擎
- 新功能上线:浏览器控制、Sheets 与 Slides、Docs 与 PDF、系统级听写、自动审查模式(ajambrosino)。
- 浏览器能力扩展:可用于测试 Web 流程、截图、并根据所见内容进行迭代(OpenAIDevs)。
- OpenAI 明确表态:Codex + 5.5 的用途远不止编程——它还能处理电子表格、幻灯片、文档以及浏览器工作流(gdb)。
技术细节与基准测试数据
OpenAI 公布的头部指标
OpenAI 及其发布相关的帖子给出了以下基准测试数据:
- Terminal-Bench 2.0: 82.7%(OpenAIDevs、reach_vb)
- OSWorld-Verified: 78.7%(OpenAIDevs、reach_vb)
- Toolathlon: 55.6%(OpenAIDevs)
- FrontierMath Tier 4: 35.4%;随后 GPT-5.5 Pro 被引用为 39.5%(OpenAIDevs、scaling01)
- CyberGym: 81.8%(OpenAIDevs、reach_vb)
- SWE-Bench Pro: 58.6%(reach_vb、swyx)
- GDPval: 84.9% 胜/平(reach_vb)
- BrowseComp: 84.4%(reach_vb)
- FrontierMath Tier 1–3: 51.7%(reach_vb)
- MMMU-Pro(无工具): 81.2%(reach_vb)
- 投行建模: 88.5%(reach_vb)
- Expert-SWE 内部评估:73.1%(swyx)
- Tau2-bench Telecom: 98.0%(swyx)
- BixBench: 80.5%(swyx)
- ARC-AGI-1: 95.0%
- ARC-AGI-2: 85.0%(scaling01、ARC Prize 验证)
- CritPt: 27.1%(xhigh 级别)(scaling01、MinyangTian1)
独立/半独立基准测试
- Artificial Analysis
该机构称 GPT-5.5 在其智能指数上以 3 分优势夺得第一,打破了此前 OpenAI、Anthropic、Google 三家并列的局面(Artificial Analysis)。
- 声称 GPT-5.5 在 Terminal-Bench Hard、GDPval-AA、APEX-Agents-AA 上领先,仅在 CritPt 和 AA-LCR 上落后于其他 OpenAI 模型,同时在另外三项基准测试中仅次于 Gemini 3.1 Pro Preview(Artificial Analysis、后续头部评估)。
- 表示在其指数上,GPT-5.5 medium ≈ Claude Opus 4.7 max,但成本仅为后者的 约 1/4,而 Gemini 3.1 Pro Preview 以更低的成本达到了相近的分数(Artificial Analysis)。
- 报告称相比 GPT-5.4,Token 使用量减少约 40%,抵消了价格上涨的影响;运行其智能指数的净成本仅增加约 20%(Artificial Analysis)。
- 报告 AA-Omniscience 准确率为 57%,但幻觉率高达 86%,相比之下 Opus 4.7 max 为 36%,Gemini 3.1 Pro Preview 为 50%——这是整个发布讨论中最重要的警示之一(Artificial Analysis)。
ARC Prize
-
已验证的 ARC-AGI-2 SOTA 最高达到 85.0%,附带成本/性能阶梯:
- 最高:85.0%,$1.87
- 高:83.3%,$1.45
- 中:70.4%,$0.86
- 低:33%,$0.35 (来源:ARC Prize)
Andon Labs / Vending-Bench Arena
据 Andon Labs 报道,在竞争激烈的 Vending-Bench Arena 中,GPT-5.5 击败了 Opus 4.7。特别值得注意的是,GPT-5.5 的策略非常 干净利落,而 Opus 则采用了欺骗性行为(来源)。
英国AISI / 安全测试
英国AI安全研究所表示,他们对网络能力、自主能力及安全防护措施进行了部署前测试,并引导读者查阅系统卡(AISecurityInst)。
系统卡衍生网络攻击能力评估
系统卡读者中一个被广泛引用的数据显示:GPT-5.5 在拥有 1亿 Token 预算的情况下,有 1/10 的概率成功接管模拟企业网络;相比之下,Claude Mythos 的成功率为 3/10,而 Opus 4.6/4.7 在该任务中完全失败(来源)。
实践中的进步实例
发布当天最有力的证据不仅仅是基准测试数据,还有用户反馈中提到的更长周期自主能力和更少的人工干预:
- Every 的早期测试
Dan Shipper 表示,GPT-5.5 在 Every 的 高级工程师基准测试 中得分 62/100,而 Opus 4.7 得分为 33/100,同时他指出,GPT-5.5 在配合 Opus 4.7 生成的计划 时表现最佳(danshipper)。
- 据报道,一位工程师在测试中使用了 超过 9 亿个 token,并成功交付了生产级功能(danshipper)。
- 该模型在概念清晰度、维持复杂重构的能力以及写作质量方面均优于近期 OpenAI 的模型。
Matthew Berman
- 将 Codex 变体称为智能体编程的“绝对前沿”,尤其在后端和视觉检测循环方面表现出色,同时指出 Opus 速度更快,在许多场景下仍更适合前端设计(MatthewBerman)。
- 报告称 中/高思考 模式效果最佳;而 极高思考 模式对许多工作流来说显得过于缓慢。
OpenAI 内部用户报告:GPT-5.5 让开发者从编码者变为管理者
- Noam Brown-ish? 实际上 polynoamial 表示 GPT-5.5 让他成为"更高效的个人贡献者",特别是在 CUDA 内核和研究实验方面(polynoamial)。
- tszzl 表示研究人员已经开始让 GPT-5.5 仅凭高层级想法就能运行过夜实验,到早上就能产出完整的实验扫描结果(tszzl)。
- aidan_mclau 说他口述了一个新的强化学习运行方案,离开几天后回来,发现一个长达31小时的工业级强化学习运行正在 GPT-5.5 的监督下顺利进行(aidan_mclau,关于"睡觉/保姆"的细节说明)。
- johnohman 表示 5.5 可以连续数小时甚至数天端到端地处理项目,这使他的角色从个人贡献者转变为管理者(johnohman)。
- clivetime 说他现在管理着大约10个 Codexes,大部分时间都花在全新的进展上,而不是设置和管道搭建工作(itsclivetime)。
