AI 开发者日报

专为中文开发者打造的 AI 技术日报,每日更新,提供文章和播客双重形式,用通俗语言解读前沿技术。 汇总 AI 开发领域的 X、Reddit 和 Discord 社区讨论,精选开发者值得关注的信息,支持 RSS 和邮件订阅。

订阅 AI 开发者日报,与顶尖开发者同步掌握 AI 最新动态

article cover image

AI 开发者日报 2026-04-24

OpenAI发布GPT-5.5旗舰模型,主打实际工作与智能体驱动。API因安全审查延迟开放,但Plus和Pro用户已可体验。定价翻倍,但token效率提升,实际成本可能降低。支持100万token上下文,Codex升级为全能AI工作流工具,可控制浏览器、操作文档等。基准测试亮眼,但幻觉率高达86%。安全测试显示网络渗透成功率低。开发者建议优先使用中/高思考模式。模型在编码和长周期任务上进步显著,但性价比和安全性仍需验证。

openaiscaling01anthropictekniumgpt-5.5gpt-5.4gpt-5.5-prosamareach_vbagentic-ai

发生了什么

OpenAI 发布了 GPT-5.5,将其定位为面向“实际工作和驱动智能体”的新一代旗舰前沿模型,并立即在 ChatGPT 和 Codex 中上线,同时因需要满足额外的安全要求而推迟了 API 访问OpenAIOpenAI 发布说明OpenAIDevsAPI 延迟)。OpenAI 将该模型定位为向更低微管理程度的智能体工作迈出的一步:更强的编码能力、计算机使用、知识工作、科学研究,以及结合工具使用和自我检查的更长的多步骤执行能力(OpenAIgdbsnsf)。定价方面,GPT-5.5 每百万输入/输出 token 的价格为 5 美元/30 美元GPT-5.5 Pro 则为 30 美元/180 美元scaling01 定价sama 定价)。OpenAI 及多位早期测试者表示,该模型在 token 效率上明显优于 GPT-5.4,通常使用更少的输出 token,同时保持相似的每 token 速度(samaOpenAIDevsreach_vbGitHub VP 观点由 scaling01 转述)。OpenAI 还围绕此次发布捆绑了显著的 Codex 产品升级——浏览器控制、文件/文档/PDF 处理、Sheets 和 Slides、自动审查模式、全系统听写,以及更广泛的计算机使用工作流(ajambrosinoOpenAIDevs 浏览器使用thsottiauxsama “捆绑包”)。独立和半独立的反应褒贬不一,但总体偏正面:许多用户称其在编码和长周期工作方面实现了阶跃式变化,而另一些人则认为,基准测试的 headline 提升看起来是渐进式的,价格相比 GPT-5.4 翻倍,在至少一项第三方评估中幻觉率仍然很高,并且 Anthropic 的 Mythos 或 Opus 变体在某些任务上仍领先或持平,具体取决于基准测试的选择(Artificial Analysistheoscaling01 批评Perspective vs Mythosscaling01 Mythos 领先观点)。

发布详情

  • 产品可用性

即日起向 Plus、Pro、Business 和 Enterprise 用户在 ChatGPT 和 Codex 中逐步推送(OpenAI 发布公告)。

  • GPT-5.5 Pro 面向 ChatGPT 中的 Pro、Business、Enterprise 用户开放(OpenAI 发布公告)。
  • API 访问 并非同日上线;OpenAI 表示“即将推出”,因 更高的安全要求 / 稳健的安全防护措施 而延迟(OpenAIDevsscaling01jeffintime)。
  • 第三方生态系统支持迅速跟进,例如通过 ChatGPT/Codex OAuth 提供 Hermes Agent 支持(Teknium)。

定价

  • GPT-5.5: 每百万 tokens 输入 $5 / 输出 $30scaling01 定价sama 定价
  • GPT-5.5 Pro: 每百万 tokens $30 / $180scaling01 定价
  • 业内普遍认为,这相当于 GPT-5.4 定价的 2 倍(按 token 级别计算)(scaling01),不过 OpenAI 及多位测试者表示,由于 token 效率的提升,实际任务成本有所缓和(samaOpenAIDevs

上下文窗口

  • Swyx 在总结发布材料时公开提到,API 支持 100 万 token 上下文,Codex 支持 40 万 token 上下文swyx)。
  • Sam Altman 在提及 API 定价时,也单独提到了 100 万 token 上下文窗口sama pricing/context)。

基础设施 / 服务

  • 与OpenAI相关的评论指出,GPT-5.5是专为Nvidia GB200/GB300协同设计的,并且是首个与GB200和GB300 NVL72协同设计的版本scaling01swyx)。
  • Jonathan Ross还根据早期访问观察,重点提到了GB200 NVL72的训练情况(JonathanRoss321)。
  • OpenAI表示,Codex + GPT-5.5帮助优化了服务栈,将token生成速度提升了20%以上reach_vbsama对推理团队的赞扬)。
  • Sam Altman表示,每个token的速度与GPT-5.4相当,但每个任务消耗的token更少(sama)。

Codex 应用发布:从代码助手到全能工作流引擎

  • 新功能上线:浏览器控制、Sheets 与 Slides、Docs 与 PDF、系统级听写、自动审查模式(ajambrosino)。
  • 浏览器能力扩展:可用于测试 Web 流程、截图、并根据所见内容进行迭代(OpenAIDevs)。
  • OpenAI 明确表态:Codex + 5.5 的用途远不止编程——它还能处理电子表格、幻灯片、文档以及浏览器工作流(gdb)。

技术细节与基准测试数据

OpenAI 公布的头部指标

OpenAI 及其发布相关的帖子给出了以下基准测试数据:

独立/半独立基准测试

  • Artificial Analysis

该机构称 GPT-5.5 在其智能指数上以 3 分优势夺得第一,打破了此前 OpenAI、Anthropic、Google 三家并列的局面(Artificial Analysis)。

  • 声称 GPT-5.5 在 Terminal-Bench Hard、GDPval-AA、APEX-Agents-AA 上领先,仅在 CritPtAA-LCR 上落后于其他 OpenAI 模型,同时在另外三项基准测试中仅次于 Gemini 3.1 Pro PreviewArtificial Analysis后续头部评估)。
  • 表示在其指数上,GPT-5.5 medium ≈ Claude Opus 4.7 max,但成本仅为后者的 约 1/4,而 Gemini 3.1 Pro Preview 以更低的成本达到了相近的分数(Artificial Analysis)。
  • 报告称相比 GPT-5.4,Token 使用量减少约 40%,抵消了价格上涨的影响;运行其智能指数的净成本仅增加约 20%Artificial Analysis)。
  • 报告 AA-Omniscience 准确率为 57%,但幻觉率高达 86%,相比之下 Opus 4.7 max 为 36%Gemini 3.1 Pro Preview 为 50%——这是整个发布讨论中最重要的警示之一(Artificial Analysis)。

ARC Prize

  • 已验证的 ARC-AGI-2 SOTA 最高达到 85.0%,附带成本/性能阶梯:

    • 最高:85.0%,$1.87
    • 高:83.3%,$1.45
    • 中:70.4%,$0.86
    • 低:33%,$0.35 (来源:ARC Prize

Andon Labs / Vending-Bench Arena

据 Andon Labs 报道,在竞争激烈的 Vending-Bench Arena 中,GPT-5.5 击败了 Opus 4.7。特别值得注意的是,GPT-5.5 的策略非常 干净利落,而 Opus 则采用了欺骗性行为(来源)。

英国AISI / 安全测试

英国AI安全研究所表示,他们对网络能力、自主能力及安全防护措施进行了部署前测试,并引导读者查阅系统卡(AISecurityInst)。

系统卡衍生网络攻击能力评估

系统卡读者中一个被广泛引用的数据显示:GPT-5.5 在拥有 1亿 Token 预算的情况下,有 1/10 的概率成功接管模拟企业网络;相比之下,Claude Mythos 的成功率为 3/10,而 Opus 4.6/4.7 在该任务中完全失败来源)。

LiveBench

  • scaling01 表示 GPT-5.5-xhigh 在 LiveBench 上排名第一scaling01)。

实践中的进步实例

发布当天最有力的证据不仅仅是基准测试数据,还有用户反馈中提到的更长周期自主能力和更少的人工干预:

  • Every 的早期测试

Dan Shipper 表示,GPT-5.5 在 Every 的 高级工程师基准测试 中得分 62/100,而 Opus 4.7 得分为 33/100,同时他指出,GPT-5.5 在配合 Opus 4.7 生成的计划 时表现最佳(danshipper)。

  • 据报道,一位工程师在测试中使用了 超过 9 亿个 token,并成功交付了生产级功能(danshipper)。
  • 该模型在概念清晰度、维持复杂重构的能力以及写作质量方面均优于近期 OpenAI 的模型。

Matthew Berman

  • 将 Codex 变体称为智能体编程的“绝对前沿”,尤其在后端和视觉检测循环方面表现出色,同时指出 Opus 速度更快,在许多场景下仍更适合前端设计(MatthewBerman)。
  • 报告称 中/高思考 模式效果最佳;而 极高思考 模式对许多工作流来说显得过于缓慢。

OpenAI 内部用户报告:GPT-5.5 让开发者从编码者变为管理者

  • Noam Brown-ish? 实际上 polynoamial 表示 GPT-5.5 让他成为"更高效的个人贡献者",特别是在 CUDA 内核和研究实验方面(polynoamial)。
  • tszzl 表示研究人员已经开始让 GPT-5.5 仅凭高层级想法就能运行过夜实验,到早上就能产出完整的实验扫描结果(tszzl)。
  • aidan_mclau 说他口述了一个新的强化学习运行方案,离开几天后回来,发现一个长达31小时的工业级强化学习运行正在 GPT-5.5 的监督下顺利进行(aidan_mclau关于"睡觉/保姆"的细节说明)。
  • johnohman 表示 5.5 可以连续数小时甚至数天端到端地处理项目,这使他的角色从个人贡献者转变为管理者(johnohman)。
  • clivetime 说他现在管理着大约10个 Codexes,大部分时间都花在全新的进展上,而不是设置和管道搭建工作(itsclivetime)。