AI 开发者日报 2026-04-28
OpenAI打破与微软Azure的独家绑定,登陆AWS和Google Cloud,GPT-5.5性能提升但非绝对碾压,GitHub Copilot转向按用量计费。小米开源MiMo-V2.5系列,支持百万token上下文。Kimi K2.6登顶OpenRouter周榜,智能体评估转向开放世界和成本感知。Google将TPU v8拆分为训练和推理专用版本,DeepSeek V4基础设施支持快速成熟。智能体生态壮大,本地模型和浏览器智能体兴起,评估新趋势强调成本与效果平衡。
OpenAI 分销策略转变、GPT-5.5 基准测试与 Codex/Copilot 定价信号
- OpenAI 放松 Azure 独家限制:@sama 表示 OpenAI 更新了与微软的合作关系,微软仍将是 主要云服务商,但 OpenAI 现在可以 跨所有云平台 提供产品,产品/模型承诺延长至 2032 年,收入分成持续到 2030 年。@scaling01 和 @kimmonismus 迅速指出了其中的含义:OpenAI 现在可以通过 Google TPU / AWS Trainium / Bedrock 进行分销,而微软对 OpenAI 知识产权的许可将变为 非独家。@ajassy 确认 OpenAI 模型将在未来几周内登陆 AWS Bedrock。@simonw 指出,新条款很可能意味着旧的 AGI 条款实际上已经失效。
- GPT-5.5 是全面升级,但并非绝对领先:来自 @htihle 的社区评测显示,GPT-5.5 无思考模式 在 WeirdML 上得分为 67.1%,高于 GPT-5.4 的 57.4%,但仍落后于 Opus 4.7 无思考模式的 76.4%,不过其使用的 token 更少。LMSYS Arena 的结果(来自 @arena)将 GPT-5.5 排在第 #9 代码竞技场、#6 文档、#7 文本、#3 数学、#2 搜索、#5 视觉,以及 专家竞技场 #5。Arena 还澄清,当前评估覆盖 中/高推理,极高推理仍在等待中(1,2)。从业者对 GPT-5.5 在硬编码任务(如 GPU 内核)上的表现反馈积极(来自 @gdb),但也有报告称在无思考模式下出现了“压缩思维链泄漏”/格式错误的输出(来自 @htihle)。
- 开发者经济学正变得更加明确:GitHub 宣布 Copilot 将于 6 月 1 日转向基于使用量的计费模式,这是一个显著的变化,因为智能体工作流会消耗更多的运行时。与此同时,@Hangsiin 记录了 Codex 的使用量倍数:GPT-5.4 快速模式 = 2 倍,GPT-5.5 快速模式 = 2.5 倍,而 5.4-mini 和 GPT-5.3-Codex 则便宜得多。@sama 认为 Codex 定价 20 美元 仍然物超所值。OpenAI 还通过 @OpenAIDevs 开源了 Symphony,这是一个编排层,用于将问题追踪器连接到 Codex 智能体,实现“开放问题 → 智能体 → PR → 人工审查”的流程。
小米MiMo-V2.5、Kimi K2.6与中国开源智能体模型的崛起
-
MiMo-V2.5 是当日最大的开源发布之一:@XiaomiMiMo 以 MIT 协议开源了 MiMo‑V2.5-Pro 和 MiMo‑V2.5,两者均支持 100万 token 上下文。Pro 版本定位为 复杂智能体/编程模型,而较小版本则是 原生全模态智能体。来自 @eliebakouch 的社区总结补充了有用的技术细节:MiMo‑V2.5-Pro 约为 1T 总参数 / 42B 激活参数,在 FP8 精度下使用 27T tokens 训练;而 MiMo‑V2.5 约为 310B 总参数 / 15B 激活参数,使用 48T tokens 训练,采用了激进的 交错 SWA/全局注意力机制,且无共享专家。小米还通过 @_LuoFuli 宣布为开发者提供 100T token 资助。发布当天,推理支持已迅速登陆 vLLM 和 SGLang/vLLM。
-
Kimi K2.6 在关注度和部署方面持续领先:@Kimi_Moonshot 表示 Kimi K2.6 现已登顶 OpenRouter 周榜。相关报道将其描述为 编程和长周期智能体 模型,能够扩展到 300 个并发子智能体,协调执行 4,000 个步骤(dl_weekly)。从业者对速度与质量的权衡仍存在分歧:@teortaxesTex 发现 Hermes 中的 Kimi 比 DeepSeek V4 慢得多,但有时能修复 V4 无法修复的 bug。
-
更广泛的中国模型趋势:多篇文章指出,中国实验室正在积极推动 开放、面向智能体、长上下文系统 的发展:包括 Qwen 3.6 Flash、DeepSeek V4/Flash、GLM-5.1 推广(三倍用量扩展)以及小米的 MIT 协议发布。一个反复出现的主题是:更小/更便宜的变体在实际智能体基准测试中往往超越其更大的同类模型。
Agent 运行时、编排与本地优先工具链
- Sakana 的 Conductor 是一个值得关注的多智能体成果:@SakanaAILabs 推出了一个 7B Conductor,它通过强化学习训练,用自然语言编排一组前沿模型,而不是直接解决问题。它能动态决定 调用哪个智能体、分配什么子任务、暴露哪些上下文,据称在 LiveCodeBench 上达到 83.9%,在 GPQA-Diamond 上达到 87.5%,超越了其模型池中的任何一个独立工作模型。@hardmaru 强调,“AI 管理 AI”和递归自选择是 测试时扩展 的一个新维度。
- 本地和混合智能体持续进化:多条推文展示了在本地运行的编码/助手栈。@patloeber 和 @_philschmid 记录了通过 LM Studio/Ollama/llama.cpp 在本地运行 Pi agent + Gemma 4 26B A4B 的过程。@googlegemma 演示了一个 完全本地的浏览器智能体,使用 Gemma 4 + WebGPU,具备原生工具调用能力,可管理浏览历史、标签页和页面摘要。@cognition 发布了 Devin for Terminal,一个本地 shell 智能体,之后可以 切换到云端。
- 智能体易用性与框架演进:Hermes 表现强劲:@Teknium 指出 Hermes Agent 的仓库已超越 Claude Code,同时原生视觉在支持时已成为默认选项。更广泛的生态系统也在不断补齐短板:Cline Kanban 现在支持 每个任务卡片使用不同的智能体/模型;Future AGI 开源了一套用于自我改进型智能体的评估/优化栈;而 @_philschmid 认为,MCP 的最佳实践要么是 显式的 @提及加载,要么是 子智能体范围内的工具分配,而不是不加区分地挂载所有服务器。
推理基础设施、注意力/KV工程与系统工作
- Google TPU 的分拆是一个有意义的架构信号:多篇文章分析了 Google Cloud Next 的公告——TPU v8 被拆分为面向训练的 8t 和面向推理的 8i,据称相比上一代,训练速度提升了约 2.8 倍,推理性能/成本比提升了 80%。@kimmonismus 强调,这是 Google 首次按工作负载拆分定制芯片,并且据报道 OpenAI、Anthropic 和 Meta 正在购买 TPU 容量。
- DeepSeek V4 在基础设施栈中的支持正在快速成熟:@vllm_project 表示即将支持 DeepSeek V4 基础模型,需要配置
expert_dtype字段来区分 FP4 指令模型与 FP8 基础模型。在 vLLM 0.20.0 版本中,亮点包括 DeepSeek V4 支持、默认使用 FA4 进行 MLA 预填充、TurboQuant 2-bit KV,以及在 Blackwell 上针对 DeepSeek 的 MegaMoE 路径。 - KV 缓存优化仍是一个激烈的战场:围绕长上下文瓶颈和 KV 策略展开了密集讨论。@cHHillee 总结了处理长上下文的三个主要杠杆:局部/滑动注意力、交错局部-全局注意力,以及通过 GQA/MLA/KV 绑定/量化实现每个全局层更小的 KV。在实现层面,@vllm_project 与 Red Hat/AWS 联合发布了一篇关于 FP8 KV 缓存的深度分析,其中对 FA3 两级累加的修复将 128k 大海捞针测试从 13% 提升至 89%,同时保留了 FP8 解码的速度优势。社区评论者也对 DeepSeek V4 在 KV 方面的特定权衡提出了质疑,尤其是与 HiSparse 等重度卸载方案相比(讨论链接)。
基准测试、评估与开放研究方向
- 开放世界评估正在兴起:@sarahookr 认为,大多数智能体基准测试都过度拟合于可自动验证的任务,而真正重要的前沿是开放世界、不确定、非完全可验证的工作。相关讨论将其与持续学习、记忆存储和自适应数据系统联系起来(1,2)。
- 成本感知的智能体评估正成为一等公民:@dair_ai 强调了一项关于 SWE-bench Verified 上编码智能体开销的新研究:智能体编码消耗的 token 量可达聊天/代码推理的约 1000 倍,在相同任务上不同运行之间的使用量差异可达 30 倍,而且更多花费并不能单调地提升准确率。这与 Copilot 的定价模式变化以及人们对不受控的智能体运行时经济性的日益担忧相吻合。
- 新的基准测试和领域特定评估:LlamaIndex 推出的 ParseBench 为解析智能体增加了 2000 页经过验证的企业文档。AgentIR 通过将推理轨迹与查询一起嵌入,重新定义了面向研究智能体的检索方式,AgentIR-4B 在 BrowseComp-Plus 上达到 68%,而更大的传统嵌入模型仅为 52%。此外,还有一些前沿模型的基准快照——例如 Opus 4.7 以 42.2% 领先 GSO,以及关于 WeirdML / ALE-Bench / PencilPuzzleBench 的讨论——但更强的信号在于方法论层面:越来越多的人开始衡量运行时成本、检索质量和开放世界行为,而不仅仅是最终答案的准确率。
本周热门推文(按互动量排序)
- OpenAI–微软合作关系重塑:@sama 谈及跨云可用性及与微软的持续合作。
- OpenAI 登陆 AWS:@ajassy 确认 OpenAI 模型即将入驻 Bedrock。
- GitHub Copilot 定价调整:@github 宣布自 6 月 1 日起采用 按用量计费 模式。
- 小米 MiMo-V2.5 开源发布:@XiaomiMiMo 以 MIT 许可证 开源,支持 100 万上下文。
- Codex 开源编排工具:@OpenAIDevs 推出 Symphony。
- Gemma 本地浏览器智能体:@googlegemma 展示了一个 完全运行在浏览器本地的智能体,基于 WebGPU 实现。
/r/LocalLlama + /r/localLLM 回顾
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
