AI 开发者日报

专为中文开发者打造的 AI 技术日报,每日更新,提供文章和播客双重形式,用通俗语言解读前沿技术。 汇总 AI 开发领域的 X、Reddit 和 Discord 社区讨论,精选开发者值得关注的信息,支持 RSS 和邮件订阅。

订阅 AI 开发者日报,与顶尖开发者同步掌握 AI 最新动态

article cover image

AI 开发者日报 2026-06-25

OpenAI自研推理芯片Jalapeño,规格接近TPU;Qualcomm收购Modular并开源Mojo,挑战NVIDIA/CUDA。NVIDIA优化MoE模型训练,Anthropic将Claude嵌入Slack,Hugging Face自建Moon Bot强调安全。阿里巴巴Qwen开源AgentWorld和35B MoE模型,OpenThoughts-Agent贡献10万样本训练方案。中国GLM-5.2性能逼近西方模型,Kimi API登陆AWS Marketplace,华为或推950 SuperPOD算力系统。美国出口管制引发争议,百度开源Unlimited-OCR,Krea发布文生图模型。AI数据中心扩张引发噪音争议,Gemini 3.5 Pro和Claude Code变更传闻引发讨论。

openaibroadcomqualcommmodularnvidiaskypilotmodalanthropichugging-facedflash

OpenAI 的 Jalapeño 芯片与全栈 AI 基础设施竞赛

  • OpenAI 深入硬件领域OpenAI 宣布推出 Jalapeño,这是其首款专为大模型推理设计的定制 AI 芯片,与 Broadcom 合作打造,面向 ChatGPT、Codex、API 流量以及未来的智能体产品。其战略意图非常明确:掌控更多技术栈环节——芯片、内核、内存、网络、调度、部署——从而使计算经济学和产品行为减少对商用 GPU 供应的依赖。@gdb 强调了其出色的 每瓦性能,而 @kimmonismus 则指出,从设计到流片仅用了 9 个月,这对于高性能 ASIC 来说异常迅速,据称得益于 OpenAI 自身模型的加速。
  • 技术解读与生态影响:社区逆向工程分析表明,Jalapeño 看起来类似 TPU:@scaling01 估算其芯片尺寸接近光罩极限,配备约 216GB HBM3E 显存、约 7.1–7.4 TB/s 带宽 以及 约 10 PFLOPS FP4 算力。即便这些数字尚未得到官方确认,释放的信号已经明确:超大规模级别的推理芯片已成为前沿实验室的入场券。同一天,编译器/运行时领域也发生了重大变化:Chris Lattner 宣布 Qualcomm 收购 Modular,而 Modular 表示 Mojo 开源计划仍在推进。这一组合意味着,在 NVIDIA/CUDA 之外,围绕垂直整合推理栈的竞争将更加激烈。
  • 服务与吞吐量仍是活跃战场:在基础设施方面,NVIDIA 表示 NeMo AutoModel 通过 Expert Parallelism、DeepEP 和 TransformerEngine 内核,为 MoE 模型提供了 3.4–3.7 倍的训练吞吐量提升SkyPilot 推出了 Endpoints,用于在自有集群上实现统一推理;Modal 声称其开源推理方案在延迟方面优于专有提供商。在本地优化方面,@jon_durbin 报告称,通过训练自定义 DFLASH 草稿/推测模型,实际解码速度提升了 30–50%

Agent UX 从“工具”转向“同事”,引发安全与成本新问题

  • Anthropic 的 Slack 原生 Agent 模型是 UI 层面的大新闻:多条推文聚焦于 Claude 嵌入 Slack/团队工作流的意义。@karpathy 认为人们低估了它,因为它不仅仅是“一个功能”或 Slack 机器人,而是一个组织级别的驾驭工具@gallabytes 描述了从 Claude Code 作为“结对编程伙伴”到 Tags 作为“管理一个团队”的体验跃升。@dabit3 进一步推演:最终,你可能甚至不需要显式地标记 Agent。

  • 难点在于身份、权限和锁定效应:Anthropic 在这条推文中详细介绍了其 Agent 身份模型:Claude 拥有自己的凭证,操作在该身份下可审计,并且可以集中撤销访问权限。这一设计既赢得了赞誉也引发了担忧。@KentonVarda 认为,为每个 Agent 显式授权的方式不可扩展,并主张采用基于能力的安全模型,实现细粒度、任务范围限定的访问控制。@random_walker 将 Claude Tag 描述为“一个什么都记得、按思考计费的同事”,并警告一旦共享 Agent 深度嵌入组织工作流,将面临隐性知识锁定、提示词注入风险以及预算不透明等问题。@JubbaOnJeans 同样指出了写入操作的归属模糊性,以及未来在 Slack 这类清晰边界之外进行访问控制的复杂性。

  • 开源/自建方案迅速响应:Hugging Face 在一篇博客推文中介绍了其内部基于 Slack 的编码 Agent Moon Bot,强调自托管、自定义工具、可审计会话以及零锁定。随后 @calebfahlgren 列出了其生产集成清单,涵盖 GitHub、Athena、分析工具、MongoDB、Elasticsearch 和 HF Buckets。更大的趋势是:团队越来越渴望 Agent 原生的用户体验,但许多人更愿意自己掌控驾驭工具和记忆层,而不是将组织智能外包给某个供应商。

Qwen-AgentWorld、OpenThoughts-Agent 与记忆:智能体的下一个扩展轴心

  • Qwen-AgentWorld 推动智能体的“语言世界模型”:阿里巴巴 Qwen 团队推出了 Qwen-AgentWorld,将其定位为原生的语言世界模型,能够在单一模型内模拟 7 种环境——MCP、搜索、终端、SWE、Web、操作系统、Android。Qwen 提出了两条路径:构建模拟器本身,以及将世界建模作为智能体的预训练方式。他们开源了 Qwen-AgentWorld-35B-A3B 和 AgentWorldBench,这是一个 35B MoE / 3B 激活参数256K 上下文的模型。一个值得注意的结果是:单轮环境预测能力可以迁移到多轮智能体任务中,在领域内和领域外基准测试上均取得了提升,详情见这篇总结
  • OpenThoughts-Agent 贡献了一套严肃的开源数据方案@iScienceLuvr@RichardZ412 重点介绍了 OpenThoughts-Agent,这是一套面向智能体模型的开源数据整理与训练流程,包含 100 多项受控消融实验。该团队构建了一个 10 万样本的训练集,并对 Qwen3-32B 进行了微调,在 7 个智能体基准测试上达到了 44.8% 的平均准确率。关键发现对实践者很有价值:指令选择的影响远超预期,最强的基准教师模型并非最佳教师,更长的执行轨迹有助于提升效果,以及在大规模训练中,数据来源的多样性优于过度重复。
  • 记忆正在成为一等公民的系统层:大量高价值讨论集中在记忆作为智能体尚未解决的核心问题上。Weaviate 的 Engram GA 版本将记忆定义为异步基础设施,负责提取、去重、调和与限定记忆范围,而不是将所有内容一股脑塞进上下文。@hwchase17 展示了一个 LangSmith/Context Hub 的“睡眠时间计算”工作流,其中轨迹被离线分析并写回为记忆。@dair_ai 指出一篇论文认为,智能体记忆应作为一个完整的数据管理层来评估——包括存储、检索、更新、整合和生命周期管理——而不是一个仅凭最终任务成功与否来评判的黑盒。这正日益成为智能体差异化竞争的方向。

中国开源模型持续缩小差距:GLM-5.2、Kimi 分发与算力规模

  • GLM-5.2 继续主导开源模型话题:多条推文将 GLM-5.2 定位为当前最强的开源权重模型。CoreWeave 表示,它在 Artificial Analysis 和 Agent Arena 上均位居开源模型榜首;BasetenCursor 的可用性 也展示了其快速的服务部署与分发能力。@nutlope 将 GLM 5.2 与 Opus 4.8 在网页任务上进行了对比,报告称两者质量相近,GLM 5.2 的token 输出量约为 2 倍,同时速度更快成本便宜约 3 倍Arena 也表示,GLM-5.2 Max 在 Code Arena: Frontend 中领先于众多强劲对手。

  • 基准测试的细节至关重要:GLM-5.2 也在 ARC-AGI-2 上亮相。@fchollet 称其为迄今为止开源模型在 ARC-AGI-2 上取得的最佳成绩,而其他人则就其 22.8% 的成绩相对于西方前沿模型究竟意味着什么展开了讨论。更广泛的启示不在于某个单一的基准测试,而在于中国的开源模型在编程、智能体以及知识工作等领域持续“占据一席之地”。

  • 商业化与基础设施加速Moonshot 的 Kimi API 现已登陆 AWS Marketplace,通过统一账单和 EDP 提款简化了企业采购流程。与此同时,中国国内的算力仍然是一个重要主题:@teortaxesTex 指出有报道称华为可能展示一套 950 SuperPOD 规模的系统,这意味着大规模国产 NPU 集群已进入实质性生产阶段。如果属实,这将显著改善中国模型服务生态的经济性和韧性。

政策、人才与前沿实验室战略正在重塑AI竞争格局

  • Anthropic 仍处于政策争议的中心@kimmonismus 报道了特朗普时代AI出口管制面临的首次重大法律挑战,Legion 公司认为托管模型访问不等同于出口权重或技术数据。与此同时,备受讨论的 Mythos 故事有了更多背景信息:此处汇总的 Reuters/AP 细节 表明,Anthropic 的模型在一次受限测试演习中发现了美国敏感系统的漏洞,尽管有评论者警告称此前的报道有所夸大。
  • 模型蒸馏与访问控制正成为地缘政治议题@kimmonismus 还报道了 Anthropic 的指控,称与阿里巴巴相关的运营者使用 约 25,000 个欺诈账户2880 万次 Claude 交互,将前沿能力蒸馏到 Qwen 级别的系统中。如果这一指控属实,那么"对抗性蒸馏"的争论将从传闻升级为更接近执法和国家行为层面的议题。
  • 人才与新实验室的动态:当天还出现了人才流动和新机构成立的消息。Arthur Conmy 加入 Anthropic 在 AI 对齐领域值得关注。Mirendil AI 正式启动,完成了 2 亿美元 的种子轮融资,其核心理念是推动科学领域的自我加速 AI 研发。在英国,BOLD Lab 和 SOFAIR 获得了 6000 万英镑 的种子资金,用于建设两个新的国家级基础 AI 实验室,其中 UCL DARK 并入 BOLD。在商业方面,彭博社报道了从 Google DeepMind 流向 Anthropic 的离职潮,这凸显了初创公司的上升势头仍在持续吸引前沿人才。

本周AI圈大事件:OpenAI自研芯片、GPT-5.5更新、阿里开源智能体世界模型

中国AI芯片生态与出口管制:7家国产厂商对标H100/H200,美国拟推芯片定位追踪法案

1. 中国AI芯片生态与出口管制

  • 已有7家中国公司正在出货H100/H200级别的AI芯片,其中大部分在过去6个月内上市。我绘制了完整图谱。(热度:1423):该帖梳理了七家中国AI加速器厂商——华为昇腾、阿里巴巴平头哥、百度昆仑芯、MetaX、摩尔线程、壁仞科技和沐曦集成电路——声称现有产品大致达到H100级别,下一代产品瞄准H200级别,主要依据来自CHITEX/Dmitry Shilov的演示文稿以及作者关联的X帖子。关键规格包括:华为昇腾910C/910D/950路线图采用国产HBM,阿里巴巴16×96GB PG1服务器总计1.536TB显存,MetaX C600配备144GB HBM3e,摩尔线程S5000拥有80GB显存和1 PFLOPS算力,壁仞/沐曦路线图新增FP8/FP4及边缘推理模块。更大的论点是,中国AI基础设施正从依赖NVIDIA/CUDA转向国产化堆栈:OAM类模块、专有互连、中芯国际生产、接近100%的利用率,以及Qwen/DeepSeek/GLM等中国开源权重模型越来越多地优先针对非NVIDIA加速器进行调优。热门评论对实际可获取性和部署持怀疑态度:用户询问这些系统是否能在欧洲甚至通过AliExpress购买,而最实质性的担忧是——无论原始硬件规格如何,“软件堆栈”——CUDA兼容性、驱动程序、编译器/运行时成熟度以及框架集成——都将是主要瓶颈。

一条技术细节详尽的评论认为,该帖夸大了实际可部署性:一旦计入运行时开销、KV缓存、激活值、碎片化和分布式执行需求,1,536 GB的总显存并不足以运行一个~1,510 GB的BF16模型。该评论者还质疑了“H100/H200级别”的表述,指出华为昇腾950PR据称拥有128GB显存、1.6TB/s带宽和1 PFLOPS FP8算力,而NVIDIA H200则为144GB显存、4.8TB/s带宽和2 PFLOPS密集FP8算力,尽管厂商声称对标,但内存带宽和计算能力实际上明显更低。

  • 有几项声称被指出是“即将出货”而非“正在出货”。例如,评论者称昆仑芯M100缺乏公开可查的核心规格,如内存大小、带宽或TFLOPS,而现有的vLLM支持似乎针对的是较老的昆仑芯片而非M100。
  • 摩尔线程/C系列的声称也受到质疑:评论者称当前出货的似乎是规格较低的C500/C550级别产品,可能为64GB GDDR6,而C600宣传的144GB HBM3e和H200定位仍是未来量产计划。他们强调,从GDDR6产品大规模转向HBM3e是一个尚未被验证的重大制造和集成跨越。

这个社区可能错过了:要求AI芯片位置追踪的法案获得行业支持 | 已有六家公司公开支持《芯片安全法案》,该法案要求对美国最先进的计算机芯片实施位置追踪机制。(热度:440):该帖指向几天前的报道(也在r/politicsr/LocalLLM上讨论过),称拟议的《芯片安全法案》将要求对美国最先进的AI加速器实施位置追踪机制。从技术上讲,这意味着在受出口管制的计算设备上添加某种形式的硬件/固件级地理定位、认证或报告功能,其既定目标是防止高端AI芯片被转移到受限司法管辖区。热门评论普遍持反对态度,认为该授权可能削弱美国相对于中国的竞争力,并引入新的安全/隐私风险;一位评论者嘲讽这一想法是*“最好最安全的位置追踪机制”,且“没有安全问题”*。

开源OCR模型与智能体仿真新突破:Baidu Unlimited-OCR 与 Qwen-AgentWorld 发布

2. OCR与智能体仿真的开源模型发布

评论者们要求进行具体的对比评估,特别是与 PaddleOCR-VL-1.6 在吞吐量和准确率之间的权衡,以及在多页/PDF 解析场景下,模型的 32k 上下文限制能容纳多少页文档。

  • 有几位用户对发布中不明确的术语提出质疑,尤其是 "gundam 模式",建议 ModelScope/Hugging Face 的文档需要明确定义该模式及其对 OCR 行为或文档解析的影响。Hugging Face 模型卡片链接在此:https://huggingface.co/baidu/Unlimited-OCR

Qwen-AgentWorld-35B-A3B:一个 3B 活跃参数的 MoE 模型,用于模拟 MCP、终端、SWE、Android、Web 和 OS 环境(热度:292):Qwen 发布了 Qwen-AgentWorld-35B-A3B,这是一个 35B 参数的 MoE 模型,每个 token 大约有 3B 活跃参数,定位为 语言世界模型,而非聊天/指令模型或自主智能体。该模型经过训练,能够预测智能体在 MCP/工具调用、搜索、终端、SWE、Android、Web 和 OS GUI 等领域执行动作后的环境观测结果,从而实现模拟/仿真的智能体循环,用于离线评估、合成轨迹生成、工具使用工作流测试,以及无需调用真实工具的沙箱式训练。评论大多比较轻松,但有一条技术性反馈指出,该模型可以通过模拟动作(例如预测 ls -la 的终端输出)来用于评估;其他人则开玩笑或持怀疑态度,认为这种训练可能类似于交换用户/助手角色,或者提示 "你现在是一个 MCP 服务器。"

  • 一位评论者强调了一个具体用例:训练模型预测环境响应,例如给定用户命令 ls -la,生成相应的终端输出。他们认为这对于 评估框架或模拟环境 非常有用,可以在不调用真实终端或外部工具的情况下模拟智能体动作。
  • 另一条技术相关的讨论将 Qwen-AgentWorld-35B-A3B 定位为 LLM 智能体的 世界模型风格组件,并在概念上将其与 Yann LeCun 的世界模型工作进行了比较。该评论者指出,如果基准测试的泛化能力得到验证,将环境模拟直接应用于 LLM 在 MCP、SWE、Android、Web、OS 和终端场景下的推理/训练,有望提升智能体的能力。

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

Krea 2 开源图像模型、GenAI 保真度与动画 AI 渲染

  • 我们是 Krea 2 背后的团队,欢迎提问!(热度:1017):Krea 宣布 Krea 2——一款内部训练的开源文生图模型——现已开放代码和权重,可通过 krea.ai/krea-2-open-sourceGitHub 以及 Hugging Face 上的 Krea-2-RawKrea-2-Turbo 检查点获取。研究负责人表示,这是他们首次完全内部训练并开源发布的模型,同时他们正在考虑发布更多成果,包括无引导/步长蒸馏的 Turbo 检查点5B 参数变体,以及针对图像参考、编辑、边界框、更好的文字渲染和真实感等能力的改进。评论区的讨论集中在路线图和架构问题上:是否会发布图像编辑版本,以及 Krea 为何选择 Qwen VAE 而非 Flux 2 VAE

一位 Krea 2 研究员指出,这是他们首次完全内部训练并开源发布的模型,目前已发布 rawturbo 两个检查点。他们正根据社区反馈考虑进一步开源,包括无引导/步长蒸馏的 Turbo 检查点5B 检查点变体,以及图像参考、编辑、边界框、改进的文字渲染和真实感等能力提升。

  • 多位评论者关注模型组件和训练选择的透明度,尤其是 Krea 2 为何使用 Qwen VAE 而非 FLUX.2 VAE。另一个技术相关的请求是希望 Krea 发布其美学奖励模型,评论者认为开源图像生成领域目前缺乏用于偏好/美学优化的强大奖励模型。
  • 功能需求集中在下游可控性上:用户询问 Krea 2 是否会推出图像编辑变体,以及是否支持风格迁移。这些需求与研究负责人列出的未来可能扩展能力(如图像参考和编辑工作流)高度吻合。

我对自己的一张照片进行了老化处理和修复(热度:3288):该图片(链接)是一个受控的四格测试,用于检验 ChatGPT 的图像修复/上色能力:发帖人从一张已知的原始肖像出发,人为地对其进行老化/损坏处理,然后让 ChatGPT 进行修复。结果揭示了生成式修复的一个关键局限:模型并未恢复原始人脸,而是幻觉出看似合理的面部细节,使修复对象看起来像一个完全不同、更年长的人,胡须和面部结构都发生了改变,并锐化了虚构的特征。评论者普遍认为,这证明了 AI“修复”并非忠实的重建,而是基于退化输入进行的生成。一位评论者将此与面部识别/安全系统的风险联系起来,而其他人则开玩笑说修复后的版本很像杰克·布莱克。

  • 一位评论者认为,该结果展示了 AI 年龄变换/修复工作流的一个核心局限:输出可能变成*“一个完全不同的人”*,而非保留原有身份。他们明确将这种身份漂移与基于 AI 的面部识别和安全系统的潜在故障模式联系起来。
  • 一位用户通过将 “Gemini 老化” 的输出裁剪回原始构图,然后使用 NanoBananaPro 进行处理,来比较不同的修复工作流,声称其*“在修复方面仍然好得多”,并且第一次尝试就得到了更好的结果。他们指出,Gemini 老化后的图像似乎被放大了,因此构图/裁剪会实质性地影响修复管线,而第二张图像“做了大量的”*重建工作。

日本动画师使用 Seedance 从简单 3D 模型渲染动画(热度:2674):Reddit 上的一篇帖子重点介绍了一位日本动画师 reportedly 使用 Seedance 从简单的 3D 模型 生成/渲染动画片段,展示了一种工作流:粗糙的 3D 场景/布局为 AI 视频生成提供了空间和时间上的一致性。由于 HTTP 403 禁止访问,链接的 Reddit 视频无法通过提供的 URL 访问,但评论者确认该动画师是 Tetsurou,据称是一位在 TRIGUN STAMPEDETRIGUN STARGAZE 等作品中有过贡献的动画行业资深人士。评论者认为这是通往具有一致世界模型的长格式 AI 视频的一条可行路径,并讨论了动画师使用 3D 控制/输入是否提供了足够的意图性以使其有资格被称为艺术。一位评论者认为,结果看起来比动画中常见的 CGI 效果更好,同时驳斥了反 AI 艺术的反对意见,认为那是“圈地自萌”。

  • 评论者认为该工作流是实现长格式视频一致性的一条可行路径:使用简单的 3D 模型/布局作为稳定的场景/姿势/世界表征,然后让 Seedance 渲染出最终的动画效果。一位用户指出,这可以通过更改提示词来实现风格切换,例如从动画风格切换到照片级真实感复古漫画风格,同时保留底层的分镜动作和构图。
  • 一个技术相关的制作要点是,AI 可以针对动画劳动中的中间帧生成——即生成关键帧之间的过渡帧——一位评论者将其描述为主要的成本驱动因素,且与布局、表演或关键动画相比,它对感知创意质量的直接贡献较小。这使得 Seedance 风格的工作流有可能在降低制作成本的同时,通过 3D 布局和提示词保留人工指导的创作方向。
  • 创作者是 Tetsurou,据称是一位拥有超过 10 年 经验的动画行业资深人士,近期作品包括 TRIGUN STAMPEDETRIGUN STARGAZE。这一背景在技术层面很重要,因为该演示看起来更像是经验丰富的动画师将 AI 用作渲染器/合成器,在有意为之的 3D 分镜基础上进行创作,而非单纯的文生视频生成。

2. AI数据中心的争议与辩护

评论者将问题主要定性为发电选址问题,而非数据中心本身的噪音问题:该设施据报道使用现场天然气涡轮机而非电网供电,产生了持续的高频啸叫声,这种噪音在居民区附近通常是不被允许的。一个技术要点是:数据中心选址相对灵活,因为它们主要需要电力、冷却和网络连接,因此评论者认为,将涡轮机支持的基础设施建在居民区附近几乎没有工程上的必要性。

  • 多条评论质疑监管/规划层面的失职:用户将弗吉尼亚的案例与欧盟/英国的规划制度进行对比,在这些地区,天然气涡轮机等工业噪音源通常会面临更严格的许可审批、环境噪音评估以及与居民区的隔离要求。讨论强调,更严格的分区或许可制度可以要求接入电网、采取降噪措施或重新选址,而不是允许涡轮机在住宅旁24/7运行。

John Carmack 对数据中心发表看法(热度:2034):该图片是X/Twitter对话的截图,其中 John Carmack 认为公众对数据中心的反对情绪可能类似于美国反核情绪,从而可能减缓AI基础设施的部署。他将数据中心的需求视为与AI驱动的重大转型相关的*"真实价值和进步"的证据,而 Markus "Notch" Persson 则用一个简单的"为什么?"*向他提出质疑。评论对 Carmack 的框架提出反驳,主张折中方案:数据中心应被允许建在不会对当地造成滋扰的地方,并且应自行解决电力和水资源的供应。还有人指出,反核情绪部分受到化石燃料利益集团的影响,并暗示这些利益集团现在可能从AI数据中心的能源需求中获益。

  • 多位评论者将数据中心扩张主要定性为基础设施选址和资源配置问题:只有在设施不会对居民造成滋扰的地方才能自由建设,并要求运营商自行提供或获取电力和水资源,而不是给当地电网或市政公用设施增加负担。噪音和废热被特别指出是选址限制因素,反对将大型设施建在城镇附近,因为冷却排气和噪音会影响居民。
  • 一个反复出现的技术政策主题是:大规模AI数据中心的增长应首先与新的可靠发电能力(尤其是核电)配套,然后再进一步扩张。评论者认为,"安全的核电"比单纯扩大化石燃料发电容量更能匹配数据中心高负荷、持续运行的特性,同时也指出,如果不建设新的清洁基荷电源,石油和煤炭利益集团将从AI负载增长中获益。

Gemini 3.5 Pro 即将发布?Fable 5 或将回归订阅计划

Gemini 3.5 Pro 即将发布?

  • 3.5 Pro 本周发布?(热度:1211):一张未经证实的推文截图声称 "Gemini 3.5 Pro" 将于"本周"发布,传闻中的升级包括更强的视觉/多模态推理能力、改进的记忆/上下文保留能力、Agent 工作流、SVG/前端生成、原生图像模型、一个"Gemini 超级应用",以及号称 250 万 Token 的上下文窗口(图片)。从技术角度看,这更像是猜测而非官方公告:评论者指出,该传闻缺乏编码基准测试的相关数据,并质疑它是否能超越现有的 Gemini 3.x/2.5 Pro 预览版,或与 GPT/Claude/Fable 级别的编码模型竞争。评论区普遍持怀疑态度,有用户表示谷歌应该"先发布再说",并避免出现性能倒退;也有人认为 250 万上下文窗口的说法听起来很假,更合理的预期是 100 万。

评论者质疑 3.5 Pro 是否真的会比 3.1 Pro 预览版 有所提升。有人指出,如果这个泄露消息可信且模型确实强大,那么公告很可能会强调 领先的编码基准测试成绩;而传闻中对此只字未提,可能意味着它未必能击败当前顶级的编码模型。

  • 号称 250 万 Token 的上下文窗口受到普遍质疑,用户认为 100 万 Token 更合理,夸大上下文容量反而让这个泄露看起来像是假的。
  • 一个技术相关的担忧是负载下的模型路由问题:用户调侃/抱怨说,即使在付费的 Pro 订阅中,在"高强度使用"期间,用户收到的回复可能来自一个降级模型,这会导致实际使用体验不一致,尽管订阅宣传的是高端模型。

Fable 5 或将回归订阅计划

  • Fable 5 回归传闻,Claude Code 代码中暗藏线索(热度:845):基于 Claude Code v2.1.190 字符串变更的传闻称,Anthropic 可能正在准备将 Fable 5 永久纳入订阅计划,并设置每周使用配额:新增的字符串 "您本周的 Fable 5 使用额度已用完" 以及移除 "需与您的套餐分开购买" 的表述被引为证据(来源)。如果属实,这意味着 Fable 5 的访问方式可能从限时/单独购买转变为订阅内周期性限额使用。评论区大多是兴奋和猜测;唯一实质性的观点是,低周配额比短暂的临时订阅窗口更好,因为它能保证持续访问。

  • 一位评论者提出了具体的产品访问问题:他们更希望 Fable 采用 低周使用配额 的方式,而不是仅提供 两周 限时窗口的订阅模式,认为有上限的持续访问比限时可用更有价值。

AI 开发者日报 2026-06-25