AI 开发者日报 2026-06-10
Anthropic发布Fable 5和Mythos 5模型,Fable 5在编程基准测试中表现领先,但部分敏感查询会静默回退到旧模型,引发开发者信任危机。争议焦点在于安全机制可能暗中削弱研究能力,被视为反竞争行为。同时,Cohere推出North Mini Code模型,Google更新Gemini 3.5 Flash Live Translate,ALE基准测试显示智能体能力仍有限。AI推理优化如LCLM、微软Mirage和vLLM取得进展,梅奥诊所REDMOD模型可提前三年预测胰腺癌。行业面临透明度、开放研究与AI权力集中的深层拷问。
Anthropic 发布新一代模型家族两大版本:Claude Fable 5 全面开放,Claude Mythos 5 受限访问
- Anthropic 正式宣布推出 Claude Fable 5,称其为“首个全面开放的 Mythos 级模型”,并表示该模型在几乎所有测试基准上均达到 业界领先水平,超越了此前公开发布的任何模型 @claudeai, @claudeai
- Anthropic 表示,Fable 5 与 Mythos 5 使用相同的基础模型,但增加了安全防护措施,部分涉及网络安全、生物、化学及蒸馏相关的提示词可能会被 路由到 Claude Opus 4.8 处理 @ClaudeDevs, @scaling01
- Anthropic 指出,对于“极小范围”的潜在有害话题,查询会透明地回退到 Opus 4.8,并声称根据早期面向用户的提示信息,95% 以上的会话不会触发这一回退机制 @claudeai, @mikeyk
- Anthropic 面向开发者的消息称,回退功能可通过服务端及 SDK 中间件使用,支持 Python、TypeScript、Go、Java 和 C# 语言 @ClaudeDevs
- Fable 5 和 Mythos 5 的定价均为 输入每百万 token 10 美元,输出每百万 token 50 美元;第三方评估机构随后报告了缓存定价为 缓存写入每百万 12.50 美元,缓存读取每百万 1 美元 @scaling01, @ArtificialAnlys
- 据 Artificial Analysis 消息,Fable 5 保留了 Anthropic 的 100 万 token 上下文窗口 @ArtificialAnlys
- Anthropic 将 Fable 5 纳入 Pro、Max、Team 以及基于座位的 Enterprise 套餐,有效期至 6 月 22 日,之后因容量限制将要求使用 用量积分,并计划后续恢复更广泛的订阅访问权限 @ClaudeDevs, @scaling01, @ArtificialAnlys, @kimmonismus
- 临时包含的条款立即引发了困惑;用户询问“有效期至 6 月 22 日”的具体含义,Anthropic 工作人员随后澄清了相关部署计划 @dejavucoder, @TheAmolAvasare
- 由于需求激增,Anthropic 随后 重置了各产品的 5 小时和每周速率限制 @ClaudeDevs
Anthropic 与合作伙伴平台报告:Fable 5 在编程与长周期智能体任务中全面领先
- Anthropic 公开宣称:Fable 5 在软件工程、知识工作、科学研究和视觉能力方面表现尤为突出,其领先优势随任务长度和复杂度的增加而扩大 @claudeai
- Cursor 表示 Fable 5 在 CursorBench 上以 72.9% 的成绩创下新 SOTA(当前最优),比此前最佳成绩高出 8 个百分点 @cursor_ai
- Cognition 称 Fable 5 在 FrontierCode 上夺得第一,并且 Devin 已将其集成到 Devin Cloud Ultra、Desktop 和 CLI 中 @cognition, @cognition
- Cline 报告 Fable 5 在 Terminal-Bench 2.1 上达到 88.0%,领先 GPT-5.5 达 4.6 个百分点 @cline
- Artificial Analysis 将 Fable 5 列为 Intelligence Index 第一名,得分 64.9,领先 GPT-5.5 约 5 分,并表示 Anthropic 占据了前两名 @ArtificialAnlys
- Artificial Analysis 还报告了以下数据:
GDPval-AA Elo 评分 1932,在智能体真实世界知识工作领域排名第一 @ArtificialAnlys
- 在 Humanity's Last Exam 上达到 53%,领先第二名超过 7 个百分点,同时在 9% 的 HLE 任务中触发了回退机制 @ArtificialAnlys
- 在 Intelligence Index 任务中约有 8% 的回退路由,主要集中在科学问题上 @ArtificialAnlys
- Anthropic 表示,平均而言,回退发生在不到 5% 的会话中 @ArtificialAnlys
社区基准测试总结凸显了编程领域的巨大差距:
- SWE-Bench Pro:Fable 5 80.3% vs GPT-5.5 58.6% @Yuchenj_UW
- FrontierCode Diamond:Mythos 5 30.9% vs 第二名 13.4% @scaling01
- Anthropic ECI 评分:Mythos 5 达到 161.29 @scaling01
Artificial Analysis 指出,Fable 5 在 AA-Omniscience 上的知识基准测试大幅跃升,这可能意味着其模型规模比 Anthropic 此前公开的模型更大,不过这属于推断而非已确认的规格 @ArtificialAnlys
Fable 5 发布:工作流变革与成本考量并重,原始评测不再是唯一标尺
- Anthropic 的员工和早期用户反复将 Fable 5 描述为一款专为超长、高投入任务设计的模型,用户的使用方式也从“交给它任务”转变为“交给它目标/职责” @felixrieseberg, @ClaudeDevs, @alexalbert__
- Anthropic 建议用户默认采用 xhigh/high effort(极高/高投入) 模式,重写旧的 CLAUDE.md 指令,并让模型拥有更多自主判断权 @alexalbert__
- Anthropic 面向开发者的宣传重点在于多智能体编排,Fable 可将任务委派给 Claude Managed Agents 中的较小模型 @ClaudeDevs
- 多位测试者将 Fable 描述为速度慢、消耗 Token 多、成本高,但能力异常强大:
Dan Shipper 表示,Fable 在执行任务时通常消耗 50万到100万 Token,最好留作处理繁重任务时使用 @danshipper
- Simon Willison 称其“速度慢、成本高、能力强” @simonw
- Theo 很快触及使用限制,随后对 Anthropic 重置速率限制表示欢迎 @theo, @ClaudeDevs
第三方及内部消息强调,Fable 在长时间运行的工程任务上取得了巨大提升:
- Ethan Mollick 表示,他可以交给 Fable 一份 15页的设计文档,它就能连续工作 9小时以上 @emollick
- Kimmonismus 强调了 Anthropic 的说法:Stripe 使用 Fable 在一天内完成了5000万行 Ruby 代码的迁移,而这原本需要整个团队两个多月的时间 @kimmonismus
- Victor Taelin 报告称,Fable 发现了一个隐蔽的 Bug,并在某个案例中实现了高达 1770% 的声称加速效果,不过他仍需要审计其正确性 @VictorTaelin
- Anthropic 相关的帖子引用了430倍的内核加速、69倍的自训练加速以及10倍的药物设计加速,但这些数据来自基准测试/系统卡片的解读,在未经独立复现之前,应视为供应商单方面的说法 @scaling01, @scaling01, @scaling01
生态系统的集成即刻展开:Fable 5 已出现在 Cursor、Devin、Notion、Microsoft Foundry、GitHub Copilot App/CLI、Cline、Replit、Base44、MagicPath、Arena、MCP Atlas 等众多平台中 @cursor_ai, @cognition, @NotionHQ, @Azure, @pierceboggan, @cline, @pirroh, @ScaleAILabs
最大的争议不是Fable/Mythos有多强,而是Anthropic悄然降低某些前沿AI开发任务的可用性
- Anthropic的系统卡说明(被多位用户曝光)指出:当Fable 5用于前沿大模型开发时,Anthropic可能会通过提示词修改、引导向量和PEFT来限制模型的有效性,且用户不会收到通知;Anthropic估计这会影响大约0.03%的流量 @Hangsiin,@kimmonismus
- Anthropic还单独披露了针对网络安全和生物安全请求的自动重路由至Opus 4.8 @ClaudeDevs
- 这一区别至关重要:某些高风险查询会被明显重路由/计费为Opus,而前沿大模型开发请求可能被悄然削弱,而非重路由或拒绝
- 批评者认为,这给研究和工程工作流引入了一个无日志记录的混淆变量:
"付费产品中不应存在静默削弱" @nrehiew_
- "在机器学习研究上降低性能却不告知用户,这充满敌意,令人震惊" @deanwball
- "安全干预必须可见、可审计、可归因" @MattGibsonMusic
- "这是信任的破裂",因为每个糟糕的结果都变得模棱两可 @MattGibsonMusic
多位研究者将其定性为针对开放研究和开放权重的**反竞争性"抽梯子"**行为:
- "实验室开始抽梯子了" @natolambert
- "这是保护和发展开源AI的最大警钟" @rasdani_
- "他们说的不是暂停AI研究,而是暂停你的AI研究" @bayeslord
- "原创思考者不能沦为底层阶级" @marksaroufim
- "权力、能力和经济财富的集中才是AI最大的风险" @ClementDelangue
多位用户担心分类器的边界过于宽泛或容易出错:
- 有用户表示"癌症这个词被标记为生物安全风险" @DeryaTR_
- 另一位用户说Fable拒绝回答"心脏是做什么的?" @Yuchenj_UW
- 生物学领域的用户报告了账户上下文差异,包括在无痕模式下可以使用Fable,但普通模式下不行 @cremieuxrecueil
- Teknium等人报告了简单工程提示词被拒绝的情况 @Teknium,@Teknium
- 用户报告PTX ISA问题和推理优化查询被标记 @snowclipsed,@dejavucoder
有些例子虽带幽默色彩但切中要害:用户调侃说,询问推理代码会导致模型"开始导入ONNX"或实现JEPA,这被视为能力引导的迹象 @vikhyatk,@MattVMacfarlane
Anthropic 发布 Fable 5 与 Mythos 5:新一代大模型登场
- Fable 5 已全面开放,而 Mythos 5 仍为受限访问 @claudeai, @TheRundownAI
- Fable 5 与 Mythos 5 共享同一底层模型,但 Fable 额外增加了安全防护机制 @ClaudeDevs, @scaling01
- 定价为 每百万输入/输出 token 分别收费 $10 / $50 @scaling01, @ArtificialAnlys
- Fable 保留了 100 万 token 的上下文窗口 @ArtificialAnlys
- Anthropic 引入了拒绝/回退机制以及 SDK 中间件 @ClaudeDevs
- Anthropic 披露了针对前沿大模型开发的静默干预措施,影响了约 0.03% 的流量 @Hangsiin
- Fable 在 6 月 22 日前暂时包含在订阅服务中,之后将转为按信用点数计费 @ArtificialAnlys
观点与解读
- “Anthropic 赢了”、“Anthropic 拥有编程护城河”、“Anthropic 正在追求 ASI”等说法,更多是评论性观点,而非经过验证的事实 @scaling01, @scaling01, @scaling01
- 声称此举主要是为了 IPO 包装、反开源定位,或专门为了拖慢 Meta/中国/开放实验室 的步伐,这些解读虽然听起来合理,但并未得到 Anthropic 的证实 @kimmonismus, @kylebrussell, @natolambert
- 声称 Anthropic 是出于真诚的安全信念而非玩世不恭的护城河建设,同样属于主观解读 @finbarrtimbers
- 像“GPT-4 时刻”、“大模型的味道”、“作为工程师被它完全碾压”、“对普通用户来说似乎没有太大提升”这类主观报告,属于个人体验,而非标准化证据 @karinanguyen, @bcherny, @akbirkhan, @citrini
支持性 / 能力优先
-
Anthropic 员工和内部测试者将 Fable 5 描述为一次阶梯式的飞跃:
- Felix Rieseberg:从给 AI 分配任务,转变为赋予它责任 @felixrieseberg
- Alex Albert:模型给人的感觉更像是协作伙伴,而非工具 @alexalbert__
- Karpathy:这是一次“值得大版本号升级的阶跃式变化”,尤其是在处理长而复杂的任务时表现突出,不过安全机制“对于发布来说有点过于敏感了” @karpathy
- Bcherny:自 Opus 4.5 以来最大的进步;该模型展现出了判断力、品味以及有条不紊的调试能力 @bcherny
-
第三方基础设施和应用供应商则更侧重于强调基准测试成绩和集成价值,而非安全争议 @cursor_ai, @cognition, @NotionHQ, @Azure
信任与开放之争
许多研究人员和开放模型倡导者认为,即使出于安全考虑,这种静默限速行为也是不可接受的:
- Natolambert 称,在未告知用户的情况下这样做是"对齐失败" @natolambert
- Dean Ball 警告称,这可能会招致反垄断审查 @deanwball
- Jeremy Howard 称这是"非常黑暗、非常令人沮丧的一天" @jeremyphoward
- Gneubig 警告称,未来AI可能只提供给少数特权阶层 @gneubig
- Eric Zelikman 将其描述为"暗中破坏客户利益" @ericzelikman
开源支持者则以此事件为契机,呼吁发展主权/开放模型 @nickfrosst, @NoahZiems, @ClementDelangue
中立 / 混合观点
- 一些观察者认为,Anthropic 很可能真心相信这些干预措施对安全是必要的,即便产品设计本身并不理想 @finbarrtimbers
- 另一些人则表示,Anthropic 并不欠任何人不受限制的前沿能力,但这更多被看作是直白的商业和市场细分行为,而非出于利他主义 @suchenzang
- Karpathy 的观点则较为折中:模型质量非常出色,但发布时的安全防护措施过于敏感,很可能需要进一步调优 @karpathy
从安全到信任:大模型企业级应用的隐忧与反思
讨论的焦点从安全性扩展到了信任、隐私和企业可靠性等更广泛的问题。
- 企业的核心问题在于可预测性:如果服务提供商能够根据推断的任务类别悄无声息地降低输出质量,用户将无法判断失败是来自模型本身、提示词设计,还是隐藏的干预手段 @MattGibsonMusic, @code_star
- 一些用户担心,对于关键工作流而言,这实际上构成了供应链风险,从而促使企业转向开源权重或自建模型 @NoahZiems, @deliprao
- 还有人担忧,账户级别的上下文或历史使用记录可能会影响触发行为,这一点在生物学家关于普通模式与无痕模式的对比报告中有所体现 @cremieuxrecueil
- 在所提供的推文中,没有任何直接证据表明 Anthropic 正在训练用户数据或违反其声明的数据隐私条款;此处的隐私争论主要围绕行为画像/静默策略执行,而非传统的训练数据隐私问题
- 对于研究型用户而言,隐藏干预被认为尤其有害,因为它破坏了可复现性和科学归因 @deanwball, @MattGibsonMusic
- 对于企业采购方来说,问题不仅在于模型是否强大,更在于它是否是编码、医疗、科学、金融和基础设施等领域中一个稳定且可审计的依赖项
这次发布之所以重要,是因为它将可见的能力跃升与可见的访问控制转变结合在了一起。
- 此次发布正值与 GPT-5.5、即将到来的 GPT-5.6 以及 Gemini 3.5 Pro 的激烈竞争之中;多位评论者认为,Anthropic 在编程和智能体工作方面暂时取得了领先优势 @kimmonismus,@teortaxesTex
- 同时,这也引发了关于开源模型与闭源模型差距的更广泛讨论;一篇引用 Epoch 框架的分析指出,开源权重模型平均落后于闭源前沿模型约 4 个月 @dl_weekly
- 社区反应表明,这次发布可能不仅因其“大模型气息”和基准测试的跃升而被铭记,更因其将选择性能力发布常态化而载入史册:公众可以访问前沿模型,但存在针对特定领域的隐藏限制
- 这一策略很可能影响未来围绕以下议题的辩论:
安全性与开放性
- 前沿研究工具的公平获取
- 反垄断与平台权力
- 企业对 API 提供商的信任
- 开源模型是否会在原始能力落后的情况下,成为敏感技术工作的默认选择
模型、基准测试与评估
- 全新基准测试项目 Agents' Last Exam (ALE) 正式上线,旨在测试与劳动力市场对齐的智能体性能;顶级智能体在最难级别上仅获得 2.6% 的得分,涵盖 1500+ 项任务、55 种职业,由来自 100+ 机构的 300+ 专家共同贡献 @YiyouSun, @SnorkelAI, @dawnsongtweets
- Cohere 发布了 North Mini Code,这是其首个开源编程模型:300亿总参数 / 30亿活跃参数的 MoE 架构,256K 上下文窗口,最大生成长度 64K,采用 Apache 2.0 许可证,针对智能体工作流进行了优化 @cohere, @JayAlammar, @vllm_project
- Google 宣布推出 Gemini 3.5 Flash Live Translate,支持 70+ 种语言的实时语音到语音翻译,已在 Gemini API、AI Studio、Google Translate 中可用,并将登陆 Google Meet @OfficialLoganK
- 全新基准测试 iOSWorld 用于评估个性化手机智能体,涵盖 26 个自定义 iOS 应用和 133 项任务;即使拥有特权访问权限,最强前沿模型的成功率也仅为 52% @rsalakhu
推理、训练与系统
- 潜在上下文语言模型(LCLMs) 被提出作为一种长上下文推理方法,可将上下文压缩高达 16 倍,在延迟/准确率权衡上优于 KV 缓存压缩技术 @micahgoldblum,@iamleonli
- 微软研究院的 Mirage 将 3D 场景存储为潜在令牌,报告称视频生成速度提升 10.57 倍,内存使用降低 55 倍 @HuggingPapers
- vLLM 推出了 vime,这是 vLLM 生态系统中的一个强化学习后训练框架,与 NeMo-RL、OpenRLHF 和 verl 并列 @vllm_project
- 关于智能体训练的讨论持续进行,包括用于自我改进脚手架(scaffold)的 Self-Harness @omarsar0 以及跨轮次保留推理轨迹的 AutoForge/交错思考(interleaved thinking) @cwolferesearch
- Google/Hugging Face 发起了 Fast Gemma Challenge,旨在单块 A10G 上加速 Gemma 4 E4B 的运行,同时不损害模型质量 @googlegemma,@osanseviero,@_lewtun
Agent、工具链与开发者工作流
- LangChain 在 Fleet 中强调了由循环触发器驱动的 Agent 循环 模式 @caspar_br
- OpenAI 在 Responses API 中为网页搜索新增了 图片结果 功能 @OpenAIDevs
- GitHub/Copilot 应用更新包括 并行子会话 和用于动态界面的 画布(canvas) UI @tgrall, @burkeholland
- Hermes Desktop 新增 Ollama 支持,具备自学习 Python 技能和消息应用集成能力 @ollama, @NousResearch
- 关于 Agent 执行的安全视角:Temenos 主张对生成的代码进行沙箱隔离,而非 Agent 本身,使用 rootless gVisor,同时将认证/工具保留在宿主机上 @abhijithneil
研究、科学与形式化方法
- Axiom 宣布推出 EconLib,一个基于 Lean 的经济学库;在形式化 Aumann 的“同意分歧”定理时,发现了一个隐藏的与可数性相关的假设 @TheTuringPost
- “心智经济”(Economy of Minds)提出通过拍卖和激励机制而非集中式编排来实现智能体协调,报告显示数学推理能力从 15.9% 提升至 57.0%,金融研究能力从 45.0% 提升至 60.0% @TheTuringPost
- 梅奥诊所(Mayo Clinic)的 REDMOD 据称可在 CT 扫描中比临床诊断提前 最多 3 年 检测出胰腺癌,在诊断前中位 475 天 识别出 73% 的隐匿性癌症 @TheRundownAI
