AI 开发者日报

专为中文开发者打造的 AI 技术日报,每日更新,提供文章和播客双重形式,用通俗语言解读前沿技术。 汇总 AI 开发领域的 X、Reddit 和 Discord 社区讨论,精选开发者值得关注的信息,支持 RSS 和邮件订阅。

订阅 AI 开发者日报,与顶尖开发者同步掌握 AI 最新动态

article cover image

AI 开发者日报 2026-02-13

本期AI开发者日报聚焦AI领域的最新进展。Google DeepMind推出Gemini 3 Deep Think V2,具备从草图生成CAD文件等强大工程推理能力,但订阅费用较高。开源模型竞争激烈,智谱GLM-5和MiniMax M2.5在性能与性价比上各有优势,降低了开发者使用门槛。OpenAI发布高速代码生成模型GPT-5.3-Codex-Spark,引发对工作流进化的思考。Agent技术日趋成熟,基础设施如PyTorch Mooncake项目致力于优化模型服务。AI在医疗诊断等实际应用案例中展现出辅助潜力,但工具属性不变。研究方面,小模型结合智能推理、简化有效的自监督学习方法等成果值得关注。总体而言,AI正朝着更智能、实用和可访问的方向快速发展。

google-deepmindgooglegeminiapparcprizegemini-3-deep-think-v2arc-agi-2demishassabissundarpichaifcholletjeffdean

Google DeepMind发布Gemini 3 Deep Think V2:基准测试突破 + "科学/工程推理模式"向用户开放

  • Deep Think V2发布与访问途径:Google正在向Google AI Ultra订阅用户推出升级版的Gemini 3 Deep Think推理模式,并为精选的研究人员和企业开放Vertex AI / Gemini API早期访问计划(GoogleDeepMind, Google, GeminiApp, tulseedoshi)。多位Google员工强调,这旨在成为一个产品化的测试时计算密集型模式,而非仅限于实验室的演示(OriolVinyalsML, JeffDean, demishassabis, sundarpichai)。

  • 关键报告数据(及其显著之处)

ARC-AGI-2:84.6%(宣传为新的SOTA;由ARC社区独立认证/验证)(Google, arcprize, fchollet, scaling01)。

  • Humanity's Last Exam (HLE):48.4%(无工具)sundarpichai, _philschmid, JeffDean)。
  • Codeforces Elo:3455(被描述为"仅约7名人类"高于此分数;讨论了"无工具"条件及其对评估的影响)(scaling01, YouJiacheng, DeryaTR_)。
  • 物理/化学奥林匹克竞赛级别的书面表现(并提及IMO/ICPC历史)(Google, NoamShazeer, demishassabis, _philschmid)。
  • ARC成本披露:ARC Prize发布了半私有的评估定价,如ARC-AGI-2每任务13.62美元ARC-AGI-1每任务7.17美元arcprize)。

实际"工程"演示与声称的影响:多篇帖子强调Deep Think的价值在于实际的科学/工程工作流程:发现数学论文中的错误、用代码建模物理系统、优化半导体晶体生长,甚至包括草图→CAD/STL的3D打印流程(例如笔记本电脑支架和涡轮叶片式组件)(Google, Google, Google, GeminiApp, joshwoodward, tulseedoshi, OriolVinyalsML)。

ARC背景 / "饱和ARC"的含义:François Chollet(ARC的创建者)既庆祝了认证,随后又重申ARC的目的是引导研究走向测试时适应 / 流体智能,而非"证明AGI"(fchollet, fchollet)。在另一条推文中,他将"AGI"定义为人类-AI差距的终结,并认为基准测试必须不断演进,直到人类无法提出他们能超越AI的任务,预计大约在**~2030年**达到这一状态(fchollet, fchollet)。

开源智能体模型快速部署:MiniMax M2.5与智谱GLM-5争夺"最佳开源编程智能体"宝座

  • MiniMax M2.5:分发策略与市场定位:MiniMax的新模型被定位为"智能体宇宙/长视野智能体"模型,迅速出现在各大聚合平台和工具中:OpenRouter (OpenRouterAI)、Arena (arena)、IDE/智能体工具如Cline (cline)、Ollama云免费推广 (ollama)、Eigent智能体框架 (Eigent_AI)、Qoder (qoder_ai_ide),以及Blackbox AI (blackboxai)。

相关讨论中引用的基准测试包括声称80.2%的SWE-Bench验证通过率,以及在编程场景中相对于闭源模型的强劲表现;多条推文强调吞吐量与成本作为差异化优势(例如,Cline引用了100 tokens/s0.06美元/M混合缓存的数据)(cline, cline, guohao_li, shydev69)。社区反馈(如Neubig)声称这是他会认真考虑在日常工作中切换使用的首批开源编程模型之一 (gneubig)。

GLM-5:模型规模+基础设施暗示+"开源模型排行榜"

  • 工具生态系统报告:GLM-5在YouWare上使用200K上下文窗口进行Web项目开发 (YouWareAI);一位用户报告在OpenRouter上达到约14 tps (scaling01)。
  • 一份更详细(但仍为第三方)的技术总结声称GLM-5拥有7440亿参数,其中约400亿为激活参数,基于28.5万亿tokens进行训练,集成了DeepSeek稀疏注意力机制,并使用"Slime"异步RL基础设施来提高训练后迭代速度 (cline)。另一条推文指出了关于注意力组件的术语混淆问题 (eliebakouch)。
  • 本地推理数据点:awnihannun报告通过mlx-lm512GB M3 Ultra上运行GLM-5,使用约419GB内存约15.4 tok/s的速度生成一个小游戏 (awnihannun)。
  • Arena信号:Arena账户表示GLM-5在Code Arena中排名第一的开源模型(与Kimi并列),总体排名第6位,在"智能体Web开发"任务上仍落后Claude Opus 4.6约100多分 (arena)。
  • 一篇通过ZhihuFrontier转发的长篇中文风格分析认为,GLM-5改进了幻觉控制和编程基础能力,但表达更冗长/"过度思考",表明计算约束(并发限制)有所体现 (ZhihuFrontier)。

OpenAI发布GPT-5.3-Codex-Spark:通过Cerebras实现超低延迟编码(以及为何用户体验成为瓶颈)

  • 产品发布:OpenAI为ChatGPT Pro用户在Codex应用/CLI/IDE扩展中发布了GPT-5.3-Codex-Spark作为"研究预览"(OpenAIOpenAIDevs)。这被明确视为与Cerebras合作的首个里程碑(Cerebras也对此进行了宣传)(cerebras)。

  • 性能表现

主要亮点是**"每秒1000+个token"**和"近乎即时"的交互体验(OpenAIDevssamakevinweilgdb)。

  • 初始能力详情:仅支持文本128k上下文长度,计划随着基础设施容量的扩展而支持更大/更长/多模态功能(OpenAIDevs)。

  • 用户反馈突显了一个新的瓶颈:人类无法像模型生成代码那样快速地阅读/验证/引导,这意味着工具/用户体验必须进化(更好的差异对比、任务分解、防护机制、"智能体收件箱"等)(danshipperskirano)。

模型规模推测:社区尝试从吞吐量与其他MoE模型的对比中反向计算规模;一个估计表明约300亿活跃参数,可能总计3000亿至7000亿参数scaling01)。请将此视为有根据的推测,而非官方披露。

采用/可用性:Sam Altman后来表示Spark正在向Pro用户推出;OpenAI开发者关系团队指出API早期访问仅限小范围群体(samaOpenAIDevs)。还有一些"Spark现已覆盖100% Pro用户"类型的推出说明,附带基础设施不稳定的警告(thsottiaux)。

Agent框架与基础设施:长时运行Agent、协议标准化以及KV缓存成为新的扩展瓶颈

  • A2A协议作为"Agent互操作性层":吴恩达推广了一门新的DeepLearning.AI课程,重点介绍Agent2Agent (A2A)协议,将其定位为跨Agent框架的发现/通信标准。他提到IBM的ACP已与A2A联手,并展示了跨Google ADK、LangGraph、MCP的集成模式,以及通过IBM的Agent Stack进行部署(AndrewYNg)。

  • 长时运行Agent框架正成为产品特性

Cursor推出了长时运行Agent,并明确将其与能够完成更大任务的"新框架"联系起来(cursor_ai)。

  • LangChain团队讨论了"框架工程"研究:强制自我验证/迭代、自动上下文预取以及基于追踪的反思,这些杠杆能够实质性地改变结果(Vtrivedy10)。

  • Deepagents增加了自带沙箱功能(Modal/Daytona/Runloop),为安全代码执行提供环境(sydneyrunkle)。

服务瓶颈:KV缓存与解耦

  • PyTorch将Mooncake纳入其生态系统,描述其旨在解决LLM服务中的"内存墙"问题,通过KVCache传输/存储实现预填充/解码解耦、全局缓存重用、弹性专家并行,并作为与SGLang、vLLM、TensorRT-LLM兼容的容错分布式后端(PyTorch)。

  • Moonshot/Kimi强调了Mooncake的起源(Kimi + 清华大学)及其开源发展轨迹(Kimi_Moonshot)。

一个令人惊讶的常见主题:"文件即队列":一个广为流传的帖子描述了一种可靠的分布式作业队列,使用对象存储 + queue.json(FIFO、至少一次交付)作为最小化原语(turbopuffer)。另一条推文声称Claude Code的"Agent团队"通过向磁盘写入JSON文件进行通信,强调"无需Redis"的CLI人体工程学(peter6759)。

研究笔记:小型定理证明器 + 无标签视觉训练 + 可验证推理的强化学习算法

  • QED-Nano:4B参数定理证明模型配合大量推理时计算:一系列推文介绍了QED-Nano,这是一个4B参数的自然语言定理证明模型,在IMO-ProofBench基准测试中与更大规模的系统表现相当,并采用扩展到超过100万tokens的代理框架,通过强化学习后训练使用"评分标准作为奖励"。他们承诺将很快开源权重和训练工件(_lewtun, _lewtun, setlur_amrith, aviral_kumar2)。

  • LeJEPA:简化自监督视觉训练:纽约大学数据科学中心强调LeJEPA(Yann LeCun及其合作者)作为一种更简单的无标签训练方法,虽然舍弃了许多技巧,但具有良好的扩展性,在ImageNet上表现具有竞争力(NYUDataScience)。

  • 递归/代理评估讨论:多篇推文讨论了**递归大模型(RLMs)**和状态化REPL循环作为管理超出上下文窗口的长时程任务的方法(lateinteraction, deepfates, lateinteraction)。

热门推文(按互动量排名)


/r/LocalLlama + /r/localLLM 回顾

GLM-5模型发布与性能基准测试

  • Unsloth刚刚发布了Glm 5!GGUF格式现已推出! (活动量:446):图片展示了一个AI模型的基准测试对比表,重点突出了GLM-5 与其他模型如GLM-4.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.5Gemini 3.0 ProGPT-5.2的性能对比。该表格将性能分为推理、编码和通用智能体等类别,GLM-5在推理类别中表现尤为突出。此外,表格还提供了成本对比,表明GLM-5在可能更低的成本下提供了有竞争力的性能。一条评论幽默地表示需要数据中心来运行这些模型,暗示了高计算需求。另一条评论质疑在低端GPU如GT 710上运行该模型的可行性,突显了对可访问性和硬件需求的担忧。

一位用户询问新的Glm 5模型是否需要llama.cpp进行任何实现更改,暗示该模型可能无需额外修改即可兼容。这可能意味着对于已经在使用llama.cpp运行其他模型的开发者来说,集成会更容易。

  • 另一位用户幽默地质疑Glm 5模型能否在GT 710显卡上运行,该显卡以其有限的计算能力而闻名。这突显了运行此类先进模型所需的潜在硬件要求和限制,表明可能需要更强大的GPU。
  • Glm 5以GGUF格式发布,表明其专注于优化性能和兼容性。GGUF作为一种为高效模型存储和执行而设计的格式,意味着Glm 5相比之前的版本可能提供改进的性能指标或减少的资源消耗。

GLM-5在智能指数上获得50分,成为新的开源权重领导者! (活动量:892):图片突出了GLM-5的性能,它在智能指数上获得50分,使其在开源权重模型中处于领先地位。这具有重要意义,因为它超越了Opus 4.5和GPT-5.2-xhigh等其他模型,表明在AI评估中表现强劲。值得注意的是,GLM-5在AA-Omniscience基准测试中具有最低的幻觉率,展示了其在生成输出时的准确性和可靠性。讨论表明开源模型正在缩小与专有模型的差距,即将发布的Deepseek-V4等模型预计将使用类似的架构但规模更大。评论者注意到开源和闭源模型之间的性能差距正在缩小,一些人预计开源AI能力将进一步发展。

  • GLM-5在AA-Omniscience基准测试中具有最低的幻觉率,这是在减少AI生成内容错误方面的重要成就。这使GLM-5在开源权重模型的准确性方面处于领先地位,超越了Opus 4.5和GPT-5.2-xhigh等模型。
  • 开源AI社区正在迅速缩小与闭源模型的差距,现在仅落后约三个月。即将发布的DeepSeek v4将使用与GLM-5相同的DSA架构但规模更大,这证明了这一趋势,表明开源模型正变得更加强大。
  • 社区内对这些先进模型的硬件要求透明度有需求,正如用户所表达的,他们希望详细的规格(如内存要求)能与模型公告一起发布。

MiniMax M2.5 发布与讨论:2300亿参数模型的成本革命

  • MiniMaxAI MiniMax-M2.5 拥有2300亿参数和100亿活跃参数(活动量:436):OpenHands 宣布了 MiniMax-M2.5 模型,该模型拥有 2300亿参数,其中 100亿活跃参数。该模型以其竞争性表现而著称,在 OpenHands 指数中排名第四,并且成本效益显著,比 Claude Opus 便宜13倍。它在软件工程任务方面表现出色,特别是在应用开发和问题解决方面,但在泛化任务方面仍有改进空间。该模型在 OpenHands Cloud 上有限时间内免费提供,增强了开发者的可访问性。评论者对 MiniMax-M2.5 模型的潜力持乐观态度,建议将其与 Cerebras 技术集成以提升性能和效率,特别是对于拥有 128GB 内存机器的用户。

Look_0ver_There 讨论了使用 MiniMax-M2.5 架构开发混合模型的潜力,建议可以开发一个 ~1600亿 参数的 REAP/REAM 混合模型,性能损失最小。他们提出这样的模型可以量化以在 128GB 内存机器上高效运行,实现深度上下文工具使用,这对于硬件资源有限的用户将非常有益。

  • Rascazzione 强调了 MiniMax-M2.5 模型的成就,指出其与 GLM 等其他模型相比的效率优势,GLM 需要将其参数翻倍才能进化,而 Kimi 拥有 1万亿 参数。他们强调,如果 MiniMax-M2.5 的质量和规模得到确认,这代表了 AI 模型开发的重大进步。
  • eviloni 指出,由于只有 100亿 活跃参数,MiniMax-M2.5 即使在非高端 GPU 上也应该能达到不错的速度。他们建议量化版本可以进一步提升性能,使模型对没有尖端硬件的用户更加可访问。

Minimax M2.5 正式发布(活动量:664):Minimax M2.5 已正式发布,展示了令人印象深刻的基准测试结果:SWE-Bench Verified 达到 80.2%Multi-SWE-Bench 达到 51.3%BrowseComp 达到 76.3%。该模型以其成本效益著称,运营成本显著低于 OpusGemini 3 ProGPT-5 等竞争对手。以 每秒100个输出token 计算,成本为 每小时1美元,在 每秒50个token 时,成本降至 每小时0.3美元,这意味着四个实例连续运行一年的成本仅为 10,000美元。更多详情可在 Minimax 官方页面 找到。评论者强调了 Minimax M2.5 因其成本效益而可能带来的颠覆性影响,并期待在 Hugging Face 等平台上发布开源权重。

  • Minimax M2.5 因其成本效益而备受关注,运营成本显著低于 Opus、Gemini 3 Pro 和 GPT-5 等竞争对手。具体来说,以每秒100个token运行 M2.5 的成本为每小时1美元,以每秒50个token运行的成本为每小时0.3美元。这意味着四个实例连续运行一年的成本为10,000美元,与其他模型相比是大幅降低。
  • 社区期待在 Hugging Face 上发布开源权重,这将允许更广泛的实验和集成到各种应用中。这是 AI 社区对新模型的常见期望,以促进透明度和可复现性。
  • 讨论了 Minimax M2.5 对 GLM 5.0 和 Kimi 2.5 等现有模型的潜在影响,一些用户认为如果基准测试准确,M2.5 可能因其易用性和成本优势而超越这些模型的受欢迎程度。这可能会改变本地模型的格局,因为用户目前更青睐 Kimi 2.5 和 DeepSeekv3.2 等模型。

GLM 5.0 和 MiniMax 2.5 刚刚发布,我们是否进入了中国的智能体战争时代?(活动量:465):GLM 5.0MiniMax 2.5 已经发布,标志着 AI 开发向智能体式工作流的转变。GLM 5.0 专注于增强推理和编码能力,而 MiniMax 2.5 则专为任务分解和延长执行时间而设计。这种演变表明竞争格局正在从生成更好的响应转向完成复杂任务。测试计划包括 API 基准测试、与 Verdent 的多智能体编排、类似 Cursor 的 IDE 工作流,以及使用 ZenMux 的基础设施路由,以评估它们在长时间任务和仓库级变更上的性能。评论突出了中国 AI 开发的更广泛背景,提到了其他近期发布如 Seedance 2.0 和 Qwen-image 2.0,表明了一个充满活力和竞争激烈的 AI 生态系统。还有一种观点认为这种竞争通过推动创新最终使终端用户受益。

3. AI模型身份认同与社区关注

  • 为什么我们允许"非本地"内容 (活跃度:466):这篇帖子讨论了专注于本地AI模型的subreddit中"非本地"内容的担忧,建议链接到API资源的帖子也应包含可下载模型权重的链接,例如Hugging Face上的链接。作者认为这样可以防止该subreddit变成营销平台而非技术讨论场所。争论焦点在于是否应该允许发布关于未发布权重模型的帖子,一些人同意即使这些模型不能立即用于本地使用,也应该与本地相关性联系起来。讨论强调了在保持subreddit对本地模型的关注与允许讨论潜在相关进展之间需要平衡。评论者普遍同意需要建立一个框架来优先考虑"本地"内容,但也承认划定严格界限的困难。一些人建议,如果即将发布权重的模型可能对本地使用相关,应该允许发布相关帖子。管理团队强调保持社区精神而非严格遵循原始意图的重要性,以保持社区的活跃度和相关性。

讨论提出了一个确定帖子与本地关注subreddit相关性的框架。它建议应该优先考虑纯粹的本地内容,例如在特定硬件上运行模型和基准测试。然而,如果非本地模型或突破性进展能够与本地应用潜力或与本地模型的相关性联系起来,应该允许发布相关帖子。

  • 提到了管理团队之间的共识,强调允许与本地生态系统相邻或相关内容的重要性。讨论承认划定严格界限的困难,因为某些模型或公告的相关性可能各不相同。例如,Minimax M2.5在其权重发布前的公告就对其本地相关性判断提出了挑战。

  • 管理团队一直在讨论保持subreddit原始焦点与适应当前趋势之间的平衡。他们认为严格遵循原始意图可能导致subreddit的衰落,就像Llama等模型的相关性逐渐减弱一样。重点是保持subreddit的精神而非严格规则,允许内容相关性的灵活性。

GLM认为自己是Gemini (活跃度:354):图片展示了一个聊天界面,其中一个大模型最初将自己识别为GLM-5,但随后纠正自己说实际上是Gemini,这是由Google开发的大模型。这引发了关于模型身份认同以及Gemini是否用于蒸馏GLM或生成合成数据的问题。评论突出了一个常见问题:用户要求大模型识别自己,但由于上下文限制,它们通常无法准确做到这一点。 一条评论表明模型的响应可能受到非空上下文的影响,暗示模型身份混淆可能是由于先前的交互或提示词造成的。

  • NoobMLDude提出了一个关于GLM和Gemini之间关系的技术询问,质疑GLM是否是从Gemini输出中蒸馏出来的,或者Gemini是否用于生成合成数据。这表明对开发这些模型所涉及的训练过程和数据源的好奇,这可能影响它们的性能和能力。

1. AI模型发布与性能对比

  • Anthropic融资300亿美元,Elon退出竞争 (活跃度:4819):这张图片是一个虚构的Anthropic推文梗图,宣布了一轮300亿美元的融资,公司估值达到3800亿美元。这是一个讽刺性的玩笑,因为这样的融资轮和估值并非真实。推文幽默地表示这些资金将用于研究、产品创新和基础设施扩展。Elon Musk被描绘成批评性地回应,指责Anthropic的AI存在偏见,并称其为"反人类且邪恶",这是对公司名称的文字游戏。这个梗图可能是对AI开发和融资竞争性以及有时争议性的评论,也反映了Musk对AI伦理和偏见的直言不讳观点。评论中混合了困惑和幽默,一位用户质疑对奇幻小说《风之名》的引用,认为这与主题无关。另一条评论暗示Musk的回应是他自身不安全感的投射,第三条则暗示Musk的嫉妒心理。

  • 介绍Simile - 模拟公司 (活跃度:504):Simile推出了一个基于AI的模拟平台,旨在建模社会行为并大规模预测人类行动。该公司开发了一个基础模型,使用生成式代理来高精度模拟真实人物,允许组织在实施前测试决策。这种方法已被公司用于收益电话会议排练和政策测试等应用。Simile获得了来自Index VenturesAndrej KarpathyFei-Fei Li等知名投资者的1亿美元资金支持。评论者强调了Simile技术革新决策过程的潜力,将其与阿西莫夫的心理史学概念相提并论。Karpathy和Fei-Fei Li等知名人物的参与为该项目增添了可信度,表明这不仅仅是投机性的。

Rare-Site强调了软件开发中严格测试(如UI元素的A/B测试)与经济政策中通常凭直觉决策之间的对比。他们强调了Simile通过模拟现实来革新决策的潜力,特别是得到了KarpathyFei-Fei Li等知名人物的支持。这可能代表了AI能力的重大进步。

  • EmbarrassedRing7806对竞争格局提出了担忧,质疑Simile保持竞争优势或"护城河"的能力。他们提到了类似项目Aaru,暗示模拟技术领域可能已经拥挤或正在快速发展,这可能影响Simile的独特定位。
  • The_Scout1255对今年模拟技术的出现表示惊讶,表明在当前时间线上如此先进的模拟能力发展是出乎意料的。这暗示了该领域创新的快速步伐,可能由AI和计算能力的近期进展推动。

Google AI Studio产品设计负责人承诺本周推出"比Gemini 3 Pro GA更好的东西" (活跃度:626):这张图片捕捉了Google AI Studio负责人的社交媒体交流,暗示即将发布的版本预计将超越预期的Gemini 3 Pro GA。这表明Google可能准备推出新产品或功能,可能包含高级能力,正如用户推测的与编码代理相关。讨论反映了社区对Google在AI开发中下一步行动的高度期待和兴奋。一条评论指出Google需要类似Codex的产品,因为Gemini 3 Pro据报道缺乏有效的代理功能。这表明市场对Google更先进AI功能的需求。

  • Impressive-Zebra1505强调了Google AI能力的关键差距,指出"Google迫切需要类似Codex的东西",因为Gemini 3 Pro在代理功能方面表现不佳。这表明Google AI产品在改进或创新方面的潜在领域,特别是在增强模型自主处理任务的能力方面,类似于OpenAI的Codex。
  • Hemingbird讨论了《纽约客》一篇深入探讨Anthropic及其AI模型Claude的文章。该文章因其对AI的细致理解而受到赞扬,特别是在区分下一个标记预测与简单自动完成方面。它还探讨了"AI心理探险者"在模型可解释性中的作用,强调了理解AI行为的多样化和有时非传统的方法。
  • kvothe5688推测Google AI Studio即将发布的公告可能涉及"传闻中的编码代理"。这与将更复杂的编码能力集成到AI模型中的更广泛行业趋势一致,可能解决Gemini 3 Pro当前功能的局限性。

这怎么不是现在最大的新闻? (活跃度:865):Google开发了一个数学专业版本的AI模型,名为Aletheia,在国际数学奥林匹克竞赛(IMO)中获得了满分,并在各种基准测试中显著优于其他模型。图片显示Aletheia在Advanced Proofbench上以91.9%的分数领先排行榜,在IMO 2024类别中获得100%,远远超过"GPT-5.2 Thinking (high)"和"Gemini 3 Pro"等其他模型。该模型被描述为生成器-验证器代理,可能无法直接与传统语言模型比较,表明其架构和能力采用了不同的方法。一些评论者质疑这一新闻的重要性,指出通过足够的微调和资源在IMO中获得高分是可能的。其他人强调Aletheia作为生成器-验证器代理的架构使其与典型的语言模型不同,表明排行榜比较可能不完全公平。

  • Alex__007强调OpenAI和Google都通过他们的模型在国际数学奥林匹克竞赛(IMO)中获得了金牌,表明通过足够的微调和推理支出,这样的结果是可实现的。评论者质疑这些模型在特定基准测试之外的泛化能力,并询问Aletheia的可访问性和使用成本,表明这些领域需要更多透明度。
  • Faintly_glowing_fish指出相关模型是生成器-验证器代理,与传统语言模型不同。这种区别意味着将其性能与标准语言模型在排行榜上比较可能具有误导性,因为它们服务于不同目的并在不同范式下运行。
  • jjjjbaggg讨论了模型的专注点和成本,暗示它可能是Gemini Deepthink的迭代版本,具有广泛的脚手架工程和微调。他们指出脚手架工程可能随着强化学习(RL)技术的发展而过时,未来模型代次中可能不再需要这种脚手架。

GLM 5现已发布 (活跃度:312):这张图片是一个性能评估图表,比较了几个语言模型,包括新发布的GLM-5,以及GLM-4.7Claude Opus 4.5Gemini 3 Pro和**GPT-5.2 (xhigh)**等其他模型。图表突出了GLM-5在"SWE-bench Verified"和"t²-Bench"等各种基准测试中的强劲表现,表明其在这些类别中的竞争优势。GLM-5的发布通过其在图表中的突出位置得到强调,表明相对于其前身GLM-4.7的改进,以及与其他领先模型的竞争性能。一位评论者批评基准测试不能反映实际使用情况,而另一位则强调Oppus 4.6等模型相对于GLM-5的成本效益和效率,表明尽管GLM-5性能良好,但对于某些任务可能不够实用。

  • SnooTangerines2270强调了GLM 5的关键性能问题,指出虽然它可能具有成本效益,但往往导致低效的工作流程,表现为重复的"复制-粘贴-修复"循环。他们将其与Oppus 4.6进行对比,声称后者通过理解用户意图而无需大量提示,提供了卓越的性能,这得益于其先进的群体代理能力。这表明对于优先考虑效率和时间节省的用户,Oppus 4.6可能是更合适的选择,尽管成本更高。
  • ianxiao批评了GLM 5的性能,称其以"不可用的令牌/秒"运行,暗示该模型的处理速度不足以满足实际使用需求。这表明尽管可能有任何潜在的改进或功能,该模型的吞吐量可能无法满足需要快速高效处理的用户需求。
  • stiky21表示更喜欢Opus和Codex而不是GLM 5,表明对这些替代方案可能具有优越性能或可靠性的看法。这种选择可能反映了更广泛的用户情绪,他们优先考虑具有经过验证记录的老牌模型,而不是尚未在实际应用中证明其能力的新发布模型。

Deepseek V4本周即将发布 (活跃度:385):Deepseek V4预计将在2月17日发布,与中国新年时间重合。更新据报道包括处理100万令牌的能力,表明处理能力的显著增强。这使Deepseek成为Opus、Codex等主要模型的竞争性替代品,可能以更低的成本提供类似能力。一位评论者强调Deepseek的进步使其成为主要模型的成本效益替代品,表明中国在AI开发方面与全球领导者具有竞争力。

  • 一位用户提到Deepseek已更新为处理100万令牌,表明其处理能力的显著增加。这可能意味着在处理更大数据集或更复杂查询方面的改进,对于处理大量数据或需要详细分析的用户来说是一个值得注意的增强。
  • 另一位用户报告称,更新后Deepseek对复杂角色写作提供了高度细致和原创的评论。这表明该模型理解和批评创意内容的能力有所改进,表明其自然语言处理和理解能力的进步。
  • 一条评论强调了更新后Deepseek响应中感知到的"个性"增加,将其与ChatGPT进行比较。这表明该模型对话能力的增强,可能使交互更具吸引力和人性化。

MiniMax-M2.5现已在NetMind上线(早于官方发布),限时免费 (活跃度:14):MiniMax-M2.5现已在NetMind平台上提供,具有首发API访问权限,限时免费。该模型专为代理设计,支持多语言编程、复杂工具调用链和长期规划。它在SWE-bench Pro和Verified上超越了Claude Opus 4.6,使其成为软件工程领域的顶级模型之一。它还在Excel操作、深度研究和文档摘要方面达到了最先进的分数。输出速度约为100 TPS,比Opus类模型快约3倍,定价为输入令牌$0.3/M和输出令牌$1.2/M,适用于高容量、始终在线的生产工作负载。一条评论指出,尽管有公告,但该服务是付费的,表明尽管有初始免费访问,用户仍可能对成本表示担忧。

2. AI在医疗诊断与健康领域的应用

  • 今天早上ChatGPT说服我不要硬撑小腿肌肉拉伤,建议我去检查,因为它怀疑是血栓 (活跃度:6516):这张图片和附带的帖子突显了一个真实场景,ChatGPT在促使用户为疑似血栓寻求紧急医疗帮助方面发挥了关键作用。用户最初考虑忽略小腿肌肉拉伤,但ChatGPT的建议让他们发现了肺部存在多个血栓这一危及生命的状况。这一事件凸显了像ChatGPT这样的AI工具在提供及时健康建议方面的潜力,尽管它不应替代专业医疗咨询。评论进一步展示了类似经历,其中ChatGPT的指导帮助发现了严重的健康问题,强调了其在初步健康评估中的实用性。评论者分享了类似经历,ChatGPT的建议帮助他们发现了严重健康问题,如心脏阻塞和带状疱疹,突出了AI在初步健康诊断中的潜力。

  • GPT作为医生真是太棒了 (活跃度:1219):这篇帖子讨论了使用ChatGPT进行医疗诊断,通过分析实验室报告,声称它准确识别了克罗恩病、脂肪肝和肿瘤等病症,并建议了后续检查,这些后来都得到了医生的确认。这突显了GPT在医疗模式识别方面的能力,它利用对大量医学文献的训练,能够针对记录在案的病例和临床相关性进行复杂的模式匹配。它在鉴别诊断阶段表现出色,能够提出可能的诊断和检查建议,但应作为诊断辅助工具而非医生的替代品。评论强调了GPT作为第二意见工具的作用,通过促进知情讨论来增强医患互动。然而,需要谨慎对待,因为GPT基于模式匹配提供自信的答案,而非真正的诊断。文中提到了AI整合到医疗工作流程中的潜力,认为它可以提高诊断效率和患者治疗效果。

BookPast8673强调了GPT在医疗模式识别方面的有效性,这得益于其对大量医学文献和病例研究的训练。它通过将症状和数据点与庞大的记录病例数据库进行匹配,在鉴别诊断方面表现出色,能够快速回忆起罕见病症和药物相互作用。然而,需要强调的是,GPT应作为诊断辅助工具而非替代品,因为它可以建议检查,但无法解读完整的临床情况或患者病史。

  • BookPast8673还讨论了AI整合到医疗系统中的潜力,认为AI可以作为医生的副驾驶,实时标记潜在诊断并建议后续检查。这种整合可以减少诊断延迟和不必要的检查,最终节省时间和金钱,同时改善患者治疗效果。该评论强调了AI作为增强而非替代人类医学专业知识工具的重要性。

Gemini 3 Deep Think 在 ARC-AGI-2 基准测试中创下惊人成绩

  • Gemini Deep Think 在 ARC-AGI-2 基准测试中取得惊人成绩 (活跃度:1286):图表展示了多个 AI 模型在 ARC-AGI-2 基准测试中的表现,其中 Gemini 3 Deep Think 模型以 84.6% 的得分领先。这一成绩显著超越了其他模型,如 Claude Opus 4.6 (68.8%)、GPT-5.2 (52.9%) 和 Gemini 3 Pro Preview (31.1%)。Gemini 3 Deep Think 的表现尤为突出,因为它接近了 ARC Prize 标准 下有效解决该基准测试的阈值。此外,该模型在 Codeforces 上的 Elo 评级达到 3455,使其跻身人类参赛者的前 0.008%,突显了其在无需工具辅助的情况下,在推理和知识方面的先进能力。评论者对 Gemini 3 Deep Think 模型的显著性能飞跃印象深刻,认为这可能是 AI 能力的一次突破。该模型的高 Codeforces Elo 评级也被强调为一项非凡成就,表明其卓越的问题解决能力。

FundusAnimae 强调了 Gemini Deep Think 模型在 ARC-AGI-2 基准测试中的显著性能提升,指出其得分超过 85%,根据 ARC Prize 标准,这被视为有效解决了该基准测试。该模型在 Codeforces 上的 Elo 评级为 3455,使其跻身人类参赛者的前 0.008%,考虑到这是在没有任何工具辅助的情况下实现的,这一点尤其令人印象深刻。

  • Agreeable_Bike_4764 指出了 ARC-AGI-2 模型的快速进展,注意到自发布以来,不到一年时间就达到了被视为"饱和"的性能水平(85% 解决率)。这表明 AI 模型能力的发展与改进周期非常快速。

Google 升级 Gemini-3 DeepThink:推动科学、研究和工程发展 (活跃度:674):Google 的 Gemini-3 DeepThink 在 AI 性能方面设定了新的基准,在无需工具的情况下,在 Humanity's Last Exam 上取得了 48.4% 的成绩,在 ARC-AGI-2 上取得了 84.6% 的成绩(由 ARC Prize Foundation 验证),在 Codeforces 上的 Elo 评级为 3455。它还在 2025 年国际数学奥林匹克竞赛中达到了金牌级别的表现。这些结果突显了其在科学领域推理和问题解决方面的先进能力。更多详情,请参阅 原始文章。评论中一个值得注意的争论围绕 Gemini-3 DeepThink 与 GPT 5.2 的比较展开,一些用户指出应该与 GPT 5.2 Pro 进行比较,后者才是更直接的竞争对手。

  • SerdarCS 指出了 Google 使用的比较指标可能存在的问题,注意到他们将 Gemini-3 DeepThink 与 GPT-5.2 Thinking 进行比较,而不是与 GPT-5.2 Pro 比较,后者才是更直接的竞争对手。这表明基准测试过程可能存在偏见,因为 Pro 版本可能提供与 Gemini-3 能力更匹配的不同性能特征。
  • brett_baty_is_him 询问了与 Gemini-3 DeepThink 相关的具体基准测试,特别关注软件工程(SWE)基准测试和长上下文基准测试。这表明需要详细的性能指标来评估模型在处理复杂工程任务和扩展上下文场景方面的能力,这对于评估其在技术应用中的实用性至关重要。
  • verysecreta 对 Gemini-3 DeepThink 使用的命名约定表示困惑,将其与"Flash"和"Pro"等其他模型进行比较。该评论强调了区分"Deep Think"是独立模型还是现有 Gemini 框架内的模式存在模糊性。这反映了 AI 模型品牌和清晰度方面更广泛的问题,可能影响用户的理解和采用。

Google 刚刚发布 Gemini 3 "Deep Think":其表现令人震惊 (活跃度:844):Google 发布了 Gemini 3 'Deep Think',这是一个先进的 AI 模型,以其在推理、编码和科学方面的卓越能力而闻名,堪比奥林匹克竞赛级别的表现。它已经在实际场景中得到应用,例如在 杜克大学 的半导体材料设计中。该模型还通过解决博士级别的数学和物理问题设定了新的基准,展示了其在学术和研究环境中的潜力。图片 一些用户对访问 Gemini 3 的高成本表示担忧,其定价为每月 $270,每天限制 10 条消息,这表明其使用可能仅限于那些能够负担得起此类高级服务的用户。

  • TechNerd10191 强调了 Gemini 3 定价模式的限制性,其成本为每月 $270,并将用户限制在每天 10 条消息。这与 ChatGPT Pro 形成对比,后者在其 5.2 Pro 版本上提供 100+ 条消息,这表明对于需要与模型进行广泛交互的用户来说存在显著限制。
  • NervousSWE 对使用 Gemini 3 进行编码的实用性表示担忧,因为每天只有 10 条消息的限制。他们推测模型的效率,认为如果 Gemini 3 的一条消息能够实现其他模型需要 10 条消息才能完成的任务,那么对于高级用户来说可能仍然可行。这突显了通过专注于复杂、高价值查询来最大化有限交互的潜在策略。
  • blondbother 将 Gemini 3 的提供与 ChatGPT Pro 进行比较,指出后者在其 5.2 Pro 版本上每天提供 100+ 条消息。这种比较强调了 Gemini 3 的 10 条查询/天政策的局限性,这可能会阻止需要更频繁访问的用户,尤其是在考虑到高订阅成本时。

GLM-5 模型发布与生态系统发展势头

工程师们就 GLM-5 是否更偏向智能体而非"通用助手"展开了讨论(与 MiniMax 的对比类似)。另有讨论指出 chat.deepseek.com 在没有任何官方公告的情况下"悄然"发生了变化,这进一步激发了人们对独立评估的兴趣。

GGUF 加速:GLM-5 本地运行:Unsloth 发布了 GLM-5 GGUFs 并通过 他们的帖子 提供了本地 llama.cpp 指南,权重可在 unsloth/GLM-5-GGUF 获取。

  • 有用户报告使用 3× Nvidia Blackwell RTX 6000 GPUs 实现了 46 t/s 的速度,引发了关于实际吞吐量以及 GLM-5 的调优是否更侧重于长时程工具使用而非聊天优化的实用讨论。

2. 智能体编程:速度、长时运行智能体与新排行榜

  • Codex Spark 点燃导火索(1000 tok/s):OpenAI 在研究中预览发布了 GPT-5.3-Codex-Spark,官方发布了文章《Introducing GPT‑5.3 Codex Spark》,并附有视频演示和示例 CLI 用法,如 codex -m gpt-5.3-codex-spark --yolo -c model_reasoning_effort="xhigh"

Cursor 用户强调了 Cerebras 支持的速度("速度完全是另一个层次!"),同时也强调真正的震撼在于快速可部署的代码变更,而不仅仅是令牌吞吐量。

Cursor 让智能体自由运行(...账单待定):Cursor 推出了长时运行智能体,用户通过 cursor.com/dashboard 上的开发工具探索定价/限制,同时也在讨论 Composer 1.5 的定价(在某些视图中报告为输入 $3.5 / 输出 $17.5)。

  • 氛围分为兴奋("我如何让 Cursor 长时运行智能体运行一周"作为梗标题)和对不明确的池/限制感到沮丧——特别是与更便宜/高分的替代方案如 GLM-5 相比。

Windsurf 将评估变成观赏性运动:Windsurf 发布了竞技场模式公共排行榜,并附有公告和文章:公告博客分析和实时排行榜

  • 他们还根据此更新GPT-5.3-Codex-Spark(预览版) 添加到竞技场模式中,创建了一个新的反馈循环,用户可以在战斗组约束下比较"前沿"(例如 Opus 4.6)与"快速"模型的行为。

3. GPU/基础设施工具与内核生成实验

  • torchao 精简架构,增强 MXFP8 MoE 能力torchao v0.16.0 版本新增了 MXFP8 MoE 构建模块,支持专家并行训练,并朝着 ABI 稳定性 迈进,详情见发布说明

同一版本还 弃用了旧配置和较少使用的量化选项,强化了"保持精简"的方向,内核和推理开发者可以立即将其映射到更简单的部署界面。

5天3万美元:内核生成黑客松的能量:GPU MODE 组织者安排了 2-3万美元 的计算资源,用于 4-5天(二月底)的快速内核生成实验,使用 Qwen3/GLM4.7 Flash 等模型,并整合了 Kernelbot/Flashinferbench 等评估工具。

TraceML 像鹰一样监控你的 GPU 排名:一位工程师分享了 TraceML,这是一个用于 PyTorch DDP 的开源工具,只需约一行代码就能实时显示每个 GPU 的步长时间/偏差,项目地址在 traceopt-ai/traceml

  • 这个工具引起了共鸣,因为它针对的是那些无聊但致命的问题:你以为自己在扩展,但某个 GPU 拖慢了进度,而你只能在浪费了一个周末后才注意到。