AI 开发者日报

专为中文开发者打造的 AI 技术日报,每日更新,提供文章和播客双重形式,用通俗语言解读前沿技术。 汇总 AI 开发领域的 X、Reddit 和 Discord 社区讨论,精选开发者值得关注的信息,支持 RSS 和邮件订阅。

订阅 AI 开发者日报,与顶尖开发者同步掌握 AI 最新动态

article cover image

AI 开发者日报 2026-02-17

本期AI开发者日报聚焦近期AI领域的密集更新。阿里巴巴开源了参数规模达3970亿的Qwen3.5-397B-A17B模型,其采用混合架构,推理时仅激活170亿参数,并支持超长上下文。同时,Qwen 3.5系列引入了原生多模态与空间智能能力。MiniMax也发布了M2.5模型,其吞吐量表现突出,但对硬件要求极高,再次凸显了本地部署大模型的硬件挑战。 应用层方面,智能体领域活跃,OpenAI收购OpenClaw引发社区对技术开放性的讨论。行业趋势显示,重点正从模型本身转向工程化能力,即构建管理模型的基础设施与工具链。此外,Anthropic与OpenAI的发展路径对比,也反映了AI技术在伦理与产品化方向上的不同探索。

alibabaopenaideepseekz-aiminimaxkimiunslothollamavllmqwen3.5-397b-a17b

Qwen 3.5:一艘来自通义千问的好船

2026年2月13日至2月16日的AI新闻。我们为您检查了12个Reddit子版块、544个Twitter账号和24个Discord服务器(261个频道,26057条消息)。预计节省的阅读时间(按每分钟200字计算):2606分钟。AINews网站可搜索所有过往内容。提醒一下,AINews现在是Latent Space的一个栏目。您可以选择接收/取消接收邮件频率!

恭喜Pete Steinberger加入OpenAI,正如我们之前预测的那样。关于这一点没有太多需要补充的,所以我们就不多说了。

今天的头条新闻是Qwen 3.5,它紧随其他中国模型实验室如Z.aiMinimaxKimi之后,更新了他们的领先模型。但与前两者不同的是,Qwen 3.5与Kimi属于同一重量级别,拥有400B参数,稀疏率约为4.3%,而Kimi则采用了更激进的3.25%稀疏率。他们并未声称在所有基准测试中都达到SOTA水平,尤其是在编码基准测试方面,但相比Qwen3-MaxQwen3-VL有了显著改进。

原生多模态能力和空间智能是该模型的主要特色功能,我们建议点击博客链接查看示例,因为除此之外没有太多需要说明的——这是来自中国最多产的开源模型实验室的一次非常受欢迎的头条模型更新,很可能是在DeepSeek v4之前的最后一次更新。

阿里巴巴发布Qwen3.5-397B-A17B:首个开源权重前沿MoE模型及其推理基础设施影响

  • Qwen3.5-397B-A17B发布:阿里巴巴推出了Qwen3.5-397B-A17B,定位为Qwen3.5系列中首个开源权重模型:原生多模态、"思考与非思考模式"、混合线性注意力+稀疏MoE、"大规模强化学习环境扩展"、支持201种语言Apache-2.0许可证官方公告@JustinLin610 也进行了转述)。他们还澄清Qwen3.5-Plus是同一基础模型的托管API版本,具有100万上下文(相比模型原生的256K)加上搜索/代码解释器集成(澄清说明)。

  • 架构+KV缓存影响:社区讨论集中在门控Delta网络/"GatedDeltaNet"+稀疏MoE作为推理在长上下文中保持可处理性的原因。vLLM推出了第0天支持,并强调了397B总参数、17B激活参数、多模态特性以及吞吐量/延迟优势(vLLM配置)。一个具体的KV缓存粗略估算表明,由于少量KV头+多个门控Delta层,在BF16精度下仅需**~31KB/令牌**,在262K上下文下**~8.05GB KV缓存**(在FP8精度下约4GB)(KV计算)。

  • 部署现实:巨大权重,但出奇地可运行:尽管规模达到"~800GB BF16",但人们报告通过MLX/Q4在Apple Silicon上本地运行(例如,提到**~225GB RAM**)(mlx报告awnihannun演示)。Unsloth推广了"在256GB Mac/RAM上运行4位量化"的指导,并声称与顶级闭源模型性能相当(营销声明,但对采用很重要)(Unsloth)。Ollama迅速将其加入他们的云服务(Ollama)。

  • 基准测试+"智能体RL"与效率问题:早期评价认为它比Qwen3-Max和之前的Qwen VL模型有所提升,视觉能力改进显著;其他人则要求提供"推理效率"证据而非原始分数(scaling01)。teortaxesTex指出,在一些报告的测试套件中,它意外地超过了Qwen3-Max-thinking,并推测改进源于智能体强化学习评论)。同时,也存在"黑盒评估"批评和特定任务失败(例如SVG/"Vending-Bench"风格测试)(Vending-Bench声明SVG比较)。

  • 定价争议:多篇帖子认为,考虑到推理效率声明,阿里巴巴的API定价偏高/奇怪,并与Kimi/GLM产品进行了比较(定价抱怨更多)。这成为一个反复出现的主题:"优秀模型,但服务成本故事不清晰"。

开源智能体、"驾驭工程"与OpenClaw→OpenAI传奇

  • OpenClaw作为单人杠杆的证明:OpenClaw的故事被塑造成"单人团队+编码智能体"快速推出世界级产品的典范,最终以Peter Steinberger加入/被OpenAI收购而告终(Yuchenj_UW)。这一讨论也引发了关于OpenAI在收购后如何处理开源项目的更广泛讨论。

  • Anthropic与开源社区的紧张关系:一个主要的讨论焦点批评了Anthropic对开源和OpenClaw使用的态度,有观点认为其限制和封锁措施将开发者推向了其他模型/提供商(ThePrimeagenTeknium)。另一些人则淡化了其战略影响("可能一周就能用氛围编码完成"),同时承认在开源圈中的声誉成本(scaling01)。与此同时,Anthropic宣布了一项重大运营扩张:班加罗尔办公室,并指出印度是Claude.ai的第二大市场Anthropic)。

  • "驾驭"才是真正的护城河:多条推文汇聚成一个实用论点:智能体不仅仅是模型;"驾驭"(工具链、上下文管理、生命周期、技能、评估/可观测性)是复合型基础设施,正日益成为差异化因素。参见Ben Burtenshaw将驾驭定义为围绕模型的"操作系统",以及专有智能体感觉更好的部分原因在于模型是在其驾驭模式上训练的(ben_burtenshaw)。这一观点得到了构建智能体系统的实践者的呼应:"构建一个好的驾驭系统很难,但会随时间复合增长"(brivael)。

  • 轻量级智能体替代方案:除了"大型驾驭"思维,人们对最小化智能体堆栈也表现出兴趣:PicoClaw和nanobot被定位为OpenClaw的极简替代方案,支持多模型后端和MCP/vLLM(TheTuringPost)。

  • 智能体可观测性/评估成为基本要求:LangChain/LangSmith强调,对于智能体而言,追踪是新的"堆栈追踪",调试需要可观测性优先的工具(meetuptracing plug-ins)。这与更广泛的抱怨相吻合,即当前智能体行为缺乏确定性,需要人工监控。

OpenAI/Codex使用量激增、子代理与安全加固

  • Codex采用情况声明:Sam Altman报告称,自年初以来Codex周用户数增长了三倍sama)。多个社区帖子描述了Codex 5.3的"巨大飞跃",特别是通过并行处理/子代理实现的改进(gdb"代理已上线")。

  • 子代理配置与模型层级权衡:实用技巧:通过编辑配置增加Codex子代理数量(例如,max_threads = 24)被分享为专业用户的调整方法(Hangsiin)。同时,至少有一位用户报告称,对于实际工作而言,5.3-codex-spark虽然速度更快但"更笨"(giffmana)。

  • ChatGPT的锁定模式:OpenAI引入了锁定模式,通过禁用/修改工具行为(缓存浏览、减少网络交互)来降低提示词注入和数据泄露风险,首先面向企业/商业用户,随后将面向消费者(cryps1s)。这具有重要意义,因为这是产品层面承认启用工具的LLM扩大了攻击面,并且一些组织希望获得确定性的、限制性的控制,即使以牺牲功能为代价。

  • 科学声明审查:一个讨论串提出了关于OpenAI物理结果(归因于GPT-5.2)的可重复性问题,认为如果使用秘密模型,期刊应要求提供记录/工具详细信息(lewtun)。Kevin Weil指出了相关物理学家的更多解释(kevinweil),而gdb发布了"它是如何实现的"后续说明(gdb)。

中国"假日模型浪潮":Qwen3.5、GLM-5、MiniMax M2.5、Seed/Seedance——以及机器人技术加速

  • 春节成为发布季:多篇帖子将春节定位为新的"模型发布周",发布阵容包括Qwen3.5GLM-5MiniMax M2.5,并期待DeepSeek-V4的到来(iScienceLuvrYuchenj_UW汇总)。

  • MiniMax M2.5:吞吐量+强化学习信号效率:SemiAnalysis报告称,在特定TTFT约束下,M2.5在8×H200上使用vLLM能维持约2500 tok/s/GPU的吞吐量(SemiAnalysis_)。MiniMax强调每令牌过程奖励能更好地利用强化学习信号并提高成本效益,同时庆祝其API/合作伙伴的广泛可用性(MiniMax_AI)。

  • 字节跳动Seed/Seedance与AI电影:Seedance 2.0通过贾樟柯使用该模型制作的短片成为文化现象(FrankYan2EHuanglu)。核心观点是:视频生成正从"玩具演示"转向"电影制作人工作流",一些观众注意到视频输出比图像生成感觉更少"审美引导的诡异感"(jd_pressman)。

  • 机器人技术:宇树科技+更广泛的中国领先叙事:帖子强调了宇树科技人形机器人在春晚的表现,以及对中国机器人技术快速进步的更广泛主张(HumanoidHubkimmonismus)。teortaxesTex认为我们已经超越了"波将金村"式的怀疑——整个行业(不仅仅是特例)都是真实的,尤其是机器人技术(teortaxesTex)。

  • 计算供应链信号:据报道,由于企业需求,西部数据已售出2026年硬盘容量的大部分,一些AI客户已预订到2027/2028年(kimmonismus)。另外,英伟达的GB300 NVL72被宣传为相比Hopper具有约50倍更高的性能/兆瓦约35倍更低的成本/令牌(供应商声称)(kimmonismus)。

工程师实际使用的研究/工程线索(智能体、强化学习、可解释性与评估卫生)

  • 多步骤工具使用仍然脆弱:SciAgentGym显示随着工具交互步骤增加,成功率下降;基于工具依赖图的数据合成(SciForge)在科学工作流上改进了8B模型(dair_ai)。这与日常智能体痛点相符:执行可靠性是瓶颈,而非单步推理。

  • 智能体的自适应推理深度:CogRouter动态调整"认知深度";据报道在智能体基准测试中,以减少62%的token使用量击败GPT-4o(如摘要所述)(omarsar0)。

  • 基于量规的强化学习(超越可验证领域的RLVR):一篇关于基于量规的强化学习的详细文章追溯了从LLM作为评判者到结构化量规的发展路径,并提供了涵盖15+篇论文的实用技巧(cwolferesearch)。

  • 可解释性目标:MonoLoss提出了一种插件目标,旨在促进CLIP/SigLIP2/ViTs中SAE的单语义激活,提高了许多潜在变量的"MonoScore"(iScienceLuvr)。

  • 基准污染/"局部泛化":人们重新强调基准测试的改进可能因训练数据扩展和语义近重复而混淆。提出的分解方法:benchmaxxing vs usemaxxing vs 隐藏插值 vs 真正的OOD泛化(g_leech_)。这与Lucas Beyer早期的视觉数据去重经验以及在语言领域"正确"执行此操作的困难相呼应(giffmana)。

  • WeirdML时间范围:受METR启发的WeirdML任务"时间范围"估计显示,前沿模型的时间范围从约24分钟(GPT-4)约38小时(Opus 4.6)翻倍时间约为5个月htihle),这与类似METR的估计基本一致(scaling01)。

元主题:开放与封闭之争、劳动力/教育影响,以及"品味"成为新瓶颈

  • 开放模型势头与集中化风险:一个反复出现的观点是,开放模型减少了权力集中,并保持了多种AGI路径的可用性(TuringPost片段)。与此同时,关于服务条款限制(例如Anthropic限制监控/武器使用)以及这是否会使供应商成为"供应链风险"的争论激烈进行(RyanPGreenblattkimmonismus Axios总结)。

  • 劳动力颠覆时间线:Ryan Greenblatt认为大规模失业"在2年内被高估,在7年内被低估",关键转折点在于AI研发的完全自动化(此后人类认知劳动价值迅速崩溃)(讨论起点)。

  • 教育/技能焦虑:有观点认为学位可能在学生毕业前就变得过时(通过一则新闻性总结推文传播),这反映了更广泛的不确定性(kimmonismus)。还有警告称,在受控研究中,AI编码工具可能会降低技能掌握程度(通过Anthropic研究链接总结)(dl_weekly)。

  • "品味"和验证作为核心技能:这一系列观点强烈强调,随着模型/智能体的规模化,品味(选择好的问题/解决方案)和验证能力(检测细微错误)成为最稀缺的人类差异化因素——被明确标记为"新的核心技能"(gdbYuchenj_UW)。Karpathy将这一观点扩展到编程语言/形式化方法领域:翻译和重构将占主导地位,我们可能会反复重写大部分软件;"最适合LLM的语言"成为一个开放性问题(karpathy)。


热门推文(按参与度排序)

  • 旧金山步行性讨论@paularambles
  • Anthropic班加罗尔办公室/印度作为第二大市场@AnthropicAI
  • Qwen3.5-397B-A17B发布(Apache-2.0许可,多模态MoE,17B激活参数)@Alibaba_Qwen
  • 编程语言/形式化方法+LLM重塑软件翻译/重写@karpathy
  • "Anthropic对开源怀有敌意"的病毒式观点@ThePrimeagen
  • Codex增长声明@sama

1. Qwen 3.5 模型发布与性能表现

  • Qwen3.5-397B-A17B 正式发布!! (活动量:973):Qwen3.5-397B-A17B 已在 Hugging Face 上发布,该模型拥有 3970亿 参数,原生上下文长度为 262,144 个标记,可扩展至 1,010,000 个标记。该模型属于 Qwen 系列,以其大规模语言能力而闻名。此外,GGUF 版本也可在此处获取,该版本可能为特定用例提供优化性能。社区对该模型的性能充满期待和好奇,用户们渴望测试其能力。

Qwen3.5-397B-A17B 模型拥有 262,144 个标记的原生上下文长度,可扩展至 1,010,000 个标记。这是在处理更大上下文方面的一项重大改进,使其适用于需要大量输入数据的更复杂任务。

  • 据报道,Qwen3.5-397B-A17B 的解码吞吐量比其前身 Qwen3-235B-A22B 快 3.5倍7.2倍。吞吐量的增加表明处理效率有了显著提升,这可能为大规模应用带来更快的响应时间和更低的计算成本。
  • 一位用户分享了该模型在 Hugging Face 上的 GGUF 版本链接,表明该模型可供下载和实验。这种可访问性允许进行更广泛的测试和集成到各种项目中。

Qwen3.5-397B-A17B Unsloth GGUFs (活动量:663):Qwen3.5-397B-A17B阿里巴巴 新发布的模型,拥有 3970亿 参数,专为多模态推理设计。它能够在 192GB RAM 的 Mac 上以 3位 运行,或在 256GB RAM 的 M3 Ultra 上以 4位 (MXFP4) 运行。该模型在指令遵循、多语言知识和视频推理等基准测试中的性能被认为与 Gemini 3 ProClaude Opus 4.5GPT-5.2 具有竞争力。该版本包含用于灵活部署的动态 GGUFs,并提供了在各种硬件配置上运行该模型的指南。更多详细信息可在 Hugging FaceUnsloth 上找到。评论者对模型的规模和能力印象深刻,注意到 3970亿 参数中只有 170亿 参数同时处于活动状态。人们对 AutoRound 如何提升模型性能感到好奇。

  • Qwen3.5-397B-A17B 模型以其冗长性而著称,这在生成简单问候响应时其广泛的内部分对话中得到了体现。这种冗长性可能表明模型具有复杂的决策过程,这可能对细微任务有益,但也可能导致在简单交互中的效率低下。
  • 一位用户对 AutoRound 功能在 Qwen3.5-397B-A17B 模型上的性能表示好奇,特别是考虑到只有 170亿 参数处于活动状态。这表明在有效管理计算资源的同时优化性能是重点,这对于在实际应用中部署大型模型至关重要。
  • 关于 UD-Q4_K_XL 和 MXFP4 格式的比较性能存在讨论,一位用户指出缺乏直接比较两者的基准测试。这突显了可用性能数据方面的空白,这对于就模型部署和优化策略做出明智决策至关重要。

本地大模型面临的挑战与创新突破

  • 为什么运行本地大模型仍然如此困难 (活跃度:243):这篇帖子讨论了在个人硬件上运行本地大模型(如 Ollama 和 Llama)所面临的挑战,重点指出了处理超过 7B 参数模型时的安装失败和资源限制问题。用户对自托管解决方案的复杂性表示沮丧,这些方案通常需要 Docker 和 Kubernetes 等领域的先进技术知识,并且缺乏像 OpenAI 的 ChatGPT 那样既保护隐私又功能完善的替代方案。评论者指出,由于显著的硬件需求,在本地实现 ChatGPT 级别的功能本质上就很困难,他们建议虽然像 LM StudioOllamaLemonade 这样的工具可以轻松安装,但性能在很大程度上取决于是否拥有强大的 GPU 或 NPU。他们强调,如果没有对硬件进行大量投资,本地大模型将会运行缓慢,并且在不使用远程提供商的情况下可能无法实现完整的 ChatGPT 功能。

No_Clock2390 强调,只要有合适的硬件,运行本地大模型是可行的,并提到了 LM Studio、Ollama 和 Lemonade 等可以快速设置的工具。然而,性能在很大程度上取决于硬件能力,特别是 GPU 或 NPU 的存在。例如,在 Intel N100 上运行 Ollama 是可能的,但由于 CPU 限制会导致性能缓慢。

  • Total-Context64 强调了在本地实现类似 ChatGPT 功能的成本障碍,指出除非选择远程提供商,否则需要对硬件进行大量投资。这凸显了在没有大量资源的情况下复制高性能大模型的挑战。
  • HorribleMistake24 建议初学者使用 lmstudio,它可以帮助确定模型与可用 GPU VRAM 的兼容性。他们还提到利用 ChatGPT 订阅通过 VS Code 中的 Codex 获得设置帮助,这说明了通过将 AI 工具集成到开发过程中来克服设置挑战的实用方法。

3. MiniMax-2.5与OpenClaw讨论

  • 真的有人在用Openclaw吗? (活跃度:1615):这篇Reddit帖子质疑Openclaw受欢迎程度的真实性,认为这可能是社交媒体营销炒作的结果,尤其是在OpenAI收购Openclaw之后。帖子引用了一个可疑的增长图表这里。根据用户经验,Openclaw被描述为一个连接各种API和MCP服务器的工具,但缺乏创新性。OpenAI以100亿美元收购该公司的行为受到怀疑,有人将其与加密货币市场的炒作性质相提并论。评论中对Openclaw的营销策略表示怀疑,一些用户将其描述为"氛围编码",缺乏独特功能。有人对Ironclaw等替代方案感兴趣,表明市场需要更强大的解决方案。

Skystunt提到,Openclaw本质上是现有技术的汇编,连接各种API和MCP服务器,但没有提供任何突破性功能。这表明其感知价值可能被夸大,因为它没有引入新功能,而是整合了现有功能。

  • dgibbons0强调了Openclaw配置质量差,将其描述为"氛围编码"。这个术语表明其设置缺乏专业打磨或稳健性。评论者还表示有兴趣探索相关项目Ironclaw,这表明尽管Openclaw存在缺陷,但将聊天与AI引擎集成的概念仍然具有吸引力。
  • TurnUpThe4D3D3D3对使用Openclaw的财务影响表示担忧,指出它默认有30分钟的心跳机制,每次运行都会产生API成本。随着时间的推移,这可能导致显著的费用,每周可能达到几美元,而用户可能不会立即意识到这一点。

你可以在本地运行MiniMax-2.5 (活跃度:784):该图片提供了在本地运行MiniMax-2.5模型的详细指南,突出了其在编码、代理工具使用和办公任务方面的最先进性能。该模型具有2300亿参数,其中100亿为活跃参数200K上下文窗口,未量化的bf16形式需要457GB内存。使用Unsloth Dynamic 3-bit GGUF将模型大小显著减少到101GB,减少了62%,使其更适合本地部署。该指南还包括官方文档Hugging Face上的GGUF模型的链接。评论反映了对在本地运行如此大型模型的可行性的怀疑,用户幽默地指出部署该模型所需的高硬件要求和成本。

  • Ug1bug1提到,包括Q3_K_XL在内的MiniMax模型在他们的Strix Halo设置上表现良好,该设置具有128GB RAM。这表明该模型在高端硬件上的性能令人满意,表明大量内存是有效运行这些模型的关键要求。

1. AI模型发布与基准测试

  • 你最期待什么? (活动量:954):图片是CHOI (@arrakis_ai)的一条推文,宣布即将发布多款AI模型:DeepSeek V4、Gemini 3.1 Pro、GPT 5.3、Sonnet 5,以及一个"神秘模型"。推文强调了AI开发时间表的快速加速,暗示这些发布预计在几天内完成。这表明AI模型开发正进入一个重要的进步和竞争时期,可能对各种应用和行业产生影响。一条评论对Sonnet 5的发布表示怀疑,引用了之前一个关于Opus 4.6的谣言。另一条评论暗示了竞争氛围,提到"Elon因为缺乏...而崩溃",可能指的是AI进步方面的竞争。

johnwheelerdev提到对Gemini 3.1的期待,暗示这可能是一个重要的更新或发布。这可能意味着相比之前版本会有改进或新功能,尽管没有提供具体细节或基准测试数据。

  • GraceToSentience提到了关于Sonnet 5的谣言,之前被认为是Opus 4.6。这表明版本号或产品命名可能存在混淆或重新命名,突显了跟踪软件更新和发布的挑战。
  • Egoz3ntrum提到了GPT-OSS-2,这可能是GPT模型的开源变体。这表明了向更多开源AI模型发展的趋势,可能提供更多透明度和社区驱动的改进。

攻击者试图克隆Gemini时提示了超过10万次,谷歌表示 (活动量:1342):谷歌报告称,攻击者试图通过提示其Gemini AI模型超过100,000次来克隆它,使用了一种称为模型蒸馏的技术。这种方法涉及向模型提供特定提示词以收集响应,从而能够在没有直接访问模型代码或训练数据的情况下创建更便宜的模仿品。谷歌将这种行为视为知识产权盗窃,并已实施未公开的对策。更多详情请参阅原始文章。一些评论者质疑模型蒸馏的有效性,将其与90年代试图通过输入数百万局棋局来改进国际象棋软件的努力相比较,后者没有产生显著影响。其他人则强调了谷歌在知识产权立场上的讽刺性,考虑到谷歌自己使用网络抓取的数据来训练大模型。

  • Deciheximal144强调了谷歌将"模型提取"视为知识产权盗窃的讽刺性,考虑到谷歌自己的大模型是在未经明确许可的情况下从互联网抓取的数据上训练的。这引发了关于AI训练过程中数据使用和所有权的伦理问题,如The Verge所讨论的。
  • magicmulder通过将其与90年代试图通过输入数百万局棋局来改进国际象棋软件的努力相比较,质疑"模型提取"的有效性。这表明对仅仅通过大量提示AI模型是否能够产生高质量克隆品持怀疑态度,因为模型训练的复杂性涉及的不只是输入数据量。
  • Ok_Buddy_9523幽默地淡化了"提示AI 10万次"的概念,将其比作常规活动,暗示在AI开发和测试的背景下,如此数量的交互可能并不那么重要或不寻常。

Codex-cli与GPT-5.3 codex xhigh - 5小时制作了完全可用的GBA模拟器汇编代码! (活动量:717):一位用户声称使用Codex-cli与GPT-5.3 codex xhigh5小时内开发了一个完全功能的Game Boy Advance (GBA)模拟器汇编代码。该项目托管在GitHub上,涉及模型自主构建、测试和调试模拟器。模拟器的架构包括一个x86-64汇编核心,带有用于SDL2的最小C主机层,目标是与SuperMarioAdvance等游戏兼容。概述的计划包括ARM7TDMI CPU核心模拟、内存映射和PPU/APU功能,重点在于确定性和性能基准测试,如在Linux x86-64上达到59.7 FPS。该项目强调纯汇编方法,带有用于SDL2集成的C平台垫片。评论者对模拟器的性能和成本表示怀疑和好奇,其中一人指出了最近声称大模型无法生成低级代码的讽刺性。另一位评论者对这个成就印象深刻,强调如果没有类似例子存在的话,它的独特性。

  • stardoge42询问了信用点成本和模拟器的性能,询问是否有任何故障以及是否适用于其他游戏。这突显了使用AI生成代码的实际考虑,如资源消耗和跨不同软件环境的兼容性。
  • cottsay引用了一个类似项目,6年前在GitHub上开发的"Gameboy Emulator in ARM Assembly"。这个比较提供了关于模拟器开发演变的背景,以及使用Codex-cli与GPT-5.3等AI工具可能取得的进步。
  • BrennusSokol提到遇到了对AI生成低级或机器代码能力的怀疑,这被成功创建GBA模拟器汇编代码所反驳。这反映了关于AI在软件开发中能力的持续辩论,特别是在生成复杂的低级代码方面。

3. OpenClaw安全性与社区担忧

  • Sam Altman正式确认OpenAI已收购OpenClaw;Peter Steinberger将领导个人代理开发 (活动量:2440):Sam Altman已确认OpenAI收购了OpenClawPeter Steinberger将加入并领导个人代理的开发工作。OpenClaw将转型为开源基金会,OpenAI将持续提供支持。此举表明OpenAI正战略性地专注于增强个人代理能力,并利用Steinberger的专业知识。一些评论者推测,此次收购可能是一种防御性策略,旨在防止竞争对手获得OpenClaw的技术。其他人则质疑为何OpenAI没有内部开发类似能力,暗示收购背后可能存在战略或资源方面的考量。

一个关键担忧涉及OpenClaw技术的访问问题,该技术最初是通过后门CLI访问开发的,这使得许多用户难以负担。评论者质疑OpenAI将如何解决这些访问问题,并指出如果处理得当,将OpenClaw技术整合到OpenAI生态系统中可能有助于实现更广泛的访问民主化。

  • OpenAI收购OpenClaw被视为一种战略举措,旨在防止竞争对手获得其技术。这被称为"防御性收购",表明OpenAI的主要动机可能是通过将技术掌握在自己手中来巩固其市场地位。
  • 关于OpenClaw在OpenAI领导下的未来发展方向存在诸多猜测,特别是在Peter Steinberger掌舵的情况下。评论幽默地提到了可能出现"ClosedClaw"情景的可能性,暗示OpenAI可能会限制访问或功能,类似于一些公司在收购后限制功能的做法。

前沿、开源与区域模型:Qwen3.5、GLM‑5、MiniMax 2.5、Opus 4.6、Step 3.5 Flash

  • Qwen3.5 与 Qwen3.5‑397B A17B 在开源权重领域的基准测试:阿里巴巴的 Qwen 团队发布了 Qwen3.5‑397B‑A17B,这是一个采用 线性注意力 + 稀疏 MoE 混合架构的开源权重模型,支持 201 种语言。该模型通过 Qwen3.5 发布帖 宣布,并在 Latent Space 和 HuggingFace 的 Discord 社区中被广泛讨论,其 Apache‑2.0 权重已在 GitHub 和 Hugging Face 上提供,同时支持 API 访问。UnslothLatent Space 的用户将该模型视为新的基准测试目标,戏称 "这是 qwen,我们在这里进行基准测试!",并分享了各种奇特的 Qwen3‑30B 变体,如 Qwen3‑30B‑A3B‑Claude‑4.5‑Opus‑High‑Reasoning‑2507‑ABLITERATED‑UNCENSORED‑V2

基准测试对话中,用户比较了 Nemotron 30B A3B 模型上 MXFP4 量化与 Q8_K_XL 量化的表现,发现 MXFP4 与 bf16 的 KL 散度 更低,并呼吁为旧模型增加 MXFP4 支持。同时,其他用户通过 这个实现分支GPT‑NeoX 中实验了 Qwen3 架构。与此同时,Eleuther 的研究频道深入分析了 《大模型权重同源性的矩阵驱动识别与重建》《语言模型的独立性测试》 等论文,将 Qwen 系列模型视为重建 微调树 和大型开源模型家族溯源的主要案例研究。

GLM‑5、MiniMax 2.5 与 Windsurf 的模型自助餐:在 OpenClawUnslothGPU MODEWindsurf 等社区中,用户对 GLM‑5MiniMax 2.5 进行了压力测试。GLM‑5 被称赞为 "非常聪明且健谈",在稳定运行时表现优于 Kimi K2.5。而 MiniMax 2.5 则被描述为需要 约 200 GB VRAM(例如使用 2× RTX 6000 Blackwell 96 GB 显卡,速度可达 120–130 tok/s)来支持其 200k 上下文 的稀疏 MoE 架构。Windsurf 通过 其更新公告 宣布在产品中提供对 GLM‑5MiniMax M2.5 的一流支持,实际上将 IDE 转变为一个多提供商的前沿模型路由器。

  • Unsloth 用户将 MiniMax 2.5 与 Opus 4.6 进行对比,讨论质量提升是否值得巨大的 VRAM 占用。其他用户则利用 稀疏 MoE 权重卸载到系统内存 的技术,以速度换取容量。在 OpenRouter 的讨论中,从业者比较了 GLM‑5 与 MiniMax 2.5 在工具调用 方面的表现,发现 GLM 通常更适合智能体工作流,而 MiniMax 在短交互中速度更快。一些用户开始使用 GLM 4.5 Air 生成 内核代码的 SFT 数据,以低成本引导高质量推理轨迹。

Opus 4.6 与 Step 3.5 Flash 展示长上下文能力Opus 4.6 推出时具备 100 万 token 上下文 和明确的 "检查你的工作" 验证步骤。LMArena 用户通过输入 大型代码指令集 进行测试,确认该模型能够在最终推理过程中忽略早期错误。一位 Perplexity 用户在基准测试 通过 Opus 4.6 的 Claude 时指出,Anthropic 的 每小时使用限制——例如 "只剩 18 次回复"——是重度交互使用的实际限制因素,尽管 Opus 在严肃推理和编码方面已经取代了 Perplexity。

  • 在 OpenRouter 方面,Step 3.5 FlashYouTube 基准测试"表现超出其权重级别" 给用户留下了深刻印象,但尽管其成本效益表现强劲,却令人惊讶地缺乏足够的托管支持。当 LMArena 用户发现请求被静默路由到 "5.2" 变体时,OpenAI 自身的路由机制受到了批评,这强化了一个更广泛的趋势:工程师们要求对长上下文、高推理能力的模型提供透明、版本固定的访问权限。

2. 智能体技术栈、规划框架与多智能体系统

  • OpenClaw 协调自主代理机构与视频通话:开发者展示了 OpenClaw 作为多智能体团队和现实世界操作的协调层,包括一个包含技术负责人、后端和前端机器人的*"代理服务器"*,通过共享的 planbot 资源仓库中的任务和计划进行协调。另一位用户让 OpenClaw 通过 SSH 访问具有完整root 权限的 Proxmox 主机,并报告了从 Proxmox 6 → 8 的端到端自主升级,包括重启和错误处理,展示了在生产环境中对智能体操作的信任程度。

一个独立的视频通话模式插件通过 tavus.ioTavus 虚拟形象连接到 OpenClaw 的自带大模型聊天完成功能,使智能体能够实时跟踪面部表情、手势和屏幕共享内容。其他实验将 OpenClaw 的*"潜意识"*连接到本地微调的大模型,该模型基于所有先前聊天记录进行训练(论文分享在 Google Drive 文件夹中),并使用了一个 SEO 管道,该管道抓取 YouTube 内容,生成约300+ 篇 Brian-Dean 风格的文章,通过编辑子智能体处理,然后存储以供发布。

从 Claude Cowork 和 DSpy RLMs 到 Triall 的模型对决:在 Latent Space 的开发者频道中,一位成员正在展示 Claude Cowork 如何协调管道——例如自动将 Zoom 录制内容上传到 YouTube 频道——采用挑衅性的框架*"Claude Cowork 可能是 AGI"*,而其他人则使用来自 这个仓库Ergo 规划技能来构建多步骤功能工作。DSpy 贡献者推动了递归语言模型(RLMs)——如 Omar Khattab 的推文 所述——其中模型编写代码来调用其他模型,而不是依赖二次注意力或单一智能体框架,具体的 dspy-repl 原型 探索了语言 + REPL 选择如何影响 RLM 准确性。

  • Triall (triall.ai) 出现在 OpenRouter 上,这是一个基于 clash 构建的 GUI,让用户让多个模型相互竞争进行生成、批评和改进,鼓励对抗性推理而非盲目信任。在框架层面,OpenAI Discord 实验了 KOKKI,这是一个结构化的自我审计提示词,标记风险元素并切换模式,并讨论了映射到模型预测控制(MPC)FORTRESS 框架,其中"对随机输出的软控制循环"使用不变量作为成本函数来偏置轨迹——尽管怀疑论者认为部分内容只是*"没有可重复测试框架的角色扮演"*。

MCP、工具链与智能体原生基础设施MCP 贡献者服务器深入探讨了结构化输出工具模式的经济学和设计,认为将 JSON 模式嵌入提示词是一种隐藏的**"token 税",因为大多数大模型 API 缺乏原生模式支持,然而没有模式的情况下,工具链通常会退化为幻觉字段。他们建议明确将工具结果分类为文本/图像/对象**,并将结构化对象视为一种独特类型,其元数据存在于有效载荷之外,以简化跨服务器和客户端的智能体连接。

  • 为了支持像*"我上周睡得怎么样?"*这样的现实查询,贡献者建议通过工具参数传递时区和上下文,而不是隐藏的全局状态,强化了无状态 MCP 服务器 + 显式客户端上下文的模式。与此同时,多个生态系统正在向智能体原生基础设施迈进:Jazz (github.com/lvndry/jazz) 是一个与大模型无关的终端智能体,可以读取文件、运行 git、使用 MCP 并编写自己的发布说明;Crowdcent 正在将 DSPy 包装到 MCP 中;Cloudflare 宣布为智能体实验性支持 Accept: text/markdown,在 "智能体的 Markdown" 中,因此 HTTP 端点可以向大模型客户端返回原生 Markdown 内容。