AI 开发者日报 2026-02-25

Anthropic指控Claude遭遇"蒸馏攻击"（以及行业反弹）

Anthropic的指控：Anthropic声称检测到DeepSeek、Moonshot AI和MiniMax对Claude进行了工业规模的蒸馏攻击：约24,000个欺诈账户生成了超过1,600万次Claude交互，据称是为了提取能力用于他们自己的模型（Anthropic、后续、博客链接推文）。Anthropic将这种风险描述为既是竞争性的（能力转移），也是安全/地缘政治性的（安全措施移除、下游军事/情报用途）。
社区反应/"虚伪"讨论：大量回复将此描述为"在互联网上训练模型的实验室现在抱怨被复制"，通常明确对比网络爬取与API输出提取（Elon、ThePrimeagen、Teknium、Suhail、HKydlicek）。其他人则认为这种规模的蒸馏有本质区别，因为它可以复制工具使用/智能体行为，并可能绕过安全控制（RundownAI总结、LiorOnAI观点）。
二阶影响：这一讨论凸显了安全模型的转变：前沿模型越来越不仅仅通过权重保密和计算资源稀缺来保护，而是通过API滥用抵抗（账户欺诈检测、速率限制规避、行为指纹识别、水印技术等）。这也重新提出了一个问题：如果能力可以通过大规模输出"复制"，那么出口管制是否还有意义（LiorOnAI）。
相关市场/时机背景：一些人将这一声明的时机与即将到来的DeepSeek V4新闻周期联系起来（kimmonismus），以及更广泛的美中关系框架。

编程智能体：真实应用、失败案例与"智能体工程"实践指南

Codex + Claude Code 的发展势头（以及掩盖真实工作流程变化的迷因）：许多高参与度的帖子都是关于"智能体来了"的轶事——比如周末使用 Codex 进行构建（OpenAIDevs、gdb）——以及关于给予智能体过多权限的警示故事。这类案例中的典型失败模式是指令丢失/压缩导致在 OpenClaw 风格设置中发生意外的破坏性操作（如邮件删除）（summeryue0、后续根本原因分析，以及其他关于"写权限"风险的讨论：Yuchenj_UW）。
智能体工程指南正在形成共识：

Simon Willison 发布了**"智能体工程模式"**指南的前几章，主要面向 Claude Code/Codex 等编程智能体（simonw）。

一个小争议："删除你的 CLAUDE.md/AGENTS.md 文件"（即过度定制可能是一种盲目跟风）（theo，bpodgursky 附和，以及"硬剪枝"回应如 ryancarson）。

OpenClaw 生态系统扩展与替代方案：

NanoClaw 定位为更小、容器隔离的类 OpenClaw 助手，具有 WhatsApp I/O、集群、计划任务等功能（TheTuringPost，仓库：qwibitai/nanoclaw）。
多个"如何构建 OpenClaw 风格智能体"的技术栈强调了那些看似无聊但至关重要的部分：调度器/队列、沙箱化、实时通信（TheTuringPost 技术栈列表）。
Ollama 0.17 使得在 OpenClaw 中使用开源模型更加简单（并表明对本地智能体执行以增强安全性的持续兴趣）（ollama）。

企业/生产环境中的智能体工程正转向可观测性与评估循环：Exa 的"深度研究智能体"案例研究强调将 token/缓存可观测性作为定价基础设施（LangSmith/LangGraph）（LangChain）。monday.com 的服务智能体将评估视为"第 0 天"，并声称使用 LangSmith 实现了8.7 倍更快的反馈循环（hwchase17）。

基准测试与评估完整性：SWE-Bench Verified 被弃用、新排行榜发布，以及代码库生成代理的瓶颈

OpenAI DevRel 自愿弃用 SWE-Bench Verified：OpenAI 推荐使用 SWE-bench Pro，并表示 Verified 版本已经饱和/受损：数据污染和测试设计缺陷意味着它不再能准确衡量前沿编码能力（OpenAIDevs，分析讨论：latentspacepod，回顾：swyx，独立总结：rasbt，摘要：polynoamial）。分析中的关键细节在推文中得到呼应：在审计了一部分经常失败的任务后，发现很大比例的任务存在测试设计缺陷，拒绝正确的解决方案，和/或任务本身按照指定要求似乎无法解决。
向"每美元能力"评估推进：AlgoTune 明确设定 每个任务1美元 的预算，产生的排名可能更倾向于更便宜的模型，将"最佳"重新定义为成本约束下的最佳（OfirPress）。
长周期编码代理仍然失败：NL2Repo-Bench 测试代理是否能够从零开始生成完整的可安装 Python 库；报告显示顶级模型的通过率低于40%，失败模式主要出现在规划和整个代码库的一致性方面（jiqizhixin）。
OCR 评估的现实检验：据报道，即使是强大的 OCR 模型在处理密集的历史报纸时也会"崩溃"（产生幻觉/循环），这凸显了在精心策划的文档分布之外的脆弱性（vanstriendaniel）。此外：OlmOCR-Bench 已成为 Hugging Face 上的基准数据集，供社区提交评估结果（mervenoyann）。

推理与系统：面向智能体的WebSockets、超快片上推理与基础设施扩展叙事

OpenAI Responses API新增WebSockets支持，专为低延迟、长时间运行、工具密集型的智能体设计。其核心理念在于：持久连接与内存状态管理意味着只需发送增量输入而非完整上下文；据称对于20次以上的工具调用可实现20-40%的速度提升（OpenAIDevs，详情：OpenAIDevs，采用情况：OpenAIDevs）。Cline的早期测量显示：简单任务约快15%，复杂工作流约快39%，最佳情况下可达50%的加速（cline）。Steven Heidel将Codex的速度提升归因于WebSockets技术（stevenheidel）。
推理工程正成为"独立的学科领域"：Baseten推出了新书《推理工程》（philipkiely），工程师们强调推理已成为决定延迟、成本和可靠性的竞争关键层（hasantoxr，JayminSOfficial）。
硬件/架构信号：

一项演示声称通过"将模型参数蚀刻到晶体管中"（计算与存储融合）的技术，在Llama 3.1 8B模型上实现了每秒18,000个token的处理速度（philschmid）。

NVIDIA发布了针对Blackwell架构优化的Qwen3.5 MoE模型，量化至NVFP4精度，使用SGLang实现2倍推理加速（HuggingPapers）。
fal在其推理引擎中分享了通信与计算重叠优化技术（"Async Ulysses"）（isidentical）。

计算战略叙事碰撞：关于OpenAI"Stargate"数据中心项目停滞的说法在讨论中受到质疑，另一种观点认为Stargate是一个多合作伙伴计算生态系统的统一品牌（包括SoftBank、NVIDIA、AMD、Broadcom、Oracle、Microsoft、AWS、CoreWeave、Cerebras等），预计到2025年底将拥有约2GW可用计算能力（kimmonismus的说法与sk7037的回应）。

模型排行榜更新与研究进展（推理、记忆、多模态视频）

竞技场排行榜：GPT-5.2-chat-latest 以 1478 分进入文本竞技场前五名，比 GPT-5.2 高出 40 分；在多轮对话、指令遵循、困难提示词和编程方面都有明显改进（竞技场，详细分析：竞技场）。
Gemini 3.1 Pro：WeirdML 得分 72.1%，而 3.0 版本为 69.9%；被描述为"高峰值+奇怪弱点"，输出 token 使用量大幅增加（htihle）。开发者对容量和工具调用可靠性的抱怨引发了高度关注（theo、theo 后续，以及稍后：theo）。
Qwen3.5 模型发布声明：一条推文声称 Qwen 发布了 397B 多模态 MoE 模型，拥有 17B 活跃参数，并"可与 GPT5.2/Claude 4.5 媲美"（HuggingPapers）。在查看模型卡/评估结果之前，请谨慎对待基准比较。
推理训练 / 思维链：

Teknium 认为验证器模型并非"免费午餐"：更好的求解器往往也是更好的验证器；对困难问题使用较小"较笨"的评判器通常会失败（Teknium）。

字节跳动风格的思维链工程被描述为从长度惩罚转向强制执行压缩的流程；加上一个关于长思维链结构的"分子"框架，包含"语义异构体"和一种合成数据方法（Mole-Syn）（teortaxesTex，通过 TheTuringPost 总结）。
DAIR 强调了一篇关于思维链可监控性的论文，通过信息论方法（互信息必要但不充分；监控提取和激发误差存在差距），提出了改进透明度的训练方法（dair_ai）。

视频 / 世界模拟：多篇关于交互式视频生成和多镜头生成的论文发布（akhaliq 交互式视频、akhaliq 多镜头、QingheX42 代码发布）；产品方面：Kling 3.0 集成到 Runway 工作流中（runwayml），以及 Veo 3.1 模板在 Gemini 应用中推出（GeminiApp、Google）。

AI智能体：工作、采用与宏观讨论（Citrini论文+Anthropic流畅度+OpenAI企业联盟）

Citrini的"未来宏观备忘录"论文成为讨论焦点：多篇推文将其总结为一种情景，即日益廉价的智能体压缩白领工资/消费，创造"幽灵GDP"，并对金融市场和政治造成压力（kimmonismus总结、stevehou反应、作者跟进：Citrini7）。讨论串指出反应分为同意、有细微差别的反对和表演性嘲讽三类（teortaxesTex）。
Anthropic的"AI流畅度指数"：Anthropic测量了Claude对话中的协作行为；报告的关键关联是流畅度与迭代/精炼相关，而非一次性提示词（AnthropicAI）。
OpenAI通过咨询联盟扩展企业市场推广：OpenAI宣布与BCG、麦肯锡、埃森哲、凯捷建立前沿联盟，部署"AI同事"并提供集成/变革管理，旨在超越试点项目（bradlightcap、分析：kimmonismus）。
采用仍不均衡：一项统计声称84%的人从未使用过AI（被表述为"我们仍处于早期阶段"）（kimmonismus）。工程师们同时报告在他们的工作流程中"到处都是智能体"——突显了扩散的高度集中性。

1. Anthropic蒸馏攻击事件

Anthropic："我们发现DeepSeek、Moonshot AI和MiniMax对我们的模型进行了工业规模的蒸馏攻击。" 🚨 (活动量：4207)：Anthropic 发现 DeepSeek、Moonshot AI和MiniMax 对其模型进行了工业规模的蒸馏攻击。这些攻击涉及创建超过 24,000 个欺诈账户，并与Anthropic的模型 Claude 执行了超过 1,600万 次交互，以提取其能力用于改进他们自己的模型。这突显了AI行业在安全和知识产权方面面临的重大挑战，即模型能力可能被非法提取和复制。评论者将这些蒸馏攻击与更广泛的AI行业在未经明确授权的情况下使用数据的做法相提并论，暗示Anthropic的投诉存在双重标准。也有人对Anthropic如何构建自己的数据集表示怀疑，暗示可能存在伦理问题。

讨论强调了Anthropic投诉蒸馏攻击可能存在的讽刺意味，因为他们自己的模型训练很可能也涉及使用未经明确许可的大型数据集。这引发了关于AI开发中数据使用伦理影响的问题，特别是当像Anthropic这样的公司基于他们不拥有或无权使用的数据构建模型时。

提及DeepSeek、Moonshot AI和MiniMax等公司进行的工业规模蒸馏攻击表明，AI模型正在被逆向工程或复制的竞争格局。这可能涉及使用API访问来提取模型输出并训练类似模型，这对AI知识产权保护构成了重大挑战。
有观点认为Anthropic的数据集可能是由人工手动标注的，这意味着在数据质量和整理方面投入了大量资源。这与蒸馏攻击的概念形成对比，在蒸馏攻击中，竞争对手可能通过利用现有模型的输出来训练自己的系统，从而绕过这些努力。

虚伪？ (活动量：380)：图片强调了AnthropicAI的声明，即 DeepSeek、Moonshot AI 和 MiniMax 对其模型进行了"大规模蒸馏攻击"。这些攻击涉及创建 24,000 个欺诈账户，并与 Claude 进行了 1,600万 次交互以提取其能力，推测是为了改进他们自己的AI模型。这引发了对此类行为的伦理和法律问题的担忧，以及保护AI模型免受未经授权数据提取的安全措施。一位评论者质疑被指控实验室的伦理立场，暗示他们可能没有寻求许可就采取了行动，而另一位评论者则惊讶于 z.ai 未被提及，暗示类似做法可能更为普遍。另一位评论者提出了训练数据来源的问题，暗示了AI开发中数据使用和所有权的更广泛担忧。

'semangeIof'的评论突显了GLM套件的一个潜在问题，特别提到当被提示时，它可能错误地声称自己是Claude。这表明了模型身份和真实性的问题，可能对用户信任和AI交互的完整性产生影响。
'archieve_'提出了关于训练数据来源的关键问题，这是AI模型开发的基本方面。训练数据的来源可能影响模型偏见、性能和伦理考量，使其成为开发者和用户关注的关键点。
'roxoholic'质疑了AI讨论中使用的术语，特别是"工业规模蒸馏攻击"。这个术语很可能指的是大规模复制或从AI模型中提取知识的努力，这可能对AI开发中的知识产权和竞争优势产生重大影响。

你们做就是蒸馏，我们做就是训练。 (活动量：1098)：图片是一个幽默地突显AI社区在模型蒸馏方面感知到的虚伪的梗图。它对比了别人做蒸馏时的负面看法与自己做时将其美化为"训练数据"的正面框架。这反映了关于AI模型伦理和所有权的持续辩论，特别是在使用大模型通过蒸馏创建更小、更高效模型的背景下。评论讨论了这种做法的含义，指出较小的模型通常从较大的蒸馏模型中获取能力，并质疑当蒸馏普遍存在时，专有模型的可防御性。评论者强调了AI行业对蒸馏立场的讽刺和潜在虚伪，一些人指出许多较小的模型其性能归功于从较大模型的蒸馏。还讨论了保护专有模型免受竞争对手蒸馏的挑战。

IkeaDefender强调了使用蒸馏从较大模型创建低成本模型的技术策略，暗示这些模型的"秘密配方"是它们源自更复杂的前沿模型。这引发了对前沿模型投资可防御性的质疑，因为公司尚未展示出有效的方法来防止他人抓取和蒸馏他们的模型。
MasterLJ将谷歌和亚马逊等科技巨头的做法与当前的AI格局进行了类比。他们认为，正如谷歌索引互联网并通过robots.txt控制访问一样，AI公司现在正在控制模型访问和蒸馏。这种控制被比作亚马逊在销售税方面的战略转变，他们最初反对各州分别征税，直到这对他们有利，说明了一种利用控制获取竞争优势的模式。
Samy_Horny讨论了公司不愿开源其模型的情况，以MCP为例，它只有在受欢迎后才被开源。他们对像Gemma或GPT-OSS这样的模型被开源的可能性表示怀疑，因为这意味着透露太多专有信息或"秘密配方"。

2. Qwen模型与数据质量问题

Qwen3最被低估的功能：语音嵌入（活跃度：686）：这篇帖子讨论了Qwen3 TTS的语音嵌入功能，该功能将语音转换为高维向量（1024或2048维），用于语音克隆和操作。这使得可以对语音进行数学运算，如性别和音高转换、语音平均以及创建情感空间。语音嵌入模型是一个只有几百万参数的小型编码器，作者已将其单独提供使用，包括用于Web推理的优化ONNX模型。图片展示了该嵌入空间的2D t-SNE投影，显示了如何组合和操作不同的语音特征。作者还提供了他们在Hugging Face上的收藏链接，以及使用其vllm-omni分支进行推理的GitHub仓库。一位评论者对转换语音嵌入并从中生成语音的能力感到好奇，这表明了对性别或机器人转换等实际应用的兴趣。另一位评论者看到了将其用于说话人识别的潜力，质疑与性别或情感相关的参数是如何确定的。

MixtureOfAmateurs询问了转换语音嵌入以修改性别或机器人音调等特征的可能性，然后使用这些修改后的嵌入进行语音生成。这表明了超越简单编码的用例，可能涉及复杂的转换和合成过程。

HopePupal提出了使用语音嵌入进行说话人识别的可能性，质疑与性别或情感相关的参数是如何确定的。这意味着需要理解嵌入的特征空间以及特定属性如何在其中编码。
StoneCypher概述了对高级语音克隆功能的需求，包括使用IPA进行发音、情感提示与缓动和堆叠的集成，以及精确的单词时序控制。这突显了对合成语音的精细控制需求，而详细的语音嵌入可以促进这种控制。

Qwen团队证实GPQA和HLE测试集存在严重的数据质量问题（活跃度：320）：**Qwen团队已确认GPQA和HLE测试集存在严重的数据质量问题，详情见他们最近的论文。这证实了DeepSeek-Overclock项目早期的发现，该项目发现模型的正确答案经常与有缺陷的"黄金标准"标签相矛盾。论文强调HLE测试集中的许多问题存在根本性缺陷，一些"标准答案"是错误的。调查涉及使用Python脚本逐行验证数学推导，揭示了测试集中的系统性错误。**评论者指出HLE的错误已有充分记录，FutureHouse的审查表明只有51.3%的数据集得到研究支持。批评还针对测试集创建中使用OCR，暗示数据准备缺乏严谨性。

HLE测试集因其数据质量受到批评，FutureHouse的审查表明只有约51.3%的数据得到研究支持。这突显了显著错误，并表明该数据集可能无法用于准确的基准测试（来源）。
有人对创建测试集时使用OCR表示担忧，这可能会引入错误。评论者建议使用LaTeX编写会更可靠，暗示当前方法可能损害数据集的完整性。
MMLU基准测试也面临类似的数据质量批评，许多用户指出它充满错误。这引发了更广泛的担忧：当测试集存在缺陷时，准确评估模型性能的能力受到质疑，表明需要更严格的数据验证流程。

你更期待哪个：9B还是35B？（活跃度：1312）：**图片是一个幽默的梗图，描绘了对两个模型版本发布的期待，特别是"QWEN 3.5 9B"和"35B"。该梗图格式以各种沉思姿势等待的男子为特征，用于以轻松的方式引发社区讨论他们更期待哪个模型版本。评论反映了兴奋与实际考虑的结合，例如在个人硬件上运行更大模型的可行性。**一位评论者对两个模型都表示兴趣，而另一位则强调了在个人硬件上运行35B等更大模型的实际限制，表明更倾向于更易访问的9B版本。

像peregrinefalco9这样的用户偏爱9B模型，因为其硬件要求较低，更适合本地使用。一个能在8GB VRAM内运行的9B模型可能显著影响工作流程，而35B模型需要像3090 GPU这样更强大的硬件，从而限制了其可访问性。
dances_with_gnomes强调了本地运行更大模型的实际限制，指出虽然他们可能能运行9B模型，但35B模型超出了他们的硬件能力。这突显了模型大小在决定个体用户可用性方面的重要性。
讨论反映了对平衡性能与可访问性的模型的更广泛兴趣。虽然像35B这样更大的模型提供了令人印象深刻的能力，但它们的高硬件需求使得像9B这样更小的模型对资源有限的用户更具吸引力。

Anthropic数据泄露与模型蒸馏争议

Anthropic指控DeepSeek、Moonshot AI（Kimi）和MiniMax创建了超过24,000个欺诈性Claude账户，并从1600万次交流中蒸馏训练信息。（活跃度：3161）：Anthropic指控DeepSeek、Moonshot AI（Kimi）和MiniMax创建了超过24,000个欺诈账户，对其AI模型Claude进行工业规模的蒸馏攻击。这些公司据称从1600万次交流中提取训练信息以增强自身模型，这代表了数据安全和知识产权的重大违规。这一指控突显了数据保护和AI伦理开发实践的持续担忧。评论者指出AI公司指控他人数据盗窃的讽刺性，因为他们自己也使用公开数据进行训练，暗示行业存在双重标准。

讨论强调了Anthropic指控中的讽刺意味，因为他们自己也利用互联网上的公开数据训练模型。这引发了关于未经补偿原始创作者而使用此类数据的伦理问题，以及像Anthropic这样的公司是否回馈了他们所受益的开源社区。

关于数据使用的伦理考量存在辩论，一些评论者指出Anthropic对数据盗窃的投诉是虚伪的，考虑到他们自己利用大量互联网数据的做法。这反映了AI行业更广泛的问题，即公司经常使用公开数据而不直接补偿内容创作者。
对话触及了使用公开数据进行AI训练的行业普遍做法，质疑像Anthropic这样的公司是否支持他们受益的开源项目。这引发了关于AI发展中专有开发与社区贡献之间平衡的担忧。

又来了。DeepSeek R1简直就是OpenAI模型的复制粘贴。他们被锁定了，现在又盯上了Anthropic。欺诈！（活跃度：1654）：**该图像突显了AI行业的一个重要问题，即像DeepSeek、Moonshot AI和MiniMax这样的公司被指控对Anthropic的AI模型（特别是Claude）进行大规模蒸馏攻击。据称这些实验室创建了超过24,000个欺诈账户，与Claude进行了超过1600万次交互，旨在提取知识并改进自己的模型。虽然蒸馏是创建较小模型的合法方法，但帖子警告要避免绕过安全措施的非法做法，呼吁行业范围和政策层面的干预来应对这些威胁。**评论反映了对AI训练中数据使用伦理标准的讽刺和批评，突显了大型AI公司在处理数据伦理方面的虚伪性。

Anthropic："我们已经识别出DeepSeek、Moonshot AI和MiniMax对我们模型进行的工业规模蒸馏攻击。"（活跃度：1416）：Anthropic已识别出DeepSeek、Moonshot AI和MiniMax对其模型进行了工业规模的蒸馏攻击。这些攻击涉及创建超过24,000个欺诈账户，并与Anthropic的模型Claude执行了超过1600万次交流，以提取其能力用于他们自己的模型训练和改进。这种情况突显了保护AI模型免受未经授权使用的持续挑战，以及围绕模型训练实践的伦理考量。**一条评论将这些蒸馏攻击与基于受版权保护材料的训练进行了类比，暗示根据受影响方的不同，此类做法存在双重标准。

Seedance 2.0与AI生成视觉效果的突破

仅凭一个提示词，Seedance 2.0首次尝试就产生了令人惊叹的结果 (活动量：3442)：这篇帖子描述了使用Seedance 2.0仅凭一个提示词生成的极其详细且逼真的动画。动画展示了一架大型客机在着陆时变形为巨型机器人，呈现出复杂的机械变形和逼真的物理效果，如跑道开裂和碎片飞散。该动画保持了"智能手机直播"的美学风格，同时提供了好莱坞级别的视觉特效和IMAX质量的细节。这展示了Seedance 2.0从简单提示词生成复杂、高保真动画的先进能力。评论者讨论了生成式AI成熟度的影响，质疑Seedance是否能在没有《变形金刚》现有素材的情况下实现这样的效果。另一条评论批评了变形过程中的颜色一致性，指出其偏离了典型的变形金刚设计。
仅向GPT 5.2请求一个提示词，首次尝试就在Seedance 2.0中获得了这个令人惊叹的结果 (活动量：1157)：一位用户利用GPT-5.2配合Seedance 2.0生成了一个高度详细且逼真的中文动画提示词，结果产生了一架飞机变形为巨型机器人的电影级场景，具有好莱坞级别的视觉特效。该提示词描述了具有"逼真金属质感"和"高度精确机械细节"的场景，展示了Seedance 2.0从文本描述创建复杂动画的先进能力。评论者指出了Seedance 2.0的变革潜力，认为这种技术未来可能使个人能够制作整部电影。同时也有关于对现有动画资产（如《变形金刚》电影中的素材）依赖性的讨论，引发了对可能过度依赖回收内容的担忧。

讨论突出了Seedance 2.0令人印象深刻的能力，特别是在生成高质量视频内容方面。然而，也存在对回收现有动画作品（如《变形金刚》电影中的素材）可能性的担忧，这可能导致"回收螺旋"，即新内容严重依赖预先存在的资产而非创造原创材料。

对生成视频质量进行了技术性批评，指出尽管表面质量很高，但仍存在明显错误，如汽车后部变形为前部。这表明模型在视频生成过程中保持对象一致性的能力存在局限性。
提到了生成内容中的一个具体错误：747被错误地描绘为双发喷气机，突显了模型在准确表示复杂对象或场景方面的困难，这对于需要高保真度和准确性的应用可能是一个重大问题。

3. Gemini模型性能与用户体验

不受欢迎的观点：对于"深度研究"和大量阅读，Gemini目前遥遥领先于ChatGPT。 (活跃度：244)：这篇帖子强调了Gemini在处理大量文档进行深度研究任务方面的卓越表现，特别是由于其广泛的上文窗口和工作空间集成功能。用户通过分析15个PDF文件（总计400页）来寻找不一致之处，将Gemini与ChatGPT进行了比较。Gemini表现出色，能够同时处理所有文档，并准确识别矛盾之处，提供精确的页面引用。这种能力归功于Gemini为开发者和知识工作者工作流程而设计的特点，正如Google Cloud上的课程所详述。评论者一致认为Gemini在处理大上文窗口方面具有优势，指出其在法律合同审查等文档密集型任务中的有效性。然而，也有人批评其聊天记忆功能，认为这在早期版本中存在问题。

Gemini的大上文窗口被认为是深度研究和文档工作（如法律合同审查）的重要优势。用户指出，它消除了不断重新上传文档的需要，这是ChatGPT常见的问题，从而提高了效率和工作流程。

Gemini中的页面编号引用功能因其快速验证信息的实用性而受到赞扬。这一功能特别适合需要引用文档特定部分的用户，节省了时间，提高了法律审查等任务的准确性。
对Gemini的聊天记忆功能存在批评，用户指出它在正确记忆上下文方面存在困难，这也是ChatGPT早期版本存在的问题。这表明虽然Gemini在某些方面表现出色，但在保持对话上下文方面仍有局限性。

1. 智能体与运行时：部署真实工作流（不仅仅是演示）

OpenClaw获得24个PR的"稳定性堆栈"：一位OpenClaw用户报告称，通过在v2026.2.22-2版本基础上运行24个精选的PR，显著提升了稳定性和安全性。这些修复包括内存管理问题（OpenClaw PR #12760）和提示词注入漏洞（OpenClaw PR #16992）。

他们还主动提出帮助重新调整冲突的PR，以提高智能体/定时任务的可靠性。同时，其他用户讨论了使用虚拟机/Docker对OpenClaw进行沙箱隔离，以降低在赋予智能体广泛系统访问权限时的爆炸半径。

复古计算，现代智能体：OpenClaw在1998年iMac G3上运行：一位社区成员通过使用Pi Zero 2W作为中继到实际运行OpenClaw的VPS，成功在1998年iMac G3上运行了OpenClaw。请求通过简单的HTML表单发送，响应在页面重新加载时显示。

同一社区还分享了实用的"野外智能体"构建案例，如在X上发布的购物助手使用说明（"购物助手"主题）以及GitHub上的Taskflow（markdown↔sqlite任务同步工具）（auxclawdbot/taskflow）和Clawhub上的版本（Clawhub上的Taskflow）。

Opentulpa与智能体集群：持久自主性的军备竞赛：OpenRouter用户重点介绍了Opentulpa，这是一个自托管的持久智能体运行时，能够编写技能、生成集成并修复工作流，现已发布在GitHub上（kvyb/opentulpa）。

在Hugging Face上，构建者分享了Super System，这是一个编码智能体集群，能够在改进循环中自主运行数小时（starsnatched/super-system），这强化了向长期运行、自我改进的智能体运行时发展的趋势，而非一次性聊天机器人。

2. 新模型、数据集与评估：基准测试变得混乱，工具应运而生

竞技场排行榜洗牌：GPT-5.2跃升+40分：LMArena宣布 GPT-5.2-chat-latest 进入前五名，并声称相比基础版GPT-5.2提升了 +40分，达到 1478分，接近 Gemini-3-Pro 的水平，同时更新了文本竞技场排行榜和视觉竞技场排行榜。

他们还注意到 Qwen3.5-397B-A17B 出现在视觉竞技场排行榜上，成为顶级的开源模型，而Clayton发布了一个幕后解析视频，解释了投票后的处理过程（"投票后到底发生了什么？"）。

SWE-Bench Verified遭弃用：Latent Space透露，由于严重的数据污染和许多有缺陷/无法解决的任务，OpenAI自愿弃用了SWE-Bench Verified（Latent Space推文）。

讨论将其视为一个警示：一旦模型开始通过任务ID重复输出解决方案，排行榜就会悄然失效，这推动社区朝着新的评估规范和基准刷新周期发展。

Real-Slop数据集发布15.5万条"真实用户"请求：Solenopsisbot发布了Real Slop数据集，包含约15.5万条通过API收集的真实用户请求，以及来自Opus 4.5、Gemini 3 Pro和GPT 5.2的响应（Solenopsisbot/real-slop）。

后续讨论强调了数据整理机制——去重/过滤/清洗——甚至建议简单的空格去除+哈希处理可以再移除2.2万个重复项，凸显了数据集质量工作的重要性。

3. 推理/内核：Blackwell 现实检验与基准测试完整性

ThunderKittens 2.0 通过"减法"找到免费10%性能提升：GPU MODE 深入研究了 Hazy Research 的 ThunderKittens 2.0，该项目声称通过重构、内存指令调优和更好的汇编器效率实现了内核加速（"ThunderKittens 2.0" 博客）。

一个突出的细节是：某些张量核心指令中的隐式流水线可以实现高达**约10%**的吞吐量提升，团队认为对于现代 Nvidia 性能工作来说，"减法可能和加法一样重要"。

flashinfer-bench 运行过快（因为它忘记等待）：GPU MODE 标记了一个同步错误，该错误可能会夸大 flashinfer-bench 的运行时间，问题记录在 flashinfer-bench issue #195。

社区指出一个两行修复可以使 scripts/run_local.py 与 Nsight Compute 和 NVbench 保持一致，并分享了一个相关的内核基准测试讲座（YouTube: kernel benchmarking talk）。

Blackwell 并非单一架构：5080 调优不会"扩展"到 B200：GPU MODE 用户警告说，在 RTX 5080 (sm120) 上的内核调优不会可靠地转移到 B200 (sm100)，因为架构存在差异，这影响了至少一名成员决定不购买 5080。

他们还指出了指令集差异（例如 tcgen05 在 sm100/sm103/sm110 上可用，但在 sm120/sm121 上不可用），同时指向 CUDA 计算能力文档作为参考（CUDA C Programming Guide: compute capabilities）。

4. 平台、定价与"为何现在所有服务都有限流？"

Perplexity Pro用户称之为"大阉割"：Perplexity Discord用户抱怨Perplexity Pro的上传限制感觉比ChatGPT免费版还要糟糕，他们对比后沮丧地表示*"付费计划下每天3次，而不是每周3次"*。

他们讨论了放弃Perplexity转而直接订阅Claude/OpenAI或使用更大的开源模型如Kimi，并争论"模型委员会"是减少错误还是仅仅增加了方差和复合故障模式。

OpenRouter新增基准测试+"有效定价"（终于有收据了）：OpenRouter推出了由Artificial Analysis支持的模型页面基准测试，并为每个提供商添加了有效定价标签页，同时在排名页面改进了基准测试可视化，根据他们的公告（OpenRouter X帖子）。

他们还推出了openrouter/free作为免费模型的元路由器（openrouter/free），而用户同时抱怨支持延迟和即使信用额度剩余仍出现意外限流消息。

Token消耗成为首要问题（OpenClaw + Grok Fortress）：OpenClaw用户分享了削减支出的策略——多个代理、自动清理会话、使用更便宜的cron模型如claude-haiku-4-5、进行/context检查，以及尝试Cloudflare AI Gateway——此前有报道称花费**768€**的token只为点一份披萨。

另一方面，OpenAI Discord用户声称启用Grok Fortress能将token消耗减少到大约1/4–1/5的典型冗长度，同时在角色扮演中保持连贯性，这引发了关于提示词工程是可复制的"科学"还是仅仅凭感觉的争论。