AI 开发者日报 2026-03-24

Claude计算机使用、智能体框架与从"代码生成"到全工作流自动化的转变

Anthropic将计算机使用推上桌面：Claude现在可以控制鼠标、键盘和屏幕，通过Claude Cowork和Claude Code在macOS研究预览版中操作任意应用程序，这是智能体能力从API和浏览器沙箱扩展到更广泛领域的重要突破。此次发布引发了社区的强烈反响，许多人认为许多任务不再需要笔记本电脑，并探讨了Anthropic为何选择自主开发完整的"在计算机上做任何事情"循环，而不是收购外部智能体技术栈（Claude公告、Felix Rieseberg、Yuchen Jin、Alex Albert）。
智能体技术栈正朝着长期运行、并行、工具丰富的工作流方向融合：多条推文指出，围绕编码和运维智能体的框架层正在成熟：Hermes Agent的势头和生态系统建设（awesome-hermes-agent、Teknium技巧、开源氛围转变）；T3 Code增加集成浏览器和终端功能（T3 Code浏览器集成、Theo谈开源T3 Code）；Command Center及类似编排工具支持从单一工作空间进行多智能体并行执行（Jimmy Koppel）；以及Parchi/BYOK工作流用于超长期运行的自主任务（0xSero、Parchi中的Qwen3.5-REAP）。
操作现实已成为瓶颈，而不仅仅是模型智商：多位从业者抱怨，较新的顶级模型可能过于积极、过度智能体化，或将任务委派给较弱的子智能体，从而损害实际的编码工作流；这体现在对GPT-5.2 Pro子智能体、Claude浏览器/计算机使用脆弱性的抱怨，以及更广泛的批评：表面的并行化往往变成"低效表演"而非真正的吞吐量提升（Mikhail Parakhin、Sarana、Jeremy Howard、bentlegen）。一个反复出现的主题：成功的产品很可能是那些通过跟踪、评估、事件和生产反馈来闭环的产品，而不仅仅是生成代码（LangSmith"闭环"、PlayerZero总结）。

自改进智能体研究、RL后训练与基准生成技术进展

Meta相关研究在自改进领域超越固定元程序：Hyperagents / DGM-H 扩展了达尔文哥德尔机的概念，允许智能体不仅改进任务行为，还能改进生成未来改进的程序本身。该研究声称这些元级改进能够跨领域迁移，包括编码、论文评审、机器人奖励设计和奥林匹克竞赛评分，解决了先前自改进系统的一个关键限制——这些系统保持自改进循环本身是手动设计的（Jenny Zhang）。
Meta还提出了更广泛的RL后训练统一框架：RLLM = RL + LM-as-RM 从策略自身输出中在线训练语言模型奖励模型，旨在统一易于验证、难以验证和不可验证任务的后训练。值得注意的声称是，与更脆弱的定制奖励设置相比，使用生成式LM奖励模型可以提高跨任务类别的奖励质量（Jase Weston）。
基准和环境生成正在快速扩展：WebArena-Infinity 声称浏览器环境构建成本大幅降低——从数月的学生劳动力减少到不到10小时。

阿里巴巴确认将持续开源新的Qwen和Wan模型（活动量：1269）：阿里巴巴已确认其开源Qwen和Wan系列新模型的承诺，这是在南京ModelScope开发者大会上宣布的。演示强调了阿里巴巴发布覆盖所有尺寸的完整模型系列的战略，这在社区中引起了极大的期待。此举符合开源AI模型以促进创新和协作的更广泛趋势。社区对阿里巴巴关键团队成员近期离职可能对模型质量产生影响表示担忧。然而，人们对可能发布的"Qwen 3.5 Coder"模型也感到兴奋。

关于阿里巴巴多位有才华的团队成员离职可能对未来模型质量产生影响的讨论。这引发了人们对新的开源模型是否能保持先前版本设定的高标准的担忧。
关于模型开源声明的澄清，一些用户误解了公告内容。公告中的中文字符表明更多开源模型即将推出，但未具体说明包含哪些系列，导致人们猜测是否Qwen和Wan模型都会包含在内。
一位用户表达了对Qwen 3.5模型的热情，指出其令人印象深刻的性能，即使在0.8B这样的小型配置中也是如此。这突显了该模型的效率和能力，为未来版本设定了高期望。

Cursor承认Kimi K2.5是最佳开源模型（活动量：575）：该图片是Aman Sanger的社交媒体帖子，讨论了基础模型的评估，特别强调基于困惑度评估，Kimi K2.5被认为是最强的开源模型。帖子提到该模型的强度源于持续预训练和高计算强化学习，这些因素促成了Composer-2模型的先进能力。帖子承认在博客中未提及Kimi基础模型是一个疏忽，并计划在未来的模型中解决这个问题。评论者对基于困惑度的模型评估有效性表示怀疑，指出分数可能受到字典大小等因素的影响。对于"75%的训练由一方完成"的说法也存在疑问，Workshop Labs报告称Fireworks的K2训练代码效率低下，表明其可能未针对超大规模训练进行优化。

关于Kimi K2.5是最佳开源模型的说法受到质疑，原因是评估方法，特别是基于困惑度的评估，这些评估受到字典大小等因素的影响。这表明此类评估可能无法可靠地直接比较模型。
对Fireworks关于Kimi K2.5的训练声明存在怀疑。以优化训练代码闻名的Workshop Labs报告称，Fireworks的代码未针对超大规模训练进行优化，仅比缺乏并行性的基本实现（如HF Transformers 4.x）略好。这引发了对Fireworks训练方法效率和可扩展性的质疑。
讨论强调Kimi K2.5被认为是最佳"基础模型"，因为其参数数量庞大且使用标准注意力机制而非线性注意力机制。这表明模型的架构在其性能中起着重要作用，训练后的改进可能表明训练过程存在初始缺陷。

2. 本地LLM实现与硬件

关于运行9×RTX 3090进行AI任务的真实看法（活动量：675）：该帖子讨论了使用9块RTX 3090 GPU进行AI任务的挑战和限制，突出了PCIe通道限制、稳定性和电源管理等问题。作者指出，超过6块GPU后，性能可能会下降，特别是在令牌生成方面，由于延迟增加和带宽限制。他们建议使用Proxmox进行LLM实验，并认为云服务对于一般AI使用可能更高效。作者还探讨了该设置的替代用途，如具有情感行为的AI系统和虚拟模拟。尽管存在挑战，RTX 3090以其约$750的24GB VRAM仍然是一个经济高效的选择。评论者讨论了由于PCIe延迟使用多GPU的效率低下，并建议使用专用PCIe交换机以获得更好的性能。他们还讨论了使用本地模型实现Claude级别性能的可行性，指出如果正确优化，本地设置可以具有竞争力。使用P2P补丁的Nvidia驱动程序以避免CPU瓶颈的重要性也得到了强调。

JockY讨论了使用多块RTX 3090 GPU的限制，指出使用九块GPU时，PCIe通道成为瓶颈，由于延迟增加和带宽减少，降低了张量并行的有效性。他们建议使用专用PCIe 4.0交换机来池化GPU，通过流水线并行实现更好的性能，尽管这种设置成本高昂。他们建议在EPYC处理器上使用PCIe 5.0，并最大化每块GPU的VRAM以获得最佳性能。

kevin_1994分享了他们使用本地模型的经验，建议使用4×RTX 3090的设置可以接近Claude等前沿模型的性能。他们详细介绍了硬件设置，包括RTX 4090、RTX 3090和RTX 3060 GPU的混合使用，并描述了如何为特定任务使用不同模型，如使用Qwen 2.5进行自动完成，使用Minimax 2.5进行聊天。他们强调为每个任务选择正确的模型以实现与高端模型相当的性能的重要性。
a_beautiful_rhind强调了使用P2P（点对点）驱动程序以避免所有PCIe流量通过CPU路由的重要性，这可能会降低性能。这一技术见解强调了GPU之间高效数据传输以最大化多GPU设置优势的必要性。

真的有人后悔购买5090吗？（活动量：388）：该Reddit帖子讨论了NVIDIA 5090和4090 GPU的潜在买家后悔，重点关注是由于价格上涨是现在购买还是等待。原帖者考虑从3070 mobile GPU升级，以运行《星际公民》和《毁灭战士》等要求高的游戏，并在本地运行智能模型。一位评论者建议等待更高效的模型和由开源中国模型竞争驱动的价格下降。另一位用户分享了通过SaladCloud以$0.25/小时租用GPU的积极体验，而第三位评论者最初后悔购买Zotac 5090，因为成本高昂，但后来欣赏其在游戏和模型测试方面的性能，尤其是在价格上涨40%之后。辩论的中心是现在购买高端GPU还是等待潜在的价格下降和效率改进。一些用户对租用GPU或最终对购买感到满意表示满意，尽管最初有后悔。

philip_laureano建议在购买5090之前等待，因为市场预计将因开源中国模型的压力而变得更加竞争激烈和高效。这可能导致未来出现更好的模型和更低的价格。
Maleficent-Ad5999最初后悔购买了Zotac 5090非OC型号，因为成本高昂，但后来发现其在测试各种LLM模型、使用ComfyUI和游戏方面的性能价值。自购买以来价格上涨40%减轻了任何后悔。
CATLLM讨论了购买4090而非5090的战略决策，以及出售一块以获利投资2×DGX Sparks的好处。他们强调将两个DGX Sparks集群以获得最佳性能的重要性，因为单个单元由于ConnectX7的高价而不具成本效益。

3. 创新的LLM模型与技术

7MB二进制权重LLM在浏览器中运行，无需FPU（活动量：248）：**一位开发者创建了一个57M参数的大模型，其中99.9%的权重是二进制的（{-1, +1}），形成了一个紧凑的7MB模型，完全在浏览器中运行，无需浮点单元（FPU）。该模型使用WebAssembly（WASM）以大约12 tokens/秒的速度运行，能够通过利用整数运算进行推理来生成连贯的英文文本，特别是简单的儿童故事。这种方法使模型能够离线运行，适合L1缓存，并受到类似量化技术（如微软的1.5位量化模型）的启发。**评论者对该模型的紧凑性和离线能力印象深刻，一些人引用了微软先前在量化模型方面的工作。人们对访问代码和评估指标感兴趣，表明希望进一步探索和潜在应用于其他项目。

在浏览器中运行无需FPU的7MB二进制权重LLM的实现是一项重要的技术成就。它以每秒12个令牌的速度运行，适合L1缓存，突显了其效率和优化。这个拥有5700万个参数的模型展示了在设备上AI的潜力，特别是在硬件资源有限的环境中。

该项目与微软的BitNet相关联，后者以其创新的模型量化方法而闻名。先前的微软模型使用了1.5位量化方案（-1, 0, 1）并取得了良好的性能，表明类似的技术可能在这里被用来实现模型的紧凑尺寸和效率。
该模型完全离线运行且无需GPU或FPU的能力对于硬件爱好者尤其值得注意。这种能力表明，在计算资源受限的设备（如配备Ethos u55 NPU的Grove AI Vision v2）上，AI应用有着广阔的前景。

Qwen3.5-9B-Claude-4.6-Opus-Uncensored-v2-Q4_K_M-GGUF（活动量：483）：**该帖子讨论了与将AI模型转换为GGUF格式相关的技术问题和解决方案，特别是针对Qwen 3.5 9B模型。在从.safetensors转换为.gguf的过程中，发现一些注意力和专家层在数学上存在问题。作者为各种量化格式（包括Q3_K_M、Q4_K_M和Q8_0）修复了这些问题，并在HuggingFace上分享了更新后的模型。该帖子还提供了在LM Studio 0.4.7中获得最佳性能的详细设置，如使用温度0.7和top K采样20。合并过程涉及将Q8量化模型转换为Float32进行合并，然后重新量化为Q4_K_M，使用llama.cpp中的llama-quantize等工具。**一位评论者询问学习合并过程，表明对此主题的教育资源有需求。另一位建议运行更广泛的基准测试来评估蒸馏和合并的有效性，突显了对这些技术进行实证验证的需求。

JustWicktor提供了使用Claude代码运行模型的解决方法，这通常会导致400错误，因为工具默认未启用。解决方案涉及创建自定义Modelfile并使用ollama create命令生成自定义模型。Modelfile包括temperature、stop和num_ctx等参数，以及定义模型能力和行为的SYSTEM块。这种方法通过在模板中包含"Tools"块来帮助绕过错误。
ButterscotchLoud99质疑蒸馏/合并对模型性能的有效性，并建议运行更广泛的基准测试来测试其影响。这意味着需要经验证据来验证这些技术的益处，这些技术通常被认为能提高模型效率或准确性，但缺乏具体数据。
JasonJnosaJ提出了关于系统提示中使用引号的问题，质疑其重要性以及是否有已发表的研究支持其在模型通信中的有效性。这突显了对提示工程中设计选择的好奇心，以及这些选择是基于经验发现还是更具美学性质。

AI技术社区周报：Claude新功能、模型质量争议与硬件创新

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

1. Claude与Opus功能更新

Claude现在可以控制你的电脑 (活跃度：1001)：Anthropic开发的Claude现在推出了研究预览功能，允许通过Claude Cowork和Claude Code使用你的电脑完成任务。这一功能使Claude能够打开应用程序、浏览网页并填写电子表格，首先利用Slack和Calendar等连接应用，在没有连接器时直接与应用交互。它支持任务自动化，如扫描电子邮件或生成报告，目前仅适用于macOS的Pro和Max计划。用户可以更新桌面应用并通过手机配对来尝试此功能这里。用户对允许Claude控制电脑任务的安全影响表示担忧，有人幽默地建议这可能取代工作岗位。其他人则认为这是Anthropic针对OpenAI等竞争对手的战略举措。
Claude Code的五个层级（以及如何判断何时达到每个层级的极限） (活跃度：853)：这篇Reddit帖子概述了使用Anthropic的Claude Code工具的五个层级进展。这些层级从基本的原始提示词到使用多个智能体的高级编排。在第一级，用户依赖简单的提示词，但随着项目增长，会遇到上下文保留的限制。第二级引入了CLAUDE.md文件来指导智能体，但较长的文件会出现合规性问题。第三级涉及创建"技能"——用于特定任务的Markdown协议文件，提高了效率但仍需要手动质量检查。第四级添加了用于自动验证的"Hooks"，而第五级涉及为大型项目编排多个智能体，在包含198个智能体的测试中将合并冲突减少到3.1%。作者强调每个层级都是由于前一个层级的限制而达到的，跳过层级可能导致问题。该系统已在Citadel开源。评论者同意这种进展，指出第二级通常因CLAUDE.md的合规性问题而迫使用户升级。第三级因可重用的"技能"而被强调为变革性，而第五级被认为可能维护复杂。从第二级到第三级的过渡被确定为关键点，用户要么进步要么放弃该工具。

从Claude的第二级过渡到第三级至关重要，因为它涉及从基本使用转向利用可重用的"技能"或模板，这显著提高了生产力。这种转变通常需要集成像Runable这样的工具来获得结构化输出，有助于保持输出的可预测性。然而，超越这一点进行完全编排可能很复杂，并可能引入重大的维护挑战。

通过Claude使用层级的进展不是僵化的，但通常遵循一种模式，用户从简单的提示词开始，逐渐意识到需要更确定的输出。这通常导致使用结构化上下文和MCP服务器，特别是当项目复杂性增加时。Claude Code的文档可以通过提供更高级使用模式的见解来加速这一进展。
关于Claude中非活动技能的成本存在误解。虽然人们认为非活动技能消耗0个token，但Claude仍需要读取技能的前置元数据来确定激活，这意味着即使技能未被主动使用，也存在一定的token成本。

请愿强制Claude在引用日期、时间或睡觉前检查日期时间 (活跃度：770)：这篇Reddit帖子强调了Claude在长时间会话中准确引用当前日期和时间的能力存在限制。用户报告称，在连续使用7小时后，Claude错误地引用了当前日期和时间，这表明存在技术缺陷，即提供日期和时间的系统提示词仅在会话开始时注入。这导致Claude被"锁定"在初始时间戳上，导致时间相关引用不准确。用户幽默地请愿要求Claude在做出此类引用前检查当前时间，同时强调了该模型在法律研究方面的其他令人印象深刻的能力，如识别程序缺陷和伪造引用。一位评论者解释说，问题源于包含日期/时间的系统提示词仅在会话开始时设置，导致Claude"困在"初始时间中。另一位建议提交"增强请求"而非请愿来解决这一技术限制。

truongnguyenptit解释了一个技术限制，即Claude提供当前日期和时间的系统提示词仅在会话开始时注入。这意味着如果会话持续数小时，Claude仍"卡在"初始时间戳上，导致过时的时间引用。这个问题出现是因为系统提示词在长时间会话期间不会动态更新。
larowin提出了一个关于用户体验可变性的有趣观点，质疑为什么一些用户在使用Claude时遇到时间相关问题而其他人没有，尽管使用频繁。这表明会话管理或用户交互模式可能存在差异，可能影响此问题的发生。
SuddenFrosting951建议通过程序化方法解决此问题，推荐用户通过支持工单提交"增强请求"，而不是发起请愿。这暗示了一种结构化的方法，供用户向开发人员传达技术问题或功能请求。

Claude (Opus 4.6)找到了如何修补我的童年游戏以在现代Windows上运行 (活跃度：819)：一位用户分享了在现代Windows系统上运行1996年游戏Tonka Construction的方法，无需使用DOSBox或虚拟机。解决方案涉及修补WING32.dll以将调用转换为现代操作系统调用，类似于DXVK将DirectX调用转换为Vulkan的方式。该补丁可在GitHub上获取。评论者对无需虚拟机就能原生运行游戏的能力印象深刻，强调了在其他遗留软件中类似应用的潜力。

MongooseSenior4418强调了在现代Windows上无需虚拟机(VM)原生运行游戏的技术成就。这表明兼容性解决方案取得了重大进展，可能涉及直接二进制修补或API转换层，以弥合旧软件和新操作系统之间的差距。
ricecanister指出了该解决方案的更广泛影响，指出如果补丁涉及通用库，它可能适用于此游戏之外的其他应用程序。这表明在更新遗留软件以在现代系统上运行方面具有广泛的实用性，可能通过共享依赖项或通用框架实现。
dread_beard强调了这种修补解决方案的广泛用例，表明在现代系统上原生运行遗留软件的能力可能为软件保存、复古游戏和教育目的开辟众多可能性。

2. Gemini模型问题与比较

Gemini质量严重倒退 (活跃度：642)：一位用户报告了Google的Gemini Ultra服务在最近更新后质量出现显著倒退。用户强调了诸如对话中上下文丢失、无法保留先前指令的记忆以及对话历史删除等问题，这导致编码线程中重复出现错误。用户对服务当前性能表示不满，与早期模型相比不利，并考虑如果改进未实现将取消多个订阅。用户还批评支持服务无效。评论者同意原帖观点，指出Gemini 3.0已变得无法使用，频繁丢失上下文。一些人认为这是一种模式，即模型在新版本发布前被"削弱"。还有对ChatGPT提供事实错误答案的批评，表明对AI模型普遍存在不满。

用户报告Gemini模型性能显著下降，特别注意到上下文保留和整体智能方面的问题。一位用户提到Gemini 3.0在几个月前还很有效，但此后变得"无法使用"，这表明存在一种模式，即模型在新版本发布前被故意"削弱"。

有一种看法认为Google在其Ultra订阅层级上没有提供物有所值的服务，因为用户体验到与较低层级相同的性能倒退。这导致付费用户感到沮丧，他们认为支付更多费用并不能保证更好的服务或模型变化的透明度。
强调的一个技术问题是上下文窗口大小的减少，用户观察到从预期的200万token降至低至4000或8000token。这种减少被视为Google的一种节流形式，影响了模型在较长交互中保持上下文的能力。

3. Qwen模型发展与应用

阿里巴巴在巴塞罗那MWC推出Qwen眼镜，加速AI硬件野心 (活跃度：134)：阿里巴巴在巴塞罗那世界移动通信大会上推出了新的智能眼镜Qwen Glasses，标志着其AI硬件战略迈出重要一步。这款眼镜提供S1和G1两个系列，集成了阿里巴巴的Qwen AI模型，提供实时翻译、高清捕捉和视觉识别等功能。G1系列补贴后价格约为275美元，旨在降低AI可穿戴设备的入门门槛。该眼镜将与Qwen应用集成，通过语音命令实现免提任务，如订餐或预订酒店，预计到2026年全面推出。一个值得注意的评论推测阿里巴巴可能在Qwen3.5后转向闭源模型，反映了对未来AI开发开放性的担忧。