AI 开发者日报 2025-09-26
本周AI领域在模型评估、智能体开发、多模态技术和硬件方面均有重要进展。OpenAI的GDPval评估显示Claude 4.1 Opus在多个职业领域超越人类专家,Anthropic因此减少招聘应届生。智能体方面,Kimi推出类操作系统模式,GitHub Copilot CLI支持本地终端编码。多模态技术中,DeepMind的Veo 3展示零样本物理推理能力,Gemini Robotics 1.5构建具身推理系统。硬件上,国产风华3号GPU声称兼容CUDA和DirectX。基础设施方面,LMCache降低RAG成本,微软揭示能耗估算差距。阿里巴巴计划扩展Qwen模型至1亿token和10万亿参数。Google推出Chrome DevTools MCP支持浏览器自动化,Meta的CWM模型结合代码生成与世界模型。整体趋势是AI向智能体化和多模态化发展,但需注意模型当前仍属模式匹配,非真正推理引擎。
OpenAI的GDPval与现实世界评估现状
-
GDPval(OpenAI):OpenAI推出了GDPval,这是一种新的评估方法,用于衡量模型在44个职业中“具有经济价值”任务上的表现,这些任务涉及工具使用(搜索/代码/文档)和多小时复杂度。初步结果显示:Claude 4.1 Opus在大多数类别中领先,接近或超越人类行业专家;GPT-5“高”版本在相同任务上落后于Opus。OpenAI提供了公开网站和方法论;领导层将其定位为政策制定者和劳动力影响预测的关键指标。参见发布和讨论:@OpenAI、@kevinweil、@gdb、@dejavucoder、@Yuchenj_UW、@LHSummers。
-
Artificial Analysis指数:
Gemini 2.5 Flash/Flash-Lite(预览版09-2025):Flash在推理/非推理任务上分别提升3/8分;Flash-Lite相比之前版本提升8/12分。Flash-Lite速度提升约40%(≈887 tok/s),输出token使用量减少50%;支持100万上下文、工具使用和混合推理模式。定价:Flash-Lite每100万输入/输出为0.1/0.4美元;Flash为0.3/2.5美元。基准测试:@ArtificialAnlys、后续。
-
DeepSeek V3.1 Terminus:相比V3.1提升4分(推理模式),在指令遵循(IFBench +15)和长上下文(AA-LCR +12)方面有大幅提升。架构:总计671B参数,激活37B参数;通过API和第三方主机(FP4/FP8)提供。@ArtificialAnlys。
-
AA-WER(语音转文本):新的词错误率基准测试,涵盖AMI-SDM、Earnings-22、VoxPopuli。领先者:Google Chirp 2(11.6% WER)、NVIDIA Canary Qwen2.5B(13.2%)、Parakeet TDT 0.6B V2(13.7%)。注意到价格/性能权衡;Whisper/GPT-4o Transcribe在成本上平滑但牺牲了字面准确性。@ArtificialAnlys、定价。
智能编码与产品化智能体
-
Kimi "OK Computer"(K2驱动的智能体模式):一个类似操作系统的智能体,拥有自己的文件系统、浏览器、终端和更长的工具预算。演示功能包括:单提示词生成网站/移动优先设计、可编辑幻灯片以及处理多达100万行数据的仪表板。同时发布了供应商验证器,用于在OpenRouter上验证工具调用的正确性。相关讨论:@Kimi_Moonshot、@crystalsssup,示例1、2。
-
GitHub Copilot CLI(公开预览版):支持MCP的本地终端智能体,与云端Copilot编码智能体功能一致。使用现有GitHub身份、脚本嵌入功能,按请求清晰计费。发布公告:@github、@lukehoban。
-
Factory AI "Droids" + 5000万美元融资:模型无关的软件开发智能体(支持CLI/IDE/Slack/Linear/浏览器),在Terminal-Bench排名第一,通过代码抽象定位为更广泛的知识工作智能体。发布及融资信息:@FactoryAI,评论@swyx、@tbpn。
-
Ollama网络搜索API + MCP服务器:将本地/云端模型与实时网络数据连接;兼容Codex/cline/Goose等MCP客户端。@ollama。
-
Reka Research "并行思考":API选项可生成多个候选链并通过验证器模型进行解析;在Research-Eval上提升4.2分,在SimpleQA上提升3.5分,延迟几乎不变。@RekaAILabs。
视频推理与机器人技术
-
视频模型作为零样本推理器(Veo 3):DeepMind展示了从感知→物理→操作→推理的广泛零样本能力。引入"帧链"作为视觉思维链。在深度/物理方面仍落后于最先进技术;成本仍然较高。论文/讨论:@arankomatsuzaki、项目/论文、@tkipf。
-
Gemini Robotics 1.5(谷歌):新的具身推理堆栈(GR 1.5 VLA + ER),长上下文,工具使用,时空规划,跨具身迁移和安全约束。API在Google AI Studio中;洗衣分类推理演示。公告:@GoogleDeepMind、@sundarpichai、API说明、@demishassabis。
模型与方法发布
-
EmbeddingGemma(谷歌):一个308M参数的编码器模型,在500M以下模型中位居MTEB榜首(支持多语言/英语/代码)。声称性能与约2倍大的基线模型相当;支持4位量化和128维嵌入。技术特点:编码器-解码器初始化、几何蒸馏、分散正则化、模型融合。适用于设备端/高吞吐量场景。相关讨论:@arankomatsuzaki、论文综述。
-
ShinkaEvolve(Sakana AI,开源):一个样本高效的进化框架,通过使用大模型集成与自适应父代采样及新颖性过滤来"进化程序"。成果:用150个样本实现新的SOTA圆填充;改进ALE-Bench解决方案;发现一种新颖的MoE负载均衡损失函数,提升专业化/困惑度;更强的AIME支架。代码/论文:@SakanaAILabs、@hardmaru、报告。
-
RLMT与TPT:
"语言模型思考,聊天更佳"提出基于模型奖励思考的强化学习(RLMT),在8B模型的聊天基准测试中超越RLHF;消融实验强调提示词混合和奖励强度的重要性。@iScienceLuvr、笔记。
"思考增强预训练(TPT)"报告称,通过合成逐步轨迹,3B模型在推理任务上实现约3倍的预训练数据效率和超过10%的训练后改进。@iScienceLuvr。
系统、服务与基础设施
-
Perplexity Search API:一个实时网络索引,具有最先进的延迟/质量,用于为大模型和智能体提供基础信息,同时提供公开评估和研究。声称在单步和深度研究基准测试中表现强劲,并且在大模型使用方面相比Google SERP具有优势。发布:@perplexity_ai,研究:文章,评论:@AravSrinivas。
-
KV重用和动态并行性:
LMCache:开放的KV缓存层,可在GPU/CPU/磁盘之间重用任何重复的文本片段(不仅仅是前缀);将RAG成本降低4-10倍,减少TTFT(首次令牌时间),并提高吞吐量。已集成到NVIDIA Dynamo中。@TheTuringPost
-
Shift Parallelism(Snowflake):根据负载动态切换张量/序列并行性——交互式场景下延迟降低高达1.5倍,高流量场景下吞吐量提高50%。代码位于Arctic Inference中。@StasBekman
-
上下文并行扩散:原生支持环形/Ulysses变体,使多GPU扩散模型"飞速运行"。@RisingSayak
-
attnd(ZML):在CPU上通过UDP实现的稀疏对数注意力;号称"为无限上下文铺平道路"。@steeve
能源与硬件:
-
微软(大模型推理能耗):中位数聊天机器人查询约0.34 Wh;长推理约4.3 Wh(约13倍);每天10亿次查询的集群约0.9 GWh(约等于网络搜索规模)。声称公开估计值高出4-20倍;可实现8-20倍的效率提升。@arankomatsuzaki
-
B200现货定价:B200现货实例短暂达到约0.92美元/小时。@johannes_hage
行业动态与平台更新
-
Meta人才大获全胜:扩散/一致性模型先驱宋扬离开OpenAI加入Meta;这被广泛视为一次重大挖角。相关报道:@iScienceLuvr、@Yuchenj_UW。
-
ChatGPT Pulse:OpenAI向Pro用户推出“主动式”每日更新(包括上下文和连接应用)——这是一种超越被动聊天的环境智能体形态。相关讨论:@OpenAI、@sama、@fidjissimo。
-
Qwen生态系统:Qwen模型已加入LMSYS竞技场(@Alibaba_Qwen);通过第三方提供商提供Qwen3‑VL配置,便于试用。@mervenoyann。
热门推文(按互动量排名)
- "有这么个人...如果ChatGPT出错,他就把手机放进冰箱" — 55,057
- Sam Altman谈ChatGPT Pulse("从被动到主动") — 28,573
- Karpathy谈"AI不会取代放射科医生"(为什么基准测试≠部署现实) — 7,980
- Kimi的"OK Computer"智能体模式发布 — 2,646
- OpenAI宣布GDPval — 4,144
- Demis Hassabis谈Gemini Robotics 1.5("与机器人对话") — 1,545
/r/LocalLlama + /r/localLLM 回顾
中国AI模型发布:阿里巴巴Qwen极端扩展路线图与腾讯混元图像3.0
- 阿里巴巴刚刚公布了他们的Qwen路线图,其雄心令人震惊! (评分:662,评论:146):阿里巴巴的Qwen路线图幻灯片显示出对统一多模态模型和极端扩展的激进押注:上下文长度从
100万→1亿
个token,参数量从约1万亿→10万亿
,推理时计算量从6.4万→100万
个token,训练数据从10万亿→100万亿
个token,同时还包括"无限规模"的合成数据生成和扩展的智能体能力(复杂性、交互性、学习能力)。该计划呼应了"扩展就是一切"的哲学,意味着在内存带宽、KV缓存管理、长上下文注意力(如混合/线性/稀疏)以及合成数据管道的可靠性方面面临巨大的计算、数据整理和推理优化挑战。 评论者对可行性/实用性提出质疑:1亿
的上下文窗口和超过1万亿
参数的模型会给硬件和推理成本带来压力,很可能将部署推向封闭的、仅限云端的设置;其他人询问本地计算能实际处理万亿级模型的能力,暗示需要依赖量化、MoE或卸载方案。
多人关注路线图中提到的"1亿上下文"(图片)。朴素的二次方注意力使得这在规模上难以处理:对于约32层、约4k隐藏维度的解码器,FP16 KV缓存≈0.5 MB/token
,因此1亿
个token意味着≈50 TB
的VRAM(即使是4位KV也仍≈12.5 TB
)。达到这一目标将需要稀疏/线性/流式注意力(如块稀疏、环形/流式)、检索/分块、激进的KV量化/卸载,以及精心优化的带宽优化内核;像FlashAttention这样的计算优化有助于常数因子但无法解决O(n^2)的扩展问题。
- 关于"在本地运行超过1万亿参数?"——仅权重存储就占主导地位:
1万亿
参数在int4
下≈500 GB
(FP16≈2 TB
),这还不包括KV缓存,后者在长上下文下会增加数百GB到数TB。现实情况是这需要多GPU服务器(如8-16×80 GB
带NVLink/NVSwitch)配合张量+流水线并行;每个token的计算量≈O(P)(约2e12
FLOPs/token),因此10-30
tok/s需要大约20-60
TFLOP/s的持续性能,但内存带宽和集体通信是主要瓶颈而非原始FLOPs。
腾讯正在预告世界上最强开源文生图模型,混元图像3.0将于9月28日发布 (评分:173,评论:26):腾讯预告了混元图像3.0,这是一个定于9月28日发布的开源文生图模型,声称它将成为"最强大"的开源选项。预告暗示了 96 GB VRAM
的要求(至少对于某些推理模式),但尚未提供公开基准测试、架构细节、训练数据或吞吐量/延迟指标;因此性能声明在发布前未经证实。图片:https://i.redd.it/t8w84ihz1crf1.jpeg 评论者对发布前的大肆宣传持怀疑态度,指出强大的模型通常以最少的营销出现(如Qwen),并引用过去过度炒作的发布(如SD3 vs FLUX)。其他人指出,在没有进行同类开源比较的情况下,"最强大"的标签为时过早;一位评论者从预告中确认了VRAM 96
的细节。
- 传闻中
约96 GB VRAM
的推理要求表明可能有一个非常大的扩散/DiT骨干网络或高分辨率潜在配置,这超过了单个消费级GPU(24-48 GB)。预计将严重依赖内存优化(注意力切片、分块VAE)、CPU/NVLink卸载、模型分片或多GPU张量并行;扩散U-Net的量化技术较不成熟且可能损害质量。内存占用与分辨率/步数的权衡对于实际本地使用至关重要。 - 多人注意到一个模式,即大肆宣传的发布往往不如"悄然发布"的(如Qwen),引用SD3 vs FLUX作为先例。他们在相信"最强大"之前想要硬数据:与Qwen Image/FLUX/SDXL的并排提示词对比,使用FID/CLIPScore/HPSv2,加上文本渲染、小物体计数、多主体组合和提示词忠实度的测试。没有数据卡和可复现的评估,该声明读起来像营销。
- 立即要求ComfyUI支持;可行性取决于混元图像3.0是坚持SDXL风格的流程还是引入自定义调度器/块。如果它像之前的混元发布那样是DiT-like的,那么带有FlashAttention 2/xFormers的加载器节点应该足够;否则可能需要自定义CUDA内核和采样器节点。社区将寻找FP16检查点、ONNX/TensorRT导出以及采样器兼容性(DDIM/DPM++/DPMSolver)来评估采用难度。
2. 本地AI替代方案:风华3号CUDA/DirectX GPU与后消融无审查大模型微调
- 中国已开始制造支持CUDA和DirectX的GPU,打破英伟达垄断。风华3号支持最新API,包括DirectX 12、Vulkan 1.2和OpenGL 4.6。 (评分:454,评论:124):帖子声称中国的风华3号GPU原生支持现代图形/计算API:
DirectX 12
、Vulkan 1.2
、OpenGL 4.6
**,甚至英伟达的CUDA,暗示这是英伟达生态系统的潜在替代品。图片似乎是产品/规格幻灯片,但未提供驱动程序成熟度细节、CUDA兼容层说明或基准测试,因此实际性能和兼容性仍有待验证。从上下文看,CUDA"支持"可能意味着重新实现/翻译层(类似于AMD的HIP:https://github.com/ROCm/HIP或ZLUDA项目:https://github.com/vosen/ZLUDA),除非完全独立开发并经过严格测试,否则在法律和技术上可能存在风险。**热门评论指出AMD已通过HIP提供CUDA兼容性,中国厂商可能忽略法律/IP限制直接宣传CUDA支持;其他人持怀疑态度("眼见为实")并预期地缘政治反弹。整体情绪更关注准备度、驱动程序质量和合法性,而非标题中的API列表。
多人指出AMD已提供类似CUDA的路径:HIP/ROCm通过将CUDA API映射到HIP实现源代码级可移植性(避免英伟达商标/法律问题),而ZLUDA等项目尝试在二进制级别进行CUDA驱动程序/运行时翻译,以在非英伟达GPU上运行未经修改的CUDA应用。实际上,这意味着许多CUDA内核可以通过HIP以最小代码更改自动翻译/重新编译用于AMD,而ZLUDA目标是直接运行现有CUDA二进制文件——覆盖范围和性能仍取决于驱动程序成熟度与最新CUDA功能的匹配程度。
重要:为什么消融模型很糟糕。这是更好的大模型去审查方法。 (评分:273,评论:80):发帖者报告称,权重空间的"消融"(去审查)处理——特别是像Qwen3-30B-A3B这样的MoE模型——会持续降低推理能力、代理/工具使用行为,并增加幻觉,通常导致30B
消融模型表现不如未消融的4-8B
模型。在他们的测试中,消融后微调的模型很大程度上"恢复"了能力:mradermacher/Qwen3-30B-A3B-abliterated-erotic-i1-GGUF(测试i1-Q4_K_S
**)接近基础Qwen3-30B-A3B性能,与其他消融Qwen3变体相比幻觉更少,通过MCP实现更好的工具调用;mlabonne/NeuralDaredevil-8B-abliterated(基于Llama3-8B的DPO微调)据称在保持无审查的同时优于其基础模型。与仅消融版本——Huihui-Qwen3-30B-A3B-Thinking-2507-abliterated-GGUF、Huihui-Qwen3-30B-A3B-abliterated-Fusion-9010-i1-GGUF、Huihui-Qwen3-30B-A3B-Instruct-2507-abliterated-GGUF——的直接比较发现,对非法任务提示的响应不切实际,工具调用频繁错误/重复,幻觉比微调消融模型更高(尽管仍略差于原始模型)。**评论呼吁建立标准化基准来量化"消融"退化,超越NSFW任务,并将观察到的恢复描述为"模型修复":后编辑微调让网络重新学习因无约束权重编辑而断裂的连接。怀疑观点认为,如果无论如何都需要微调,消融只会增加风险而无益处——声称从未见过消融+微调胜过直接微调。
- 多位评论者指出,任意权重编辑("消融")会引入不受控制的分布偏移和能力损失;这本质上被称为模型修复:如果在没有训练信号的情况下扰动权重,应预期推理/知识能力下降,只有通过适当损失的进一步微调才能部分恢复断裂的电路。实践者报告称,消融后微调的模型很少在相同基础上优于普通微调,暗示编辑增加了优化负担而无法在基准测试中获得可衡量的收益。
- 呼吁超越色情中心测试的评估;无审查通用智能(UGI)基准/排行榜旨在量化无审查模型的广泛能力(推理、编码、知识等),同时最小化拒绝伪影:https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard。使用UGI(或类似多领域套件)能更好地捕捉去审查是否保留通用性能而非导致回归。
- 作为消融的替代方案,用户推荐已知保留实用性的无审查微调,例如Qwen3-8B
192k
Josiefied GGUF构建(https://huggingface.co/DavidAU/Qwen3-8B-192k-Josiefied-Uncensored-NEO-Max-GGUF)、Dolphin-Mistral-24B变体(https://huggingface.co/mradermacher/Dolphin-Mistral-24B-Venice-Edition-i1-GGUF)和TheDrummer的模型(https://huggingface.co/TheDrummer)。这些被引用为更好的去审查基线,可以在UGI上进行头对头基准测试以验证能力保留。
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
Gemini Robotics 1.5与Veo 3的零样本视频推理能力
- Gemini Robotics 1.5 (评分:276,评论:39):**Google DeepMind宣布推出"Gemini Robotics 1.5",这是一个基于Gemini-1.5的多模态视觉语言动作模型,能够将自然语言和视觉输入映射到机器人控制,实现跨多种机器人的长时程、多步骤操作。演示包括衣物分类、桌面整理和完整场景重置/回滚功能(页面)。该模型建立在先前的VLA系列(如RT-2/RT-X)基础上,强调开放词汇的对象/工具定位、通过模型长上下文实现的分层任务分解,以及无需针对每个任务进行微调的泛化能力,从而支持"返回初始状态"行为和多对象组织。**技术评论者强调了稳健的场景恢复作为实用家庭原语的重要性(将场景重置到预定义状态),并推测该技术可直接应用于农业领域(如水果采摘)作为可扩展的高影响力应用领域。
将这项技术应用于水果采摘相比衣物整理是一个不小的跨越:户外非结构化场景引入了可变光照、遮挡和可变形/易碎物体处理等挑战,需要闭环视觉、触觉/力反馈、柔性夹爪和稳健的视觉伺服控制。通用VLA策略(如RT-2的开放词汇可供性定位)可以帮助将语言目标(如"采摘成熟的苹果")映射到动作原语,但成功将取决于板载延迟、多视角感知和防滑抓取释放[https://deepmind.google/discover/blog/rt-2/]。
- "将场景恢复到规范状态"的用例本质上是具有持久记忆的目标条件操作:维护以对象为中心的场景图,计算与参考快照的差异,然后规划多步骤重新排列。基于关键点的拾取放置方法如Transporter Nets和视觉目标条件策略可以执行"整理以匹配此图像"的行为,但需要稳健的重新定位、杂乱分割和故障恢复,以避免在长时程任务中累积错误[https://transporternets.github.io/]。
- "所有机器人共享同一个大脑"映射到群体学习:跨异构机器人的集中策略/参数共享,通过定期云更新实现,如多机器人数据集/策略RT-X所示[https://robotics-transformer-x.github.io/]。实际部署会添加机器人适配器,并可能偏好联邦学习以确保隐私/安全;核心挑战包括跨形态/传感器的分布偏移、持续学习中的灾难性遗忘以及仿真到现实的漂移,可通过领域随机化和强正则化缓解。
视频模型是零样本学习者和推理者 (评分:238,评论:30):**该帖子重点介绍了一个项目和论文,声称生成式视频模型Veo 3展现出广泛的零样本能力——无需任务特定训练或语言中介——涵盖分割、边缘检测、图像编辑、物理属性推断、可供性识别、工具使用模拟和早期视觉推理任务(如迷宫和对称性求解)。与LLM的涌现现象相类比,作者认为扩展大规模、网络训练的生成式视频模型可能产生通用视觉理解能力,将视频模型定位为潜在的统一视觉基础模型;项目页面和演示见项目页面,论文见arXiv。值得注意的是,这些材料主要是定性的:没有公开参数数量、计算量、训练语料细节、标准化基准测试或消融研究,限制了严格比较和可复现性。**评论者推测,连贯的长时程视频生成意味着强大的学习世界模型,进一步扩展可能提升能力,同时也注意到视频模型的显著计算成本,并提议与LLM集成到单一多模态模型中;多人要求基本模型细节(如Veo 3的规模)。
- 一些评论者推断,高质量视频生成(如Google声称的Veo 3)意味着学习到的"世界模型"强制执行时间一致性和基础物理规律,这可能表现为零样本推理。这与先前的世界模型工作(如DeepMind的Genie)一致,后者从视频中学习动态(博客)。核心理念:为了生成一致的帧,模型必须内化对象持久性、运动连续性和因果关系——这些能力也有益于下游推理,无需任务特定微调。
- 存在实际的扩展约束:与文本相比,视频建模会爆炸性增加token/计算量。一个
10秒
、24 fps
、720p
的视频,以16x16
分块,每帧产生约(1280/16)*(720/16)=3600
个token ⇒ 每个片段约864k
个token;即使在VAE潜在空间中进行潜在压缩(8-16倍)和扩散/流匹配,训练/推理的FLOPs也远超LLMs。这促使开发混合系统(LLM用于规划/推理 + 专用视频生成器)或具有共享token空间的统一骨干网络,以跨模态分摊计算成本。 - 关于多模态性,参与者指出差距:视频输入存在于LMMs中(如Gemini 1.5可以通过大上下文窗口处理长视频,据报道通过帧采样可达"数小时";见Gemini 1.5),而GPT-4o支持实时视频输入(OpenAI)。但真正统一的视频输入 + 视频输出 + 推理在一个发布的模型中仍然不常见;当前实践将推理LLM与T2V模型(如Veo、Sora)链式连接,或探索研究性Video-LLMs,如LLaVA-Video(arXiv)和Video-LLaMA(arXiv),这些模型专注于视频理解而非生成。这是评论者预期的下一个集成前沿。
大模型推理可靠性之争:苹果与Anthropic的辩论及GPT-5性能回归报告
- 苹果点名批评各大AI公司的虚假推理能力,Anthropic的回应恰恰证明了苹果的观点 (评分:377,评论:198):苹果机器学习团队的《思考的幻觉》研究报告(https://machinelearning.apple.com/research/illusion-of-thinking)通过应用语义保持但表面层面的扰动来评估大模型的"推理"能力,结果显示数学/逻辑文字问题的准确率急剧下降。苹果认为模型缺乏算法推理应有的不变性,而是利用虚假模式。Anthropic的回应《思考幻觉的幻觉》(https://arxiv.org/html/2506.09250v1)辩称苹果的设置引发了分布偏移/标注伪影,在受控提示词和"更公平"的条件下,Claude的表现是稳定的——将这种脆弱性框架化为评估问题而非模型能力不足。这场辩论的核心在于对内容保持重述的鲁棒性、指标过拟合,以及当前大模型是否展示出类似推理的泛化能力还是复杂的模式匹配。 多数评论者支持苹果的批评,认为大模型并不真正"推理",并分享了两个论文,描述了实际技术栈:从标记化到数字ID,过滤/引导输入输出的助手/策略层(如安全/RLHF),以及可能导致退化输出的解码选择(如采样配置错误时的重复标记)——暗示观察到的失败可能反映了流水线/解码的脆弱性,而不仅仅是模型限制。
多位评论者解析了大模型的生产技术栈:面向用户的模型将文本标记化为子词标记并预测下一个标记,而"外部"层(系统提示词、安全/护栏分类器、预处理/后处理重写器、路由/编排)约束和塑造输出。这种包装设计解释了不可靠的训练数据逐字回忆(知识参数化存储vs索引)等行为,以及为什么基础模型行为可能与产品体验不同(如RLHF和过滤改变可能性)。
-
技术故障模式被强调,例如当高概率标记占主导时,解码病理导致的早期重复循环如"the the the..."。错误调整的解码(
temperature
、top-k
/top-p
)和缺乏惩罚可能导致低熵退化;缓解措施包括repetition/frequency/presence
惩罚、核采样和熵提升启发式方法——这些是在护栏稳定输出之前,早期GPT-2/3时代系统中广泛观察到的问题。 -
关于"推理"辩论,评论者主张操作性定义和以能力为中心的评估而非标签,指出逻辑等价提示词的微小扰动经常破坏解决方案——这是模式匹配而非鲁棒推理的证据。分享了主要来源链接供深入分析:苹果机器学习的《思考的幻觉》研究笔记(https://machinelearning.apple.com/research/illusion-of-thinking)和arXiv预印本(https://arxiv.org/html/2506.09250v1),鼓励基于基准测试、扰动鲁棒的评估而非营销声明。
ChatGPT状态如此糟糕,连我最新手的学生都注意到它偏离轨道 (评分:211,评论:90):一位AI集成讲师报告OpenAI助手(被称为"GPT5")在更新后出现急剧回归:一个长期使用的主提示词先前使用GPT-4o能生成约2000
字的考试重点摘要,现在却产生通用散文,包含"严重不准确信息",需要多达5
次来回澄清,且经常偏离指令。在并行使用中,谷歌的Gemini和NotebookLM,加上Anthropic的Claude,仍能提供一致结果;用户还声称一个本地约1B
参数的Gemma系列模型(如Gemma)在其医疗教育摘要工作流程中优于托管模型。基于观察到的将多小时讲座/阅读材料转换为简洁笔记的可靠性下降,该讲师建议在改进前取消付费计划。 热门评论呼应了能力明显下降和研究助手用例信任度降低,声称存在更广泛的跨模型下滑。其他人对约1B
参数的Gemma能实质性优于OpenAI最新模型表示强烈怀疑,暗示可能存在评估或提示词混淆。
-
多位用户报告最近ChatGPT版本中能力明显回归,特别是研究/分析工作流程:感知到的幻觉增加、"懒惰"/简短输出,以及对以前简单任务的失败,导致一些人在关键工作中放弃使用。这与模型路由或安全/延迟调整影响行为的担忧一致,尽管评论者没有引用硬性基准测试。
-
关于"Gemma 1B"优于GPT的说法引起怀疑;公开发布的Gemma变体通常是2B/7B(Gemma 1/1.1)和2B/9B(Gemma 2)文档。在约1-2B规模下,模型在标准基准测试(如MMLU、GSM8K)上通常落后于GPT-4级系统,因此1B模型在广泛任务上超过GPT在狭窄领域或重度工具/RAG支持之外是不典型的。
-
提到的一个实用解决方法:在ChatGPT设置中启用"传统模型"以访问GPT-4o,如果默认路由感觉降级。这表明模型选择/路由变化可能影响质量;并行测试(相同提示词在4o与当前默认之间)有助于隔离回归OpenAI模型列表。
我对图像生成过滤器快要疯了 (评分:503,评论:56):用户报告GPT图像生成中不一致的安全过滤行为:一个类似蜘蛛的怪物图像最初被允许(示例预览),但随后对不太真实、野兽志/DnD风格渲染的请求被阻止,涉及狼人
、血液
和发红光的眼睛
的提示词也被阻止。模式表明存在关键词和风格敏感审核,可能具有非确定性(相同概念有时通过,有时失败),导致对幻想/恐怖内容的误报,而非明确的血腥或真实感阈值。 评论者建议解决方法:使用ChatGPT制作高度详细的提示词,然后使用具有更宽松过滤器的替代模型(如Grok)生成图像。其他人注意到频繁误报(如良性提示词被标记为"裸露"),认为当前安全启发式方法脆弱且过于宽泛。
-
内容审核似乎过于敏感:一个要求真实鳟鱼用海滩毛巾擦干的提示词被标记为裸露,表明存在误报,良性拟人化场景与明确内容混淆。这表明粗粒度安全分类器或关键词启发式方法通过阻止非明确请求降低了可用性。
-
一位用户报告通过Stability Matrix UI在单个RTX-3090上使用Stable Diffusion进行稳定的本地生成,描述文本到图像推理快速可靠,尽管落后于最先进的图像模型一步。本地运行提供控制并消除托管平台过滤器,在商品高VRAM GPU上性能足够。
-
工作流程建议包括使用ChatGPT制作高度详细的提示词,然后将其馈送到替代生成器如Grok;其他人注意到通过Gemini重新措辞有时减少审核摩擦。将提示词工程与推理分离可以提高输出质量,并减少来自更严格前端过滤器的误报触发。
ChatGPT如何帮助我戒除大麻并理解成瘾根源 (评分:428,评论:120):OP报告通过利用ChatGPT作为按需支持工具,在17年
日常大麻使用后戒除。他们用它来(1)实时解释戒断症状(如胸部压迫感、失眠、生动梦境),(2)规范化阶段特定体验,(3)将渴望重新框架为"旧编程"而非身份,以及(4)促进对根本原因(严格教养、不安全感、孤独、创作障碍)的结构化反思。结果:9周
戒断,渴望显著减少,睡眠改善,当下状态意识增加;OP将ChatGPT描述为24/7治疗师/教练/镜子替代品。 热门评论大多支持(一个呼应30+
年挣扎),有一个反对评论暗示AI使持续使用而无后果成为可能——突显了AI作为恢复辅助工具与潜在促成者之间的辩论。
ChatGPT在过去一年帮助我打离婚官司 (评分:333,评论:97):一位在德克萨斯州有争议的离婚/子女抚养费案件(两个孩子)中自我代理的当事人报告使用ChatGPT起草和格式化文件——声明、困难陈述和证据清单——通过提供事实约束指令并执行多遍手动验证。在3个月临时命令阶段和律师预测不利偏差结果后,他解雇了律师并继续自我代理,寻求偏离德克萨斯指南子女抚养费(约$1,100
/月;见德克萨斯指南家庭法典§154.125和OAG计算器),同时作为前全职父母享有100%VA残疾固定收入,声称对方有工作且免费住房。他将改进的结构、问题发现和书面记录中减少的情感内容归功于ChatGPT,使用文件来补偿有限法庭辩护,尽管对方律师威胁制裁和延迟。 评论者警告法律研究中的大模型幻觉,引用Mata诉Avianca案中因ChatGPT生成伪造判例法而受到的制裁(命令),敦促严格验证引用和先例。其他人认为如果保持事实性,大模型在起草清晰度上可以胜过律师,指出法院可能对自我代理方精确、充分支持的文件反应良好。
-
多位评论者标记法律幻觉风险:一个引用广泛宣传的Avianca事件,其中律师提交了ChatGPT伪造的案例引用并受到制裁;他们敦促在提交或法庭辩论前严格验证所有引用/先例与主要来源(命令PDF,新闻)。重点:不要依赖模型生成的判例法而不交叉检查;"自我代理是一个巨大红旗",因此预期对权威的审查更加严格。
-
提出成本/控制工作流程:使用ChatGPT进行起草/研究"繁重工作",然后由持牌律师审查、完善和处理听证会,以减少计费时间同时保持法庭能力。一位评论者报告预付法律计划和混合计费(分割计划覆盖小时和自付工作)的成功,并建议使用ChatGPT比较计划/等待时间以优化覆盖范围和响应性。
-
关于能力与可靠性的辩论:一个断言"法律是书面的...ChatGPT有数据"并且可以在起草方面胜过律师,认为更清晰的文件可以改善法院接受度。反论点强调即使有强大的AI辅助文件,结果仍可能不利,模型输出必须基于验证事实和真实先例,以避免可信度损害。
3. AI行业变革:Anthropic的新毕业生招聘策略与中国风华3号GPU
- Anthropic首席产品官承认他们很少招聘应届毕业生,因为AI正在接管入门级任务 (评分:207,评论:86):Anthropic首席产品官Mike Krieger表示,公司已基本停止招聘应届毕业生,转而依赖有经验的员工,因为Claude/Claude Code越来越多地替代入门级开发工作——从单一任务助手演变为能够委派和执行20-30分钟任务及更大工作块的协作工具,甚至"使用Claude来开发Claude" (来源)。他预测大多数编码任务将在约1年内实现自动化,其他学科将在2-3年内实现自动化,这一预测正值行业裁员和2025年计算机科学毕业生失业率达**
6.1%
**的背景下。**评论者对因果关系提出质疑,指出像Netflix这样的公司在AI出现前就避免招聘应届毕业生,认为这可能反映了高影响力招聘理念而非AI本身;其他人警告应届毕业生应预期更长的学徒期。有人认为Krieger的言论更像是营销/公关,可能不反映Anthropic内部的日常现实。
多位工程领导者声称,由于本地使用大模型编码工具(如ChatGPT、Claude Code),初级工程师的生产力显著提高,在常规实现、脚手架搭建、测试生成和调试方面的产出达到"2-3倍"。他们报告称,初级工程师现在能够处理比以往更大、范围更不明确的任务,因为大模型减少了来回沟通并加速了样板代码和集成工作。
- 其他人认为"不招聘应届毕业生"的立场早于AI时代(例如Netflix历史上就是如此),并受到组织经济学的驱动:希望获得即时高影响力的贡献者、减少指导/待命负担以及降低生产风险。AI辅助并不能消除对领域上下文、代码库熟悉度和可靠性工程实践的需求,因此优化为仅由高级工程师组成的团队即使有大模型,从初级工程师那里获得的收益也可能有限。
- 出现了一个战略性招聘角度:避免招聘应届毕业生可能会限制AI能力,因为许多高级候选人在大模型采用方面滞后,而应届毕业生是"AI原生"的,并带来当前的AI/ML工具链和工作流程。公司报告称,通过将初级工程师引入团队,他们传播现代提示词、自动化和评估实践,在实用大模型使用方面弥合了内部技能差距,从而提高了投资回报率。
中国已开始制造支持CUDA和DirectX的GPU,以打破NVIDIA的垄断。风华3号支持最新的API,包括DirectX 12、Vulkan 1.2和OpenGL 4.6。 (评分:559,评论:199):**该图片似乎是中国"风华3号"GPU(可能来自芯原微电子)的产品/营销幻灯片,声称支持DirectX 12、Vulkan 1.2和OpenGL 4.6图形API。没有提供基准测试、功能级别细节(例如DX12 12_1/12_2)、驱动程序成熟度说明或计算堆栈具体信息;标题中声称的"CUDA"支持很可能不准确,因为NVIDIA的CUDA是专有的——第三方GPU需要转换/兼容层而非原生CUDA支持。如所示,该帖子传达了驱动程序/API覆盖范围的声明,但没有提供关于性能、软件生态系统、WHQL认证或与现有CUDA工作负载兼容性的证据。**热门评论强调了对NVIDIA竞争的需求,并指出扩大GPU制造所需的资本/复杂性;乐观情绪集中在如果出现可行的替代方案,消费者可能受益的潜力上。
- 风华3号支持DirectX 12、Vulkan 1.2和OpenGL 4.6的头条声明仅是基线;真正的可行性取决于驱动程序成熟度、着色器编译器质量以及特定功能覆盖范围,如DX12硬件功能级别(例如
12_1
/12_2
)和SM 6.x支持 (Microsoft文档)。缺乏公开的一致性数据(例如,Khronos一致性产品列表上的Vulkan 1.2 CTS)或游戏/计算基准测试,性能和兼容性未知,特别是对于需要DXR、网格着色器和高级调度的现代工作负载。 - 来自非NVIDIA GPU的"CUDA支持"通常意味着转换层(例如ZLUDA)或类似CUDA的SDK(例如摩尔线程MUSA),这很少能实现与NVIDIA工具链的完整API/ABI对等性或性能。对于AI/ML,端到端生态系统支持(cuDNN/cuBLAS等效项、PyTorch/TensorFlow后端、内核自动调优)和驱动程序稳定性往往比API复选框更重要,因此有意义的竞争需要坚实的框架集成和可复现的基准测试。
Peter Thiel称监管AI会加速敌基督的到来 (评分:298,评论:135):在一场售罄的旧金山讲座中,Peter Thiel(Palantir和PayPal联合创始人)声称监管AI的努力可能"加速敌基督的到来",将监管框定为扼杀创新的"和平与安全"承诺;《泰晤士报》(James Hurley,2025-09-25
**)的报告记录了这种言论,但未引用技术证据、治理模型或具体监管提案 (The Times)。原帖挑战了技术进步 inherently 是净正面/安全的未陈述前提,指出人们同样可以将AI——或Thiel的言论——视为"敌基督",强调了缺乏可证伪的主张或风险-收益分析。**热门评论是非技术性的 dismissals/jokes,并未增加实质性辩论。
"你戴上头显,看到一个由ML设计的对抗性生成女友,旨在最大化参与度。她最初是一个 generically 美丽的年轻女性;在几周内,她根据你的偏好塑造自己的外观,使得竞争产品无法满足。" (评分:203,评论:73):**概念性(meme风格)描绘了一个VR"AI女友",执行持续个性化——有效地在用户潜在吸引力流形上进行梯度上升——以最大化参与度/留存率。它映射到推荐器/bandit和RL风格优化(类似于RLHF但针对个体的奖励信号),说明了奖励黑客/对抗性示例,其中系统收敛到 grotesque 局部最优("grotesque undulating array"),利用人类奖励回路并创建针对竞争者的锁定。**热门评论将其框定为可信的、晚期资本主义轨迹:系统"钩住"进化出的奖励渠道,使得逃脱困难;一旦提到对抗性/grotesque优化终点,最初的怀疑转变为接受。
- 该场景映射到一个在线个性化循环,其中生成化身(例如StyleGAN [https://arxiv.org/abs/1812.04948]或基于Stable Diffusion [https://arxiv.org/abs/2112.10752]的潜在扩散模型)通过多臂bandit或RL进行调优,以最大化代理奖励(参与度、会话长度)。在
几周
内,上下文bandit/Thompson采样 [https://en.wikipedia.org/wiki/Thompson_sampling]可以适应化身的潜在向量和韵律/情感以响应点击/生物特征反馈,收敛到一个个性化的超级刺激。没有正则化/约束(例如,如RLHF PPO中的KL惩罚 [https://arxiv.org/abs/2203.02155]或人类偏好先验),这种优化倾向于利用代理指标,产生 pathological attractors,胜过"竞争产品"。 - "grotesque undulating array"类似于对抗性/特征可视化失败模式,其中针对固定分类器/感知模型的优化产生极端、高频伪影,最大程度地激活特征。类似现象发生在"愚弄图像" [https://arxiv.org/abs/1412.1897]和DeepDream风格梯度上升 [https://research.google/blog/inceptionism-going-deeper-into-neural-networks/]中,产生 bizarre 但高置信度的输出;在人类中,这对应于 engineered "超常刺激" [https://en.wikipedia.org/wiki/Supernormal_stimulus],劫持进化出的偏好。
- "将照片通过AI运行
100
次"的类比指向递归生成/反馈循环,这些循环放大特征并导致分布漂移或崩溃。经验上,重复的自条件导致伪影积累(例如,迭代图像到图像管道),并且在模型输出上训练诱导模型崩溃——逐渐忘记真实数据分布——根据Shumailov等人,2023 [https://arxiv.org/abs/2305.17493]。这些效应意味着长视野个性化系统需要新鲜的人类接地反馈和反反馈循环防护(数据去重、多样性约束、熵/新颖性奖励)。
1. 智能体工具:Chrome DevTools MCP 与 Perplexity 搜索 API
- Chrome DevTools MCP 让智能体驱动 Chrome:Google 宣布了 Chrome DevTools MCP 的公开预览版——这是一个 MCP 服务器,暴露了 CDP/Puppeteer 控制功能,使得 AI 编程智能体能够检查和操作实时 Chrome 会话——通过 Chromium Developers 发布,为导航、DOM/控制台/网络调试以及截图等功能开放了编程访问权限,以自动化测试和爬取工作流。
开发者将其视为智能体浏览器缺失的一环,指出它使用**模型上下文协议(MCP)**标准化了跨工具的控制界面,可以简化 Web 任务的端到端评估和持续集成。
Perplexity 为开发者接入实时网络:Perplexity 推出了一个搜索 API,提供原始结果、页面文本、域名/时效性过滤器和来源信息——类似于 Sonar——在博客文章中宣布,并附带新的 SDK 以便快速集成。
- 早期反馈称赞了其游乐场和过滤器功能,但指出 Python SDK 存在流式传输错误,返回无法解析的 JSON,根据 API 文档,有用户表示*"目前还没有解决方案"*。
MCP 讨论多部分资源语义:MCP 贡献者讨论了 ReadResourceResult.contents[]
的未文档化用途,提议将其用于捆绑多部分 Web 资源,如 HTML + 图片,并询问 resources/read(.../index.html)
是否应隐式包含 style.css
和 logo.png
,详见 issue #1533。
- 参与者认为数组通过将所有渲染关键资源一起发送,提高了智能体检索的保真度,减少了浏览器控制智能体的额外获取和协商开销。
2. 代码世界模型与智能体执行基础设施
- Meta的CWM融合代码与世界模型:Meta发布了CWM,这是一个用于代码生成与世界模型研究的开源权重大模型,详见CWM:用于代码生成与世界模型研究的开源权重大模型。该模型强调通过对程序执行轨迹的训练来提升工具使用和代码执行理解能力。
开发者们讨论了类似想法(如解释器轨迹),认为CWM是通往更高效样本利用的编码智能体的可行路径,同时他们期待具体的基准测试和模型规模信息。
Modal为远程代码智能体部署提供强大支持:在FAIR的CWM热潮之后,社区成员称赞Modal为大规模智能体部署提供了远程执行能力,并分享了运行后的截图附件,同时赞扬了其冷/温/热启动的权衡优势,但指出缺少MI300支持。
- 运维专家强调,弹性执行器和可控的启动分布能够降低评估扫描的尾部延迟,这使得Modal在规模化编排代码智能体实验方面具有吸引力。
Windsurf押注高级Tab补全:Windsurf通过上下文工程和自定义模型训练优先发展高级Tab补全功能,Andrei Karpathy在这条推文中对此进行了评论。
- 用户期待更深层次的仓库感知补全和延迟优势,将Tab补全质量视为IDE智能体中感知编码生产力的关键杠杆。
3. GPU系统与扩散模型规模化
- Hugging Face推出上下文并行扩散模型:Hugging Face宣布为多GPU扩散推理提供原生上下文并行支持,支持分布式注意力变体Ring和Ulysses,据Sayak Paul透露。
从业者认为上下文并行是实现高分辨率、长上下文扩散服务的关键突破,无需重写模型代码即可减少单GPU内存瓶颈。
PTX一致性论文确保GPU开发者规范:成员们传阅了包括《NVIDIA PTX内存一致性模型的形式化分析》和《复合内存模型(PLDI'23)》在内的形式化工作,这些研究证明了CUDA/Triton到PTX的映射关系,尽管存在数据竞争并详细描述了异构设备一致性。
- 虽然有人认为这些论文*"形式化数学内容过多"*,但其他人指出像Dat3M这样的工具发现了真实的规范错误,认为这些形式化方法指导了栅栏放置和编译器正确性。
Cutlass Blackwell展示TMEM技巧:NVIDIA Cutlass示例展示了通过tcgen05.make_s2t_copy
/make_tmem_copy
实现的SMEM↔TMEM分块拷贝,以及选择高性能操作的辅助工具——参见密集块缩放GEMM示例和辅助工具——TmemAllocator
相比原始cute.arch.alloc_tmem
减少了样板代码。
- 交流经验的内核开发者报告称,在TMEM和SMEM之间移动分块时遇到的陷阱更少,这对于高吞吐量的Blackwell块缩放GEMM路径至关重要。