AI 开发者日报 2025-08-14

OpenAI GPT-5产品更新、路由经济学与性能评估

@sama：GPT-5现已在ChatGPT中支持“自动/快速/思考”模式，其中GPT-5思考模式支持196k tokens，每周3,000条消息，超出部分将转至GPT-5思考mini模式。4o模式回归选择器；“显示更多模型”选项可展示o3/4.1/GPT-5 mini；4.5版本因GPU成本仍仅限Pro用户。此外，个性化调整功能即将推出。
通过路由实现盈利：多位观察者认为，真正的“GPT-5发布”是动态将请求路由至更便宜模型以降低计算成本的路由器（@dylan522p；@finbarrtimbers称“路由器将快速优化”）。@jefrankle指出，需要可靠的信号来优化路由决策。此外，Plus与Pro用户的“思考预算”似乎不同（@scaling01）。
服务差异的影响：对于GPT-OSS-120B，@jeremyphoward推荐Fireworks、DeepInfra和Together作为准确的主机服务。@giffmana称微软/亚马逊据称使用了较旧的vLLM默认设置和中等推理能力，导致质量较低和“>10%性能下降”的投诉（@nrehiew_称之为“欺诈”）。
性能评估快照：GPT-5在FrontierMath测试中以细微优势领先；@EpochAIResearch详细介绍了保留与非保留测试性能及“不可猜测”答案。在RooCode测试中，GPT-5比Sonnet 4慢55%，但成本低约40%（@scaling01）。

GPT‑OSS：基础模型提取、托管与底层工具

从推理模型中提取基础模型：@jxmnop 发布了从 OpenAI 推理检查点提取的 gpt‑oss‑20b‑base，并感谢了 @johnschulman2。下一步计划包括检查生成内容是否存在记忆问题、进行指令调优，并尝试 120B 版本（后续动态）。社区讨论提醒不要轻易将其称为“基础模型”，并建议通过扰动测试训练数据泄露问题（@eliebakouch、@florian_tramer、@OfirPress）。
托管与编排：gpt‑oss‑120B 在单个提示词中展示了强大的多工具流水线调用能力（@reach_vb）。开源堆栈的基础设施工作包括一个高吞吐量的训练/推理 PR，支持灵活注意力、复杂频率、分组 GEMM MoE 以及检查点转换器（@khoomeik）。

Anthropic：Opus 计划/Sonnet 执行、100 万上下文、提示词缓存、Humanloop

代码中的模型配对：Claude Code 现已正式支持“Opus 计划，Sonnet 执行”模式，通过 /model 路由将高层规划任务分配给 Opus 4.1，而任务执行则由 Sonnet 4 完成（@_catwu；@alexalbert__）。Sonnet 4 的上下文在 API 中扩展至 100 万 tokens（@claude_code）；提示词缓存的 TTL 现已正式发布为 1 小时（文档；@alexalbert__）。Cline 迅速添加了对 Sonnet-1M 的支持（@cline）。
团队动态：Humanloop 团队加入 Anthropic，以加速企业安全采用（@humanloop；@RazRazcle）。

DSPy 3.0 与提示词/黑盒优化器的崛起

DSPy 3.0 发布了 GRPO/RL 训练、SIMBA 和 GEPA 功能，其中 GEPA 被宣传为在提示词优化方面优于 RL（@CShorten30；@MaximeRivest）。开发者已经开始适配 GEPA（例如用于 Observable JS）（@LakshyAAAgrawal）。
生态系统动态：多语言 DSPy 移植、生产级智能流程应用，以及小型演示，如 完全本地的 Qwen 2.5 Omni 实时智能体（能看能说）… 通过做饭测试（评分：211，评论：22）：用户部署了一个完全本地的流程，使用 Qwen 2.5 Omni 模型作为实时智能体，逐帧处理网络摄像头视频输入，并在约 1 秒延迟内提供叠加的 AI 响应。实现中使用了开源的 Qwen 模型进行场景解析，亮点包括稳定的单轮对话和图像到文本的推理能力，但多轮对话的稳定性和幻觉率以及音频理解能力（除非输入非常清晰）存在明显不足。使用的代码库是 gabber-dev/gabber。有人询问了项目中使用的 Omni 模型的具体变体（尤其是是否为 GGUF 格式），但未深入讨论实现或基准测试。
一位用户专门询问了项目中使用的 Omni 模型变体，是否为 GGUF 格式，这对于本地部署和量化推理引擎的兼容性非常重要。
另一条评论直接提供了 GitHub 仓库链接（gabber-dev/gabber），方便有兴趣的人查看源代码和技术实现细节。
一条评论赞扬了未包含 LiveKit 代码编辑器的决定，认为这是一个明智的设计选择，可能与安全性或极简主义有关。评论者还建议 LiveKit 应资助此类努力，表明了对技术价值或新颖性的认可。

2. gpt-oss-120B 模型的基准测试与局限性

gpt-oss-120B 是原生精度下适合 H100 的最智能模型（评分：305，评论：218）：图片展示了一个散点图，比较了多种 AI 语言模型的‘人工分析智能指数’（模型评估的代理指标）和‘推理时的活跃参数量’（对数尺度），特别强调了 gpt-oss-120B 模型。图中指出，gpt-oss-120B 据称是‘原生精度下适合 H100 GPU 的最智能模型’，占据了有利位置（高智能指数，中等参数量）。分析暗示了智能与推理资源使用之间的权衡，倾向于像 gpt-oss-120B 这样平衡两者的模型。图片链接。技术评论者对‘原生精度’（4 位量化）的表述提出质疑，指出其他 4 位量化模型的性能更具竞争力，并警告不要被营销噱头迷惑。一位评论者要求直接比较 gpt-oss-20B 和 Ernie 4.5 21B 的基准测试，凸显了当前模型比较的不足。
对基于‘原生’精度的广告宣传存在怀疑，因为 gpt-oss-120B 的 4 位量化运行方式并不独特；多位评论者指出，其他 4 位量化模型的性能更优，因此‘原生量化’并不具备固有优势。
技术上相关的一个遗漏是缺乏 gpt-oss-20B 和 Ernie 4.5 21B 的基准测试比较，尽管这些模型的活跃和总参数量相近。准确的性能比较需要并排基准测试。
Qwen3 30B 模型在现有评估图表中表现优于 gpt-oss-20B，这让人对 gpt-oss-20B 在消费级 GPU 上的领先智能宣称产生怀疑。

安全剧场的巅峰：gpt-oss-120b 拒绝讨论在 llama.cpp 中实现网络搜索（评分：251，评论：63）：图片展示了 gpt-oss-120B 模型的一个显著‘安全拒绝’行为，模型拒绝提供在 llama.cpp 中添加网络搜索的指令，理由是政策限制。评论中的技术讨论指出，这种审查行为可以通过调整推理参数来缓解——具体来说，将‘temperature’提高到 1.0，并使用‘Top_K=0’或‘Top_K=100’与‘Top_P=1.0’，这会促使模型不再拒绝回答。这表明拒绝行为并非硬编码，而是源于采样策略，可能反映了模型输出分布中突出的训练标记。评论者讨论了这种拒绝行为的含义，一些人指出只需调整参数即可绕过——这是许多所谓‘审查’模型的共同特征。其他人则担心，过度加权的拒绝标记可能反映了训练或微调过程中的问题选择。

调整推理设置（如 Temperature: 1.0, Top_K: 0/100, Top_P: 1.0）可以缓解 gpt-oss-120b 的拒绝行为，表明许多‘审查’模型可以通过调整采样参数‘去审查’，而无需重新训练或破解模型。
在 Ollama 中使用 gpt-oss-120b（原生 MXFP4 量化）的详细复现显示无拒绝行为，并完整展示了如何在 llama.cpp 中实现网络搜索，包括：使用外部搜索 API（SerpAPI、Google、Bing 等）、检索增强生成（RAG）流程、利用 LangChain 和 llama_server 等包装器，并提供示例代码和潜在陷阱，表明拒绝行为可能与环境或量化方式有关，而非模型权重本身。
评论中的辩论指出，如果较低的温度（更高的确定性）导致模型默认拒绝回答，可能表明拒绝行为在微调中被过度强化，或拒绝标记在输出中过于常见——这引发了关于实际使用和通过采样技巧‘去审查’的稳健性的担忧。

3. Nano-banana 文本到图像模型发布

新文本到图像模型 nano-banana 发布（评分：262，评论：53）：帖子介绍了一个名为‘nano-banana’的新文本到图像模型，并通过示例展示了其能力：从部分（眼部水平）图像输入重建完整人脸。图片显示，模型输出了一个与部分输入特征一致的高保真肖像，表明其具备强大的图像补全或修复能力。评论者猜测其在图像编辑中的应用，提到了基于提示词的转换任务，并与 Gemini 驱动的图像生成进行了幽默对比。评论者讨论了该模型是否与 Gemini 的图像生成相关，有人指出它非常适合高级图像编辑任务——尤其是基于提示词的角色或风格转换。
一位评论者指出，nano-banana 模型在图像编辑场景中表现优异，引用了一个示例，提示词成功将描绘的角色转换为《尼尔：自动人形》中的 2B 和《光环》中的士官长，表明该模型能很好地处理复杂的文本到图像请求（见示例图片）。
有人直接询问该模型是否开源或开放权重，这对社区研究和进一步开发非常重要，但帖子中未得到回答。

AI社区热议：OpenAI、Gemini与隐私争议

以下是关于AI领域最新动态的Reddit社区讨论摘要：

1. OpenAI GPT-5与ChatGPT功能更新

GPT-5模式选择：ChatGPT新增了三种模式——Auto（自动平衡速度与深度）、Fast（优先响应速度）和Thinking（深度思考模式，支持196k上下文窗口）。付费用户每周可使用3000次Thinking模式。
模型选择器回归：用户现在可以手动选择模型，包括GPT-4o、GPT-4.1等，部分用户认为这是对之前自动路由系统不满的回应。
用户反馈：社区对模型选择的灵活性和透明性表示赞赏，但也有人质疑GPT-5的“3000次/周”限制是否实际有用。

2. Gemini与Wan 2.2模型发布

Gemini Advanced记忆功能：Google推出持久记忆功能，支持临时聊天，用户可更灵活地控制会话状态。
Wan 2.2的身体类型实验：用户测试了Wan 2.2模型生成不同体型图像的能力，发现模型对“瘦”和“胖”之间的区分不够明显。
性能优化：社区分享了Wan 2.2视频生成的工作流优化，但指出慢动作输出问题尚未解决。

3. AI身份与隐私争议

Faceseek工具：一款高精度人脸识别工具引发隐私担忧，用户质疑其数据来源和潜在滥用风险。
人脸识别安全性：讨论认为，人脸识别模型缺乏意图判断能力，其安全性需依赖外部政策和监管。