AI 开发者日报 2025-10-07
OpenAI推出多项重磅更新:ChatGPT成为应用平台,支持嵌入Canva、Figma等应用;Agent工具简化AI助手开发;GPT-5 Pro专注复杂推理,语音模型成本降70%;Sora 2开放API,支持视频生成与声音功能。中国开源模型GLM、Qwen和DeepSeek表现突出,提供媲美GPT的能力且完全开源。Figure机器人在宝马生产线稳定运行,人形机器人实现工业突破。开发工具LM Studio提升本地模型集成,Wi-Fi分布式推理实验取得进展。AI开发日益民主化,开发者拥有更多云端与本地选择。
OpenAI DevDay 产品/API/SDK 发布
- 50分钟 Sam Altman 开场主题演讲:https://www.youtube.com/watch?v=hS1YqcewH0c&t=1382s
- 1小时 OpenAI 播客与 Andrew Mayne:https://www.youtube.com/watch?v=QIdUllqmuls
- 网站:https://openai.com/devday
- 在 ChatGPT 中引入应用和新的 Apps SDK(博客):https://openai.com/index/introducing-apps-in-chatgpt
Apps SDK(文档):https://developers.openai.com/apps-sdk
- 1分钟 YouTube 预告片:https://www.youtube.com/watch?v=2C4Cs6503gw
引入 AgentKit(博客):https://openai.com/index/introducing-agentkit
- 5分钟 Agent Builder 介绍:https://www.youtube.com/watch?v=44eFf-tRiSg
- Agents(文档):https://platform.openai.com/docs/guides/agents/agent-builder
- ChatKit Studio(应用):https://chatkit.studio/(游乐场、小部件构建器、演示)
- ChatKit 文档:https://platform.openai.com/docs/guides/chatkit
- ChatKit Python:https://openai.github.io/chatkit-python/
- ChatKit JS:https://openai.github.io/chatkit-js/
- Guardrails(文档):https://guardrails.openai.com/docs
- Evals(文档):http://platform.openai.com/docs/guides/evaluation-getting-started
Codex 现已全面可用(博客):https://openai.com/index/codex-now-generally-available
- Codex SDK(文档):https://developers.openai.com/codex/sdk
服务健康仪表板:https://platform.openai.com/settings/organization/service-health GitHub 项目:https://github.com/orgs/openai/repositories?q=apps-sdk+OR+chatkit+OR+guardrails(apps、chatkit、guardrails)
新模型发布
- gpt-5 pro (模型): https://platform.openai.com/docs/models/gpt-5-pro
- gpt-realtime-mini-2025-10-06 (模型): https://platform.openai.com/docs/models/gpt-realtime-mini (价格降低70%)
- gpt-audio-mini-2025-10-06 (模型): https://platform.openai.com/docs/models/gpt-audio-mini
- gpt-image-1-mini (模型): https://platform.openai.com/docs/models/gpt-image-1-mini (价格降低80%)
- 使用Sora进行视频生成 (文档): https://platform.openai.com/docs/guides/video-generation
- Sora 2: 提示词指南 (cookbook): https://github.com/openai/openai-cookbook/blob/16686d05abf16db88aef8815ebde5c46c9a1282a/examples/sora/sora2_prompting_guide.ipynb#L7
- sora-2 (模型): https://platform.openai.com/docs/models/sora-2
- sora-2-pro (模型): https://platform.openai.com/docs/models/sora-2-pro
OpenAI DevDay:Apps SDK、AgentKit、Codex GA、GPT-5 Pro 和 Sora 2 API
-
OpenAI 将 ChatGPT 转变为一个应用平台。新的 Apps SDK(基于 MCP 构建)让合作伙伴能够将完整的交互式应用直接嵌入 ChatGPT,具备自定义 UI、操作以及即将推出的货币化功能。早期合作伙伴包括 Canva、Figma、Zillow 和 Coursera。查看 OpenAI 主题演讲中的发布和现场演示:ChatGPT 内部应用 @OpenAI、SDK 预览 @OpenAIDevs 以及 "DevDay 发布" 汇总 @edwinarbus。
-
AgentKit 是 OpenAI 的端到端智能体堆栈——可视化 Agent Builder、ChatKit UI、Guardrails、Evals 和 Connectors——用于构建、部署和强化生产级智能体。现场演示中,OpenAI 在不到 8 分钟内构建了一个可工作的智能体 @gdb。文档和公告:AgentKit、博客。值得注意的是,内置的提示词优化器与社区最佳实践(如 GEPA)保持一致 @dbreunig。
-
Codex 现已正式发布,提供 SDK、Slack 集成以及用于代码审查和 CLI/IDE 工作流程的企业控制/分析功能(GA 公告)。现场演示展示了使用 Codex 进行语音+控制器驱动的编程 @gdb。团队称赞 Codex 提升了发布速度(在某些内部构建中,80% 的 PR 由 Codex 编写)@stevenheidel。
-
新模型/API 和规模统计数据:
GPT-5 Pro 已加入 API,用于更复杂的推理任务;现场和社区观察者分享了定价:每 100 万 token 输入 15 美元 / 输出 120 美元 @OpenAIDevs、@scaling01。
-
gpt-realtime-mini 提供语音到语音功能,成本比 gpt-realtime 低约 70% @juberti。
-
Sora 2 和 Sora 2 Pro 现已可通过 API 访问(支持声音、混音、时长控制)。定价示例:Sora 2 为 0.10 美元/秒(720p);Pro 版本为 0.30 美元/秒(720p)/ 0.50 美元/秒(1024p)@scaling01。美泰公司已在将 Sora 2 用于草图到概念循环 @gdb。
-
平台指标:400 万开发者,8 亿周活跃 ChatGPT 用户,API 每分钟处理超过 60 亿 token @kevinweil、@nickaturley。新的服务健康仪表板和优先层级,GPT-5 响应速度提升约 40% @OpenAIDevs。
计算与推理基础设施:OpenAI与AMD合作、NVIDIA技术栈和vLLM进展
-
OpenAI与AMD宣布了一项多年计划,将部署6 GW的Instinct GPU,AMD向OpenAI发行了最多1.6亿股的认股权证,这些股权将在部署/价格里程碑时归属。消息公布后AMD股价上涨;OpenAI强调这是对现有NVIDIA采购的补充 @sama, @LisaSu, @TheRundownAI, @gdb。
-
NVIDIA的B200现在可在Hugging Face Inference Endpoints上使用 @ClementDelangue。NVIDIA的TensorRT-LLM达到v1.0版本,具有PyTorch原生核心、CUDA Graphs、推测解码和GB200支持——现在可服务Llama3、DeepSeek V3/R1、Qwen3等模型 @ZhihuFrontier。
-
vLLM继续支撑前沿的强化学习循环(例如,具有实时权重更新和陈旧KV缓存混合的PipelineRL) @vllm_project, @DBahdanau。
中国模型爆发:Qwen3-VL、GLM-4.6、Hunyuan
-
Qwen发布了Qwen3-VL-30B-A3B(指令与思考版本):采用MoE架构,约30亿活跃参数,支持256K至100万上下文长度,多语言支持(32种语言),目标是与GPT-5-Mini/Claude Sonnet对标,并提供FP8变体。提供聊天、GitHub/教程、API、ModelScope、Hugging Face等多种形式,还有实时HF空间@Alibaba_Qwen、HF演示。Nexa特别强调了Day-0 MLX支持@nexa_ai。
-
智谱的GLM-4.6目前在LMArena中排名开源模型第一,总体排名第四,即使没有"风格控制"也表现强劲@arena、@jietang。生产状态:由于CPU服务器遭受攻击,z.ai短暂中断(现已恢复)@Zai_org。从业者认为GLM-4.5/4.6是Claude风格的高价值替代品,具有宽松的限制和低成本@Tim_Dettmers。
-
腾讯的HunyuanImage 3.0跃升至T2I Arena总体排名第一和开源排名第一,取代了之前的领先者@arena、@TencentHunyuan。Hunyuan Vision 1.5 Thinking进入Vision Arena并列第三@arena。
强化学习与后训练:LoRA胜出、抽象化、带RL信号的预训练
-
LoRA在强化学习中持续赢得关注。John Schulman强调了多个复现案例,其中LoRA rank=1在各类RL设置中与完整微调效果相当;TRL发布了"无遗憾LoRA"参考复现 @johnschulman2, @ClementDelangue。相关讨论深入剖析了为何RL更新存在于低维子空间中(这对LoRA有利)@nrehiew_。
-
RLAD(带抽象与演绎的强化学习)将"如何推理"(简短自然语言提示)与"如何回答"分离开来。报告的性能提升包括:相比长链思维基线,AIME 2024提升+11%、AIME 2025提升+9%,相比标准长链方法提升约44%,同时保持相同或更低的序列计算预算 @TheTuringPost。
-
NVIDIA的RLP(将强化学习作为预训练)将思维链视为动作,在预训练期间使用无需验证器的密集奖励,在数学/科学任务上报告了显著收益:在8个基准测试中,Qwen3-1.7B-Base提升+24%,Nemotron-Nano-12B-Base提升+43% @ahatamiz1。
-
RL基础设施正在快速发展:基于vLLM的PipelineRL支持带KV重用的实时更新 @vllm_project;算法方差缩减应用于矩阵优化器(Muon上的MARS-M)@YIFENGLIU_AI。RL趋势和基础知识的精选内容:TD学习讲解 @TheTuringPost,新兴RL趋势列表 @TheTuringPost,GAIN-RL数据课程加速 @DeepLearningAI。
超越OpenAI的智能体、评估与工具生态
- Anthropic开源了Petri,这是一个场景驱动的对齐审计工具包,已在内部使用4.5年进行对齐测试(包括奉承性、欺骗性等),现已被AISec研究所采用用于外部评估 @AnthropicAI, @sleepinyourhat。
- Google DeepMind的CodeMender智能体已向主要开源代码库上游提交了72个被接受的安全修复;详细研究即将发布 @GoogleDeepMind, @ralucaadapopa。
- LangChain推出了精选的LangGraph.js图库和与SingleStore集成的智能体教程 @LangChainAI, @LangChainAI。Comet继续推进用于长格式媒体分析的“AI浏览器”工作流 @AravSrinivas。
- 平台动态:Yupp新增了GPT-5 Pro和Qwen3-VL-30B-A3B模型,并提供“帮我选择”评估摘要 @yupp_ai。
具身AI与视频生成技术进展
-
特斯拉的Optimus机器人能力持续快速提升——现在正在"学习功夫"——领导层暗示将统一自动驾驶和人形机器人技术栈 @elonmusk, @aelluswamy。Figure报告其机器人在宝马X3生产线上进行了五个月、每天10小时的人形机器人操作(视频声称展示了2050年水平的演示;运营更新 @adcock_brett)。
-
长视频扩散模型扩展:字节跳动的Self‑Forcing++技术无需长视频教师模型即可生成长达4分15秒的视频,同时保持保真度和一致性 @HuggingPapers。Synthesia 3.0推出具有头像/语音同步功能的交互式"视频代理",用于培训和支持 @lax97981。
-
Sora 2安全控制:增加了客串所有者限制、更清晰的水印和审核调整;账户解绑修复已上线 @billpeeb, @turtlesoupy。Sora 2/2 Pro现已加入API(见上文)。
热门推文(按互动量排名)
- 特斯拉Optimus "学习功夫"演示 @elonmusk
- "你现在可以在ChatGPT中与应用聊天了" @OpenAI
- Sora更新线程(Sam Altman)@sama
- Figure:在宝马X3生产线上的5个月 @adcock_brett
- Anthropic的帽子/书籍快闪活动 @signulll
/r/LocalLlama + /r/localLLM 回顾
社区提供商感谢帖(图片)
- 当前社区最大的提供商感谢他们(活跃度:2530):非技术性表情包帖子赞扬中国的大模型提供商——GLM(智谱AI/THUDM)、阿里的Qwen和DeepSeek——作为当前社区最大的贡献者,提供能力强大的模型和低成本访问,与更封闭、成本更高的西方产品形成对比。评论中的背景将这些团队定位为民主化AI访问,与OpenAI历史上不透明的做法和产品化形成对比;帖子中没有提供基准测试或实现细节。 热门评论称赞GLM/Qwen/DeepSeek为“给人类的礼物”,认为OpenAI以安全为名优先考虑保密性,并声称如果没有这些提供商,开发者将需要为类似GPT的访问支付显著更高的费用。
评论者强调中国的开源权重模型系列——GLM(THUDM/智谱AI)、Qwen(阿里巴巴)和DeepSeek——作为当前社区的主力军,得益于权重发布、详细的模型卡和具有竞争力的基准测试。它们经常在社区排行榜(MMLU/GSM8K/HumanEval)上被引用为闭源API的强大开源替代品;参见Open LLM排行榜:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 以及GLM(https://github.com/THUDM/ChatGLM3)、Qwen(https://github.com/QwenLM/Qwen2.5)和DeepSeek(https://huggingface.co/deepseek-ai)的模型中心。
-
一个反复出现的技术主题是成本和部署:自托管
7B–14B
模型(通常为4位/8位量化)可以在消费级GPU上运行,使用~8–24 GB
显存,通过vLLM(https://github.com/vllm-project/vllm)或llama.cpp(https://github.com/ggerganov/llama.cpp)等运行时,避免按token计费的API费用。这使得可预测的总拥有成本、离线/边缘部署以及定制化的护栏/微调流水线成为可能,这些在专有层级(例如GPT‑3.5/4)上将是成本高昂的。 -
对OpenAI的封闭发布实践(自GPT‑3以来有限的训练细节)存在技术批评,与这些团队的开放性(权重、训练/评估配方、推理栈)形成对比,后者使得独立基准测试和可复现性成为可能。参考资料:Qwen文档/论文和模型卡(https://huggingface.co/Qwen)、DeepSeek发布(https://github.com/deepseek-ai)以及GLM/ChatGLM资源(https://huggingface.co/THUDM)。
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
1. DeepMind Codemender与Gemini 3工具调用更新
- Google DeepMind推出新型AI代码安全代理Codemender,能够自动发现并修复代码漏洞,已在主要开源项目中提交了72个高质量修复补丁(尚未公开访问,但即将推出)(活动量:396):Google DeepMind宣布推出CodeMender,这是一款AI代码安全代理,能够自主检测代码库中的漏洞并提议/提交修复补丁,声称已为大型开源项目贡献了
72
个高质量补丁;目前尚未公开访问(博客文章)。提供的链接内容仅包含网站导航,因此关于模型系列、训练/评估数据集、支持语言、漏洞类别、CI/CD集成、审查工作流以及安全/防护机制的具体信息在此输入中未披露。 热门评论质疑此类代理是否会在组织工作流中持续运行,指出其对人为因素风险(如凭证管理)的限制,并对过度干预/误报(例如删除.env/密钥文件)表示担忧,暗示需要严格的范围界定、防护措施和审查门控的自动化。
参与者指出,代码修复代理无法解决更广泛的操作安全风险:即使完美的静态/动态修复也无法阻止通过不良实践(如便签上的密码、网络摄像头暴露)导致的凭证泄露。这强调了在自动化漏洞修复代理之外,还需要深度防御(密钥管理、最小权限访问、终端加固和用户培训)。
- 对自动修改代码库的怀疑凸显了严格防护措施的必要性:代理应通过拒绝/允许列表避免接触敏感文件(如.env),在补丁前后集成密钥扫描,并要求受保护分支、强制代码审查、试运行差异和轻松回滚,以防止破坏性更改或意外密钥暴露。
- 关于"持续运行"部署,评论者隐晦地提出了操作担忧:持续运行的代理应在PR时和/或计划扫描(每晚/每周)中集成,并配备速率限制、成本/治理控制、范围限定令牌和详细审计日志,以维护供应链完整性,同时最小化噪音和代码库变动。
Gemini 3将能够调用工具(活动量:533):该帖子声称"Gemini 3将能够调用工具",即支持结构化函数/工具调用以调用外部API并消费其输出——实现检索、代码执行和其他代理式操作。从技术上讲,这与现有LLM生态系统(具有类型化参数/类JSON模式和工具选择的函数调用接口)达到了基本对等,相比纯自由文本提示提高了可靠性和集成度。 评论者大多认为这是基础功能("如今这难道不是必备的吗"),部分人对帖子的严肃性表示怀疑,暗示该公告是琐碎的而非新颖的。
- "调用工具"指的是LLM发起的函数调用,模型选择工具名称并发出结构化参数(通常是JSON),运行时执行这些参数(如网络搜索、数据库查询、代码运行),返回结果供模型在后续轮次中整合——类似于ReAct式循环。这与OpenAI(文档)、Google Gemini(文档)和Anthropic Claude"工具使用"(文档)等其他堆栈中暴露的函数调用/工具能力相同。它实现了基础化、新鲜数据访问和超越纯文本生成的精确操作。
- 工具使用日益成为生产级LLM应用的基础,因为它支持RAG(检索/搜索)、计算器/编码器和集成(应用/API),显著减少幻觉并扩展能力。大多数竞争堆栈——GPT‑4/4o(助手API工具)、Claude 3.5(工具使用)和开源代理框架——都将工具调用视为一等公民,因此缺乏可靠的工具使用是竞争劣势。实践中,这取决于稳健的模式遵循、工具选择/路由和多步骤规划/执行的保真度。
- 几位评论者暗示Gemini在工具使用方面的历史可靠性弱于同行,指出诸如模式不匹配参数、错误工具选择和脆弱的多轮计划导致失败(如严格API的4xx错误)等问题。实践者通常通过更严格的JSON模式、验证、工具选择门控和分解计划来缓解,但据社区测试报告,开箱即用的成功率落后于GPT‑4o/Claude 3.5。如果"Gemini 3"改进了工具路由、参数形成和迭代规划,它可能在代理工作负载中缩小这一差距。
Gemini 3(活动量:503):标题为"Gemini 3"的帖子分享了一张图片(不可查看),根据讨论,内容围绕Gemini的工具使用能力和平台集成。评论者强调Gemini需要调用更广泛的外部工具/API,超越当前的Gemini应用沙箱,并将稳定性/一致性作为首要优先级,暗示在可靠性和生态系统广度方面存在差距。 显著的辩论澄清了"工具"的含义——是在设备上操作(手机)还是跨设备/桌面命令执行——至少有一位用户报告Gemini可以在笔记本电脑上执行命令,暗示工具支持不均匀或依赖于上下文。
- 对更广泛工具使用和开放互操作性的需求:评论者要求支持超越当前Gemini应用中有限的"操作",有人指出*"现在必须支持MCP兼容性"*。采用**模型上下文协议(MCP)**将实现供应商无关的工具、标准化发现/模式以及跨助手的权限/日志流,让Gemini能够利用其他生态系统支持的相同第三方能力(modelcontextprotocol.io、github)。这将减少插件碎片化,并更容易将文件系统、HTTP、代码和自定义企业工具作为统一服务器引入。
- 跨设备执行对等性和操作系统约束:一位用户报告Gemini可以"在我的笔记本电脑上执行命令"但在手机上受限,突显了平台差异。桌面代理可以利用原生应用、shell或浏览器扩展,而移动操作系统限制后台任务和跨应用自动化;弥合这一差距可能需要与Android Intents、iOS App Intents/Shortcuts、前台服务和本地RPC桥的深度集成,以将设备能力作为具有明确用户权限的工具暴露。清晰的权限管理和沙箱对于安全的设备上操作同时保持可靠性至关重要。
- 可靠性/一致性作为首要工程优先级:评论者强调"一致性和可靠性高于一切",这映射到具体目标,如工具调用成功率、端到端操作完成率和确定性规划。技术包括模式约束的函数调用、规划/工具选择的
temperature=0
、指数退避和超时的重试、幂等性令牌以及用于可审计性的结构化错误处理/日志记录。稳健的评估(如跨设备的操作成功率)和提示的缓存/稳定性可以显著减少方差和用户可见的不稳定性。
2. TTS语音口音投诉(苏格兰口音)
-
甚至没有尝试苏格兰口音。(活跃度:494):从标题和评论来看,这篇帖子展示了一个AI语音克隆系统用迈克尔·杰克逊风格的嗓音演绎与苏格兰口音相关的台词(很可能是《勇敢的心》中的"Freedom");该系统保留了MJ的音色和个人语言特征(例如"hee-hee"、"shamone"),但在口音转换方面失败了。这突显了零样本TTS/语音克隆的一个常见局限性:模型通常针对说话人身份和韵律进行优化,但在没有口音条件训练或微调的情况下,对区域口音的控制能力较弱(参见多说话人TTS如YourTTS或VALL-E)。 热门评论指出了MJ的风格化特征——"Free-hee-hee-dom"和"The SHAMOOOONE"——暗示模型捕捉到了风格化的说话方式,但遗漏了苏格兰口音,读者们觉得这很有趣而不是问题。
-
甚至没有尝试苏格兰口音。(活跃度:492):Reddit上链接的媒体(v.redd.it/qu1ek8f8jetf1)返回HTTP 403禁止访问的阻止页面,表明Reddit的CDN/网关需要经过身份验证的访问(OAuth或开发者凭证)才能获取资源。从标题和评论线索来看,该片段很可能展示了一个AI生成的迈克尔·杰克逊风格语音(语音克隆/VC或TTS)应用于苏格兰口音语境,但没有披露模型、流程或质量指标,且由于访问限制无法验证内容。 评论大多是非技术性的,表达了对"AI MJ"语音的娱乐性,并引用了MJ的嗓音特征(例如"hee-hee"、"shamone"),没有实质性的技术讨论。
3. AI社区情绪:表情包、氛围与审核争议
-
当前情绪 (活跃度:416):引用的Reddit帖子无法访问:请求返回HTTP 403 Forbidden("客户端被网络安全阻止"),表明需要身份验证;内容似乎是托管在v.redd.it的视频(https://v.redd.it/mgss3gugtitf1)。由于无法访问,无法提取技术细节、基准测试或实现说明;补救途径包括通过Reddit登录登录、使用开发者令牌或提交支持工单。 热门评论都是非技术性的:对在农场看到"这个"感兴趣、娱乐("我笑死了"),以及调侃这可能将"婴儿潮一代Facebook垃圾内容"推向新水平——暗示对扩展低质量自动生成内容的担忧。
-
未来会很精彩,男孩女孩们! (活跃度:629):链接到v.redd.it/hjy60pum5jtf1的媒体返回
HTTP 403 Forbidden
,表明在Reddit的身份验证层或边缘(CDN/WAF)强制执行访问控制,需要用户登录或开发者令牌才能检索资源。由于内容本身无法访问,唯一具体的技术收获是关于Reddit媒体CDN的交付和门控,而不是生成式AI的任何模型、基准测试或实现细节。 评论者推测生成式AI的使用将严重偏向娱乐/NSFW内容("50%表情包和50%色情内容"),并提出了关于历史制服准确性的问题("希特勒穿的是英国制服吗?"),暗示潜在的深度伪造/风格化;另一个人表达了悲观情绪("好吧,这是一段有趣的旅程")。没有提供技术证据或基准测试。 -
如果ChatGPT计划强制我们证明身份,他们最好在验证我们年满18岁后移除SFW"护栏" (活跃度:527):用户报告最近ChatGPT的SFW安全过滤器收紧,现在会阻止或锁定包含双方同意、虚构成人内容的现有线程;模型经常要求澄清然后拒绝,扰乱了之前可行的创意写作工作流程。OP提议如果OpenAI为ChatGPT添加身份/年龄验证(KYC),经过验证的18岁以上用户应该被允许绕过NSFW护栏——这与当前的OpenAI性内容安全规范相冲突,该规范不允许生成明确的性内容,无论用户年龄如何(参见:https://platform.openai.com/docs/guides/safety-specifications/sexual-content)。 评论者呼吁回滚或推出18岁以上"绕过"模式;有人称默认的"GPT-5"行为过于对齐且"无聊",另一个人认为这些限制不是为了保护未成年人。实质性的担忧是NSFW检测中误报率升高,破坏了先前线程的向后兼容性,并阻碍了合法的成人小说用例。
多位用户报告最近NSFW安全过滤器收紧,现在会触发多步"澄清"提示,然后拒绝,即使是针对明确的成人虚构角色。这种行为正在破坏迭代写作工作流程(例如,项目后"假设"场景生成),甚至将用户锁定在现有对话线程之外——表明平台级审核包装器发生了变化,而不是基础模型本身的限制。
- 一位评论者将"默认状态下的GPT-5"描述为极其受限,暗示默认系统提示词/安全层是创意/NSFW输出的瓶颈,而不是原始模型能力。这突出了底层模型与部署的、强制执行策略的配置之间的区别,其中默认的安全脚手架可以显著削弱生成质量。
- 提出了一个替代方案:使用Mistral的"Le Chat",声称在能力上类似于GPT-4o,同时在不同的(更宽松的)策略制度下运行,从而避免OpenAI的护栏。参考:Le Chat(https://chat.mistral.ai)和OpenAI的GPT-4o概述(https://openai.com/index/hello-gpt-4o/)。
社区最大的提供商感谢 (活跃度:1034):图片是一个表情包"感谢"帖子,暗示中国实验室通过开放权重发布成为当前开源AI社区的"最大提供商",例如阿里巴巴/Qwen(HF)、01.AI/Yi(HF)、DeepSeek(HF)和InternLM(HF)。来自评论的技术细微差别:这些是"开放权重",不是完全"免费/开源";许可证可能包含使用限制,下游生态系统支持(LoRA微调、工具)落后于流行的西方基础模型如PonyXL/Illustrious。 评论者争论"这不是免费的"(许可证细微差别),中国通过发布权重获得思想份额,而美国/欧盟公司保持封闭;其他人指出中国模型的社区LoRA很少,可能是由于硬件限制。
- 几位评论者澄清"免费"访问和开放权重发布是不同的:开放权重允许下载和本地使用/微调,但仍然施加计算成本,并可能有许可限制,与完全FOSS代码不同。实际上,开放权重支持离线推理、量化和LoRA训练——封闭API不提供这些好处——同时将成本转移到用户的硬件和电力上。这种细微差别通过支持社区基准测试和可重复性影响生态系统健康,即使运行模型不是免费的。
- 关于模型采用,中国开放模型的一个关键障碍是LoRA生态系统:用户注意到与PonyXL或Illustrious相比,社区LoRA更少,可能是由于XL规模微调的硬件限制。SDXL级LoRA训练通常推动消费级GPU;许多爱好者使用
8-12 GB VRAM
必须使用小批量大小或激进的内存优化,而更流畅的训练通常受益于>16-24 GB
。与有良好支持的生态系统相比,这减少了社区LoRA的数量/质量;像kohya-ss(https://github.com/bmaltais/kohya_ss)这样的工具有帮助,但XL模型仍然比SD1.5更资源密集。
Brett Adcock:"本周,Figure已在宝马X3车身车间生产线上运行了5个月。我们每天运行10小时,每个生产日都在运行!据信,Figure和宝马是世界上第一个用人形机器人做到这一点的。" (活跃度:1153):Brett Adcock报告称,Figure人形机器人已在宝马X3车身车间生产线上运行了 约5个月
,每天 约10小时
在每个生产日,声称是汽车制造中首次持续部署人形机器人。该帖子没有提供关于任务范围、MTBF/正常运行时间、错误率、安全事件或吞吐量影响的定量细节;引用的剪辑是访问受限的(视频,Figure)。 技术思维的评论者质疑在重复工作站选择人形形态因素与专用或轮式平台以及更简单的末端执行器相比,并指出10小时/天
与典型的工业机器人工作周期(通常是连续/24×7)相比是适度的,表明这可能仍然是一个有限或试点部署。其他人推测更广泛的采用时间表(例如,到2035年机器人"无处不在")。
- 形态因素辩论(人形 vs 轮式/专用):评论者质疑为什么重复、循环任务需要人形机器人,而固定机器人单元或轮式移动操纵器可能更简单、更可靠。突出的技术权衡是,人形机器人可以即插即用地适应人类设计的工作单元(可达范围、工具几何形状、夹具),并使用人类工具而无需重新装备,但腿和5指手增加了复杂性、成本和潜在故障模式;许多工厂任务可以由带有2或3指夹持器或平行爪末端执行器的轮式底座处理。隐含的优化问题是灵巧性/覆盖范围 vs 正常运行时间/MTBF和集成成本,人形机器人以更简单、更高可靠性的专用自动化为代价提供灵活性。
- 正常运行时间和工作周期怀疑论:
10小时/天
持续5个月
的说法引发了讨论,即工业机器人通常针对多班次或24/7
操作,因此限制在10小时可能反映了集成/安全约束、人类班次对齐、充电/热限制或可靠性烧录。技术思维的读者指出像OEE/MTBF/MTTR和平均干预间隔周期这样的指标比日历时间更有意义,建议需要关于干预频率、恢复时间和自主错误处理的数据来评估生产准备情况。 - 与现有工业机械臂机器人比较:在单元中已经有大量6自由度机械臂机器人的情况下,评论者询问人形机器人增加了什么独特价值。技术主题是固定机械臂机器人在高度约束、夹具任务(例如焊接、物料转移)方面表现出色,但在处理非结构化或可变子任务(临时处理、工具拾取、检查、电缆布线)时遇到困难,在这些任务中,类似人类的触及范围、姿势和多接触操作可以减少定制夹具和更换时间。权衡是专用单元的吞吐量和简单性与边缘情况或高混合/低产量工作的可重新配置性和较低重新装备成本。
1. Sora 2视频生成:演示、限制与反响
- 纪录片惊艳亮相,表情包疯狂传播:OpenAI发布了30秒的Sora 2短片《嘎嘎叫:第一部分 — OpenAI在X平台》(https://xcancel.com/OpenAI/status/1974158256013783365),引发了关于Sora 2创意保真度的热议,同时分享的邀请码FRIYAY也伴随着预告片一同发布。这次发布突显了AI视频生成的快速进展,通过一个精炼、适合制作表情包的短片,在紧凑的场景中测试了提示词到视频的一致性。
社区成员对快速提升的生成视频质量表示赞赏,并分享了与其他近期Sora 2片段的对比,比如@elder_plinius提到的低重力'宇航员骑马'搞笑片段(Sora 2 Pro的飞跃)。许多人将这次发布视为朝着更可靠的故事板遵循和电影化时机迈出的明显一步。
Sora一夜之间关闭IP大门:创作者报告称Sora 2中突然出现了提示词重写和对受版权内容的彻底禁止,引用Andrew Curran在X平台的说法,此前动漫测试看起来还很强大。这一转变限制了直接引用(例如命名系列),并迫使创作者使用描述性变通方法来处理受保护的角色和世界。
- 用户将这种体验描述为*"加速劣化"*,同时指出该模型现在积极清理提示词和输出,缩小了粉丝风格视频的创作空间。讨论集中在这些政策变化如何影响制作流程,以及仅基于风格的描述是否仍能通过审核。
2. 本地/边缘推理:LM Studio兼容性与DIY吞吐量优化
- LM Studio支持OpenAI v1响应格式:LM Studio 0.3.29版本新增了OpenAI /v1/responses兼容性,让期望标准OpenAI API格式的应用程序能够直接接入本地模型。该版本还推出了CLI助手
lms ls --variants
来列出本地模型变体,简化了多变体开发工作流程。
工程师们报告称,由于在终端中提供了强大的变体发现功能,与OpenAI风格客户端的即插即用集成更加顺畅,迭代速度也更快。这缩小了本地实验与假设**/v1/responses**语义的生产原型之间的差距。
Wi-Fi农场以23 tok/s速度运行GLM:一个设置通过Wi-Fi在3个节点上运行分布式推理,配备了8× RTX 3090显卡,在8位精度下对GLM 4.5 Air实现了约5.5k提示词处理和约23 tok/s的速度,使用的是通过OpenRouter/Z.ai提供的模型。操作者计划在零件到货后重新平衡到2个节点(4/4),以大致将吞吐量翻倍。
- 该报告强调了精心设计的分片、精度选择和互连如何能够经济地提升本地集群吞吐量。同时,它也凸显了GLM 4.5 Air作为分布式服务压力测试的可靠、速率限制友好的基准模型。