AI 开发者日报

专为中文开发者打造的 AI 技术日报,每日更新,提供文章和播客双重形式,用通俗语言解读前沿技术。 汇总 AI 开发领域的 X、Reddit 和 Discord 社区讨论,精选开发者值得关注的信息,支持 RSS 和邮件订阅。

订阅 AI 开发者日报,与顶尖开发者同步掌握 AI 最新动态

article cover image

AI 开发者日报 2026-04-29

vLLM 0.20版本通过TurboQuant 2-bit KV缓存和RMSNorm融合,将推理效率压榨到极致,B300比H200快8倍。Poolside Laguna XS.2和NVIDIA Nemotron 3 Nano Omni等开源模型成本优势明显,DeepSeek激进定价让闭源压力山大。智能体方面,Mistral推出Workflows编排层,Hermes框架在指令遵循上超越OpenClaw,ML Intern研究型智能体增强可观测性。部署优化上,Qwen 3.6 27B的Q4_K_M量化性价比最高,Luce DFlash投机解码框架在RTX 3090上提升吞吐量近2倍。安全警示:数百台LM Studio实例暴露公网无需API密钥访问。Anthropic Claude Code和GitHub Copilot涨价争议,GPT-5.5成本降至19.98美元但Token消耗惊人。谷歌与五角大楼AI协议引发内部争议,微软开源TRELLIS.2图像转3D模型。

vllmpoolsidenvidiaopensrouterlmstudioollamaunslothfalfireworksdeepinfra

推理系统、vLLM 0.20 与围绕 DeepSeek V4 的硬件/内核竞赛

  • vLLM 最新版本重点聚焦内存与 MoE 服务效率vLLM v0.20.0 带来了 TurboQuant 2-bit KV 缓存,可实现 4 倍 KV 容量;在 SM90+ 上重新启用了用于 MLA 预填充的 FA4;新增了 vLLM IR 基础架构;融合的 RMSNorm 据称可带来 2.1% 的端到端延迟改善;此外还扩展了对 Blackwell 上的 DeepSeek V4 MegaMoE、Jetson Thor、ROCm、Intel XPU 的支持,并简化了 GB200/Grace-Blackwell 的配置。与此同时,SemiAnalysis 重点介绍了在 B200/B300/H200/GB200 分离式架构上早期运行 DeepSeek V4 Pro 的推理结果,声称 B300 在此工作负载下比 H200 快 8 倍,并预告了即将推出的 vLLM 0.20 基准测试,该测试将采用 DeepGEMM MegaMoE,将 EP 分发 + EP 合并 + GEMM + SwiGLU 融合为单个超级内核。
  • 生态系统正趋向于为新的开源模型提供快速的 Day-0 支持vLLM 为 Poolside 的 Laguna XS.2 提供了 Day-0 支持,并分别为 Ling-2.6-flash 提供了支持;同时 vLLM 还为 NVIDIA 的 Nemotron 3 Nano Omni 发布了 Day-0 支持。在 vLLM 之外,多篇帖子聚焦于推理服务的权衡:Jeremy Howard 指出 DeepSeek V4 对预填充的支持是许多服务商已放弃的能力;而 Maharshi 则指出了动态激活量化的开销,认为尽管存在校准成本,静态量化在推理速度上通常更胜一筹。此外,对替代技术栈可移植性的兴趣也在增长:teortaxesTex 认为 DeepSeek 正通过 TileKernels 从结构上摆脱对 CUDA 的锁定,暗示模型供应商可能越来越多地针对异构或国产加速器集群进行优化,而非仅限 NVIDIA 部署。

开源模型发布:Poolside Laguna XS.2、NVIDIA Nemotron 3 Nano Omni 与 TRELLIS.2

  • Poolside 首次公开发布模型,推出了一款异常部署友好的开源代码模型@poolsideai 宣布发布 Laguna XS.2,这是一款 330亿参数总量 / 30亿活跃参数的 MoE 代码模型,完全由内部训练,采用 Apache 2.0 许可协议发布,号称可在 单张 GPU 上运行。Poolside 的完整发布 还包括 Laguna M.1 和一个智能体框架,强调该公司从头开始训练,使用了自有的 数据、训练基础设施、强化学习以及推理栈。社区总结提供了更多细节:Aymeric Roucher 描述了两款代码模型——2250亿/230亿活跃参数330亿/30亿活跃参数——采用 混合注意力机制FP8 KV 缓存,性能声称接近 Qwen-3.5Ollama 立即提供了支持。

  • NVIDIA 的 Nemotron 3 Nano Omni 是当天最大的基础设施原生模型发布@NVIDIAAI 推出了 Nemotron 3 Nano Omni,这是一款开源的 300亿参数 / A3B 多模态 MoE 模型,拥有 256K 上下文窗口,专为涵盖 文本、图像、视频、音频和文档 的智能体工作负载而设计。该模型在整个技术栈中立即得到分发:OpenRouterLM StudioOllamaUnslothfalFireworksDeepInfraTogetherBasetenCanonical 等均宣布同日可用。关键规格在后续帖子中披露:Piotr Żelasko 将其描述为 NVIDIA 首个 omni 版本,支持语音/音频理解,底层采用 Parakeet 编码器,目前仅支持 英文,在 Open ASR 排行榜上 WER 为 5.95%。多个平台声称其吞吐量是同类开源 omni 模型的 约 9 倍

  • 其他值得关注的模型/论文发布微软的 TRELLIS.2 是一个开源的 40亿参数图像转 3D 模型,可生成高达 1536³ 的 PBR 纹理资产,基于原生 3D VAE 构建,实现 16 倍空间压缩。在世界模型方面,World-R1 声称现有视频模型已经编码了 3D 结构,可以通过 强化学习 被“唤醒”,无需架构更改、无需额外视频训练数据、也无需增加推理成本

智能体:从本地优先工具到生产级编排

值得关注的基准测试、评估与研究进展

平台经济学、API定价与闭源模型可靠性隐忧

Codex 使用范围扩大OpenAI 团队暂时重置了所有付费计划的 Codex 速率限制,以激励更多基于 GPT-5.5 的开发。

AI治理与防御:谷歌五角大楼协议引发内部强烈反弹

Qwen 3.6 模型基准测试与性能分析

  • Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF 评估(活跃度:731):该图片展示了 Qwen 3.6 27B 模型在三种量化变体(BF16、Q4_K_M 和 Q8_0 GGUF)上的基准测试对比,使用 llama-cpp-python 和 Neo AI Engineer 进行评估。基准测试包括用于代码生成的 HumanEval、用于常识推理的 HellaSwag 以及用于函数调用的 BFCL。Q4_K_M 变体因其实际优势而脱颖而出:吞吐量比 BF16 提升 1.45 倍,峰值内存使用减少 48%,模型体积缩小 68.8%,同时函数调用得分几乎保持不变。尽管 HumanEval 准确率略有下降,但 Q4_K_M 被推荐用于本地/CPU 部署,除非需要最高质量,此时应选择 BF16。 评论者对跨量化变体的详细对比表示赞赏,但也有人对缺乏误差线和潜在的采样误差表示担忧,尤其是 Q8_0 模型的性能表现。有评论者希望将这些评估扩展到其他模型或规模,并请求提供完整的评估代码,因为有人怀疑 Q8_0 的结果可能存在问题,例如 KV 缓存可能被量化。

audioen 对 Qwen 3.6 27B BF16、Q4_K_M 和 Q8_0 GGUF 模型评估中缺乏误差线表示担忧。他们认为 Q4_K_M 性能优于 Q8_0 这种出人意料的排序可能是采样误差导致的,强调了基准测试过程中统计严谨性的重要性。

  • spaceman_ 和 Look_0ver_There 对 Q8_0 模型的性能表示怀疑,认为 KV 缓存的量化可能影响了结果。spaceman_ 请求获取评估所用的完整代码,以验证 KV 缓存是否被量化,因为这可能解释意外的性能下降。
  • One_Key_8127 指出 Qwen 3.6 27B 报告的 HumanEval 得分存在差异,认为根据与 Gemma 3 4B 和 Llama3-8b 等其他模型的对比,其得分应该显著更高。他们引用外部基准测试来支持自己的观点,认为当前结果可能不准确。

Luce DFlash:Qwen3.6-27B 在单张 RTX 3090 上实现高达 2 倍吞吐量(活跃度:982):Luce DFlash 是 Qwen3.6-27B 模型的一种新型投机解码实现,优化后可在单张 RTX 3090 GPU 上运行,基于 ggml 构建了独立的 C++/CUDA 栈。该方案在 HumanEval、GSM8K 和 Math500 等基准测试中,相比自回归解码实现了高达 1.98x 的吞吐量提升,且无需重新训练。系统采用了 DDTree 树验证投机解码、KV 缓存压缩和滑动窗口闪存注意力等先进技术来优化性能和内存使用,能够高效处理高达 256K token 的大上下文。评论者对本地 AI 推理领域的这一创新表示赞赏,认为其具有显著的加速潜力。不过,也有人担心量化对准确性的影响,特别是在编码或工具调用等对精度要求较高的场景中。

  • drrck82 强调了使用双 RTX 3090 GPU 运行 Qwen3.6-27B 的潜力,指出相比他们当前使用的 Q6_K_XL 设置,实现高达 2 倍吞吐量非常有吸引力。这表明本地 AI 推理性能有显著提升,尤其对于拥有高端硬件的用户而言。
  • Tiny_Arugula_5648 对量化对模型准确性的影响表示担忧,强调虽然吞吐量提升很吸引人,但可能并不适用于所有使用场景。他们警告说,重度量化可能导致显著的精度损失,尤其是在编码或工具调用等对精度要求较高的任务中。
  • Deep90 表示需要集中化的基准测试资源来应对日益增多的 AI 模型选择。这反映了社区在根据性能指标评估和选择模型方面面临的更广泛挑战,而这些指标对于 AI 部署中的明智决策至关重要。

致 16GB VRAM 用户:插上你的旧 GPU(活跃度:797):该帖子讨论了利用一块至少 6GB VRAM 的旧 GPU 与主 16GB VRAM GPU 配合,使用 llama-server 运行像 Qwen3.6-27B 这样的稠密模型。该方案使用 5070Ti2060 组合,实现了总计 22GB VRAM,接近 24GB 级别显卡的性能。配置包括设置 dev=Vulkan1,Vulkan2 以启用双 GPU,no-mmap 以将模型保留在 RAM 之外,以及 n-gpu-layers=999 以最大化 GPU 卸载。基准测试显示速度显著提升,在 128k 最大上下文下,提示处理达到 186 tokens/s,生成达到 19 tokens/s,而单卡仅为 4 tokens/s 评论者就使用 Vulkan 还是 CUDA 展开讨论,有人建议使用 CUDA 以获得更好的性能。另有人指出,虽然从第二块 GPU 获得额外 VRAM 可以提升性能,但可能会成为主 GPU 的瓶颈,正如 3090 Ti2070 组合所表现的那样。

  • Mysterious_Role_8852 讨论了同时使用 3090 Ti 和 2070 时的性能瓶颈问题。他们指出,2070 显著拖累了 3090 Ti,导致在 GPU 之间分配任务时速度从 30t/s 下降到 20t/s。这凸显了匹配 GPU 能力的重要性,以避免性能下降,尤其是在处理像 Qwen 3.6 27b Q6 Quant 这样的大型模型时。
  • mac1e2 详细介绍了在配备 GTX 1650 4GB 和 62GB RAM 的受限系统上运行 Qwen3.6-35B-A3B 的经验。他们强调了理解硬件限制和优化配置的重要性,例如使用 --cpu-moe--mlock 和特定的缓存设置,以实现约 20-21 tok/s 的速度。这展示了在旧硬件上通过严格的资源管理仍然可以获得有效的结果。
  • jacek2023 提到将 3060 作为额外 GPU 与三块 3090 配合使用,但仅用于最大的模型。这表明了一种战略性利用可用硬件资源的方法,即根据任务需求有选择地使用额外 GPU 来最大化性能,而不是对所有工作负载一视同仁。

新模型与工具发布动态

  • Mistral(Vibe)明日将发布重要消息(热度:312):Mistral Vibe 在社交媒体上发布了一条预告,暗示次日将有重大公告。该帖子获得了中等程度的互动,表明社区对此充满期待。评论区的讨论主要围绕可能的新模型发布或工具升级展开,部分用户希望其能对标 Qwen 3.6 27B 等行业标准。也有猜测认为,Mistral 可能涉及军事合同,这或许会影响其在最前沿技术(SOTA)上的投入。有用户对当前模型评价为“一般般”,期待改进。LegacyRemaster 提到了一项基准测试成绩:“Devstral SWE Bench 81.00+”,暗示该模型在特定技术基准上表现强劲,可能具备行业竞争力。new__vision 澄清说,这次公告可能并非关于新模型,而是与 Mistral Vibe X 账号相关——该账号与 Mistral AI X 并非同一主体。他指出 Vibe 是一个“编程代理”,与本地模型集成良好,因此公告更可能涉及“编程工具链”而非新模型。AvidCyclist250 则猜测可能涉及另一项军事合同,这或将延缓 SOTA 技术的开发进度。

  • Deepseek Vision 即将到来(热度:318):据 Xiaokang Chen 在 𝕏 上发布的消息,Deepseek Vision 预计很快发布。其基础设施已基本就绪,基础模型也已开发完成,这意味着多模态能力的集成将在预训练阶段之后进行。考虑到 Deepseek V4 大约在“2-3 周前”已部署,从 V4 预览版到完整版的过渡可能非常迅速。评论区的用户更倾向于统一模型方案,例如直接推出原生支持多模态的 V4.1,而非单独的视觉专用模型,这体现了社区对集成多模态能力的高度重视。Few_Painter_5588 讨论了 Deepseek Vision 的基础设施准备情况,指出基础模型已就位,多模态集成将更加简化。dampflokfreund 则明确希望看到 V4.1 版本,强调原生多模态的重要性。

  • 微软发布“TRELLIS.2”:开源、40亿参数、图像转3D模型,最高可生成 1536³ PBR 纹理资产,基于原生 3D VAE 实现 16 倍空间压缩(热度:786):微软推出了“TRELLIS.2”,这是一个拥有 40 亿参数的先进模型,能够从图像生成高保真 3D 资产。该模型采用了一种名为 O-Voxel 的新型“无场”稀疏体素结构,可重建具有锐利细节和完整 PBR 材质的复杂 3D 拓扑结构。它通过“16 倍”空间压缩实现了高效、可扩展的资产生成,最高分辨率可达“1536³”。该模型已开源,相关资源可在 GitHub 上获取,并提供了 Hugging Face 上的在线演示。有用户指出 TRELLIS.2 实际上在四个月前就已发布,但显然对社区中的许多人来说仍是新闻,说明其最初发布时并未获得广泛关注。有用户尝试在 AMD 7800XT GPU 上使用 ROCm 运行 TRELLIS.2,但遇到了段错误。该模型主要在配备 24GB 显存的 NVIDIA GPU 上测试过,暗示与 AMD 硬件及 ROCm 依赖可能存在兼容性问题。尽管近期有一个 PR 被合并以添加 ROCm 支持,但用户仍因依赖问题和需要授权仓库访问而遇到困难。不过,模型仍能处理图像并开始资产创建,说明功能部分可用。

本地大模型的使用现状与挑战

3. 本地大模型的使用现状与挑战

  • 我受够了用本地大模型写代码(热度:1981):这篇 Reddit 帖子讨论了作者对使用本地大模型(如 Qwen 27B 和 Gemma 4 31B)进行编码任务的不满,尤其是在与工作中使用的 Claude Code 对比之后。主要问题包括模型在决策和工具调用方面表现不佳,特别是在 Docker 化等任务中,模型无法遵循逻辑步骤或有效处理长时间运行的过程。作者还指出了性能问题,如响应速度慢和提示词缓存失效,这些都严重影响了生产力。尽管尝试通过详细指令引导模型,本地大模型仍未达到预期,导致作者考虑在更复杂的任务中使用基于云的模型(如 OpenRouter),而将本地模型保留用于简单的自动化和语言任务。评论者指出,所使用的"框架"(harness)对性能影响巨大,像 Hermes 这样的框架可能能更好地处理长时间运行的任务。此外,社区中还存在关于某些帖子设定不切实际期望的争论,这些帖子可能夸大了使用本地大模型取得成功的容易程度。

一个关键的技术要点是,优化本地模型(如 Claude Code)的设置可以显著提升性能。有用户分享了 Unsloth 的文档,其中详细介绍了如何解决推理速度慢和缓存效率低等问题,这些都是使用本地大模型进行编码时的常见痛点。

  • 另一个富有洞察力的讨论围绕本地模型所使用的"框架"(harness)的重要性展开。一位评论者指出,即使使用相同的模型,不同的框架也可能导致截然不同的结果,强调框架的选择至关重要。他们提到,像 Hermes agent 这样的框架有其特定的优势和劣势,例如处理长时间运行进程的能力以及有效使用日志文件输出的方式,这些都会影响本地模型的感知性能。

  • 讨论还涉及本地模型与集中式提供商之间的成本效益问题。虽然消费级 GPU 上的本地模型可能无法与 Claude 等模型的性能相媲美,但它们可以节省成本。例如,Kimi K2.6 模型被强调为 Claude Opus 的高性价比替代方案,以更低的 API 成本提供相似的性能。这表明,虽然性能可能有所不足,但本地模型在某些使用场景下仍然具有经济可行性。

  • r/LocalLLaMA 社区的两面性(热度:575):这张图片凸显了 r/LocalLLaMA 社区内部关于使用本地大模型进行编码的截然不同的观点。一篇帖子表达了经过数周尝试本地大模型后的挫败感和不满,而另一篇帖子则持乐观态度,认为本地模型已经可以用于实际工作,这一点在 Terminal-Bench 2.0 的测试中得到了验证。这种两面性反映了用户在部署本地大模型时的不同体验和期望,这些差异通常受到模型大小以及用户优化工作流能力的影响。评论者讨论了部分用户在将本地大模型与运行在昂贵硬件上的大规模模型进行比较时抱有不切实际的期望。他们强调,理解较小模型(如 270 亿参数的 Qwen 3.6)的局限性至关重要,并且需要高效的工作流架构来最大化其潜力。

  • Memexp-over9000 讨论了使用 Qwen 3.6 27B 模型的局限性和潜力,强调虽然它无法与万亿参数模型竞争,但如果工作流架构得当,它可以产生可比的输出。该评论强调了将 AI 用于"苦力活"而非创造性任务的重要性,表明理解和优化模型能力是有效使用的关键。

  • FoxiPanda 对影响本地模型性能的变量进行了详细分析,如框架配置、系统提示词和模型量化。他们指出,不同的模型需要在系统提示词中使用特定的"胶水"来解决其独特的问题,而量化级别(例如 IQ2 与 Q8)会显著影响用户体验。该评论强调了结构良好的提示词和规划在实现本地模型最佳效果中的重要性。

  • Scared-Tip7914 强调了模型量化对性能的影响,指出用户在讨论模型能力时往往没有指定量化级别(例如 Q2 与 Q8)。他们分享了使用 Qwen 3.5-35B(Q4 量化)的经验,强调其作为大型专有模型补充的角色,用于高效的 token 执行,而非作为独立解决方案。该评论提出了一种策略性方法:用大模型做规划,用本地模型做执行。

  • 给新手的警告——网络安全的一课(热度:355):该帖子揭示了一个重大的网络安全问题:有 373 台设备公开暴露了 LM Studio 实例,且无需 API 密钥即可访问,使其容易受到未授权访问的攻击。图片展示了一幅世界地图,红色标记的国家表示暴露设备的数量,其中泰国以 194 台位居榜首。作者强调了保护大模型平台安全的重要性,不要在没有适当安全措施(如使用 Tailscale 或带有身份验证的反向代理)的情况下将其暴露在互联网上。一位评论者对这种道德黑客方法表示赞赏,而另一位则指出可以在暴露的设备上远程执行提示词,凸显了潜在风险。第三位评论者则讽刺地建议利用这些不安全的设备来获取计算资源。

  • DatMemeKing 强调了一个严重的安全漏洞:他们能够远程在设备上执行提示词,这表明网络配置或软件可能存在允许未授权访问的缺陷。这凸显了保护网络端口安全以及确保远程执行能力受到严格控制与监控的重要性。

  • AdultContemporaneous 提出了一个问题:这个安全问题是指在可访问互联网的计算机上运行本地大模型,还是特指那些试图远程访问其本地托管大模型的用户?他们提到使用了带有地理 IP 拦截功能的 IDS/IPS,表明采用了分层安全方法来防范未授权访问。

  • Illeazar 澄清说,安全风险主要针对那些选择在路由器上公开转发端口的用户,这可能会使他们的系统暴露于外部威胁之下。这强调了谨慎进行网络配置的重要性,以及在没有适当安全措施的情况下将本地服务暴露在互联网上的风险。

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

Claude与Opus模型定价及访问权限问题

  • Anthropic悄然为Claude Code的Pro用户设置了Opus的"付费墙中的付费墙"(热度:1053):Anthropic 针对其 Claude Code 用户推出了新的定价结构,即便是Pro计划用户,也需要额外付费才能访问 Opus 模型。这一变化悄然出现在他们的支持文档中,表明虽然Pro计划每月费用为 $20,但访问旗舰级Opus模型仍需额外购买。默认可用模型为 Sonnet 4.5,虽然Opus 4.5也在列表中,但被锁定在这道额外付费墙之后。此举表明Anthropic正转向按量计费模式,引发了用户对透明度和成本影响的担忧。一些用户对缺乏透明度及额外费用表示不满,评论中透露出失望情绪,并期待 Qwen 4 27b 等替代模型。另有用户表示他们已经在使用Opus 4.7,这表明可能存在版本发布不一致或处于有限测试阶段的情况。

ClaudeOfficial澄清称,关于Opus被锁定在付费墙后的信息已经过时。他们提到Opus 4.5早在1月就已向Pro计划用户推出,而支持文章从未更新过。他们提供了Wayback Machine的链接以验证这一信息,表明这是文档更新上的疏漏。

  • GitHub Copilot对Claude模型涨价9倍(热度:803):GitHub Copilot将从6月起对Claude模型实施900%的价格上涨,从固定计划转向按用量计费。 这一变化详见 GitHub的文档新闻稿。此次涨价是基于API计费模式转型的一部分,可能对依赖Claude智能体进行生产的企业客户产生重大影响,因为推理成本的增加将严重冲击单位经济效益。评论者表达了对智能体操作和Token用量缺乏可见性的担忧,这可能会加剧涨价带来的财务影响。这一转变被视为 Anthropic 利用其市场地位的战略举措。

  • Emerald-Bedrock44 指出了Claude模型涨价9倍的关键问题,强调如此剧烈的变化会严重影响使用这些模型进行生产的企业单位经济效益。Token用量缺乏可见性使问题更加恶化,因为团队可能无法完全理解或控制其推理成本,从而导致潜在的财务压力。

  • CricktyDickty 指出,从固定补贴计划向基于API定价的转变,代表了Anthropic的一项战略举措。这种转型可被视为Anthropic巩固其市场地位的方式,可能增加收入,但也给此前享受较低固定成本的企业客户带来了更重的财务负担。

  • dotheemptyhouse 指出,涨价并非Claude模型独有,一些竞品模型也出现了6倍的涨幅。这表明AI模型提供商正面临普遍的成本上升趋势,可能预示着行业定价策略的转变,或是对需求增长和运营成本上升的回应。

  • Anthropic悄然为Claude Code的Pro用户设置了Opus的"付费墙中的付费墙"(热度:653):该图片突显了Anthropic的一项有争议的变更,即Claude Code套件中的Opus模型现在对Pro用户设置了额外的付费墙。这意味着已经支付每月$20 Pro订阅费用的用户,必须额外付费才能访问Opus模型,尽管该模型曾被宣传为Pro套餐的一部分。默认可用模型是Sonnet 4.5,虽然Opus 4.5也在列表中,但需要额外购买。这一变更并未广泛公布,仅在一篇支持文章中提及,导致用户对透明度和成本影响感到不满。有评论指出该支持文章已过时,并提到Opus 4.5早在1月就已推出,表明Anthropic缺乏及时的沟通更新。另一条评论批评Opus模型Token消耗量过大,会迅速耗尽用户配额,暗示额外成本可能并不合理。

  • ClaudeOfficial 澄清称,该支持文章已过时,Opus 4.5自1月起就已包含在Pro计划中,Wayback Machine 可作证。这表明是沟通疏漏,而非刻意的付费墙变更。

  • Faangdevmanager 指出了Opus Token消耗的一个严重问题,称其消耗大量Token且价格昂贵。这对用户来说一直是个痛点,他们发现自己的配额很快被耗尽,这表明需要更高效的Token使用方式或更清晰的成本沟通。

  • Academic-Proof3700 对Pro订阅的多个问题表达了不满,包括质量下降、Bug频出,以及引入了一个消耗更多Token却未带来相应价值的新模型。这反映出用户对服务性价比和透明度的普遍不满。

GPT 5.4 与 GPT 5.5 性能与基准测试

  • GPT 5.4 与 GPT 5.5 在 MineBench 上的差异(活跃度:465):该帖子讨论了使用 MineBench 框架对 GPT 5.4GPT 5.5 进行基准测试的情况,指出 GPT 5.5 相比 GPT 5.4 仅有小幅提升。基准测试表明,GPT 5.5 在降低计算资源消耗的同时,实现了相似的输出质量,这与 OpenAI 关于效率改进的说法一致。运行 GPT 5.5 的成本为 19.98 美元,平均推理时间为 624 秒,而 GPT 5.4 的成本约为 25 美元。在 5.5 系列中,Pro 版本与标准版本之间的差异微乎其微,表明输出质量相近。该基准测试涉及从方块调色板创建 3D 结构,GPT 5.5 展现出更精细、更复杂的设计。评论者注意到 GPT 5.5 输出中令人印象深刻的细节,例如在宇航员面罩上模拟反射效果,不过有些构建看起来噪声较多,带有随机颜色的方块。总体而言,GPT 5.5 的设计被认为略胜一筹。

WithoutReason1729 强调了 GPT 5.5 在视觉建模能力上的显著提升,指出它能够精确模拟复杂的反射效果,例如宇航员面罩上反射出的地球影像。这表明新版本在渲染和空间推理能力方面有所增强。

  • Kamimashita 观察到,GPT 5.5 的构建看起来噪声更多,带有随机颜色的方块,但整体设计质量有所提升。这表明细节与噪声之间存在权衡,暗示 GPT 5.5 可能正在尝试更复杂的设计模式。

  • FateOfMuffins 讨论了从 GPT 5.4 到 5.5 的 270 ELO 显著提升,以及到 5.5 Pro 的额外 220 ELO 跃升。ELO 评分的这一大幅提升反映了新版本性能的增强,可能也意味着算法更加复杂,不过这也引发了关于基准测试饱和以及是否需要增加难度的疑问。

  • GPT 5.5 在 Token 消耗上惊人地浪费(活跃度:14):该帖子讨论了使用 GPT 5.5 时的高 Token 消耗及相关成本,尤其是在其 Codex 应用之外,据报道单次请求成本高达 5 美元。这引发了人们对该模型在非编码场景下效率和成本效益的担忧。有评论指出,使用 GPT 5.5Claude Opus 4.7:1m xhigh 等模型的成本应与其提供的价值相比较,这意味着在某些应用中,高成本或许能被其带来的收益所合理化。

3. ChatGPT 解决数学问题

  • Chat GPT 5.4 一次性解决了困扰 60 多年的埃尔德什难题(热度:2265):图片展示了一个与未解决的埃尔德什问题相关的数学证明,重点涉及原始集合上的求和不等式。据称,Chat GPT 5.4 在 80 分 17 秒 内解决了这个问题,这标志着 AI 在复杂数学推理能力上的重大进步。该证明涉及常数和对数表达式,展现了通常需要博士水平的复杂数学推理能力。这一进展挑战了“大模型只是预测下一个 token、不具备真正推理能力”的观点。虽然这一成就令人印象深刻,但一些评论者认为,声称其推理能力超越了过去 50 年的数学家有些言过其实。他们承认大模型正在成为数学家的强大工具,但也指出这些模型仍有局限性,尚无法独立提出新颖的想法。

enilea 指出,埃尔德什问题数量众多,其中许多因缺乏关注而未被解决,但声称大模型“推理能力超越了过去 50 年的数学家”有些夸大其词。他们承认大模型正在成为数学家的强大工具,但强调这些模型仍有局限性,尚无法独立提出新颖的想法。

ChatGPT 5.4 解决了一个 64 年历史的数学难题(热度:13896):图片展示了一个与埃尔德什问题相关的数学证明,重点关注原始集合和对数不等式。帖子称,一位 23 岁的用户使用 ChatGPT 5.4 Pro 在大约 1 小时 20 分钟 内解决了这个存在了 64 年的问题。据报道,该解决方案以一种新颖的方式将已知公式应用于该问题,这是此前从未有人做到的。该问题实际上是埃尔德什 1196 号问题,而非 1176 号,且该证明已被验证为合法,著名数学家 陶哲轩 也对此发表了评论。AI 的成功归功于用户引导其采用了与专家此前尝试的局部解法不同的思路。评论者强调了这一成就的重要性,指出 AI 的解决方案既简洁又优雅。他们强调了提出正确问题的重要性,因为用户没有遵循专家们尝试过的局部解法,而是采用了一种熟悉的方法,从而取得了突破。

  • EmergencyFun9106 指出,被解决的问题是埃尔德什 1196 号,而非 1176 号,并确认了该证明的合法性,引用了陶哲轩在此处的评论。其意义在于该问题历史上只有局部解法,而 AI 的贡献尤为简洁优雅。
  • yubario 通过对比解释了 AI 的成功:此前的尝试都遵循了专家的局部解法,结果走进了死胡同。突破来自于用不同的方法引导 AI,强调了提出正确问题对于解锁解决方案的重要性。
  • MannOfSandd 预测学术界将做出强烈反应,暗示 AI 的解决方案将面临来自教职人员和研究者的潜在影响和严格审视。
AI 开发者日报 2026-04-29