AI 开发者日报

专为中文开发者打造的 AI 技术日报,每日更新,提供文章和播客双重形式,用通俗语言解读前沿技术。 汇总 AI 开发领域的 X、Reddit 和 Discord 社区讨论,精选开发者值得关注的信息,支持 RSS 和邮件订阅。

订阅 AI 开发者日报,与顶尖开发者同步掌握 AI 最新动态

article cover image

AI 开发者日报 2026-04-27

DeepSeek发布V4系列(Pro和Flash),首次采用双层产品线,支持百万级token上下文和混合推理模式,并开源MIT协议。V4 Pro有1.6T总参、49B激活参数,Flash为284B总参、13B激活,训练数据达32-33T tokens。性能上,长上下文和智能体编码能力突出,接近Kimi K2.6和Claude Sonnet级别,但落后于GPT-5.x和Opus 4.7。价格极低,Pro每百万token输入/输出1.74/3.48美元,Flash仅0.14/0.28美元。独立评测中,V4 Pro在开源推理模型中排名第二,但幻觉率高达94-96%,是生产环境短板。总体是技术民主化里程碑,但需理性看待局限。

deepseeknvidiaopenailambdaapitogethercomputexiaomideepseek-v4deepseek-v4-prodeepseek-v4-flashkimi-k2.6

DeepSeek V4 发布:架构革新、长上下文与开源新格局

DeepSeek 发布了 DeepSeek-V4 ProDeepSeek-V4 Flash,这是自 V3 以来首次重大架构更新,也是其首个清晰的双层产品线。新模型支持 100万 token 上下文,具备混合推理/非推理模式,采用 MIT 许可证,并附带一份技术报告——多位研究人员称其为今年最重要或写得最好的模型论文之一。从各方反应来看,事实共识是:V4 在开放权重长上下文和智能体编码性能方面取得了实质性进展,但在整体能力上仍落后于顶尖闭源前沿模型。独立评测机构将 V4 Pro 定位在开放权重模型的第二梯队,大致接近 Kimi K2.6 / GLM-5.1 / 强 Claude Sonnet 级别到 Opus 级别(具体取决于评测基准和模式),尤其在长上下文和智能体性能方面表现突出。关于它距离 GPT-5.x / Opus 4.7 有多近,以及这究竟是“民主化”的进步,还是架构过于复杂以至于很少有开放实验室能真正复现,各方观点存在分歧。主要信息来源包括 @ArtificialAnlys@scaling01@nrehiew_@ben_burtenshaw@TheZachMueller@ZhihuFrontier 的深度评论,以及来自 @vllm_project@NVIDIAAI@Togethercompute 的基础设施/供应商相关帖子。

核心事实与技术细节

讨论中反复提及的最具体的技术声明如下:

  • 两个模型

V4 Pro: 总参数量 1.6T / 激活参数量 49B

Claude 上下文窗口升级:从128K到1M tokens

  • 1M tokens,相比V3.2版本的128K大幅提升(来源:@ArtificialAnlys
  • 多位博主将这一成就视为核心亮点:“扎实的超长上下文处理能力”(@teortaxesTex

训练规模

  • 32T–33T tokens 被多次提及
  • @nrehiew_ 指出在 1.6T 参数 上训练了 32T tokens,即大约 20 tokens/参数
  • @teortaxesTex 引用了 33T
  • @nrehiew_ 估计预训练计算量约为 ~1e25 FLOPs

推理模式

长上下文架构:新型混合注意力系统

几篇讨论总结了一种新型混合注意力系统,其核心组件包括:

  • 共享 KV 向量
  • 压缩 KV 流
  • 对压缩 token 进行稀疏注意力
  • 针对邻近上下文的局部/滑动窗口注意力

@ZhihuFrontier 给出了最精炼的公开总结:

  • 2 倍 KV 缩减:通过共享键值向量实现
  • c4a ≈ 4 倍压缩
  • c128a ≈ 128 倍压缩
  • top-k 稀疏注意力:作用于压缩后的 token
  • 128 token 滑动窗口
  • 1M 上下文 KV 缓存 = 9.62 GiB/序列(bf16)
  • 比 DeepSeek V3.2 的 83.9 GiB8.7 倍
  • FP4 索引缓存 + FP8 注意力缓存可再实现约 2 倍 缩减

@ben_burtenshaw 将其概括为“KV 缓存缩小 10 倍”。

@TheZachMueller@TheZachMueller 描述了 CSA + HCA 层模式,采用交替层设计,V4 Flash 在某些位置使用滑动窗口层替代 HCA。

量化与检查点格式

  • @LambdaAPI:检查点采用 混合 FP4 + FP8 格式

MoE 专家权重使用 FP4

  • 注意力层 / 归一化层 / 路由层使用 FP8
  • 声称:完整模型可部署在单个 8×B200 节点上

推理硬件与部署

  • @NVIDIAAI:在 Blackwell Ultra 上,V4 Pro 可为智能体工作流提供 150+ TPS/用户 的交互体验
  • @NVIDIAAI:发布了基于 vLLM 的 V4 Pro 首日性能帕累托曲线
  • @SemiAnalysis_:在 H200、MI355、B200、B300、GB200/300 上完成首日支持与基准测试
  • @Prince_CanumaDeepSeek4-Flash 成功运行于 256GB Mac
  • @Prince_Canuma:发布了 MLX 量化版本
  • @simonw 询问小内存 Mac 的可行性,反映出社区兴趣浓厚但支持方案尚不完善
  • @QuixiAI 提醒用户,许多本地推理栈仍缺乏张量并行支持,而 V4 级别模型对推理基础设施提出了更高要求

许可证 / 可用性 / 定价

  • MIT 许可证,来自 @ArtificialAnlys
  • 第一方 API,以及通过 @Togethercompute@baseten@NousResearch@Teknium 快速提供的第三方服务
  • V4 Pro 定价: 每 100 万输入/输出 token 收费 $1.74 / $3.48
  • V4 Flash 定价: $0.14 / $0.28
  • 缓存命中定价同样由 @ArtificialAnlys 提供
  • @scaling01 认为,这一价格预示着未来“神话级”廉价编程模型的到来
  • 路透社引用 @scaling01 的评论:DeepSeek 表示,一旦华为昇腾 950 超级节点在下半年大规模部署,Pro 版定价可能大幅下降

独立评测与V4的定位

最有价值的独立基准综合评估来自 @ArtificialAnlys

  • V4 Pro Max:在 Artificial Analysis Intelligence Index 上得分 52

相比 V3.2 的 42 分提升了 10 分

  • 成为 #2 开源推理模型,仅次于 Kimi K2.6(54 分)

V4 Flash Max:47

  • 定位在强大的中高端开源模型之上,具备“Claude Sonnet 4.6 最高级别智能”
  • GDPval-AA(智能体真实世界工作能力):
    • V4 Pro:1554,领先于开源权重模型
    • 领先于 Kimi K2.6(1484)GLM-5.1(1535)MiniMax-M2.7(1514)

AA-Omniscience

  • V4 Pro: -10,相比 V3.2 提升了 11 个点
  • 但依然伴随着 94% 的幻觉率
  • V4 Flash: 96% 的幻觉率

AA Index 运行成本

  • V4 Pro: $1,071
  • V4 Flash: $113

AA Index 输出 Token 用量

  • V4 Pro: 1.9亿
  • V4 Flash: 2.4亿
  • 这是一个重要的注意事项:廉价的每 Token 定价并不意味着总任务成本低廉,如果模型消耗了巨大的 Token 量

其他评测视角:

#2 开源(Text Arena 综合排名首秀)

  • 类别获胜/排名:

#1 医疗与健康

  • #15 创意写作
  • #18 多轮对话

思考变体:

  • #8 数学
  • #9 生命/物理/社会科学

@arena 强调了 Pro 与 Flash 的权衡

  • Pro 排名高出约 30 位
  • 成本高出 12 倍
  • Flash 在中文、医学、数学方面仍具竞争力

@scaling01

  • “目前来看,~Opus 4.5 的预估仍然成立,至少在 SimpleBench 上是这样”

@scaling01

  • V4 “绝对优于 GLM-5.1,但还达不到 Opus 4.7、GPT-5.4 或 Gemini 3.1 Pro 的水平”

@scaling01 列出了哪些分数可以确认这一判断 @TheZachMueller

  • 在他的评测中,Flash@max 在推理方面 ≈ Pro@high
  • Pro 更侧重于知识(SimpleQA)

@VictorTaelin

  • 在修复了基准测试的 bug 并让长运行模型运行更长时间后,DeepSeek 和 Kimi 有了实质性提升

@mbusigin

  • 一个简单的负面初步印象,没有提供细节

@petergostev

  • 在 BullshitBench 上,评测的不是能力而是拒绝/反驳行为,GPT-5.5 表现不佳;此处收录是因为许多读者在充满评测质疑的环境中对比 V4

事实与观点:DeepSeek V4 发布深度解析

事实 / 相对有依据的声明

观点 / 解读

  • “V4 大约落后前沿模型 4–5 个月”——来自 @scaling01@scaling01@scaling01 的这一判断是有依据的估算,而非可测量的事实
  • “开源前三” vs “唯一接近前沿的开源模型”——来自 @teortaxesTex 的这场争论,部分源于对评测基准的信任度和表述框架的差异
  • “我们目前拥有的最强预训练模型”——来自 @teortaxesTex 的这一说法,更多是基于模型规模和架构的见解,而非直接的评测基准优势
  • “今年最重要的 AI 论文”——来自 @Dorialexander 的评价更多是热情洋溢的赞美,而非行业共识
  • “这才是研究该有的样子”——来自 @scaling01 的评论,强调的是透明度和风格,而非单纯的能力
  • “并非真正意义上的技术民主化”——来自 @teortaxesTex 的这一观点,是一种强烈的架构与政治层面的解读