AI 开发者日报 2026-04-27

DeepSeek V4 发布：架构革新、长上下文与开源新格局

DeepSeek 发布了 DeepSeek-V4 Pro 和 DeepSeek-V4 Flash，这是自 V3 以来首次重大架构更新，也是其首个清晰的双层产品线。新模型支持 100万 token 上下文，具备混合推理/非推理模式，采用 MIT 许可证，并附带一份技术报告——多位研究人员称其为今年最重要或写得最好的模型论文之一。从各方反应来看，事实共识是：V4 在开放权重长上下文和智能体编码性能方面取得了实质性进展，但在整体能力上仍落后于顶尖闭源前沿模型。独立评测机构将 V4 Pro 定位在开放权重模型的第二梯队，大致接近 Kimi K2.6 / GLM-5.1 / 强 Claude Sonnet 级别到 Opus 级别（具体取决于评测基准和模式），尤其在长上下文和智能体性能方面表现突出。关于它距离 GPT-5.x / Opus 4.7 有多近，以及这究竟是“民主化”的进步，还是架构过于复杂以至于很少有开放实验室能真正复现，各方观点存在分歧。主要信息来源包括 @ArtificialAnlys、@scaling01、@nrehiew_、@ben_burtenshaw、@TheZachMueller、@ZhihuFrontier 的深度评论，以及来自 @vllm_project、@NVIDIAAI 和 @Togethercompute 的基础设施/供应商相关帖子。

核心事实与技术细节

讨论中反复提及的最具体的技术声明如下：

两个模型

V4 Pro： 总参数量 1.6T / 激活参数量 49B

V4 Flash： 总参数量 284B / 激活参数量 13B
信息来源：@ArtificialAnlys、@teortaxesTex、@baseten、@NVIDIAAI

Claude 上下文窗口升级：从128K到1M tokens

1M tokens，相比V3.2版本的128K大幅提升（来源：@ArtificialAnlys）
多位博主将这一成就视为核心亮点：“扎实的超长上下文处理能力”（@teortaxesTex）

训练规模

32T–33T tokens 被多次提及
@nrehiew_ 指出在 1.6T 参数 上训练了 32T tokens，即大约 20 tokens/参数
@teortaxesTex 引用了 33T
@nrehiew_ 估计预训练计算量约为 ~1e25 FLOPs

推理模式

据 @Togethercompute 透露，DeepSeek 提供了三种推理模式
@ArtificialAnlys 指出其采用了“思考/非思考”混合定位

长上下文架构：新型混合注意力系统

几篇讨论总结了一种新型混合注意力系统，其核心组件包括：

共享 KV 向量
压缩 KV 流
对压缩 token 进行稀疏注意力
针对邻近上下文的局部/滑动窗口注意力

@ZhihuFrontier 给出了最精炼的公开总结：

2 倍 KV 缩减：通过共享键值向量实现
c4a ≈ 4 倍压缩
c128a ≈ 128 倍压缩
top-k 稀疏注意力：作用于压缩后的 token
128 token 滑动窗口
1M 上下文 KV 缓存 = 9.62 GiB/序列（bf16）
比 DeepSeek V3.2 的 83.9 GiB 小 8.7 倍
FP4 索引缓存 + FP8 注意力缓存可再实现约 2 倍 缩减

@ben_burtenshaw 将其概括为“KV 缓存缩小 10 倍”。

@TheZachMueller 和 @TheZachMueller 描述了 CSA + HCA 层模式，采用交替层设计，V4 Flash 在某些位置使用滑动窗口层替代 HCA。

量化与检查点格式

@LambdaAPI：检查点采用 混合 FP4 + FP8 格式

MoE 专家权重使用 FP4

注意力层 / 归一化层 / 路由层使用 FP8
声称：完整模型可部署在单个 8×B200 节点上

推理硬件与部署

@NVIDIAAI：在 Blackwell Ultra 上，V4 Pro 可为智能体工作流提供 150+ TPS/用户 的交互体验
@NVIDIAAI：发布了基于 vLLM 的 V4 Pro 首日性能帕累托曲线
@SemiAnalysis_：在 H200、MI355、B200、B300、GB200/300 上完成首日支持与基准测试
@Prince_Canuma：DeepSeek4-Flash 成功运行于 256GB Mac
@Prince_Canuma：发布了 MLX 量化版本
@simonw 询问小内存 Mac 的可行性，反映出社区兴趣浓厚但支持方案尚不完善
@QuixiAI 提醒用户，许多本地推理栈仍缺乏张量并行支持，而 V4 级别模型对推理基础设施提出了更高要求

许可证 / 可用性 / 定价

MIT 许可证，来自 @ArtificialAnlys
第一方 API，以及通过 @Togethercompute、@baseten、@NousResearch、@Teknium 快速提供的第三方服务
V4 Pro 定价： 每 100 万输入/输出 token 收费 $1.74 / $3.48
V4 Flash 定价： $0.14 / $0.28
缓存命中定价同样由 @ArtificialAnlys 提供
@scaling01 认为，这一价格预示着未来“神话级”廉价编程模型的到来
路透社引用 @scaling01 的评论：DeepSeek 表示，一旦华为昇腾 950 超级节点在下半年大规模部署，Pro 版定价可能大幅下降

独立评测与V4的定位

最有价值的独立基准综合评估来自 @ArtificialAnlys：

V4 Pro Max：在 Artificial Analysis Intelligence Index 上得分 52

相比 V3.2 的 42 分提升了 10 分

成为 #2 开源推理模型，仅次于 Kimi K2.6（54 分）

V4 Flash Max：47

定位在强大的中高端开源模型之上，具备“Claude Sonnet 4.6 最高级别智能”
GDPval-AA（智能体真实世界工作能力）：
- V4 Pro：1554，领先于开源权重模型
- 领先于 Kimi K2.6（1484）、GLM-5.1（1535）、MiniMax-M2.7（1514）

AA-Omniscience

V4 Pro: -10，相比 V3.2 提升了 11 个点
但依然伴随着 94% 的幻觉率
V4 Flash: 96% 的幻觉率

AA Index 运行成本

V4 Pro: $1,071
V4 Flash: $113

AA Index 输出 Token 用量

V4 Pro: 1.9亿
V4 Flash: 2.4亿
这是一个重要的注意事项：廉价的每 Token 定价并不意味着总任务成本低廉，如果模型消耗了巨大的 Token 量

其他评测视角：

@arena：

#2 开源（Text Arena 综合排名首秀）

类别获胜/排名：

#1 医疗与健康

#15 创意写作
#18 多轮对话

思考变体：

#8 数学
#9 生命/物理/社会科学

@arena 强调了 Pro 与 Flash 的权衡：

Pro 排名高出约 30 位
成本高出 12 倍
Flash 在中文、医学、数学方面仍具竞争力

@scaling01：

“目前来看，~Opus 4.5 的预估仍然成立，至少在 SimpleBench 上是这样”

@scaling01：

V4 “绝对优于 GLM-5.1，但还达不到 Opus 4.7、GPT-5.4 或 Gemini 3.1 Pro 的水平”

@scaling01 列出了哪些分数可以确认这一判断 @TheZachMueller：

在他的评测中，Flash@max 在推理方面 ≈ Pro@high
Pro 更侧重于知识（SimpleQA）

@VictorTaelin：

在修复了基准测试的 bug 并让长运行模型运行更长时间后，DeepSeek 和 Kimi 有了实质性提升

@mbusigin：

一个简单的负面初步印象，没有提供细节

@petergostev：

在 BullshitBench 上，评测的不是能力而是拒绝/反驳行为，GPT-5.5 表现不佳；此处收录是因为许多读者在充满评测质疑的环境中对比 V4

事实与观点：DeepSeek V4 发布深度解析

事实 / 相对有依据的声明

V4 Pro / Flash 已按上述规格发布，采用 MIT 许可证，支持 100万上下文，并开放技术文档：@ArtificialAnlys，@TheZachMueller
该架构引入了一种新的长上下文注意力机制，大幅减少了 KV 缓存：@ZhihuFrontier，@ben_burtenshaw
独立评测机构普遍认为，V4 Pro 在开源模型中处于顶尖水平，但仍不及最优秀的闭源模型：@ArtificialAnlys，@arena，@scaling01
在某些评测中，DeepSeek V4 的 Token 消耗量非常大：@ArtificialAnlys
该检查点采用 FP4/FP8 混合精度，可部署在单台 8×B200 节点上：@LambdaAPI
发布当天，vLLM 及其他服务商便迅速提供了生态支持：@vllm_project，@SemiAnalysis_

观点 / 解读

“V4 大约落后前沿模型 4–5 个月”——来自 @scaling01、@scaling01、@scaling01 的这一判断是有依据的估算，而非可测量的事实
“开源前三” vs “唯一接近前沿的开源模型”——来自 @teortaxesTex 的这场争论，部分源于对评测基准的信任度和表述框架的差异
“我们目前拥有的最强预训练模型”——来自 @teortaxesTex 的这一说法，更多是基于模型规模和架构的见解，而非直接的评测基准优势
“今年最重要的 AI 论文”——来自 @Dorialexander 的评价更多是热情洋溢的赞美，而非行业共识
“这才是研究该有的样子”——来自 @scaling01 的评论，强调的是透明度和风格，而非单纯的能力
“并非真正意义上的技术民主化”——来自 @teortaxesTex 的这一观点，是一种强烈的架构与政治层面的解读