DeepSeek-V4百万上下文时代的开源宣言「不诱于誉不恐于诽率道而行端然正己。」——DeepSeek 团队题记一、484 天从 V3 到 V4 的跨越2024年12月26日DeepSeek-V3 横空出世以极低训练成本和逼近顶尖闭源模型的性能震惊业界。此后下一代什么时候来成为开源社区最常被问起的问题。484 天后2026 年 4 月 24 日答案揭晓。DeepSeek 研究员陈德里在社交平台写下DeepSeek-V32024年12月26日。DeepSeek-V42026年4月24日。484天后我们谦卑地分享这份爱心的劳动。一如既往我们始终坚持长期主义和全民开源。AGI属于每个人。这句话背后是1.6 万亿参数的工程壮举、百万 token 上下文的技术突破以及一份写给开源世界的承诺。二、模型概览双旗舰架构DeepSeek-V4 系列推出两款旗舰模型覆盖全场景需求参数DeepSeek-V4-ProDeepSeek-V4-Flash总参数量1.6T284B激活参数量49B13B上下文长度1M tokens1M tokens注意力层数6143隐藏维度71684096MoE Expert1 shared 384 routed1 shared 256 routed每 token 激活 Expert 数66训练数据量33T tokens32T tokens推理模式非思考 / Think High / Think Max非思考 / Think High / Think MaxAPI 模型名deepseek-v4-prodeepseek-v4-flash核心突破1M token 上下文下V4-Pro 单 token FLOPs 仅为 V3.2 的27%KV cache 压缩至10%。百万 token 上下文从技术奇点变成可承担的工程现实。三、三大架构创新深度解析V4 是 DeepSeek 系列架构改动最大的一代三项核心升级共同支撑了性能跃升。1. mHC流形约束超连接——让超大模型不崩残差连接自何恺明 2016 年在 ResNet 中提出以来十年间几乎未经大改。当模型深度突破千亿参数传统残差在信号传递稳定性上暴露出明显短板。技术演进路径传统 ResNet 残差 (2016) ↓ Hyper-Connections / HCKimi 提出多通道残差 ↓ mHC — Manifold-Constrained Hyper-ConnectionsDeepSeek V4HC 的问题Kimi 提出的 Hyper-Connections 将残差流扩展为 n_hc 条并行通道但深层堆叠时数值不稳定训练容易崩溃。mHC 的解法将通道混合矩阵 B 约束到双随机矩阵的流形Birkhoff polytope——即矩阵每行、每列之和均为 1。这一约束带来两个数学保证谱范数 ≤ 1残差传播设硬上限梯度爆炸从根源截断乘法封闭性此类矩阵在矩阵乘法下封闭百层以上堆叠依然稳定实现采用Sinkhorn-Knopp 迭代交替行/列归一化20 轮收敛结合 fused kernel 和选择性 recomputationwall-time 开销仅占 overlapped pipeline 的6.7%。mHC 前向传播 Input ──► 映射 ASigmoid 限幅 │ ┌─ 通道 1 ─┐ ├─ 通道 2 ─┤ ──► 双随机矩阵 B 混合 ──► 映射 CSigmoid 限幅 └─ 通道 n ─┘工程视角mHC 不追求某个 benchmark 的具体提升而是为整个架构的规模化奠定稳定地基——让 1.6T 参数的模型能稳定训练完成。2. 混合注意力机制百万上下文的效率核心这是 V4 最厚重、最值得细读的创新。V4 采用CSA 与 HCA 两种注意力层交替叠加分别承担不同职能。CSA压缩稀疏注意力Compressed Sparse Attention信息处理四步走原始序列n tokens │ ▼ Step 1: KV 压缩 每 m 个 token → 1 个压缩 KV entryattention-like 机制 │ ▼ Step 2: Lightning Indexer Top-K 选择 轻量 indexer 对每个 query 打分 → 选出最相关的 Top-K 压缩块 │ ▼ Step 3: Core AttentionMulti-Query Attention 对 Top-K 块做注意力计算 │ ▼ Step 4: Grouped Output Projectionhead dim 512 分组投影降低计算成本双重压缩效果1M token 输入原本需 attend 100 万个 tokenCSA 后仅需 attend约 1024 个压缩块计算量降低近 3 个数量级。HCA重度压缩注意力Heavily Compressed AttentionHCA 策略更为激进压缩率 m’128每 128 个 token 压成 1 个无稀疏筛选对所有压缩 KV 做dense attention。CSAHCA压缩率温和可学习权重激进128:1 固定选择方式稀疏 Top-KDense全量适合场景Token 级精细检索全局长距离信号汇总两种层交替使用既不遗漏局部细节也不被细节拖累全局——这是 V4 在 1M 窗口下保持高质量理解的核心机理。四项关键 TrickQ/KV Normalizationcore attention 前对 query 和 KV 做 RMSNorm防止 logits 爆炸Partial RoPE仅对最后 64 维施加旋转位置编码输出端施加 -i 位置 RoPE 消除绝对位置信息只保留相对位置Sliding Window 辅助分支每个 query 额外可见最近 128 个 token 的原始 KV补偿局部短程依赖Attention Sink在 attention 分母加入可学习 sink logit允许注意力不强制归一在超长序列中尤为关键3. Muon 优化器向开源社区借力V4 训练中绝大多数参数的优化器从 AdamW 切换为Muon。Muon 由 Keller Jordan现 OpenAI提出基于矩阵正交化思想通过 Newton-Schulz 迭代将梯度矩阵正交化后再更新权重保证参数更新的数值稳定性。V4 的 Hybrid Newton-Schulz 改进前 8 步激进系数 → 快速将奇异值推向 1 附近 后 2 步温和系数 → 精确稳定奇异值在 1 处Muon 此前在 LLM 规模上的首次大规模验证来自Kimi K2MuonClip 变种在 1T 参数、15.5T token 训练全程零崩溃。DeepSeek 拿来后做了改进版本。有趣的对比Kimi 需要 QK-Clip 防 attention logits 爆炸DeepSeek 通过 Q/KV RMSNorm 从源头解决同样的问题。两家公司同一优化器两条路径——这是 2026 年开源社区技术交流最迷人的侧面。四、训练工程从 14.8T 到 33TV4 训练数据量实现翻倍模型训练 Token 量DeepSeek-V314.8TDeepSeek-V4-Flash32TDeepSeek-V4-Pro33T数据构成长文档数据单独 curate优先收录科学论文和技术报告等高密度学术材料。Tokenizer 沿用 V3 的 128K 词表保证知识传承连续性。序列长度四段式调度4K → 16K → 64K → 1M稀疏注意力不在预训练初期引入——前 1T token 使用 dense attention 暖机扩展到 64K 时才正式打开 sparsity渐进策略有效降低训练早期不稳定风险。Loss Spike 应急训练中途出现严重 loss spike团队总结出Anticipatory Routing和SwiGLU Clamping两个 trick。论文原话诚实得令人印象深刻这两个 trick 有效但底层机理仍是 open question。五、后训练范式革新OPD 替代混合 RLV4 最被忽视但方法论意义最深远的改变用 On-Policy DistillationOPD完全替代传统混合 RL。第一阶段训练 Domain Specialist在数学、代码、Agent、指令跟随四个领域各自独立训练 expertSFT 打底GRPO 做 domain-specific RL引入三档 reasoning effortNon-think / Think High / Think Max第二阶段OPD 合并十几个 Expert 通过 On-Policy Distillation 合进统一 StudentStudent 自行 rollout最小化reverse KL向对应 Expert 对齐数学任务向数学 Expert 靠编程任务向编程 Expert 靠工程挑战十几个万亿级 teacherTeacher 权重 offload 到分布式存储按需加载只缓存 hidden states不 materialize logits按 teacher 排序样本确保每个 mini-batch 只加载一个 teacher head优雅的方法论背后是一堆不这样做就装不下的工程妥协。这大概是超大模型研究的永恒底色。六、性能基准全景对比推理与知识能力BenchmarkV4-Pro-MaxGPT-5.4Gemini-3.1-ProClaude-Opus-4.6-MaxSimpleQA-Verified57.9———Codeforces Rating320631683052—HLE37.7—44.440.0V4-Pro-Max 在 SimpleQA-Verified 上领先所有开源模型约20 个百分点K2.6 为 36.9GLM-5.1 为 38.1。Codeforces rating 3206 超越 GPT-5.43168在人类选手中排名第 23——开源模型首次真正匹敌闭源头部。Agent 与工程能力BenchmarkV4-ProK2.6GLM-5.1MiniMax-M2.7GPT-5.5Agent Task Score (AA)1554148415351514—Terminal-Bench 2.0————82.7%SWE-Bench Pro——58.456.22%58.6%V4-Pro 以1554 分位居所有开源权重模型第一。长上下文效率差距与诚实V4 论文中团队直接承认了不足DeepSeek-V4-Pro-Max 的表现大约落后最前沿闭源模型GPT-5.5、Gemini-3.1-Pro3 到 6 个月。HLE 上V4-Pro-Max 37.7 对比 Gemini-3.1-Pro 44.4 与 Claude-Opus-4.6-Max 40.0仍有显著差距。1M MRCR 上V4 优于 Gemini 但明显不如 Claude。七、同期竞品深度横评2026 年 4 月AI 模型市场进入史无前例的卷王集中爆发期。一周之内OpenAI、月之暗面、阿里、智谱、MiniMax 和 DeepSeek 相继发布重磅模型。1. GPT-5.5OpenAI4月24日与 DeepSeek-V4 同日发布定位迄今为止最智能、最直观的 AI 模型。核心参数MoE 架构 ~1.8T 参数支持最高2M tokens上下文原生多模态文本/图像/代码。BenchmarkGPT-5.5GPT-5.4Terminal-Bench 2.082.7%75.1%SWE-Bench Pro58.6%—GDPval84.9%83.0%vs V4GPT-5.5 在 Terminal-Bench、Agent 复杂任务和多模态上仍具优势V4 在开源部署、1M 上下文成本效率和 Codeforces 竞赛编程上更具竞争力。2. Kimi K2.6月之暗面4月20日国内首个在多项 benchmark 上明确超越 GPT-5.4 和 Claude Opus 4.6 的开源模型。核心亮点13 小时连续编码Agent 集群可维持5 天自主运行支持300 个子 Agent并行工作Artificial Analysis 推理智能指数52 分全球第二大开源推理模型vs V4V4-Pro Agent Score1554超越 K2.61484但 K2.6 在长周期高难度编程 Agent 场景仍领先。定位差异K2.6 专注长程 Agent 专项V4 更全面均衡。3. Qwen3.6阿里云4月下旬模型参数量特点Qwen3.6-35B-A3B35B / 3B 激活极轻量 MoE家用显卡可运行Qwen3.6-27B27B 稠密性能媲美千亿级智能密度新高Qwen3.6-Max-Preview旗舰预览版登顶 Artificial Analysis 国产最佳vs V4Qwen3.6 在参数效率小参数高性能上出色V4 在百万上下文和 Agent 综合得分上领先。4. MiniMax M2.7MiniMax4月12日首个经过深度自我迭代的 MiniMax 模型开源首日完成华为昇腾、NVIDIA、摩尔线程等多平台适配。SWE-Bench Pro56.22%逼近 Claude Opus 顶级版Agent Score1514 分底层支撑 GitHub 95K Star 的 Hermes Agent日均 token 从 20 亿飙升至 3000 亿vs V4V4-Pro Agent Score 领先1554 vs 1514。M2.7 差异化在于社区生态和国产芯片 Day-0 适配。5. GLM-5.1智谱AI3月27日本轮发布潮最早的一批SWE-Bench Pro 创下开源模型登顶纪录。SWE-Bench Pro58.4超越 Claude Opus 4.657.3和 GPT-5.457.7登顶全球榜首Claude Code 评测45.3Claude Opus 4.6 为 47.9比例 94.6%持续编程8 小时稳定运行100% 华为国产算力训练vs V4GLM-5.1 是首个在 SWE-Bench Pro 击败所有顶尖闭源模型的开源里程碑V4-Pro 在 Agent 综合任务1554 vs 1535和 SimpleQA-Verified57.9 vs 38.1上反超。编程旗鼓相当知识广度差距显著。6. 综合横评矩阵维度GPT-5.5V4-ProK2.6Qwen3.6-MaxM2.7GLM-5.1综合推理★★★★★★★★★☆★★★★☆★★★★☆★★★★☆★★★★☆编程/Agent★★★★★★★★★★★★★★★★★★★☆★★★★☆★★★★★上下文长度2M1M————开源可用✗✓✓✓✓✓长程 Agent★★★★★★★★★☆★★★★★★★★★☆★★★☆☆★★★★☆成本效率★★★☆☆★★★★★★★★☆☆★★★★☆★★★☆☆★★★☆☆国产芯片支持✗✓—✓✓✓世界知识★★★★★★★★★☆★★★☆☆★★★★☆★★★☆☆★★★☆☆八、API 与开源部署API 快速接入V4 完整兼容 OpenAI ChatCompletions 和 Anthropic 接口仅需修改model参数fromopenaiimportOpenAI clientOpenAI(api_keyYOUR_DEEPSEEK_API_KEY,base_urlhttps://api.deepseek.com)# V4-Pro强力全功能版responseclient.chat.completions.create(modeldeepseek-v4-pro,messages[{role:user,content:请分析量子计算对现代密码学的影响}],)# V4-Flash高速经济版responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:写一个 Python 快速排序实现}],)思考模式responseclient.chat.completions.create(modeldeepseek-v4-pro,messages[{role:user,content:设计一个高并发分布式系统架构}],extra_body{thinking:{type:enabled,reasoning_effort:max# high 或 max}})旧接口迁移⚠️deepseek-chat和deepseek-reasoner将于2026年7月24日停止使用。deepseek-chat→ 现指向deepseek-v4-flash非思考模式deepseek-reasoner→ 现指向deepseek-v4-flash思考模式开源权重# Hugging Facegitlfsinstallgitclone https://huggingface.co/collections/deepseek-ai/deepseek-v4# ModelScope国内推荐modelscope download--modeldeepseek-ai/DeepSeek-V4-Pro完整技术报告DeepSeek_V4.pdf九、大模型发展趋势展望1. 超长上下文成为基础设施标配V4 宣告1M 上下文将是所有官方服务的标配GPT-5.5 进一步推到 2M。未来 12 个月百万 token 上下文将从高端特性变成底线配置。复杂的 RAG 检索增强、滑动窗口管理将逐渐被全塞进去的暴力美学取代。Agent 连续工作周期从小时级向天级演进。2. 效率竞争超越能力竞争DeepSeek 的底层逻辑从未是比 GPT 更强而是同等能力下成本低一个数量级。V4 将 1M token KV cache 压缩至 10%验证的是另一套价值体系。模型竞争主轴正从谁的 HLE 分更高转向谁能以最低成本交付可靠的生产级推理。3. 开源生态的技术反哺闭源Muon 从学术社区到 Kimi K2 再到 DeepSeek V4HC/mHC 从 Kimi 到 DeepSeek 的再创新——这是 2026 年开源 AI 研究生态最令人振奋的景象。开源与闭源之间的技术鸿沟持续收窄方法论如 OPD 替代混合 RL将在开源社区快速迭代。4. Agent 能力成为核心战场GPT-5.5 强调自主任务规划与工具调用K2.6 主打 13 小时连续编码与 300 子 Agent 并行GLM-5.1 以 8 小时稳定编程打榜V4 针对 Claude Code、OpenClaw、CodeBuddy 等主流 Agent 框架专项优化——Agent 能力正在取代回答问题成为旗舰模型的首要定义指标。5. 国产算力生态加速成熟V4 已支持华为昇腾明确 2026 年下半年昇腾 950 超节点批量上市后 Pro 版 API 价格将大幅下调。GLM-5.1 全程国产算力训练MiniMax M2.7 开源首日完成全平台适配。算力自主化将在两年内从可能性变为现实选项。6. 下一代架构信号已现V4 论文透露未来方向新维度稀疏性点名 Engram 条带状记忆路线、低延迟架构、长时程多轮 agentic 任务、多模态。未进入 V4 的Engram条件记忆模块已预留给 V5。纯粹的参数堆砌红利将继续递减架构创新权重持续上升。十、总结把 V4 放回 DeepSeek 的完整路径里看它不是在追赶 frontier而是在重新定义游戏规则。过去三年闭源大厂争的是能力上限——谁在 HLE 上拿更高分。DeepSeek 追求的是另一条线同等能力下的成本下限。从 V2 的 MLA 开始每一代都在删——删 KV cache、删激活参数、删注意力计算量。删到 V4单 token 推理 FLOPs 砍到 V3.2 的四分之一KV cache 砍到十分之一。于是一个很长的 Agent 会话一份反复回读的技术文档一次跨多仓库的重构——这些过去要切窗口、加 retrieval、精心管理上下文的场景在 V4 这里变成了全塞进去看看再说。百万 token 不是一个新的能力是同一个上下文窗口被压到了可以承担的成本。在 2026 年 4 月这个 AI 模型大爆发的特殊时刻DeepSeek 选择与 GPT-5.5 同日发布选择开源 1.6 万亿参数的旗舰模型选择写下AGI 属于每个人——这是技术实力的展示也是价值观的坚守。不诱于誉不恐于诽。484 天。1.6 万亿参数。百万 token。这就是 DeepSeek-V4。参考资料DeepSeek-V4 技术报告DeepSeek 官方公告DeepSeek 开源模型 (Hugging Face)DeepSeek 开源模型 (ModelScope)DeepSeek API 文档 - 思考模式量子位DeepSeek V4 报告详尽解读Kimi K2.6 开源发布公告阿里云 Qwen3.6-27B 开源公告MiniMax M2.7 正式开源公告智谱AI GLM-5.1 发布公告OpenAI GPT-5.5 发布信息Artificial Analysis 评测平台DeepSeek V4 Agent 能力评测报告