智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

来源：中国日报网 2026-04-24 22:20

分享到微信

中国日报4月24日（记者程钰）DeepSeek今日发布了DeepSeek-V4-Pro 1.6T 旗舰模型(1.86万亿参数）及DeepSeek-V4-Flash 284B 高效模型（2840亿）。由智源研究院牵头研发的众智FlagOS第一时间对两个“巨无霸”模型进行全量适配，已经完成 DeepSeek-V4-Flash在 8款以上 AI 芯片上的全量适配与推理部署，包括海光、沐曦、华为昇腾、摩尔线程（FP8）、昆仑芯、平头哥真武、天数、英伟达（FP8）等芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配，后续即将开源。

首先完成在八款芯片适配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列两大模型之一，采用混合专家（MoE）架构，总参数量 284B，激活参数仅 13B，支持 100 万 token上下文长度。该模型在架构上引入了混合注意力机制（结合压缩稀疏注意力CSA与高度压缩注意力HCA，大幅提升长上下文效率）、流形约束超连接（mHC，增强跨层信号传播稳定性）以及 Muon优化器（加速收敛、提升训练稳定性）。预训练数据超过32Ttoken，后训练采用两阶段范式——先通过 SFT和GRPO强化学习独立培养领域专家，再通过在线策略蒸馏将多领域能力统一整合到单一模型中。在最大推理力度模式（Flash-Max）下，给予更大思考预算使其推理能力可接近Pro版本水平；受限于参数规模，在纯知识类任务和最复杂的Agent工作流上略逊于 Pro。

围绕DeepSeek-V4-Flash多芯适配，此次FlagOS系统软件技术栈突破了三大关键技术：FlagGems全算子替代（实现多芯片统一适配）、为o-group采用独立张量并行策略解锁更多低显存场景、以及“FP4+FP8混合精度”的原生权重到 FP8/BF16 的精度路径转换。当下国内出货的AI芯片，都没有FP4的支持。英伟达也只有在Blackwell及之后的高端芯片才支持FP4。这三项关键技术，使得DeepSeekV4能够在当前各种厂商的主流AI芯片上稳定运行，而非仅限于支持 FP4 和大显存的少数高端AI加速卡。

【责任编辑：邵冰琦】

专题

推荐阅读

关于我们 | 联系我们

中国日报网版权说明：凡注明来源为“中国日报网：XXX（署名）”，除与中国日报网签署内容授权协议的网站外，其他任何网站或单位未经允许禁止转载、使用，违者必究。如需使用，请与010-84883777联系；凡本网注明“来源：XXX（非中国日报网）”的作品，均转载自其它媒体，目的在于传播更多信息，其他媒体如需转载，请与稿件来源方联系，如产生任何问题与本网无关。

版权保护：本网登载的内容（包括文字、图片、多媒体资讯等）版权属中国日报网（中报国际文化传媒（北京）有限公司）独家所有使用。未经中国日报网事先协议授权，禁止转载使用。给中国日报网提意见：rx@chinadaily.com.cn

智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

DeepSeek今日发布了DeepSeek-V4-Pro 1.6T 旗舰模型(1.86万亿参数）及DeepSeek-V4-Flash 284B 高效模型（2840亿）。

智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

第十六届北京国际电影节

全民国家安全教育日

中国对外文化集团有限公司

树立和践行正确政绩观学习教育