智源:FlagOS完成DeepSeekV4八款芯片Day0 适配,实现三重技术突破

DeepSeek今日发布了DeepSeek-V4-Pro 1.6T 旗舰模型(1.86万亿参数)及DeepSeek-V4-Flash 284B 高效模型(2840亿)。

智源:FlagOS完成DeepSeekV4八款芯片Day0 适配,实现三重技术突破

来源:中国日报网 2026-04-24 22:20
  • weixin
  • weibo
  • qqzone
分享到微信

中国日报4月24日(记者 程钰)DeepSeek今日发布了DeepSeek-V4-Pro 1.6T 旗舰模型(1.86万亿参数)及DeepSeek-V4-Flash 284B 高效模型(2840亿)。由智源研究院牵头研发的众智FlagOS第一时间对两个“巨无霸”模型进行全量适配,已经完成 DeepSeek-V4-Flash在 8款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配,后续即将开源。

首先完成在八款芯片适配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列两大模型之一,采用混合专家(MoE)架构,总参数量 284B,激活参数仅 13B,支持 100 万 token上下文长度。该模型在架构上引入了混合注意力机制(结合压缩稀疏注意力CSA与高度压缩注意力HCA,大幅提升长上下文效率)、流形约束超连接(mHC,增强跨层 信号传播稳定性)以及 Muon优化器(加速收敛、提升训练稳定性)。预训练数据超过32Ttoken,后训练采用两阶段范式——先通过 SFT和GRPO强化学习独立培养领域专家,再通过在线策略蒸馏将多领域能力统一整合到单一模型中。在最大推理力度模式(Flash-Max)下,给予更大思考预算使其推理能力可接近Pro版本水平;受限于参数规模,在纯知识类任务和最复杂的Agent工作流上略逊于 Pro。

围绕DeepSeek-V4-Flash多芯适配,此次FlagOS系统软件技术栈突破了三大关键技术:FlagGems全算子替代(实现多芯片统一适配)、为o-group采用独立张量并行策略解锁更多低显存场景、以及“FP4+FP8混合精度”的原生权重到 FP8/BF16 的精度路径转换。当下国内出货的AI芯片,都没有FP4的支持。英伟达也只有在Blackwell及之后的高端芯片才支持FP4。这三项关键技术,使得DeepSeekV4能够在当前各种厂商的主流AI芯片上稳定运行,而非仅限于支持 FP4 和大显存的少数高端AI加速卡。

【责任编辑:邵冰琦】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn
C财经客户端 扫码下载
Chinadaily-cn 中文网微信
×