中国日报4月24日(记者 程钰)DeepSeek今日发布了DeepSeek-V4-Pro 1.6T 旗舰模型(1.86万亿参数)及DeepSeek-V4-Flash 284B 高效模型(2840亿)。由智源研究院牵头研发的众智FlagOS第一时间对两个“巨无霸”模型进行全量适配,已经完成 DeepSeek-V4-Flash在 8款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配,后续即将开源。
首先完成在八款芯片适配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列两大模型之一,采用混合专家(MoE)架构,总参数量 284B,激活参数仅 13B,支持 100 万 token上下文长度。该模型在架构上引入了混合注意力机制(结合压缩稀疏注意力CSA与高度压缩注意力HCA,大幅提升长上下文效率)、流形约束超连接(mHC,增强跨层 信号传播稳定性)以及 Muon优化器(加速收敛、提升训练稳定性)。预训练数据超过32Ttoken,后训练采用两阶段范式——先通过 SFT和GRPO强化学习独立培养领域专家,再通过在线策略蒸馏将多领域能力统一整合到单一模型中。在最大推理力度模式(Flash-Max)下,给予更大思考预算使其推理能力可接近Pro版本水平;受限于参数规模,在纯知识类任务和最复杂的Agent工作流上略逊于 Pro。
围绕DeepSeek-V4-Flash多芯适配,此次FlagOS系统软件技术栈突破了三大关键技术:FlagGems全算子替代(实现多芯片统一适配)、为o-group采用独立张量并行策略解锁更多低显存场景、以及“FP4+FP8混合精度”的原生权重到 FP8/BF16 的精度路径转换。当下国内出货的AI芯片,都没有FP4的支持。英伟达也只有在Blackwell及之后的高端芯片才支持FP4。这三项关键技术,使得DeepSeekV4能够在当前各种厂商的主流AI芯片上稳定运行,而非仅限于支持 FP4 和大显存的少数高端AI加速卡。