众智 FlagOS Day0 实现 DeepSeek-V4 八芯适配:1.6T & 284B双模型,多元算力开箱即用
2026年4月24日中午,DeepSeek 对外发布并开源了全新DeepSeek V4 系列模型。根据参数大小,模型分为DeeSeek-V4-Pro 1.6T 和 DeepSeek-V4-Flash 284B 两个版本。众智 FlagOS 社区第一时间完成 DeepSeek-V4 系列模型的多芯片适配与推理部署,已支持海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯、英伟达等8种 AI
2026年4月24日中午,DeepSeek 对外发布并开源了全新DeepSeek V4 系列模型。根据参数大小,模型分为DeeSeek-V4-Pro 1.6T 和 DeepSeek-V4-Flash 284B 两个版本。

众智 FlagOS 社区第一时间完成 DeepSeek-V4 系列模型的多芯片适配与推理部署,已支持海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯、英伟达等8种 AI 芯片,并同步提供面向开发者的模型、代码与部署方案。这意味着,DeepSeek-V4 不再局限于少数高端硬件,通过统一开源系统软件栈 FlagOS,能在多种 AI 芯片上快速迁移、稳定运行。对于开发者、芯片厂商和产业用户而言,这不仅是一次模型适配,更是多元 AI 算力走向可用、易用、好用的重要一步。
DeepSeek-V4 系列2款模型均支持百万 Token 上下文,架构上引入混合注意力机制(CSA + HCA),在百万 Token 场景下 Pro 相比 V3.2 仅需 27% 推理 FLOPs 和 10% KV 缓存;采用流形约束超连接(mHC)增强跨层信号传播,并使用 Muon 优化器提升训练收敛和稳定性。两个模型均在 32T+ Token 上预训练,后训练采用两阶段范式:先通过 SFT + GRPO 强化学习培养领域专家能力,再经在线策略蒸馏统一融合。Pro-Max(最大推理模式)在代码基准达到顶尖水平,在推理和 Agent 任务上大幅缩小与领先闭源模型的差距;Flash-Max 在给予更多推理预算时可接近 Pro 级推理性能,但受限于参数规模,在纯知识类任务和复杂 Agent 工作流上略有差距。
性能参考如下官方评测结果

围绕 DeepSeek-V4 系列模型的多芯适配,此次 FlagOS 系统软件技术栈突破了三大关键技术:基于 FlagGems 全量替换 DeepSeek 原版算子,实现算子层多芯片统一适配;为 o-group 采用独立张量并行策略解锁更多低显存场景;完成 “FP4+FP8混合精度” 的原生权重到 FP8/BF16 的精度路径转换。当下,国内大规模部署的 AI 芯片,大都不支持 FP4 。英伟达也只在 Blackwell 及之后的高端芯片才支持 FP4。三项关键技术突破让 DeepSeek-V4 能在当前各种厂商的主流 AI 芯片上稳定运行,不再受限于支持 FP4 和大显存的少数高端 AI 加速卡。
Part.01
多芯版 DeepSeek V4 的获取与部署
FlagOS 技术栈为用户提供了“开箱即用”的多芯版 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。依托 FlagOS 的统一算子库 FlagGems、统一编译器 FlagTree 和训推框架 FlagScale,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)等八款芯片已经完成 DeepSeek-V4 系列模型的跨芯适配及验证。
用户在多芯片上部署 DeepSeek-V4 时,通常会先遇到几大挑战:算子缺失或不匹配,分布式部署多卡多节点配置复杂,模型格式与精度适配复杂。DeepSeek-V4 的原始权重多为量化格式(如 FP8),而各芯片对低精度数据类型的支持方式不一,权重转换和适配过程繁琐且容易出错。为解决上述性能与部署难题,FlagOS 提供了专门的适配仓库。
-
一键启用高性能算子库:通过设置环境变量 USE_FLAGGEMS=1,可自动切换至 FlagGems 为 DeepSeek-V4 深度优化的算子实现,无需手动逐算子替换,大幅提升多款芯片上的开箱可用性。
-
算法优化多卡通信:当模型并行数(MP)大于配置组数(o_groups)时,通过设置 USE_OGROUPS_COMM=1,自动启用分组投影独立通信组功能,精准解决 o_groups 张量切分数量限制。该仓库还提供了单机8卡、双机16卡的完整运行脚本(run_mp8.sh、run_node_0.sh 等),开箱即用。
-
自动化权重转换工具:内置纯 PyTorch 实现的 convert_weight.py 脚本,能够直接将 FP8/FP4 量化权重可靠地反量化为 BF16 格式,解决权重迁移到各种国产芯片上的兼容性问题。
-
量化加速功能:为 MoE 专家引入 INT8 逐通道对称量化,支持 W8A8 推理,能够进一步降低机器资源需求,提升性能与效率,并同时提供对应的量化配置和参数转换脚本方便用户使用。
GitHub仓库地址:
https://github.com/flagos-ai/DeepSeek-V4-FlagOS
方式一:FlagOS 安装部署
访问官方仓地址 https://github.com/flagos-ai/FlagGems,安装 FlagOS 算子库 。
# Install base dependencies
pip install -r requirements.txt
pip install flag-gems==5.0.2
访问仓库 https://github.com/flagos-ai/flagtree,安装FlagOS 编译器。
# 安装命令以英伟达平台为例:python3 -m pip uninstall -y tritonpython3 -m pip install flagtree===0.5.0 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple
使用 DeepSeek-V4-FlagOS 代码仓库进行部署
官方仓库:https://github.com/flagos-ai/DeepSeek-V4-FlagOS
单机(8卡):可使用如下命令,或者直接运行bash run_mp8.sh
export USE_FLAGGEMS=1 #开启加速torchrun --nproc-per-node 8 generate.py --max-new-tokens 64 --ckpt-path /path/to/model_bf16_mp8 --config config_from_bf16.json --input-file prompt.txt
-
双机(16卡)
可使用如下命令,或者直接在Node 0上运行bash run_node_0.sh
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=1
export USE_FLAGGEMS=1
export USE_OGROUPS_COMM=1
torchrun --nnodes=2 --nproc_per_node=8 --node_rank=0 --master_addr=<master_ip> --master_port=29500 generate.py --ckpt-path /path/to/model_bf16_mp16 --config config_from_bf16.json --input-file prompt.txt --max-new-tokens 64
对于 Node 1 情况,可使用如下命令,或者直接在 Node 1上运行 bash run_node_1.sh
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=1
export USE_FLAGGEMS=1
export USE_OGROUPS_COMM=1
torchrun --nnodes=2 --nproc_per_node=8 --node_rank=1 --master_addr=<master_ip> --master_port=29500 generate.py --ckpt-path /path/to/model_bf16_mp16 --config config_from_bf16.json --input-file prompt.txt --max-new-tokens 64
方式二:直接下载模型镜像
用户可以直接拉取在 FlagRelease 上发布的迁移后的模型文件、代码和镜像。以下是迁移适配后的几种 AI 芯片的模型版本,开箱即用、无需迁移。
魔搭平台
-
NVIDIA版
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-nvidia-FlagOS
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-nvidia-FlagOS
-
沐曦版
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-metax-FlagOS
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS
-
摩尔线程版
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-mthreads-FlagOS
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS
-
海光版
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-hygon-FlagOS
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-hygon-FlagOS
-
平头哥真武版
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-zhenwu-FlagOS
-
昆仑芯版
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-kunlunxin-FlagOS
-
华为昇腾版
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-ascend-FlagOS
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-ascend-FlagOS
-
天数智芯版
https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-iluvatar-FlagOS
HuggingFace平台
-
NVIDIA版
https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-nvidia-FlagOS
https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-nvidia-FlagOS
-
沐曦版
https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-metax-FlagOS
https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS
-
摩尔线程版
https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-mthreads-FlagOS
https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS
-
海光版
https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-hygon-FlagOS
https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-hygon-FlagOS
-
平头哥真武版
https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-zhenwu-FlagOS
-
昆仑芯版
https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-kunlunxin-FlagOS
-
华为昇腾版
https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-ascend-FlagOS
https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-ascend-FlagOS
-
天数智芯版
https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-iluvatar-FlagOS
Part.02
三大技术突破,让 DeepSeek 实现“多芯极速适配”
突破一:FlagGems 提供支持多元芯片的全算子替换方案,解决跨芯适配首要难题
在对 DeepSeek V4 系列模型的多芯适配过程中,FlagGems 实现了推理链路中全部算子的替代。这意味着什么?
-
彻底脱离 CUDA 算子依赖:DeepSeek V4 的 MoE 专家调度、Attention 计算、RMSNorm、TopK 路由等全部核心计算模块,均由 FlagGems 基于 Triton/Triton-TLE语言重新实现,不调用任何 cuDNN/cuBLAS 等 NVIDIA 私有库。
-
无需芯片厂商逐一适配:传统模式下,每款新模型上线,芯片厂商需要投入工程团队做算子适配。现在通过 FlagGems + FlagTree 编译器的组合,新模型的算子可以直接编译到多款芯片后端,芯片厂商不需要做任何额外工作。
-
新算子即时可用:DeepSeek V4 模型引入的新计算模式(如 o-group 相关的分组路由机制),FlagGems 已经实现了对应的新算子,并通过 FlagTree 编译器统一编译到所有支持的芯片后端。
FlagGems 作为全球最大的 Triton 单一算子库,已拥有超过400 个大模型常用算子,并已正式进入 PyTorch 基金会生态合作项目。在 40 个主流模型上,推理任务算子覆盖度达到 90%~100%,完整支持 DeepSeek V4 的全部计算需求。
突破二:为o-group采用独立并行策略,解除张量并行最多单机8卡限制
DeepSeek V4 为了进一步降低计算开销采用了分组输出投影技术(Grouped Output Projection),配置为o_group=8,这导致在传统的张量并行时候,最多切8份。而当前一些主流国产芯片的单卡显存为 32GB 或 64GB,尤其在BF16格式情况下,需要张量并行大于8份才能放的下。为了解除这个限制,FlagOS 专门针对 o_groups 进行了单独张量并行策略设计和实现,确保 o_goups 切分不超过 8 份的前提下,能够让模型其他部分还采用经典的张量并行策略,并且实现超过 8 份的切分。通过不同的张量并行策略组合,能够实现多于 8 台设备的张量并行运行。
FlagOS 对 o_group 张量并行的技术改动集中在以下方面。
-
独立的并行策略:独立于已有的张量并行通信组之外,为 o-group 单独构建所需要的张量并行通信组,确保其他模型结构张量并行切分超过 8 的情况下,o-group 的张量并行在 8 以内。
-
参数转换调整:对 o_group 相关的参数,也进行了对应单独的张量并行切分处理,以确保在新的独立张量并行策略下,也能够被正确加载。
-
覆盖面扩展:这一优化能够将 DeepSeek V4 在单独采用张量并行策略下,将可运行芯片范围从“仅限单机 80GB以上显存的个别高端卡” 扩展到“多机64GB/32GB的更多主流国产芯片”,例如海光、沐曦、天数智芯等厂商的主力产品线。
突破三:从“FP4+FP8混合精度” 到 BF16的精度转换,打通主流芯片的计算路径
DeepSeek V4 模型发布时,首次采用 FP4+FP8混合精度,该精度只有在 Blackwell 及之后的英伟达最新硬件上才有支持,但当前所有国内非英伟达 AI 芯片都未能支持,只有摩尔线程原生支持了 FP8,其余依然以 BF16 为主。
FlagOS 完成了从 FP4 到 BF16 的完整精度转换。
-
权重反量化:将 FP4 量化权重转换为 BF16 格式。这不是简单的类型转换,而是需要根据 DeepSeek 的量化方案进行逆量化计算,确保数值精度。
-
计算路径重建:FP4 和 BF16 在底层计算上有本质差,FP4 的动态范围更窄,累加精度、溢出处理策略均不同。FlagOS 对推理链路中的 GEMM、Attention、MoE 路由等关键计算节点逐一适配了 BF16 路径。
-
精度对齐验证:经过标准评测集验证,BF16 版本与 FP4 原生版本在核心能力指标上保持对齐,确保精度转换不引入业务层面的效果损失。
本次,FlagOS推出了FP8和BF16两种适配版本,让 DeepSeek V4 不局限在最新 NVIDIA 卡上,也能部署在 FP8 及 BF16 生态的其他芯片上。
Part.03
FlagGems开源新算子全面支持 DeepSeek-V4 系列模型
本次新发布的 DeepSeek-V4 模型共有大约 67 个算子,FlagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5个新算子,实现了对 DeepSeek-V4 的全面支持,也为跨芯适配打下重要基础。
FlagGems高性能算子库的下载使用
GitCode:https://gitcode.com/flagos-ai/FlagGems/tags/v5.0.2
Gitee: https://gitee.com/flagos-ai/FlagGems/tree/v5.0.2
GitHub:https://github.com/flagos-ai/FlagGems/tree/v5.0.2
为了支持更多 AI 芯片的使用,FlagOS 对 DeepSeek-V4 模型中使用的新算子使用 Triton 语言进行重新实现,基于 FlagTree 统一编译器,性能全部超过原生性能。(以下数据是针对DeepSeek-V4-Flash的测试)

C++ Wrapper 技术是 FlagOS 社区专门为提升基于 Triton 语言的算子内核调用效率而打造的技术。目前已经支持了该技术的芯片包括华为昇腾、寒武纪、摩尔线程、平头哥真武、及英伟达等。使用了 C++ Wrapper 技术,在普通的 Transformers 框架下,可以显著提升使用了 Triton 算子的模型的端到端效率,实现跨芯普适、和高效推理的双重目标。通过端到端效果评测(NV H20,DeepSeek-V4-Flash FP8),「C++ Wrapper + Triton」 比 TileLang 快 12.24%,比 Python Wrapper 版快 40.39%。
|
配置 |
FlagGems算子(C++ Wrapper + Triton) |
TileLang 算子(DeepSeek原版) |
Python Wrapper+ Triton算子 |
|
端到端吞吐(tokens/s) |
70.7 |
62.99 |
50.36 |
Part.04
开发者极致体验:“发布即多芯”+ “极简部署”
1、核心能力与原版本对齐
经 GPQA_Diamond、AIME等权威评测集验证,FlagOS 适配后的 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,在语言理解、复杂推理、代码生成、数学计算等核心能力上,与 CUDA 原版本对齐,可放心应用于金融、教育、政企服务、代码开发等场景,无需担心适配导致业务效果折损。
DeepSeek-V4-Pro 1.6T 万亿参数模型已经在摩尔线程、海光、沐曦、华为昇腾四款国产芯片完成了基于FlagOS技术栈的适配,并通过了初验。考虑到国产芯片当前的精度支持和显存大小,我们推出了int8的适配版本,更方便用户的实际部署使用。

2、极简部署:开箱即用,底层优化无感知
FlagOS 将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4代码框架中,开发者加载模型时,底层优化代码自动生效,无需手动添加任何 FlagOS 初始化代码。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docker 镜像 + 一键加速命令,解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。
Part.05
FlagOS 2.0 技术底座:从大模型到智能体时代的全栈升级
DeepSeek-V4 系列模型的三重突破,依托的是 FlagOS 2.0 统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层,全链路为大模型跨芯适配提供技术支撑,将原本数周的适配周期缩短至数天,真正实现极速落地。

1、高性能算子库 FlagGems:核心算子深度适配,释放硬件算力
FlagGems 作为 FlagOS 核心的高性能通用大模型算子库,基于 Triton 语言实现,针对 DeepSeek-V4推理链路的核心算子进行了深度适配与优化,包括 MoE 专家调度、Attention 计算、RMSNorm 等关键计算模块,同时原生支持 NVIDIA、摩尔线程、沐曦、清微智能、天数等接近 20 家 AI 芯片。
2、统一 AI 编译器 FlagTree:一次编写,多芯编译
FlagTree 是 FlagOS 面向多 AI 芯片后端的统一编译器,基于 Triton 深度定制,可将 DeepSeek-V4的核心算子编译为英伟达、摩尔线程等十多种不同 AI 芯片后端可识别的指令,彻底解决不同芯片编译器生态割裂的问题,大幅降低算子跨芯片适配的开发成本。
3、模型跨芯迁移发布工具 FlagRelease:半自动实现模型跨芯迁移与版本发布
依托 FlagOS 全栈技术能力,FlagRelease 已完成 DeepSeek-V4在多种芯片上的模型迁移、精度对齐与版本发布,覆盖 HuggingFace、魔搭等开源社区平台。开发者可直接下载使用,无需自行迁移。截至本文发布,FlagRelease 已发布覆盖 10+ 家芯片厂商、12+ 款硬件、70+ 个开源模型实例的跨芯适配版本。
4、统一多芯片接入插件 vLLM-plugin-FL:无缝兼容原生使用习惯
vLLM-plugin-FL 是 FlagOS 为 vLLM 推理服务框架打造的专属插件,基于 FlagOS 统一多芯片后端开发,在完全不改变 vLLM 原生接口与用户使用习惯的前提下,实现多芯片推理部署。目前 vLLM-plugin-FL 已经支持了清微、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为、英伟达等多家芯片。
Part.06
开源共建:FlagOS 持续做开发者的“跨芯适配后盾”
当下,"异构算力协同、大模型普惠落地"已成为全球开源开发者社区的核心热点,打破硬件生态隔离、让大模型在不同算力平台高效低成本运行,是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因,始终以开发者为中心,通过全栈开源的统一系统软件栈,把复杂的"M×N"硬件适配问题降维为"M+N",做每一位开发者最可靠的跨芯适配后盾
全栈开源无保留,把技术主动权交给开发者
目前,FlagOS 已形成完整的开源技术体系,所有核心组件均已开源在 GitHub,同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践,开发者可自由获取、深度定制:
-
四大核心技术库: FlagGems 通用大模型算子库、FlagTree 统一 AI 编译器、FlagScale 训练推理并行框架、FlagCX 统一通信库,覆盖算子开发、编译优化、并行计算、跨芯片通信全链路;
-
三大开源工具平台: FlagRelease 大模型自动迁移发版平台、KernelGen 算子自动生成工具、FlagPerf 多芯片评测工具,提供从模型适配、性能评测到工程落地的一站式工具链;
-
全场景扩展生态: vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增强组件,以及 FlagOS-Robo 具身智能工具包,覆盖大模型训练、推理、应用全场景。
多路径参与共建,全层级开发者均可入局
我们为不同技术方向、不同经验层级的开发者,设计了低门槛、多路径的共建方式,无论你是 AI 开发新手,还是深耕系统软件的资深专家,都能在 FlagOS 社区找到自己的位置。
-
新手友好型参与: 可在对应仓库提交 Issue 反馈 bug、优化建议,或是补充完善文档、撰写入门教程与最佳实践,也可参与社区技术交流、分享使用经验,零门槛开启开源之旅;(社区文档参考https://docs.flagos.io/en/latest/)
-
深度技术共建: 开发者可直接参与 FlagGems 算子开发与优化(新增算子 / 性能调优 / 新芯片后端支持)、KernelGen 算子生成流程增强、FlagTree 编译器后端扩展等核心模块,与社区核心开发者一起推动技术演进。
-
生态工具贡献: 开发者可基于 FlagOS Skills 开发面向国产芯片的 AI Agent 专业技能,帮助更多开发者通过自然语言完成芯片适配、模型部署等操作。
更多推荐




所有评论(0)