不是 NVIDIA 变成了昇腾,而是两者都在向同一个方向收敛:面向 Transformer 的专用数据流架构
是的,从“大模型专用计算”的方向看,NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA,确实越来越像昇腾这类 DSA/NPU 架构。这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。INT8 / FP16 / BF16 / FP8等路线,具体依平台。因为 FP4/NVFP4 已经不是“普通浮点计算”了。FP4 / NV
FP4 / NVFP4 架构是不是越来越像昇腾架构
是的,从“大模型专用计算”的方向看,NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA,确实越来越像昇腾这类 DSA/NPU 架构。
但要准确说:
不是 NVIDIA 变成了昇腾,而是两者都在向同一个方向收敛:面向 Transformer 的专用数据流架构。
1. 为什么说越来越像?
传统 GPU 的核心思想是:
大量通用 CUDA cores
SIMT 编程模型
通用并行计算
程序员自己管理线程、访存、同步
而现在 Hopper / Blackwell / Rubin 变得越来越像:
专用矩阵单元
专用数据搬运单元
低精度格式
scale 元数据
片上缓存流水
通信计算重叠
面向 Transformer 的专用 pipeline
这就和昇腾的思想接近了。
昇腾从一开始就是比较典型的 AI DSA 架构:
Global Memory
↓ MTE / DataCopy
Local Memory / UB / L0
↓
Cube 矩阵计算单元
Vector 单元
Scalar 控制单元
NVIDIA 新架构现在也越来越强调:
HBM
↓ TMA
Shared Memory
↓ WGMMA
Tensor Core
↓
FP8 / FP4 / NVFP4
你看这两个链路,其实思想很像:
外部大内存
↓ 专用搬运单元
片上缓存
↓ 专用矩阵单元
低精度矩阵计算
2. FP4/NVFP4 为什么让 NVIDIA 更像 NPU?
因为 FP4/NVFP4 已经不是“普通浮点计算”了。
它不是:
拿两个 FP32 数直接相乘
而是:
4-bit 编码值
+
block scale
+
global scale
↓
Tensor Core 内部解码 / 缩放 / MMA
数学上是:
x ≈ q_fp4 × s_block × s_global
矩阵乘变成:
C_ij ≈ Σ_k qA_ik qB_kj αA_ik αB_kj
这已经很像 NPU 的思路:
数据格式不是普通数值
而是“压缩编码 + scale + 专用矩阵单元”
换句话说,计算不再只是 arithmetic,而是 format-aware computation。
这和昇腾、寒武纪、TPU 这类 NPU 的思想很接近:
计算单元知道数据格式
搬运单元知道数据 layout
编译器知道 tile 和 scale
算子库知道模型结构
3. 本质趋势:GPU 正在 DSA 化
可以这样判断:
早期 GPU:
图形渲染加速器
CUDA 时代 GPU:
通用并行计算器
Volta / Ampere:
Tensor Core AI 加速器
Hopper:
Transformer 专用 GPU
Blackwell / Rubin:
AI factory / LLM inference DSA
也就是说,NVIDIA 仍然叫 GPU,但内部越来越多模块已经是专用加速器:
Tensor Core:专门做矩阵乘
TMA:专门搬 tensor tile
WGMMA:专门组织大粒度矩阵计算
Transformer Engine:专门管理 FP8/FP4 低精度
NVLink / NVSwitch:专门做多 GPU AI 通信
DPU / SuperNIC:专门做数据中心数据路径
这已经不是传统意义上的“通用 GPU”了。
所以你的判断是对的:
越到 Blackwell / Rubin,NVIDIA 越像一个围绕大模型重构的数据流计算架构。
4. 但它和昇腾仍然不一样
相似的是思想,不一样的是底层哲学。
NVIDIA 仍然保留 GPU 通用性
NVIDIA 还有:
CUDA
SIMT
warp
block
shared memory
通用 kernel
图形 / HPC / AI 多场景兼容
所以它不是纯 NPU。
它是:
通用 GPU 底座 + 越来越多 AI 专用单元
昇腾更像原生 AI DSA
昇腾更强调:
Cube 矩阵单元
Vector 单元
Scalar 控制
MTE 数据搬运
UB / L0 / Local Memory
CANN / Ascend C
算子编译和调度
它从设计起点就更接近:
AI workload 专用处理器
而不是图形 GPU 演化而来。
所以两者区别可以概括成:
5. 更深层的原因:Transformer 把硬件都逼向同一个形态
Transformer 的核心计算太固定了:
QK^T
softmax
P V
MLP GEMM
MoE expert GEMM
KV cache
all-to-all / all-reduce
所以所有硬件最后都会围绕这些东西优化:
矩阵乘
低精度
片上缓存
数据搬运
通信
scale
量化
MoE routing
KV cache
这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。
不是谁抄谁,而是:
大模型的数学结构把硬件架构收敛到了类似方向。
可以写成:
Transformer workload
↓
GEMM dominant
↓
Tensor Core / Cube / Matrix Engine
↓
低精度 FP8 / FP4 / INT8 / INT4
↓
片上 SRAM / UB / shared memory
↓
显式数据搬运 TMA / MTE
↓
编译器和算子库深度绑定
6. 对你做推理引擎的启发
你的机会不应该只停留在:
写一个 CUDA kernel
而是要理解这条共同主线:
模型结构
↓
矩阵形状
↓
量化格式
↓
数据 layout
↓
片上缓存
↓
搬运流水
↓
矩阵单元
↓
多卡通信
↓
推理服务系统
未来不管是 NVIDIA、昇腾、摩尔线程还是沐曦,真正有价值的是:
把 Transformer / MoE / KV cache / FP4量化
映射到具体硬件的数据流和矩阵单元上
也就是:
模型数学 → 硬件数据流 → kernel / compiler / runtime
7. 最简洁结论
是的,NVIDIA 的 FP4/NVFP4、TMA、WGMMA、Transformer Engine,让 Blackwell/Rubin 越来越像昇腾这类 AI DSA 架构。
但更准确地说:
不是 NVIDIA 变成了昇腾,而是 GPU 和 NPU 都在被大模型的数学结构逼向同一个方向:低精度矩阵单元 + 显式数据搬运 + 片上缓存流水 + 编译器/算子深度协同。
一句话:
未来 AI 芯片的分野不再是 GPU 还是 NPU,而是谁能把 Transformer/MoE 的矩阵数学最高效地映射到硬件数据流。
更多推荐


所有评论(0)