不是 NVIDIA 变成了昇腾，而是两者都在向同一个方向收敛：面向 Transformer 的专用数据流架构

是的，从“大模型专用计算”的方向看，NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA，确实越来越像昇腾这类 DSA/NPU 架构。这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。INT8 / FP16 / BF16 / FP8等路线，具体依平台。因为 FP4/NVFP4 已经不是“普通浮点计算”了。FP4 / NV

luoganttcc

112人浏览 · 2026-06-04 17:46:34

luoganttcc · 2026-06-04 17:46:34 发布

FP4 / NVFP4 架构是不是越来越像昇腾架构

是的，从“大模型专用计算”的方向看，NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA，确实越来越像昇腾这类 DSA/NPU 架构。

但要准确说：

不是 NVIDIA 变成了昇腾，而是两者都在向同一个方向收敛：面向 Transformer 的专用数据流架构。

1. 为什么说越来越像？

传统 GPU 的核心思想是：

大量通用 CUDA cores
SIMT 编程模型
通用并行计算
程序员自己管理线程、访存、同步

而现在 Hopper / Blackwell / Rubin 变得越来越像：

专用矩阵单元
专用数据搬运单元
低精度格式
scale 元数据
片上缓存流水
通信计算重叠
面向 Transformer 的专用 pipeline

这就和昇腾的思想接近了。

昇腾从一开始就是比较典型的 AI DSA 架构：

Global Memory
    ↓ MTE / DataCopy
Local Memory / UB / L0
    ↓
Cube 矩阵计算单元
Vector 单元
Scalar 控制单元

NVIDIA 新架构现在也越来越强调：

HBM
    ↓ TMA
Shared Memory
    ↓ WGMMA
Tensor Core
    ↓
FP8 / FP4 / NVFP4

你看这两个链路，其实思想很像：

外部大内存
    ↓ 专用搬运单元
片上缓存
    ↓ 专用矩阵单元
低精度矩阵计算

2. FP4/NVFP4 为什么让 NVIDIA 更像 NPU？

因为 FP4/NVFP4 已经不是“普通浮点计算”了。

它不是：

拿两个 FP32 数直接相乘

而是：

4-bit 编码值
    +
block scale
    +
global scale
    ↓
Tensor Core 内部解码 / 缩放 / MMA

数学上是：

x ≈ q_fp4 × s_block × s_global

矩阵乘变成：

C_ij ≈ Σ_k qA_ik qB_kj αA_ik αB_kj

这已经很像 NPU 的思路：

数据格式不是普通数值
而是“压缩编码 + scale + 专用矩阵单元”

换句话说，计算不再只是 arithmetic，而是 format-aware computation。

这和昇腾、寒武纪、TPU 这类 NPU 的思想很接近：

计算单元知道数据格式
搬运单元知道数据 layout
编译器知道 tile 和 scale
算子库知道模型结构

3. 本质趋势：GPU 正在 DSA 化

可以这样判断：

早期 GPU：
图形渲染加速器

CUDA 时代 GPU：
通用并行计算器

Volta / Ampere：
Tensor Core AI 加速器

Hopper：
Transformer 专用 GPU

Blackwell / Rubin：
AI factory / LLM inference DSA

也就是说，NVIDIA 仍然叫 GPU，但内部越来越多模块已经是专用加速器：

Tensor Core：专门做矩阵乘
TMA：专门搬 tensor tile
WGMMA：专门组织大粒度矩阵计算
Transformer Engine：专门管理 FP8/FP4 低精度
NVLink / NVSwitch：专门做多 GPU AI 通信
DPU / SuperNIC：专门做数据中心数据路径

这已经不是传统意义上的“通用 GPU”了。

所以你的判断是对的：

越到 Blackwell / Rubin，NVIDIA 越像一个围绕大模型重构的数据流计算架构。

4. 但它和昇腾仍然不一样

相似的是思想，不一样的是底层哲学。

NVIDIA 仍然保留 GPU 通用性

NVIDIA 还有：

CUDA
SIMT
warp
block
shared memory
通用 kernel
图形 / HPC / AI 多场景兼容

所以它不是纯 NPU。

它是：

通用 GPU 底座 + 越来越多 AI 专用单元

昇腾更像原生 AI DSA

昇腾更强调：

Cube 矩阵单元
Vector 单元
Scalar 控制
MTE 数据搬运
UB / L0 / Local Memory
CANN / Ascend C
算子编译和调度

它从设计起点就更接近：

AI workload 专用处理器

而不是图形 GPU 演化而来。

所以两者区别可以概括成：

维度 NVIDIA Blackwell / Rubin 华为昇腾起点 GPU 演化 AI NPU / DSA 编程模型 CUDA / SIMT + Tensor Core CANN / Ascend C / Cube 数据搬运 TMA / shared memory MTE / UB / L0 矩阵单元 Tensor Core Cube 低精度 FP8 / FP4 / NVFP4 INT8 / FP16 / BF16 / FP8等路线，具体依平台通用性更强更偏 AI 专用生态 CUDA 极强国产生态、CANN 体系方向 GPU DSA 化 NPU 工程化

5. 更深层的原因：Transformer 把硬件都逼向同一个形态

Transformer 的核心计算太固定了：

QK^T
softmax
P V
MLP GEMM
MoE expert GEMM
KV cache
all-to-all / all-reduce

所以所有硬件最后都会围绕这些东西优化：

矩阵乘
低精度
片上缓存
数据搬运
通信
scale
量化
MoE routing
KV cache

这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。

不是谁抄谁，而是：

大模型的数学结构把硬件架构收敛到了类似方向。

可以写成：

Transformer workload
      ↓
GEMM dominant
      ↓
Tensor Core / Cube / Matrix Engine
      ↓
低精度 FP8 / FP4 / INT8 / INT4
      ↓
片上 SRAM / UB / shared memory
      ↓
显式数据搬运 TMA / MTE
      ↓
编译器和算子库深度绑定

6. 对你做推理引擎的启发

你的机会不应该只停留在：

写一个 CUDA kernel

而是要理解这条共同主线：

模型结构
    ↓
矩阵形状
    ↓
量化格式
    ↓
数据 layout
    ↓
片上缓存
    ↓
搬运流水
    ↓
矩阵单元
    ↓
多卡通信
    ↓
推理服务系统

未来不管是 NVIDIA、昇腾、摩尔线程还是沐曦，真正有价值的是：

把 Transformer / MoE / KV cache / FP4量化
映射到具体硬件的数据流和矩阵单元上

也就是：

模型数学 → 硬件数据流 → kernel / compiler / runtime

7. 最简洁结论

是的，NVIDIA 的 FP4/NVFP4、TMA、WGMMA、Transformer Engine，让 Blackwell/Rubin 越来越像昇腾这类 AI DSA 架构。

但更准确地说：

不是 NVIDIA 变成了昇腾，而是 GPU 和 NPU 都在被大模型的数学结构逼向同一个方向：低精度矩阵单元 + 显式数据搬运 + 片上缓存流水 + 编译器/算子深度协同。

一句话：

未来 AI 芯片的分野不再是 GPU 还是 NPU，而是谁能把 Transformer/MoE 的矩阵数学最高效地映射到硬件数据流。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

鸿蒙原生从入坑到放弃

一个人摸索确实踩了不少坑（尤其是 ArkTS 的线程模型和 AVRecorder 的状态机），希望能帮后来者省点时间。鸿蒙的开发体验和 Android ，iOS 差别挺大，但 ArkUI 声明式写 UI 确实爽。分享一下这三个 App 分别用了什么技术，希望能给正在入门的朋友一些参考。这三个里最复杂的一个。把手机屏幕变成 LED 灯牌，文字水平/垂直滚动，背景色和字体色自由搭配。从零开始摸Harm

人工智能6S服务平台

奇点倒计时与算力新命题：一场超节点技术巅峰对话的全纪录

人工智能6S服务平台

原厂拒修GPU维修案例分享｜一张进水A100的芯片级修复实录，附维保方案

江苏源捷由上市京源环保旗下京源云计算与深耕十余年的深圳迅捷合资成立，总部位于江苏南通，专注AI服务器、全品类GPU芯片精修与IDC全周期运维，专攻各类原厂拒修疑难算力卡。等芯片级手段，大部分进水、虚焊、过流故障都可以被挽回，单卡修复成本仅为新卡采购价的15%~25%。检测设备：自研红外故障定位技术，配套X-Ray、工业CT、BGA 整套精密检修设备；IDC 厂商、AI 科技企业、算力运营方如需实地