CANN-ops-nn融合MatMul加LayerNorm-昇腾NPU上两个最忙算子怎么省一遍读写

摘要：本文介绍了在昇腾NPU上优化Transformer模型中MatMul和LayerNorm算子的融合技术。通过将这两个高频算子合并为一个操作，减少中间结果的HBM读写次数，可降低17-28%的延迟。具体实现使用torch_npu.npu.fused_linear_act_norm接口，将MatMul、Bias、激活函数和LayerNorm四合一处理，使中间数据在片上缓存流转。测试显示32层模型

2501_94424430

19人浏览 · 2026-05-19 22:19:51

2501_94424430 · 2026-05-19 22:19:51 发布

CANN-ops-nn融合MatMul加LayerNorm-昇腾NPU上两个最忙算子怎么省一遍读写

大模型的每一层 Transformer 里，MatMul 和 LayerNorm 是出勤率最高的两个算子。标准实现下它们各跑各的——MatMul 在 Cube 单元算完写回 HBM，LayerNorm 从 HBM 读出来在 Vector 单元算完再写回去。ops-nn 的融合版本让这两个算子共享片上缓存，省掉中间那一轮 HBM 读写。

为什么是这两个

单层 Transformer 里 MatMul 出现的次数：

Q Linear, K Linear, V Linear     → 3 次 MatMul
Attention Output Linear          → 1 次 MatMul
Gate Linear, Up Linear, Down Linear → 3 次 MatMul

LayerNorm（或 RMSNorm）出现 2 次：Attention 前一次，FFN 前一次。

而且它们的搭配是固定的：每组 MatMul 的输出 → 激活函数 → 下一个操作 → LayerNorm。数据流是线性的，融合条件天然满足。

融合前后的数据流

标准实现：
  HBM → Cube(MatMul) → HBM → Vector(Activation) → HBM → Vector(LayerNorm) → HBM
  4 次 HBM 读写

融合实现：
  HBM → Cube(MatMul) → 片上缓存 → Vector(Activation) → 片上缓存 → Vector(LayerNorm) → HBM
  2 次 HBM 读写（只读输入、只写最终输出）

HBM 读写减半。在昇腾NPU上 HBM 带宽约 1.2 TB/s，省一次 4096×4096 的 float16 读写（32MB）就是省约 27μs 的延迟。单层数字不大，32 层叠起来就是 0.86ms。

0.86ms 听起来也不多？在 decode 阶段，每生成一个 token 只需要 3-5ms，0.86ms 就是 17-28% 的延迟优化。

ops-nn 的融合接口

import torch_npu

# MatMul + Bias + SiLU + LayerNorm 四合一
out = torch_npu.npu.fused_linear_act_norm(
    x,           # 输入 [batch, seq, hidden]
    weight,      # 权重 [hidden, ff_dim]
    bias,        # 偏置 [ff_dim]
    norm_weight, # LayerNorm 权重 [ff_dim]
    norm_bias,   # LayerNorm 偏置 [ff_dim]
    activation="silu",
    eps=1e-5
)