FlashAttention 算子深度解析：让大模型在昇腾NPU上跑得更快

FlashAttention 是个好东西，尤其是在昇腾 NPU 上，它能让你的显存占用掉 75%，推理速度翻一倍。要在昇腾上用，记得去 AtomGit 上把 ops-transformer 仓库 clone 下来，里面有现成的 Ascend C 实现，直接编译就能用。踩坑的时候注意 seq_len 的对齐问题，还有不同 NPU 型号（训练卡 vs 推理卡）的 SRAM 大小不一样，分块参数得动态调

徐安安ye

17人浏览 · 2026-05-22 19:56:54

徐安安ye · 2026-05-22 19:56:54 发布

刚接触 CANN 那会，我被大模型推理的显存占用砸懵了。那时候跑个 7B 参数的模型，光是注意力计算就能把显存吃满，更别提 batch 一大就 OOM（Out of Memory）。后来在昇腾 NPU 上折腾 ops-transformer 仓库的时候，才发现 FlashAttention 这个算子有多香——它不光省显存，还能让推理速度飞起来。

为什么注意力计算这么吃显存？

要理解 FlashAttention，得先搞明白标准 Attention 计算到底干了什么。假设你在跑一个 Transformer 模型，sequence_length=2048，hidden_size=4096，光是存储注意力矩阵就需要 2048 × 2048 × 4字节（FP32）= 16MB。这还是一个头的数据，要是 32 个头，直接 512MB 没了。

标准 Attention 的计算流程是这样的：

计算 QK^T（查询 × 键的转置）→ 得到 [seq_len, seq_len] 的矩阵
除以 √d_k（缩放因子）
过 Softmax
乘以 V（值矩阵）→ 得到最终输出

问题就出在第二步和第三步之间：你得把整个 [seq_len, seq_len] 的矩阵存下来，才能在下一步做 Softmax。这就是显存占用的大头。

FlashAttention 的核心思路：不存中间结果

FlashAttention 的聪明之处在于：它不把整个注意力矩阵存下来，而是分块计算，边算边把结果写回显存。

打个不太准确但好理解的比方：

标准 Attention 就像你要算全班同学两两之间的相似度，得先画个 N×N 的表格，填完所有格子再算最终结果。
FlashAttention 就像你站在教室门口，每次喊一个同学进来，跟里面所有人比一下，把结果直接记到总分里，然后让他出去。这样你根本不需要那个 N×N 的表格。

技术上，FlashAttention 用了这三个技巧：

Tiling（分块）：把 Q、K、V 矩阵切成小块，每次只加载一小块到 SRAM（速度快但容量小）。
Recomputation（重计算）：反向传播的时候，不存中间的注意力矩阵，而是重新算一遍前向（用保存的 Q、K、V 分块）。
Fused Kernel（算子融合）：把 Softmax、Dropout、Mask 这些操作都融合到一个 CUDA 核函数里，减少显存读写次数。

ops-transformer 仓库里的 FlashAttention 实现

在昇腾 CANN 的 ops-transformer 仓库里，FlashAttention 算子是用 Ascend C 编程语言写的。Ascend C 是昇腾异构计算架构里的算子开发接口，跑在昇腾达芬奇架构的 NPU 上。

具体代码我就不贴了（涉及 Ascend C 的 API 调用，篇幅会爆炸），但核心逻辑是：

分块加载：用 GlobalTensor 从 Global Memory 读 Q、K、V 的分块，搬到 LocalTensor（UB 缓冲区）。
在线 Softmax：在每个分块内部算 Softmax，同时维护一个全局的 m_i 和 l_i（分别是最大值和归一化因子）。
融合 Dropout + Mask：在算子内部直接把这两个操作做了，不额外存中间张量。
写回显存：算完一个分块，立刻把结果写回 Global Memory，腾出 UB 空间给下一个分块。

你要是想看具体实现，直接去 AtomGit 上搜 ops-transformer 仓库，里面的 flash_attention_v2 目录就是。

性能收益：能快多少？

直接上数据（我在 Atlas 800T A2 服务器上测的，模型是 Llama-2-7B，batch_size=1）：

配置	首 Token 延迟 (ms)	显存占用 (MB)	吞吐 (tokens/s)
标准 Attention	2380	512	42
+ FlashAttention	1120	128	89

显存省了 75%，速度翻了一倍多。

要是 batch_size 大到 32，标准 Attention 直接 OOM，FlashAttention 还能跑，吞吐能到 1200+ tokens/s。

在昇腾 NPU 上用 FlashAttention 的踩坑记录

我第一次在昇腾 NPU 上跑 FlashAttention，遇到两个坑：

坑 1：seq_len 不是 128 的倍数会 crash

原因：Ascend C 的 DataCopy 要求地址对齐，你的 seq_len 要是 128 的倍数，不然分块的时候会越界。
解决：在 Python 侧做 padding，把 seq_len pad 到 128 的倍数，计算完再把多余的部分截掉。

坑 2：Atlas 300I Duo 上性能不如预期

原因：这块卡是推理卡，SRAM 比训练卡小，分块大小得调小，不然频繁触发 spill（溢出到显存）。
解决：用 aclrtGetMemInfo 查一下 SRAM 大小，动态算分块大小，别写死。

FlashAttention V2 和 V1 的区别（昇腾这边）

ops-transformer 仓库里现在主推的是 FlashAttention V2，跟 V1 比有两个改进：

不用保存注意力矩阵：V1 为了反向传播，得保存一个 N×N 的注意力矩阵（虽然它是分块存的，但总大小还是 O(N²)）；V2 改了反向计算的公式，直接重计算，显存降到 O(N)。
更好的并行策略：V1 是按 batch 和 head 维度并行，V2 改成按 sequence 长度并行，对长序列更友好。

在昇腾 NPU 上，V2 相比 V1 还能再快 10-15%（ seq_len=4096 的时候）。

什么场景用 FlashAttention 最划算？

不是所有场景都值得上 FlashAttention，我总结了一个简单的决策表：

场景	推荐用吗？	原因
长文本生成（seq_len > 1024）	强烈推荐	标准 Attention 显存爆炸，FlashAttention 是唯一选择
短文本（seq_len < 512）	不推荐	分块带来的额外开销抵消了显存收益
批量推理（batch_size > 8）	推荐	显存省下来的部分可以放更大的 batch
训练（要反向传播）	推荐	V2 的重计算策略让反向更快

在 PyTorch 模型里怎么调用？

假设你用的是 PyTorch 框架，要在昇腾 NPU 上调用 ops-transformer 的 FlashAttention，流程是这样的：

import torch
import torch_npu  # 昇腾的 PyTorch 插件

# 1. 把模型迁到 NPU 上
model = model.npu()

# 2. 用 NPU 的 FlashAttention（底层调的是 ops-transformer 的算子）
from torch_npu.contrib.functional import npu_flash_attention

# 3. 在前向里替换标准 Attention
def forward(self, x):
    q, k, v = self.qkv(x).chunk(3, dim=-1)
    # 标准写法：attn = (q @ k.transpose(-2, -1)) / math.sqrt(d_k)
    # 换成：
    attn_output = npu_flash_attention(q, k, v, head_num=self.num_heads)
    return attn_output

注意：npu_flash_attention 要求输入是 NPU 上的张量，不能在 CPU 上算。另外 seq_len 最好 pad 到 128 的倍数（前面说的坑）。

FlashAttention 之外的优化：MC2 和 MoE 融合

ops-transformer 仓库里不只有 FlashAttention，还有两个跟注意力计算强相关的优化：

MC2（Multi-Query Multi-Head Cross-Attention）：把多查询注意力和交叉注意力融合到一个算子，适合 encoder-decoder 架构（比如 T5、BART）。
MoE 融合（Mixture of Experts）：如果你用的是 MoE 模型（比如 Mixtral），可以把路由选择和注意力计算融合，减少一次显存读写。

这两个我就不展开了，每个都能单独写一篇，感兴趣的去 ops-transformer 仓库里翻代码。

昇腾 NPU 上的 FlashAttention 还能再快吗？

能。现在 ops-transformer 仓库里的实现还有优化空间：

用 catlass 模板库重写：catlass 是昇腾的算子模板库，用它的模板写 FlashAttention，能自动帮你做流水线调度和双缓冲，性能还能提 5-10%。
通算融合：CANN 8.0 开始支持"通算融合"（通信和计算重叠），如果你在跑分布式推理，可以把 FlashAttention 和 HCCL 的集合通信融合，省掉一次显存拷贝。
量化：用 INT8 或 FP16 跑 FlashAttention，虽然精度会掉一点，但速度能再快 30-40%。

这些优化现在都在 ops-transformer 的 Roadmap 里，感兴趣的可以去提 Issue 或者提 PR。