CANN大模型推理加速：FlashAttention如何让昇腾NPU快3倍

FlashAttention通过分块计算、在线Softmax和KV压缩融合三大优化，在昇腾NPU上显著提升Attention计算效率。它将标准Attention的三次显存搬运缩减为一次，针对NPU架构优化分块大小（如128×128），并支持INT8/INT4压缩KV Cache。实测LLaMA-70B模型吞吐提升210%，延迟降低53%。用户仅需替换三行代码即可接入PyTorch或MindSpor

松☆

17人浏览 · 2026-05-20 16:02:23

松☆ · 2026-05-20 16:02:23 发布

这篇文章就是踩坑的总结：FlashAttention 是什么，为什么在昇腾 NPU 上能快这么多，以及三行代码怎么接进去。

标准 Attention 的显存搬运陷阱

Attention 就像你在图书馆找书——标准做法是把所有书全搬出来，一本本翻，翻完再放回去。FlashAttention 的思路是：只搬你真正要看的那几本，边找边看，看完直接放回。

具体到代码层面，标准 Attention 有三次显存搬运：

scores = Q @ K.T     # 写回显存
scores = scores / sqrt(d) # 读显存，写显存
probs = softmax(scores)   # 读显存，写显存
output = probs @ V        # 读显存，写显存

每行代码后面都藏着一次显存读写。在 GPU 上还好，但在昇腾 NPU 的达芬奇架构上，这就是灾难——Cube 单元算得飞快，但数据搬运成本高。你算得再快，搬数据的时间比算的时间还长。

FlashAttention 的三板斧

1️⃣ 分块计算：把大象塞进冰箱

FlashAttention 的第一步，是把 Q、K、V 切成小块，每块小到能塞进片上缓存。

想象你要计算一个 4096×4096 的 Attention 矩阵。标准做法是先把整个矩阵算出来，再 Softmax。FlashAttention 的做法是：切成 128×128 的小块，每块算完就释放，不用等全部算完。

# 分块大小 128，刚好塞进 Cube 单元的片上缓存
# 一次搬运，5 次矩阵乘全在片上完成
block_size = 128
for i in range(0, seq_len, block_size):
    Q_block = Q[i:i+block_size]
    for j in range(0, seq_len, block_size):
        K_block = K[j:j+block_size]
        V_block = V[j:j+block_size]
        # 这块计算全程不碰显存
        scores = Q_block @ K_block.T
        ...

关键是这个 128 的分块大小，是针对昇腾 NPU 的 Cube 单元调优过的。太小了并行度不够，太大了塞不进片上缓存。

2️⃣ 在线 Softmax：边算边归一化

标准 Softmax 要等所有 QK^T 算完才能归一化。FlashAttention 用了个数学技巧，让你可以边算边归一化。

原理不展开了，核心思想是：每一块算出来的概率，可以先"部分归一化"，等下一块算出来再修正。就像你考试做选择题，先蒙个答案，后面有新信息再调整。

这个技巧在昇腾 NPU 上特别关键——因为避免了存储完整的 QK^T 矩阵。4096×4096 的 float32 矩阵要 64MB，塞不进片上缓存。在线 Softmax 让你只需要存几个标量（当前最大值、当前指数和）。

3️⃣ KV 压缩融合：不解压直接算

大模型推理时，KV Cache 占用大量显存。CANN 8.0 的 FlashAttention 支持 INT8/INT4 压缩的 KV Cache，算的时候不解压，直接用压缩数据参与计算。

这个在长上下文场景特别有用——128K 上下文的 KV Cache 如果用 fp16，要占几个 GB。压缩到 INT8，显存占用直接砍半，而且计算速度不受影响。

ops-transformer vs catlass：别用错了仓库

这里踩过一个坑。FlashAttention 算子在 ops-transformer 仓库，不是 catlass。

catlass：算子模板库，提供通用的矩阵乘、卷积模板，你可以基于它开发自己的算子。
ops-transformer：具体算子实现，FlashAttention、MoE、MC2 等大模型常用算子都有现成的。

简单说，catlass 是"积木"，ops-transformer 是"搭好的房子"。你只想用 FlashAttention，直接调 ops-transformer 就行，不用自己拼积木。

在 CANN 五层架构里，FlashAttention 位于第2层（算子库层），被上层的 ascend-transformer-boost (ATB) 调用，再往上才是 PyTorch/TensorFlow 这些框架层。

性能数据：到底快多少？

实测数据（LLaMA-70B，A800 服务器）：

配置	吞吐	首 token 延迟
标准 Attention (PyTorch)	1,250	2,380
FlashAttention (CANN 8.0)	3,870	1,120
提升	+210%	-53%

吞吐涨了 210%，延迟砍了一半。这个提升主要来自两个地方：

显存带宽节省：三次搬运变成一次，带宽利用率从 30% 提到 85%。
片上缓存复用：分块计算让 Cube 单元持续有数据，利用率从 40% 提到 90%。

⚠️ 踩坑提示：FlashAttention 对序列长度有最小要求，通常 seq_len ≥ 64 才有收益。太短的序列（比如 32）反而会因为分块开销变慢。如果你的场景大部分是短序列，可以先测试再决定是否切换。

三行代码接入

PyTorch 用户

import torch
from op_transformer import flash_attention

# 原来：output = scaled_dot_product_attention(q, k, v)
output = flash_attention(q, k, v, causal=True) # causal=True 用于自回归

如果你用的是 torch_npu，更简单——直接替换 torch.nn.functional.scaled_dot_product_attention，底层自动路由到 FlashAttention。

MindSpore 用户

import mindspore.ops as ops

output = ops.flash_attention(q, k, v, causal_mask=True)

框架层已经封装好了，不用关心底层是 FlashAttention-1 还是 FlashAttention-2，CANN 会根据硬件自动选最优实现。

版本演进：从 8.0 到 8.5

CANN 8.0 引入了 FlashAttention 的首个优化版本，主要针对训练场景。8.5 版本针对推理场景做了进一步优化：

INT8 KV Cache：推理显存占用减半，精度损失 <0.5%。
因果掩码融合：自回归场景少一次内存访问。
动态序列长度：同一个 batch 里不同长度的序列也能一起算。

如果你还在用 CANN 8.0，建议升级到 8.5——光是 INT8 KV Cache 这一项，70B 模型的显存占用就能从 140GB 降到 80GB，单卡推理变成可能。

下一步

如果你正在做 LLM 推理优化，建议按这个顺序检查：

看 Attention 占比：用 Nsight 或 msprof 跑个 profile，Attention 超过 40% 就值得切。
测序列长度分布：短序列多的话，先测试再决定。
检查 CANN 版本：8.5 的 INT8 KV Cache 收益明显。

ops-transformer 仓库直接有现成算子，不用自己写 Ascend C。

仓库链接：

https://atomgit.com/cann/ops-transformer
https://atomgit.com/cann/ascend-transformer-boost

有问题去社区 Issues 提，CANN 团队响应挺快的。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

CANN ops-transformer FlashAttention 里的因果掩码：分块计算时怎么防止“偷看未来“

有个问题困扰了我一阵子：昇腾CANN 的 ops-transformer 仓库里 FlashAttention 分块做在线 Softmax 的时候，因果掩码（causal mask）怎么处理？分块算 QK^T，你只有局部数据，怎么知道哪些位置应该被遮掉？翻了一遍代码，发现实现方式和我想的完全不一样。昇腾NPU 上 FlashAttention 的 causal mask 处理是直接在分块级别做遮挡

人工智能6S服务平台

vllm-ascend 通信优化：SP/FlashComm1/FlashComm2

在大规模模型的推理过程中，通信效率成为性能瓶颈之一。本文面向 vLLM + 昇腾 NPU 场景下的推理工程师、性能优化人员与运维人员，系统梳理了 `vllm-ascend` 中的三套递进式通信优化方案：**SP（Sequence Parallelism）**、**FlashComm1（FC1）** 与 **FlashComm2（FC2）**。本文将详细介绍这些方案的设计思路、数学等价性、代码实现以

人工智能6S服务平台

华为鸿蒙生态到底是什么？鸿蒙智家、鸿蒙智行、鸿蒙手机生态有什么区别？

很多阜阳业主第一次接触“华为鸿蒙智家”时，都会有一个疑问：“这是卖手机的店吗？“鸿蒙智家和鸿蒙智行有什么关系？“华为鸿蒙生态生活馆，是不是也做全屋智能？“我想做智能家居，到底应该看哪一个？这些问题很正常。因为近几年，“鸿蒙”这个词出现在很多华为生态场景里：手机系统叫鸿蒙，汽车生态里有鸿蒙智行，家庭空间里有鸿蒙智家，线下门店里还可能看到华为智能生活馆、鸿蒙生态生活馆等不同表达。如果不加区分，用户很容