昇腾NPU上的FlashAttention：让大模型“算得快“又“记得准“

刚接触 FlashAttention 那会，我被一个困惑砸懵了：明明 Attention 机制的计算量已经是 O(n²) 了，业界还在拼命优化它，图什么？直到我看见一组数据才明白——训练一个 1750 亿参数的 GPT-3，光是 Attention 计算就要消耗 60% 的算力。这东西要是跑得慢，整个模型就是摆设。

山屿落星辰

18人浏览 · 2026-05-19 23:46:09

山屿落星辰 · 2026-05-19 23:46:09 发布

刚接触 FlashAttention 那会，我被一个困惑砸懵了：明明 Attention 机制的计算量已经是 O(n²) 了，业界还在拼命优化它，图什么？

直到我看见一组数据才明白——训练一个 1750 亿参数的 GPT-3，光是 Attention 计算就要消耗 60% 的算力。这东西要是跑得慢，整个模型就是摆设。

为什么标准 Attention 是个"内存吞金兽"

传统 Attention 的问题不在计算量，在于它来来回回读写 HBM（高带宽内存）的次数太多。

算一次 Self-Attention，标准流程是这样的：

Q、K、V 三个矩阵从 HBM 读进来
计算 QK^T，得到 n×n 的注意力分数矩阵
这个矩阵要 softmax，softmax 要取指数、取和，光这一步就涉及多次矩阵运算
最后乘以 V，结果写回 HBM

问题出在哪？中间那个 n×n 的矩阵。对于一个 4096 长度的序列，这个矩阵是 4096×4096 = 1600 万个元素，单精度浮点数就是 64MB。跑一次前向传播，这个矩阵要进进出出 HBM 至少 3-4 次。光这一项，内存带宽就被吃干净了，GPU 计算单元反而在"等米下锅"。

FlashAttention 的核心思路很简单：让数据在 SRAM 里多转几圈，少回 HBM 串门。

昇腾NPU上怎么"省内存"

ops-transformer 仓里的 FlashAttention 算子，是基于昇腾异构计算架构（昇腾CANN）实现的。它的优化策略可以总结为三个字：分块计算。

具体来说，FlashAttention 把 Q、K、V 切成小块（Tile），每次只把一个小块加载到加速器的片上缓存，计算出这一块的 Attention 结果，然后和已计算的部分做融合。

这么做有两个好处：

第一，峰值内存从 O(n²) 降到 O(n)。 不需要一次性把完整的注意力分数矩阵存下来了。拿 4096 序列长度来说，标准实现需要约 64MB 中间buffer，FlashAttention 只需要几百 KB 的片上缓存，差距是几百倍。

第二，计算量和标准实现完全等价。 没有因为省内存就牺牲精度，数学上严格等价。

实测数据：省内存不省速度

我拿到一组在 Ascend 910 上的实测数据（来自 cann-recipes-infer 仓库的 Benchmark）：

配置	序列长度	显存占用	吞吐量
标准 Attention	4096	16.8 GB	1,250 tokens/s
FlashAttention（融合版）	4096	2.1 GB	3,870 tokens/s

显存降到原来的八分之一，吞吐量反而提升了 2 倍多。这才是真正的"降本增效"。

为什么会这样？显存带宽省下来之后，数据搬运的瓶颈没了，计算单元可以满载跑。

在昇腾NPU上怎么用

代码比想象中简单：

import torch
from cann import ops

# Q/K/V: [batch, heads, seq_len, head_dim]
q = torch.randn(1, 32, 4096, 64, device='npu')
k = torch.randn(1, 32, 4096, 64, device='npu')
v = torch.randn(1, 32, 4096, 64, device='npu')

# 直接调用融合算子，一次搞定
output = ops.flash_attention(q, k, v, head_dim=64)

这里没有手写 attention_mask、没有手动做 softmax 归一化，算子内部全给你融合好了。开发团队在注释里写了句大实话：

# 直接上融合，省一次搬运，NPU 片上缓存不是给你放着看的

这注释风格，一看就是被内存带宽折磨过的工程师写的。

一个细节：Flash Attention vs 持久化 Flash Attention

如果你用的是 MoE（Mixture of Experts）架构的 Dense 模型，会遇到一个新问题：显存够用了，但计算还是慢。

这时候可以试试持久化 Flash Attention（Persistent Flash Attention）。它的思路是：对于 KV Cache 变化不大的场景，提前把 K/V 的计算结果缓存起来，复用计算结果而不是重复算。

ops-transformer 仓里的 MC2 算子（Multi-Centered Attention）就支持这种模式。在长序列场景（超过 32k token）下，MC2 的吞吐量比普通 Flash Attention 还能再高 40% 左右。

下一步

想自己跑一跑？昇腾社区的 cann-learning-hub 有完整的教程，从环境搭建到 Benchmark 实测，踩坑点都给你标出来了：

https://atomgit.com/cann/cann-learning-hub

顺便说一句，如果你打算在 Ascend 910 上跑 70B 以上的大模型，Flash Attention 是必选项，不是可选项。显存不够，一切免谈。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

从点击到意图：鸿蒙 App 的 AI 进化

人工智能6S服务平台

鸿蒙 PC 应用启动优化全解析

人工智能6S服务平台

ops-transformer 的 FlashAttention：给昇腾NPU 配了个“智能分拣中心“

刚接触 CANN 那会，我被大模型推理的延迟吓到了——13B 的模型，跑 2048 个 token 要 89 毫秒。朋友说：“你没用 FlashAttention 吧？换了它，延迟直接砍到 1/3。我半信半疑去 ops-transformer 仓库（https://atomgit.com/cann/ops-transformer）翻代码，才发现这玩意本质上是个"智能快递分拣中心"——把原本要反复搬