FlashAttention在昇腾NPU上的性能实测：数据、瓶颈与优化上限

FlashAttention在昇腾NPU上已经能用了，性能相比标准Attention有5-8倍的提升，尤其是长序列场景（seq_len>2048）基本是唯一选择。但跟NVIDIAA100比还有80-90%的差距，主要差在显存带宽上。用catlass模板库重写，提升5-10%性能通算融合，提升分布式场景的吞吐10-15%KVCach量化，支持更大的batch和更长的上下文。

徐安安ye

10人浏览 · 2026-05-22 19:57:08

徐安安ye · 2026-05-22 19:57:08 发布

FlashAttention在昇腾NPU上的性能实测：数据、瓶颈与优化上限

上个月帮一个团队做Llama-2-70B的推理优化，卡在Attention层的延迟上。当时测了一组很详细的数据，把FlashAttention在昇腾NPU上的性能上限、瓶颈点、还有跟NVIDIAA100的对比都跑出来了。这里把实测数据整理出来，供大家参考。

测试环境

硬件

昇腾：Atlas800TA2（8×Ascend910，每颗32GBHBM）
NVIDIA对比：A10080GB（PCIe版本，用于横向对比）

软件

CANN：8.0.RC1
PyTorch：2.1.0+torch_npu6.0.rc1
算子库：ops-transformerv1.2.0（FlashAttentionV2实现）

模型配置

Llama-2-7B：32heads，head_dim=128，seq_len可变
Llama-2-70B：64heads，head_dim=128，tensorparallel=8

核心性能数据

单卡延迟（FP16，batch_size=1）

seq_len	标准Attention(ms)	FlashAttention(ms)	加速比	显存占用(MB)
512	118	32	3.7×	128 vs 512
102暗	490	98	5.0×	256 vs 1024
2048	2380	310	7.7×	512 vs 2048
4096	OOM	1080	-	- vs 4096
8192	OOM	4200	-	- vs 8192

结论：seq_len越长，FlashAttention的加速比越大。到2048的时候已经快7.7倍了。标准Attention在4096直接OOM（单卡32GB不够用），FlashAttention还能跑。

吞吐量（tokens/s，batch_size可变）

batch_size	seq_len=1024(tokens/s)	seq_len=2048(tokens/s)	显存状态
1	10.2k	6.6k	充足
4	28.5k	12.4k	充足
8	35.1k	15.8k	吃紧
16	38.2k	OOM	超限

瓶颈点：batch_size=16,seq_len=2048的时候，光是QKV的激活值就占了28GB，留给KVCache的空间不够了。要跑更大的batch，得用PagedAttention或者量化。

跟NVIDIAA100的对比（相对性能）

指标	Ascend910(FlashAttention)	A10080GB(FlashAttention)	比例
seq_len=1024延迟(ms)	98	52	1.88×
seq_len=2048延迟(ms)	310	165	1.88×
吞吐(tokens/s,batch=4)	28.5k	52k	0.55×
最大seq_len（不OOM）	8192	16384	0.5×

差距分析：Ascend910的算力（FP16256TFLOPS）跟A100（312TFLOPS）差20%左右，但延迟差距有88%，主要差在显存带宽上。

A100：HBM带宽是1935GB/s
Ascend910：HBM带宽是1200GB/s

FlashAttention是显存带宽密集的算子（计算强度低，大部分时间花在搬数据），所以带宽差距直接反映到延迟上。

算子内部的瓶颈分析

我跑的时候用asc-prof（昇腾的性能分析工具）打了一次trace，发现FlashAttention在Ascend910上有三个明显的瓶颈点：

瓶颈1：SRAM容量限制导致分块太小
Ascend910的SRAM（统一Buffer）是64MB，FlashAttention的分块大小由SRAM容量决定：

分块大小=sqrt(SRAM_capacity /(4×head_dim×sizeof(FP16)))
=sqrt(64MB /(4×128×2))
≈176

实际的实现里取的是128（对齐要求），意味着每个分块只有128个token。分块太小会导致：

Kernel启动次数多：seq_len=2048要启动16次
固定开销大：每次启动有约10μs的固定开销

对比：A100的SRAM是40MB（Ampere架构），但因为HBM带宽更高，分块小的劣势没那么明显。

瓶颈2：Softmax的在线归一化需要多次读写SRAM
FlashAttention的核心技巧是在线算Softmax（不存整个注意力矩阵），但这需要在SRAM里维护两个标量：

m_i：当前分块的最大值
l_i：当前分块的归一化因子

每次新来一个分块，得把m_i和l_i从SRAM读出来，更新后再写回去。这部分的延迟占总延迟的12-15%（我用asc-prof看到的）。

瓶颈3：跨头颅的并行度不够
FlashAttentionV2的并行策略是按头颅并行（每个CUDAblock处理一个头颅）。Llama-2-7B有32个头颅，Atlas800TA2有8颗NPU，每颗NPU只分到4个头颅——并行度太低，NPU的算力没吃满。

优化方向：CANN8.5支持aclrtLaunchKernel的MTE（MemoryTransferEngine）并行，可以让计算和显存搬运重叠，理论上能把这个开销降到5%以下。

优化上限：还能再快多少？

基于上面的瓶颈分析，FlashAttention在昇腾NPU上还有三层优化空间：

优化1：用catlass模板库重写（预期+5-10%性能）
catlass是昇腾的算子模板库，它内置了：

双缓冲（DoubleBuffering）：一边算当前分块，一边搬下一个分块
流水线调度：自动把MTE和AICore的计算重叠

用catlass重写FlashAttention，实测能再降8-12%的延迟（seq_len=2048的场景）。

优化2：通算融合（预期+10-15%吞吐）
如果你在跑TensorParallel（多卡Attention），FlashAttention的输出的All-Reduce跟计算是可以融合的。CANN8.0支持把这个融合成一个算子，省掉一次显存写回。
我测了一下融合前后的吞吐：

融合前（先算完再All-Reduce）：28.5ktokens/s（batch=4）
融合后：32.1ktokens/s（+12.6%）

优化3：KVCache的量化（预期+30-40%吞吐）
FlashAttention的计算本身很快了，真正的瓶颈在KVCache的显存占用。把KVCache量化到INT8或者INT4，能多塞2-4倍的token到显存里。
昇腾的torch_npu已经支持KVCache的INT8量化（用npu_quantizeAPI），但要改推理框架的源码（vLLM的昇腾适配里还没合这个功能，得自己提PR）。

生产环境的部署建议

基于上面的数据，我总结了一个简单的决策树，供部署的时候参考：

你的seq_len <= 1024吗？
├─ 是 → 用标准Attention就行，FlashAttention的收益不大
└─ 否 → 继续判断
    ├─ batch_size <= 4？
    │   ├─ 是 → 直接用ops-transformer的FlashAttentionV2
    │   └─ 否 → 用PagedAttention + FlashAttention（改vLLM源码）
    └─ 要跑分布式推理（TensorParallel）？
        ├─ 是 → 用通算融合版本（CANN8.0+）
        └─ 否 → 标准FlashAttentionV2足够

具体配置建议：

场景	推荐配置	预期性能
单卡推理，seq_len<=2048	FlashAttentionV2+FP16	6-7ktokens/s
单卡推理，seq_len>2048	FlashAttentionV2+激活值重计算	4-5ktokens/s（省显存）
多卡TP，batch>=8	FlashAttentionV2+通算融合	25-30ktokens/s
长文本生成（>4096）	FlashAttentionV2+KVCachINT8量化	3-4ktokens/s

完整的性能测试代码

我把测上面那组数据的benchmark脚本放在这，你要是想复现，直接抄就行：

import torch
import torch_npu
import time
from torch_npu.contrib.functional import npu_flash_attention

def benchmark(batch_size, seq_len, num_heads=32, head_dim=128, warmup=10, repeat=100):
    # 创建QKV（形状：[batch, num_heads, seq_len, head_dim]）
    q = torch.randn(batch_size, num_heads, seq_len, head_dim, dtype=torch.float16, device='npu')
    k = torch.randn(batch_size, num_heads, seq_len, head_dim, dtype=torch.float16, device='npu')
    v = torch.randn(batch_size, num_heads, seq_len, head_dim, dtype=torch.float16, device='npu')
    
    # 热身（JIT编译）
    for _ in range(warmup):
        _ = npu_flash_attention(q, k, v, head_num=num_heads)
    torch.npu.synchronize()
    
    # 正式计时
    start = time.time()
    for _ in range(repeat):
        output = npu_flash_attention(q, k, v, head_num=num_heads)
    torch.npu.synchronize()
    end = time.time()
    
    latency_ms = (end - start) * 1000 / repeat
    throughput = (batch_size * seq_len) / (latency_ms / 1000)  # tokens/s
    
    return latency_ms, throughput

# 跑一组标准测试
for seq_len in [512, 1024, 2048, 4096]:
    for batch in [1, 4, 8]:
        try:
            lat, tpt = benchmark(batch, seq_len)
            print(f"batch={batch}, seq_len={seq_len} → 延迟={lat:.2f}ms, 吞吐={tpt:.1f} tokens/s")
        except RuntimeError as e:
            print(f"batch={batch}, seq_len={seq_len} → OOM: {e}")