FlashAttention算子深度解读昇腾NPU上的注意力计算优化

小a杰.

55人浏览 · 2026-05-24 21:52:13

小a杰. · 2026-05-24 21:52:13 发布

在这里插入图片描述

前言

昇腾CANN的ops-transformer仓库提供了Transformer类大模型需要的进阶算子其中FlashAttention算子是最核心的注意力计算优化本文深度解读FlashAttention算子的原理实现和性能表现

背景注意力计算的算力挑战

Transformer架构的核心是自注意力机制标准注意力计算需要计算QK^T这个中间结果的大小是序列长度乘以序列长度当序列长度从512涨到8192显存需求直接爆炸

具体来说标准注意力计算分为三步

计算QK^T得到注意力分数矩阵
对注意力分数矩阵做softmax
用softmax结果乘以V得到输出

假设batch=4, heads=16, seq_len=8192, head_dim=64

QK^T的大小4乘以16乘以8192乘以8192乘以4字节float32= 64GB
这显然超出了任何现有NPU的显存容量

原理分块计算与内存优化

FlashAttention的核心思路是分块计算不把整个注意力矩阵都存下来而是分块计算分块写回这样显存占用从O(N^2)降到O(N)

具体实现分为以下几步

1. 分块策略

将QKV矩阵按序列长度维度分块假设块大小为B那么每个块的大小是[batch, heads, B, head_dim]

2. 分块计算注意力分数

对于每个Q块遍历所有K块计算注意力分数由于是分块计算不需要存储完整的注意力分数矩阵

3. 在线softmax

在分块计算注意力分数的同时在线计算softmax这需要维护两个统计量最大值m和求和项l

4. 分块计算输出

用计算好的注意力权重乘以V块得到输出块

实现昇腾NPU上的FlashAttention

在昇腾NPU上实现FlashAttention需要充分利用达芬奇架构的硬件特性达芬奇架构有专门的矩阵计算单元Cube UnitFlashAttention的分块计算可以很好地映射到Cube Unit上

关键优化点

分块大小选择分块大小需要适配Cube Unit的计算能力太大的分块会导致寄存器溢出太小的分块无法充分利用Cube Unit
内存层级利用充分利用片上内存L1 Buffer来减少对HBM的访问次数
流水线设计将计算和数据搬运流水线化隐藏内存访问延迟

代码讲解FlashAttention核心逻辑

下面是FlashAttention的核心代码逻辑简化版

import torch

def flash_attention_forward(Q, K, V, causal=True):
    闪光注意力前向计算简化版
    
    Args:
        Q: Query矩阵形状为[batch, seq_len, heads, head_dim]
        K: Key矩阵形状同上
        V: Value矩阵形状同上
        causal: 是否使用因果注意力掩码
    
    Returns:
        输出矩阵形状为[batch, seq_len, heads, head_dim]
    
    batch, seq_len, heads, head_dim = Q.shape
    
    # 分块大小需要根据硬件特性调整
    block_size = 128
    
    # 初始化输出和中间统计量
    O = torch.zeros_like(Q)
    l = torch.zeros(batch, seq_len, heads).to(Q.device)  # softmax的分母
    m = torch.full((batch, seq_len, heads), -float('inf')).to(Q.device)  # 最大值
    
    # 外层循环遍历Q块
    for i in range(0, seq_len, block_size):
        # 获取Q块
        Q_block = Q[:, i:i+block_size, :, :]  # [batch, block_size, heads, head_dim]
        
        # 初始化当前块的输出和统计量
        O_block = torch.zeros_like(Q_block)
        l_block = torch.zeros(batch, block_size, heads).to(Q.device)
        m_block = torch.full((batch, block_size, heads), -float('inf')).to(Q.device)
        
        # 内层循环遍历KV块
        for j in range(0, seq_len, block_size):
            # 获取KV块
            K_block = K[:, j:j+block_size, :, :]
            V_block = V[:, j:j+block_size, :, :]
            
            # 计算注意力分数Q_block乘以K_block的转置
            S_block = torch.matmul(Q_block, K_block.transpose(-2, -1)) / (head_dim ** 0.5)
            # S_block形状[batch, block_size, heads, block_size]
            
            # 因果注意力掩码
            if causal:
                # 创建因果掩码
                mask = torch.triu(torch.ones(block_size, block_size), diagonal=1).bool()
                mask = mask.to(Q.device)
                S_block.masked_fill_(mask, -float('inf'))
            
            # 在线softmax更新最大值和求和项
            m_new = torch.max(S_block, dim=-1)  # [batch, block_size, heads]
            l_new = torch.sum(torch.exp(S_block - m_new.unsqueeze(-1)), dim=-1)  # [batch, block_size, heads]
            
            # 更新统计量
            m_block_new = torch.max(m_block, m_new)
            l_block_new = torch.exp(m_block - m_block_new.unsqueeze(-1)) * l_block + torch.exp(m_new - m_block_new.unsqueeze(-1)) * l_new
            
            # 更新输出
            O_block = torch.exp(m_block - m_block_new.unsqueeze(-1)).unsqueeze(-1) * O_block + torch.matmul(torch.exp(S_block - m_block_new.unsqueeze(-1)), V_block)
            
            # 更新统计量
            m_block = m_block_new
            l_block = l_block_new
        
        # 归一化输出
        O[:, i:i+block_size, :, :] = O_block / l_block.unsqueeze(-1)
    
    return O

# 测试代码
if __name__ == '__main__':
    # 创建测试数据
    batch = 2
    seq_len = 512
    heads = 8
    head_dim = 64
    
    Q = torch.randn(batch, seq_len, heads, head_dim)
    K = torch.randn(batch, seq_len, heads, head_dim)
    V = torch.randn(batch, seq_len, heads, head_dim)
    
    # 计算FlashAttention
    output = flash_attention_forward(Q, K, V)
    
    print(f'Q shape: {Q.shape}')
    print(f'K shape: {K.shape}')
    print(f'V shape: {V.shape}')
    print(f'Output shape: {output.shape}')