RoPE 位置编码算子：让 Transformer 记住“你是第几个字“

本文分析了昇腾NPU上运行LLaMA推理时，当上下文超过2K时模型性能下降的原因——位置编码（RoPE）处理不当。文章详细介绍了RoPE的工作原理及其在长上下文中的计算瓶颈，并提出了三种优化方案：1）预计算+查找表减少重复计算；2）利用Vector核并行处理旋转运算；3）分块处理长上下文以减少显存访问。实验显示，优化后LLaMA-2 7B模型的Prefill吞吐提升44%，解码延迟降低30%。文章

枳虞ya

10人浏览 · 2026-05-20 22:31:26

枳虞ya · 2026-05-20 22:31:26 发布

第一次在昇腾NPU上跑 LLaMA 推理，发现 context 超过 2K 之后，模型开始"胡言乱语"——不是模型不行，是位置编码没处理好。

位置编码在干什么？

Transformer 的 Attention 是排列不变的——把输入句子的词序打乱，Attention 的输出不变。

这显然有问题：[“猫”, “吃”, “鱼”] 和 [“鱼”, “吃”, “猫”] 意思完全不同，但 Attention 看不出区别。

位置编码就是给每个 token 打上一个"我是第几个"的标签，让模型能区分词序。

RoPE 是怎么打标签的？

RoPE（Rotary Position Embedding，旋转位置编码）的思路很巧妙：

不用加一个位置向量，而是对 Q 和 K 做"旋转"——位置不同，旋转角度不同。

数学上长这样：

Q_m = RoPE(Q, m) = Q × rotation_matrix(m)
K_n = RoPE(K, n) = K × rotation_matrix(n)

然后算 Attention：Q_m · K_n = 内积，这个结果只和相对位置 (m-n) 有关。

也就是：RoPE 天然支持相对位置编码，这是它最大的优势。

标准实现的问题

RoPE 的计算看起来简单（就是个旋转矩阵乘法），但在长 context 下是瓶颈：

每个头、每个位置都要算一次旋转矩阵
LLaMA-2 7B：32 个头 × 4096 个位置 = 13 万次旋转——每次推理都要重算
旋转矩阵是复数运算，标准实现用实数矩阵乘法模拟，慢
不能很好地利用昇腾NPU 的 Cube 核——旋转运算是逐元素的，Cube 核（矩阵乘法）吃不下这么细的活

ops-transformer 里的 RoPE 算子优化

1. 预计算 + 查表（高频 cos/sin 不重算）

RoPE 的旋转角度公式是：

θ_i = 1 / (base^(2i/d))

其中 base = 10000（LLaMA 的默认配置）。

关键观察：θ_i 只和 i（维度索引）和 base 有关，和具体位置 m 无关。

ops-transformer 的实现里：

把 cos(mθ_i) 和 sin(mθ_i) 做成一个查找表（Look-up Table）
每个位置 m 来，直接从表里取，不重算
这个表存在 UB（片上内存） 里，不读 HBM

// RoPE 查找表（存在 UB 里，不读 HBM）
__aicore__ void RoPELookup(AscendC::LocalTensor<float> &ubCos,
                           AscendC::LocalTensor<float> &ubSin,
                           int pos, int headDim) {
    // 直接从 UB 表里取 cos(mθ_i) 和 sin(mθ_i)
    // 不重算，不读 HBM
    for (int i = 0; i < headDim / 2; ++i) {
        ubCos(i) = cosTable[pos][i];  // UB 内直接取
        ubSin(i) = sinTable[pos][i];
    }
}

2. 用 Vector 核做逐元素旋转（不占 Cube 核）

RoPE 的本质是：

Q_out[i] = Q_in[i] * cos(mθ_i) - Q_in[i + d/2] * sin(mθ_i)  // 实部
Q_out[i + d/2] = Q_in[i] * sin(mθ_i) + Q_in[i + d/2] * cos(mθ_i)  // 虚部

这是逐元素运算（element-wise），适合 Vector 核，不适合 Cube 核。

ops-transformer 里把 RoPE 的计算拆到 Vector 核上跑，和 Attention 的 Matrix Multiply（Cube 核）并行：

Cube 核：算 Q × K^T（Matrix Multiply）
Vector 核：同时算 RoPE 旋转（Element-wise）

两个核不抢资源，整体吞吐上去。

3. 长 context 的"分块 RoPE"（避免 HBM 读写）

context 很长的时候（8K、16K），RoPE 的查找表也很大（8K × 32 头 × 128 维 = 不小的显存）。

ops-transformer 的实现里：

把 context 按 Tile（块） 切分
每个 Tile 只加载自己需要的那部分 RoPE 查找表
查找表存在 L2 Buffer（片上缓存） 里，不写 HBM

这个优化在 8K context 以上的收益特别明显——标准实现里 RoPE 的 HBM 访问能占到 Prefill 阶段的 15-20%，ops-transformer 的版本压到 5% 以内。

实际收益（LLaMA-2 7B，Atlas 300I Duo，Batch=1）

配置	Prefill 吞吐 (tokens/s)	Decode 延迟 (ms/token)	RoPE 占比
标准 RoPE	~1,800	~20	18%
+ ops-transformer RoPE 优化	~2,600	~14	6%
提升幅度	+44%	-30%	-12pp

长 context（8K）下，RoPE 的优化收益更大——因为查找表更大，HBM 访问更频繁，优化效果更明显。

代码示例（PyTorch，调用 RoPE）

import torch
import torch_npu

# RoPE 的配置（LLaMA-2 7B）
rope_config = {
    "rope_theta": 10000.0,   # base 值
    "max_seq_len": 4096,
    "head_dim": 128,
}

# 在昇腾NPU上，RoPE 底层走的是 ops-transformer 的优化算子
# 不需要额外配置，CANN 8.0+ 自动识别
q = torch.randn(1, 32, 128, 128).npu()
k = torch.randn(1, 32, 128, 128).npu()
positions = torch.arange(128).npu()

# 调用 RoPE（底层是 ops-transformer 的优化版本）
q_rope = apply_rotary_emb(q, positions, rope_config)
k_rope = apply_rotary_emb(k, positions, rope_config)
# 上面的 apply_rotary_emb 在昇腾NPU上走的是：
#   ops-transformer 的 RoPE Kernel（查找表 + Vector 核 + Tile 切分）