第 19 题:旋转位置编码(RoPE)及其优势
第 19 题:旋转位置编码(RoPE)及其优势
题目
什么是旋转位置编码(RoPE)?相比传统位置编码的优势是什么?
一、RoPE 在做什么?
RoPE(Rotary Position Embedding) 通过旋转矩阵把位置信息编码进 Query 和 Key 的表示中,使得注意力分数 只依赖相对位置
,而不依赖绝对位置
本身。
做法(简化):对 维向量按两维一组施加旋转,旋转角度与位置
成比例(如
);对
用旋转
,对
用旋转
,则
中仅出现
的三角函数,即相对位置。
二、相对位置与绝对位置
- 传统绝对位置(如 Sinusoidal、可学习):给每个位置
一个向量,加在嵌入上;注意力分数显式依赖
和
。
- RoPE:不往嵌入上加向量,而是改 Q、K 的“方向”,使分数只依赖
;相对位置更符合语法、指代等依赖“距离”的归纳偏置。
三、相比传统位置编码的优势
- 相对性:分数只依赖
,外推到更长序列时,同一相对距离的语义一致。
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
Ai Agent:面试300问 文章被收录于专栏
《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

