第 19 题:旋转位置编码(RoPE)及其优势

第 19 题:旋转位置编码(RoPE)及其优势

题目

什么是旋转位置编码(RoPE)?相比传统位置编码的优势是什么?

一、RoPE 在做什么?

RoPE(Rotary Position Embedding) 通过旋转矩阵把位置信息编码进 Query 和 Key 的表示中,使得注意力分数 只依赖相对位置 ,而不依赖绝对位置 本身。

做法(简化):对 维向量按两维一组施加旋转,旋转角度与位置 成比例(如 );对 用旋转 ,对 用旋转 ,则 中仅出现 的三角函数,即相对位置。

二、相对位置与绝对位置

  • 传统绝对位置(如 Sinusoidal、可学习):给每个位置 一个向量,加在嵌入上;注意力分数显式依赖
  • RoPE:不往嵌入上加向量,而是改 Q、K 的“方向”,使分数只依赖 相对位置更符合语法、指代等依赖“距离”的归纳偏置。

三、相比传统位置编码的优势

  • 相对性:分数只依赖 ,外推到更长序列时,同一相对距离的语义一致。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

Ai Agent:面试300问 文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

全部评论

相关推荐

牛马43373018...:这人真懂什么叫熵吗
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务