Qwen是怎么实现超长上下文的?

面试题简述

现在模型都在追求上下文,你知道业界一般怎么做的吗?比如Qwen是怎么实现超长上下文能力的?

面试官想听的

1、解释超长上下文的常见技术路线。

2、能具体说出 Qwen 的 Attention Sinks。

3、能提到 RoPE 插值、多尺度位置编码。

面试示例回答

业界主流的上下文方案包括:

1、位置编码扩展,比如 RoPE 插值。

2、注意力稀疏化,比如 Longformer。

3、扩展 KV Cache,如 MQA/GQA。

4、Attention Sinks 解决模型以往问题。

详细内容可跳转该链接查看详情:http://xhslink.com/o/9If4fL2eS0F

由浅入深分析

1、RoPE插值(最主流)

(1)原因:原始 RoPE 在长序列下会失真。

(2)解决:线性插值、NTK-aware、分段插值。

(3)Qwen使用增强版插值 -> 支持超长 context

2、Attention Sinks

(1)现场:模型看到很长文本后前文被忘掉

(2)原因:注意力随深度衰减

(3)解决:人为加入若干 Sink tokens,让注意力返回前文。

3、注意力稀疏化

(1)Longformer/BigBird

(2)适合更长序列,但难与原生LLM兼容,因此商业LLM大多选择 RoPE 插值路线。

面试加分点

1、提 Qwen 的 Attention Sinks。

2、能解释 RoPE 插值为什么有效。

3、能描述长文本遗忘现象。

#大模型##春招##实习##面经##面试#
技术必备题库 文章被收录于专栏

带你复盘大厂后端和算法面试,拆解面试官到底想听啥

全部评论
hi,小伙伴们~ 3月15日(本周日)20:00–21:00,我们会在小红书做一场直播,聊一聊: 1、大模型方向目前的就业机会 2、互联网大厂今年的 HC 情况 3、结合阿里大模型春招面试面经做一次详细拆解 想了解大模型求职和面试准备的小伙伴可以来直播间一起交流~ 小红书账号:Offer面试官 感兴趣的小伙伴不要错过哦~
点赞 回复 分享
发布于 03-11 10:19 上海

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么,怎么去做的10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
查看11道真题和解析
点赞 评论 收藏
分享
04-09 18:05
门头沟学院 Java
一上来先是手撕,比较简答,大概做了5分钟。一、多模态 RAG 与检索评估多模态预处理中,图片在 RAG 系统里是如何向量化检索的?多模态预处理环节的技术难点是什么?如何杜绝跨场景召回相似步骤的问题,具体实现方式是什么?介绍评估精度和召回率所采用的框架,以及召回率的具体计算细节。该框架中精度和召回率的计算方式分别是什么,二者的核心区别是什么?能否只关注召回率而不关注精度,原因是什么?二、实习项目与意图识别介绍实习业务方向相关的意图识别模型的实现内容。意图识别模型具体能解决什么问题,结合实例说明模型效果提升的具体表现。实习项目中遇到的三个技术问题里,最难的是哪一个,具体难点是什么?实习项目的数据集是如何构造的?该实习项目的开发周期是多久,开发人员配置如何?三、代码生成项目与模型适配代码生成相关项目的开发目的是什么?该项目与相关经典框架解决的问题是否相同,核心区别是什么?相关经典框架为何不支持 Qwen 系列模型,具体问题是什么?如何让 Qwen 模型正常使用相关工具,具体实现方式是什么?思考模型与非思考模型的输出除标签外,还有哪些核心区别?如何解决 Qwen 思考模型产生错误工具调用、空工具调用的问题?项目中遇到的核心挑战是否与相关经典框架解决的问题一致?该项目是完全自研还是参考相关实现,具体做了哪些内容和思考?四、Agent 记忆体系(长 / 短期记忆)模型多轮对话的历史记录中,长期记忆和短期记忆由谁定义、如何区分?长期记忆和短期记忆的判断主体是谁,判断的指标是什么?长期记忆的维护需要哪些策略或算法,具体如何维护?长期记忆是否需要做处理,是直接保留对话内容还是总结后保存?长期记忆的总结工作由谁实现,总结的触发时机和算法是什么?结合发现的问题和采取的措施,继续介绍项目后续的开发内容和思路。模型调用搜索工具的优化实现效果如何,与未使用工具前的核心区别是什么?项目中状态机的能力具体是如何体现的?大模型如何感知状态机的当前状态?短期记忆的 5 轮对话指原始对话还是整理后的内容,短期记忆如何转化为长期记忆?触发短期记忆转化为长期记忆的条件是什么,如何结合短期记忆和已有长期记忆生长新的期记忆?长期记忆的淘汰算法是否为先进先出,该算法是否存在问题?针对长期记忆先进先出算法的潜在问题,是否有新的优化思路?长期记忆是否一定要淘汰,能否通过检索方式调取而非丢弃,该思路的可行性如何?长期记忆占用模型上下文窗口会导致输出窗口压缩,该问题的优化方向是什么?五、RAG 与代码助手落地项目中 RAG 的作用是什么,其调用时机是怎样的?该代码生成相关项目整体的技术难点是什么?现阶段各类大模型代码助手平台大规模落地使用的最大难点是什么,解决哪个核心问题才能实现规模化应用?如何解决大模型对大代码量项目理解不足、易出错的问题?代码助手在代码检索时,如何高效找到与问题相关的依赖并提供给大模型?现阶段为何少有框架做代码依赖相关的优化工作,核心原因是什么?若要解决代码依赖难以查找、模型无法理解整体代码库的问题,除构建图谱外还有哪些方法?六、模型训练与技术拓展介绍实习过程中做的模型后训练相关工作,具体实现方式是什么?基于 400 条回答不佳的真实数据,如何将其用于模型训练?仅靠 400 条数据难以训练出靠谱模型,如何将数据集扩展到 1 万条,具体的扩展过程是什么?介绍近期看过的技术相关文章,说明其核心内容和解决的问题。该技术框架与其他同类框架(如 Agent 相关框架)的核心区别是什么?介绍毕业论文的研究方向和核心内容。能否立即到岗实习,实习的可到岗时间是怎样的?
Agent面试会问什么?
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务