2025-12-01 21:40 上海交通大学算法工程师发布于上海

关注

Qwen是怎么实现超长上下文的？

面试题简述

现在模型都在追求上下文，你知道业界一般怎么做的吗？比如Qwen是怎么实现超长上下文能力的？

面试官想听的

1、解释超长上下文的常见技术路线。

2、能具体说出 Qwen 的 Attention Sinks。

3、能提到 RoPE 插值、多尺度位置编码。

面试示例回答

业界主流的上下文方案包括：

1、位置编码扩展，比如 RoPE 插值。

2、注意力稀疏化，比如 Longformer。

3、扩展 KV Cache，如 MQA/GQA。

4、Attention Sinks 解决模型以往问题。

详细内容可跳转该链接查看详情：http://xhslink.com/o/9If4fL2eS0F

由浅入深分析

1、RoPE插值（最主流）

（1）原因：原始 RoPE 在长序列下会失真。

（2）解决：线性插值、NTK-aware、分段插值。

（3）Qwen使用增强版插值 -> 支持超长 context

2、Attention Sinks

（1）现场：模型看到很长文本后前文被忘掉

（2）原因：注意力随深度衰减

（3）解决：人为加入若干 Sink tokens，让注意力返回前文。

3、注意力稀疏化

（1）Longformer/BigBird

（2）适合更长序列，但难与原生LLM兼容，因此商业LLM大多选择 RoPE 插值路线。

面试加分点

1、提 Qwen 的 Attention Sinks。

2、能解释 RoPE 插值为什么有效。

3、能描述长文本遗忘现象。

#大模型##春招##实习##面经##面试#

技术必备题库文章被收录于专栏

带你复盘大厂后端和算法面试，拆解面试官到底想听啥

全部评论

推荐最新楼层

楼主

上海交通大学算法工程师

hi，小伙伴们～ 3月15日（本周日）20:00–21:00，我们会在小红书做一场直播，聊一聊： 1、大模型方向目前的就业机会 2、互联网大厂今年的 HC 情况 3、结合阿里大模型春招面试面经做一次详细拆解想了解大模型求职和面试准备的小伙伴可以来直播间一起交流～小红书账号：Offer面试官感兴趣的小伙伴不要错过哦～

点赞回复分享

发布于 03-11 10:19 上海

03-26 19:51

南京大学 C++

腾讯TEG一面

TEG网络研发部。半小时多结束，感觉是kpi。后台开发岗位纯靠回忆，有些问题和细节忘了。自我介绍介绍之前实习内容（之前做的数据库），没深问技术细节，除了实习工作，就问了下对公司产品的场景，架构理解。了不了解消息解耦，比如多个终端产生海量数据存入数据库的问题，答的用消息队列集群的控制节点怎么确定的，raft协议了解吗，说说流程。（很久之前看的了，答了选主，多数派原则，心跳。忘记答关键的WAL日志了）了解什么消息队列（RabbitMQ），与其它产品（如kafka）对比。mysql MVCC实现原理mysql 三个日志介绍。redolog和binlog区别。redis分布式锁redis缓存雪崩，穿透...

点赞评论收藏

分享

03-25 08:30

西安交通大学算法工程师

阿里大模型算法面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时，有没有用过一些比较底层的一些训练的调试的工具，比如说千卡的话很容易就会出NCCL timeout，如果出现 NCCL timeout，一般怎么定位和解决？3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富，而且您上线运行的推理内容之前也进行过一些什么样的优化吗？5.有没有做过 kernel级别的优化？比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化，介绍一下6像底层，如果你们在做.kernel fusion，倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的？原因是什么8.平时写 CUDA的时候，有没有关注到底层实现细节？比如你刚提到 FA2，那再往下一层，像 Hopper架构里那个 warp specialization是什么，它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么，怎么去做的10.如果我把 warp specialization 去掉，只保留 tile 和 shared memory 优化，大概会损失在哪？11.怎么么判断一个 MoE 模型是真的学到了分工，而不是只是把 dense模型拆开了12.在 RL + MoE 里，有没有遇到过 reward把 routing学坏的情况？就是模型为了拿 reward，全都走某几个 expert，这种情况你当时是怎么处理的

查看11道真题和解析

点赞评论收藏

分享

04-14 08:49

门头沟学院 C++

腾讯WXG 客户端开发-C++ 一面

1. 自我介绍2. 实习项目拷打3. shared_ptr 性能优于 unique_ptr 吗，为什么答案：一般来说不能这么说，绝大多数场景下 unique_ptr 比 shared_ptr 更轻量。unique_ptr 只有独占所有权，不需要维护引用计数，大小通常就是一个裸指针，移动也只是转移所有权。shared_ptr 需要额外的控制块来维护强引用和弱引用计数，多线程下还涉及原子操作，所以构造、拷贝、销毁成本都更高。只有在确实需要共享所有权的时候，shared_ptr 才有意义，而不是因为它“更高级”就优先使用。如果面试官继续追问，通常会往控制块、循环引用和 make_shared 上延伸...

C++ 常考面试题总结

点赞评论收藏

分享

04-09 18:05

门头沟学院 Java

T厂 Agent开发日常实习一面挂凉经

一上来先是手撕，比较简答，大概做了5分钟。一、多模态 RAG 与检索评估多模态预处理中，图片在 RAG 系统里是如何向量化检索的？多模态预处理环节的技术难点是什么？如何杜绝跨场景召回相似步骤的问题，具体实现方式是什么？介绍评估精度和召回率所采用的框架，以及召回率的具体计算细节。该框架中精度和召回率的计算方式分别是什么，二者的核心区别是什么？能否只关注召回率而不关注精度，原因是什么？二、实习项目与意图识别介绍实习业务方向相关的意图识别模型的实现内容。意图识别模型具体能解决什么问题，结合实例说明模型效果提升的具体表现。实习项目中遇到的三个技术问题里，最难的是哪一个，具体难点是什么？实习项目的数据集是如何构造的？该实习项目的开发周期是多久，开发人员配置如何？三、代码生成项目与模型适配代码生成相关项目的开发目的是什么？该项目与相关经典框架解决的问题是否相同，核心区别是什么？相关经典框架为何不支持 Qwen 系列模型，具体问题是什么？如何让 Qwen 模型正常使用相关工具，具体实现方式是什么？思考模型与非思考模型的输出除标签外，还有哪些核心区别？如何解决 Qwen 思考模型产生错误工具调用、空工具调用的问题？项目中遇到的核心挑战是否与相关经典框架解决的问题一致？该项目是完全自研还是参考相关实现，具体做了哪些内容和思考？四、Agent 记忆体系（长 / 短期记忆）模型多轮对话的历史记录中，长期记忆和短期记忆由谁定义、如何区分？长期记忆和短期记忆的判断主体是谁，判断的指标是什么？长期记忆的维护需要哪些策略或算法，具体如何维护？长期记忆是否需要做处理，是直接保留对话内容还是总结后保存？长期记忆的总结工作由谁实现，总结的触发时机和算法是什么？结合发现的问题和采取的措施，继续介绍项目后续的开发内容和思路。模型调用搜索工具的优化实现效果如何，与未使用工具前的核心区别是什么？项目中状态机的能力具体是如何体现的？大模型如何感知状态机的当前状态？短期记忆的 5 轮对话指原始对话还是整理后的内容，短期记忆如何转化为长期记忆？触发短期记忆转化为长期记忆的条件是什么，如何结合短期记忆和已有长期记忆生长新的期记忆？长期记忆的淘汰算法是否为先进先出，该算法是否存在问题？针对长期记忆先进先出算法的潜在问题，是否有新的优化思路？长期记忆是否一定要淘汰，能否通过检索方式调取而非丢弃，该思路的可行性如何？长期记忆占用模型上下文窗口会导致输出窗口压缩，该问题的优化方向是什么？五、RAG 与代码助手落地项目中 RAG 的作用是什么，其调用时机是怎样的？该代码生成相关项目整体的技术难点是什么？现阶段各类大模型代码助手平台大规模落地使用的最大难点是什么，解决哪个核心问题才能实现规模化应用？如何解决大模型对大代码量项目理解不足、易出错的问题？代码助手在代码检索时，如何高效找到与问题相关的依赖并提供给大模型？现阶段为何少有框架做代码依赖相关的优化工作，核心原因是什么？若要解决代码依赖难以查找、模型无法理解整体代码库的问题，除构建图谱外还有哪些方法？六、模型训练与技术拓展介绍实习过程中做的模型后训练相关工作，具体实现方式是什么？基于 400 条回答不佳的真实数据，如何将其用于模型训练？仅靠 400 条数据难以训练出靠谱模型，如何将数据集扩展到 1 万条，具体的扩展过程是什么？介绍近期看过的技术相关文章，说明其核心内容和解决的问题。该技术框架与其他同类框架（如 Agent 相关框架）的核心区别是什么？介绍毕业论文的研究方向和核心内容。能否立即到岗实习，实习的可到岗时间是怎样的？

Agent面试会问什么？

点赞评论收藏

分享

04-11 20:15

门头沟学院算法工程师

微信wxg大模型算法实习一面夯中夯

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.项目拷打2.为什么强化学习用的是Grpo，没有用DPo测试？如果要改进的话有什么想法？3.有没有遇到上线后过拟合的情况？4.蒸馏部署的合规率怎么算的，离线的吗？5.在推荐场景下，有了sid之后怎么构造样本，然后以及怎么去训练。推荐系统和大模型结合，能基于目前的东西做什么改进？两个力扣：1.数组top k2.数组中出现两次的数

查看7道真题和解析

点赞评论收藏

分享

评论

点赞

3

招聘动态

AI网申助手

网申字段一键填写

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

阿里巴巴集团

2027届实习生校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

滴滴

2027届秋招储备实习生招聘

快手

27届实习超多转正机会

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

62975次浏览 536人参与

# 第一份工作应该选择高薪还是大平台 #

220372次浏览 1035人参与

# 华泰星战营，提前锁定校招offer #

1933次浏览 182人参与

# 考公VS就业，你怎么选？ #

99814次浏览 521人参与

# 卷__卷不过你们，只能卷__了 #

59758次浏览 755人参与

# 小红书求职进展汇总 #

238373次浏览 1397人参与

# 校招第一份工作你干了多久？ #

150009次浏览 630人参与

# 商战，最累的是我们 #

31590次浏览 98人参与

# 大疆求职进展汇总 #

699656次浏览 4351人参与

# AI时代还有必要刷leetcode吗？ #

48106次浏览 567人参与

# 字节7000实习来了，你投了吗？ #

43340次浏览 334人参与

# 想从事Agent应该学习哪些技术？ #

13963次浏览 388人参与

# 大学生该如何认清当下的就业环境？ #

165911次浏览 908人参与

# 海康威视求职进展 #

134559次浏览 555人参与

# 26届春招投递记录 #

4842次浏览 49人参与

# 工作中，努力重要还是选择重要？ #

285858次浏览 2586人参与

# HR面都在聊什么？ #

21529次浏览 236人参与

# 有哪些公司在面试时考察AICoding？ #

27114次浏览 435人参与

# 正在春招的你，也参与了去年秋招吗？ #

394610次浏览 2712人参与

# 校招生月薪1W算什么水平 #

144020次浏览 496人参与

# 从投递到OC，你用了多久 #

37000次浏览 381人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务