首页 > 试题广场 >

长上下文怎么搞？Rope scaling、Position

[问答题]

长上下文怎么搞？Rope scaling、Position Interpolation、KV Cache 管理、检索增强、窗口注意力，你的实战方案是什么。

Raymond_030927头像

Raymond_030927

如果是窗口注意力的话，可以考虑使用滑动窗口，分散注意力，等方法，如果保留全部上下文的话，时间复杂度太高，不考虑，如果使用RAG的话就要考虑要回答的问题目标：一般都是用户键入Query，调用API做embedding，创建向量库，做向量相似度检索，返回topk个doc,然后通过prompt工程结合LLM输出。但是这一步基本用于上下文内容以及用户事实是基于基本事实上的，如果要考虑到多跳，或者逻辑型问题，就要考虑使用Graph RAG 此外，对于上下文本身的处理再位置编码，可以等比压缩，或者分解为原子事实等

发表于 2026-03-14 06:01:37 回复(0)

Jerryyyytse头像

Jerryyyytse

RAG + KV cache

发表于 2026-04-17 09:29:48 回复(0)

提交观点

问题信息

来自：大模型应用-牛客面经八股

难度：

2条回答 13收藏 323浏览

热门推荐

相关试题

RAG 系统你怎么设计？切分、索引...

评论(4) 来自大模型应用-牛客面经八股
Function/Tool‑Cal...

评论(1) 来自大模型应用-牛客面经八股
挑一个你深入研究过的模型（比如 D...

评论(2) 来自大模型应用-牛客面经八股
Tokenizer（BPE、Sen...

评论(0) 来自大模型应用-牛客面经八股

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号