首页 > 试题广场 >

长上下文怎么搞?Rope scaling、Position

[问答题]
长上下文怎么搞?Rope scaling、Position Interpolation、KV Cache 管理、检索增强、窗口注意力,你的实战方案是什么。
如果是窗口注意力的话,可以考虑使用滑动窗口,分散注意力,等方法,如果保留全部上下文的话,时间复杂度太高,不考虑, 如果使用RAG的话就要考虑要回答的问题目标: 一般都是用户键入Query,调用API做embedding,创建向量库,做向量相似度检索,返回topk个doc,然后通过prompt工程结合LLM输出。但是这一步基本用于上下文内容以及用户事实是基于基本事实上的,如果要考虑到多跳,或者逻辑型问题,就要考虑使用Graph RAG 此外,对于上下文本身的处理再位置编码,可以等比压缩,或者分解为原子事实等
发表于 2026-03-14 06:01:37 回复(0)
RAG + KV cache
发表于 2026-04-17 09:29:48 回复(0)