阿里高德地图AI应用开发面经-攒人品

发一下问题给大家参考,攒攒人品!
1.针对一个场景:根据需求文档,检索代码中是否已经实现对应需求。

2.RAG中,如果要对代码进行存储,常见方式是基于 AST 解析函数片段,你知道 AST 的底层原理吗?

3.从代码文本到抽象语法树是怎么转换的?

4.刚才的场景中,如果同时存储解析出来的代码片段和代码注释,RAG 的数据表结构应该怎么设计?

5.RAG 中单轮推理和多轮推理有什么区别?

6.在刚才的代码检索场景中,你觉得更适合哪一种?

7.说一下 RRF 融合算法。

8.RRF 的权重一般怎么设计?

9.重排序阶段的作用是什么?

10.粗排和精排有什么区别?

11.如果需要切分的文档是 Markdown 或 PDF,你会怎么处理?

12.如果用 Agent 的方式做切分,上下文过长怎么办?

13.说一下 Skill 和 MCP 的区别是什么?

14.介绍一下 Memory 机制。

15.短期记忆如何处理上下文爆炸的问题?

16.介绍一下 ReAct 范式。

17.它和 Agent Loop 有什么区别?
全部评论
这智能体问的,参考意义大
点赞 回复 分享
发布于 今天 16:17 辽宁

相关推荐

大二玩了半年RAG,我发现最靠谱的解法,居然是百年图书馆逻辑本人大二,接触Agent开发从RAG入门,摸过GraphRAG、RAGFlow这些热门项目,也啃过LlamaIndex、LangChain框架,踩了不少坑,也有了些不一样的想法,纯分享思路,不做落地。先说说我看到的核心问题:RAGFlow的溯源功能能标清信息出处,解决了模型胡编的问题,却缺了LangChain那样的隐私数据守卫——检索时只过滤正文,溯源链接还留着,等于给隐私泄露、外网信息跳转留了后门。同时现在的RAG大多是文档乱塞一锅炖,海量数据根本管不住,开源框架要么太笨重新手难维护,要么功能太简陋撑不起场景。想通这些的时候我正在学校图书馆,突然发现:我们卷破头的RAG问题,现代图书馆这套人类用了上百年的「信息管理系统」,早就完美解决了。核心思路完全对标图书馆逻辑,分三点:1. 先分级管控,从根源堵隐私漏洞像图书馆分普通阅览区、内部资料室、涉密档案室一样,给文档做分级。敏感内容直接拦在库外,内部文档没权限连检索都搜不到,自然不会有溯源链接泄露的问题,只有合规公开内容才开放完整溯源。2. 先分类入库,解决海量数据混乱图书馆新书不会直接堆书架,会先验收、查重、按标准分类标引再上架。对应到RAG里,就是文档先自动清洗、去重、分类打标,再分到独立向量库物理隔离,再多文档也井井有条,不会越用越臃肿。3. 统一规范做开源生态,解决「各玩各的」的痛点图书馆能跨馆互通,核心是有统一的编目规则。我们也可以定一套极简统一的开源RAG库规范,实现两个核心:一是人人都能按规范分享自己的RAG库,开箱即用不用二次处理;二是符合规范的任意两个RAG库,都能无缝拼接,自动对齐分类、去重、更新索引,不用手动改配置。现在RAG圈总在卷框架、卷算法,却忘了做RAG的初衷,是让普通人用最低成本让AI落地。这套图书馆逻辑的思路,不用高算力不堆复杂技术,刚好能让本地小模型配上标准化RAG库,真正变得可用。纯思路分享,不打算自己落地做项目,玩RAG的朋友有想法,欢迎一起交流。大模型  开源思路 #大学生编程
空想天使:有的兄弟有的,rag有这些技术,第一点叫做二级权限校验,在用户输入,调向量库之前,先去用户数据库找找有没有这用户,如果没有就挡住,第二部就是调知识库之前再去用户数据库核对一下,他的读库权限和检索库名是否对应,不对应也挡住。第二点叫做分库管理+元数据过滤。核心就是用户问2024或者指定v0.1版本的文档,那检索的时候就筛选对应的文档标签。第三点我还没听说过倒是,毕竟rag这玩意做出来的主要目的就是赋能企业的知识库,而企业知识库一般都是私有的,比较讲究私有化部署,有啥需要共享内容的直接调用web search得了
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务