商汤科技 大模型开发 二面

1、自我介绍

2、讲一下你做过的一个最有代表性的项目

3、RAG 里 chunk 怎么切,为什么这是个关键点

chunk 切分会直接影响召回质量和最终回答质量。因为向量检索不是按整篇文档检,而是按切分后的片段检。如果切得太长,一个 chunk 里会混入很多无关信息,虽然语义覆盖大,但相似度不一定集中,模型拿到后也不容易抓住重点。如果切得太短,单个 chunk 虽然很纯,但上下文不完整,容易导致召回回来的内容缺少关键信息。

实际做的时候一般会根据文档类型来定。像制度文档、说明文档,可以按标题、段落、语义边界切;如果是 FAQ 或问答对,本身就天然适合按条切。通常还会设置 overlap,避免一个关键信息刚好被切断。除了长度本身,还会补充标题、来源、章节名这些元信息,这些信息很多时候对召回也很有帮助。

4、检索效果不好,一般怎么排查

我一般会把问题拆成几层。先看是不是 query 本身的问题,比如用户表达口语化、缩写太多、错别字多,或者问题本身就不清楚。然后看知识库侧,确认目标答案所在文档有没有被正确清洗、切分和入库。再往下看 embedding 模型是不是适合这个领域,因为通用模型在垂直领域不一定稳定。

如果文档和 query 都没问题,再看召回是不是命中了正确 chunk。如果 Recall@K 很低,那是召回问题,可能要改 embedding、混合检索或者 query 改写。如果召回到了但排得靠后,那是 rerank 问题。如果检索结果明明没问题,但最终答案还是不对,那就要看 prompt 和上下文构造,可能是文档拼接太乱、噪声太多,或者模型没有被足够约束。

5、Embedding 模型和 Rerank 模型分别解决什么问题

Embedding 模型主要解决的是粗召回问题,它把 query 和文档映射到同一个向量空间里,通过向量相似度快速找出语义上接近的候选文档。它的优势是快,适合从大规模语料里先筛出一批可能相关的内容,但它做的是相对粗粒度的相似性判断。

Rerank 模型解决的是精排问题。它通常把 query 和候选文档一起输入模型,让模型做更细粒度的相关性判断,所以排序精度更高。代价是更慢,不适合对全库直接跑。一般做法都是 embedding 先召回 topK,再用 rerank 把最相关的文档排到前面。两者不是替代关系,而是配合关系。

6、你怎么理解模型幻觉,实际项目里怎么降低

幻觉本质上是模型生成了看似合理但实际上没有依据、甚至不正确的内容。它在开放问答、知识缺失、上下文不足或者 prompt 约束弱的时候特别容易出现。很多时候模型并不是“知道但说错了”,而是根本没有足够证据,只是在基于语言统计规律继续生成。

实际项目里降低幻觉一般会从几个方向做。第一是接入 RAG,让模型基于检索到的证据来回答。第二是加强 prompt 约束,比如明确要求“只基于资料回答,资料不足就说不知道”。第三是做结果后校验,尤其在结构化场景里可以校验字段是否合法。第四是做拒答机制,不是所有问题都必须回答。第五是通过评测集专门测忠实性和事实性,而不是只看回答流不流畅。

7、SFT、DPO、RLHF 的区别

SFT 是监督微调,本质上是让模型学习示范答案,训练目标通常是最大化正确答案序列的概率。它实现简单、稳定,是大模型对齐最基础的一步。很多模型先经过预训练,再经过 SFT,就已经具备比较好的指令跟随能力。

DPO 和 RLHF 更偏偏好对齐。RLHF 一般流程更长,先收集偏好数据,再训练奖励模型,然后用 PPO 这类强化学习方法去优化策略模型。它理论上更灵活,但工程复杂、训练不稳定因素也多。DPO 则是直接利用偏好数据去优化,不需要单独训练 value model,也不需要在线 rollout 那么重的流程,整体实现更简洁。现在很多场景会优先选择 SFT + DPO 这种路线。

8、你做模型评测的时候,一般怎么设计评测集

评测集首先要覆盖真实场景,而不是只做一些过

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

昨天 11:07
南开大学 Java
牛马人的牛马人生:快手卡实习经历的
点赞 评论 收藏
分享
大一上别人军训我请假学c语言,当时看的是鹏哥好像,军训结束我c语言刚好学完,学校有个第二课堂,就是高年级给低年级上课,当时选的python,那时候了解到的蓝桥杯,后来大一报名蓝桥杯,然后开始学算法,c嘎嘎,每天都在洛谷写dfs,bfs这些,学了暴力和模拟,和逊哥学了数据结构大一寒假,刷到b站一个开源的机器狗(我找一下图片)焊了好久被烫好几次,最后送人了哈哈,每天写俩算法,当时已经写不下去,有的题没看答案俺是真不会😂大一下磨蹭磨蹭终于该省赛了,当时觉得暴力都差不多了基本的dp也会,感觉要乱杀了,知道出分前我都是这样想的其实哈哈哈,所有样例都过了,dfs也写了。出分了,梦也醒了省二无缘国赛。算法能力也算是到头了,现在还不一定有当时厉害哈哈哈哈,然后准备另寻出路了,因为做了那个小狗嘛,然后开始学嵌入式,买了stm32,51,(还有一个名字忘记了esp32好像是)现在吃灰了我学了电路基础和模电,stm32也学了一丢丢大一暑假当时才看到java,开始学javase,javaweb大二上开学一个星期我才写完苍穹外卖,然后就是若依那个框架,其实我没咋看,已经学不动了当时,看视频就烦哈哈哈哈,若依被我跳过了,学了微服务当时还买了服务器部署了个人博客网站学完微服务是最黑暗的时刻,我发现好多东西都忘记了,当时其实就开始玩了,我当时边玩边写天机学堂,大二上结束也没写完,当时ai特别火老师让我学什么微调,当时听的一愣一愣的哈哈,想大二暑假找个java实习来着大二寒假今年过年,玩了一个寒假哈哈,也不算吧,我学了点RAG,openai的库和python数据分析,想找实习不知道怎么来啊,我倒是知道八股文,项目这俩现在大二下,还在思考项目是不是要自己写,我不甘心啊我用过claudecode,最近火的openclaw我也用了,两句话的事,或者黑马学的项目包装一下都可以,但是我觉得面试官会不会看不上那些项目,问我能不能答的出来,我好像无限循环了(只有token在消耗,进度一点没动),不知道怎么办了,哈哈哈哈学了这么多东西现在回想,大部分都忘了,嵌入式应该就会焊接了,进厂技能哈哈哈哈哈也不能穿越回去提醒自己要好好学什么,真穿越回去还是劝自己好好玩,玩游戏,逛街(我到现在石家庄还没逛完)。计算机好累,现在就学点八股骗骗自己吧。顺其自然,落子无悔!
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务