百度实习 AIGC算法面经分享

攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.对于社区讨论类、用户生成内容较多的数据源,会做哪些额外的数据清洗或质量控制?
2.如何对metadata做数据处理?
3.检索系统中,数据预处理、metadata 设计和索引构建是如何考虑的?
4.检索阶段是如何做召回和精排的?为什么要结合关键词检索、语义检索和 rerank?
5.检索结果注入生成模型后,这个模型是用于实验验证,还是面向真实部署场景?
6.如果后续要正式落地,你会从哪些维度重新评估模型选型?
7.你如何理解 RAG?它的核心目标是什么?
8.RAG 的典型流程包括哪些阶段?每个阶段的关键点分别是什么?
9.在实际应用中,RAG 的效果上限主要受哪些因素影响?
10.在什么场景下更适合使用 RAG,而不是把规则或知识直接固化到系统逻辑里?
11.在 Agent 或助手系统里,tool calling 一般适合解决什么问题?
12.MCP 或类似协议在工具调用体系里主要起什么作用?
13.Skills 和 tool calling 的区别是什么?
14.如果要用 skills 重构一个现有助手系统,哪些模块最适合优先抽象成 skills?
15.在多模态系统中,引入 Adapter 的主要作用是什么?
16.Adapter 在模态对齐、参数高效训练、信息筛选和可迁移性上分别有什么价值?
17.用模型对长文本做预提取、重写或摘要,与直接截断相比,有什么本质区别?
18.滑动窗口、摘要压缩、关键词提取、长期 memory 存储,这几类方案分别适合什么场景?
19.DPO 和 GRPO 的核心区别是什么?
全部评论

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务