秋招面经-京东大模型算法一面
1.项目介绍
2.LoRA 和 Prefix Tuning的区别?在什么场景下选择 LoRA?
3.如果要用 LORA 做电商推荐场景的微调,你会怎么设计数据和标签?
4.GRPO 和 PPO 的区别在哪?GRPO 的优化目标函数怎么写?
5.搜索中 RAG的向量检索会受到长尾商品影响,你会如何缓解?
6.如果商品知识库实时更新,你怎么保证 RAG的召回结果和库存一致?
7.Reflection 机制里,如何判断一个 Agent 的失败是由知识缺失还是工具调用错误引起的?
8.Toolformer 中通过自监督学习生成 tool call 数据,这个训练范式和 RLHF 的差别在哪里?为什么它更容易泛化?
9.语义歧义(如“苹果”既是品牌也是水果)在搜索链路中通常怎么建模?多义词消解和上下文建模的核心方法分别是什么?
10.算法题:实现 LRU
2.LoRA 和 Prefix Tuning的区别?在什么场景下选择 LoRA?
3.如果要用 LORA 做电商推荐场景的微调,你会怎么设计数据和标签?
4.GRPO 和 PPO 的区别在哪?GRPO 的优化目标函数怎么写?
5.搜索中 RAG的向量检索会受到长尾商品影响,你会如何缓解?
6.如果商品知识库实时更新,你怎么保证 RAG的召回结果和库存一致?
7.Reflection 机制里,如何判断一个 Agent 的失败是由知识缺失还是工具调用错误引起的?
8.Toolformer 中通过自监督学习生成 tool call 数据,这个训练范式和 RLHF 的差别在哪里?为什么它更容易泛化?
9.语义歧义(如“苹果”既是品牌也是水果)在搜索链路中通常怎么建模?多义词消解和上下文建模的核心方法分别是什么?
10.算法题:实现 LRU
全部评论
相关推荐
点赞 评论 收藏
分享
11-25 17:03
门头沟学院 Java 点赞 评论 收藏
分享
滴滴公司福利 1778人发布