不怕拒绝 level
获赞
70
粉丝
17
关注
0
看过 TA
222
陕西师范大学
2026
算法工程师
IP属地:陕西
暂未填写个人简介
私信
关注
1.实习介绍2. 语义理解相关:在搜索链路里,像“苹果”这种既代表品牌又代表水果的语义歧义情况,通常是如何进行建模的?另外,多义词消解和上下文建模的核心方法分别是什么?3. Toolformer 与 RLHF 对比:Toolformer 采用自监督学习来生成 tool call 数据,这种训练范式和 RLHF 存在哪些差别?并且,为什么 Toolformer 更容易实现泛化呢?4. Reflection 机制判断问题:在 Reflection 机制中,我们该如何判断一个 Agent 执行失败是由于知识缺失,还是工具调用错误导致的呢?5. RAG 与库存一致性:假如商品知识库是实时更新的,那么要怎样保证 RAG 的召回结果和库存信息保持一致呢?6. RAG 长尾商品问题:在搜索场景中,RAG 的向量检索容易受到长尾商品的影响,针对这个问题,你会采取什么措施来缓解呢?7. GRPO 与 PPO 对比:GRPO 和 PPO 之间的区别体现在哪些方面?另外,GRPO 的优化目标函数应该怎么写呢?8. LoRA 电商推荐场景设计:如果要运用 LoRA 来对电商推荐场景进行微调,你会如何设计相应的数据和标签呢?9. LoRA 与 Prefix Tuning 对比:LoRA 和 Prefix Tuning 有哪些区别?在什么样的场景下会选择使用 LoRA 呢?10.算法题:请实现一个 LRU 缓存机制。
查看9道真题和解析
0 点赞 评论 收藏
分享
1.简单介绍实习的整个项目背景2.训练数据是怎么构建的,大概有多少量;测试集如何构建3.为什么你在项目中选择用 Qwen 的模型而不用内部模型;文本检索时有 embedding 初步排序和重排两种模型可选,为什么选择 Rerank 方式做重排,而非其他重排方式4.GRPO/ GSPO 训练的流程是什么,一条数据的处理过程及损失计算方式是怎样的, GSPO 相比 GRPO 做了哪些改进; GSPO 训练时,损失函数是怎么设计的;数据相同的情况下,为什么 GSPO 相比 GRPO 优化效果5.实习项目是否已上线,每天的访问量多少;系统中有很多重复或相似的用户问题,一直检索会浪费资源,有哪些优化方式能节约资源6.传统的记忆机制在使用过程中,该怎么进行更新和遗忘7.一个标准的 RAG 系统包含哪些模块,整个 RAG 流程是怎样的8.结合实践,写效果好的大模型 Prompt 一般有什么经验,其模块或每个部分应该写什么内容;除了你提到的, Prompt 还有其他比较重要的模块或部分吗;假如针对某个任务(比如 RAG 系统最后做总结)写了一个初始 Prompt ,发现结果有问题、不能很好遵循要求,有什么样的优化策略方式;还有其他能想到的优化方式吗9.你自己在以后的工作中,更感兴趣做模型优化还是做应用相关的工作?这方面是怎么考虑的10.手撕三选二:LC200最大岛屿,LC221最大正方形,LC31搜索旋转排序数组
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务