小红书Hi lab 日常实习 一面
全程拷打实习项目
1. 详细介绍两阶段后训练链路,两阶段学习的目标是什么
2. 多轮对话轮数,说明多轮训练数据拆分的trick和原因,训推一致吗
3. reward function 设计
4. 数据集构造:如何保证问题能对应某个事实类的答案
5. DAPO 相对于GRPO 的优化
6. 拷打是否有做多轮对话截断、记忆方面的优化
7. 是否有评估训练后的收益
8. 搜索引擎召回的top-k值是固定还是模型选择
业务上很接近,所以问得更多的是落地可能会遇到的问题
1. 详细介绍两阶段后训练链路,两阶段学习的目标是什么
2. 多轮对话轮数,说明多轮训练数据拆分的trick和原因,训推一致吗
3. reward function 设计
4. 数据集构造:如何保证问题能对应某个事实类的答案
5. DAPO 相对于GRPO 的优化
6. 拷打是否有做多轮对话截断、记忆方面的优化
7. 是否有评估训练后的收益
8. 搜索引擎召回的top-k值是固定还是模型选择
业务上很接近,所以问得更多的是落地可能会遇到的问题
全部评论
给我干哪来的了

这是啥 完全看不懂的面试题
有相关学习的资料么
wow,这还是后端吗,给我干哪来了
相关推荐