小红书Hi lab 日常实习 一面

全程拷打实习项目
1. 详细介绍两阶段后训练链路,两阶段学习的目标是什么
2. 多轮对话轮数,说明多轮训练数据拆分的trick和原因,训推一致吗
3. reward function 设计
4. 数据集构造:如何保证问题能对应某个事实类的答案
5. DAPO 相对于GRPO 的优化
6. 拷打是否有做多轮对话截断、记忆方面的优化
7. 是否有评估训练后的收益
8. 搜索引擎召回的top-k值是固定还是模型选择

业务上很接近,所以问得更多的是落地可能会遇到的问题
全部评论
给我干哪来的了
点赞 回复 分享
发布于 11-09 13:09 广东
这是啥 完全看不懂的面试题 有相关学习的资料么
点赞 回复 分享
发布于 11-07 18:33 广东
wow,这还是后端吗,给我干哪来了
点赞 回复 分享
发布于 11-06 14:25 浙江

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务