滴滴大模型面经

本人只做点业务数据sft, 做的更加偏向于粗糙业务,直接被拷打麻了,望佬看到可以给我指点一下

1. 现在有一个非常完备的sft指令集,你只能选择1w条,你如何选择数据来使模型的能力更加提升+完备?
2.我们知道sft的时候尽量不要注入知识给模型,因为只希望sft可以提升模型的指令遵循的能力,注入知识的话,可能会导致后面使用的时候模型容易出现幻觉,那我们怎么确保自己选择的这1w条数据没注入知识给模型呢?
3.7b和13b模型微调同一批数据,学习率哪个大?
4. Pretrain/sft/ppo学习率怎么变换?
5. 学习率和batch大小变化一致吗?
6. 做表征学习的时候,模型坍塌的原因?
7. 为什么做rm的时候,用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效?这很反直觉,因为按照直觉来说的话,这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法,有做完pt直接做rlhf的,也有按班就步的pt-sft-rlhf的,还有直接不做rlhf的,你觉得为什么这些方法都有效,你觉得是什么原因造成的?

#滴滴##秋招##面经#  #算法#  #八股#
全部评论
搞这么细啊。有些答案可以去llama3.1的技术报告参考,其他的等大佬回答
6 回复 分享
发布于 2024-09-14 15:37 陕西
通常lr缩放倍数为batch size倍数的开方。例如batch size增大4倍,学习率对应扩大2倍即可。
4 回复 分享
发布于 2024-09-14 20:40 辽宁
对TEMU有想法的戳我哈
1 回复 分享
发布于 2024-09-22 15:45 上海
佬这是几面啊,滴滴是连着面吗🙌
1 回复 分享
发布于 2024-09-15 01:15 广东
蹲蹲答案
1 回复 分享
发布于 2024-09-14 18:14 美国
蹲蹲答案
点赞 回复 分享
发布于 2024-10-03 00:59 安徽
我们这大模型搜推方向 来试试嘛
点赞 回复 分享
发布于 2024-09-23 16:04 上海

相关推荐

07-31 17:30
中南大学 Java
带带杨巅峰:清华本也是985本
什么样的背景能拿SSP?
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
昨天 18:38
点赞 评论 收藏
分享
zzzzhz:兄弟你先猛猛投简历至少三百家,能约到面试就去面。最近可以速成智能小车,智慧家居烂大街的项目,不需要自己写,只需要把里面的代码讲解看明白就行。把其中涉及到的八股文都拿出来单独背一下,我去年找工作就一个智能小车智慧家居找了10k差不多。
点赞 评论 收藏
分享
评论
23
91
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务