字节暑期大模型算法实习一面分享
发一下问题给大家参考,攒攒人品!
1.介绍一下实习的工作
2.长CoT数据怎么构造的?
3.SFT和RL的本质区别是什么
4.手撕交叉熵损失和softmax
5.怎么平衡SFT和RL
6.PPO和GRPO的区别,接着问KL散度的位置为什么不一样?实现方式为什么不一样?K3-KL有什么优势?
7.交叉熵和KL散度的区别
8.PPO和GRPO分别适用于什么场景
9.DAPO为什么没有KL散度
10.怎么判断后训练效果不好是缺乏领域知识还是推理能力不足
11.实习的后训练过程中遇到了什么问题,怎么解决
12.手撕:字符串分词的最大分数
1.介绍一下实习的工作
2.长CoT数据怎么构造的?
3.SFT和RL的本质区别是什么
4.手撕交叉熵损失和softmax
5.怎么平衡SFT和RL
6.PPO和GRPO的区别,接着问KL散度的位置为什么不一样?实现方式为什么不一样?K3-KL有什么优势?
7.交叉熵和KL散度的区别
8.PPO和GRPO分别适用于什么场景
9.DAPO为什么没有KL散度
10.怎么判断后训练效果不好是缺乏领域知识还是推理能力不足
11.实习的后训练过程中遇到了什么问题,怎么解决
12.手撕:字符串分词的最大分数
全部评论
相关推荐
04-19 06:44
山东协和学院 客户端开发 点赞 评论 收藏
分享
查看3道真题和解析