字节实习 机器学习 面经 1h
被横向挂了,希望发出来对大家有帮助!
1.拷打项目
2.对强化学习训练有什么了解吗?
3.如果有一个对话任务,没有固定答案,该怎么选RL训练策略
4.讲一讲GRPO的原理,优劣以及后续改进
5.预训练和SFT的loss计算差异?
6.Qwen3相比前代有什么改进?
7.目前LLM领域关注到哪些最新进展?
8.手撕:最长公共子序列
1.拷打项目
2.对强化学习训练有什么了解吗?
3.如果有一个对话任务,没有固定答案,该怎么选RL训练策略
4.讲一讲GRPO的原理,优劣以及后续改进
5.预训练和SFT的loss计算差异?
6.Qwen3相比前代有什么改进?
7.目前LLM领域关注到哪些最新进展?
8.手撕:最长公共子序列
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享

