TeleAI 大模型算法实习一面分享
发一下问题给大家参考,攒攒人品!
1.详细拷打实习
2.讲解一下你了解到的不同基座模型都用了什么不同的训练范式
3.grpo的重要性采样公式是什么,如何理解
4.off-policy和on-policy如何理解
5.如何理解dapo中的clip-higher
手撕:
找零问题(强制python)
1.详细拷打实习
2.讲解一下你了解到的不同基座模型都用了什么不同的训练范式
3.grpo的重要性采样公式是什么,如何理解
4.off-policy和on-policy如何理解
5.如何理解dapo中的clip-higher
手撕:
找零问题(强制python)
全部评论
相关推荐
点赞 评论 收藏
分享
查看11道真题和解析