TeleAI 大模型算法实习一面分享

发一下问题给大家参考,攒攒人品!
1.详细拷打实习
2.讲解一下你了解到的不同基座模型都用了什么不同的训练范式
3.grpo的重要性采样公式是什么,如何理解
4.off-policy和on-policy如何理解
5.如何理解dapo中的clip-higher
手撕:
找零问题(强制python)
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务