高德强化学习实习一面分享

发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流
1. 深挖实习内容
2. 场景题:给你一个通用的大模型,如何让他具备agent能力。
3. 场景题:挖掘高德场景下的agent应用,从数据到训练,设计整个流程。
4. 对比介绍ppo、grpo。
5. PPO loss函数口述、以及clip的作用,如果不clip公式是否成立
6. 深挖对 DAPO 的理解
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 昨天 07:34 广东
考虑我司么 可以见我主页
点赞 回复 分享
发布于 昨天 20:56 上海

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务