bilibili 游戏安全算法 一面

时长:40分钟

无手撕

面试:
1. 询问实习项目
2. 询问强化学习的问题,比如DAPO,DQN等
3. 贝尔曼期望方程怎么写(完全忘了,呜呜)
4. 问业务,对于大模型在伙牌上面的诊断有什么想法,用什么样的方式去训练

反问:
1. 目前探索得怎么样了
2. 实习生主要工作内容
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务