荣耀大模型算法实习一面分享
发点面经攒攒人品~
1.数据构造策略 评价指标 验证方式
2.用的什么训练框架 怎么优化显存
3.八股:dp ddp tp等区别
4.介绍整体架构和细节
5.rl奖励函数设计方法
6.八股:grpo和ppo的区别
无手撕
1.数据构造策略 评价指标 验证方式
2.用的什么训练框架 怎么优化显存
3.八股:dp ddp tp等区别
4.介绍整体架构和细节
5.rl奖励函数设计方法
6.八股:grpo和ppo的区别
无手撕
全部评论
相关推荐
查看9道真题和解析 点赞 评论 收藏
分享