某新能源汽车AI算法一面

1.实习介绍
2.问基于R1的复现工作,说一下ppo,dpo,grpo原理?数据怎么来的?数据有做什么处理?reward是基于规则还是模型?规则设置是怎么样的?训练过程中有遇到奖励消失的问题吗?训练框架采用什么?
3.询问智能手机助手项目,让介绍项目?为什么用ppo?奖励是怎么设置的?数据怎么来的?你觉得你们这个模型泛化能力够日常生活场景吗?
4.询问我对于推理的理解,为什么模型能具有推理能力?实习时长是否接受?
5.介绍他们组在做什么?反问实习生会参与哪些工作?回答偏算法设计,数据会占一部分但是少量
无手撕
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务