小红书大模型实习一面 30分钟不到...

无算法五八股,就是聊了一下项目
1.实习介绍
2.项目细节介绍
3.项目:讲一下论文里的GRPO算法原理,为什么去掉KL散度,reward function怎么设置
4.项目:credit assignment怎么实施的
5.项目:agentic RL和普通的RL比最大的不同在哪里?
6.项目:你们评测模型用的指标有哪些,介绍一下
7.了解ReAct结构吗,介绍一下?
8.你主要做的是多模态方向的任务对吧,有做过一些文本方面的任务吗?
9.GRPO相比PPO、DPO等有什么优点?
10.反问
全部评论

相关推荐

03-10 10:57
已编辑
门头沟学院 推荐算法
夜夜还好:我们学校说为了学生就业,更新了课程,我今天大二,上学期在学jsp,html,这学期上来工程实践,要求用springboot+vue,说什么这些技术要我们提前自己准备,要不你把学费还我吧,我给b站充个会员,人家教的比你多
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务