转正实习-阿里高德AI应用算法一面
发一下问题给大家参考,攒攒人品!
1.实习介绍
2.训练奖励模型时的损失函数
3.self-certainty的约束具体做法
4.KL散度公式
5.KL散度和交叉熵的关系
6.GRPO中的各类惩罚怎么设定的
7.RLAIF的prompt最初是怎么设定的
8.RLAIF的迭代过程
9.迭代时有哪些改进点
10.觉得项目里最难的点是什么
11.手撕:有序数组的平方
1.实习介绍
2.训练奖励模型时的损失函数
3.self-certainty的约束具体做法
4.KL散度公式
5.KL散度和交叉熵的关系
6.GRPO中的各类惩罚怎么设定的
7.RLAIF的prompt最初是怎么设定的
8.RLAIF的迭代过程
9.迭代时有哪些改进点
10.觉得项目里最难的点是什么
11.手撕:有序数组的平方
全部评论
拼多多招27届实习生啦 https://careers.pddglobalhr.com/campus/intern/detail?t=dRvUVvcTiA
相关推荐
03-30 08:20
门头沟学院 算法工程师 倩雯雯:强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
查看8道真题和解析 点赞 评论 收藏
分享