阿里算法面经

八股文:

SFT 训练时,数据规模和模型大小之间有什么 scaling law?

除了 GRPO,还有哪些改进技术?比如 DPO、GSPO?

怎么解决 DPO 和 GRPO 的 reward hacking 问题?

DPO、GRPO 和 PPO 有啥区别?

聊聊全参数微调和 PEFT?

PEFT 的四种模式(addition, replace, LoRA, prompt tuning)分别讲讲?

手撕算法:

链表题:判断链表有没有环,找出两个链表的相交节点。

O(n) 时间复杂度内,找出数组中第 k 大的数。

全部评论
同学,瞅瞅我司,医疗独角兽,校招刚开,名额有限,先到先得,我的主页最新动态,绿灯直达,免笔试~
1 回复 分享
发布于 09-04 08:39 广东
佬什么bg,有实习和论文吗
点赞 回复 分享
发布于 09-01 18:27 北京
一直不太明白,这个时间复杂度到底有啥用
点赞 回复 分享
发布于 08-31 22:23 陕西

相关推荐

点赞 评论 收藏
分享
评论
点赞
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务