27日常实习字节头条推荐算法一面
继续来分享下最近的面经~
1.手撕编辑距离
2.dpo grpo基本原理 损失函数构成
3.reward hacking解决办法
4.kl散度
5.llm做数据清洗
6.QA注入知识的作用
7.grpo在cot场景下不稳定怎么改进
8.grpo改进
9.dapo gspo聊一聊
10.transformer模型自注意力机制计算复杂度
1.手撕编辑距离
2.dpo grpo基本原理 损失函数构成
3.reward hacking解决办法
4.kl散度
5.llm做数据清洗
6.QA注入知识的作用
7.grpo在cot场景下不稳定怎么改进
8.grpo改进
9.dapo gspo聊一聊
10.transformer模型自注意力机制计算复杂度
全部评论
相关推荐
点赞 评论 收藏
分享
查看18道真题和解析