27日常实习字节头条推荐算法一面

继续来分享下最近的面经~
1.手撕编辑距离
2.dpo grpo基本原理 损失函数构成
3.reward hacking解决办法
4.kl散度
5.llm做数据清洗
6.QA注入知识的作用
7.grpo在cot场景下不稳定怎么改进
8.grpo改进
9.dapo gspo聊一聊
10.transformer模型自注意力机制计算复杂度
全部评论

相关推荐

04-22 15:23
南昌大学 Java
程序员小白条:尽量别纯复制大家都一样的亮点部分,最好还是得有特点可以思考下优化和实验的量化具体效果
我的求职进度条
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务