字节校招大模型算法凉经感觉是kpi
1.PPO 公式,是否可以没有 value model
2.交叉熵公式?怎么计算的详细说下
3.grpo 是什么,讲一下过程
4.ppo 计算和 grpo 有什么不同,知道 gae 吗?
5.grpo 有哪些变体?
6.讲一下你对代码生成的看法,trae 中项目代码是怎么传进 llm 的知道吗?
7.有直接试过 grpo 吗?有什么缺点?
8.手撕:给定 n 行,每一行包括左指针、右指针和替换字符串,将指定字符串替换,如何优化?
2.交叉熵公式?怎么计算的详细说下
3.grpo 是什么,讲一下过程
4.ppo 计算和 grpo 有什么不同,知道 gae 吗?
5.grpo 有哪些变体?
6.讲一下你对代码生成的看法,trae 中项目代码是怎么传进 llm 的知道吗?
7.有直接试过 grpo 吗?有什么缺点?
8.手撕:给定 n 行,每一行包括左指针、右指针和替换字符串,将指定字符串替换,如何优化?
全部评论
第一次看到要优化的题目
相关推荐
02-04 16:13
门头沟学院 算法工程师 字节抖音风控部门大模型算法一面1.自我介绍(论文、实习、项目)2.拷打项目(问的很细,占据主要面试时间)3.实习介绍4.讲讲dpo与kto的区别5.grpo的非规则奖励如何设计6.两道medium力扣
查看6道真题和解析 点赞 评论 收藏
分享
