27实习腾讯pcg大模型算法一面
给我面没招了,发点面经攒攒人品~
1.项目拷打
2.pagedattention核心原理;continuous batching;vllm部署的推理策略。
3.grpo和ppo的区别以及两者训练时的细节。
4.如何判断推理能力和最终答案之间是否有关联;如果不匹配怎么改进?
5.推荐场景chosen/reject怎么构造?
6.历史反馈有曝光偏差,学不到真实偏好,怎么解决?
7.多目标reward怎么设计
1.项目拷打
2.pagedattention核心原理;continuous batching;vllm部署的推理策略。
3.grpo和ppo的区别以及两者训练时的细节。
4.如何判断推理能力和最终答案之间是否有关联;如果不匹配怎么改进?
5.推荐场景chosen/reject怎么构造?
6.历史反馈有曝光偏差,学不到真实偏好,怎么解决?
7.多目标reward怎么设计
全部评论
相关推荐
05-26 17:47
贵州医科大学 前端工程师 在下uptown:助学贷款,当年哥们去打印申请表的时候,那个姐姐问我贷多少,我羞愧的说贷最高的,这份助学贷款让我整个大学四年都保持着对父母的内疚之心,除了谈恋爱就是学专业课,后来攒了赞实习工资,毕业3个月还清了
点赞 评论 收藏
分享
查看30道真题和解析
爱玛科技公司福利 17人发布