27实习美团大模型应用算法一面

继续来分享下最近的面经~欢迎友好讨论,信息共享
1.项目详细介绍
2.为什么7个指标融合到一个prompt里
3.奖励模型的训练方式、数据格式
4.训练样本聚类是怎么做的
5.GRPO是单步的吗?
6.手撕3选2:
1. 首token推理计算过程伪代码
2. sft和grpo目标函数
3. 给定一个整数数组和一个整数k,找到该数组中和为k的连续的子数组的个数
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务