27实习美团大模型应用算法一面
继续来分享下最近的面经~欢迎友好讨论,信息共享
1.项目详细介绍
2.为什么7个指标融合到一个prompt里
3.奖励模型的训练方式、数据格式
4.训练样本聚类是怎么做的
5.GRPO是单步的吗?
6.手撕3选2:
1. 首token推理计算过程伪代码
2. sft和grpo目标函数
3. 给定一个整数数组和一个整数k,找到该数组中和为k的连续的子数组的个数
1.项目详细介绍
2.为什么7个指标融合到一个prompt里
3.奖励模型的训练方式、数据格式
4.训练样本聚类是怎么做的
5.GRPO是单步的吗?
6.手撕3选2:
1. 首token推理计算过程伪代码
2. sft和grpo目标函数
3. 给定一个整数数组和一个整数k,找到该数组中和为k的连续的子数组的个数
全部评论
相关推荐
点赞 评论 收藏
分享