腾讯混元TEG大模型三面-实习面经

1.自我介绍,挑一个觉得做的比较好的论文和实习讲一下,面试官问的比较详细,为什么选现在这种方案,为什么 work,其他方案有考虑吗
2.在微调 Qwen 的时候,数据是怎么构造的,有用到什么数据清洗方法吗,数据配比是怎么做的
3.讲一下 RLHF 的流程,之前有用 RLHF 做过模型对齐吗
4.在做对齐的时候,为什么 SFT之后还要做 RLHF,只用 SFT 可以吗
5.知道哪些强化学习算法,除了PPO和 DPO这些呢,DeepSeek用的GRPO 相比于 GPT的 PPO 做了哪些改进
6.开放题:对目前大模型的发展有什么看法
7.代码:零钱的两个题 322.零钱兑换518.零钱兑换 II
全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务