阶跃星辰大模型算法实习一面
整体面试还是不错的,但是没后续了,不知道是哪里出了问题
1. 如何进行混合加训
2. 混合加训和 continue sft 你觉得哪个效果好,为什么?
3. Sft loss的起点数值和收敛情况。
4. 讲解一下 rlvr 使用的策略。
5. 训练 1t 模型遇到哪些困难,跟小尺寸模型有什么不同
6. Benchmark 测评情况,如何根据 benchmark 进行模型效果优化。
手撕:top-p sampling、grpo
1. 如何进行混合加训
2. 混合加训和 continue sft 你觉得哪个效果好,为什么?
3. Sft loss的起点数值和收敛情况。
4. 讲解一下 rlvr 使用的策略。
5. 训练 1t 模型遇到哪些困难,跟小尺寸模型有什么不同
6. Benchmark 测评情况,如何根据 benchmark 进行模型效果优化。
手撕:top-p sampling、grpo
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
相关推荐
查看1道真题和解析