腾讯LLM算法实习一面 攒人品

继续来分享下之前的面经~欢迎友好讨论,信息共享

1.实习中做过哪些项目或研究?你个人负责的部分是什么?

2.你做的上下文扩展具体是怎么做的,原理是什么?

3.相关长文本是怎么做几阶段训练的?

4.Deepseek、Llama的长文本扩展方案是什么?为什么选择当前方案而非其他?

5.若要将模型训练到1000K的上下文长度,该从哪些方面实现,其中的难点是什么?

6.32B模型训练用了多少显卡?

7.若将上下文扩展到1000K,该如何估算训练的算力用量?

8.上下文扩展到1000K后,训练时显存会在哪些地方暴涨?

9.用GRPO做后训练的过程中,遇到的典型或较难的问题是什么?

10.针对上述问题,训练Skill的具体方式是什么?

11.从算法设计角度,该如何解决模型无效调用工具、工具调用参数失败的问题?

12.增量预训练中的增量具体指什么?

13.增量预训练使用了多少数据,又该如何评估训练效果?

14.系统介绍一下自动化评分的背景、所用手段、解决的问题以及达到的效果。

15.在模型迭代优化中,什么样的数据能进入数据闭环,筛选标准是什么?

16.模型工具调用的准确率是如何计算的?

17.分析PPO算法各部分在流程中的位置以及具体计算方式。

18.抛开实际应用场景,PPO算法的损失包含哪几部分?

19.在实际流程中,PPO算法的相对优势是怎么计算的?
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务