腾讯LLM算法实习一面 攒人品

继续来分享下之前的面经~欢迎友好讨论,信息共享

1.实习中做过哪些项目或研究?你个人负责的部分是什么?

2.你做的上下文扩展具体是怎么做的,原理是什么?

3.相关长文本是怎么做几阶段训练的?

4.Deepseek、Llama的长文本扩展方案是什么?为什么选择当前方案而非其他?

5.若要将模型训练到1000K的上下文长度,该从哪些方面实现,其中的难点是什么?

6.32B模型训练用了多少显卡?

7.若将上下文扩展到1000K,该如何估算训练的算力用量?

8.上下文扩展到1000K后,训练时显存会在哪些地方暴涨?

9.用GRPO做后训练的过程中,遇到的典型或较难的问题是什么?

10.针对上述问题,训练Skill的具体方式是什么?

11.从算法设计角度,该如何解决模型无效调用工具、工具调用参数失败的问题?

12.增量预训练中的增量具体指什么?

13.增量预训练使用了多少数据,又该如何评估训练效果?

14.系统介绍一下自动化评分的背景、所用手段、解决的问题以及达到的效果。

15.在模型迭代优化中,什么样的数据能进入数据闭环,筛选标准是什么?

16.模型工具调用的准确率是如何计算的?

17.分析PPO算法各部分在流程中的位置以及具体计算方式。

18.抛开实际应用场景,PPO算法的损失包含哪几部分?

19.在实际流程中,PPO算法的相对优势是怎么计算的?
全部评论

相关推荐

MinGW_:直接投那个前端移动端就行,美团前端的岗位一直是叫这个名字的,哪怕是做内部系统只有网页没有移动端的组,招人的岗位也是这个名字
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务