鹅厂 LLM算法一面 吓哭了...

面试很难,还是要多多练习!!!
1.实习介绍
2.你做的上下文扩大具体是怎么做的,原理是什么?
3.相关长文本是怎么做几阶段训练的?
4.除了所用的扩展方式,Deepseek、Llama的长文本扩展方案是什么,为什么选择当前方案而非其他?
5.若要将模型训练到1000K的上下文长度,该从哪些方面实现,其中的难点是什么?
6.32B模型训练用到了多少显卡?
7.若将上下文扩展到1000K,该如何估算训练的算力用量?
8.上下文扩展到1000K后,训练时显存会在哪些地方暴涨?
9.用GRPO做后训练的过程中,遇到的典型或较难的问题是什么?
10.针对上述问题,训练Skill的具体方式是什么?
11.从算法设计角度,该如何解决模型无效调用工具、工具调用参数失败的问题?
12.增量预训练中的"增量"具体指什么?13.增量预训练使用了多少数据,又该如何评估训练效果?
14.系统介绍一下自动化评分的背景、所用手段、解决的问题以及达到的效果
15.在模型迭代优化中,什么样的数据能进入数据闭环,筛选标准是什么?
16.模型工具调用的准确率是如何计算的?
17.分析PPO算法各部分在流程中的位置以及具体计算方式
18.抛开实际应用场景,PPO算法的损失包含哪几部分?
19.在实际流程中,PPO算法的相对优势是怎么计算的?
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务