横扫腾讯/字节/PDD:2025大模型算法社招面经

1️⃣自我介绍
2️⃣项目拷打
这一部分决定了面试官对于你经验的评估,项目的理解要深一些,这个只能通过不断打磨完善项目经历。
✅微调项目:
1.业务背景
2.数据的构成,是否使用了合成数据
3.训练的过程中用了什么方法(为什么用这样的方式,用别的方式会有什么问题,是否尝试过)
4.如何评估整体的效果
5.微调之后是否还会出现幻觉的问题,出现了的话应该怎么处理
6.这个能力是否只能用在当前业务场景,是否可以作为一个通用的能力
7.是否尝试过用其他的基座模型
✅应用层项目:
1.业务背景
2.逻辑框架
3.优化前和优化后的能力差距
4.遇到最大的困难是什么?怎么解决的
是否还有别的优化方式
5.某个流程是否可以进行再优化
6.上线之后的效果反馈
3️⃣通识考察
(1)Transformers 和之前的模型的区别,为什么 Transformers 好?
(2)介绍下 Bert,框架,预训练和后续的微调任务?
(3)为什么 Bert 适合做向量模型,底层原理是什么?
(4)RoBERTa 做了什么优化?
(5)想要大模型输出的内容都为 json 格式,怎么实现?
(6)OOM 问题怎么处理
(7)大模型的参数量是怎么计算出来的?(8)DeepSeek R1 的训练方式,GRPO 的原理是什么?
(9)基于过程的强化学习和基于结果的强化学习的差异是什么?
(10)Agent 的概念是什么?整体流程是怎么样的?
(11)DeepSeek R1 对于 Agent 的能力是否有提升,如何进行运用?
(12)RAG 的整体流程和评估方式?
(13)如何解决 RAG 中信息覆盖率低、幻觉、逻辑计算的问题?
(14)大模型的数据合成应该怎么做?有哪些方式?
(15)DeepSpeed 的三个 stage 分别是什么?有什么作用?
(16)模型并行和数据并行的区别是什么?这两种方式的数据流和梯度是怎么更新的
4️⃣手撕代码
✅算法代码:
手写位置编码
手写多头注意力机制
Leetcode:
零钱兑换
最长递增子序列
打家劫舍
最长公共子序列
跳跃游戏
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。

全部评论

相关推荐

查看7道真题和解析
点赞 评论 收藏
分享
给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么,怎么去做的10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
查看11道真题和解析
点赞 评论 收藏
分享
评论
1
26
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务