26校招阿里云Agent算法二面

1.八股:请介绍一下Transformer的核心组件及其作用
2.八股:介绍LLM Decoder-Only架构
3.八股:你对SFT的理解是什么?与预训练相比有什么差异?
4.项目:SFT冷启动时数据集构造需要注意哪些因素?为什么要做数据清洗与均衡采样?
5.项目:介绍一下RAG的整体流程。在Agent落地场景中,RAG会遇到哪些延迟和正确率问题?你怎么优化召回链路?
6.项目:在你的问答Agent项目中,数据集构造的自动化流程是怎么实现的?
7.项目:你是如何利用多Agent协同来提高推理正确率的?调度策略如何实现?
8.项目:你提到用DeepSpeed做SFT训练,请讲一下DeepSpeed ZeRO Stage 1-3的区别,以及什么时候用FSDP会更好?
9.项目:你做Prompt优化时,是如何判断优化后的Prompt在Agent推理链路中性能提升的?用什么指标来衡量?
10.项目:在多Agent系统中,如何保证异步任务执行的稳定性和结果一致性?
11.项目:如果Agent推理API需要低延迟响应,你会从哪些方面做系统级优化?
12.代码题:lc34 在排序数组中查找元素的第一个和最后一个位置
全部评论

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么,怎么去做的10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
查看11道真题和解析
点赞 评论 收藏
分享
评论
2
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务