热心市民小小刘

2024-12-07 19:38 北京邮电大学 Java 发布于北京

关注

分享一下整理的大模型面经

Transformer部分：
https://jwjyxndv6cs.feishu.cn/docx/YGS9dX0mUov1tvxf9cwcgfk5nQe?from=from_copylink
Bert部分：
https://jwjyxndv6cs.feishu.cn/docx/XQmFdDhddoDcQ8xrWDzcMRZWnZP?from=from_copylink
LLM部分：
https://jwjyxndv6cs.feishu.cn/docx/XOzTdG7gMoNjXSxOJNJcBVJonGb?from=from_copylink
手撕：
https://jwjyxndv6cs.feishu.cn/docx/QkY3d8QhdokrTCxrPCdc5Lnhnrd?from=from_copylink
Megatron：
https://jwjyxndv6cs.feishu.cn/docx/XC4CdmIVEoZX9xxh0B9cKn7JnDd?from=from_copylink

全部评论

推荐最新楼层

Boston University 算法工程师

1 回复分享

发布于 2024-12-13 10:16 北京

华东交通大学运维工程师

可以

点赞回复分享

发布于 2025-09-13 16:01 上海

门头沟学院算法工程师

mark

点赞回复分享

发布于 2025-08-09 10:28 湖北

门头沟学院 Java

mark学习了

点赞回复分享

发布于 2025-06-04 10:40 河北

华北电力大学（北京）算法工程师

牛逼牛逼

点赞回复分享

发布于 2025-03-28 09:53 安徽

乐观的小飞象在努力

中国科学院大学算法工程师

点赞回复分享

发布于 2025-02-22 09:39 浙江

天津中德应用技术大学 Java

这就是新八股么

点赞回复分享

发布于 2025-01-13 15:35 天津

你们这儿有电源吗

哈尔滨工业大学（深圳）算法工程师

点赞回复分享

发布于 2025-01-08 23:08 广东

牛客683263882号

河北轨道运输职业技术学院算法工程师

大佬别删

点赞回复分享

发布于 2025-01-07 23:44 陕西

中山大学算法工程师

牛比，别删

点赞回复分享

发布于 2025-01-05 21:31 广东

03-31 00:39

广西大学算法工程师

微信大模型算法开发一面

1. 介绍下你实习学了什么 做过什么项目,为什么离职的2. MoE 为什么能在参数量很大的情况下还能把训练和推理成本压住，真正难点在哪MoE 的关键不是“参数变多了”，而是“每个 token 只激活一部分参数”。也就是说总参数量可以做得很大，但单次前向只走少数几个 expert，所以理论上计算量不会随着总参数线性增长。这个思路在大模型里很有吸引力，因为可以同时兼顾容量和成本。但真正难的地方是路由和负载均衡。路由器如果只偏爱少数 expert，训练会很不稳定，热门 expert 被打爆，冷门 expert 学不到东西。另一个难点是通信开销，尤其多机训练时，token dispatch 和 gat...

AI-Agent面试实战...

点赞评论收藏

分享

04-06 23:49

已编辑

华中科技大学算法工程师

没有bat实习秋招能去bat吗？

投票

没有bat字节阿里腾讯的实习，只有二线大厂的实习，秋招还可以去这三家吗？听说腾讯阿里基本上hc只给转正了

点赞评论收藏

分享

03-25 08:30

西安交通大学算法工程师

阿里大模型算法面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时，有没有用过一些比较底层的一些训练的调试的工具，比如说千卡的话很容易就会出NCCL timeout，如果出现 NCCL timeout，一般怎么定位和解决？3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富，而且您上线运行的推理内容之前也进行过一些什么样的优化吗？5.有没有做过 kernel级别的优化？比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化，介绍一下6像底层，如果你们在做.kernel fusion，倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的？原因是什么8.平时写 CUDA的时候，有没有关注到底层实现细节？比如你刚提到 FA2，那再往下一层，像 Hopper架构里那个 warp specialization是什么，它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么，怎么去做的10.如果我把 warp specialization 去掉，只保留 tile 和 shared memory 优化，大概会损失在哪？11.怎么么判断一个 MoE 模型是真的学到了分工，而不是只是把 dense模型拆开了12.在 RL + MoE 里，有没有遇到过 reward把 routing学坏的情况？就是模型为了拿 reward，全都走某几个 expert，这种情况你当时是怎么处理的

查看11道真题和解析

点赞评论收藏

分享

04-06 23:28

华中科技大学算法工程师

有没有bat大厂实习秋招差别大吗？

投票

没有bat这御三家的实习经历，秋招去向薪资差别大吗？只有非bat的两段二线大厂的实习经历，日常焦虑中引流：字节阿里腾讯美团京东快手小米百度

点赞评论收藏

分享

03-31 17:43

重庆大学 Java

java后端改简历

有什么需要改的吗

点赞评论收藏

分享

评论

140

482

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI时代还有必要刷leetcode吗？ #

33739次浏览 431人参与

# 大学生该如何认清当下的就业环境？ #

162176次浏览 884人参与

# 有哪些公司在面试时考察AICoding？ #

18870次浏览 347人参与

# 运营来爆料 #

98770次浏览 508人参与

# HR面都在聊什么？ #

13387次浏览 162人参与

# 美团开奖 #

407682次浏览 1805人参与

# 26届春招投递记录 #

3563次浏览 42人参与

# 百度工作体验 #

325321次浏览 2247人参与

# 想从事Agent应该学习哪些技术？ #

8249次浏览 279人参与

# 实习学到最有价值的工作习惯 #

69575次浏览 551人参与

# OPPO求职进展汇总 #

808901次浏览 5441人参与

# 校招生月薪1W算什么水平 #

143353次浏览 492人参与

# 你觉得什么岗位会被AI替代 #

57134次浏览 371人参与

# 从投递到OC，你用了多久 #

23368次浏览 238人参与

# 什么人最适合大厂？ #

12492次浏览 132人参与

# 父母问你工作找得怎么样，怎么回 #

22717次浏览 281人参与

# 哪些公司面试还在问八股？ #

13742次浏览 123人参与

373779次浏览 2921人参与

# 我与AI的日常 #

3252次浏览 16人参与

# 我的求职进度条 #

1111006次浏览 8031人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务