08-28 16:10 门头沟学院机器学习

关注

字节大模型算法工程师面经

自我介绍——5min

项目相关细节提问——5min（对项目不是很感兴趣）

项目相关技术提问——25min * 2面

（与之前的面经贴中重复的技术问题不在展示）

1. 了解 DeepSpeed 吗？训练时用 ZeRO 优化主要是解决啥问题？ZeRO 的三个阶段分别都是啥？

2. TP 或 PP 了解吗？

3. 并行训练时，如果模型参数量不大，怎么决定用 PP 还是 TP 策略？它们各自有啥好坏？

4. 如果用 TP=2 的策略，self-attention 层里的 QKV 矩阵具体是怎么切分的？

5. 用 TP 的时候，主要会发生哪些通信？不同的切分方式会改变通信行为吗？举个例子呗。

6. 讲讲 Flash Attention 的原理，矩阵 tiling 的过程说细一点，最好把 shape 也讲清楚。

手撕算法：经典接雨水+最长上升子序列

全部评论

推荐最新楼层

大模型界的路边一条

中国科学院软件研究所算法工程师

老哥有论文有实习吗

点赞回复分享

发布于 08-28 23:59 北京

昨天 16:24

已编辑

复旦大学算法工程师

实习太水怎么办

如题， 做的是大模型，秋招面试完面试官说实习太水了，让我可以实习过程中自己多做点更深刻的任务，即使实习组暂时用不上。但是大模型，实习组不给卡不给数据集我真的深度不起来啊😭一组都是用prompt 来cover业务的我真没办法做post training一类的任务啊

点赞评论收藏

08-27 17:16

已编辑

中国科学院软件研究所算法工程师

小鹏- 大模型算法工程师-一面面经

📍面试公司：小鹏🕐面试时间：2025.8.27💻面试岗位：大模型算法工程师❓面试问题：1.手写🍣一个shuffle函数，要求时间复杂度为O(1)（磕磕绊绊搞了25分钟）2.讲讲旋转位置编码有哪些，旋转位置编码的原理？3.为什么位置编码可以和Embedding直接相加？3.BN和LN的区别4.讲讲PageAttention？5.如何评价一个推理系统的吞吐量，QPS承压？6.由上个问题引出了论文介绍，扒拉扒拉介绍一同，就没再问了。🙌面试感想：面试官人很好，没思路会提醒，很细致耐心地讲解一些他的理解。祝他工作顺利，好运常来。

查看6道真题和解析

点赞评论收藏

08-25 20:14

门头沟学院算法工程师

字节大模型一面

📍面试公司：抖音💻面试岗位：大模型算法❓面试问题：1. 拷打实习，问了很多很详细的数据和做强化学习的motivation2. 八股拷打（好久没看基础机器学习了都忘了）介绍一下优化器的发展现在大模型的优化器是什么ln和bn的区别encoder-only和decoder-only区别以及应用场景qkv具体是什么为什么是多头注意力上下文长度是什么，有什么作用lora和全参区别欠拟合和过拟合具体要怎么办3. 手撕一个复杂度o(1)的插入删除和随机等概率返回（最近怎么遇不到hot100了）🙌面试感想：面试官人很好业务也很好玩，可惜了我手撕写了好久好久还磕磕巴巴

查看11道真题和解析

点赞评论收藏

08-28 19:02

已编辑

哈尔滨工业大学（深圳）算法工程师

快手大模型应用算法三面挂

本来以为快手是推的最快的那家，没想到三面一拖再拖最后还是挂了……tl：一面：8.7 面完第二天中午约二面二面：8.12 面完第二天发三面邀请 时间是8.18周末重新接到了面试邀请，时间改到8.198.19面试前5分钟，hr打电话说面试官出差了，约到8.25三面：8.25 问了下项目的角色，问了些场景题，然后开始聊天，比如兴趣、老家、规划、有没有别的offer，面完面试官说他们会横向一下于是，8.27早上一看，官网已经结束流程了，无电话通知无感谢信快手你好狠的心，再捞我我也不面了，三面挂阴影太大了这周有四家三面（主管面），目前周一面的快手已经挂了，周二雷火主管面，我问到是否还有下一面时回答道接下...

点赞评论收藏

08-28 16:19

门头沟学院内外饰设计工程师

俩人会议室xxoo了没关麦

上个月的新瓜这个月才吃上。这个比停车场还炸裂，俩人在会议室里****没关麦。在停车场也就算了，好歹是私密空间。这实在是太刺激了。开个会都能干起来，真的给我这个生长在红旗下的人亿点震撼了属于是。

饿魔：细说

牛友故事会

点赞评论收藏

全站热榜

创作者周榜

正在热议