字节跳动算法工程师一面(个人第7面)

2024/11/08

1.自我介绍
2.围绕项目提问

手撕题:
3.如何使用rand5来实现rand7
4.实现一个多头注意力机制。

大模型八股:
5.注意力计算时,为什么需要除以缩放系数?
6.具体到多头注意力的计算中,掩码是如何加入的?(加性掩码,负无穷表示masked,0表示不masked)
7.全参数微调和lora的区别
8.LSTM和transformer的区别,transformer的优势?
9.deepspeed的zero1,zero2和zero3都是什么?
10. deepspeed和Megatron之间的差异是什么?
11.为什么大量使用decoder而不是encoder?

已过,已约二面。#字节求职进展汇总##字节复活赛##字节##哪个瞬间让你对大厂祛魅了?#
全部评论
传奇耐面王
点赞 回复 分享
发布于 2024-11-15 13:33 广东

相关推荐

矫健的闭门羹烹饪师又熬夜了:本人双非本,在鹅厂测开实习,你这个简历上写的这两个项目的技术栈都差不多,能够让面试官去延伸去问的八股除了redis就再没啥了,建议项目这边可以再改改,然后专业技能那块的话,感觉linux和测试工具可以分开写,毕竟不是干一件事的,反正没实习的基础上面试就深挖项目和八股,好好卷吧
点赞 评论 收藏
分享
评论
8
21
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务