字节大模型一面面经(强度真高!!

面试问题:
- 聊聊对transformer的理解,整体结构是怎样的?几个部分组成
- Attention的公式里为什么要除以根号dk?这个操作有什么作用?另外,为什么在训练过程中容易出现梯度消失或梯度爆炸的问题?
- (针对简历提问)在sft中遇到了哪些问题?最后是怎么解决的?能不能分享一下你的经验?(好好好套方案?)
- (针对简历提问)领域大模型数据配比是如何考虑的?不同领域的数据比例如何确定?
- 为什么现在的LLM都是Decoder-only?这种结构有什么优势?
- ADAM优化器比SGD好在哪?简单介绍一下梯度下降的原理,ADAM是怎么改进的?
。。。

代码题:
- 给定一个互不相同的整数数组 nums,求其所有子集(幂集)。(类似leetcode78)
- (第二个题好像是个字符串的题,忘了)
全部评论
领域数据配比怎么定的
点赞 回复 分享
发布于 04-25 16:40 广东
感觉还行,是暑期吗?
点赞 回复 分享
发布于 04-06 22:41 天津

相关推荐

不愿透露姓名的神秘牛友
今天 13:35
点赞 评论 收藏
分享
06-08 22:25
门头沟学院 Java
从零开始的转码生活:这hr不会打开手机不分青红皂白给所有人群发这句话,过一会再给所有人再发一遍,这肯定会有重复的,不管,再过一会再发一遍
点赞 评论 收藏
分享
06-20 17:42
东华大学 Java
凉风落木楚山秋:要是在2015,你这简历还可以月入十万,可惜现在是2025,已经跟不上版本了
我的简历长这样
点赞 评论 收藏
分享
评论
6
30
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务