字节大模型算法一面分享
整体面试还是不错的,但是没后续了...
1、项目介绍
2、Transformer结构理解
请详细说明Transformer的整体架构及其核心组成部分。
3、Attention机制问题
为什么Attention公式中要除以√dk?这个操作有什么作用?
Transformer训练过程中为什么容易出现梯度消失或爆炸问题?
4、SFT实践问题
在监督微调(SFT)过程中遇到过哪些典型问题?请分享您的解决方案和实践经验。
5、领域数据配比问题
在构建领域大模型时,如何确定不同领域数据的配比比例?有哪些考量因素?
6、Decoder-only架构问题
为什么当前主流LLM都采用Decoder-only架构?这种结构相比Encoder-Decoder有哪些优势?
7、优化器相关问题
ADAM优化器相比SGD有哪些改进?
请简要说明梯度下降的原理
ADAM是如何在SGD基础上进行优化的?
8、代码题
给定一个元素互不相同的整数数组nums,编写函数返回其所有可能的子集(幂集)。
示例:
输入:nums = [1,2,3]
输出:[[],[1],[2],[3],[1,2],[1,3],[2,3],[1,2,3]]
1、项目介绍
2、Transformer结构理解
请详细说明Transformer的整体架构及其核心组成部分。
3、Attention机制问题
为什么Attention公式中要除以√dk?这个操作有什么作用?
Transformer训练过程中为什么容易出现梯度消失或爆炸问题?
4、SFT实践问题
在监督微调(SFT)过程中遇到过哪些典型问题?请分享您的解决方案和实践经验。
5、领域数据配比问题
在构建领域大模型时,如何确定不同领域数据的配比比例?有哪些考量因素?
6、Decoder-only架构问题
为什么当前主流LLM都采用Decoder-only架构?这种结构相比Encoder-Decoder有哪些优势?
7、优化器相关问题
ADAM优化器相比SGD有哪些改进?
请简要说明梯度下降的原理
ADAM是如何在SGD基础上进行优化的?
8、代码题
给定一个元素互不相同的整数数组nums,编写函数返回其所有可能的子集(幂集)。
示例:
输入:nums = [1,2,3]
输出:[[],[1],[2],[3],[1,2],[1,3],[2,3],[1,2,3]]
全部评论
相关推荐
02-04 16:13
门头沟学院 算法工程师 字节抖音风控部门大模型算法一面1.自我介绍(论文、实习、项目)2.拷打项目(问的很细,占据主要面试时间)3.实习介绍4.讲讲dpo与kto的区别5.grpo的非规则奖励如何设计6.两道medium力扣
查看6道真题和解析 点赞 评论 收藏
分享