阿里淘天算法实习面经1h
八股:
1.介绍一下LoRA微调。
2.训 LoRA时会调整参数吗?调过哪些参数,有什么经验?
3.SFT模型的loss是怎么计算的?怎么确保只计算该计算部分的loss?
4.在计算 attention 时有什么节省显存资源的策略吗?比如将两个样本拼到一起计算attention等。
5.二维的attention mask矩阵是一个耗显存的操作,有什么优化策略?比如用一维的实现二维的功能之类的。
6.分布式训练中有哪些并行策略?
7.介绍一下zero技术。
8.zero在进行并行计算时,这台机器怎么拿到别的机器上的参数?
9.有4块卡,数据被切成了4份,每个卡上有一份数据,设一次通信量是x,如果要实现一次All Reduce操作,需要多少通信量?
10.zero2和zero3是什么并行策略方式?
11.LLM重复生成内容的问题如何缓解?
12.Transformer用的是什么normalize方式?为什么用LN不用BN?
13.SFT的调参经验?
无code
1.介绍一下LoRA微调。
2.训 LoRA时会调整参数吗?调过哪些参数,有什么经验?
3.SFT模型的loss是怎么计算的?怎么确保只计算该计算部分的loss?
4.在计算 attention 时有什么节省显存资源的策略吗?比如将两个样本拼到一起计算attention等。
5.二维的attention mask矩阵是一个耗显存的操作,有什么优化策略?比如用一维的实现二维的功能之类的。
6.分布式训练中有哪些并行策略?
7.介绍一下zero技术。
8.zero在进行并行计算时,这台机器怎么拿到别的机器上的参数?
9.有4块卡,数据被切成了4份,每个卡上有一份数据,设一次通信量是x,如果要实现一次All Reduce操作,需要多少通信量?
10.zero2和zero3是什么并行策略方式?
11.LLM重复生成内容的问题如何缓解?
12.Transformer用的是什么normalize方式?为什么用LN不用BN?
13.SFT的调参经验?
无code
全部评论
相关推荐
查看18道真题和解析 点赞 评论 收藏
分享
牛客53184370...:投太晚了
点赞 评论 收藏
分享
