阿里淘天算法实习面经1h

八股:
1.介绍一下LoRA微调。
2.训 LoRA时会调整参数吗?调过哪些参数,有什么经验?
3.SFT模型的loss是怎么计算的?怎么确保只计算该计算部分的loss?
4.在计算 attention 时有什么节省显存资源的策略吗?比如将两个样本拼到一起计算attention等。
5.二维的attention mask矩阵是一个耗显存的操作,有什么优化策略?比如用一维的实现二维的功能之类的。
6.分布式训练中有哪些并行策略?
7.介绍一下zero技术。
8.zero在进行并行计算时,这台机器怎么拿到别的机器上的参数?
9.有4块卡,数据被切成了4份,每个卡上有一份数据,设一次通信量是x,如果要实现一次All Reduce操作,需要多少通信量?
10.zero2和zero3是什么并行策略方式?
11.LLM重复生成内容的问题如何缓解?
12.Transformer用的是什么normalize方式?为什么用LN不用BN?
13.SFT的调参经验?
无code
全部评论

相关推荐

点赞 评论 收藏
分享
今天 15:24
已编辑
东北大学 Java
bg末9本,专业计科,有一段不到两个月的水实习,简历项目一个AI一个营销,9月下旬到9月底开始投简历,只投递了后端给牛友们看看,就当看个乐子了只统计给面试的一心向上ESOP  一面(9月22,挂)泛微网络  一面HRBP面(9月18,挂), 一面HRBP(10月14,挂),羞辱我两次百度提前批   一面(9月26,挂)北京乐宝互娱   一面(10月9,过) 二面HRBP面(10月13日,挂)途虎养车  一面(10月15,挂)BOSS直聘  一面(10月22,过) 二面(10月28,挂)万得基金  A面,B面(10月23,感觉良好,但是挂)拼多多   一面(10月23,过), 二面(10月31,过), 三面(11月6,基础平台部门,听说是不是很难,挂)字节   一面(10月24,挂)维信金科    一面(10月29,面试官说很ok,和领导反馈,后续让HR联系,然后发感谢信,挂)科大讯飞  一面(10月30,感觉面的很好,但挂)京东jdy   一面(11月20,过), 二面HRBP面 (11月26,挂)还在流程中的数字政通   一面(11月21,过),  二面(11月27,过)上海全量全速   一面(11月25)哈啰普惠(实习)   一面(11月27)更新,数字政通拿到意向了怼一下华子,投两次,测评两次挂,上网看了老多攻略,两次测评都认真做了一个小时,现在又给我发第三次测评,想要羞辱我第三次自我总结,就是秋招开始时候八股不熟悉,后来八股比较熟了,但是实际的项目,场景经验还有所欠缺。秋招给面试的大厂不多,到了后边有些面试感觉面的蛮好但是也挂,个人感觉是不是环境太卷了,在卡硕士,至少得2硕或者9硕牛友们给孩子点建议吧,呜呜,不指望啥大厂了,能上岸个没那么差的就很满足了,呜呜秋招混成这样,春节都没脸回家过年了
牛客53184370...:投太晚了
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务