26校招阿里云多模态一二面
一面
1.介绍实习项目
2.优化器相关,介绍-下adam,adamW,相较SGD有什么改进
3.残差网络的作用是什么,什么叫做网络退化
4.什么叫过拟合,过拟合的解决方案,在损失函数上过拟合是怎么体现的
5.Dropout的原理,预测的时候有没有什么补偿策略6.lora的原理,如何初始化A,B矩阵,为什么7.主流的位置编码,旋转位置编码的原理
8.了解强化学习吗
9.代码题:leetcode 33 搜索旋转排序数组
二面
1. Transformer的FFN层能不能去掉,为什么?
2.FFN为什么是d-->4d?
3.attention中为什么要除以根号dk
4.SDXL和FLUX的区别
5.ControlNet对哪种控制条件效果更好,风格控制采
用哪种方式
6.为什么分类损失不用KL散度而用交叉熵,二者区别是什么
7.代码题:rand7实现rand10
1.介绍实习项目
2.优化器相关,介绍-下adam,adamW,相较SGD有什么改进
3.残差网络的作用是什么,什么叫做网络退化
4.什么叫过拟合,过拟合的解决方案,在损失函数上过拟合是怎么体现的
5.Dropout的原理,预测的时候有没有什么补偿策略6.lora的原理,如何初始化A,B矩阵,为什么7.主流的位置编码,旋转位置编码的原理
8.了解强化学习吗
9.代码题:leetcode 33 搜索旋转排序数组
二面
1. Transformer的FFN层能不能去掉,为什么?
2.FFN为什么是d-->4d?
3.attention中为什么要除以根号dk
4.SDXL和FLUX的区别
5.ControlNet对哪种控制条件效果更好,风格控制采
用哪种方式
6.为什么分类损失不用KL散度而用交叉熵,二者区别是什么
7.代码题:rand7实现rand10
全部评论
相关推荐
查看11道真题和解析 点赞 评论 收藏
分享
02-24 19:45
西南大学 后端工程师
程序员小白条:简历写的有点太多了,一般两页是实习经历比较多的情况下,要么自己有一些有影响力的开源项目,如果你走软件,硬件没必要实习,学校安排总是没区分度的,央国企最好有中大厂实习,另外学历比较重要,不是都要求硕士的,技术会比互联网要求低一些 点赞 评论 收藏
分享
