26校招阿里云多模态一二面

一面
1.介绍实习项目
2.优化器相关,介绍-下adam,adamW,相较SGD有什么改进
3.残差网络的作用是什么,什么叫做网络退化
4.什么叫过拟合,过拟合的解决方案,在损失函数上过拟合是怎么体现的
5.Dropout的原理,预测的时候有没有什么补偿策略6.lora的原理,如何初始化A,B矩阵,为什么7.主流的位置编码,旋转位置编码的原理
8.了解强化学习吗
9.代码题:leetcode 33 搜索旋转排序数组
二面
1. Transformer的FFN层能不能去掉,为什么?
2.FFN为什么是d-->4d?
3.attention中为什么要除以根号dk
4.SDXL和FLUX的区别
5.ControlNet对哪种控制条件效果更好,风格控制采
用哪种方式
6.为什么分类损失不用KL散度而用交叉熵,二者区别是什么
7.代码题:rand7实现rand10
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务