大模型Agent算法一面-快手
攒人品中,祝大家都能拿到满意的Offer!
1.全参数微调模型显存计算
2.MoE模型微调显存计算
3.从数学角度解释为什么attention要除以根号下d_k?如果不开根号行不行
4.多模态大模型的架构一般有哪些
5.PPO有几个模型?
6.GRPO和PPO有什么区别?
7.拷打论文
8.智力题,100个柜子,一开始是关的,有编号为1到100的人走过。每个人会根据自己的编号,反转柜子的状态。他会把编号等于或者是他的倍数的柜子打开或者关闭。问最后有多少个柜子是开的
1.全参数微调模型显存计算
2.MoE模型微调显存计算
3.从数学角度解释为什么attention要除以根号下d_k?如果不开根号行不行
4.多模态大模型的架构一般有哪些
5.PPO有几个模型?
6.GRPO和PPO有什么区别?
7.拷打论文
8.智力题,100个柜子,一开始是关的,有编号为1到100的人走过。每个人会根据自己的编号,反转柜子的状态。他会把编号等于或者是他的倍数的柜子打开或者关闭。问最后有多少个柜子是开的
全部评论
相关推荐
03-15 23:11
南开大学 Java
牛客91882925...:慢慢来,别给自己那么大压力,天无绝人之路。学习中成长,这背景已经超越绝大多数牛友了。多面几次就好了,我第一次面试前睡都睡不好,不过面试官人还好,进行一会面试就注意力全在题上了。所以跟面试官关系也很大 点赞 评论 收藏
分享