作业帮- AI应用算法一面凉经分享
感觉自己好菜、面试很难,还是要多多练习
1.实习拷打
2.Agent和模型方面你更倾向于什么?为什么在实习还在考虑其他公司?
3.问GUI-Agent项目:背景是什么?为什么这么做?单用SFT不行吗?online的方法是什么?GRPO在这里面起什么作用?你的奖励函数是怎么设计的?为什么这样设计?后续的版本是怎么做的?衰减因子没有考量一下长短链路的问题吗?为什么用2B的模型,其他模型效果应该是可以解决的?图标分不开的情况如果是通过数据层面去解决有试过吗?有考虑过直接做前后状态判别的惩罚解决你遇到的reward hacking问题吗?GRPO有几个模型?损失函数知道吗?reference model具体的作用是什么?
4.你遇到过大模型输出的时候复读机的情况吗?代码:判断复读机情况,最后一次可以不算进去。
5.平时有用哪些AI工具?有自己写过Skill吗?
6.DPO真的有解决你遇到的问题吗?还是那你认为DPO能否解决复读机问题呢?你怎么看SFT和DPO?
1.实习拷打
2.Agent和模型方面你更倾向于什么?为什么在实习还在考虑其他公司?
3.问GUI-Agent项目:背景是什么?为什么这么做?单用SFT不行吗?online的方法是什么?GRPO在这里面起什么作用?你的奖励函数是怎么设计的?为什么这样设计?后续的版本是怎么做的?衰减因子没有考量一下长短链路的问题吗?为什么用2B的模型,其他模型效果应该是可以解决的?图标分不开的情况如果是通过数据层面去解决有试过吗?有考虑过直接做前后状态判别的惩罚解决你遇到的reward hacking问题吗?GRPO有几个模型?损失函数知道吗?reference model具体的作用是什么?
4.你遇到过大模型输出的时候复读机的情况吗?代码:判断复读机情况,最后一次可以不算进去。
5.平时有用哪些AI工具?有自己写过Skill吗?
6.DPO真的有解决你遇到的问题吗?还是那你认为DPO能否解决复读机问题呢?你怎么看SFT和DPO?
全部评论
相关推荐
查看10道真题和解析