滴滴大模型一面面经

记录一下秋招:

8.13滴滴一面挂,llab大模型岗。

1.自我介绍,为什么想做大模型方向?
2.拷打项目和实习
3.reward bench上的reward model分哪几类?reward model如何训练的,训练目标是什么?
4.dpo训练的损失函数和训练目标,dpo如何改进
5.指令跟随能力的评估集有什么,如何评估的?
6.gsm8k和math评估集有什么区别?
7.mbpp和hella swag评估集有什么区别?
8.阿尔法狗强化学习策略是什么?
9.提升推理能力和指令跟随能力哪个更难,为什么,提升指令跟随能力的优化方式和其他的比如推理有什么不一样的地方
10.dpo训完了一般输出长度会变化吗?如何解决这个问题
11.注意力机制为什么除以根号dk,为什么不是dk
12.transformer里边norm的位置在哪里,norm如何计算的
13.大模型训练过程学习率一般如何变化的,退火阶段学习率如何变化的

代码:
1.写了个注意力层
2.手撕,一个数组,输出这个数组每个位置之外的其他元素的乘机,不能用除法,要求尽量减少时间复杂度,然后要求仅用一个数组存储

太难了,10分钟后就挂了

其他公司:

米哈游-简历挂
蔚来-简历挂
文远知行-简历挂
鹰角网络-简历挂

服了,投了3次蔚来都给我挂了
#滴滴##滴滴提前批##大模型面试##米哈游##蔚来#
全部评论
感谢分享
4 回复 分享
发布于 2024-08-16 23:47 黑龙江
看着好难
4 回复 分享
发布于 2024-08-16 22:01 黑龙江
这个代码题貌似是hot100上的原题
2 回复 分享
发布于 2024-08-20 22:12 北京
好难
2 回复 分享
发布于 2024-08-16 22:42 黑龙江
话说这个RM分哪几类是指,reward bench上的评估有哪几个类别吗?
1 回复 分享
发布于 2024-08-16 14:58 北京
看着有点难阿
1 回复 分享
发布于 2024-08-16 14:06 北京
你滴滴多久进面试的啊
1 回复 分享
发布于 2024-08-16 14:00 北京
hot没有吧
点赞 回复 分享
发布于 2024-12-21 08:13 北京
第10个问题要怎么答呢
点赞 回复 分享
发布于 2024-09-07 21:58 广东

相关推荐

屌丝逆袭咸鱼计划:心态摆好,man,晚点找早点找到最后都是为了提升自己好进正职,努力提升自己才是最关键的😤难道说现在找不到找的太晚了就炸了可以鸡鸡了吗😤早实习晚实习不都是为了以后多积累,大四学长有的秋招进的也不妨碍有的春招进,人生就这样
点赞 评论 收藏
分享
那一天的Java_J...:他本来公司就是做这个的,不就是正常的游戏客户端和服务器开发,软硬件联动,有啥恶心不恶心的,提前告诉你就是怕你接受不了,接受不了就没必要再往后走流程浪费时间,虽然这公司是一坨。
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
07-07 13:46
点赞 评论 收藏
分享
评论
14
68
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务