饿了么大模型一面面经
1、自我介绍
2、介绍强化学习项目
状态、动作空间怎么设置的?
强化学习算法分为哪几类?PPO是On policy还是off policy?off policy和on policy的区别是什么?off policy相比于on policy有哪些优点和缺点?
3、机器学习
对哪些机器学习算法比较熟悉?特征怎么选的?lgb超参数怎么调的?特征是越多越好吗?
4、实习
CPT用了多少数据?什么机器配置?如果训练中途崩溃了模型和数据怎么加载?怎么评估的?
SFT什么场景?怎么评估的?
baichuan和qwen的区别有哪些?MHA、GQA、MQA的区别?
超参怎么调整的?
5、手撕MHA
2、介绍强化学习项目
状态、动作空间怎么设置的?
强化学习算法分为哪几类?PPO是On policy还是off policy?off policy和on policy的区别是什么?off policy相比于on policy有哪些优点和缺点?
3、机器学习
对哪些机器学习算法比较熟悉?特征怎么选的?lgb超参数怎么调的?特征是越多越好吗?
4、实习
CPT用了多少数据?什么机器配置?如果训练中途崩溃了模型和数据怎么加载?怎么评估的?
SFT什么场景?怎么评估的?
baichuan和qwen的区别有哪些?MHA、GQA、MQA的区别?
超参怎么调整的?
5、手撕MHA
全部评论
牢大😭
送花
回复
分享
楼主手撕mha在哪手撕 本地ide吗 这玩意怎么看你写的对不对啊
送花
回复
分享
滴滴
官网直投
我去,问得好细
送花
回复
分享
有结果了吗
送花
回复
分享
老哥,方便分享下二面面经吗,感谢感谢
送花
回复
分享
相关推荐
点赞 评论 收藏
转发
04-28 14:45
腾讯_PCG腾讯看点_应用研究员 点赞 评论 收藏
转发