美团机器学习大模型实习二面分享
总时长1h左右,整体感觉还不错
项目:
1.为什么要进行数据蒸馏?
2.怎么保证蒸馏效果?
3.微调用的什么框架?
4.效果有跟其他的模型对比么?效果如何?
5.Qwen-max调的什么API
6.有做数据的分离么?有没有数据泄露?
7.Qwen-8B微调有用精度么?有优化么?
8.8B微调显存占用多少?
9.模型前向计算占用的显存是多少?
八股:
1.了解Paged Attention么?为什么他能降显存?
2.强化学习是什么?
3.讲讲GRPO?
4.讲讲KV Cache
5.在推理的时候KV Cache为什么需要储存?
手撕:
二叉树中的最大路径和
项目:
1.为什么要进行数据蒸馏?
2.怎么保证蒸馏效果?
3.微调用的什么框架?
4.效果有跟其他的模型对比么?效果如何?
5.Qwen-max调的什么API
6.有做数据的分离么?有没有数据泄露?
7.Qwen-8B微调有用精度么?有优化么?
8.8B微调显存占用多少?
9.模型前向计算占用的显存是多少?
八股:
1.了解Paged Attention么?为什么他能降显存?
2.强化学习是什么?
3.讲讲GRPO?
4.讲讲KV Cache
5.在推理的时候KV Cache为什么需要储存?
手撕:
二叉树中的最大路径和
全部评论
相关推荐
查看9道真题和解析