蚂蚁大模型面经
【一面】
1.介绍种 Attention ( MHA , MQA , GQA )的区别
2.分别讲一下 Dense 模型和 MoE 模型以及二者的区别
3.讲一下 MoE 的路由机制是如何做的?
4.介绍 RAG 项目,讲一下 RAG 项目的亮点
5.是否做过意图识别?如果要做意图识别,可以怎么实现?
6.讲一下BM25算法原理
7.讲一下 DPO , PPO , GRPO 的原理和区别,写一下 DPO loss 函数
8.代码:lc15三数之和
【二面】
1. vLLM 中使用的技术是否熟悉(如 Paged Atte ntion 、 KV Cache )?
2.了解加速推理框架 DeepSpeed 吗?
3.MoE 模型专家的负载不均衡问题如何解决?
4.如何通过修改损失函数来解决负载均衡问题?
5. SFT 使用的数据集,使用了多少张卡? SFT 训练多久?
6.微调项目是如何模型选型
7.如何做微调的?直接用 PEFT 库,还是用 LLa ma Factory 做的?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
1.介绍种 Attention ( MHA , MQA , GQA )的区别
2.分别讲一下 Dense 模型和 MoE 模型以及二者的区别
3.讲一下 MoE 的路由机制是如何做的?
4.介绍 RAG 项目,讲一下 RAG 项目的亮点
5.是否做过意图识别?如果要做意图识别,可以怎么实现?
6.讲一下BM25算法原理
7.讲一下 DPO , PPO , GRPO 的原理和区别,写一下 DPO loss 函数
8.代码:lc15三数之和
【二面】
1. vLLM 中使用的技术是否熟悉(如 Paged Atte ntion 、 KV Cache )?
2.了解加速推理框架 DeepSpeed 吗?
3.MoE 模型专家的负载不均衡问题如何解决?
4.如何通过修改损失函数来解决负载均衡问题?
5. SFT 使用的数据集,使用了多少张卡? SFT 训练多久?
6.微调项目是如何模型选型
7.如何做微调的?直接用 PEFT 库,还是用 LLa ma Factory 做的?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
04-02 10:09
门头沟学院 Java
用微笑面对困难:这里面问题还是很多的,我也不清楚为啥大家会感觉没啥问题。首先就是全栈开发实习9个月的内容都没有java实习生的内容多,1整个技术栈没看出太核心和难点的内容,感觉好像被拉过去打杂了,而且全栈基本上很容易被毙。里面能问的bug是在太多了比如L:继承 BaseMapper 可直接使用内置方法’。请问你的 BaseMapper 是如何扫描实体类注解如果瞬时产生 100 个上传任务,MySQL 的索引设计是否会有瓶颈?你做过分库分表或者索引优化吗?全栈的内容可以针对动态难点去搞,技能特长写在下面吧,你写了这么多技能,项目和实习体现了多少?你可以在项目里多做文章然后把这个放下去,从大致来看实习不算太水,有含金量你也要写上内容针对哨兵里面的节点变化能问出一万个问题,这个很容易就爆了。 点赞 评论 收藏
分享
04-14 16:17
保定学院 软件测试 点赞 评论 收藏
分享