阿里大模型算法面经

一面
1. Encoder与Decoder中注意力机制存在哪些差异?
2. 注意力机制的计算流程是怎样的,为何在计算时要除以根号下Dk,掩码注意力机制又是怎样达成的?
3. 阐述GQA、MQA、MLA的原理分别是什么。
4. 位置编码的必要性体现在哪里,为何选用sin_cos函数进行位置编码?
5. 询问之前实习中Agent的设计思路,以及所提创新方法的实现方式。
6. 提及使用DeepSpeed开展SFT训练,请说明DeepSpeed ZeRO Stage 1 - 3的不同之处,以及何种情况下使用FSDP更为合适。
7. 询问Agent工具的设计情况,是否采用workflow形式。
8. 了解哪些Agent开发框架,像langchain和LlamaIndex,它们的核心应用场景有何区别?
9. 针对数据输入输出格式,为保证大模型输出稳定json格式,采取了哪些措施?
10. 若Agent推理API需要低延迟响应,会从哪些方面开展系统级优化工作?
11. 代码考察:给出LeetCode第34题,在排序数组中查找元素的第一个和最后一个位置。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务