阿里通义实验室大模型算法一面面经

一面
1.先自我介绍
2.说一下 LoRA 是什么原理
3.了解 DeepSpeed 吗, ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化
4.Qwen的模型结构是怎么样的,相比于 LLaMA , DeepSeek 有什么区别
5.怎么缓解大模型的幻觉问题
6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
7.知道FP16和BF16有什么区别吗,包括FP32和INT8这些,在训练大模型的时候,应该怎么选择
8.讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
9.对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗
10.开放题:你觉得目前大模型的上限在哪里
11.代码:152.乘积最大子数组
🌟总结:整体面下来感觉难度还是蛮大的,几乎各个方面都被考察到了
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

1. 某笔记管理网站的音乐源从何处获取,音乐是存储在云端还是前端工程中;若音乐打包在前端工程中,音乐数量增多会导致包体积变大,该如何对其进行更新修改?2. 百度关键词命中系统的架构是怎样的?请介绍该系统的实现逻辑及相关算法。3. 百度关键词命中系统是否使用Java开发?4. 百度关键词命中系统的优化是否包含将关键字从MySQL加载到内存和CDA中,系统实际运行时是否不再查询MySQL?5. 百度关键词命中系统的400个实例加载的内容是否一致?6. 百度关键词命中系统为何要通过shell脚本让400多个实例重启,不重启是否无法完成数据更新?7. 请介绍百度关键词命中系统中Redis带宽优化的具体实现逻辑。8. 百度关键词命中系统中通过何种方式将12MB的流量降至10MB以下?9. 若不使用Redis,是否有更简单的方法控制百度关键词命中系统的带宽问题?10. 在Golang中,协程异步推送是否会带来较大的内存压力?11. 请介绍Golang的协程和进程的模型。12. 请介绍Java的JVM内存区域分布。13. 请介绍Java常用集合(如HashMap、HashSet等)的相关源码。14. 在实际工作中是否利用Java相关知识做过性能调优,具体是如何操作的?15. 在百度文档提取系统中参与最深的模块是哪个,请介绍该模块的具体实现逻辑。16. 百度文档提取系统中通过try catch捕获异常绕过提取失败的部分,为何可以绕过该部分,该操作是否真正解决了提取失败的核心问题?17. 请解释在百度侧的数据库优化中,覆盖索引的具体优化方式。18. 日常工作中是否经常处理慢SQL,具体是如何处理的?19. 请介绍Innodb中索引的数据结构,并说明为何选择该结构,该结构对索引设计有何指导意义?20. 某笔记管理网站中使用MySQL的全文索引NGRAPH,该索引与Elasticsearch相比效率是否更低,为何选择该索引而非Elasticsearch?21. 某智能oncall的agent系统的核心agent型架构是怎样的?22. 某智能oncall的agent系统开发中,除了使用相关AI工具外,做的最多的工作是哪些,具体是如何实现的?23. 在使用AI编程工具时,若一个工具查询了大量数据超过了工具的上下文窗口,该如何处理?24. 编程题:给定一个字符串,仅允许在其末尾添加字符使其变成回文串,请使用Java实现并返回构造后的最短回文串。
查看24道真题和解析
点赞 评论 收藏
分享
评论
2
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务