阿里通义千问大模型算法凉经

1️⃣ 简单介绍一下你的实习经历吧?
2️⃣ LoRA的原理是什么,你是怎么理解的?
3️⃣ 你了解DeepSpeed吗?能说说ZeRO-1、ZeRO-2和ZeRO-3分别做了哪些优化吗?
4️⃣ Qwen的模型结构是怎么样的?和LLaMA、DeepSeek的主要区别在哪里?
5️⃣ 在实际应用中,你会怎么缓解大模型的幻觉问题?
6️⃣ 大模型的MoE结构相比于Dense结构,训练难点主要是什么?你觉得DeepSeek MoE效果好的原因有哪些?
7️⃣ FP16、BF16、FP32、INT8这些格式有什么区别?在训练和推理大模型时,一般会如何选择?
8️⃣ 可以讲一下RLHF的基本流程吗?并写一下PPO和DPO的Loss表达式。
9️⃣ 对于超长上下文,业界一般是怎么处理的?你了解Qwen是怎么做的吗?
🔟 (开放题)在你看来,目前大模型发展的上限可能在哪里?有哪些突破方向?
1️⃣1️⃣ (代码题)Leetcode 152:乘积最大子数组。
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务