千问实验室大模型实习一面面经分享

发点面经攒攒人品~
1. 实习拷打
2.项目拷打
3. 你使用的模型在实际场景问答、翻译中效果如何?是否遇到过性能问题?
4. 简述了一款你熟悉的大模型(如 Qwen)的架构特点(如注意力机制、激活函数),与其他模型(如 BERT、Grok)有何不同?
5. 密集模型和稀疏模型(如 Mixtral)在训练和推理上各有什么优劣?
6. 业界如何处理长序列输入(如对话历史、文档分析)?你用过的模型是如何实现的?
7. 稀疏模型(如 MoE)在实际使用中有哪些难点?你了解的某个 MoE 模型有哪些亮点?
8. 如何提高大模型生成的准确性和一致性?有哪些常用方法或经验?
9. 简述强化学习在模型对齐中的作用,常见的算法(如 REINFORCE、A2C,DRPO)有何特点?
10. 请设计一个简单的损失函数,用于改进模型生成质量,并说明其作用。
11. 代码题
- 实现一个简化的 Multi-Head Attention 模块,支持批量输入。
- 「53. 最大子序和」,要求 O(n) 时间复杂度。
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务