阿里夸克实习面经汇总

1.Lora 的相关八股:常见参数、缩放
2.有没有做记忆衰退,避免旧数据干扰新任务?
3.Deepspeed zero3为什么比zero2更省显存
4.训练大模型的框架都有哪些呢
5.讲解一下 Flash Attention
6.讲解一下 Qwen 的滑动窗口注意力机制,计算量是多少?
7.PPO 的损失函数构成。
8.讲解一下KL散度。PPO和GRPO的损失函数有哪些区别?
9.在高并发查询 Agent 系统中,你会如何优化召回和生成阶段的延迟?
10.32B 模型全量微调 和Lora 微调的显存估算
11.你们这种模块堆叠的架构是怎么设计视觉问答模块和动作模块的协同逻辑的?
12. human feedback 是怎么被 agent 消化吸收的?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务