秋招面经-阿里云agent算法二面
1.自注意力机制是什么?计算复杂度怎么算?
2.KV-Cache的如何加速推理?
3.LoRA的原理是什么?与P-Tuning、Adapter的异同点?LoRA的参数选择对模型性能有何影响?
4.介绍下RLHF的基本流程,与DPO的差异是什么?
5.分布式训练中的TP、PP、DP分别是什么?
6.flash-attention的原理是什么?
7.如果视觉模块误判,如何通过语言纠错?
8.具体讲讲怎么构建evaluation pipeline的?
代码题:lc23.合并 k 个有序链表
2.KV-Cache的如何加速推理?
3.LoRA的原理是什么?与P-Tuning、Adapter的异同点?LoRA的参数选择对模型性能有何影响?
4.介绍下RLHF的基本流程,与DPO的差异是什么?
5.分布式训练中的TP、PP、DP分别是什么?
6.flash-attention的原理是什么?
7.如果视觉模块误判,如何通过语言纠错?
8.具体讲讲怎么构建evaluation pipeline的?
代码题:lc23.合并 k 个有序链表
全部评论
相关推荐
阿里云工作强度 690人发布
查看12道真题和解析

