滴滴校招大模型算法面经

1.实习介绍
2.项目介绍+拷打(主要是数据来源,数据构造方式,分块过程,rag流程,检索方式,涉及到的每个步骤的原理,transformer、dpo,如何评测的,如果是多轮message怎么作mask的)
3.八股
1.transformer架构、ffn层是干嘛的,它的架构(为什么先升维再降维)
2.注意力机制的类型(mha,mqa,gqa,mla)各自的优缺点
3.PPO、DPO、GRPO各自优缺点
4.SFT损失及其公式
4.代码题
手撕多头自注意力机制
全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务