11.17阿里夸克大模型算法一面

一面
1.项目介绍
2.讲讲你对 transformer 的了解
3.有哪些常用的解码策略,topp 和 topk 的具体细节,以及实现上的差别
4.意图分流的 agent 怎么做微调的,用了多少数据
5.如何做 embedding 微调的,如何构造正负样例,训练的 loss 是什么
6.RAG有哪些可优化的地方
7. 你的 RAG 项目中用到了 agent 吗,一般 agent 会用在RAG 链路中的哪些部分
8.做 sft 时是怎么做数据配比的,参数具体怎么设置的
9.RLHF的流程,有没有训过 PPO
10.deepseed 的原理,zero1,2,3怎么做的
11.了解过排序模型吗,讲几个经典的排序模型吧
12.说-下 vm 部署8*7B的 MOE 模型每秒大概能推多少token
13.对比学习了解吗,讲一下
14.代码题:实现rand5到rand7
全部评论

相关推荐

评论
点赞
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务