京东-大模型-应用算法-一面面经
欢迎友好讨论,信息共享
1.对不同强化微调范式的了解、区别(问了PPO和GRPO的区别)
2.transformer的结构捋一下
3.self-attention介绍一下
4.MHA相较于单头的好处
5.bert模型的结构
6.agent和llm的区别
7.bge-m3模型的训练过程、loss设计等
8.deepseek的创新设计
9.讲一下MOE
10.deepspeed的三个阶段
11.对多模态大模型的了解
12.qwen3-embedding模型和reranker模型的区别
1.对不同强化微调范式的了解、区别(问了PPO和GRPO的区别)
2.transformer的结构捋一下
3.self-attention介绍一下
4.MHA相较于单头的好处
5.bert模型的结构
6.agent和llm的区别
7.bge-m3模型的训练过程、loss设计等
8.deepseek的创新设计
9.讲一下MOE
10.deepspeed的三个阶段
11.对多模态大模型的了解
12.qwen3-embedding模型和reranker模型的区别
全部评论
相关推荐
点赞 评论 收藏
分享
查看14道真题和解析 点赞 评论 收藏
分享

