26校招京东大模型应用算法一面
面试很难,还是要多多练习,感觉自己说不明白业务逻辑
八股
1. lstm和transformer的区别
2. Decoder-only和Encoder-only的区别
3. 对不同强化微调范式的了解、区别(问了PPO和GRPO的区别)
4. transformer的结构捋一下
5. self-attention介绍一下
6. MHA相较于单头的好处
7. bert模型的结构
8. agent和llm的区别
9. bge-m3模型的训练过程、loss设计等
10. deepseek的创新设计
11. 讲一下MOE
12. deepspeed的三个阶段
13. 对多模态大模型的了解
14. qwen3-embedding模型和reranker模型的区别
15. 场景题:京东电商场景下,如何设计层次化的多标签分类,需要考虑到标签和标签之间存在耦合性/层级包含关系等
八股
1. lstm和transformer的区别
2. Decoder-only和Encoder-only的区别
3. 对不同强化微调范式的了解、区别(问了PPO和GRPO的区别)
4. transformer的结构捋一下
5. self-attention介绍一下
6. MHA相较于单头的好处
7. bert模型的结构
8. agent和llm的区别
9. bge-m3模型的训练过程、loss设计等
10. deepseek的创新设计
11. 讲一下MOE
12. deepspeed的三个阶段
13. 对多模态大模型的了解
14. qwen3-embedding模型和reranker模型的区别
15. 场景题:京东电商场景下,如何设计层次化的多标签分类,需要考虑到标签和标签之间存在耦合性/层级包含关系等
全部评论
感觉八股还行啊
相关推荐
查看17道真题和解析 点赞 评论 收藏
分享