日常实习大模型算法美团二面凉经

1.讲一下大模型训练的过程
2.预训练的 loss 是什么?怎么做的评估?(回答不会)
3.有了解 PPL 吗?(回答不会)
4.sft 的 loss 是什么?lora 你用了多少卡?

(现在开始八股,下面的内容全回答的不会)
1.你们做的长文档 PDF,有哪些长上下文扩展方法?
2.技术报告看了吗?最长上下文的模型是哪个?
3.你们训练用了多少卡?
4.讲一下 MHA
5.讲一下 qwen 和 chatglm 的区别。和 llama 有什么区别?
6.讲一下 vision encoder的 loss,clip 之后的发展有哪些?
7.讲一下你看了哪些技术报告?
8.chatglm 结构是什么?为什么这样设计?
9.讲一下 deepseek 的结构?
10.rope 有了解吗?
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务