腾讯 大模型应用算法一面 日常实习
面试很难,还是要多多练习,感觉自己说不明白业务逻辑
1•大模型普遍训练多少 epoch?为什么?
2•预训练阶段更应该关注 epoch,还是 token 数?
3•为什么现代大模型常说“训练了多少 T tokens”,而不太说“训练了多少轮”?
4•训练 token 数和参数规模之间是什么关系?
5•你先讲一下 Transformer 的整体结构,为什么 self-attention 能替代 RNN?
6•DPO 相比 PPO/RLHF 的优缺点是什么?
7•什么是 instruction following?为什么 base model 和 instruct model 体验差这么多?
8•SFT 数据要怎么构造?什么样的数据最有效?
9•如果 SFT 后通用能力下降了,你怎么分析?
1•大模型普遍训练多少 epoch?为什么?
2•预训练阶段更应该关注 epoch,还是 token 数?
3•为什么现代大模型常说“训练了多少 T tokens”,而不太说“训练了多少轮”?
4•训练 token 数和参数规模之间是什么关系?
5•你先讲一下 Transformer 的整体结构,为什么 self-attention 能替代 RNN?
6•DPO 相比 PPO/RLHF 的优缺点是什么?
7•什么是 instruction following?为什么 base model 和 instruct model 体验差这么多?
8•SFT 数据要怎么构造?什么样的数据最有效?
9•如果 SFT 后通用能力下降了,你怎么分析?
全部评论
相关推荐
查看7道真题和解析