日常实习 字节大模型llm二面
被横向挂了,希望发出来对大家有帮助!
1.项目介绍
2.训练样本大概多少条
3.用户反馈怎么做的
4.MOE 激活的分布,怎么确定是 MOE 的效果而不是单纯 ffn 参数量增大的效果
5.有考虑用别的强化学习的方法吗
6.dpo 的公式是什么
7. grpo 了解吗
8.kvcache 怎么做的,了解大模型中别的提高效率的办法吗
9.sgd 是什么, Adam 相对于 sgd 改进了什么位置编码
10.手撕 transformer 并计算 flops 和内存开销
1.项目介绍
2.训练样本大概多少条
3.用户反馈怎么做的
4.MOE 激活的分布,怎么确定是 MOE 的效果而不是单纯 ffn 参数量增大的效果
5.有考虑用别的强化学习的方法吗
6.dpo 的公式是什么
7. grpo 了解吗
8.kvcache 怎么做的,了解大模型中别的提高效率的办法吗
9.sgd 是什么, Adam 相对于 sgd 改进了什么位置编码
10.手撕 transformer 并计算 flops 和内存开销
全部评论
相关推荐
查看19道真题和解析