快手大模型应用算法一面 50min
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.实习介绍。
2.拷打了一下项目和论文。
3.为什么多头注意力能提升表达能力?
4.为什么要在大模型中使用 RMSNorm ?和 LayerNorm 有什么差异?
5.KV Cache 是怎么起作用的?为什么对长上下文推理很关键?
6.大模型推理时的加速思路?
7.模型微调时遇到过过拟合吗?怎么处理的?
8.手撕:
1️⃣字符串的全排列
2️⃣二叉树序列化与反序列化
1.实习介绍。
2.拷打了一下项目和论文。
3.为什么多头注意力能提升表达能力?
4.为什么要在大模型中使用 RMSNorm ?和 LayerNorm 有什么差异?
5.KV Cache 是怎么起作用的?为什么对长上下文推理很关键?
6.大模型推理时的加速思路?
7.模型微调时遇到过过拟合吗?怎么处理的?
8.手撕:
1️⃣字符串的全排列
2️⃣二叉树序列化与反序列化
全部评论
相关推荐
03-15 14:19
门头沟学院 Java 点赞 评论 收藏
分享
查看11道真题和解析