LLM大模型算法面经
1、说一下PPO算法
2、在PPO算法中,PPO是如何平衡探索和利用的?
3、PPO算法中GAE算法的公式以及原理
4、说一下SAC算法
5、在SAC算法中,熵是怎么设置的,在具体实现的时候有哪两种实现方法,熵是怎么更新的?
6、为什么PPO类的算法是在线策略、SAC是离线策略
7、GRPO算法和PPO有什么改进
8、Lora算法的原理
9、Lora中 矩阵A和B是怎么初始化的,他们的秩设置有什么原则
10、怎么进一步降低Lora的参数 (也就是QLora的原理)
11、什么是矩阵的秩
12、能不能从特征值的角度来说一下矩阵的秩
13、Transformer相比起以前的注意力机制有什么不同
14、Deepseek 中的前馈神经网络层和Transformer的有什么不同
15、 对比一下 Deepseek,Llama,GPT3
16、你认为强化学习有没有给大模型带来新的知识
2、在PPO算法中,PPO是如何平衡探索和利用的?
3、PPO算法中GAE算法的公式以及原理
4、说一下SAC算法
5、在SAC算法中,熵是怎么设置的,在具体实现的时候有哪两种实现方法,熵是怎么更新的?
6、为什么PPO类的算法是在线策略、SAC是离线策略
7、GRPO算法和PPO有什么改进
8、Lora算法的原理
9、Lora中 矩阵A和B是怎么初始化的,他们的秩设置有什么原则
10、怎么进一步降低Lora的参数 (也就是QLora的原理)
11、什么是矩阵的秩
12、能不能从特征值的角度来说一下矩阵的秩
13、Transformer相比起以前的注意力机制有什么不同
14、Deepseek 中的前馈神经网络层和Transformer的有什么不同
15、 对比一下 Deepseek,Llama,GPT3
16、你认为强化学习有没有给大模型带来新的知识
全部评论
相关推荐
03-28 00:43
杭州电子科技大学 C++
找工作勤劳小蜜蜂:矛盾是没有实习,就是没实战经验,公司不想要,公司不要,你就没有实习,你就进入死循环,另外你的项目不是社会现在有大量岗位存在行业用的,云存储人员早就饱和。 点赞 评论 收藏
分享
查看14道真题和解析