LLM大模型算法面经
1、说一下PPO算法
2、在PPO算法中,PPO是如何平衡探索和利用的?
3、PPO算法中GAE算法的公式以及原理
4、说一下SAC算法
5、在SAC算法中,熵是怎么设置的,在具体实现的时候有哪两种实现方法,熵是怎么更新的?
6、为什么PPO类的算法是在线策略、SAC是离线策略
7、GRPO算法和PPO有什么改进
8、Lora算法的原理
9、Lora中 矩阵A和B是怎么初始化的,他们的秩设置有什么原则
10、怎么进一步降低Lora的参数 (也就是QLora的原理)
11、什么是矩阵的秩
12、能不能从特征值的角度来说一下矩阵的秩
13、Transformer相比起以前的注意力机制有什么不同
14、Deepseek 中的前馈神经网络层和Transformer的有什么不同
15、 对比一下 Deepseek,Llama,GPT3
16、你认为强化学习有没有给大模型带来新的知识
2、在PPO算法中,PPO是如何平衡探索和利用的?
3、PPO算法中GAE算法的公式以及原理
4、说一下SAC算法
5、在SAC算法中,熵是怎么设置的,在具体实现的时候有哪两种实现方法,熵是怎么更新的?
6、为什么PPO类的算法是在线策略、SAC是离线策略
7、GRPO算法和PPO有什么改进
8、Lora算法的原理
9、Lora中 矩阵A和B是怎么初始化的,他们的秩设置有什么原则
10、怎么进一步降低Lora的参数 (也就是QLora的原理)
11、什么是矩阵的秩
12、能不能从特征值的角度来说一下矩阵的秩
13、Transformer相比起以前的注意力机制有什么不同
14、Deepseek 中的前馈神经网络层和Transformer的有什么不同
15、 对比一下 Deepseek,Llama,GPT3
16、你认为强化学习有没有给大模型带来新的知识
全部评论
相关推荐
等闲_:把mt的写上,还有我感觉也不咋用包装,把业务讲清楚就行,面试官也不是不清楚实习生会干啥 点赞 评论 收藏
分享
查看7道真题和解析