高德大模型算法日常实习一面凉经
被挂了,希望发出来对大家有帮助!
1.数据是哪里来的?包括SFT部分以及DPO的数据
2.自己微调的项目有实际的意义吗有什么应用场景
3.介绍C-EVALbenchmark这个数据集中只有医学领域的数据吗
4.文本怎么做聚类文本是怎么转成向量的(其实就是大模型embedding的过程)
5.大模型都怎么做训练 包括哪些流程
6.预训练怎么做什么样的文本预训练的loss
7.预训练和SFT的区别SFT的loss
8.DPO PPO GRPO区别于关系
9.DPO数据是什么样的怎么生成的
10.DPO要推理几次才能计算损失
11.DPO为什么可以节省显存
12.GRPO 为什么可以替代PPO
13.什么是重要性采样数学公式
14.奖励和优势有什么样的关系
15.假如重要性采样值太大了怎么办 用什么方法 把其限定在一定范围内
手撕算法:
给了一个非递减数组告诉一个目标值返回数组中是否有两个元素的和等于这个目标值要求不能开辟一个新的数组
1.数据是哪里来的?包括SFT部分以及DPO的数据
2.自己微调的项目有实际的意义吗有什么应用场景
3.介绍C-EVALbenchmark这个数据集中只有医学领域的数据吗
4.文本怎么做聚类文本是怎么转成向量的(其实就是大模型embedding的过程)
5.大模型都怎么做训练 包括哪些流程
6.预训练怎么做什么样的文本预训练的loss
7.预训练和SFT的区别SFT的loss
8.DPO PPO GRPO区别于关系
9.DPO数据是什么样的怎么生成的
10.DPO要推理几次才能计算损失
11.DPO为什么可以节省显存
12.GRPO 为什么可以替代PPO
13.什么是重要性采样数学公式
14.奖励和优势有什么样的关系
15.假如重要性采样值太大了怎么办 用什么方法 把其限定在一定范围内
手撕算法:
给了一个非递减数组告诉一个目标值返回数组中是否有两个元素的和等于这个目标值要求不能开辟一个新的数组
全部评论
相关推荐
投票
点赞 评论 收藏
分享
查看12道真题和解析