日常实习蔚来大模型算法面经
1.实习项目介绍
2.项目具体内容
1.分块,如何写入
2.embedding维度(老师说1024不具有性价比512就够了)
3.数据库索引是什么?(我用的默认的)
4.为什么做rlhf?
5.rag的评价指标
3 八股(强化学习问的很细)
1.dpo、ppo、grpo
2.价值模型和奖励模型的区别
3.奖励需要可微吗(不需要,在强化过程中奖励模型不改变)
4.对于 ppo来说什么是 action,整个输出叫什么?
4代码题
手撕tokenizer不会,给我换了个leetcode的反转链表
2.项目具体内容
1.分块,如何写入
2.embedding维度(老师说1024不具有性价比512就够了)
3.数据库索引是什么?(我用的默认的)
4.为什么做rlhf?
5.rag的评价指标
3 八股(强化学习问的很细)
1.dpo、ppo、grpo
2.价值模型和奖励模型的区别
3.奖励需要可微吗(不需要,在强化过程中奖励模型不改变)
4.对于 ppo来说什么是 action,整个输出叫什么?
4代码题
手撕tokenizer不会,给我换了个leetcode的反转链表
全部评论
相关推荐
查看8道真题和解析