日常实习蔚来大模型算法面经

1.实习项目介绍
2.项目具体内容
1.分块,如何写入
2.embedding维度(老师说1024不具有性价比512就够了)
3.数据库索引是什么?(我用的默认的)
4.为什么做rlhf?
5.rag的评价指标
3 八股(强化学习问的很细)
1.dpo、ppo、grpo
2.价值模型和奖励模型的区别
3.奖励需要可微吗(不需要,在强化过程中奖励模型不改变)
4.对于 ppo来说什么是 action,整个输出叫什么?
4代码题
手撕tokenizer不会,给我换了个leetcode的反转链表
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务