科大讯飞大模型算法实习一面 50min

攒人品中~~
1.介绍 Lora 的思想,为什么有效
2.DPO 的数据集来源
3.PPO 和 GRPO 的区别(损失函数的 clip 作用)
4.什么是大模型的幻觉,大模型解决幻觉的方式有哪些
5.为什么降低温度能缓解幻觉
6.你项目中 system prompt 和 user prompt 的区别
7.DeepSpeed zero-3 有什么改进
8.verl 和 vllm 你是怎么配合的,每个在项目中的作用

9.手撕:LCR 076 数组中的第 K 个最大元素
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务