腾讯wxg 大模型算法实习面经分享
上来先手撕,对业务场景问的比较多,面没招了给我
手撕:
1. lc209 编辑距离
2. lc215 第k大元素(要求优化:快速选择 和 堆 的方法实现)
3. lc32 最长有效括号
项目深挖
八股:
1. sft dpo grpo使用场景和选型
2. dpo原理介绍
3. grpo有无实操经验,优势在哪
4. grpo的reward的原理,为何这样做
手撕:
1. lc209 编辑距离
2. lc215 第k大元素(要求优化:快速选择 和 堆 的方法实现)
3. lc32 最长有效括号
项目深挖
八股:
1. sft dpo grpo使用场景和选型
2. dpo原理介绍
3. grpo有无实操经验,优势在哪
4. grpo的reward的原理,为何这样做
全部评论
相关推荐

查看14道真题和解析