首页 > 试题广场 >

以下哪些是RLHF训练流程中可能遇到的实际问题？

[不定项选择题]

以下哪些是RLHF训练流程中可能遇到的实际问题？

```
奖励黑客(Reward Hacking)
```
```
模式坍塌(Mode Collapse)
```
```
KL散度惩罚系数难以调优
```
```
预训练数据不足
```

查看正确选项

爱跳的Mario头像

爱跳的Mario

RLHF：奖励，模型坍塌，KL散度

发表于 2026-04-10 22:17:47 回复(0)

提交观点

问题信息

大模型概念

难度：

1条回答 12收藏 12浏览

热门推荐

相关试题

在AI大模型的应用中，"微调"的主...

大模型概念

评论(0)
在AI大模型的训练中，"过拟合"通...

大模型概念

评论(0)
在使用AI大模型进行文本生成时，"...

大模型概念

评论(0)
下图是一个信号传输线的串扰模型，下...

通信原理

评论(1) 来自2025年秋招-中国移动...
混合专家（MoE）模型训练中，部分...

大模型开发

评论(1)

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号