首页 > 试题广场 >

在RLHF流程中，奖励模型的作用，以下描述最准确的是？

[单选题]

在RLHF流程中，奖励模型的作用，以下描述最准确的是？

奖励模型是可微分的人类偏好代理，将主观判断转化为可导的奖励信号

奖励模型本身是强化学习智能体

奖励模型目标是学习模仿人类写作风格

奖励模型直接修改基座模型权重

查看正确选项

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

来自：2026年-华为-03...

难度：

0条回答 12收藏 43浏览

热门推荐

相关试题

在高斯混合模型（GMM）中，EM算...

评论(0) 来自2026年-华为-03月...
关于注意力的表述，正确的是

评论(0) 来自2026年-华为-03月...
设实矩阵A∈R^(m×n)满足m≥...

评论(0) 来自2026年-华为-03月...
下列哪个不是大语言模型（LLM）的...

评论(0) 来自2026年-华为-03月...
下列哪个算法属于监督学习？

评论(0) 来自2026年-华为-03月...

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号