首页 >

大模型中的“RL（Reinforcement Learnin

大牛37头像

大牛37

指的是强化学习，通过不断试错和奖励反馈的机制，大模型能实现自主学习、不断优化自己行为的功能，RL是一种人工智能的训练方法。

查看原题

delighted牛牛头像

delighted牛牛

强化学习，大模型能够自主根据奖励分数的反馈调整回答，生成更高质量的回答。

发表于 2025-07-29 17:53:57 回复(0)

快乐的考拉要冲外企头像

快乐的考拉要冲外企

发表于 2025-06-19 20:34:30 回复(0)

Jerryyyytse头像

Jerryyyytse

RL是一种让模型通过“试错”和“奖励反馈”自主学习、不断优化行为的人工智能训练方法 based on rewards/punishments to find the optimal policy for agent in different states.

发表于 2026-04-07 16:31:09 回复(0)

在理财的垂耳兔很神奇头像

在理财的垂耳兔很神奇

强化学习属于机器学习的无监督学习，对嘛？

发表于 2025-07-16 12:48:30 回复(1)

麻辣海苔头像

麻辣海苔

RL指的是强化学习，是机器学习的一个分支。智能体与其所在环境交互试错，通过行动结果得到的奖励或惩罚，选出一条最优决策路径。与监督学习的区别是，反馈具有滞后性，监督学习中的某一步正确或错误，在这一步执行之后就能知道结果，而强化学习中某一步带来的影响，可能要在一段时间后才能得到反馈。强化学习更适用于要求灵活性、长期训练、没有标准答案、容错性较高的场景，比如推荐系统。

发表于 2026-03-31 12:14:35 回复(1)

大牛37头像

大牛37

指的是强化学习，通过不断试错和奖励反馈的机制，大模型能实现自主学习、不断优化自己行为的功能，RL是一种人工智能的训练方法。

发表于 2026-03-28 16:21:37 回复(0)

RONGQINLIE头像

RONGQINLIE

强化学习是一种强大的AI学习范式，其通过“试错”、“奖励反馈”的方式让模型与环境的交互中不断调整决策策略，达到在不确定的环境中做出最优的决策

发表于 2026-03-28 14:13:46 回复(0)

啦啦乌头像

啦啦乌

强化学习，通过设置奖惩条件并通过人类的反馈指导来优化模型能力的一种训练方式

发表于 2026-03-27 14:08:52 回复(0)

希望奇迹发生的大熊猫很想吃卤蛋头像

希望奇迹发生的大熊猫很想吃卤蛋

强化学习，是一种通过惩罚和奖励反馈训练模型的方法，在大模型优化，具体交互领域等有广泛应用

发表于 2026-03-23 20:50:13 回复(0)

希望被捞的鱼🐟头像

希望被捞的鱼🐟

指的是大模型通过强化学习技术得到更好的解决方法，我们可以设置奖励函数，大语言模型自己迭代找到更好的问题解决方案。

发表于 2026-03-10 11:09:29 回复(0)

想退休的太平湖水怪头像

想退休的太平湖水怪

强化学习，大模型通过生成的结果获得的Reward或者Punishment更新参数，自主学习。

发表于 2025-12-11 21:10:01 回复(0)

懵懵的萌新头像

懵懵的萌新

强化学习，用奖惩的方式来训练模型。经典的算法有Q-learn，马尔可夫过程算法，最大熵算法

发表于 2025-10-23 23:22:42 回复(0)

愿offer多多的小蜗牛很讲原则头像

愿offer多多的小蜗牛很讲原则

强化学习，大模型能够自主根据奖励分数的反馈调整回答，生成更高质量的回答。

发表于 2025-10-15 19:01:17 回复(0)

牛客700721643号头像

牛客700721643号

强化学习，一种机器学习方法，通过奖励惩罚措施，让模型自主学习，不断优化自身策略。

发表于 2025-10-10 11:04:17 回复(0)

ndyx头像

ndyx

强化学习

发表于 2025-09-19 15:49:17 回复(0)

侥幸罢了_头像

侥幸罢了_

强化学习，其是在特定任务下，智能体通过学习奖励最大化策略的范式。

发表于 2025-09-04 15:38:56 回复(0)

牛客56004704号头像

牛客56004704号

RL指强化学习，是指模型在与环境的交互中做出动作，并根据得到的奖励或惩罚，不断调整行为策略，最终获得更高的长期回报的学习过程。

发表于 2025-09-03 20:37:59 回复(0)

幸福的小确幸给你点了个赞头像

幸福的小确幸给你点了个赞

try and error for optimal policy

发表于 2025-09-01 09:58:03 回复(0)

Ambision头像

Ambision

强化学习，大模型根据惩罚和奖励机制，自动优化模型的一种方法

发表于 2025-08-25 23:12:58 回复(0)

emo的悲伤蛙拥抱太阳头像

emo的悲伤蛙拥抱太阳

RL强化学习，是一种大语言模型训练技术，通过不断的给智能体反馈，通过奖励与惩罚机制，使大语言模型能更加适用于业务场景或产品，使回答更加优化，例如RLHF通过用户反馈，指导大语言模型输出。

发表于 2025-08-20 15:53:35 回复(0)

提交观点

问题信息

难度：

24条回答 18收藏 195浏览

热门推荐

相关试题

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号