首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
大模型中的“RL(Reinforcement Learnin
大牛37
指的是强化学习,通过不断试错和奖励反馈的机制,大模型能实现自主学习、不断优化自己行为的功能,RL是一种人工智能的训练方法。
查看原题
24个回答
添加回答
5
delighted牛牛
强化学习,大模型能够自主根据奖励分数的反馈调整回答,生成更高质量的回答。
发表于 2025-07-29 17:53:57
回复(0)
2
快乐的考拉要冲外企
发表于 2025-06-19 20:34:30
回复(0)
1
Jerryyyytse
RL是一种让模型通过“试错”和“奖励反馈”自主学习、不断优化行为的人工智能训练方法 based on rewards/punishments to find the optimal policy for agent in different states.
发表于 2026-04-07 16:31:09
回复(0)
1
在理财的垂耳兔很神奇
强化学习属于机器学习的无监督学习,对嘛?
发表于 2025-07-16 12:48:30
回复(1)
0
麻辣海苔
RL指的是强化学习,是机器学习的一个分支。智能体与其所在环境交互试错,通过行动结果得到的奖励或惩罚,选出一条最优决策路径。与监督学习的区别是,反馈具有滞后性,监督学习中的某一步正确或错误,在这一步执行之后就能知道结果,而强化学习中某一步带来的影响,可能要在一段时间后才能得到反馈。强化学习更适用于要求灵活性、长期训练、没有标准答案、容错性较高的场景,比如推荐系统。
发表于 2026-03-31 12:14:35
回复(1)
0
大牛37
指的是强化学习,通过不断试错和奖励反馈的机制,大模型能实现自主学习、不断优化自己行为的功能,RL是一种人工智能的训练方法。
发表于 2026-03-28 16:21:37
回复(0)
0
RONGQINLIE
强化学习是一种强大的AI学习范式,其通过“试错”、“奖励反馈”的方式让模型与环境的交互中不断调整决策策略,达到在不确定的环境中做出最优的决策
发表于 2026-03-28 14:13:46
回复(0)
0
啦啦乌
强化学习,通过设置奖惩条件并通过人类的反馈指导来优化模型能力的一种训练方式
发表于 2026-03-27 14:08:52
回复(0)
0
希望奇迹发生的大熊猫很想吃卤蛋
强化学习,是一种通过惩罚和奖励反馈训练模型的方法,在大模型优化,具体交互领域等有广泛应用
发表于 2026-03-23 20:50:13
回复(0)
0
希望被捞的鱼🐟
指的是大模型通过强化学习技术得到更好的解决方法,我们可以设置奖励函数,大语言模型自己迭代找到更好的问题解决方案。
发表于 2026-03-10 11:09:29
回复(0)
0
想退休的太平湖水怪
强化学习,大模型通过生成的结果获得的Reward或者Punishment更新参数,自主学习。
发表于 2025-12-11 21:10:01
回复(0)
0
懵懵的萌新
强化学习,用奖惩的方式来训练模型。经典的算法有Q-learn,马尔可夫过程算法,最大熵算法
发表于 2025-10-23 23:22:42
回复(0)
0
愿offer多多的小蜗牛很讲原则
强化学习,大模型能够自主根据奖励分数的反馈调整回答,生成更高质量的回答。
发表于 2025-10-15 19:01:17
回复(0)
0
牛客700721643号
强化学习,一种机器学习方法,通过奖励惩罚措施,让模型自主学习,不断优化自身策略。
发表于 2025-10-10 11:04:17
回复(0)
0
ndyx
强化学习
发表于 2025-09-19 15:49:17
回复(0)
0
侥幸罢了_
强化学习,其是在特定任务下,智能体通过学习奖励最大化策略的范式。
发表于 2025-09-04 15:38:56
回复(0)
0
牛客56004704号
RL指强化学习,是指模型在与环境的交互中做出动作,并根据得到的奖励或惩罚,不断调整行为策略,最终获得更高的长期回报的学习过程。
发表于 2025-09-03 20:37:59
回复(0)
0
幸福的小确幸给你点了个赞
try and error for optimal policy
发表于 2025-09-01 09:58:03
回复(0)
0
Ambision
强化学习,大模型根据惩罚和奖励机制,自动优化模型的一种方法
发表于 2025-08-25 23:12:58
回复(0)
0
emo的悲伤蛙拥抱太阳
RL强化学习,是一种大语言模型训练技术,通过不断的给智能体反馈,通过奖励与惩罚机制,使大语言模型能更加适用于业务场景或产品,使回答更加优化,例如RLHF通过用户反馈,指导大语言模型输出。
发表于 2025-08-20 15:53:35
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
难度:
24条回答
18收藏
195浏览
热门推荐
相关试题
以下关于Go的说法正确的是() 1...
Go
评论
(1)
" target="_blank">
判断推理
评论
(1)
以下代码的输出是什么?```pyt...
Python
评论
(1)
以下哪种方法可以有效提升Agent...
Agent
评论
(1)
为咖啡连锁"醒时咖啡",撰写一段新...
Prompt判断
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题