首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
强化学习中,model-based与model-free的区
[问答题]
强化学习中,model-based与model-free的区别在哪?value-based和policy-gradient的区别是什么?
添加笔记
求解答(9)
邀请回答
收藏(14)
分享
纠错
1个回答
添加回答
0
ZQ.stu
value-based 是依据优化迭代过程中每次得到的目标数值(utility)判断当前迭代与前次迭代的action效果差异, 逻辑上是根据value搜索可行域,再根据由连续的value确定的action做出选择(如
Q learning
)
policy-gradient 是直接根据可行的action在离散域中进行搜索,比value-based更加直接,一定程度上提高了算法的效率
发表于 2018-09-28 14:09:18
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
网易
算法工程师
2018
上传者:
小小
难度:
1条回答
14收藏
3658浏览
热门推荐
相关试题
若用冒泡排序对关键字序列{10,8...
Java工程师
C++工程师
iOS工程师
安卓工程师
运维工程师
前端工程师
算法工程师
测试工程师
安全工程师
2018
奇安信
评论
(1)
下面描述中,符合结构化程序设计风格...
搜狐
Java工程师
C++工程师
iOS工程师
安卓工程师
运维工程师
前端工程师
算法工程师
PHP工程师
2018
评论
(1)
设一组初始记录关键字序列为(30,...
Java工程师
C++工程师
iOS工程师
安卓工程师
运维工程师
前端工程师
算法工程师
测试工程师
安全工程师
2018
奇安信
评论
(1)
有关linux线程的描述,正确的是...
京东
Java工程师
C++工程师
iOS工程师
安卓工程师
运维工程师
前端工程师
算法工程师
PHP工程师
2018
评论
(1)
对于小红书,创作者和粉丝之间互相不...
需求分析
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题