首页 > 试题广场 >

强化学习中,model-based与model-free的区

[问答题]
强化学习中,model-based与model-free的区别在哪?value-based和policy-gradient的区别是什么?
value-based 是依据优化迭代过程中每次得到的目标数值(utility)判断当前迭代与前次迭代的action效果差异, 逻辑上是根据value搜索可行域,再根据由连续的value确定的action做出选择(如Q learning
policy-gradient 是直接根据可行的action在离散域中进行搜索,比value-based更加直接,一定程度上提高了算法的效率
发表于 2018-09-28 14:09:18 回复(0)