首页 > 试题广场 >

强化学习中一般会加入explore策略,以避免agent过早

[单选题]
强化学习中一般会加入explore策略,以避免agent过早陷入到局部最优解,以下哪个不是常用的explore策略
  • epsilon greedy
  • entropy regulation
  • dropout
  • curiosity reward
a是off policy的探索方法,b用熵也是很经典的探索,比较出名的sac算法用的这个 dropout就完全不是这里得了,d只要有好奇心就必定是探索来的
发表于 2020-04-30 08:36:13 回复(0)
Dropout as posterior approximation 不是也用到了dropout来做exploration吗
发表于 2021-09-15 23:23:41 回复(0)