首页 > 试题广场 >

强化学习中一般会加入explore策略，以避免agent过早

[单选题]

强化学习中一般会加入explore策略，以避免agent过早陷入到局部最优解，以下哪个不是常用的explore策略

```
epsilon greedy
```
```
entropy regulation
```
```
dropout
```
```
curiosity reward
```

查看答案及解析

tingfx4yu头像

tingfx4yu

a是off policy的探索方法，b用熵也是很经典的探索，比较出名的sac算法用的这个 dropout就完全不是这里得了，d只要有好奇心就必定是探索来的

发表于 2020-04-30 08:36:13 回复(0)

钟如劼头像

钟如劼

Dropout as posterior approximation 不是也用到了dropout来做exploration吗

发表于 2021-09-15 23:23:41 回复(0)

提交观点

问题信息

数据分析工程师数据挖掘工程师算法工程师哔哩哔哩 2020

上传者：小小

难度：

2条回答 27收藏 3160浏览

热门推荐

相关试题

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号