action枚举 走进办公室的门,你迈左脚还是右脚? State = 即将走进办公室。 action = [迈左脚,迈右脚] reward:迈左脚迈右脚各自有对应reward。 这是正常的思维定式。真的是这样吗? 当然不是,你可以跳进去,倒立进去,滚进去等,有非常多的action可以供你选择,它们被你选择的概率可能非常小,但不应该是0。 问题在于,对大部分人来说,他们终其一生不知道这些action的存在,更不可能知道这些action对应的reward。他们的决策树是残缺的。 如果你做了对应action的测试,就能知道每个action对应的reward。随着人生阅历的增加,读的书和经历的事情越来越多,action的list会逐渐丰富。 靠想象力也可以丰富action的list。
点赞

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务