看下图, 1.在不考虑γ折扣因子的情况下,从初始点A出发,到达第二行的节点(B,C)时,哪条路径获得的收益总和更大? 答:A->B的reward是0.6,大于A->C的0.4。所以答案是A->B。 2.在不考虑γ折扣因子的情况下,从初始点A出发,到达第三行的节点(D,E,F,G)时,哪条路径获得的收益总和更大? 答:根据小学数学学到的加法,A->C->F的reward是0.4+0.8=1.2。大于另外三条路径的[1.1, 1.1, 0.6]。
点赞

相关推荐

03-08 18:11
门头沟学院 Java
想要实习的牛:这么牛逼的简历都吃瘪吗🌚那我不寄了
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务