深度学习 人工智能的题目 求求大佬们帮帮忙

老哥们救救孩子,选修的一门课,期末作业搞不懂  求大佬帮忙


 


 

1MDPs问题-寻宝

Pacman除了吃豆子之外,有时也去以下的Gridworld岛去寻宝。Pacman有一张地图,上面标有那里是hazards,那里是treasure。在地图中任何空的方块,Pacman可以执行标准的 actions (N, S, E, W),而且这些actions不受移动噪音的影响。当Pacman落入一个 hazard (H) 方块或一个treasure (T) 方块时,它能做的action只有airlift (X),即把Pacman带入“Done” 状态;如果它是从H出来,reward是-64,而如果它是从T出来,reward是+128,但没有“living reward”(即没有所谓的“生命”reward)。

 

 

 

 

a) 如果γ = 0.5,求 grid中每个state的V ∗ 值(Optimal value)

 

 

b) optimal policy是什么?

 

 


我们上面的policy称为. Pacman知道地图过时了,所以决定作Q-Learning

来探寻这个岛到底是什么样的。因为Pacman认为是接近正确的,所以采取

基于(b)的 -random policy. 即在有多个actions时,Pacman以概率 

来随机选择不同actions.否则,Pacman根据 的推荐来选择action.我们把

这个policy称为 .

 

基于 -random policy的 是随机policy的一个例子,它的actions的选

择基于概率的,而不是policy所推荐的那个。随机policy可写为π(s,a),即

表示当agent在状态s时,选择action a的概率。

 

c)  如果policy π(s,a) 是随机的,写出修改后的用来计算policy的 Bellman equation:

 

(s) =

 

 

 

 

事实证明,Pacman的地图基本上是正确的,只是有些火坑已经变成空的方块。这样,

Pacman开始做Q-Learning,它观察到以下的episodes:

[ (0, 0), N, 0, (0, 1), N, 0, (0, 2), X, 128, Done ]

[ (0, 0), N, 0, (0, 1), N, 0, (0, 2), X, 128, Done ]

[ (0, 0), N, 0, (0, 1), E, 0, (1, 1), X, -64, Done ]

 

 

d) 假设Pacman把Q-value初始化为0而且learning rate是1.0,那么在观察到这些

episodes之后,Pacman的Q-values是什么?

 

 

 

 

 

 

 

 

 

 

 

 

 


2. Search问题昆虫重逢

假设你可以控制M x N维的maze环境里的一个或多个昆虫,如下图所示。昆虫每走一步,将进入旁边的North, East, South或West方块,如果旁边方块是空的话;否则昆虫将停留在当前位置。方块可能有墙挡,但地图是已知的。

 

在回答以下的问题时,你应该回答问题的泛例,而不是简单描述地图所显示的东西。

 

现在你来控制两个昆虫。你是知道这个maze的环境的,但没有昆虫从哪个方块开始的信息,怎样来帮助这两个昆虫重逢呢?

你可以把这个问题看成一个search问题,这个问题的答案是一个actions的序列,不管昆虫初始位置在什么地方,当昆虫执行了这个序列的actions之后,两个昆虫将会在一个方块中重逢。任何方块都可以,因为两个昆虫只是想重逢,而不在乎在哪个方块。两个昆虫都盲目地执行这些actions,而不知道它们的移动是否成功。如果它们action的执行把它们带向死胡同,那么它们将停留在哪里。两个昆虫每次都可以走一步,每走一步的成本是1.

 

问题

(a) 给出这个search问题的minimal state representation.

 

 

 

 

 

 

 

 

 

 

(b) 给出这个search问题的state space的大小。

 

 

 

 

 

 

 

 

 

 

 

(c) 给出这个search问题的一个nontrivial 的可行的启发式解决方案。

有偿求大佬帮忙

#人工智能##深度学习#
全部评论
求求大佬帮帮忙
点赞 回复
分享
发布于 2021-07-05 16:39

相关推荐

1 3 评论
分享
牛客网
牛客企业服务