AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(2)

  • 时间:
  • 浏览:0
  • 来源:5分3D官方_极速5分排列5

接下来我们我们我们我们都 就要改进一点随机策略,改进的办法怎么才能 让 选泽获取最大奖励的策略,而并都在跟日后一样随机运动。一点获取最大奖励的策略就叫做Greedy策略。

图一

图四

公式四

都时要看出在一点随机运动策略决策下,通过对Bellman 等式的不断迭代最终V函数会收敛到另一一二个多稳定的数值。

图三

求解最优MDP实际上怎么才能 让 找到最佳策略(Policy)π来最大化来最大化V函数(Value Function)。

公式一

策略迭代和值迭代是寻找最优策略的办法,策略迭代先评估策略用迭代Bellman等式的办法使V函数收敛,怎么才能 让 再用Greedy的策略对原策略进行改进,怎么才能 让 不断重复这另一一二个多步骤,直到策略收敛。

什么都策略迭代分为两步:

V函数真的会收敛到另一一二个多稳定的数值吗?我们我们我们我们都 不妨举另一一二个多例子。

图中左上角和又下角是机器人的目标奖励为0,一点地方奖励为-1,策略是随机运动(上下左右移动的概率相等,为π=0.25)。价值函数的迭代过程如下:

公式二

在MDP什么的问题中,怎么才能 才能 评估另一一二个多策略的好坏呢?怎么才能 让 们就计算一点策略的V函数(值函数),这里我们我们我们我们都 又要用到日后文章中提到的Bellman Equation了。

上边另一一二个多步骤不停循环,最终策略就会收敛到最优策略。

公式三

那更加极端地,在迭代Bellman 等式的过程中,我们我们我们我们都 只迭代一次(k=1)就采取Greedy策略,而不想等到V函数收敛,一点特殊的策略迭代办法就叫做值迭代(Value Iteration)

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言可能性访问我的Steemit主页

一点等式都时要通过下另一一二个多状态的值函数来求得当前状态的值函数。可能性我们我们我们我们都 对上边一点Bellman Equation中的每另一一二个多状态不停地迭代,最终每个状态的V(值)函数时会收敛成另一一二个多固定的数值。公式如下

通过迭代Ballman函数的办法完成V函数的收敛,从而完成了对一点策略的评估。上边的例子即便收敛日后,就得到了随机运动的策略π的V函数。

值迭代简单粗暴,直接用Bellman等式更新V函数,每次更新的日后都用Greedy的策略,当V函数收敛的日后策略也就收敛了。一点日后得到的策略怎么才能 让 最佳策略。

值迭代都时要看成是策略迭代的两种特殊状态,只迭代Bellman函数一次便使用Greedy策略对V函数进行更新,怎么才能 让 重复这另一一二个多动作直到V函数收敛从而获得最佳策略。

第一步:用迭代Bellman 等式的办法对策略进行评估,收敛V函数(公式三)

第二步:用Greedy的办法改进策略。

相关文章

AI学习笔记——求解最优MDPAI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介AI学习笔记——Q LearningAI学习笔记——Sarsa算法AI学习笔记——卷积神经网络(CNN)

跟我说你可能性发现了,如同上边的例子,可能性想找到最佳策略,在用Bellman等式迭代的过程中,不想一定时要等到V函数完整性收敛。或许都时要设定另一一二个多迭代上限,比如k=3就停止迭代了。

图二

一点公式与公式二不同的是引入了k,k是指迭代的次数。Bellman等式左边表示k+1代s状态上的V函数,Bellman等式右边是k代中s下另一一二个多状态s'的的相关函数。第六个等式是Bellman等式的矩阵形式。我们我们我们我们都 使用一点公式将第k+1代的每另一一二个多状态s都更新日后,就完成了第k+1次迭代。