H-J-B方程(最优控制"基于价值算法总结")

如题所述

在一段专注的午后时光里,我深入研究了H-J-B方程,随后健身锻炼,晚餐后便开始了这篇心得分享。主要的参考资料仍是来自大神的指导:heaven:4.4.H-J-B方程*


自从探索最优控制算法以来,我一直对强化学习与最优控制之间的微妙关系感到好奇。这两者的思想有时相似,符号体系却又有所差异,它们之间的区别与联系让我颇费思量。虽然看过一些文章,但理解尚不透彻,此刻我将我的困惑以浅显易懂的方式呈现,希望能启发更多思考。


在深入了解了LQR的理论基础后,H-J-B方程的推导显得顺理成章。首先,让我们明确H-J-B的目标:H-J-B解决的是什么问题?它旨在处理连续时间的优化控制问题,相较于LQR,它关注的是状态和动作的连续变化,而LQR的cost函数则是通过累加而非积分形式来衡量的,尽管最终结果仍为序列。


状态转移关系是关键,它通常由状态 和控制 决定,表现为 形式。在随机环境的考虑下,可能需要引入随机微分方程,但我目前还停留在理解基础微分方程的阶段,先不深入探讨。


总结如下:



    初始状态:初始状态设定
    环境:环境特性
    目标:最小化目标函数

H-J-B方程的逻辑链


从时间离散MDP的价值函数出发,我们建立起与LQR类似的概念,但在连续时间中,控制的即时影响微不足道,因此,无需特别关注 。借助价值函数的定义,我们推导出H-J-B方程的核心公式:



    泰勒展开与二阶导数的处理
    环境特性的代入,得出那个著名的哈密顿量方程

接下来,理论上的求解往往涉及到偏微分方程,尽管解析解不易得,但数值解是可行的途径。我计划在后续深入学习中,通过离散化方法求解数值解,并进一步推导出 的表达式。


价值方程的多样性

从离散到连续,H-J-B方程涵盖了不同情境下的最优控制问题,如:



    离散状态、动作和时间,随机环境的MDP
    连续状态和控制,离散时间,确定环境的LQR
    连续状态、控制和时间,确定环境,时齐的H-J-B

虽然目前我尚处于理论理解阶段,离实际应用还有一定距离,但理解何时何地运用何种算法同样重要。我计划进一步学习变分法和迭代方法,期待在实践中应用这些理论。


参考资源:



    heaven:4.4.H-J-B方程*
    数据科学人工智能:强化学习第4期:H-J-B方程
    RLsilde/RL-3.pdf at main · SunHaoOne/RLsilde · GitHub
温馨提示:答案为网友推荐,仅供参考