在一段专注的午后时光里,我深入研究了H-J-B方程,随后健身锻炼,晚餐后便开始了这篇心得分享。主要的参考资料仍是来自大神的指导:heaven:4.4.H-J-B方程*
自从探索最优控制算法以来,我一直对强化学习与最优控制之间的微妙关系感到好奇。这两者的思想有时相似,符号体系却又有所差异,它们之间的区别与联系让我颇费思量。虽然看过一些文章,但理解尚不透彻,此刻我将我的困惑以浅显易懂的方式呈现,希望能启发更多思考。
在深入了解了LQR的理论基础后,H-J-B方程的推导显得顺理成章。首先,让我们明确H-J-B的目标:H-J-B解决的是什么问题?它旨在处理连续时间的优化控制问题,相较于LQR,它关注的是状态和动作的连续变化,而LQR的cost函数则是通过累加而非积分形式来衡量的,尽管最终结果仍为序列。
状态转移关系是关键,它通常由状态 和控制 决定,表现为 形式。在随机环境的考虑下,可能需要引入随机微分方程,但我目前还停留在理解基础微分方程的阶段,先不深入探讨。
总结如下:
从时间离散MDP的价值函数出发,我们建立起与LQR类似的概念,但在连续时间中,控制的即时影响微不足道,因此,无需特别关注 。借助价值函数的定义,我们推导出H-J-B方程的核心公式:
接下来,理论上的求解往往涉及到偏微分方程,尽管解析解不易得,但数值解是可行的途径。我计划在后续深入学习中,通过离散化方法求解数值解,并进一步推导出 的表达式。
从离散到连续,H-J-B方程涵盖了不同情境下的最优控制问题,如:
虽然目前我尚处于理论理解阶段,离实际应用还有一定距离,但理解何时何地运用何种算法同样重要。我计划进一步学习变分法和迭代方法,期待在实践中应用这些理论。
参考资源: