H-J-B方程(最优控制"基于价值算法总结")

如题所述

在一段专注的午后时光里，我深入研究了H-J-B方程，随后健身锻炼，晚餐后便开始了这篇心得分享。主要的参考资料仍是来自大神的指导：heaven：4.4.H-J-B方程*

自从探索最优控制算法以来，我一直对强化学习与最优控制之间的微妙关系感到好奇。这两者的思想有时相似，符号体系却又有所差异，它们之间的区别与联系让我颇费思量。虽然看过一些文章，但理解尚不透彻，此刻我将我的困惑以浅显易懂的方式呈现，希望能启发更多思考。

在深入了解了LQR的理论基础后，H-J-B方程的推导显得顺理成章。首先，让我们明确H-J-B的目标：H-J-B解决的是什么问题？它旨在处理连续时间的优化控制问题，相较于LQR，它关注的是状态和动作的连续变化，而LQR的cost函数则是通过累加而非积分形式来衡量的，尽管最终结果仍为序列。

状态转移关系是关键，它通常由状态和控制决定，表现为形式。在随机环境的考虑下，可能需要引入随机微分方程，但我目前还停留在理解基础微分方程的阶段，先不深入探讨。

总结如下：

初始状态设定

环境特性

最小化目标函数

H-J-B方程的逻辑链

从时间离散MDP的价值函数出发，我们建立起与LQR类似的概念，但在连续时间中，控制的即时影响微不足道，因此，无需特别关注。借助价值函数的定义，我们推导出H-J-B方程的核心公式：

接下来，理论上的求解往往涉及到偏微分方程，尽管解析解不易得，但数值解是可行的途径。我计划在后续深入学习中，通过离散化方法求解数值解，并进一步推导出的表达式。

价值方程的多样性

从离散到连续，H-J-B方程涵盖了不同情境下的最优控制问题，如:

虽然目前我尚处于理论理解阶段，离实际应用还有一定距离，但理解何时何地运用何种算法同样重要。我计划进一步学习变分法和迭代方法，期待在实践中应用这些理论。

参考资源：

heaven：4.4.H-J-B方程*

数据科学人工智能：强化学习第4期：H-J-B方程

RLsilde/RL-3.pdf at main · SunHaoOne/RLsilde · GitHub

温馨提示：答案为网友推荐，仅供参考

相似回答

大家正在搜

H0B H和B的区别 H0B和链 B抗原比H抗原多了一个哈弗HB 维生素B—H 哈弗HB—03