您的当前位置:首页正文

非线性不确定系统最优控制的自适应动态规划法研究

2023-11-20 来源:好走旅游网


非线性不确定系统最优控制的自适应动态规划法研究

非线性系统的最优控制问题一直备受关注.最优控制问题的核心是求解哈密尔顿-雅可比-贝尔曼(HJB)方程.自适应/近似动态规划(ADP)作为求解HJB方程的有效方法,能够克服传统动态规划引起的计算复杂性问题.ADP算法融合了加强学习,自适应技术,动态规划理论,神经网络,此算法由于可以按照时间正向求解最优控制问题而获得广泛关注.本文基于自适应动态规划,研究了含有控制约束的未知系统有限时间最优控制,含有饱和执行器的局部未知系统的非零和问题,含有外部扰动和控制约束的非线性不确定系统的H∞跟踪控制,未知时滞系统的有限时间最优控制.文章主要内容如下:(1)针对带有饱和执行器且局部未知的非线性连续系统的有限时间最优控制问题,设计了一种基于自适应动态规划(ADP)的在线积分增强学习算法,并给出算法的收敛性证明.首先,引入非二次型函数处理控制饱和问题.其次,设计一种由常量权重和时变激活函数构成的单一网络,来逼近未知连续的值函数,与传统双网络相比减少了计算量.同时,综合考虑神经网络产生的残差和终端误差,应用最小二乘法更新神经网络权重,并且给出基于神经网络的迭代值函数收敛到最优值的收敛性证明.最后,通过两个仿真例子验证了算法的有效性.(2)设计了基于自适应动态规划的最优在线学习算法,用以解决局部未知且含有控制约束的非线性动态系统的多人非零和问题.首先,证明了在线的策略迭代(PI)算法等价于牛顿迭代算法.其次,针对每个执行者,采用具有时变激活函数的单一神经网络近似时变的哈密尔顿-雅可比-贝尔曼(HJB)方程组的解.神经网络权重以在线方式按照时间正向迭代更新.控制受限这一条件通过引入非二次型函数得到解决.对于多人非零和问题,给出了基于神经网络的在线学习算法的收敛性证明.最后,我们通过仿真算例验证了提出算法的有效性.(3)提出了一个基于神经网络且不依赖于策略的在线学习算法,进而解决一类非线性连续时滞系统的有限时间最优控制问题.这个不依赖于策略的在线学习算法用来学习时变HJB方程的两阶段解,本算法不需要时滞系统的动态知识.采用具有时变的激活函数的执行-评价神经网络结构实现算法的在线调节.同时考虑残差误差和终端误差实时调节两个神经网络的权重.给出两个仿真算例来验证算法的可应用性.(4)针对含有外部扰

动和输入限制的非线性不确定系统,设计了H∞跟踪控制器.引入了含折扣因子的非二次型函数作为H∞性能指标,因此可将控制输入编译到性能指标中.求解H∞跟踪控制问题的难点在于求解跟踪哈密尔顿-雅可比-艾萨克(HJI)方程,此方程是偏微分方程.即使是简单的系统,此方程的分析解也很难获得.为了克服这一困难,提出了一种不依赖于模型的积分加强在线学习算法,进而在线学习跟踪HJI方程的解,而且这里无需系统的动态信息.为了实施此算法,采用评价网-执行网-扰动网神经网络结构,并且三网络同时进行调节.借助李亚普诺夫稳定性理论,给出系统稳定性和收敛性证明.另外,添加鲁棒控制项去抑制神经网络逼近误差,于是闭环系统可达到渐进稳定.最后,给出两个仿真例子来验证提出算法的有效性.(5)针对一类带有外部扰动和饱和执行器的不确定非线性连续系统,提出一种基于神经网络的无模型积分加强在线学习算法,用以解决有限时间H∞最优跟踪控制问题.借助跟踪误差系统和信号产生系统,组建成一个增广的系统.相对于这个增广后的系统,能够推导出对应的时变HJI方程.然而这个方程由于内在的非线性性和时变的特点,此方程的求解极其困难.因此,设计了一种基于执行-评价-扰动网络结构的算法,此算法在不需要系统动态信息的情况下,能够得到时变HJI方程的近似解.因为时变HJI方程的解是依赖于时间的,于是采用具有时变特点的激活函数的神经网络进行逼近.其次,为了满足终端约束条件,在设计神经网络权重更新率时,额外的终端误差项被考虑进去.最后,借助李亚普诺夫稳定性理论,给出了收敛性和跟踪误差系统的稳定性证明.两个仿真算例验证了本章提出算法的有效性.最后,对全文进行了总结.提出自适应动态规划中一些尚未解决的问题,并给出未来的研究方向.

因篇幅问题不能全部显示,请点此查看更多更全内容