广东工业大学自动化学院教授谢胜利团队在国家自然科学基金、广东省基础与应用基础研究基金等项目的资助下,成功利用离散时间奖励指导发现连续时间动态系统的优化策略。相关成果近日发表于《国家科学进展(英文)》。
论文第一作者、广东工业大学教授陈辞表示,奖励是强化学习中的核心概念,寻找能够解释动态系统行为决策的奖励一直是一个公开挑战。
该研究创新性地将状态导数反馈回学习过程,从而建立了基于离散时间奖励的强化学习分析框架。该框架与现有的积分强化学习框架有本质区别。在离散时间奖励的指导下,行为决策律的搜索过程分为两个阶段:前馈信号学习和反馈增益学习。
研究发现:使用基于离散时间奖励的技术,可以从动态系统的实时数据中搜索连续时间动态系统的最优决策律。将上述方法应用于动态系统状态调节,成功实现了输出反馈优化设计。这一过程消除了识别动态模型的中间阶段,并通过去除已有积分强化学习框架中的奖励积分器算子,显著提高了计算效率。
论文通讯作者谢胜利表示,该研究成功利用离散时间奖励指导发现连续时间动态系统的优化策略,开辟了强化学习反馈控制的新领域,并且创新性地构建了一种理解和改善动态系统的计算工具,可在自然科学、工程学以及社会科学领域发挥重要作用。
相关论文信息:https://doi.org/10.1360/nso/20230054
作者:朱汉斌
审核:中国科学报
编辑:李成瑶
www.gdut.edu.cn 粤ICP备05008833号 广州市番禺区广州大学城外环西路100号(510006)