非线性二阶系统的多智能体强化学习行为控制 - Details

author：

张祯毅 (张祯毅.) ^[1] | 黄捷 (黄捷.) ^[2] | 潘聪捷 (潘聪捷.) ^[3]

Indexed by：

CSCD

Abstract：

强化学习行为控制局限于没有群体任务的单个智能体,因为其将行为优先级学习建模为马尔可夫决策过程.本文提出一种新颖的多智能体强化学习行为控制方法,该方法通过执行联合学习克服上述缺陷.具体而言,针对一组非线性二阶系统,设计一个多智能体强化学习任务监管器以在任务层分配行为优先级.通过将行为优先级切换建模为协作式马尔可夫博弈,多智能体强化学习任务监管器学习最优联合行为优先级,以减少对人类智能和高性能计算硬件的依赖.在控制层,设计了一组二阶强化学习控制器用以学习最优控制策略,实现位置和速度信号的同步跟踪.特别地,设计了一组自适应补偿器以保证输入饱和约束.数值仿真结果验证了所提出的多智能体强化学习行为控制对比有限时间、固有时间和强化学习行为控制具有更低的切换频率和控制代价.

Keyword：

二阶系统任务监管强化学习行为控制

Community：

[ 1 ] [Jie HUANG]福州大学电气工程与自动化学院,中国福州市,350108;福州大学5G+工业互联网研究院,中国福州市,350108
[ 2 ] [Congjie PAN]福州大学电气工程与自动化学院,中国福州市,350108;福州大学5G+工业互联网研究院,中国福州市,350108
[ 3 ] [Zhenyi ZHANG]福州大学电气工程与自动化学院,中国福州市,350108;福州大学5G+工业互联网研究院,中国福州市,350108

Reprint 's Address：

Email：

Show more details

Related Keywords：

非线性二阶系统的多智能体强化学习行为控制
2024，Frontiers of Information Technology & Electronic Engineering
基于行为的多差速机器人强化学习任务监管器设计
2024，机器人
面向智慧工厂的多仓储机器人路径规划仿真教学研究
2024，实验技术与管理
面向人—多机器人协同系统的带记忆强化学习行为控制任务管理器（英文）
2022，Frontiers of Information Technology & Electronic Engineering
基于深度强化学习的电力系统暂态稳定控制策略研究综述
2023，高电压技术

Source ：

Frontiers of Information Technology & Electronic Engineering

ISSN： 2095-9184

Year： 2024

Issue： 6

Volume： 25

Page： 869-886,中插21-中插26,后插16

2 . 7 0 0

JCR@2023

CAS Journal Grade：3

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 3

Affiliated Colleges：

Get Fulltext

Library Discovery Baidu Scholar Search WF WF WF WF WF WF WF WF WF

Type
Departments

All Years Choose Year From to