基于改进近端策略优化算法的移动机械臂抓取实验设计
2024-05-21分类号:TP241;TP18
【部门】广东工业大学自动化学院 广东工业大学大思政课建设协同创新中心
【摘要】针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略优化算法的步骤进行了调整,完成了对算法稳定性和学习效率的优化,并针对每个改进点设计了相关的实验。实验结果表明,在训练移动机械臂夹取物体的任务上,6个改进方法对近端策略优化算法均有不同程度的提升。改进后的PPO算法使移动机械臂的奖励曲线获得很大改善,能够迅速收敛到理想的结果。
【关键词】近端策略优化 移动机械臂 深度强化学习
【基金】教育部高等学校控制理论课程群虚拟教研室专项(220305);; 2022年广东省研究生教育创新计划项目(2022JGXM052);; 2022年大思政课建设协同中心研究课题(2022DSZK06)
【所属期刊栏目】实验技术与管理
文献传递