强化学习在运筹学的应用:研究进展与展望

2020-05-25分类号：TP181;O22

【作者】徐翔斌李志鹏

【部门】华东交通大学交通运输与物流学院

【摘要】强化学习已经成为人工智能领域一个新的研究热点,并已成功应用于各领域,强化学习将运筹优化领域的很多问题视为序贯决策问题,建模为马尔可夫决策过程并进行求解,在求解复杂、动态、随机运筹优化问题具有较大的优势。本文主要对强化学习在运筹优化领域的应用进行综述,首先介绍了强化学习的基本原理及其应用于运筹优化领域的研究框架,然后回顾并总结了强化学习在库存控制、路径优化、装箱配载和车间作业调度等方面的研究成果,并将最新的深度强化学习以及传统方法在运筹学领域的应用研究进行了对比分析,以突出深度强化学习的优越性。最后提出几个值得进一步探讨的研究方向,期望能为强化学习在运筹优化领域的研究提供参考。

【关键词】强化学习运筹优化序贯决策马尔可夫决策过程深度强化学习

【基金】国家自然科学基金资助项目(71761013);; 江西省自然科学基金面上项目(20181BAB201010)

【所属期刊栏目】运筹与管理

文献传递