基于条件生成对抗网络的模型化强化学习方法
强化学习是一种以试错机制不断与环境交互并通过最大化累积奖赏推断最优决策控制策略的方法,是最有希望实现人工智能的领域之一。目前,大部分强化学习算法在与环境进行大量交互学习后均可取得显著成功,然而在实际应用任务中收集大量交互学习样本存在一定困难。模型化强化学习方法是强化学习领域中样本利用率较高的一种学习范式,但由于环境的动态性、部分可观察性以及各种环境噪声等因素导致对环境模型进行精准预测成为一项极具挑战的任务。本课题主要对模型化强化学习中环境建模的方法展开研究,我们提出一种全新的环境模型学习方法,该方法利用条件生成对抗网络捕捉真实数据分布,并能够根据当前状态和动作预测下一状态。当环境预测模型训练稳定收敛后,可直接使用条件生成对抗网络中的生成器生成状态转移样本进行策略学习,从而减少智能体与真实环境的交互,极大提高样本利用率,缓解强化学习中采样困难的问题。最后,文章通过仿真实验对本文所提出的方法进行实验验证,结果表明该方法不仅能够准确预测状态转移数据,为策略学习提供充足的学习样本,还可得到稳定的、性能高的策略。
- 作者:
- 孔乐
- 学位授予单位:
- 天津科技大学
- 授予学位:
- 硕士
- 学位年度:
- 2020年
- 导师姓名:
- 赵婷婷
- 中图分类号:
- TP18
- 关键词:
- 强化学习;模型化强化学习;样本效率;状态转移模型;生成对抗网络
-
- 基金项目:
- 国家自然科学基金项目