高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

基于条件生成对抗网络的模型化强化学习方法

强化学习是一种以试错机制不断与环境交互并通过最大化累积奖赏推断最优决策控制策略的方法,是最有希望实现人工智能的领域之一。目前,大部分强化学习算法在与环境进行大量交互学习后均可取得显著成功,然而在实际应用任务中收集大量交互学习样本存在一定困难。模型化强化学习方法是强化学习领域中样本利用率较高的一种学习范式,但由于环境的动态性、部分可观察性以及各种环境噪声等因素导致对环境模型进行精准预测成为一项极具挑战的任务。本课题主要对模型化强化学习中环境建模的方法展开研究,我们提出一种全新的环境模型学习方法,该方法利用条件生成对抗网络捕捉真实数据分布,并能够根据当前状态和动作预测下一状态。当环境预测模型训练稳定收敛后,可直接使用条件生成对抗网络中的生成器生成状态转移样本进行策略学习,从而减少智能体与真实环境的交互,极大提高样本利用率,缓解强化学习中采样困难的问题。最后,文章通过仿真实验对本文所提出的方法进行实验验证,结果表明该方法不仅能够准确预测状态转移数据,为策略学习提供充足的学习样本,还可得到稳定的、性能高的策略。

作者:
孔乐
学位授予单位:
天津科技大学
授予学位:
硕士
学位年度:
2020年
导师姓名:
赵婷婷
中图分类号:
TP18
关键词:
强化学习;模型化强化学习;样本效率;状态转移模型;生成对抗网络
基金项目:
国家自然科学基金项目
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是