辽宁学术搜索 - 详细信息

注册| 登录

全部
期刊
学位
会议
成果
专利
标准
法律
机构

			高级检索
全部主题学科机构人物基金全部字段标题作者作者单位刊名关键词全部字段标题作者授予单位关键词全部字段标题作者作者单位关键词全部字段成果名称完成单位完成人关键词全部字段专利名称发明人申请人公告号全部字段标准编号标准名称发布单位起草单位关键词全部字段标题发文文号颁布部门全部字段负责人词表扩展: 自动翻译: 模糊检索:

当前位置：首页>

	搜索小提示
1、多个搜索词用“+”连接，系统作逻辑或运算处理； 2、系统默认开启中英文互译功能，您可在搜索设置中关闭； 3、在搜索内容加上“半角引号”，系统将对搜索内容做精确检索； 4、多个搜索词用“空格”或“*”连接时，系统做逻辑与运算处理； 5、系统默认开启检索词提示，您可在搜索设置中关闭。

请选择要加入收藏分类（查看已收藏的文献）

分类：添加分类

分类名称：

分享到：

基于条件生成对抗网络的模型化强化学习方法

强化学习是一种以试错机制不断与环境交互并通过最大化累积奖赏推断最优决策控制策略的方法,是最有希望实现人工智能的领域之一。目前,大部分强化学习算法在与环境进行大量交互学习后均可取得显著成功,然而在实际应用任务中收集大量交互学习样本存在一定困难。模型化强化学习方法是强化学习领域中样本利用率较高的一种学习范式,但由于环境的动态性、部分可观察性以及各种环境噪声等因素导致对环境模型进行精准预测成为一项极具挑战的任务。本课题主要对模型化强化学习中环境建模的方法展开研究,我们提出一种全新的环境模型学习方法,该方法利用条件生成对抗网络捕捉真实数据分布,并能够根据当前状态和动作预测下一状态。当环境预测模型训练稳定收敛后,可直接使用条件生成对抗网络中的生成器生成状态转移样本进行策略学习,从而减少智能体与真实环境的交互,极大提高样本利用率,缓解强化学习中采样困难的问题。最后,文章通过仿真实验对本文所提出的方法进行实验验证,结果表明该方法不仅能够准确预测状态转移数据,为策略学习提供充足的学习样本,还可得到稳定的、性能高的策略。

作者：: 孔乐

学位授予单位：: 天津科技大学

授予学位：: 硕士

学位年度：: 2020年

导师姓名：: 赵婷婷

中图分类号：: TP18

关键词：: 强化学习；模型化强化学习；样本效率；状态转移模型；生成对抗网络

基金项目：: 国家自然科学基金项目

原文获取

正在处理中...

原文传递：邮箱接收

该文献暂无原文链接!

参考文献 (0)

引证文献 (0)

正在处理中...

该文献暂无参考文献!

正在处理中...

该文献暂无引证文献!

相似期刊

相似会议

相似学位

正在处理中...

正在处理中...

正在处理中...

相关机构

正在处理中...

相关专家

正在处理中...

您的浏览历史

正在处理中...

友情提示

作者科研合作关系：

点击图标浏览作者科研合作关系，以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络：

点击图标浏览该主题词的知识脉络关系，包括相关主题词、机构、人物和发文刊物等。

提示

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

您需要的全文将发送到您填写的邮箱中,请注意查收

邮件地址*:

姓名*:

单位名称*:

联系方式*:

您要获取的文献信息

中文标题:

英文标题:

文献类型:

作者:

作者单位:

母体文献:

发文时间:

此次原文服务的费用

原文服务单价:

您的会员折扣:

总费用:

tips:费用将在系统处理完订单后确认付款

检索设置

请先确认您的浏览器启用了 cookie，否则无法使用检索设置！如何启用cookie?

检索范围
所有语言中文外文
检索结果每页记录数
10条 20条 30条
检索结果排序
按时间按相关度按题名
结果显示模板
列表表格
检索结果中检索词高亮
是否
是否开启检索提示
是否
是否开启划词助手
是否
是否开启扩展检索
是否
是否自动翻译
是否