深度强化学习的通用插件综述
DOI:
作者:
作者单位:

广东工业大学自动化学院

作者简介:

通讯作者:

中图分类号:

TP181

基金项目:

国家自然科学基金项目 (61971147): 广东省基础与应用基础研究基金(2023A1515011888)


Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了六类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习、课程学习。综述了这六类算法中常用的通用插件,还简要介绍了它们的应用场景和在深度强化学习中的主要作用。该工作强调了各类通用插件在不同应用领域独特优势,并提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境探索效率;4)提高算法在现实中应对各种突发状况的能力。

    Abstract:

    参考文献
    相似文献
    引证文献
引用本文
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-12-18
  • 最后修改日期:2024-02-28
  • 录用日期:2024-03-11
  • 在线发布日期:
  • 出版日期:
文章二维码