摘要:深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了六类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习、课程学习。综述了这六类算法中常用的通用插件,还简要介绍了它们的应用场景和在深度强化学习中的主要作用。该工作强调了各类通用插件在不同应用领域独特优势,并提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境探索效率;4)提高算法在现实中应对各种突发状况的能力。