【论文】略读笔记16-经典-大规模强化学习
📖《Algorithms or Actions? A Study in Large-Scale Reinforcement Learning》
🎯需求
- 大型状态和动作空间对于强化学习非常具有挑战性。
- 强化学习旨在开发通用智能体,它通过直接作用于问题动作空间来学习。然而,随着状态和动作空间变大,学习代理很难获得高性能。
- 但是,在许多领域中,有一组可用的算法,用于估计给定状态(state)的最佳动作(action)。
- 许多领域都有针对特定问题量身定制的现有算法,并且代理可以依赖算法池来代表其行事。
- 因此,智能体可以直接学习从状态到操作(from states to actions)或从状态到算法(from states to algorithm)的性能最大化映射。
- 然而,考虑到有限的计算资源,存在一个重要的冲突:我们应该学习动作(learn over actions),训练强化学习代理以发现要采取的最佳动作,还是应该学习算法(learn over algorithms),尝试发现最佳算法来估计在每个状态下的最佳动作?
🚧现状
- 先前关于抽象动作强化学习的工作已经表明:在学习算法时可能无法实现最优策略,尽管它可能会加速强化学习过程。
- 然而,目前还不清楚何时应该首选每种方法。
- 此外,当状态空间也非常大时,拥有一组算法可能仍然无法直接应用强化学习技术。特别是,实时策略游戏是人工智能研究的一个重大挑战,因为它们具有巨大的动作和状态空间。
🛩创新
- 在这项工作中,
- 我们研究了这种困境的几个方面,显示了在有限数量的训练迭代中,学习算法优于动作(learning over algorithms to outperform over actions)的充分条件。
- 评估可用算法是否有足够的强度,评估算法和动作集大小之间的关系,以及可能的底层算法创建过程。
- 我们提出了合成实验来进一步研究这些系统。合成实验进一步发展了我们的结论。
- 最后,我们提出了一种函数逼近方法,证明了在复杂领域(实时战略游戏)中学习算法的有效性。
- 我们研究了这种困境的几个方面,显示了在有限数量的训练迭代中,学习算法优于动作(learning over algorithms to outperform over actions)的充分条件。
📊效果
- 我们的算法学习模型提供了由理论分析支持的新颖指南。综合实验表明,相对性能随着动作和算法集大小的增加而增加。我们还引入了一种函数逼近方法,用于学习 RTS 游戏中的算法,其性能显着优于最先进的基于搜索的玩家。合成实验和 RTS 实验的源代码分别位于:https://github.com/andertavares/syntheticmdps 和 https://github.com/SivaAnbalagan1/micrortsFA。
🧠疑问
- 学习算法指的是什么?具体流程如何?在一堆算法里选择一个?
- 能否学习算法和学习动作相结合?
🗺参考文献
- 标题: 【论文】略读笔记16-经典-大规模强化学习
- 作者: Fre5h1nd
- 创建于 : 2023-10-31 22:53:20
- 更新于 : 2024-10-08 11:39:55
- 链接: https://freshwlnd.github.io/2023/10/31/literature/literatureNotes16/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论