【论文】略读笔记16-经典-大规模强化学习

【论文】略读笔记16-经典-大规模强化学习

Fre5h1nd Lv5

📖《Algorithms or Actions? A Study in Large-Scale Reinforcement Learning》

🎯需求

  • 大型状态和动作空间对于强化学习非常具有挑战性。
    • 强化学习旨在开发通用智能体,它通过直接作用于问题动作空间来学习。然而,随着状态和动作空间变大,学习代理很难获得高性能。
  • 但是,在许多领域中,有一组可用的算法,用于估计给定状态(state)的最佳动作(action)。
    • 许多领域都有针对特定问题量身定制的现有算法,并且代理可以依赖算法池来代表其行事。
  • 因此,智能体可以直接学习从状态到操作(from states to actions)从状态到算法(from states to algorithm)的性能最大化映射。
    • 然而,考虑到有限的计算资源,存在一个重要的冲突:我们应该学习动作(learn over actions),训练强化学习代理以发现要采取的最佳动作,还是应该学习算法(learn over algorithms),尝试发现最佳算法来估计在每个状态下的最佳动作?

🚧现状

  • 先前关于抽象动作强化学习的工作已经表明:在学习算法时可能无法实现最优策略,尽管它可能会加速强化学习过程。
  • 然而,目前还不清楚何时应该首选每种方法。
  • 此外,当状态空间也非常大时,拥有一组算法可能仍然无法直接应用强化学习技术。特别是,实时策略游戏是人工智能研究的一个重大挑战,因为它们具有巨大的动作和状态空间。

🛩创新

  • 在这项工作中,
    • 我们研究了这种困境的几个方面,显示了在有限数量的训练迭代中,学习算法优于动作(learning over algorithms to outperform over actions)的充分条件。
      • 评估可用算法是否有足够的强度,评估算法和动作集大小之间的关系,以及可能的底层算法创建过程。
    • 我们提出了合成实验来进一步研究这些系统。合成实验进一步发展了我们的结论。
    • 最后,我们提出了一种函数逼近方法,证明了在复杂领域(实时战略游戏)中学习算法的有效性。

📊效果

🧠疑问

  1. 学习算法指的是什么?具体流程如何?在一堆算法里选择一个?
  2. 能否学习算法和学习动作相结合?

🗺参考文献

[1] Rocha Tavares A, Anbalagan S, Soriano Marcolino L, et al. Algorithms or actions?: A study in large-scale reinforcement learning[C]. International Joint Conferences on Artificial Intelligence, 2018.

  • 标题: 【论文】略读笔记16-经典-大规模强化学习
  • 作者: Fre5h1nd
  • 创建于 : 2023-10-31 22:53:20
  • 更新于 : 2024-03-08 15:35:11
  • 链接: https://freshwlnd.github.io/2023/10/31/literature/literatureNotes16/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论