📖《Algorithms or Actions? A Study in Large-Scale Reinforcement Learning》

🎯需求

大型状态和动作空间对于强化学习非常具有挑战性。
- 强化学习旨在开发通用智能体，它通过直接作用于问题动作空间来学习。然而，随着状态和动作空间变大，学习代理很难获得高性能。
但是，在许多领域中，有一组可用的算法，用于估计给定状态（state）的最佳动作（action）。
- 许多领域都有针对特定问题量身定制的现有算法，并且代理可以依赖算法池来代表其行事。
因此，智能体可以直接学习从状态到操作（from states to actions）或从状态到算法（from states to algorithm）的性能最大化映射。
- 然而，考虑到有限的计算资源，存在一个重要的冲突：我们应该学习动作（learn over actions），训练强化学习代理以发现要采取的最佳动作，还是应该学习算法（learn over algorithms），尝试发现最佳算法来估计在每个状态下的最佳动作？

在这项工作中，
- 我们研究了这种困境的几个方面，显示了在有限数量的训练迭代中，学习算法优于动作（learning over algorithms to outperform over actions）的充分条件。
  - 评估可用算法是否有足够的强度，评估算法和动作集大小之间的关系，以及可能的底层算法创建过程。
- 我们提出了合成实验来进一步研究这些系统。合成实验进一步发展了我们的结论。
- 最后，我们提出了一种函数逼近方法，证明了在复杂领域（实时战略游戏）中学习算法的有效性。

我们的算法学习模型提供了由理论分析支持的新颖指南。综合实验表明，相对性能随着动作和算法集大小的增加而增加。我们还引入了一种函数逼近方法，用于学习 RTS 游戏中的算法，其性能显着优于最先进的基于搜索的玩家。合成实验和 RTS 实验的源代码分别位于：https://github.com/andertavares/syntheticmdps 和 https://github.com/SivaAnbalagan1/micrortsFA。