论文略读笔记20-经典-深度强化学习

论文略读笔记20-经典-深度强化学习

Fre5h1nd Lv4

📖《Deep Reinforcement Learning with Double Q-Learning》

🎯需求

  • 众所周知,流行的 Q 学习算法在某些条件下会高估动作值。
    • 强化学习的目标是通过优化累积的未来奖励信号来学习顺序决策问题的良好策略。
    • Q 学习(Watkins 1989)是最流行的强化学习算法之一,但众所周知,它有时会学习到不切实际的高动作值,因为它包含对估计动作值的最大化步骤,这往往更喜欢高估而不是低估的值。

🚧现状

  • 以前不知道在实践中这种高估是否普遍,它们是否会损害绩效,以及它们是否通常可以预防。
    • 在之前的工作中,高估被归因于不够灵活的函数逼近(Thrun and Schwartz 1993)和噪声(van Hasselt 2010,2011)。
      • 在本文中,我们统一了这些观点,并表明当动作值不准确时,无论近似误差的来源如何,都可能会发生高估。当然,不精确的价值估计是学习过程中的常态,这表明高估可能比以前意识到的更为常见。
    • 如果确实发生高估,是否会对实践中的表现产生负面影响,这是一个悬而未决的问题。过度乐观的价值估计本身并不一定是一个问题。如果所有值都一致较高,那么相对行动偏好就会被保留,我们不会期望最终的政策会变得更糟。此外,众所周知,有时保持乐观是有好处的:面对不确定性保持乐观是一种众所周知的探索技巧(Kaelbling et al. 1996)。然而,如果高估不统一并且不集中在我们希望了解更多信息的状态,那么它们可能会对最终政策的质量产生负面影响。 Thrun 和 Schwartz(1993)给出了具体的例子,其中这会导致次优的政策,甚至是渐近的。

🛩创新

  • 在本文中,我们肯定地回答了所有这些问题。
    • 特别是,我们首先表明,将Q学习与深度神经网络相结合的最新DQN算法在Atari 2600领域的某些游戏中遭受了严重的高估。
      • 为了测试在实践中和规模上是否出现高估,我们研究了最近的 DQN 算法的性能(Mnih 等人,2015)。 DQN 将 Q 学习与灵活的深度神经网络相结合,并在大量确定性 Atari 2600 游戏上进行了测试,在许多游戏中达到了人类水平的表现。在某些方面,这种设置是 Q 学习的最佳情况,因为深度神经网络提供了灵活的函数逼近,具有低渐近逼近误差的潜力,并且环境的确定性可以防止噪声的有害影响。也许令人惊讶的是,我们发现即使在这种相对有利的环境中,DQN 有时也会大大高估动作的价值。
    • 然后,我们表明,在表格设置中引入的双 Q 学习算法背后的思想可以推广到大规模函数逼近。我们提出了对DQN算法的特定调整,并表明所得到的算法不仅减少了观察到的高估,而且这也导致了在几场比赛中更好的性能。
      • 我们证明了首次在表格设置中提出的双 Q 学习算法(van Hasselt 2010)可以推广到任意函数逼近,包括深度神经网络。我们用它来构建一个名为 Double DQN 的新算法。该算法不仅可以产生更准确的价值估计,而且可以在多个游戏中获得更高的分数。这表明,高估 DQN 确实会导致政策较差,而减少 DQN 是有益的。此外,通过改进 DQN,我们在 Atari 领域获得了最先进的结果。
  • 本文有五个贡献。
    • 首先,我们展示了为什么 Q 学习在大规模问题中可能过于乐观,即使这些问题是确定性的,因为学习固有的估计误差。
    • 其次,通过分析雅达利游戏的价值估计,我们发现这些高估在实践中比之前承认的更为常见和严重。
    • 第三,我们已经证明,可以大规模使用双 Q 学习来成功减少这种过度乐观,从而实现更加稳定和可靠的学习。
    • 第四,我们提出了一种称为 Double DQN 的具体实现,它使用 DQN 算法的现有架构和深度神经网络,而不需要额外的网络或参数。
    • 最后,我们证明了 Double DQN 找到了更好的策略,在 Atari 2600 域上获得了最佳结果。

📊效果

  • 我们证明了 Double DQN 找到了更好的策略,在 Atari 2600 域上获得了最佳结果。

🧠疑问

  1. 强化学习的基础逻辑是什么?“累积的未来奖励信号(cumulative future reward signal)”是什么含义?
  2. 为什么会导致高估动作的奖励?具体过程如何?
  3. 对强化学习的细节了解太少,该从什么地方开始学习?比如从向他人介绍论文的角度介绍强化学习的逻辑?或先提出一个算法再在实践时学习


  • 希望这篇博客对你有帮助!如果你有任何问题或需要进一步的帮助,请随时提问。
  • 如果你喜欢这篇文章,欢迎动动小手 给我一个follow或star。

🗺参考文献

[1] Hado van Hasselt, Arthur Guez, and David Silver. 2016. Deep reinforcement learning with double Q-Learning. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence (AAAI’16). AAAI Press, 2094–2100.

  • 标题: 论文略读笔记20-经典-深度强化学习
  • 作者: Fre5h1nd
  • 创建于 : 2023-11-09 10:45:02
  • 更新于 : 2023-11-09 11:17:52
  • 链接: https://freshwlnd.github.io/2023/11/09/literature/literatureNotes20/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论