相关文章推荐

Article

文献题目:Decision Transformer: Reinforcement Learning via Sequence Modeling
文献时间:2021

  • 我们引入了一个将强化学习(RL)抽象为序列建模问题的框架。 这使我们能够利用 Transformer 架构的简单性和可扩展性,以及 GPT-x 和 BERT 等语言建模的相关进步。 特别是,我们提出了决策转换器,一种将 RL 问题转换为条件序列建模的架构。 与先前的强化学习方法拟合值函数或计算策略梯度不同,Decision Transformer 只是通过利用因果屏蔽的 Transformer 来输出最佳动作。 通过对期望回报(奖励)、过去状态和行动的自回归模型进行调节,我们的决策转换器模型可以生成实现期望回报的未来行动。 尽管它很简单,但 Decision Transformer 在 Atari、OpenAI Gym 和 Key-to-Door 任务上的性能匹配或超过了最先进的无模型离线 RL 基线。

离线强化学习

  • 我们考虑在元组 t 处返回的轨迹 $R_t = PT t 0=t rt 0
    是该时间步未来奖励的总和。 强化学习的目标是学习最大化 MDP 中的期望回报 E hPT t=1 rt i
    的策略。 在离线强化学习中,我们只能访问一些固定的有限数据集,这些数据集由任意策略的轨迹滚动组成,而不是通过环境交互来获取数据。 此设置更难,因为它消除了代理探索环境和收集额外反馈的能力。

Transformer

  • Vaswani 等人 [1] 提出了 Transformer 作为一种有效建模顺序数据的架构。 这些模型由带有残差连接的堆叠自注意力层组成。 每个自注意力层接收与唯一输入标记对应的 j [ 1 , i ] )。 我们将其他架构细节推迟到原始论文中。
  • 在本节中,我们介绍了决策Transformer,它在对Transformer架构进行最小修改的情况下对轨迹进行自回归建模,如图 1 和算法 1 所示。
    在这里插入图片描述
  • 轨迹表示 。 我们选择轨迹表示的关键要求是它应该使Transformer能够学习有意义的模式,并且我们应该能够在测试时有条件地生成动作。 对奖励进行建模并非易事, 因为我们希望模型根据未来期望的回报而不是过去的奖励来生成行动。 因此,我们不是直接提供奖励,而是为模型提供收益 Rbt = PT t 0=t rt 0
    。 这导致以下轨迹表示可以进行自回归训练和生成: 在这里插入图片描述
  • 在测试时,我们可以指定所需的性能(例如 1 表示成功或 0 表示失败)以及环境起始状态,作为启动生成的条件信息。 在为当前状态执行生成的动作后,我们将目标回报减少获得的奖励并重复直到情节终止。
  • 架构 。 我们将最后的 s t 的预测头被训练来预测——离散动作的交叉熵损失或连续动作的均方误差——和平均每个时间步的损失。 我们并没有发现预测状态或收益来提高性能,尽管在我们的框架内很容易允许(如第 5.4 节所示)并且对于未来的工作来说这将是一项有趣的研究。

离线强化学习基准评估

  • 在本节中,我们研究了 Decision Transformer 相对于专用离线 RL 和模仿学习算法的性能。 特别是,我们的主要比较点是基于 TD 学习的无模型离线 RL 算法,因为我们的决策转换器架构本质上也是无模型的。 此外,TD-learning 是 RL 中用于提高样本效率的主要范例,并且在许多基于模型的 RL 算法中作为子程序具有突出的特点 [16, 17]。 我们还与行为克隆和变体进行了比较,因为它还涉及类似于我们的基于可能性的策略学习公式。 确切的算法取决于环境,但我们的动机如下:
    • TD 学习 :这些方法中的大多数使用动作空间约束或价值悲观主义,将是与决策Transformer最忠实的比较,代表标准 RL 方法。 一种最先进的无模型方法是保守 Q 学习(CQL)[14],作为我们的主要比较。 此外,我们还与其他先前的无模型强化学习算法(如 BEAR [18] 和 BRAC [19])进行了比较。
    • 模仿学习 :该机制同样使用监督损失进行训练,而不是贝尔曼备份。 我们在这里使用行为克隆,并在第 5.1 节中包含更详细的讨论。
  • 我们评估离散(Atari [10])和连续(OpenAI Gym [11])控制任务。 前者涉及高维观察空间,需要长期的学分分配,而后者需要细粒度的连续控制,代表着多样化的任务集。 我们的主要结果总结在图 3 中,其中我们显示了每个域的平均归一化性能。
    在这里插入图片描述
  • 图 3:Decision Transformer(我们的)与 TD 学习(CQL)以及 Atari、OpenAI Gym 和 Minigrid 的行为克隆的比较结果。 在各种任务上,Decision Transformer 的性能与传统方法相当或更好。 性能是通过标准化来衡量的
    剧集回归(详见正文)。

Atari

  • Atari 基准测试 [10] 具有挑战性,因为它的高维视觉输入以及由于动作和结果奖励之间的延迟而导致的信用分配困难。 根据 Agarwal 等人,我们在 DQN-replay 数据集中所有样本的 1% 上评估我们的方法。 [13],代表在线 DQN 代理 [20] 在训练期间观察到的 5000 万次转换中的 50 万次; 我们报告了 3 颗种子的平均值和标准差。 我们根据 Hafner 等人 [21] 的协议,根据职业玩家的分数对分数进行归一化,其中 100 代表职业玩家分数,0 代表随机策略。
  • 我们在 Agarwal 等人评估的四个 Atari 任务(Breakout、Qbert、Pong 和 Seaquest)上与 CQL [14]、REM [13] 和 QR-DQN [22] 进行比较。 [13]。 我们对 Decision Transformer 使用$ K = 30$ 的上下文长度(Pong 的 K = 50 除外)。 我们还报告了行为克隆 (BC) 的性能,它使用与决策Transformer相同的网络架构和超参数,但没有返回条件。 对于 CQL、REM 和 QR-DQN 基线,我们直接从 CQL 和 REM 论文中报告数字。 我们在表 1 中显示了结果。我们的方法在 4 场比赛中有 3 场与 CQL 具有竞争力,并且在所有 4 场比赛中都优于或匹配 REM、QR-DQN 和 BC。
  • 我们还尝试像之前的工作一样使用 K = 1 的 MLP,但发现这比变压器更差。
    在这里插入图片描述
  • 表 1:1% DQN-replay Atari 数据集的玩家标准化分数。 我们报告了 3 个种子的均值和方差。 最佳平均分数以粗体突出显示。 决策Transformer (DT) 在 4 款游戏中的 3 款游戏中表现与 CQL 相当,并且在大多数游戏中优于其他基线。

OpenAI Gym

  • 在本节中,我们考虑 D4RL 基准 [23] 中的连续控制任务。 我们还考虑了一个不属于基准测试的 2D 到达器环境,并使用与 D4RL 基准测试类似的方法生成数据集。 Reacher 是一个以目标为条件的任务,奖励稀少,因此它代表了与标准运动环境(HalfCheetah、Hopper 和 Walker)不同的设置。 不同的数据集设置如下所述。
  1. 中等:由“中等”策略生成的 100 万个时间步长,达到专家策略分数的大约三分之一。
  2. Medium-Replay:被训练以执行中等策略的代理的重播缓冲区(在我们的环境中大约 25k-400k 时间步长)。
  3. Medium-Expert:中等策略生成的 100 万个时间步长与专家策略生成的 100 万个时间步长相连接。
  • 我们与 CQL [14]、BEAR [18]、BRAC [19] 和 AWR [24] 进行比较。 CQL 代表了无模型离线 RL 的最新技术,这是 TD 学习的一个实例,具有价值悲观主义。 根据 Fu 等人的说法,分数被归一化,因此 100 代表专家策略。 [23]。 CQL 数字是从原始论文中报告的; BC 号码由我们管理; 其他方法是从 D4RL 论文中报道的。 我们的结果如表 2 所示。Decision Transformer 在大多数任务中取得了最高分,并且在其余任务中与最先进的技术相媲美。
    在这里插入图片描述
  • 表 2:D4RL 数据集的结果。 我们报告了三个种子的均值和方差。 决策转换器 (DT) 在几乎所有任务上都优于传统的 RL 算法。
  • 鉴于 CQL 通常是最强的 TD 学习方法,对于 Reacher,我们只运行 CQL 基线。

决策Transformer是否对数据子集执行行为克隆?

  • 在本节中,我们试图深入了解 Decision Transformer 是否可以被认为是对具有一定回报的数据子集执行模仿学习 。 为了研究这一点,我们提出了一种新方法,百分位行为克隆 (%BC),我们仅在数据集中前 X% 的时间步长上运行行为克隆,按情节返回排序。 百分位数 X% 在对整个数据集进行训练的标准 BC (X = 100%) 和仅克隆最佳观察轨迹 (X → 0%) 之间进行插值,在通过训练更多数据来更好地泛化与训练专注于所需数据子集的专用模型之间进行权衡。

…(未完)

Article文献题目:Decision Transformer: Reinforcement Learning via Sequence Modeling文献时间:2021摘要我们引入了一个将强化学习(RL)抽象为序列建模问题的框架。 这使我们能够利用 Transformer 架构的简单性和可扩展性,以及 GPT-x 和 BERT 等语言建模的相关进步。 特别是,我们提出了决策转换器,一种将 RL 问题转换为条件序列建模的架构。 与先前的强化学习方法拟合值函数或计算策略梯度不同,Decision 无聊时看群聊发现在半年前2021年7月左右新出了一个方法,叫做de cisio n transform er 。一直以来都是对attention机制大家族保持着崇高的敬意,于是找到了这篇文章看了一下。看完之后感觉并不是很惊喜,也可能是期待太高。文章核心做的工作是给出了一种新的深度 强化学习 训练模式,使得能够更加‘端对端’地去用 transform er 大家族去拟合和训练。截止2022年1月22日,这篇文章在谷歌学术上有了50次引用(半年多)。 论文 原文:De cisio n Transform er : Reinfor
这里写自定义目录标题 强化学习 记录(一)1. 强化学习 初步理解2. 强化学习 建模 3. 强化学习 的简单实例 强化学习 记录(一) 参考:https://blog.csdn.net/App_12062011/article/details/92075589 1. 强化学习 初步理解 强化学习 是在实践中学习的过程,比如学习走路的过程,如果摔倒了则大脑会给予我们一个负的反馈值,我们从失败中获得知识,重新学习,如果后面走...
 
推荐文章