文献题目:Decision Transformer: Reinforcement Learning via Sequence Modeling
文献时间:2021
-
我们引入了一个将强化学习(RL)抽象为序列建模问题的框架。 这使我们能够利用 Transformer 架构的简单性和可扩展性,以及 GPT-x 和 BERT 等语言建模的相关进步。 特别是,我们提出了决策转换器,一种将 RL 问题转换为条件序列建模的架构。 与先前的强化学习方法拟合值函数或计算策略梯度不同,Decision Transformer 只是通过利用因果屏蔽的 Transformer 来输出最佳动作。 通过对期望回报(奖励)、过去状态和行动的自回归模型进行调节,我们的决策转换器模型可以生成实现期望回报的未来行动。 尽管它很简单,但 Decision Transformer 在 Atari、OpenAI Gym 和 Key-to-Door 任务上的性能匹配或超过了最先进的无模型离线 RL 基线。