每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

学习最小作用距离

Created by
  • Haebom

作者

洛伦佐·斯特卡内拉、约书亚·B·埃文斯、奥兹格·乌尔\c{S}im\c{s}ek、安德斯·琼森

大纲

本文提出了一个用于马尔可夫决策过程 (MDP) 的状态表示框架,该框架可以仅从状态轨迹中学习,而无需奖励信号或代理动作。我们提出学习最小动作距离 (MAD),即状态间转换所需的最小动作数量,作为理解环境底层结构的基本指标。MAD 支持目标条件强化学习和奖励形成等下游任务,并提供一个密集且具有几何意义的进度度量。我们的自监督学习方法构建了一个嵌入空间,其中嵌入状态对之间的距离对应于 MAD,从而适应对称和非对称近似。我们在已知 MAD 值的多种环境中评估了该框架,包括确定性和随机动力学、离散和连续状态空间以及具有噪声观测的环境。实验结果表明,该方法能够在这些不同的环境中有效地学习准确的 MAD 表示,并且在表示质量方面显著优于现有的状态表示方法。

Takeaways,Limitations

Takeaways:
我们提出了一种新颖的状态表示框架,该框架能够仅从状态轨迹中学习,而无需奖励信号或代理动作。
介绍并学习MAD(最小动作距离)的概念,这是理解MDP环境结构的重要指标。
可用于目标条件强化学习和奖励形成等下游任务。
在各种环境(确定性、概率性、离散性、连续性和噪声观测)中表现出优异的性能
Limitations:
论文中没有具体提及Limitations。
👍