本文提出了一个用于马尔可夫决策过程 (MDP) 的状态表示框架,该框架可以仅从状态轨迹中学习,而无需奖励信号或代理动作。我们提出学习最小动作距离 (MAD),即状态间转换所需的最小动作数量,作为理解环境底层结构的基本指标。MAD 支持目标条件强化学习和奖励形成等下游任务,并提供一个密集且具有几何意义的进度度量。我们的自监督学习方法构建了一个嵌入空间,其中嵌入状态对之间的距离对应于 MAD,从而适应对称和非对称近似。我们在已知 MAD 值的多种环境中评估了该框架,包括确定性和随机动力学、离散和连续状态空间以及具有噪声观测的环境。实验结果表明,该方法能够在这些不同的环境中有效地学习准确的 MAD 表示,并且在表示质量方面显著优于现有的状态表示方法。