본 논문은 확률적 환경에서 목표 달성을 위한 계획, 제어, 강화 학습 알고리즘의 핵심인 시간적 거리에 대해 다룹니다. 기존의 확률적 환경에서의 시간적 거리 정의는 삼각 부등식을 만족하지 못하는 한계를 가지고 있었는데, 이는 일반화 및 최단 경로 탐색의 어려움으로 이어졌습니다. 본 논문은 대조 학습과 준거리 개념을 기반으로, 변수 변환 후 대조 학습으로 학습된 후속 특징이 확률적 환경에서도 삼각 부등식을 만족하는 시간적 거리를 형성함을 보입니다. 특히, 이 시간적 거리는 고차원 확률적 환경에서도 효율적으로 계산 가능합니다. 제어된 환경 및 벤치마크 실험을 통해, 이 새로운 시간적 거리 기반 강화 학습 알고리즘이 조합적 일반화(stitching)를 보이고 기존 방법들보다 빠른 학습 속도를 보이는 경우가 있음을 보여줍니다.