본 논문은 강화 학습 프레임워크 내에서 제한된 합리적 의사결정 모델링을 위한 새로운 접근 방식을 제시합니다. 기존의 엔트로피, Kullback-Leibler divergence, 상호 정보량 기반 접근 방식은 서수적 행동 공간을 다룰 때 문제점을 가지는데, 특히 엔트로피는 균일한 사전 확률을 가정하고, KL-Divergence는 행동 간의 "근접성" 개념이 없으며 비대칭적이고 분포의 지지 집합이 동일해야 하는 등의 문제점이 있습니다. 상호 정보량은 추정이 어렵다는 단점도 있습니다. 본 논문에서는 Wasserstein 거리를 활용하여 이러한 문제점들을 해결하는 새로운 접근 방식을 제안합니다. 이 방법은 서수적 행동의 근접성을 고려하여 에이전트 결정의 "점착성"을 모델링하고, 멀리 떨어진 행동으로의 빠른 전환을 불가능하게 하며, 낮은 확률의 행동과 영 지지 집합 사전 분포를 지원하고 계산이 간단합니다.