본 논문은 강화 학습 프레임워크 내에서 제한된 합리적 의사결정 모델링을 위한 새로운 접근 방식을 제시합니다. 기존의 엔트로피, Kullback-Leibler divergence, 상호 정보량 기반 접근 방식은 서열적 행동 공간에서 여러 문제점을 가지고 있는데, 특히 엔트로피는 사전 편향의 영향을 고려하지 못하고, KL-Divergence는 행동 간의 "근접성" 개념이 없으며 비대칭적이고 분포의 지지 집합이 동일해야 하는 등의 한계를 지닙니다. 상호 정보량은 추정이 어렵다는 단점도 있습니다. 본 논문에서는 Wasserstein 거리를 활용하여 이러한 문제점들을 극복하는 새로운 접근 방식을 제안합니다. 이 접근 방식은 서열적 행동 간의 근접성을 고려하여 에이전트 결정의 "점착성"을 모델링하고, 낮은 확률의 행동과 0 지지 집합 사전 분포를 지원하며 계산이 간편합니다.