본 논문은 기존의 보상 가설을 기대 효용 이론의 관점에서 재정립하고, 보상을 효용으로 해석하는 연구를 바탕으로 합니다. Hausner의 연구에서 연속성 공리를 제거하면 효용이 임의 차원의 사전 순서 벡터로 표현되는 기대 효용 이론의 일반화가 가능함을 보였습니다. 본 논문은 이를 확장하여 단일 스칼라 보상으로는 선호도를 나타낼 수 없는 간단하고 실용적인 조건을 제시하고, 2차원 보상 함수가 필요함을 밝힙니다. 기억없음(memorylessness) 가정 하에 마르코프 의사결정 과정(MDP)에서 이러한 2차원 및 일반적인 d차원 보상 함수를 완전히 특징짓습니다. 또한, 이러한 설정에서 최적 정책이 스칼라 보상의 경우와 유사한 많은 바람직한 특성을 유지하지만, 제약된 MDP(CMDP) 설정에서는 그렇지 않다는 것을 보여줍니다.