본 논문은 강화학습 에이전트의 성능이 보상 함수의 질에 크게 의존하지만, 적절한 보상 함수 설계의 어려움과 정확성 평가의 어려움을 지적합니다. 이에 본 논문은 보상 정렬(reward alignment)에 초점을 맞춰, 인간 사용자의 선호도를 보상 함수가 얼마나 정확하게 반영하는지 평가하는 방법을 제시합니다. 구체적으로, 인간 사용자의 궤적 분포 순위와 주어진 보상 함수에 의해 유도된 궤적 분포 순위 간의 유사성을 정량화하는 궤적 정렬 계수(Trajectory Alignment Coefficient)를 도입합니다. 이 계수는 기준 보상 함수 접근 없이도 사용 가능하며, 잠재력 기반 보상 조정(potential-based reward shaping)에 불변이고, 온라인 강화학습에도 적용 가능하다는 것을 보입니다. 11명의 강화학습 전문가를 대상으로 한 사용자 연구를 통해 궤적 정렬 계수를 사용하면 보상 함수 선택 성공률이 41% 증가하고, 인지적 부하가 1.5배 감소하며, 사용자 만족도가 82%에 달한다는 것을 실험적으로 확인합니다.