본 논문은 오프라인 강화학습(RL)에서 정책 제약 방법을 활용하여 최적 정책을 학습하는 새로운 알고리즘인 BPR(Behavior Preference Regression)을 제안합니다. 기존의 정책 제약 방법들은 복잡한 분할 함수 계산이 필요하지만, BPR은 paired comparison 접근 방식을 채택하여 Q 함수의 최대 모드를 적합시키면서 정책 행동의 일관성을 극대화합니다. 이는 행동 정책과의 편차를 최소화하면서 보상을 극대화하는 최적화 문제로 공식화됩니다. D4RL Locomotion, Antmaze, 그리고 V-D4RL 데이터셋에서의 실험 결과, BPR은 기존 최고 성능을 뛰어넘는 결과를 보였으며, 온-폴리시 실험에서도 안정적인 성능을 유지했습니다.