본 논문은 오프라인 선호도 기반 강화 학습(PbRL)에 대해 연구합니다. 기존 오프라인 PbRL은 경험적으로 성공적인 결과를 보였지만, 불확실성 하에서 보수적인 접근을 보장하는 기존 이론적 접근 방식은 계산적으로 다루기 어려운 신뢰 집합 구성에 어려움을 겪습니다. 본 논문에서는 명시적인 신뢰 집합에 의존하지 않고 표본 복잡도 경계를 보장하는 계산적으로 효율적인 오프라인 PbRL 알고리즘인 적대적 선호도 기반 정책 최적화(APPO)를 제안합니다. 정책과 모델 간의 2인 게임으로 PbRL을 구성하여 다루기 쉬운 방식으로 보수성을 강화합니다. 함수 근사와 경계된 궤적 집중성에 대한 표준 가정을 사용하여 표본 복잡도 경계를 유도합니다. APPO는 통계적 효율성과 실용성을 모두 제공하는 최초의 오프라인 PbRL 알고리즘입니다. 연속 제어 작업에 대한 실험 결과는 APPO가 복잡한 데이터 세트에서 효과적으로 학습하고 기존 최첨단 방법과 비슷한 성능을 보임을 보여줍니다.