Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning

Created by
  • Haebom

저자

Hyungkyu Kang, Min-hwan Oh

개요

본 논문은 오프라인 선호도 기반 강화 학습(PbRL)에 대해 연구합니다. 기존 오프라인 PbRL은 경험적으로 성공적인 결과를 보였지만, 불확실성 하에서 보수적인 접근을 보장하는 기존 이론적 접근 방식은 계산적으로 다루기 어려운 신뢰 집합 구성에 어려움을 겪습니다. 본 논문에서는 명시적인 신뢰 집합에 의존하지 않고 표본 복잡도 경계를 보장하는 계산적으로 효율적인 오프라인 PbRL 알고리즘인 적대적 선호도 기반 정책 최적화(APPO)를 제안합니다. 정책과 모델 간의 2인 게임으로 PbRL을 구성하여 다루기 쉬운 방식으로 보수성을 강화합니다. 함수 근사와 경계된 궤적 집중성에 대한 표준 가정을 사용하여 표본 복잡도 경계를 유도합니다. APPO는 통계적 효율성과 실용성을 모두 제공하는 최초의 오프라인 PbRL 알고리즘입니다. 연속 제어 작업에 대한 실험 결과는 APPO가 복잡한 데이터 세트에서 효과적으로 학습하고 기존 최첨단 방법과 비슷한 성능을 보임을 보여줍니다.

시사점, 한계점

시사점:
계산적으로 효율적인 오프라인 PbRL 알고리즘 APPO를 제시하여, 기존 방법의 계산 복잡성 문제를 해결.
명시적인 신뢰 집합 없이 표본 복잡도 경계를 보장하는 이론적 보장 제공.
연속 제어 작업에서 기존 최첨단 방법과 비교 가능한 성능을 달성.
통계적 효율성과 실용성을 동시에 만족하는 최초의 오프라인 PbRL 알고리즘.
한계점:
제안된 알고리즘의 성능이 특정 가정(함수 근사, 경계된 궤적 집중성)에 의존적일 수 있음.
실험 결과는 제한된 연속 제어 작업에 국한되어 일반화 가능성에 대한 추가 연구 필요.
다양한 선호도 피드백 형태에 대한 적용 가능성 및 일반화 성능에 대한 추가 연구 필요.
👍