Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Alexander W. Goodall, Edwin Hamel-De le Court, Francesco Belardinelli

개요

강화 학습 알고리즘, 특히 정책 개선을 위해 반환 추정치에 의존하는 알고리즘은 높은 분산의 반환 추정치로 인해 샘플 효율성이 낮고 훈련 불안정성을 겪을 수 있다. 본 논문에서는 오프-정책 평가의 새로운 결과를 활용한다. 잘 설계된 행동 정책을 사용하여 입증 가능한 낮은 분산의 반환 추정치를 위한 오프-정책 데이터를 수집할 수 있음이 최근에 밝혀졌다. 이 결과는 온-정책 데이터 수집이 분산 최적이 아니라는 것을 의미하므로 놀랍다. 우리는 이러한 핵심적인 통찰력을 정책 평가와 개선이 교차되어 최적의 정책을 학습하는 온라인 강화 학습 설정으로 확장한다. 오프-정책 RL(예: IMPALA)은 적절한 편향 제거 및 분산 관리를 위해 올바른 절단된 중요도 가중 샘플을 사용하여 잘 연구되었다. 일반적으로 이러한 접근 방식은 여러 작업자로부터 수집된 데이터를 병렬로 조정하는 데 중점을 두며, 정책이 비동기적으로 업데이트될 때 작업자와 정책 간의 불일치는 수학적으로 올바른 방식으로 수정된다. 여기서는 한 명의 작업자(행동 정책)만을 고려하며, 이 정책은 입증 가능한 낮은 분산의 반환 추정치를 사용하여 정책 개선을 위한 데이터를 수집하는 데 사용된다. 실험에서 우리는 이 체제를 사용하여 두 가지 정책 기울기 방법을 확장하여 다양한 환경에서 더 나은 샘플 효율성과 성능을 입증한다.

시사점, 한계점

오프-정책 데이터를 사용하여 강화 학습의 샘플 효율성을 개선할 수 있다.
낮은 분산의 반환 추정치를 통해 훈련 안정성을 향상시킬 수 있다.
온라인 강화 학습 설정에서 오프-정책 학습을 효과적으로 적용할 수 있다.
두 가지 정책 기울기 방법을 통해 성능 향상을 확인했다.
단일 작업자 환경에 초점을 맞추어, 여러 작업자 환경에서의 확장에 대한 연구는 필요하다.
👍