Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Role of Environment Access in Agnostic Reinforcement Learning

Created by
  • Haebom

저자

Akshay Krishnamurthy, Gene Li, Ayush Sekhari

개요

본 논문은 함수 근사가 필요한 큰 상태 공간을 가진 환경에서 강화 학습(RL)을 연구합니다. 기존 연구와 달리, 학습자가 주어진 클래스 Π 내에서 최적의 정책을 찾지만, Π가 기저 작업에 대한 최적 정책을 포함한다는 보장이 없는, 가능한 가장 약한 형태의 함수 근사인 불가지론적 정책 학습을 고려합니다. 표준 온라인 RL 설정에서 추가적인 가정 없이는 표본 효율적인 불가지론적 정책 학습이 불가능하다는 것이 알려져 있지만, 환경에 대한 더 강력한 접근 방식으로 이를 어느 정도 극복할 수 있는지 조사합니다. 구체적으로, 1. 이전에 방문한 모든 상태로 재설정할 수 있는 로컬 시뮬레이터에 접근할 수 있는 경우에도 불가지론적 정책 학습은 통계적으로 다루기 어렵다는 것을 보여줍니다. 이 결과는 정책 클래스가 실현 가능한 경우에도 성립하며, 실현 가능성 하에서 가치 기반 학습이 로컬 시뮬레이터 접근 방식으로 다루기 쉽다는 [MFR24]의 긍정적인 결과와 대조됩니다. 2. 상태 공간에 대한 우수한 적용 범위 속성을 가진 재설정 분포에 대한 온라인 접근(소위 μ-재설정 설정)이 주어진 경우에도 불가지론적 정책 학습은 통계적으로 다루기 어렵습니다. 또한 정책 학습을 위한 더 강력한 형태의 함수 근사를 연구하여 PSDP [BKSN03]와 CPI [KL02]가 정책 완전성이 없는 경우 증명할 수 없이 실패함을 보여줍니다. 3. 긍정적인 측면으로, 위의 두 가지 재설정 모델에 모두 접근할 수 있는 블록 MDP의 경우 불가지론적 정책 학습은 통계적으로 다루기 쉽습니다. 이는 모든 정책 π ∈ Π의 값 함수를 근사하는 작은 상태 공간을 가진 표 형식 MDP인 정책 에뮬레이터를 신중하게 구성하는 새로운 알고리즘을 통해 확립합니다. 이러한 값은 명시적인 값 함수 클래스 없이 근사됩니다.

시사점, 한계점

시사점: 블록 MDP에서 로컬 시뮬레이터 및 μ-재설정 설정에 대한 접근 방식을 통해 불가지론적 정책 학습의 통계적 처리 가능성을 보여줌으로써, 제한된 환경에서의 강화 학습 가능성을 제시합니다. 새로운 정책 에뮬레이터 알고리즘을 통해 효율적인 학습을 위한 새로운 접근 방식을 제안합니다.
한계점: 로컬 시뮬레이터 또는 μ-재설정 설정만으로는 일반적인 환경에서 불가지론적 정책 학습이 통계적으로 다루기 어렵다는 것을 보여줍니다. PSDP와 CPI 알고리즘이 정책 완전성 없이는 실패한다는 것을 보임으로써 기존 알고리즘의 한계를 지적합니다. 블록 MDP에 대한 결과는 특정 환경에 국한되어 일반적인 환경으로의 확장성에 대한 추가 연구가 필요합니다. 정책 에뮬레이터의 성능은 에뮬레이션의 정확도에 의존하며, 이는 추가적인 연구가 필요한 부분입니다.
👍