Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Imagination-Limited Q-Learning for Offline Reinforcement Learning

Created by
  • Haebom

저자

Wenhui Liu, Zhijian Wu, Jingchao Wang, Dingjiang Huang, Shuigeng Zhou

개요

오프라인 강화학습은 기존 데이터만으로 정책을 개선하는 것을 목표로 하지만, 분포 외(OOD) 행동에 대해 과도하게 낙관적인 가치 추정치를 산출하는 어려움을 겪는다. 일반적으로 정책 제약이나 보수적인 가치 규제 방법을 통해 이 문제를 완화하지만, 이러한 접근 방식은 과도한 제약이나 편향된 가치 추정치를 초래하여 성능 향상을 제한할 수 있다. 본 논문에서는 탐험과 제한 사이의 균형을 맞추기 위해, OOD 행동이 가져야 할 낙관성을 적절한 범위 내에서 유지하는 것을 목표로 하는 Imagination-Limited Q-learning (ILQ) 방법을 제안한다. 구체적으로, 역동 모델을 이용하여 OOD 행동 가치를 상상하고, 상상된 가치를 최대 행동 가치로 클리핑한다. 이러한 설계는 과도한 낙관성을 피하면서 OOD 행동에 대한 합리적인 평가를 최대한 유지한다. 이론적으로 표 형태 마르코프 의사결정 과정에서 제안된 ILQ의 수렴성을 증명한다. 특히, 추정된 값과 OOD 상태-행동의 최적 값 사이의 오차 경계가 분포 내 값과 같은 크기를 갖는다는 것을 보여줌으로써 가치 추정치의 편향이 효과적으로 완화됨을 나타낸다. 실험적으로, 제안된 방법은 D4RL 벤치마크의 광범위한 작업에서 최첨단 성능을 달성한다.

시사점, 한계점

시사점:
OOD 행동에 대한 과도한 낙관주의 문제를 효과적으로 해결하는 새로운 오프라인 강화학습 방법(ILQ)을 제시.
역동 모델을 활용하여 OOD 행동 가치를 추정하고 클리핑함으로써 탐험과 제한 사이의 균형을 유지.
이론적으로 ILQ의 수렴성을 증명하고, OOD 상태-행동에 대한 가치 추정치의 편향이 효과적으로 완화됨을 입증.
D4RL 벤치마크에서 최첨단 성능 달성.
한계점:
제안된 방법의 이론적 분석은 표 형태 마르코프 의사결정 과정에 국한됨. 실제 응용에는 더 복잡한 환경 고려 필요.
역동 모델의 정확도가 ILQ의 성능에 영향을 미칠 수 있음. 부정확한 역동 모델은 성능 저하를 야기할 수 있음.
D4RL 벤치마크 외 다른 환경에서의 성능 평가가 필요함.
👍