Sign In

Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction

Created by
  • Haebom
Category
Empty

저자

Baiting Luo, Ava Pettet, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay

개요

고차원 연속 행동 공간, 특히 확률적 환경에서의 순차적 의사결정은 상당한 계산상의 어려움을 안고 있다. 본 논문은 기존의 오프라인 강화학습 설정에서 확률적 행동 정책을 통해 수집된 데이터를 기반으로 의사결정을 학습해야 하는 에이전트의 이러한 과제를 다룬다. 본 논문에서는 상태 조건부 벡터 양자화 변분 오토인코더(VQ-VAE)를 통해 시간적으로 확장된 매크로 행동 집합을 학습하여 행동 차원을 효과적으로 줄이는 잠재 매크로 행동 계획자(L-MAP)를 제시한다. L-MAP은 잠재 전이 모델 역할을 하는 별도의 학습된 사전 모델을 사용하여 타당한 행동을 효율적으로 샘플링한다. 계획 과정에서 본 논문의 접근 방식은 몬테카를로 트리 탐색(MCTS)을 사용하여 환경과 행동 정책 모두의 확률성을 고려한다. 오프라인 강화학습 설정에서, 확률적 연속 제어 작업을 포함하여 L-MAP은 이산 잠재 행동을 효율적으로 탐색하여 높은 기대 수익률을 생성한다. 실험 결과는 L-MAP이 행동 차원이 증가함에도 불구하고 낮은 의사결정 지연 시간을 유지함을 보여준다. 특히, 본질적으로 확률적인 역동성을 가진 연속 제어에서부터 고차원 로봇 손 조작에 이르기까지 다양한 작업에서 L-MAP은 기존의 모델 기반 방법보다 훨씬 우수한 성능을 보이며 강력한 모델 프리 액터-크리틱 기준과 동등한 성능을 발휘하여 복잡하고 확률적인 환경에서 고차원 행동 공간을 계획하는 데 제안된 접근 방식의 효과를 강조한다.

시사점, 한계점

시사점:
고차원 연속 행동 공간에서의 확률적 환경에서 효율적인 순차적 의사결정을 위한 새로운 방법(L-MAP) 제시.
VQ-VAE를 이용한 매크로 행동 학습을 통한 차원 축소 및 효율적인 계획 수행.
MCTS를 이용한 환경 및 행동 정책의 확률성 고려.
기존 모델 기반 방법 대비 우수한 성능 및 모델 프리 액터-크리틱 기준과의 동등한 성능 달성.
낮은 의사결정 지연 시간 유지.
한계점:
VQ-VAE의 성능에 대한 의존성. VQ-VAE의 성능이 L-MAP의 전반적인 성능에 영향을 미칠 수 있다.
MCTS의 계산 복잡도. 고차원 문제에서는 MCTS의 계산 비용이 증가할 수 있다.
사전 모델의 정확도에 대한 의존성. 사전 모델의 정확성이 낮을 경우 계획의 성능이 저하될 수 있다.
특정 작업에 대한 일반화 성능 평가 부족. 다양한 작업에 대한 일반화 성능을 추가적으로 평가할 필요가 있다.
👍