Sign In

Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction

Created by
  • Haebom
Category
Empty

저자

Baiting Luo, Ava Pettet, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay

개요

고차원 연속 행동 공간, 특히 확률적 환경에서의 순차적 의사결정은 상당한 계산상의 어려움을 안고 있다. 본 논문은 기존의 오프라인 강화학습 설정에서 확률적 행동 정책을 통해 수집된 데이터를 기반으로 의사결정 방법을 학습해야 하는 에이전트의 이러한 과제를 다룬다. 본 논문에서는 상태 조건부 벡터 양자화 변분 오토인코더(VQ-VAE)를 통해 시간적으로 확장된 매크로 행동 집합을 학습하여 행동 차원을 효과적으로 줄이는 잠재 매크로 행동 계획자(L-MAP)를 제시한다. L-MAP은 잠재 전이 모델 역할을 하는 (별도의) 학습된 사전 모델을 사용하여 타당한 행동을 효율적으로 샘플링한다. 계획하는 동안 본 접근 방식은 몬테카를로 트리 탐색(MCTS)을 사용하여 환경과 행동 정책 모두의 확률성을 고려한다. 확률적 연속 제어 작업을 포함한 오프라인 강화학습 설정에서 L-MAP은 이산 잠재 행동을 효율적으로 탐색하여 높은 기대 수익을 산출한다. 실험 결과는 L-MAP이 행동 차원이 증가함에도 불구하고 낮은 의사결정 지연 시간을 유지함을 보여준다. 특히, 본질적으로 확률적인 역학을 가진 연속 제어부터 고차원 로봇 손 조작에 이르는 다양한 작업에서 L-MAP은 기존의 모델 기반 방법보다 훨씬 우수한 성능을 보이며 강력한 모델 없는 행위자-비평가 기준과 동등한 수준의 성능을 보여 고차원 행동 공간을 가진 복잡하고 확률적인 환경에서의 계획에서 제안된 접근 방식의 효과를 강조한다.

시사점, 한계점

시사점:
고차원 연속 행동 공간에서의 확률적 환경에서 효율적인 의사결정을 위한 새로운 방법 제시 (L-MAP).
VQ-VAE와 MCTS를 결합하여 행동 차원 축소 및 효율적인 계획 수행.
모델 기반 방법 대비 우수한 성능 및 모델 없는 방법과 유사한 성능 달성.
다양한 복잡한 작업(연속 제어, 로봇 손 조작 등)에서 효과성 입증.
낮은 의사결정 지연 시간 유지.
한계점:
사전 모델 학습에 대한 자세한 설명 부족.
VQ-VAE의 매개변수 설정 및 최적화에 대한 논의 부족.
특정 작업에 대한 과적합 가능성.
대규모 작업으로 확장성에 대한 추가 연구 필요.
실제 환경에서의 실험 결과 부족.
👍