Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Look Before Leap: Look-Ahead Planning with Uncertainty in Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Yongshuai Liu, Xin Liu

개요

모델 기반 강화 학습(MBRL)은 모델 자유 강화 학습(MFRL)에 비해 우수한 샘플 효율성을 보여주지만, 부정확한 모델은 정책 학습 중 편향을 초래하여 잘못된 궤적을 생성할 수 있습니다. 특히 방문 횟수가 적은 영역(불확실한 영역)에서 제한된 다양한 훈련 데이터로 인해 정확한 모델을 얻는 것이 어렵습니다. 기존 접근 방식은 샘플 생성 후 수동적으로 불확실성을 정량화하여 상태 적용 범위를 개선하고 모델 정확도를 향상시킬 수 있는 불확실한 샘플을 적극적으로 수집하지 못합니다. 또한 MBRL은 정확한 다단계 예측을 하는 데 어려움을 겪어 전반적인 성능에 영향을 미칩니다. 본 논문에서는 모델 기반 탐색적 계획을 사용한 불확실성 인식 정책 최적화를 위한 새로운 프레임워크를 제안합니다. 모델 기반 계획 단계에서 불확실성 인식 k-단계 선행 계획 접근 방식을 도입하여 각 단계에서 행동 선택을 안내합니다. 이 과정에는 모델 불확실성과 가치 함수 근사 오류 간의 절충 분석이 포함되어 정책 성능을 효과적으로 향상시킵니다. 정책 최적화 단계에서 불확실성 기반 탐색적 정책을 활용하여 다양한 훈련 샘플을 적극적으로 수집하여 모델 정확도와 RL 에이전트의 전반적인 성능을 향상시킵니다. 본 연구의 접근 방식은 다양한 상태/행동 공간과 보상 구조를 가진 작업에 유연성과 적용 가능성을 제공합니다. 어려운 로봇 조작 작업과 Atari 게임에 대한 실험을 통해 그 효과를 검증하여 상호 작용 횟수를 줄이고 최첨단 방법을 능가하여 성능을 크게 향상시켰습니다.

시사점, 한계점

시사점:
모델 기반 강화학습의 샘플 효율성 향상을 위한 새로운 프레임워크 제시
불확실성 인식 k-단계 선행 계획 및 불확실성 기반 탐색적 정책을 통한 성능 개선
다양한 작업 환경에서의 유연성과 적용 가능성 증명
로봇 조작 및 Atari 게임에서 최첨단 성능 달성
한계점:
제안된 프레임워크의 일반화 성능에 대한 추가적인 연구 필요
고차원 상태 공간 및 복잡한 작업 환경에서의 확장성 평가 필요
k-step lookahead planning의 k 값 설정에 대한 최적화 전략 연구 필요
모델 불확실성과 가치 함수 근사 오류 간의 최적 절충점 도출에 대한 추가 연구 필요
👍