Sign In

Learnable Behavior Control: Breaking Atari Human World Records via Sample-Efficient Behavior Selection

Created by
  • Haebom
Category
Empty

저자

Jiajun Fan, Yuzheng Zhuang, Yuecheng Liu, Jianye Hao, Bin Wang, Jiangcheng Zhu, Hao Wang, Shu-Tao Xia

개요

심층 강화 학습(RL)의 주요 과제 중 하나인 탐험 문제를 해결하기 위해, 본 논문은 다양한 탐험 정책 집단에서 얻은 다양한 행동을 사용하여 샘플을 수집하는 인구 기반 방법론에 주목한다. 행동 제어를 위해 적응형 정책 선택이 사용되었지만, 사전 정의된 정책 집단에 의해 행동 선택 공간이 제한되어 행동 다양성을 제한하는 문제점을 지적한다. 이를 해결하기 위해 본 논문은 LBC(Learnable Behavioral Control)라는 일반적인 프레임워크를 제안한다. LBC는 (a) 모든 정책에서 하이브리드 행동 매핑을 공식화하여 행동 선택 공간을 크게 확장하고, (b) 행동 선택을 위한 통합 가능한 학습 프로세스를 구축한다. LBC를 분산 오프-정책 액터-크리틱 방법에 도입하여 밴딧 기반 메타 컨트롤러를 통해 행동 매핑 선택을 최적화하여 행동 제어를 수행한다. 제안된 에이전트는 Arcade Learning Environment에서 10077.52%의 평균 인간 정규화 점수를 달성하고 10억 프레임의 훈련 내에서 24개의 인간 세계 기록을 경신하여 샘플 효율성을 저하시키지 않으면서 뛰어난 성능을 입증했다.

시사점, 한계점

시사점:
제한된 정책 집단으로 인한 행동 다양성 부족 문제를 해결하기 위해 하이브리드 행동 매핑을 통해 행동 선택 공간을 확장하는 LBC 프레임워크 제안.
밴딧 기반 메타 컨트롤러를 활용하여 행동 매핑 선택을 학습하는 통합된 행동 제어 프로세스 구축.
Arcade Learning Environment에서 SOTA 성능 달성 및 인간 세계 기록 경신을 통해 제안 방법론의 우수성 입증.
한계점:
논문에 구체적인 한계점 언급 없음. (하지만 논문 초록만을 바탕으로 작성되었으므로, 논문 전체 내용을 통해 확인해야 함)
👍