Beyond Fixed Tasks: Unsupervised Environment Design for Task-Level Pairs
Created by
Haebom
Category
Empty
저자
Daniel Furelos-Blanco, Charles Pert, Frederik Kelbel, Alex F. Spies, Alessandra Russo, Michael Dennis
개요
강화 학습에서 복잡한 환경에서 복잡한 지침을 따르는 일반적인 에이전트를 훈련하는 것은 핵심적인 과제이다. 태스크와 레벨의 무작위 샘플링은 종종 해결할 수 없는 조합을 생성하므로 태스크와 레벨을 공동 설계해야 한다. 자율 환경 설계(UED)는 레벨 커리큘럼을 자동 설계하는 데 효과적이었지만, 이전 연구에서는 고정된 태스크만 고려했다. 본 논문에서는 태스크와 레벨에 대한 공동 자율 커리큘럼을 생성하는 새로운 방법인 ATLAS (Aligning Tasks and Levels for Autocurricula of Specifications)를 제시한다. ATLAS는 UED를 기반으로 하여 정책 훈련을 위해 해결 가능하지만 도전적인 태스크-레벨 쌍을 자동으로 생성한다. ATLAS를 평가하고 이 분야의 발전을 촉진하기 위해 Minigrid 레벨에서 보상 머신으로 태스크를 모델링하는 평가 스위트를 도입한다. 실험 결과, ATLAS는 특히 해결 가능한 쌍을 샘플링하기 어려울 때 무작위 샘플링 접근 방식보다 훨씬 뛰어난 성능을 보였다. 또한, 태스크와 레벨의 구조를 활용하는 변이가 성능이 좋은 정책으로의 수렴을 가속화한다는 것을 보여준다.
시사점, 한계점
•
시사점:
◦
ATLAS는 태스크와 레벨에 대한 공동 자율 커리큘럼을 자동으로 생성하여 강화 학습 에이전트 훈련을 개선한다.
◦
ATLAS는 무작위 샘플링 방식보다 우수한 성능을 보이며, 특히 해결 가능한 쌍을 샘플링하기 어려운 경우에 효과적이다.
◦
태스크와 레벨의 구조를 활용하는 변이는 정책 수렴 속도를 향상시킨다.
◦
새로운 평가 스위트를 도입하여 연구 발전을 위한 기반을 마련했다.
•
한계점:
◦
Minigrid 환경에 특화된 실험을 수행했으므로, 다른 환경으로의 일반화 가능성은 추가 연구가 필요하다.