Towards Large-Scale In-Context Reinforcement Learning by Meta-Training in Randomized Worlds
Created by
Haebom
Category
Empty
저자
Fan Wang, Pengtao Shao, Yiming Zhang, Bo Yu, Shaoshan Liu, Ning Ding, Yang Cao, Yu Kang, Haifeng Wang
개요
In-Context Reinforcement Learning (ICRL)의 확장성을 높이기 위한 과제 해결을 위해, 대규모 고품질의 태스크를 생성하는 AnyMDP를 제안한다. AnyMDP는 절차적으로 생성된 tabular Markov Decision Processes로, 낮은 구조적 편향을 유지하면서 대규모 태스크 생성이 가능하다. 효율적인 메타 학습을 위해 분리된 정책 증류를 도입하고 ICRL 프레임워크에 사전 정보를 유도한다. AnyMDP 태스크를 충분히 활용하여, 제안된 모델이 훈련 세트에 없는 태스크로도 일반화됨을 입증한다. 또한, 데이터 분포와 ICRL 성능 간의 관계를 탐구하고, 일반화가 태스크 다양성 증가와 더 긴 적응 기간을 필요로 할 수 있음을 발견했다.
시사점, 한계점
•
시사점:
◦
AnyMDP를 통해 대규모 ICRL 태스크를 생성하고 효율적인 메타 학습을 가능하게 함.
◦
모델이 훈련되지 않은 태스크에도 일반화될 수 있음을 입증.
◦
데이터 분포와 ICRL 성능 간의 관계를 심층적으로 탐구.
◦
ICRL의 일반화가 태스크 다양성과 적응 기간에 영향을 받는다는 중요한 발견.
•
한계점:
◦
ICRL의 일반화가 더 많은 태스크와 긴 적응 기간을 필요로 할 수 있음.
◦
few-shot adaptation보다 asymptotic performance에 초점을 맞춰야 할 필요성.