One for All: A Non-Linear Transformer can Enable Cross-Domain Generalization for In-Context Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Bowen He, Juncheng Dong, Lin Lin, Xiang Cheng

💡 개요

본 논문은 강화학습(RL)에서 새로운 태스크에 대한 일반화 능력을 향상시키기 위해, 인-컨텍스트 학습이 가능한 트랜스포머 모델을 제안합니다. 트랜스포머를 RKHS(Reproducing Kernel Hilbert Space)에서의 회귀로 해석하여, 다른 도메인의 태스크들에 대한 가치 함수를 공유 가중치로 표현할 수 있음을 보입니다. 실험 결과는 제안된 해석을 지지하며, 여러 MetaWorld 도메인에서 시간차 학습 목표의 수렴을 입증했습니다.

🔑 시사점 및 한계

•

인-컨텍스트 학습을 통해 명시적인 파라미터 업데이트 없이도 새로운 RL 태스크에 대한 빠른 적응이 가능함을 보여줍니다.

•

비선형 트랜스포머와 커널 기반 시간차 학습 간의 연결고리를 제시함으로써, RL 일반화 문제에 대한 새로운 이론적 관점을 제공합니다.

•

제안된 모델이 다양한 메타월드(MetaWorld) 환경에서 성공적으로 작동함을 실험적으로 검증했습니다.

•

RKHS 내에서만 일반화가 보장된다는 점은 향후 다양한 도메인으로 확장하기 위한 추가 연구가 필요함을 시사합니다.

PDF 보기

Made with Slashpage