Jinmei Liu, Fuhong Liu, Jianye Hao, Bo Wang, Huaxiong Li, Chunlin Chen, Zhi Wang
개요
본 논문은 제한된 맥락 내에서 강화 학습(ICRL)의 효율성과 일반화 성능을 향상시키기 위해 새로운 프레임워크인 SICQL(Scalable In-Context Q-Learning)을 제안합니다. SICQL은 동적 계획법과 세계 모델링을 활용하여 보상을 극대화하고 과제 일반화를 달성합니다. 다중 헤드 트랜스포머 아키텍처를 사용하여 최적 정책과 맥락 내 가치 함수를 동시에 예측하며, 사전 학습된 세계 모델을 통해 간결한 프롬프트를 생성하여 빠르고 정확한 맥락 내 추론을 가능하게 합니다. 상태 가치 함수를 Q-함수의 상위 기대값에 적합시키는 반복적인 정책 개선 과정과 이점 가중 회귀를 통한 맥락 내 가치 함수 증류를 통해 학습을 진행합니다. 다양한 환경에서의 실험 결과, 특히 최적이 아닌 데이터로 학습할 때 기존 방법들보다 우수한 성능을 보임을 확인했습니다.
시사점, 한계점
•
시사점:
◦
동적 계획법과 세계 모델링을 결합하여 ICRL의 효율성과 일반화 성능 향상.
◦
맥락 내 가치 함수를 활용한 정책 개선으로 보상 극대화 및 안정적인 학습 달성.
◦
최적이 아닌 데이터로부터의 학습에서도 우수한 성능을 보임.
◦
다양한 환경에서의 실험을 통해 SICQL의 범용성을 검증.
•
한계점:
◦
세계 모델의 정확성에 대한 의존도가 높을 수 있음. 세계 모델의 성능이 SICQL의 성능에 직접적인 영향을 미침.