Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Andrei Polubarov, Nikita Lyubaykin, Alexander Derevyagin, Igor Kiselev, Vladislav Kurenkov
개요
기존 오프라인 인컨텍스트 강화학습(ICRL) 방법들은 주로 지도 학습 목표에 의존해 왔는데, 이는 오프라인 RL 설정에서 한계를 지닌다는 것이 알려져 있습니다. 본 연구는 오프라인 ICRL 프레임워크 내에 RL 목표를 통합하는 것을 탐구합니다. 150개 이상의 GridWorld 및 MuJoCo 환경 기반 데이터셋에 대한 실험을 통해 RL 목표를 직접 최적화하면 다양한 데이터셋 적용 범위, 구조, 전문성 수준 및 환경 복잡성에 걸쳐 널리 채택된 알고리즘 증류(AD)에 비해 평균 약 30% 성능이 향상됨을 보여줍니다. 더욱이, 어려운 XLand-MiniGrid 환경에서 RL 목표는 AD의 성능을 두 배로 향상시켰습니다. 또한, 가치 학습 중 보수주의를 추가하면 테스트된 거의 모든 설정에서 추가적인 개선이 이루어짐을 보여줍니다. 본 연구 결과는 ICRL 학습 목표를 RL 보상 극대화 목표와 일치시키는 것이 중요함을 강조하고, 오프라인 RL이 ICRL 발전을 위한 유망한 방향임을 보여줍니다.
시사점, 한계점
•
시사점:
◦
오프라인 ICRL에서 RL 목표를 직접 최적화하면 AD와 비교하여 성능이 상당히 향상됨을 보여줌 (평균 30%, XLand-MiniGrid 환경에서는 2배 향상).
◦
가치 학습에 보수주의를 추가하면 성능이 추가적으로 향상됨.
◦
오프라인 RL이 ICRL 발전에 유망한 방향임을 제시.
◦
ICRL 학습 목표와 RL 보상 극대화 목표의 일치 중요성 강조.
•
한계점:
◦
특정 환경과 데이터셋에 국한된 실험 결과. 다양한 환경 및 데이터셋으로의 일반화 가능성에 대한 추가 연구 필요.