Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning

Created by
  • Haebom

저자

Dechen Gao, Hang Wang, Hanchu Zhou, Nejib Ammar, Shatadal Mishra, Ahmadreza Moradipari, Iman Soltani, Junshan Zhang

개요

본 논문은 강화 학습(RL)의 일반화 능력과 모방 학습(IL)의 안정적인 학습 능력을 결합하여 로봇 정책 학습의 효율성과 안정성을 향상시키는 새로운 방법인 IN-RIL(INterleaved Reinforcement learning and Imitation Learning)을 제시합니다. IN-RIL은 RL 기반 미세 조정 과정 중에 주기적으로 IL 업데이트를 추가하여 RL의 탐색 능력과 IL의 안정성을 동시에 활용합니다. 서로 다른 최적화 목표를 가진 IL과 RL의 그래디언트 간섭을 방지하기 위해 직교 부분 공간에서 그래디언트 업데이트를 분리하는 기법을 개발했습니다. FurnitureBench, OpenAI Gym, Robomimic 등 3개 벤치마크의 14가지 로봇 조작 및 이동 작업에 대한 광범위한 실험 결과, IN-RIL이 다양한 보상 환경과 작업 길이에서 샘플 효율성을 크게 향상시키고 성능 저하를 완화함을 보여줍니다. 특히 Robomimic Transport 작업에서 성공률을 12%에서 88%로 향상시키는 등 기존 RL 알고리즘의 성능을 크게 개선합니다.

시사점, 한계점

시사점:
RL 미세 조정 과정에서 IL을 주기적으로 추가함으로써 안정성과 샘플 효율성을 향상시키는 새로운 방법을 제시합니다.
서로 다른 최적화 목표를 가진 IL과 RL의 그래디언트 간섭 문제를 해결하는 효과적인 기법을 제시합니다.
다양한 로봇 작업과 벤치마크에서 IN-RIL의 우수한 성능을 실험적으로 검증합니다.
다양한 최첨단 RL 알고리즘과 호환 가능한 일반적인 플러그인으로 활용 가능합니다.
한계점:
본 논문에서 제시된 그래디언트 분리 기법의 일반성 및 적용 범위에 대한 추가적인 연구가 필요합니다.
다양한 복잡도의 로봇 작업에 대한 추가적인 실험을 통해 IN-RIL의 성능을 더욱 검증할 필요가 있습니다.
특정 로봇 플랫폼 및 작업에 특화된 하이퍼파라미터 튜닝이 필요할 수 있습니다.
👍