Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning

Created by
  • Haebom

저자

Chan Kim, Seung-Woo Seo, Seong-Woo Kim

개요

심층 강화 학습(DRL)은 로봇 제어에서 강력한 성능을 보여주지만, 분포 외(OOD) 상태에 취약하여 신뢰할 수 없는 행동과 작업 실패로 이어지는 경우가 많습니다. 기존 방법들은 OOD 발생을 최소화하거나 방지하는 데 초점을 맞추었지만, 에이전트가 OOD 상태를 만났을 때 복구하는 것에는 상대적으로 소홀히 했습니다. 최근 연구에서는 에이전트를 분포 내 상태로 다시 안내하여 이 문제를 해결하려고 시도했지만, 불확실성 추정에 의존하기 때문에 복잡한 환경에서 확장성이 저하됩니다. 이러한 한계를 극복하기 위해, 본 논문에서는 불확실성 추정에 의존하지 않고 복구 학습을 가능하게 하는 언어 모델 기반 분포 외 복구(LaMOuR)를 제시합니다. LaMOuR은 에이전트가 원래 작업을 성공적으로 수행할 수 있는 상태로 안내하는 밀집 보상 코드를 생성하며, 이미지 설명, 논리적 추론 및 코드 생성에서 LVLMs의 기능을 활용합니다. 실험 결과에 따르면 LaMOuR은 다양한 이동 작업에서 복구 효율을 크게 향상시키고, 기존 방법이 어려움을 겪는 인간형 로봇 이동 및 모바일 조작을 포함한 복잡한 환경에도 효과적으로 일반화됩니다. 코드와 보충 자료는 https://lamour-rl.github.io/ 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
불확실성 추정에 의존하지 않고 OOD 상태에서의 복구 학습을 가능하게 함으로써 복잡한 환경에서의 확장성을 높였습니다.
LVLMs의 다양한 기능(이미지 설명, 논리적 추론, 코드 생성)을 활용하여 다양한 로봇 작업에서 효율적인 복구를 가능하게 합니다.
인간형 로봇 이동 및 모바일 조작과 같이 복잡한 환경에서도 효과적으로 일반화됩니다.
한계점:
LVLMs의 성능에 의존하므로, LVLMs의 한계가 LaMOuR의 성능에 영향을 미칠 수 있습니다.
다양한 환경에서의 일반화 성능은 추가적인 실험을 통해 더욱 검증될 필요가 있습니다.
LaMOuR이 생성하는 밀집 보상 코드의 해석 가능성에 대한 추가적인 연구가 필요합니다.
👍