Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Real-World Offline Reinforcement Learning from Vision Language Model Feedback

Created by
  • Haebom

저자

Sreyas Venkataraman, Yufei Wang, Ziyu Wang, Navin Sriram Ravie, Zackory Erickson, David Held

개요

본 논문은 사전 수집된, 최적이 아닌 데이터셋으로부터 온라인 상호작용 없이 정책 학습을 가능하게 하는 오프라인 강화학습(Offline Reinforcement Learning)에 대해 다룹니다. 특히, 실세계 로봇이나 안전이 중요한 시나리오에서 온라인 데이터 수집이나 전문가 데모 수집이 느리고 비용이 많이 들며 위험한 경우에 적합합니다. 기존의 대부분의 오프라인 강화학습 연구는 데이터셋이 이미 작업 보상으로 라벨링되어 있다고 가정하지만, 특히 실세계처럼 지상 진실 상태를 알아내기 어려운 경우에는 상당한 노력이 필요합니다. 본 논문에서는 RL-VLM-F를 기반으로, 비전-언어 모델의 선호도 피드백과 작업에 대한 텍스트 설명을 사용하여 오프라인 데이터셋에 대한 보상 라벨을 자동으로 생성하는 새로운 시스템을 제안합니다. 이 방법을 통해 보상 라벨이 지정된 데이터셋으로 오프라인 강화학습을 사용하여 정책을 학습합니다. 실제 로봇이 옷을 입히는 복잡한 작업에 대한 적용성을 보여주며, 비전-언어 모델을 사용하여 최적이 아닌 오프라인 데이터셋에서 보상 함수를 먼저 학습한 다음, 학습된 보상을 사용하여 암시적 Q 학습(Implicit Q learning)을 통해 효과적인 옷 입히기 정책을 개발합니다. 강체 및 변형 가능한 물체 조작이 포함된 시뮬레이션 작업에서도 좋은 성능을 보이며, 행동 복제(behavior cloning) 및 역 강화학습(inverse RL)과 같은 기준선보다 성능이 훨씬 우수합니다. 요약하자면, 라벨이 지정되지 않은 최적이 아닌 오프라인 데이터셋으로부터 자동 보상 라벨링 및 정책 학습을 가능하게 하는 새로운 시스템을 제안합니다.

시사점, 한계점

시사점:
비전-언어 모델을 활용하여 오프라인 데이터셋의 보상 라벨을 자동으로 생성하는 새로운 방법을 제시함으로써, 오프라인 강화학습의 실세계 적용 가능성을 높였습니다.
실제 로봇 옷 입히기 작업과 시뮬레이션 작업 모두에서 기존 방법보다 우수한 성능을 보였습니다.
복잡한 작업에 대한 오프라인 강화학습의 효율성을 증명했습니다.
한계점:
비전-언어 모델의 성능에 의존적이며, 모델의 성능 저하가 전체 시스템의 성능에 영향을 미칠 수 있습니다.
사용된 비전-언어 모델의 일반화 능력에 대한 추가적인 검증이 필요합니다.
특정 작업에 대한 보상 함수 학습에 대한 일반화 가능성을 더 높이기 위한 연구가 필요합니다.
실세계 데이터셋의 다양성과 복잡성에 따라 성능이 달라질 수 있습니다.
👍