Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

Created by
  • Haebom

저자

Guanxing Lu, Wenkai Guo, Chubin Zhang, Yuheng Zhou, Haonan Jiang, Zifeng Gao, Yansong Tang, Ziwei Wang

개요

본 논문은 사전 훈련된 자기회귀형 시각-언어-행동(VLA) 모델을 하류 작업에서 개선하기 위해 온라인 강화 학습(RL)을 활용하는 알고리즘적이고 체계적인 프레임워크인 VLA-RL을 제시합니다. 제한된 상태만 방문한 오프라인 데이터를 사용하는 기존 VLA 모델의 분포 외 상황에서의 실행 실패 문제를 해결하기 위해, 테스트 시점에 온라인으로 수집된 데이터를 개선하는 탐색 기반 방법을 제안합니다. 자기회귀형 VLA 훈련을 위한 궤적 수준 RL 공식화를 도입하고, 희소 보상 문제를 해결하기 위해 자동으로 추출된 작업 세그먼트에 주석이 달린 의사 보상 레이블을 사용하여 사전 훈련된 시각-언어 모델을 로봇 프로세스 보상 모델로 미세 조정합니다. 안정성과 효율성을 높이기 위한 커리큘럼 선택 전략, GPU 균형 벡터화 환경, 배치 디코딩, 비평가 워밍업 등의 구현 결과도 제시합니다. LIBERO의 40가지 어려운 로봇 조작 작업에서 OpenVLA-7B가 기존 최고 성능 기준 모델보다 4.5% 향상된 성능을 보이고, $\pi_0$-FAST와 같은 고급 상용 모델과 유사한 성능을 달성함을 보여줍니다. 테스트 시간 최적화의 이점을 관찰하여 로봇 공학에서 추론 확장 법칙의 초기 징후를 보여줍니다.

시사점, 한계점

시사점:
온라인 강화학습을 통해 사전 훈련된 VLA 모델의 성능을 향상시키는 효과적인 프레임워크 제시.
제한된 오프라인 데이터의 한계를 극복하고 분포 외 상황에서의 로봇 조작 성능 향상.
테스트 시간 최적화의 중요성을 보여주며 로봇 공학 분야에서의 추론 확장 법칙에 대한 새로운 시각 제시.
고급 상용 모델에 필적하는 성능 달성.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 로봇 플랫폼 및 작업에 대한 확장성 검증 필요.
의사 보상 레이블의 정확도 및 신뢰도에 대한 추가적인 분석 필요.
온라인 학습의 계산 비용 및 시간적 제약에 대한 고려 필요.
👍