RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism

Created by

Haebom

저자

Zhong Guan, Haoran Sun, Yongjian Guo, Shuai Di, Xiaodong Bai, Jing Long, Tianyun Zhao, Mingxi Luo, Chen Zhou, Yucheng Guo, Qiming Yang, Wanting Xu, Wen Huang, Yunxuan Ma, Hongke Zhao, Likang Wu, Xiaotie Deng, Xi Xiao, Sheng Wen, Yicheng Gong, Junwu Xiong

💡 개요

본 논문은 범용 구현 지능의 핵심인 Vision-Language-Action (VLA) 모델의 훈련 효율성을 개선하기 위해 완전 비동기 강화학습 훈련 프레임워크인 RL-VLA$^3$를 제안합니다. RL-VLA$^3$는 환경 상호작용, 롤아웃 생성, 정책 업데이트 전 과정을 비동기적으로 처리하여 자원 활용도를 극대화합니다. 이를 통해 기존 동기식 방식 대비 상당한 처리량 향상을 달성하고 뛰어난 확장성을 보여줍니다.

🔑 시사점 및 한계

•

VLA 모델 훈련의 고질적인 병목 현상인 훈련 효율성을 근본적으로 개선할 수 있는 완전 비동기 프레임워크를 최초로 제시합니다.

•

환경 상호작용, 롤아웃 생성, 정책 업데이트 등 VLA 훈련 파이프라인의 각 단계를 비동기적으로 분리하고 최적화하여 자원 활용도를 높이고 처리량을 극대화합니다.

•

LIBERO 벤치마크에서 최대 59.25%의 처리량 향상을 달성했으며, 최적화 시 126.67%까지 증가하는 것을 확인하여 실효성을 입증했습니다.

•

본 연구는 비동기화의 각 구성 요소에 대한 효과를 검증했지만, 시스템 복잡성 증가로 인한 구현 및 디버깅의 어려움이 있을 수 있습니다.

•

다양한 VLA 모델 및 환경에 대한 검증은 이루어졌으나, 실제 복잡하고 동적인 실제 환경에서의 적용 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage