VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
Created by
Haebom
Category
Empty
저자
Jiaming Tang, Yufei Sun, Yilong Zhao, Shang Yang, Yujun Lin, Zhuoyang Zhang, James Hou, Yao Lu, Zhijian Liu, Song Han
개요
Vision-Language-Action 모델(VLA)은 다양한 로봇 태스크에서 능력을 향상시키고 있지만, 실제 환경에서의 배포는 여전히 느리고 비효율적이다. VLASH는 비동기 추론을 위한 일반적인 프레임워크로, 추가적인 오버헤드나 구조적 변경 없이 부드럽고 정확하며 빠른 반응 제어를 제공한다. VLASH는 이전 액션 청크를 사용하여 로봇 상태를 미래로 롤링하여 예측과 실행 간의 격차를 해소한다. 실험 결과, VLASH는 동기식 추론에 비해 최대 2.03배의 속도 향상과 최대 17.4배의 반응 지연 감소를 달성하면서 원래 정확도를 완전히 유지한다. 또한, 탁구, 두더지 잡기와 같이 전통적인 동기식 추론이 실패하는 빠른 반응, 고정밀 작업이 가능하다.
시사점, 한계점
•
시사점:
◦
비동기 추론을 통해 로봇의 반응 속도와 효율성을 크게 향상시킴.
◦
기존 VLA 모델의 정확도를 유지하면서, 빠른 반응이 필요한 작업(예: 탁구, 두더지 잡기)을 가능하게 함.