Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

Created by
  • Haebom
Category
Empty

저자

Jiaming Tang, Yufei Sun, Yilong Zhao, Shang Yang, Yujun Lin, Zhuoyang Zhang, James Hou, Yao Lu, Zhijian Liu, Song Han

개요

Vision-Language-Action 모델(VLA)은 다양한 로봇 태스크에서 능력을 향상시키고 있지만, 실제 환경에서의 배포는 여전히 느리고 비효율적이다. VLASH는 비동기 추론을 위한 일반적인 프레임워크로, 추가적인 오버헤드나 구조적 변경 없이 부드럽고 정확하며 빠른 반응 제어를 제공한다. VLASH는 이전 액션 청크를 사용하여 로봇 상태를 미래로 롤링하여 예측과 실행 간의 격차를 해소한다. 실험 결과, VLASH는 동기식 추론에 비해 최대 2.03배의 속도 향상과 최대 17.4배의 반응 지연 감소를 달성하면서 원래 정확도를 완전히 유지한다. 또한, 탁구, 두더지 잡기와 같이 전통적인 동기식 추론이 실패하는 빠른 반응, 고정밀 작업이 가능하다.

시사점, 한계점

시사점:
비동기 추론을 통해 로봇의 반응 속도와 효율성을 크게 향상시킴.
기존 VLA 모델의 정확도를 유지하면서, 빠른 반응이 필요한 작업(예: 탁구, 두더지 잡기)을 가능하게 함.
추가적인 오버헤드나 모델 구조 변경 없이 적용 가능.
한계점:
논문 자체에서 한계점에 대한 언급이 없음.
👍