AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models

작성자

Haebom

카테고리

Empty

저자

Yuhua Jiang, Shuang Cheng, Yan Ding, Feifei Gao, Biqing Qi

💡 개요

본 논문은 로봇 제어에서 발생하는 장기 과제에서의 행동 생성 불안정 문제를 해결하기 위해 비동기 흐름 매칭(Asynchronous Flow Matching, AFM)을 활용하는 새로운 Vision-Language-Action (VLA) 모델인 AsyncVLA를 제안합니다. AsyncVLA는 행동 토큰 생성에 시간적 유연성을 부여하고, 초기 생성된 행동의 신뢰도를 평가하여 부정확한 토큰을 선택적으로 수정하는 자기 교정 기능을 도입합니다. 이를 통해 데이터 효율성을 높이고 시뮬레이션 및 실제 로봇 환경에서 기존 모델 대비 우수한 성능을 입증합니다.

🔑 시사점 및 한계

•

장기 로봇 제어 과제에서 발생하는 기존 동기식 흐름 매칭(Synchronous Flow Matching, SFM)의 불안정성 문제를 비동기적 접근 방식을 통해 효과적으로 해결할 수 있음을 보여줍니다.

•

행동 생성 과정에서 자기 교정 메커니즘을 도입하여 결과의 정확성과 안정성을 향상시키는 새로운 가능성을 제시합니다.

•

SFM과 AFM을 통합하는 훈련 절차는 모델의 KV-캐시 활용도를 높여 효율성을 개선합니다.

•

제안된 방법론의 복잡성 증가 및 다양한 로봇 환경에서의 일반화 능력 검증은 향후 연구 과제로 남습니다.

PDF 보기

Made with Slashpage