Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models

Created by
  • Haebom
Category
Empty

저자

Yuhua Jiang, Shuang Cheng, Yan Ding, Feifei Gao, Biqing Qi

개요

비전-언어-행동 (VLA) 모델은 일반 로봇 구축을 위한 강력한 패러다임으로 부상했습니다. 그러나, 흐름 매칭 (FM)을 통해 행동을 생성하는 기존 VLA 모델은 고정되고 균일한 시간 일정, 즉 동기식 FM (SFM)에 의존합니다. 행동 컨텍스트 인식 및 비동기식 자체 수정이 없으면 SFM은 단일 행동 오류가 실패로 이어질 수 있는 장기적인 작업에서 불안정해집니다. 본 연구에서는 비동기식 FM (AFM)에서 시간적 유연성을 도입하고 행동 생성에서 자체 수정을 가능하게 하는 새로운 프레임워크인 비동기식 흐름 매칭 VLA (AsyncVLA)를 제안합니다. AsyncVLA는 행동 컨텍스트 인식을 통해 비균일한 시간 일정으로 행동 토큰을 생성하여 VLA 모델의 바닐라 SFM에서 벗어납니다. 또한, 모델이 실행 전에 부정확한 행동 토큰을 선택적으로 개선할 수 있도록 초기 생성된 행동의 신뢰도를 추출하는 신뢰도 평가자를 도입합니다. 또한, SFM과 AFM 모두를 단일 모델에 제공하여 KV-캐시 활용도를 향상시키는 통합 훈련 절차를 제안합니다. 로봇 조작 벤치마크에 대한 광범위한 실험을 통해 AsyncVLA가 데이터 효율적이고 자체 수정 능력을 나타냄을 보여줍니다. AsyncVLA는 AFM의 비동기식 생성을 통해 일반적인 구현 평가에서 최첨단 결과를 달성합니다.

시사점, 한계점

비동기식 흐름 매칭 (AFM)을 통해 시간적 유연성과 자체 수정을 가능하게 함
행동 컨텍스트 인식을 통해 성능 향상
신뢰도 평가자를 도입하여 부정확한 행동 토큰 선택적 개선
SFM과 AFM을 모두 지원하는 통합 훈련 절차 제안
로봇 조작 벤치마크에서 데이터 효율성과 자체 수정 능력 입증
AFM의 비동기식 생성으로 일반적인 구현 평가에서 최첨단 결과 달성
제공된 정보 내에서 한계점은 명시되지 않음
👍