비전-언어-행동 (VLA) 모델은 일반 로봇 구축을 위한 강력한 패러다임으로 부상했습니다. 그러나, 흐름 매칭 (FM)을 통해 행동을 생성하는 기존 VLA 모델은 고정되고 균일한 시간 일정, 즉 동기식 FM (SFM)에 의존합니다. 행동 컨텍스트 인식 및 비동기식 자체 수정이 없으면 SFM은 단일 행동 오류가 실패로 이어질 수 있는 장기적인 작업에서 불안정해집니다. 본 연구에서는 비동기식 FM (AFM)에서 시간적 유연성을 도입하고 행동 생성에서 자체 수정을 가능하게 하는 새로운 프레임워크인 비동기식 흐름 매칭 VLA (AsyncVLA)를 제안합니다. AsyncVLA는 행동 컨텍스트 인식을 통해 비균일한 시간 일정으로 행동 토큰을 생성하여 VLA 모델의 바닐라 SFM에서 벗어납니다. 또한, 모델이 실행 전에 부정확한 행동 토큰을 선택적으로 개선할 수 있도록 초기 생성된 행동의 신뢰도를 추출하는 신뢰도 평가자를 도입합니다. 또한, SFM과 AFM 모두를 단일 모델에 제공하여 KV-캐시 활용도를 향상시키는 통합 훈련 절차를 제안합니다. 로봇 조작 벤치마크에 대한 광범위한 실험을 통해 AsyncVLA가 데이터 효율적이고 자체 수정 능력을 나타냄을 보여줍니다. AsyncVLA는 AFM의 비동기식 생성을 통해 일반적인 구현 평가에서 최첨단 결과를 달성합니다.