# CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies

### 저자

Fan Du, Feng Yan, Jianxiong Wu, Xinrun Xu, Weiye Zhang, Weinong Wang, Yu Guo, Bin Qian, Zhihai He, Fei Wang, Heng Yang

### 💡 개요

본 연구는 기존 흐름 기반 VLA(Vision-Language-Action) 정책의 비효율적인 추론 과정을 개선하기 위해 제안되었다. CF-VLA는 Gaussian 노이즈에서 직접 행동 구조를 복원하는 대신, 행동 인식 초기점을 생성하는 coarse 단계와 잔여 오차를 보정하는 fine 단계로 이원화하여 효율성과 성능을 동시에 높였다. 이를 통해 낮은 NFE(Number of Function Evaluations) 환경에서 기존 방법론보다 우수한 성능과 빠른 추론 속도를 달성했다.

### 🔑 시사점 및 한계

- **구조화된 초기점의 중요성:** 흐름 기반 모델에서 초기점의 구조화가 추론 효율성과 성능 향상에 결정적인 역할을 함을 입증했다.

- **실시간 제약 조건 하에서의 효율성:** 낮은 NFE 환경에서 기존 최고 성능 모델과 동등하거나 더 나은 성능을 보이면서도 추론 지연 시간을 획기적으로 단축하여 실시간 로봇 응용에 적합함을 보여준다.

- **훈련 안정화 전략:** 단계별 훈련 전략을 통해 coarse 예측기를 먼저 학습시킨 후 공동 최적화를 수행함으로써 훈련의 안정성을 확보했다.

- **한계점/향후 과제:** 제안된 coarse-to-fine 방식이 다양한 로봇 작업 및 환경에 얼마나 일반화될 수 있는지에 대한 추가적인 연구가 필요하며, coarse 단계의 정확도가 fine 단계의 성능에 미치는 영향에 대한 심층 분석이 요구된다.

[PDF 보기](https://arxiv.org/pdf/2604.24622)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).