# Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

### 저자

Moo Jin Kim, Chelsea Finn, Percy Liang

### 개요

본 논문은 사전 훈련된 시각-언어 모델을 기반으로 다양한 로봇 데이터셋을 활용하는 최신 시각-언어-행동 모델(VLAs)이 새로운 로봇 설정에 어려움을 겪고 성능 향상을 위해 미세 조정이 필요하다는 점을 지적합니다.  이에 따라, 다양한 미세 조정 전략 중 효과적인 방법을 연구하고 OpenVLA 모델을 기반으로 행동 디코딩 방식, 행동 표현, 학습 목표 등 핵심 VLA 적응 설계 선택지를 분석합니다.  그 결과, 병렬 디코딩, 행동 청킹, 연속적인 행동 표현, 간단한 L1 회귀 기반 학습 목표를 통합한 최적화된 미세 조정(OFT) 레시피를 제안합니다.  OpenVLA-OFT는 LIBERO 시뮬레이션 벤치마크에서 최첨단 성능을 달성하며, OpenVLA의 평균 성공률을 76.5%에서 97.1%로 크게 향상시키고 행동 생성 처리량을 26배 증가시켰습니다.  실제 로봇 실험에서도 다른 VLAs 및 강화학습 정책들을 능가하는 성능을 보였으며, 코드와 사전 훈련된 모델을 공개했습니다.

### 시사점, 한계점

- **시사점:**

    - 효과적인 VLA 미세 조정을 위한 최적화된 레시피(OFT)를 제시하고, 그 효과를 실험적으로 증명했습니다.

    - OpenVLA-OFT는 LIBERO 시뮬레이션 및 실제 로봇 환경에서 최첨단 성능을 달성했습니다.

    - 미세 조정을 통한 VLA의 성능 향상과 효율성 증대 방안을 제시했습니다.

    - 실제 로봇(ALOHA)에서의 성공적인 고빈도 숙련 작업 수행을 통해 실용성을 입증했습니다.

    - 코드와 사전 훈련된 모델을 공개하여 연구의 재현성과 확장성을 높였습니다.

- **한계점:**

    - 제안된 OFT 레시피가 모든 VLA 모델과 로봇 시스템에 일반화될 수 있는지는 추가 연구가 필요합니다.

    - 다양한 로봇 환경과 작업에 대한 일반화 성능을 더욱 향상시킬 필요가 있습니다.

    - 실제 환경에서의 로버스트성(Robustness)에 대한 추가적인 평가가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2502.19645)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).