Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling

Created by
  • Haebom
Category
Empty

저자

Weiqi Li, Quande Zhang, Ruifeng Zhai, Liang Lin, Guangrun Wang

개요

본 논문은 Vision-language-action (VLA) 모델이 새로운 카메라 시점 및 시각적 변화에 취약한 이유를 분석하고, Spatial Modeling의 정렬 불일치에 기인한다고 주장한다. 이를 해결하기 위해, 가벼운 학습 가능한 업데이트를 통해 시각적 표현을 재보정하는 일회성 적응 프레임워크를 제안한다. Feature Token Modulation (FTM)과 Feature Linear Adaptation (FLA) 두 가지 방법을 제시하여, Libero 시점 정확도를 향상시키고, 기존 모델의 견고성을 복원하는 것을 목표로 한다.

시사점, 한계점

시사점:
VLA 모델의 시각적 일반화 성능 저하가 Spatial Modeling의 정렬 문제에서 비롯됨을 밝힘.
경량화된 적응 기법(FTM, FLA)을 통해 사전 훈련된 VLA 모델의 견고성을 효과적으로 향상시킴.
FTM은 4K, FLA는 4.7M 파라미터로, LoRA 규모의 파인튜닝과 유사한 성능을 달성하여 효율성을 입증.
타겟팅된 최소한의 시각적 적응만으로도 시점 일반화를 복원할 수 있음을 보여줌.
한계점:
논문에서 구체적인 한계점은 명시되지 않음.
👍