Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization

Created by
  • Haebom
Category
Empty

저자

Chengyue Huang, Mellon M. Zhang, Robert Azarcon, Glen Chou, Zsolt Kira

개요

Vision-Language-Action (VLA) 모델은 사전 훈련된 Vision-Language Models (VLMs)의 강력한 사전 지식을 상속받지만, 무분별한 미세 조정은 이러한 표현을 방해하고 일반화를 해치는 경향이 있습니다. MAPS (Module-Wise Proximity Scheduling)는 VLA를 위한 최초의 강력한 미세 조정 프레임워크입니다. 체계적인 분석을 통해 안정성과 유연성의 균형을 맞추기 위해 근접 제약을 완화해야 하는 경험적 순서를 밝혀냈습니다. MAPS는 이 완화를 선형적으로 예약하여 시각적 인코더가 사전 훈련된 사전 지식에 가깝게 유지되면서, 행동 지향적인 언어 레이어가 더 자유롭게 적응할 수 있도록 합니다. MAPS는 추가 매개변수나 데이터를 도입하지 않으며, 기존 VLA에 원활하게 통합될 수 있습니다. SimplerEnv, CALVIN, LIBERO와 같은 어려운 벤치마크뿐만 아니라 Franka Emika Panda 플랫폼의 실제 평가에서 MAPS는 in-distribution 및 out-of-distribution 성능을 일관되게 향상시킵니다 (최대 +30%).

시사점, 한계점

MAPS는 VLA 모델의 미세 조정에서 사전 훈련된 VLM 표현의 보존을 위한 효과적인 방법론을 제시합니다.
경험적 분석을 통해 근접 제약 완화의 최적 순서를 발견했습니다.
MAPS는 추가 매개변수나 데이터 없이 기존 VLA 모델에 쉽게 통합될 수 있습니다.
다양한 벤치마크와 실제 환경에서 성능 향상을 입증했습니다.
논문에서 구체적인 한계점에 대한 언급은 없지만, 다른 VLA 모델과의 비교 및 더 복잡한 환경에서의 확장성에 대한 추가 연구가 필요할 수 있습니다.
👍