Sign In

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

Created by
  • Haebom
Category
Empty

저자

Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov

개요

Vision-Language-Action (VLA) 모델의 성공은 사전 훈련된 Vision-Language Models (VLMs)이 에이전트에게 전이 가능한 세계 지식과 시각-언어 (VL) 기반을 제공하여 광범위한 일반화를 위한 액션 모델의 기반을 마련한다는 약속에서 비롯되었습니다. 그러나 VLMs을 액션 모달리티에 적용할 때, 원래의 VL 표현과 지식이 얼마나 유지되는지는 불분명합니다. 이 연구에서는 VLA 미세 조정 중 표현 유지를 체계적으로 연구하며, 무분별한 액션 미세 조정이 시각적 표현의 저하를 초래한다는 것을 보여줍니다. 이러한 영향을 특성화하고 측정하기 위해 VLA의 숨겨진 표현을 조사하고 어텐션 맵을 분석하며, 액션 미세 조정에 의해 유도된 VL 능력의 변화를 분리하여 VLA 모델과 해당 VLMs을 대조하는 일련의 목표 작업과 방법을 설계합니다. 또한 시각적 표현을 정렬하기 위한 다양한 전략을 평가하고, 저하를 완화하고 분포 외 (OOD) 시나리오에 대한 향상된 일반화를 제공하는 간단하면서도 효과적인 방법을 소개합니다. 종합적으로, 우리의 분석은 액션 미세 조정과 VL 표현 저하 사이의 트레이드 오프를 명확히 하고 상속된 VL 능력을 회복하기 위한 실용적인 접근 방식을 강조합니다.

시사점, 한계점

시사점:
액션 미세 조정은 시각적 표현의 저하를 초래할 수 있습니다.
VLA 모델의 VL 능력 유지를 위한 전략이 필요합니다.
분포 외 (OOD) 일반화를 개선하는 간단한 방법이 제시되었습니다.
한계점:
논문에서 제시된 특정 방법론과 성능에 대한 상세 정보가 부족합니다.
다양한 액션 모델 및 VLMs에 대한 일반화 가능성은 추가 연구가 필요합니다.
코드 구현 및 실험 설정에 대한 자세한 정보는 제공되지 않았습니다.
👍