Vision-Language-Action (VLA) 모델의 성공은 사전 훈련된 Vision-Language Models (VLMs)이 에이전트에게 전이 가능한 세계 지식과 시각-언어 (VL) 기반을 제공하여 광범위한 일반화를 위한 액션 모델의 기반을 마련한다는 약속에서 비롯되었습니다. 그러나 VLMs을 액션 모달리티에 적용할 때, 원래의 VL 표현과 지식이 얼마나 유지되는지는 불분명합니다. 이 연구에서는 VLA 미세 조정 중 표현 유지를 체계적으로 연구하며, 무분별한 액션 미세 조정이 시각적 표현의 저하를 초래한다는 것을 보여줍니다. 이러한 영향을 특성화하고 측정하기 위해 VLA의 숨겨진 표현을 조사하고 어텐션 맵을 분석하며, 액션 미세 조정에 의해 유도된 VL 능력의 변화를 분리하여 VLA 모델과 해당 VLMs을 대조하는 일련의 목표 작업과 방법을 설계합니다. 또한 시각적 표현을 정렬하기 위한 다양한 전략을 평가하고, 저하를 완화하고 분포 외 (OOD) 시나리오에 대한 향상된 일반화를 제공하는 간단하면서도 효과적인 방법을 소개합니다. 종합적으로, 우리의 분석은 액션 미세 조정과 VL 표현 저하 사이의 트레이드 오프를 명확히 하고 상속된 VL 능력을 회복하기 위한 실용적인 접근 방식을 강조합니다.