본 논문은 Vision-Language-Action (VLA) 모델의 일반화 능력 향상을 위해 사전 훈련된 Vision-Language Model (VLM)을 활용하는 최근 연구 동향을 살펴봅니다. 기존 VLM은 고차원 의미 정보에 치중하여 저차원 공간 정보 및 물리적 동작 이해에 대한 능력이 부족하다는 한계를 지적하며, 이는 구현 제어 작업에 중요한 요소임을 강조합니다. 이를 해결하기 위해, 본 논문에서는 다중 모드 이해와 미래 예측 목표를 모두 포함하는 통합 VLA 모델 훈련 방식인 UP-VLA를 제시합니다. UP-VLA는 고차원 의미 이해와 저차원 공간 이해를 모두 향상시키며, Calvin ABC-D 벤치마크에서 기존 최고 성능 모델 대비 33% 향상된 성능을 보였고, 특히 정밀한 공간 정보가 필요한 실제 조작 작업에서도 성공률이 향상되었습니다.