Vision-Language-Action (VLA) 모델은 사전 훈련된 Vision-Language Models (VLMs)의 강력한 사전 지식을 상속받지만, 무분별한 미세 조정은 이러한 표현을 방해하고 일반화를 해치는 경향이 있습니다. MAPS (Module-Wise Proximity Scheduling)는 VLA를 위한 최초의 강력한 미세 조정 프레임워크입니다. 체계적인 분석을 통해 안정성과 유연성의 균형을 맞추기 위해 근접 제약을 완화해야 하는 경험적 순서를 밝혀냈습니다. MAPS는 이 완화를 선형적으로 예약하여 시각적 인코더가 사전 훈련된 사전 지식에 가깝게 유지되면서, 행동 지향적인 언어 레이어가 더 자유롭게 적응할 수 있도록 합니다. MAPS는 추가 매개변수나 데이터를 도입하지 않으며, 기존 VLA에 원활하게 통합될 수 있습니다. SimplerEnv, CALVIN, LIBERO와 같은 어려운 벤치마크뿐만 아니라 Franka Emika Panda 플랫폼의 실제 평가에서 MAPS는 in-distribution 및 out-of-distribution 성능을 일관되게 향상시킵니다 (최대 +30%).