본 논문은 Vision-Language-Action (VLA) 모델의 효율성 개선에 초점을 맞춘 연구 동향을 체계적으로 검토한다. VLA 모델은 자연어 지시 및 시각적 관찰을 로봇의 행동으로 매핑하여 구현된 제어를 가능하게 하지만, 막대한 계산 및 메모리 요구량으로 인해 실시간 성능이 중요한 온보드 모바일 매니퓰레이터와 같은 엣지 플랫폼에서 어려움을 겪는다. 이 논문은 이러한 문제를 해결하기 위해 VLA 시스템 효율성을 향상시키는 접근 방식을 체계적으로 검토하며, 모델 아키텍처, 지각 특징, 동작 생성, 학습/추론 전략의 네 가지 차원으로 분류하고, 각 범주 내 대표적인 기술을 요약한다. 마지막으로, 효율적인 구현된 지능 발전을 위한 미래 동향과 해결해야 할 과제를 논의한다.