Vision-Language-Action (VLA) 모델의 높은 계산 비용과 낮은 실행 빈도를 해결하기 위해, SP-VLA라는 통합 프레임워크를 제안합니다. 이는 모델 스케줄링과 토큰 프루닝을 결합하여 VLA 모델을 가속화합니다. 특히, 액션 인식 모델 스케줄링을 통해 시간적 중복성을 줄이고, 공간-의미 듀얼 인식 토큰 프루닝을 통해 시각적 중복성을 제거합니다. SP-VLA는 VLA 모델과 경량 생성기를 동적으로 전환하여 실행 빈도를 조정하고, 중요한 액션과 주요 시각 정보에 집중하도록 유도하여 정확성을 유지하면서 효과적인 가속화를 달성합니다. 실험 결과, LIBERO에서 1.5배, SimplerEnv에서 2.4배의 무손실 가속을 달성했으며, 최대 6%의 평균 성능 향상을 보였습니다. 추론 빈도와 지연 시간은 SimplerEnv에서 2.2배, LIBERO에서 1.4배 향상되었습니다.