Vision-Language-Action (VLA) 모델은 로봇 인식 및 제어를 위한 통합 프레임워크를 제공하지만, 어텐션의 높은 계산 비용과 추론 중 키-값 (KV) 쌍 저장에 필요한 대규모 메모리로 인해 실제 장기적 과제에 대한 확장성이 제한적입니다. 본 논문에서는 KV-Efficient VLA를 제시하여 이러한 제한 사항을 해결하고자 합니다. 이는 경량 메커니즘을 도입하여 고유틸리티 컨텍스트를 선택적으로 유지하는 모델 독립적 메모리 압축 방식입니다. KV 캐시를 고정 크기 청크로 분할하고, 반복 게이팅 모듈을 사용하여 학습된 유틸리티 점수에 따라 기록된 컨텍스트를 요약하고 필터링합니다. 이 설계는 최근의 세밀한 세부 정보를 보존하고 오래되고 관련성이 낮은 메모리를 적극적으로 제거하는 것을 목표로 합니다. 실험 결과, 제안하는 방식은 평균 24.6% FLOPs 절감, 1.34배 추론 속도 향상, KV 메모리 1.87배 감소를 달성했습니다. 본 방법은 최신 VLA 스택에 원활하게 통합되어 다운스트림 제어 로직을 수정하지 않고도 확장 가능한 추론을 가능하게 합니다.