본 논문은 Vision-and-Language Navigation (VLN) 과제에서 강력한 성능을 보이는 대규모 모델의 자원 제약 환경에서의 높은 실행 비용 문제를 해결하기 위해, 토큰 가지치기를 활용한 효율적인 접근 방식을 제시합니다. 기존의 토큰 가지치기 방법이 VLN의 특수한 어려움(가지치기로 인한 정보 손실이 더 긴 이동 경로를 야기하여 계산 비용 증가)을 간과하는 점을 지적하며, Navigation-Aware Pruning (NAP)을 제안합니다. NAP는 탐색 가능 여부에 기반한 이미지 필터링 및 대규모 언어 모델을 이용한 탐색 관련 지침 추출을 통해 토큰을 전경과 배경으로 분류하여 가지치기를 수행합니다. 특히 배경 토큰을 중점적으로 가지치기하여 정보 손실을 최소화하고, 중요도가 낮은 탐색 노드 제거를 통해 역추적을 방지합니다. 표준 VLN 벤치마크 실험 결과, NAP는 기존 방법보다 성공률을 높게 유지하면서 50% 이상의 FLOPS를 절약하는 우수한 성능을 보였습니다.