본 논문은 에고모션 비디오 추론의 효율성을 높이기 위해 훈련이 필요 없는 토큰 프루닝 방법인 EgoPrune을 제안합니다. 에고모션 비디오는 에이전트의 움직임에 따라 시점이 지속적으로 변하는 1인칭 영상으로, 실제 환경에서 구현된 AI 에이전트의 주요 시각적 입력 역할을 합니다. 기존의 비전-언어 모델은 강력한 다중 모달 추론 능력을 제공하지만, 길고 중복된 비디오 입력에 대한 계산 비용이 과다합니다. 본 논문에서 제안하는 EgoPrune은 에고모션 설정의 시공간적 연속성과 운동 제약 조건을 활용하여, 세 가지 구성 요소(EmbodiedR에서 차용한 키프레임 선택기, 관점 인식 중복 필터링(PARF), MMR 기반 토큰 선택기)로 구성됩니다. 실험 결과, EgoPrune은 다양한 프루닝 비율에서 기존의 훈련이 필요 없는 방법들을 능가하며, FLOPs, 메모리 사용량 및 지연 시간을 크게 줄이는 것으로 나타났습니다. 또한, Jetson Orin NX 16GB 에지 장치를 탑재한 구현체 에이전트에 EgoPrune을 배포하여 실제 환경에서의 효율성과 온디바이스 에고모션 비디오 추론에 대한 적합성을 입증했습니다.