[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent

Created by
  • Haebom

저자

Jiaao Li, Kaiyuan Li, Chen Gao, Yong Li, Xinlei Chen

개요

본 논문은 에고모션 비디오 추론의 효율성을 높이기 위해 훈련이 필요 없는 토큰 프루닝 방법인 EgoPrune을 제안합니다. 에고모션 비디오는 에이전트의 움직임에 따라 시점이 지속적으로 변하는 1인칭 영상으로, 실제 환경에서 구현된 AI 에이전트의 주요 시각적 입력 역할을 합니다. 기존의 비전-언어 모델은 강력한 다중 모달 추론 능력을 제공하지만, 길고 중복된 비디오 입력에 대한 계산 비용이 과다합니다. 본 논문에서 제안하는 EgoPrune은 에고모션 설정의 시공간적 연속성과 운동 제약 조건을 활용하여, 세 가지 구성 요소(EmbodiedR에서 차용한 키프레임 선택기, 관점 인식 중복 필터링(PARF), MMR 기반 토큰 선택기)로 구성됩니다. 실험 결과, EgoPrune은 다양한 프루닝 비율에서 기존의 훈련이 필요 없는 방법들을 능가하며, FLOPs, 메모리 사용량 및 지연 시간을 크게 줄이는 것으로 나타났습니다. 또한, Jetson Orin NX 16GB 에지 장치를 탑재한 구현체 에이전트에 EgoPrune을 배포하여 실제 환경에서의 효율성과 온디바이스 에고모션 비디오 추론에 대한 적합성을 입증했습니다.

시사점, 한계점

시사점:
에고모션 비디오 추론의 효율성을 크게 향상시키는 새로운 훈련이 필요 없는 토큰 프루닝 방법 EgoPrune 제시
기존 방법보다 우수한 성능과 효율성을 실험적으로 검증
에지 장치에서의 실제 구현 가능성을 입증하여 실세계 적용 가능성 제시
한계점:
EgoPrune의 성능은 특정 에고모션 비디오 벤치마크에 대한 결과를 기반으로 평가되었으며, 다른 유형의 비디오나 작업에 대한 일반화 성능은 추가 연구가 필요함.
키프레임 선택 및 토큰 선택 과정에서의 매개변수 최적화에 대한 추가 연구가 필요할 수 있음.
다양한 에고모션 비디오의 특징에 대한 고려가 부족할 수 있으며, 더욱 다양한 데이터셋에 대한 실험이 필요함.
👍