본 논문은 다중 모달 대규모 언어 모델(MLLMs)을 활용하여 1인칭 시점 영상을 분석하는 새로운 방법을 제시합니다. 고해상도 장시간 영상 처리 시 발생하는 높은 메모리 및 처리량 요구를 해결하기 위해, 시선 추적 데이터를 통합하여 시선이 집중된 영역만 선택적으로 처리하는 기법을 제안합니다. 이를 통해 전체 영상을 고해상도로 처리하는 것과 동등하거나 더 나은 작업 이해도를 달성하면서, 영상 데이터 입력량을 1/10까지 줄이는 효율적인 솔루션을 제공합니다. 이는 인간 활동 지원, 실제 세계 에이전트, 로봇이나 다른 개인에게 기술 전수와 같은 다양한 인간-컴퓨터 상호 작용 및 인간 증강 응용 분야에 활용될 수 있습니다.