Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GazeLLM: Multimodal LLMs incorporating Human Visual Attention

Created by
  • Haebom

저자

Jun Rekimoto

개요

본 논문은 다중 모달 대규모 언어 모델(MLLMs)을 활용하여 1인칭 시점 영상을 분석하는 새로운 방법을 제시합니다. 고해상도 장시간 영상 처리 시 발생하는 높은 메모리 및 처리량 요구를 해결하기 위해, 시선 추적 데이터를 통합하여 시선이 집중된 영역만 선택적으로 처리하는 기법을 제안합니다. 이를 통해 전체 영상을 고해상도로 처리하는 것과 동등하거나 더 나은 작업 이해도를 달성하면서, 영상 데이터 입력량을 1/10까지 줄이는 효율적인 솔루션을 제공합니다. 이는 인간 활동 지원, 실제 세계 에이전트, 로봇이나 다른 개인에게 기술 전수와 같은 다양한 인간-컴퓨터 상호 작용 및 인간 증강 응용 분야에 활용될 수 있습니다.

시사점, 한계점

시사점:
시선 추적 데이터를 활용하여 MLLM의 효율적인 1인칭 시점 영상 분석을 가능하게 함.
고해상도 장시간 영상 처리의 메모리 및 처리량 문제를 효과적으로 해결.
영상 데이터 입력량을 획기적으로 줄이면서 동등하거나 향상된 작업 이해도를 달성.
인간-컴퓨터 상호 작용 및 인간 증강 응용 분야에 새로운 가능성 제시.
한계점:
시선 추적 데이터의 정확도에 결과의 신뢰성이 의존.
시선 추적 데이터 수집의 어려움 및 추가 비용 발생 가능성.
제안된 방법이 모든 유형의 1인칭 시점 영상 및 작업에 효과적인지에 대한 추가적인 연구 필요.
시선 추적 데이터가 없는 경우의 성능 저하 가능성.
👍