Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs

Created by
  • Haebom

저자

Insu Lee, Wooje Park, Jaeyun Jang, Minyoung Noh, Kyuhong Shim, Byonghyo Shim

개요

본 논문은 몰입형 애플리케이션에서 사용되는 대규모 비전-언어 모델(LVLMs)의 성능 향상을 위한 다중 시점(ego-exo) 질의응답 프레임워크를 제시합니다. 머리에 장착된 카메라로 촬영된 1인칭 시점(egocentric view)의 제한된 시야와 맥락 부족 문제를 해결하기 위해 3인칭 시점(exocentric view)의 정보를 추가하여 전반적인 장면 레이아웃과 객체 가시성을 제공합니다. 이를 위해, 동기화된 1인칭 및 3인칭 이미지 쌍을 기반으로 하는 4,000개 이상의 고품질 질의응답 쌍으로 구성된 새로운 벤치마크 E3VQA를 소개하고, 세 가지 관점의 장면 그래프를 통합하여 통합된 장면 표현을 생성하는 훈련이 필요 없는 프롬프팅 기법 M3CoT를 제안합니다. M3CoT는 LVLMs가 다중 시점에서 효과적으로 추론할 수 있도록 하여 기존 방법보다 성능 향상을 가져옵니다 (GPT-4o는 4.84%, Gemini 2.0 Flash는 5.94%). 실험 결과를 통해 LVLMs의 다중 시점 추론 능력의 강점과 한계를 보여주고 1인칭 및 3인칭 입력을 활용하는 가치를 강조합니다.

시사점, 한계점

시사점:
1인칭 시점의 한계를 극복하기 위해 3인칭 시점 정보를 활용하는 효과적인 프레임워크 제시.
다중 시점 질의응답을 위한 새로운 벤치마크 E3VQA 제공.
훈련이 필요 없는 효율적인 프롬프팅 기법 M3CoT 제안 및 성능 향상 확인.
LVLMs의 다중 시점 추론 능력에 대한 심도있는 분석 제공.
한계점:
E3VQA 벤치마크의 규모가 더 확장될 필요가 있음.
M3CoT의 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 LVLMs에 대한 광범위한 실험이 필요함.
실제 환경에서의 적용 가능성에 대한 추가적인 검증 필요.
👍