본 논문은 몰입형 애플리케이션에서 사용되는 대규모 비전-언어 모델(LVLMs)의 성능 향상을 위한 다중 시점(ego-exo) 질의응답 프레임워크를 제시합니다. 머리에 장착된 카메라로 촬영된 1인칭 시점(egocentric view)의 제한된 시야와 맥락 부족 문제를 해결하기 위해 3인칭 시점(exocentric view)의 정보를 추가하여 전반적인 장면 레이아웃과 객체 가시성을 제공합니다. 이를 위해, 동기화된 1인칭 및 3인칭 이미지 쌍을 기반으로 하는 4,000개 이상의 고품질 질의응답 쌍으로 구성된 새로운 벤치마크 E3VQA를 소개하고, 세 가지 관점의 장면 그래프를 통합하여 통합된 장면 표현을 생성하는 훈련이 필요 없는 프롬프팅 기법 M3CoT를 제안합니다. M3CoT는 LVLMs가 다중 시점에서 효과적으로 추론할 수 있도록 하여 기존 방법보다 성능 향상을 가져옵니다 (GPT-4o는 4.84%, Gemini 2.0 Flash는 5.94%). 실험 결과를 통해 LVLMs의 다중 시점 추론 능력의 강점과 한계를 보여주고 1인칭 및 3인칭 입력을 활용하는 가치를 강조합니다.