본 논문은 QaEgo4D 데이터셋을 개선한 QaEgo4Dv2를 사용하여 4가지 다중모달 대규모 언어 모델(GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B, Qwen2-VL-7B-Instruct)의 자기중심 영상 질의응답(Egocentric Video Question Answering, QA) 성능을 평가했습니다. 영상의 긴 시간적 추론, 1인칭 시점, 잦은 카메라 움직임 등의 어려움을 고려하여 제로샷과 파인튜닝 방식으로 OpenQA와 CloseQA 설정에서 모델들을 평가했습니다. 그 결과, 파인튜닝된 Video-LLaVa-7B와 Qwen2-VL-7B-Instruct가 기존 최고 성능을 OpenQA에서 최대 +2.6% ROUGE/METEOR, CloseQA에서 최대 +13% 정확도 향상시키며 새로운 최고 성능을 달성했습니다. 또한, 공간 추론과 세밀한 객체 인식에서 모델의 어려움을 보여주는 오류 분석 결과를 제시했습니다.