본 논문은 시각 장애인의 시야를 돕기 위한 멀티모달 대규모 언어 모델(MLLM)의 능력을 평가하기 위해, 시각 장애인이 직접 수집하고 질문을 생성한 최초의 자아 중심 VideoQA 데이터셋인 EgoBlind를 제시합니다. EgoBlind는 시각 장애인의 일상생활을 담은 1,392개의 1인칭 비디오와, 그들이 시각적 도움을 필요로 하는 상황을 반영한 5,311개의 질문으로 구성됩니다. 각 질문에는 주관성을 줄이기 위해 평균 3개의 수동으로 주석 처리된 참고 답변이 있습니다. 16개의 MLLM을 평가한 결과, 모든 모델이 어려움을 겪었으며, 최고 성능 모델도 60%에 가까운 정확도를 보였으며, 이는 인간의 성능(87.4%)에 훨씬 못 미치는 수준이었습니다. 미래 발전을 위해, 본 연구는 시각 장애인을 위한 자아 중심 시각 지원에서 기존 MLLM의 주요 한계를 파악하고, 개선을 위한 휴리스틱 솔루션을 모색합니다. EgoBlind는 시각 장애인의 독립성을 향상시키는 효과적인 AI 보조 도구를 개발하기 위한 기반으로 활용될 것입니다.