EgoBlind는 시각장애인의 일상생활을 1인칭 시점으로 녹화한 1,392개의 영상과, 시각장애인이 직접 작성하거나 검증한 5,311개의 질문으로 구성된 최초의 이고센트릭 비디오 질의응답(VideoQA) 데이터셋입니다. 각 질문에는 평균 3개의 참고 답변이 제공되어 주관적인 평가를 완화합니다. 본 논문에서는 EgoBlind를 사용하여 16개의 최첨단 다중 모달 대규모 언어 모델(MLLM)을 종합적으로 평가하고, 최고 성능 모델조차도 60%에 가까운 정확도를 달성하는 데 그치며, 87.4%의 인간 성능에 크게 못 미침을 보였습니다. 시각장애인을 위한 이고센트릭 시각 보조에서 기존 MLLM의 주요 한계를 제시하고 개선을 위한 휴리스틱 솔루션을 탐색하여 향후 발전을 위한 방향을 제시합니다.