Sign In

EgoBlind: Towards Egocentric Visual Assistance for the Blind

Created by
  • Haebom
Category
Empty

저자

Junbin Xiao, Nanxin Huang, Hao Qiu, Zhulin Tao, Xun Yang, Richang Hong, Meng Wang, Angela Yao

개요

본 논문은 시각 장애인의 시야를 돕기 위한 멀티모달 대규모 언어 모델(MLLM)의 능력을 평가하기 위해, 시각 장애인이 직접 수집하고 질문을 생성한 최초의 자아 중심 VideoQA 데이터셋인 EgoBlind를 제시합니다. EgoBlind는 시각 장애인의 일상생활을 담은 1,392개의 1인칭 비디오와, 그들이 시각적 도움을 필요로 하는 상황을 반영한 5,311개의 질문으로 구성됩니다. 각 질문에는 주관성을 줄이기 위해 평균 3개의 수동으로 주석 처리된 참고 답변이 있습니다. 16개의 MLLM을 평가한 결과, 모든 모델이 어려움을 겪었으며, 최고 성능 모델도 60%에 가까운 정확도를 보였으며, 이는 인간의 성능(87.4%)에 훨씬 못 미치는 수준이었습니다. 미래 발전을 위해, 본 연구는 시각 장애인을 위한 자아 중심 시각 지원에서 기존 MLLM의 주요 한계를 파악하고, 개선을 위한 휴리스틱 솔루션을 모색합니다. EgoBlind는 시각 장애인의 독립성을 향상시키는 효과적인 AI 보조 도구를 개발하기 위한 기반으로 활용될 것입니다.

시사점, 한계점

시사점:
시각 장애인의 실제 요구를 반영한 데이터셋 구축을 통해 MLLM의 실질적인 평가 가능.
MLLM의 자아 중심 시각 지원 능력에 대한 새로운 벤치마크 제시.
MLLM의 한계점을 파악하고 개선 방향 제시.
시각 장애인 보조 AI 개발에 기여.
한계점:
최고 성능 모델의 정확도가 아직 낮아, 개선의 여지가 많음.
모델의 성능 향상을 위한 구체적인 방법론 제시 부족.
제안된 휴리스틱 솔루션에 대한 검증 부족.
👍