Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EgoBlind: Towards Egocentric Visual Assistance for the Blind

Created by
  • Haebom

저자

Junbin Xiao, Nanxin Huang, Hao Qiu, Zhulin Tao, Xun Yang, Richang Hong, Meng Wang, Angela Yao

개요

EgoBlind는 시각장애인의 일상생활을 1인칭 시점으로 녹화한 1,392개의 영상과, 시각장애인이 직접 작성하거나 검증한 5,311개의 질문으로 구성된 최초의 이고센트릭 비디오 질의응답(VideoQA) 데이터셋입니다. 각 질문에는 평균 3개의 참고 답변이 제공되어 주관적인 평가를 완화합니다. 본 논문에서는 EgoBlind를 사용하여 16개의 최첨단 다중 모달 대규모 언어 모델(MLLM)을 종합적으로 평가하고, 최고 성능 모델조차도 60%에 가까운 정확도를 달성하는 데 그치며, 87.4%의 인간 성능에 크게 못 미침을 보였습니다. 시각장애인을 위한 이고센트릭 시각 보조에서 기존 MLLM의 주요 한계를 제시하고 개선을 위한 휴리스틱 솔루션을 탐색하여 향후 발전을 위한 방향을 제시합니다.

시사점, 한계점

시사점:
시각장애인을 위한 이고센트릭 시각 보조 분야에서 최첨단 MLLM의 성능 한계를 명확히 제시.
시각장애인의 실제 요구를 반영한 새로운 VideoQA 데이터셋 EgoBlind를 공개.
향후 MLLM의 개선 방향을 위한 귀중한 통찰력 제공.
EgoBlind 데이터셋과 평가 코드를 공개하여 연구 활성화.
한계점:
현재 MLLM의 시각장애인을 위한 이고센트릭 시각 보조 성능이 여전히 인간 수준에 크게 미치지 못함.
EgoBlind 데이터셋의 규모가 더욱 확장될 필요가 있음.
제시된 휴리스틱 솔루션의 실효성 검증이 추가적으로 필요.
👍