Sign In

Can LVLMs and Automatic Metrics Capture Underlying Preferences of Blind and Low-Vision Individuals for Navigational Aid?

작성자
  • Haebom
카테고리
Empty

저자

Na Min An, Eunki Kim, Wan Ju Kang, Sangryul Kim, Hyunjung Shim, James Thorne

개요

본 논문은 시각 장애인과 저시력인(BLV)을 위한 탐색 보조 도구로서 대규모 시각-언어 모델(LVLMs)의 반응에 대한 BLV 사용자의 선호도를 연구한 논문입니다. 먼저, 1,100개 이상의 실내외 장면과 각 장면당 5~10개의 관련 요청으로 구성된 Eye4B 데이터셋을 구축했습니다. 이후, 8명의 BLV 사용자를 대상으로 6개의 LVLMs에 대한 사용자 연구를 실시하여 두려움, 비실행성, 충분성, 간결성 등 5가지 관점에서 선호도를 평가했습니다. 마지막으로, 널리 사용되는 모델 기반 이미지-텍스트 메트릭과 수집된 BLV 선호도 간의 정렬을 평가하기 위한 Eye4B 벤치마크를 제시합니다. 이 연구는 장벽 없는 AI 시스템을 향한 BLV 인식 LVLMs 개발을 위한 지침을 제시합니다.

시사점, 한계점

시사점:
BLV 사용자의 LVLMs 반응 선호도에 대한 최초의 심층적 연구 결과 제시.
BLV 사용자의 요구에 맞춘 LVLMs 개발을 위한 Eye4B 데이터셋 및 벤치마크 제공.
모델 기반 이미지-텍스트 메트릭과 실제 BLV 선호도 간의 불일치를 밝히고, 향후 모델 개선 방향 제시.
장벽 없는 AI 시스템 개발을 위한 중요한 지침 제공.
한계점:
사용자 수가 제한적(8명)이어서 일반화에 한계가 있음.
평가에 사용된 LVLMs의 종류가 제한적임.
특정 환경(실내외)에 국한된 데이터셋 사용.
다양한 유형의 시각 장애 및 저시력의 특성을 충분히 반영하지 못했을 가능성.
👍