Can LVLMs and Automatic Metrics Capture Underlying Preferences of Blind and Low-Vision Individuals for Navigational Aid?

작성자

Haebom

카테고리

Empty

저자

Na Min An, Eunki Kim, Wan Ju Kang, Sangryul Kim, Hyunjung Shim, James Thorne

개요

본 논문은 시각 장애인과 저시력인(BLV)을 위한 탐색 보조 도구로서 대규모 시각-언어 모델(LVLMs)의 반응에 대한 BLV 사용자의 선호도를 연구한 논문입니다. 먼저, 1,100개 이상의 실내외 장면과 각 장면당 5~10개의 관련 요청으로 구성된 Eye4B 데이터셋을 구축했습니다. 이후, 8명의 BLV 사용자를 대상으로 6개의 LVLMs에 대한 사용자 연구를 실시하여 두려움, 비실행성, 충분성, 간결성 등 5가지 관점에서 선호도를 평가했습니다. 마지막으로, 널리 사용되는 모델 기반 이미지-텍스트 메트릭과 수집된 BLV 선호도 간의 정렬을 평가하기 위한 Eye4B 벤치마크를 제시합니다. 이 연구는 장벽 없는 AI 시스템을 향한 BLV 인식 LVLMs 개발을 위한 지침을 제시합니다.