Sign In

Towards Understanding the Use of MLLM-Enabled Applications for Visual Interpretation by Blind and Low Vision People

Created by
  • Haebom
Category
Empty

저자

Ricardo E. Gonzalez Penuela, Ruiying Hu, Sharon Lin, Tanisha Shende, Shiri Azenkot

개요

시각 장애인 및 저시력(BLV)인들이 일상생활의 어려움을 해결하기 위해 AI 기반 시각 해석 애플리케이션을 사용하고 있으나, 기존 연구에 따르면 오류 발생으로 인한 사용자 불만족이 여전히 존재한다는 사실이 밝혀졌다. 본 연구는 다중 모달 대규모 언어 모델(MLLM)을 통합한 시각 해석 애플리케이션이 시각 해석의 정확성을 향상시키는 가능성을 보여주지만, 이러한 발전이 사용자의 애플리케이션 사용 방식에 어떤 변화를 가져왔는지에 대한 연구는 부족한 상황이다. 이를 해결하기 위해, 연구팀은 20명의 BLV 사용자를 대상으로 2주간의 일기 연구를 실시하여 MLLM 기반 시각 해석 애플리케이션 사용 경험을 수집(553개 항목)하였다. 본 논문에서는 6명의 참가자의 일기 60개 항목에 대한 예비 분석 결과를 제시하며, 참가자들은 애플리케이션의 시각 해석에 대해 신뢰도(평균 3.75/5)와 만족도(평균 4.15/5)가 높았고, 의료 용량 조언과 같은 고위험 상황에서도 애플리케이션을 신뢰하는 것으로 나타났다. 향후 MLLM 기반 시각 해석 시스템 설계에 활용하기 위한 추가 분석 계획도 논의하고 있다.

시사점, 한계점

시사점: MLLM 기반 시각 해석 애플리케이션이 BLV 사용자들에게 높은 신뢰도와 만족도를 제공하며, 고위험 상황에서도 활용 가능성을 보여준다. 이는 향후 시각 장애인 지원 기술 개발에 중요한 시사점을 제공한다.
한계점: 본 연구는 6명의 참가자에 대한 예비 분석 결과만을 제시하고 있으며, 전체 데이터(553개 항목)에 대한 분석 결과는 아직 제시되지 않았다. 표본 크기가 작아 일반화에는 제한이 있다. 향후 추가 분석을 통해 연구 결과의 신뢰성을 높일 필요가 있다.
👍