Sign In

A Large Vision-Language Model based Environment Perception System for Visually Impaired People

Created by
  • Haebom
Category
Empty

저자

Zezhou Chen, Zhaoxiang Liu, Kai Wang, Kohou Wang, Shiguo Lian

개요

시각 장애인의 주변 환경 인식 어려움을 해결하기 위해 웨어러블 기기를 이용한 대규모 비전-언어 모델(LVLM) 기반 환경 인식 시스템을 제안한다. 시각 장애인은 기기로 현재 장면을 캡처하고, 화면 롱 프레스로 전체 장면 설명, 탭/스와이프로 객체 분류, 더블 탭으로 객체 상세 설명을 얻을 수 있다. LVLM의 환각을 줄이기 위해 RGB 이미지의 분할 결과를 LVLM 입력에 추가하는 방식을 제안한다. POPE, MME, LLaVA-QA90 데이터셋 실험 결과, 기존 Qwen-VL-Chat보다 더 정확한 장면 설명을 제공하며, 탐색적 실험을 통해 시각 장애인의 환경 인식에 효과적임을 보였다.

시사점, 한계점

시사점:
시각 장애인의 환경 인식을 위한 효과적인 LVLM 기반 시스템을 제시.
이미지 분할 결과를 활용하여 LVLM의 정확도 향상.
웨어러블 기기를 통한 사용자 친화적인 인터페이스 제공.
한계점:
제한된 규모의 탐색적 실험.
다양한 시각 장애 유형 및 사용자에 대한 일반화 가능성 검증 필요.
실제 환경에서의 장기간 사용성 평가 부족.
LVLM의 환각 문제 완전 해결 여부에 대한 추가 연구 필요.
👍