# A Large Vision-Language Model based Environment Perception System for Visually Impaired People

### 저자

Zezhou Chen, Zhaoxiang Liu, Kai Wang, Kohou Wang, Shiguo Lian

### 개요

시각 장애인의 주변 환경 인식 어려움을 해결하기 위해 웨어러블 기기를 이용한 대규모 비전-언어 모델(LVLM) 기반 환경 인식 시스템을 제안한다.  시각 장애인은 기기로 현재 장면을 캡처하고,  화면 롱 프레스로 전체 장면 설명, 탭/스와이프로 객체 분류, 더블 탭으로 객체 상세 설명을 얻을 수 있다.  LVLM의 환각을 줄이기 위해 RGB 이미지의 분할 결과를 LVLM 입력에 추가하는 방식을 제안한다. POPE, MME, LLaVA-QA90 데이터셋 실험 결과, 기존 Qwen-VL-Chat보다 더 정확한 장면 설명을 제공하며, 탐색적 실험을 통해 시각 장애인의 환경 인식에 효과적임을 보였다.

### 시사점, 한계점

- **시사점:**

    - 시각 장애인의 환경 인식을 위한 효과적인 LVLM 기반 시스템을 제시.

    - 이미지 분할 결과를 활용하여 LVLM의 정확도 향상.

    - 웨어러블 기기를 통한 사용자 친화적인 인터페이스 제공.

- **한계점:**

    - 제한된 규모의 탐색적 실험.

    - 다양한 시각 장애 유형 및 사용자에 대한 일반화 가능성 검증 필요.

    - 실제 환경에서의 장기간 사용성 평가 부족.

    - LVLM의 환각 문제 완전 해결 여부에 대한 추가 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2504.18027)

![https://i.imgur.com/pS4Lu6x.jpeg](https://i.imgur.com/pS4Lu6x.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).