Sign In

WalkVLM:Aid Visually Impaired People Walking by Vision Language Model

Created by
  • Haebom
Category
Empty

저자

Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang

개요

본 논문은 전 세계적으로 약 2억 명에 달하는 시각 장애인을 위한 걷기 보조 시스템 개발에 초점을 맞추고 있다. 기존의 시각-언어 모델(VLMs) 기반 걷기 안내 방법은 공개되지 않은 자체 구축 데이터셋에 의존하며 표준화된 벤치마크가 부족하다는 문제점을 지적한다. 또한 실시간 스트리밍 영상 분석 및 간결하면서도 유익한 안내 생성의 어려움으로 인해 VLMs의 과도한 응답과 낮은 추론 효율성 문제를 제기한다. 이를 해결하기 위해, 본 논문에서는 12,000개의 영상-주석 쌍으로 구성된 대규모 걷기 보조 데이터셋을 최초로 공개하고, 이를 기반으로 계층적 계획을 위한 사고연쇄(chain of thought)와 시간 인식 적응형 예측을 활용하여 간결하고 유익한 안내를 생성하며 시간적 중복성을 줄이는 WalkVLM 모델을 제안한다. 마지막으로, 시각 장애인 걷기 과제를 위한 견고한 벤치마크를 구축하고, 다른 VLMs와 비교하여 WalkVLM의 실시간 영상 처리 성능 우위를 검증한다. 데이터셋과 코드는 https://walkvlm2024.github.io에서 이용 가능하다.

시사점, 한계점

시사점:
시각 장애인을 위한 걷기 보조 시스템 연구에 기여하는 최초의 대규모 공개 데이터셋 제공.
시간적 중복성을 줄이고 간결한 안내 생성을 위한 효율적인 WalkVLM 모델 제안.
시각 장애인 걷기 과제에 대한 견고한 벤치마크 구축.
WalkVLM의 실시간 영상 처리 성능 우위 검증.
한계점:
데이터셋의 다양성 및 일반화 성능에 대한 추가적인 검증 필요.
실제 환경에서의 WalkVLM 성능 평가 및 안전성 검토 필요.
WalkVLM 모델의 계산 복잡도 및 실시간 처리 가능성에 대한 추가적인 분석 필요.
다양한 시각 장애 유형에 대한 고려 부족.
👍