본 논문은 전 세계적으로 약 2억 명에 달하는 시각 장애인을 위한 걷기 보조 시스템 개발에 초점을 맞추고 있다. 기존의 시각-언어 모델(VLMs) 기반 걷기 안내 방법은 공개되지 않은 자체 구축 데이터셋에 의존하며 표준화된 벤치마크가 부족하다는 문제점을 지적한다. 또한 실시간 스트리밍 영상 분석 및 간결하면서도 유익한 안내 생성의 어려움으로 인해 VLMs의 과도한 응답과 낮은 추론 효율성 문제를 제기한다. 이를 해결하기 위해, 본 논문에서는 12,000개의 영상-주석 쌍으로 구성된 대규모 걷기 보조 데이터셋을 최초로 공개하고, 이를 기반으로 계층적 계획을 위한 사고연쇄(chain of thought)와 시간 인식 적응형 예측을 활용하여 간결하고 유익한 안내를 생성하며 시간적 중복성을 줄이는 WalkVLM 모델을 제안한다. 마지막으로, 시각 장애인 걷기 과제를 위한 견고한 벤치마크를 구축하고, 다른 VLMs와 비교하여 WalkVLM의 실시간 영상 처리 성능 우위를 검증한다. 데이터셋과 코드는 https://walkvlm2024.github.io에서 이용 가능하다.