본 논문은 시각장애인을 위한 보조 기술로서 다중 모드 대규모 언어 모델(MLLM)의 효과를 탐구한다. 사용자 설문 조사를 통해 채택 패턴과 사용자가 이러한 기술을 사용하면서 직면하는 주요 과제를 파악하였다. 높은 채택률에도 불구하고, 특히 시각적 해석을 위해 이 모델에만 의존하는 개인에게는 문맥 이해, 문화적 민감성, 복잡한 장면 이해와 관련된 우려 사항이 두드러진다. 이러한 결과를 바탕으로 이미지 및 비디오 입력을 포함하는 5가지 사용자 중심 과제(광학 점자 인식에 대한 새로운 과제 포함)를 수집하고 12개의 MLLM에 대한 체계적인 평가를 실시하였다. 그 결과 문화적 맥락, 다국어 지원, 점자 읽기 이해, 보조 객체 인식 및 환각과 관련된 한계를 극복하기 위해서는 추가적인 발전이 필요함을 밝혔다. 본 연구는 접근성을 위한 다중 모드 AI의 미래 방향에 대한 중요한 통찰력을 제공하며, 더욱 포괄적이고 견고하며 신뢰할 수 있는 시각 보조 기술의 필요성을 강조한다.