본 논문은 2024년 후반에 출시된 최첨단 라이브 비디오 AI인 ChatGPT의 Advanced Voice with Video를 사용하여 시각장애인 8명을 대상으로 실시한 탐색적 연구 결과를 제시합니다. 연구는 다양한 실내외 환경에서 물체 위치 확인 및 시각적 랜드마크 인식과 같은 실제 시나리오에서 진행되었습니다. 연구 결과, 현재의 라이브 비디오 AI는 정적인 시각적 장면에 대한 안내와 답변을 효과적으로 제공하지만, 역동적인 상황에서 필요한 실시간 설명에는 부족함을 보였습니다. 공간 및 거리 정보의 부정확성에도 불구하고 참가자들은 제공된 시각 정보를 활용하여 이동 전략을 보완했습니다. 고품질 음성 상호 작용으로 시스템이 사람과 유사하게 인식되었지만, 사용자의 시각 능력에 대한 가정, 환각, 일반적인 응답 및 아첨하는 경향은 혼란, 불신 및 시각장애인 사용자에게 잠재적인 위험을 초래했습니다. 결과를 바탕으로 실제 사용을 위한 추가 감지 기능 통합, 턴테이킹 상호 작용을 넘어 적절한 개입 시점 결정, 생태적 및 안전 문제 해결 등 보조 비디오 AI 에이전트에 대한 시사점을 논의합니다.