본 논문은 생성형 AI 모델, 특히 대규모 언어 모델(LLM)을 이용한 정보 획득이 보편화됨에 따라, 시각적 설명이나 시연이 필요한 복잡한 사용자 질문에 대한 어려움을 해결하기 위해, 실제 사용자 질문에 대한 비디오 응답을 평가하는 벤치마크인 RealVideoQuest를 제시합니다. Chatbot-Arena에서 7.5K개의 실제 사용자 질문을 식별하고, 다단계 비디오 검색 및 개선 과정을 통해 4.5K개의 고품질 질문-비디오 쌍을 구축했습니다. 또한 생성된 비디오 답변의 질을 평가하기 위한 다각적 평가 시스템을 개발했습니다. 실험 결과, 현재의 텍스트-비디오(T2V) 모델이 실제 사용자 질문에 효과적으로 대응하는 데 어려움을 겪고 있음을 보여주며, 다중 모달 AI의 주요 과제와 미래 연구 방향을 제시합니다.