Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Respond Beyond Language: A Benchmark for Video Generation in Response to Realistic User Intents

Created by
  • Haebom

저자

Shuting Wang, Yunqi Liu, Zixin Yang, Ning Hu, Zhicheng Dou, Chenyan Xiong

개요

본 논문은 생성형 AI 모델, 특히 대규모 언어 모델(LLM)을 이용한 정보 획득이 보편화됨에 따라, 시각적 설명이나 시연이 필요한 복잡한 사용자 질문에 대한 어려움을 해결하기 위해, 실제 사용자 질문에 대한 비디오 응답을 평가하는 벤치마크인 RealVideoQuest를 제시합니다. Chatbot-Arena에서 7.5K개의 실제 사용자 질문을 식별하고, 다단계 비디오 검색 및 개선 과정을 통해 4.5K개의 고품질 질문-비디오 쌍을 구축했습니다. 또한 생성된 비디오 답변의 질을 평가하기 위한 다각적 평가 시스템을 개발했습니다. 실험 결과, 현재의 텍스트-비디오(T2V) 모델이 실제 사용자 질문에 효과적으로 대응하는 데 어려움을 겪고 있음을 보여주며, 다중 모달 AI의 주요 과제와 미래 연구 방향을 제시합니다.

시사점, 한계점

시사점:
실제 사용자 질문에 대한 비디오 응답을 평가하는 새로운 벤치마크 RealVideoQuest를 제시하여, 텍스트 기반 질의응답 데이터셋의 한계를 극복.
현재 T2V 모델의 성능과 한계를 명확히 제시하여 향후 연구 방향 제시.
다중 모달 AI 분야의 발전에 기여할 수 있는 고품질의 데이터셋 및 평가 시스템 제공.
한계점:
RealVideoQuest 데이터셋은 Chatbot-Arena의 데이터에 의존하므로, 데이터셋의 편향성이 존재할 가능성.
현재 T2V 모델의 성능 저하 원인에 대한 심층적인 분석 부족.
평가 시스템의 객관성 및 신뢰도에 대한 추가적인 검증 필요.
👍