Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval

Created by
  • Haebom

저자

Huaying Yuan, Jian Ni, Zheng Liu, Yueze Wang, Junjie Zhou, Zhengyang Liang, Bo Zhao, Zhao Cao, Zhicheng Dou, Ji-Rong Wen

개요

본 논문은 긴 비디오 이해(LVU) 과제에서 핵심 순간을 정확하게 찾는 것이 중요하지만, 기존 벤치마크는 비디오 길이와 과제 다양성 측면에서 제한적이거나 종단 간 LVU 성능에만 초점을 맞추어 핵심 순간에 대한 정확한 접근 여부를 평가하기에 부적절하다는 문제점을 지적합니다. 이를 해결하기 위해, 다양한 도메인(영화, 이상 현상, 자기중심적, 스포츠 등)에서 수집된 평균 1200초 이상의 긴 비디오를 기반으로 하는 새로운 긴 비디오 순간 검색(LMVR) 벤치마크인 MomentSeeker를 제안합니다. MomentSeeker는 글로벌, 이벤트, 객체 수준의 다양한 실제 시나리오를 다루며, 텍스트 기반, 이미지 조건부, 비디오 조건부 등 다양한 형태의 질의를 포함합니다. 본 논문에서는 MomentSeeker를 기반으로 생성 기반 접근 방식(MLLM 직접 사용)과 검색 기반 접근 방식(비디오 검색기 활용)에 대한 포괄적인 실험을 수행하여 최신 장비에도 불구하고 정확성과 효율성 측면에서 긴 비디오 순간 검색의 어려움을 보여줍니다. MomentSeeker는 공개적으로 배포되어(https://yhy-2000.github.io/MomentSeeker/) 향후 연구를 촉진합니다.

시사점, 한계점

시사점: 긴 비디오에서 핵심 순간을 정확하게 검색하는 과제의 어려움을 체계적으로 평가할 수 있는 새로운 벤치마크 MomentSeeker를 제시함으로써, 장기 비디오 이해 분야의 연구 발전에 기여합니다. 다양한 유형의 질의와 과제를 포함하여 실제 응용과 더욱 밀접하게 관련된 연구를 가능하게 합니다. 공개된 벤치마크를 통해 향후 연구의 발전을 촉진합니다.
한계점: MomentSeeker의 규모와 다양성에도 불구하고, 실제 세계의 모든 긴 비디오 데이터를 완벽하게 포괄하지 못할 수 있습니다. 특정 도메인이나 유형의 긴 비디오에 대한 일반화 성능 평가가 추가적으로 필요할 수 있습니다. 제안된 접근 방식의 효율성 향상에 대한 추가적인 연구가 필요합니다.
👍