Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding

Created by
  • Haebom
Category
Empty

저자

Chongjun Tu, Lin Zhang, Pengtao Chen, Peng Ye, Xianfang Zeng, Wei Cheng, Gang Yu, Tao Chen

개요

본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM)이 비디오 콘텐츠 이해에는 뛰어나지만 세밀한 동작 이해에는 어려움을 겪는다는 점을 지적하며, 이를 평가하기 위한 새로운 벤치마크인 FAVOR-Bench를 제안합니다. FAVOR-Bench는 다양한 동작에 대한 구조화된 수동 주석이 포함된 1,776개의 비디오로 구성되며, 닫힌형 및 열린형 평가 과제를 모두 포함합니다. 닫힌형 평가를 위해 6가지 하위 과제에 걸쳐 8,184개의 객관식 질문-답변 쌍을 설계했고, 열린형 평가를 위해서는 새로운 비용 효율적인 LLM-free 방식과 GPT 지원 자막 평가 방식을 개발했습니다. 21개의 최첨단 MLLM을 대상으로 실험한 결과, 비디오 동작의 세부적인 시간적 역동성을 이해하고 설명하는 능력에 상당한 한계가 있음을 보여줍니다. 이러한 한계를 완화하기 위해, 세밀한 동작 주석이 포함된 17,152개의 비디오로 구성된 FAVOR-Train 데이터셋을 추가로 구축했습니다. Qwen2.5-VL을 FAVOR-Train으로 미세 조정한 결과, TVBench, MotionBench 및 FAVOR-Bench의 동작 관련 과제에서 성능이 향상되었습니다. 제안된 FAVOR-Bench와 FAVOR-Train은 더욱 강력한 비디오 이해 모델을 개발하는 데 유용한 도구임을 보여줍니다.

시사점, 한계점

시사점:
기존 MLLM의 세밀한 동작 이해 능력에 대한 종합적인 평가를 위한 새로운 벤치마크(FAVOR-Bench)와 데이터셋(FAVOR-Train)을 제공합니다.
닫힌형 및 열린형 평가 방식을 모두 포함하여 다양한 측면에서 MLLM의 성능을 평가할 수 있습니다.
LLM-free 평가 방식을 통해 벤치마킹의 해석성과 재현성을 향상시킵니다.
FAVOR-Train을 이용한 미세 조정을 통해 MLLM의 동작 이해 능력을 향상시킬 수 있음을 보여줍니다.
한계점:
FAVOR-Bench 및 FAVOR-Train 데이터셋의 규모가 더욱 확장될 필요가 있습니다.
다양한 유형의 동작과 비디오 콘텐츠에 대한 일반화 성능을 더욱 향상시켜야 합니다.
LLM-free 평가 방식의 정확성과 신뢰성에 대한 추가적인 검증이 필요합니다.
👍