Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos

Created by
  • Haebom

저자

Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang

개요

최근 멀티 모달 대규모 언어 모델(MLLM)이 다양한 비디오 이해 작업에서 상당한 성능을 보였다. 그러나 조작된 비디오 콘텐츠에 직면했을 때의 견고성은 아직 탐구되지 않았다. 본 논문에서는 동적 OOD(out-of-distribution) 반사실 비디오 테스트 세트에서 MLLM을 평가하기 위한 최초의 벤치마크인 Ro-Bench를 소개한다. Ro-Bench는 스타일, 객체, 배경 및 이들의 구성을 편집하여 고품질, 다양하고 시간적으로 관련된 비디오 데이터를 통합한다. 8개의 최신 비디오 MLLM을 평가한 결과, 현재 모델은 반사실 비디오 콘텐츠에 노출될 때 Ro-Bench에서 상당한 성능 저하를 보였다. 또한, 반사실 데이터로 MLLM을 미세 조정하면 견고성이 향상되어 Ro-Bench에서 21.73%의 성능 향상과 MVBench 데이터 세트의 20개 작업에서 12.78%의 개선을 달성했다. 이러한 결과는 MLLM의 비디오 이해 능력을 향상시키는 데 있어 반사실 데이터의 효과를 강조한다. 코드와 데이터는 곧 공개될 예정이다.

시사점, 한계점

MLLM의 조작된 비디오 콘텐츠에 대한 견고성 부족을 강조하는 Ro-Bench 벤치마크 개발.
반사실 데이터를 사용한 미세 조정이 Ro-Bench 및 다른 데이터셋에서 MLLM의 성능과 견고성을 향상시킨다는 것을 입증.
현재 모델의 성능 저하를 통해 향후 연구 방향 제시.
코드 및 데이터의 공개 예정.
논문에서 다룬 구체적인 MLLM 모델의 한계에 대한 언급 부족.
다양한 비디오 조작 유형에 대한 심층적인 분석 부족.
👍