Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models

Created by
  • Haebom

저자

Garry Yang, Zizhe Chen, Man Hon Wong, Haoyu Lei, Yongqiang Chen, Zhenguo Li, Kaiwen Zhou, James Cheng

개요

본 논문은 대규모 비디오 모델(LVMs)의 환각(hallucination) 문제를 체계적으로 평가하기 위한 새로운 벤치마크인 MESH를 제안합니다. 기존 벤치마크의 한계점인 수동 분류 방식을 벗어나, 질의응답 방식을 활용하여 기본 객체, 세부 특징, 주체-행위 쌍 등을 평가함으로써 인간의 비디오 이해 과정을 모방합니다. MESH는 이진 및 다중 선택 형식의 질문과 정답(target instance) 및 오답(trap instance)을 포함하여 LVMs의 환각을 효과적으로 식별하는 데 초점을 맞춥니다. 실험 결과, LVMs는 기본 객체 및 특징 인식에는 뛰어나지만, 세부 정보나 여러 주체가 관련된 장기 비디오의 다중 행위를 처리할 때 환각 발생률이 크게 증가함을 보여줍니다.

시사점, 한계점

시사점:
기존의 수동 분류 방식에 의존하는 비디오 환각 평가의 한계를 극복하고, 인간의 비디오 이해 과정에 기반한 새로운 평가 벤치마크 MESH를 제시.
MESH를 통해 LVMs의 환각 문제를 체계적이고 효과적으로 평가하고 개선 방향을 제시할 수 있음.
LVMs의 환각 발생 원인 및 패턴을 분석하여 성능 향상에 기여할 수 있는 통찰력 제공.
기본 객체 및 특징 인식과 복잡한 시퀀스 이해 간의 성능 차이를 명확히 제시.
한계점:
MESH 벤치마크 자체의 설계 및 구성에 대한 객관적인 타당성 검증이 추가적으로 필요.
현재 평가 대상이 특정 LVMs에 한정되어 있을 수 있으며, 다양한 모델에 대한 일반화 가능성 검증이 필요.
인간의 비디오 이해 과정을 완벽히 반영하지 못할 가능성 존재.
비디오의 복잡성 및 길이에 따른 환각 발생률 변화에 대한 더욱 심층적인 분석이 필요.
👍