MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models
Created by
Haebom
저자
Garry Yang, Zizhe Chen, Man Hon Wong, Haoyu Lei, Yongqiang Chen, Zhenguo Li, Kaiwen Zhou, James Cheng
개요
본 논문은 대규모 비디오 모델(LVMs)의 환각(hallucination) 문제를 체계적으로 평가하기 위한 새로운 벤치마크인 MESH를 제안합니다. 기존 벤치마크의 한계점인 수동 분류 방식을 벗어나, 질의응답 방식을 활용하여 기본 객체, 세부 특징, 주체-행위 쌍 등을 평가함으로써 인간의 비디오 이해 과정을 모방합니다. MESH는 이진 및 다중 선택 형식의 질문과 정답(target instance) 및 오답(trap instance)을 포함하여 LVMs의 환각을 효과적으로 식별하는 데 초점을 맞춥니다. 실험 결과, LVMs는 기본 객체 및 특징 인식에는 뛰어나지만, 세부 정보나 여러 주체가 관련된 장기 비디오의 다중 행위를 처리할 때 환각 발생률이 크게 증가함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기존의 수동 분류 방식에 의존하는 비디오 환각 평가의 한계를 극복하고, 인간의 비디오 이해 과정에 기반한 새로운 평가 벤치마크 MESH를 제시.
◦
MESH를 통해 LVMs의 환각 문제를 체계적이고 효과적으로 평가하고 개선 방향을 제시할 수 있음.
◦
LVMs의 환각 발생 원인 및 패턴을 분석하여 성능 향상에 기여할 수 있는 통찰력 제공.
◦
기본 객체 및 특징 인식과 복잡한 시퀀스 이해 간의 성능 차이를 명확히 제시.
•
한계점:
◦
MESH 벤치마크 자체의 설계 및 구성에 대한 객관적인 타당성 검증이 추가적으로 필요.
◦
현재 평가 대상이 특정 LVMs에 한정되어 있을 수 있으며, 다양한 모델에 대한 일반화 가능성 검증이 필요.