Sign In

GenCeption: Evaluate Vision LLMs with Unlabeled Unimodal Data

Created by
  • Haebom
Category
Empty

저자

Lele Cao, Valentin Buchner, Zineb Senane, Fangkai Yang

개요

본 논문은 비용이 많이 드는 주석이 달린 다중 모달 대규모 언어 모델(MLLM) 평가 벤치마크의 한계를 극복하기 위해, 단일 모달 데이터만을 사용하여 모달 간 의미적 일관성을 측정하고 환각 경향을 역으로 평가하는 새로운 주석 없는 평가 방법인 GenCeption을 제시한다. GenCeption은 DrawCeption 게임에서 영감을 받아 비텍스트 샘플로 시작하여 반복적인 설명 및 생성 단계를 거치며, 반복 간 의미적 이동을 GC@T 지표로 정량화한다. 본 논문에서는 시각적 대규모 언어 모델(VLLM)에 대한 GenCeption의 구현과 검증에 초점을 맞추고, GenCeption 방법을 기반으로 VLLM을 평가하기 위한 MMECeption 벤치마크를 구축하여 여러 인기 VLLM과 인간 평가자의 성능을 비교한다. 실험 결과 GenCeption의 효과를 검증하고 기존 VLLM 벤치마크와의 강한 상관관계를 보여준다.

시사점, 한계점

시사점:
비용 효율적인 MLLM 평가 방법 제시: 주석이 필요 없는 GenCeption 방법을 통해 기존의 고비용 주석 작업을 대체할 수 있다.
훈련 데이터 오염 위험 최소화: 주석 데이터에 대한 의존도를 줄임으로써 훈련 데이터 오염 위험을 최소화한다.
벤치마크 포화 지연: 기존 벤치마크보다 느린 포화 속도를 기대할 수 있다.
환각 경향 측정 가능: MLLM의 환각 경향을 역으로 평가할 수 있다.
VLLM 성능 비교 및 분석: 다양한 VLLM의 성능을 비교 분석하고 인간 수준의 성능과의 차이를 명확히 보여준다.
한계점:
현재는 시각적 대규모 언어 모델(VLLM)에 초점을 맞추고 있으므로, 다른 모달리티에 대한 일반화 가능성에 대한 추가 연구가 필요하다.
GC@T 지표의 정확성 및 신뢰도에 대한 추가적인 검증이 필요할 수 있다.
VLLM이 여전히 인간 수준의 성능에 미치지 못하며, 특히 텍스트 집약적인 작업에서 어려움을 겪는다는 점이 제시된 한계이다.
👍