Sign In

AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?

Created by
  • Haebom
Category
Empty

저자

Han Bao, Yue Huang, Yanbo Wang, Jiayi Ye, Xiangqi Wang, Xiuying Chen, Yue Zhao, Tianyi Zhou, Mohamed Elhoseiny, Xiangliang Zhang

개요

본 논문은 대규모 비전-언어 모델(LVLMs)의 자동 평가 프레임워크인 AutoBench-V를 제시합니다. 기존의 수동 평가 방식의 한계를 극복하기 위해, 텍스트-이미지 모델을 활용하여 관련 이미지 샘플을 생성하고, LVLMs를 이용하여 시각적 질의응답(VQA) 작업을 수행하여 LVLMs의 성능을 자동으로 평가합니다. 9개의 인기 LVLMs를 대상으로 5가지 평가 능력에 대한 광범위한 평가를 통해 프레임워크의 효과성과 신뢰성을 입증합니다.

시사점, 한계점

시사점:
LVLMs의 자동화된 평가를 가능하게 하여, 기존의 수동 평가 방식의 비효율성과 한계를 극복합니다.
사용자의 요구에 따라 유연하게 평가 기준을 조정할 수 있는 온디맨드 평가 시스템을 제공합니다.
텍스트-이미지 모델과 LVLMs를 결합하여 효율적이고 효과적인 평가 프로세스를 구현합니다.
한계점:
텍스트-이미지 모델의 성능에 따라 평가 결과의 정확성이 영향을 받을 수 있습니다.
평가에 사용되는 VQA 작업의 종류와 수가 평가의 포괄성에 영향을 미칠 수 있습니다.
AutoBench-V가 생성하는 평가 지표가 인간의 주관적 평가와 일치하는지에 대한 추가적인 검증이 필요합니다.
👍