Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
Created by
Haebom
저자
Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
개요
본 논문은 시각 언어 모델(VLMs)의 객관적이고 효율적인 평가를 위해, 기존의 개방형 질문 기반 Visual Question Answering (VQA) 벤치마크의 한계를 극복하는 새로운 프레임워크인 AutoConverter를 제시합니다. AutoConverter는 개방형 질문을 객관식 질문으로 자동 변환하여, 다양한 자연어 응답으로 인한 평가의 어려움을 해소하고, 비용이 많이 드는 수동 객관식 질문 생성 과정을 줄입니다. AutoConverter를 이용하여 20개의 기존 VQA 데이터셋을 통합한 9,018개의 객관식 질문으로 구성된 새로운 벤치마크 VMCBench를 구축하고, 33개의 최첨단 VLMs를 종합적으로 평가하여 확장 가능하고, 일관성 있으며, 재현 가능한 VLM 평가의 새로운 기준을 제시합니다.
시사점, 한계점
•
시사점:
◦
개방형 질문 기반 VQA 평가의 어려움을 해결하고 객관적인 평가를 가능하게 하는 AutoConverter 프레임워크 제시.
◦
수동 객관식 질문 생성의 비용과 시간을 절감.
◦
다양한 VQA 데이터셋을 통합한 대규모 객관식 질문 벤치마크 VMCBench 구축.
◦
33개의 최첨단 VLMs에 대한 종합적인 평가 결과 제공 및 VLM 평가의 새로운 기준 제시.
◦
VLMs의 성능을 더욱 정확하고 일관되게 평가할 수 있는 방법 제시.
•
한계점:
◦
AutoConverter가 생성한 객관식 질문의 질과 난이도가 사람이 직접 만든 질문과 완전히 동일하지 않을 수 있음. (논문에서 VLMs의 정확도가 사람이 만든 질문보다 낮거나 비슷하게 나타났다는 점을 고려)