본 논문은 대규모 다중 모달 모델(LMMs)의 성능 평가를 위한 동적이고 확장 가능한 벤치마크인 PuzzleBench를 제안합니다. 기존 벤치마크의 정적이고 오염된 데이터 문제를 해결하기 위해, Open-ended Visual Puzzle Generation (OVPG) 프레임워크를 제시합니다. OVPG는 퍼즐 풀이 과제를 통해 새로운 다양하고 검증 가능한 평가 데이터를 자동으로 생성합니다. PuzzleBench는 OVPG를 기반으로 하며, 시각적 인식, 논리적 추론, 문맥 이해라는 세 가지 핵심 LMM 역량을 목표로 하는 6가지 퍼즐 과제와 11,840개의 VQA 샘플로 구성됩니다. OVPG를 통한 지속적인 데이터 갱신과 다양한 퍼즐 디자인을 통해 LMM의 발전에 맞춰 지속적으로 적응할 수 있습니다.
시사점, 한계점
•
시사점:
◦
기존 정적 벤치마크의 한계를 극복하는 동적이고 확장 가능한 다중 모달 모델 평가 프레임워크 제시
◦
자동화된 데이터 생성을 통해 지속적인 벤치마크 업데이트 가능
◦
다양한 퍼즐 과제를 통해 LMM의 다양한 능력 평가 가능
◦
LMM의 발전에 따라 지속적으로 적응 가능한 벤치마크 제공
•
한계점:
◦
OVPG의 성능이 벤치마크의 질에 직접적인 영향을 미침. OVPG의 한계가 PuzzleBench의 신뢰성에 영향을 줄 수 있음.
◦
현재 VQA 샘플에만 국한된 벤치마크. 다른 다중 모달 과제에 대한 확장성 검증 필요.
◦
퍼즐 과제의 설계가 LMM의 특정 능력에 편향될 가능성 존재. 다양한 유형의 퍼즐 과제 개발 필요.