Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving

Created by
  • Haebom

저자

Zeyu Zhang, Zijian Chen, Zicheng Zhang, Yuze Sun, Yuan Tian, Ziheng Jia, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai

개요

본 논문은 대규모 다중 모달 모델(LMMs)의 성능 평가를 위한 동적이고 확장 가능한 벤치마크인 PuzzleBench를 제안합니다. 기존 벤치마크의 정적이고 오염된 데이터 문제를 해결하기 위해, Open-ended Visual Puzzle Generation (OVPG) 프레임워크를 제시합니다. OVPG는 퍼즐 풀이 과제를 통해 새로운 다양하고 검증 가능한 평가 데이터를 자동으로 생성합니다. PuzzleBench는 OVPG를 기반으로 하며, 시각적 인식, 논리적 추론, 문맥 이해라는 세 가지 핵심 LMM 역량을 목표로 하는 6가지 퍼즐 과제와 11,840개의 VQA 샘플로 구성됩니다. OVPG를 통한 지속적인 데이터 갱신과 다양한 퍼즐 디자인을 통해 LMM의 발전에 맞춰 지속적으로 적응할 수 있습니다.

시사점, 한계점

시사점:
기존 정적 벤치마크의 한계를 극복하는 동적이고 확장 가능한 다중 모달 모델 평가 프레임워크 제시
자동화된 데이터 생성을 통해 지속적인 벤치마크 업데이트 가능
다양한 퍼즐 과제를 통해 LMM의 다양한 능력 평가 가능
LMM의 발전에 따라 지속적으로 적응 가능한 벤치마크 제공
한계점:
OVPG의 성능이 벤치마크의 질에 직접적인 영향을 미침. OVPG의 한계가 PuzzleBench의 신뢰성에 영향을 줄 수 있음.
현재 VQA 샘플에만 국한된 벤치마크. 다른 다중 모달 과제에 대한 확장성 검증 필요.
퍼즐 과제의 설계가 LMM의 특정 능력에 편향될 가능성 존재. 다양한 유형의 퍼즐 과제 개발 필요.
퍼즐의 난이도 조절 및 객관적인 평가 기준 마련에 대한 추가적인 연구 필요.
👍