Sign In

PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Patrick Haller, Fabio Barth, Jonas Golde, Georg Rehm, Alan Akbik

개요

본 논문은 시각-언어 모델(VLMs)의 멀티모달 추론 능력을 평가하기 위한 다국어 벤치마크인 PISA-Bench를 소개합니다. PISA-Bench는 80개 이상의 국가에서 학생들의 역량을 평가하는 PISA 테스트의 영어 예제를 기반으로 하며, 사람에 의해 추출된 지침, 질문, 답변 선택지, 이미지로 구성됩니다. 질문 유형 카테고리가 포함되어 있으며, 영어 외에 스페인어, 독일어, 중국어, 프랑스어, 이탈리아어 등 5개 언어로 번역되어 총 6개 언어의 완전 병렬 코퍼스를 제공합니다. 최첨단 VLM을 PISA-Bench에서 평가한 결과, 특히 작은 모델(200억 개 이하 파라미터)에서 낮은 점수를 보였으며, 비영어권 언어와 공간/기하학적 추론에서 성능 저하가 나타났습니다.

시사점, 한계점

시사점:
다국어 멀티모달 추론 연구를 위한 새로운 벤치마크 제공
전문가 제작 PISA 테스트 기반으로 고품질 데이터 제공
특히 작은 모델의 성능 격차를 보여줌
공간 및 기하학적 추론에서의 어려움 제시
다국어 멀티모달 연구 발전에 기여
한계점:
(논문 내용에 명시된 한계점은 없음)
👍