본 논문은 시각-언어 모델(VLMs)의 멀티모달 추론 능력을 평가하기 위한 다국어 벤치마크인 PISA-Bench를 소개합니다. PISA-Bench는 80개 이상의 국가에서 학생들의 역량을 평가하는 PISA 테스트의 영어 예제를 기반으로 하며, 사람에 의해 추출된 지침, 질문, 답변 선택지, 이미지로 구성됩니다. 질문 유형 카테고리가 포함되어 있으며, 영어 외에 스페인어, 독일어, 중국어, 프랑스어, 이탈리아어 등 5개 언어로 번역되어 총 6개 언어의 완전 병렬 코퍼스를 제공합니다. 최첨단 VLM을 PISA-Bench에서 평가한 결과, 특히 작은 모델(200억 개 이하 파라미터)에서 낮은 점수를 보였으며, 비영어권 언어와 공간/기하학적 추론에서 성능 저하가 나타났습니다.