EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams
Author
Haebom
Category
Empty
저자
Jaeseong Kim, Chaehwan Lim, Sang Hyun Gil, Suan Lee
💡 개요
본 논문은 실제 공공 서비스 시험에서 추출한 대규모 다국어 멀티모달 벤치마크인 EuraGovExam을 소개합니다. 이 벤치마크는 한국, 일본, 대만, 인도, 유럽 연합 등 5개 지역의 8,000개 이상의 실제 시험 문제를 포함하며, 이미지 내 텍스트와 시각 요소를 모두 고려한 복잡한 레이아웃을 특징으로 합니다. 최첨단 비전-언어 모델(VLM)조차 86%의 정확도를 기록하며, 이는 현재 모델의 한계를 진단하는 데 유용함을 보여줍니다.
🔑 시사점 및 한계
•
실제 공공 서비스 시험의 복잡성과 문화적 현실성을 반영하여 VLM 평가에 대한 새로운 기준을 제시합니다.
•
시각적 복잡성, 다국어 지원, 레이아웃 인식 능력을 동시에 요구하여 기존 벤치마크를 뛰어넘는 도전 과제를 제공합니다.
•
현재 최첨단 VLM의 성능을 효과적으로 측정하고 개선점을 도출하는 데 기여합니다.
•
EuraGovExam 벤치마크의 난이도가 높아, 모델의 학습 및 미세 조정을 위해 추가적인 연구와 개발이 필요할 수 있습니다.