Sign In

EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams

Author
  • Haebom
Category
Empty

저자

Jaeseong Kim, Chaehwan Lim, Sang Hyun Gil, Suan Lee

💡 개요

본 논문은 실제 공공 서비스 시험에서 추출한 대규모 다국어 멀티모달 벤치마크인 EuraGovExam을 소개합니다. 이 벤치마크는 한국, 일본, 대만, 인도, 유럽 연합 등 5개 지역의 8,000개 이상의 실제 시험 문제를 포함하며, 이미지 내 텍스트와 시각 요소를 모두 고려한 복잡한 레이아웃을 특징으로 합니다. 최첨단 비전-언어 모델(VLM)조차 86%의 정확도를 기록하며, 이는 현재 모델의 한계를 진단하는 데 유용함을 보여줍니다.

🔑 시사점 및 한계

실제 공공 서비스 시험의 복잡성과 문화적 현실성을 반영하여 VLM 평가에 대한 새로운 기준을 제시합니다.
시각적 복잡성, 다국어 지원, 레이아웃 인식 능력을 동시에 요구하여 기존 벤치마크를 뛰어넘는 도전 과제를 제공합니다.
현재 최첨단 VLM의 성능을 효과적으로 측정하고 개선점을 도출하는 데 기여합니다.
EuraGovExam 벤치마크의 난이도가 높아, 모델의 학습 및 미세 조정을 위해 추가적인 연구와 개발이 필요할 수 있습니다.
👍