MPR-GUI-Bench: Multilingual fine-grained Perception and Reasoning GUI Benchmark
개요
본 논문은 대규모 시각-언어 모델(LVLM)이 GUI(Graphical User Interface) 작업에서 다국어 환경에서의 성능에 대한 연구의 부재와, 세분화된 분석 부족 문제를 해결하기 위해, 다국어 및 세분화된 인식 및 추론 능력을 평가하는 GUI 벤치마크인 MPR-GUI-Bench를 제안한다. 평가 결과 LVLM이 영어 외 언어에서 성능 저하를 보임을 확인하고, 이러한 격차를 해결하기 위해 GUI Cross-Lingual Intervention (GUI-XLI) 방법을 제안하여 평균 6.5%의 다국어 P&R 능력을 향상시켰다.