시각화 품질 평가를 위한 MLLM(Multimodal Large Language Models)의 성능을 평가하는 벤치마크인 VisJudge-Bench를 제안합니다. 이 벤치마크는 3,090개의 전문가 주석 샘플을 포함하며, 다양한 차트 유형의 단일 시각화, 다중 시각화 및 대시보드를 다룹니다. VisJudge-Bench를 사용한 실험 결과, 최첨단 MLLM인 GPT-5조차도 인간 전문가에 비해 상당한 격차를 보였으며, 이러한 문제를 해결하기 위해 VisJudge라는 시각화 미적 및 품질 평가를 위한 특화 모델을 제안했습니다. VisJudge는 GPT-5에 비해 인간 판단과의 격차를 줄이고 일관성을 향상시켰습니다.
시사점, 한계점
•
시사점:
◦
MLLM의 시각화 품질 평가 능력을 측정하는 최초의 종합적인 벤치마크인 VisJudge-Bench 개발.
◦
GPT-5를 포함한 최첨단 MLLM이 시각화 품질 평가에서 인간 전문가보다 성능이 떨어진다는 것을 발견.
◦
시각화 품질 평가를 위한 특화 모델인 VisJudge를 개발하여 MLLM의 성능을 향상시킴.
•
한계점:
◦
GPT-5의 MAE는 0.551, 인간 평가와의 상관관계는 0.429로, 여전히 개선의 여지가 있음.
◦
VisJudge의 성능 향상에도 불구하고, 인간 전문가 수준에는 미치지 못함.
◦
VisJudge-Bench가 특정 데이터셋과 시각화 유형에 국한될 수 있으며, 일반화 가능성에 대한 추가 연구 필요.