Sign In

VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations

Created by
  • Haebom
Category
Empty

저자

Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo

개요

시각화 품질 평가를 위한 MLLM(Multimodal Large Language Models)의 성능을 평가하는 벤치마크인 VisJudge-Bench를 제안합니다. 이 벤치마크는 3,090개의 전문가 주석 샘플을 포함하며, 다양한 차트 유형의 단일 시각화, 다중 시각화 및 대시보드를 다룹니다. VisJudge-Bench를 사용한 실험 결과, 최첨단 MLLM인 GPT-5조차도 인간 전문가에 비해 상당한 격차를 보였으며, 이러한 문제를 해결하기 위해 VisJudge라는 시각화 미적 및 품질 평가를 위한 특화 모델을 제안했습니다. VisJudge는 GPT-5에 비해 인간 판단과의 격차를 줄이고 일관성을 향상시켰습니다.

시사점, 한계점

시사점:
MLLM의 시각화 품질 평가 능력을 측정하는 최초의 종합적인 벤치마크인 VisJudge-Bench 개발.
GPT-5를 포함한 최첨단 MLLM이 시각화 품질 평가에서 인간 전문가보다 성능이 떨어진다는 것을 발견.
시각화 품질 평가를 위한 특화 모델인 VisJudge를 개발하여 MLLM의 성능을 향상시킴.
한계점:
GPT-5의 MAE는 0.551, 인간 평가와의 상관관계는 0.429로, 여전히 개선의 여지가 있음.
VisJudge의 성능 향상에도 불구하고, 인간 전문가 수준에는 미치지 못함.
VisJudge-Bench가 특정 데이터셋과 시각화 유형에 국한될 수 있으며, 일반화 가능성에 대한 추가 연구 필요.
👍