CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models
Created by
Haebom
저자
Shubham Bharti, Shiyun Cheng, Jihyun Rho, Jianrui Zhang, Mu Cai, Yong Jae Lee, Martina Rau, Xiaojin Zhu
개요
CHARTOM은 다중 모드 대규모 언어 모델을 위한 시각적 이론-마음 벤치마크입니다. CHARTOM은 차트를 시각화한 특별히 설계된 데이터로 구성됩니다. 주어진 차트에 대해 언어 모델은 차트를 정확하게 이해해야 할 뿐만 아니라(FACT 질문) 해당 차트가 인간 독자에게 오해의 소지를 일으킬 수 있는지 판단해야 합니다(MIND 질문). 두 질문 모두 상당한 사회적 이점을 제공합니다. 본 논문에서는 인간의 성과에 대한 보정을 포함하여 CHARTOM 벤치마크의 구성에 대해 자세히 설명합니다. 2024년 후반 기준으로 GPT, Claude, Gemini, Qwen, Llama 및 Llava를 포함한 주요 LLM을 CHARTOM 데이터 세트에서 벤치마킹한 결과, 모든 모델에 대해 벤치마크가 어려웠으며 향후 대규모 언어 모델이 개선될 여지가 있음을 시사합니다.
시사점, 한계점
•
시사점: 다중 모달 LLM의 시각적 이론-마음 능력 평가를 위한 새로운 벤치마크인 CHARTOM 제시. 현존하는 최첨단 LLM들의 이론-마음 능력의 한계를 보여줌으로써 향후 연구 방향 제시. 사회적으로 유용한 차트 해석 및 오해 가능성 판단 능력 향상에 기여.
•
한계점: 벤치마크에 사용된 LLM이 2024년 후반 기준이므로, 최신 모델의 성능은 다를 수 있음. CHARTOM 데이터셋의 규모 및 다양성에 대한 추가적인 연구가 필요할 수 있음. 인간의 판단 기준과의 차이에 대한 추가적인 분석 필요.