Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models

Created by
  • Haebom

저자

Shubham Bharti, Shiyun Cheng, Jihyun Rho, Jianrui Zhang, Mu Cai, Yong Jae Lee, Martina Rau, Xiaojin Zhu

개요

CHARTOM은 다중 모드 대규모 언어 모델을 위한 시각적 이론-마음 벤치마크입니다. CHARTOM은 차트를 시각화한 특별히 설계된 데이터로 구성됩니다. 주어진 차트에 대해 언어 모델은 차트를 정확하게 이해해야 할 뿐만 아니라(FACT 질문) 해당 차트가 인간 독자에게 오해의 소지를 일으킬 수 있는지 판단해야 합니다(MIND 질문). 두 질문 모두 상당한 사회적 이점을 제공합니다. 본 논문에서는 인간의 성과에 대한 보정을 포함하여 CHARTOM 벤치마크의 구성에 대해 자세히 설명합니다. 2024년 후반 기준으로 GPT, Claude, Gemini, Qwen, Llama 및 Llava를 포함한 주요 LLM을 CHARTOM 데이터 세트에서 벤치마킹한 결과, 모든 모델에 대해 벤치마크가 어려웠으며 향후 대규모 언어 모델이 개선될 여지가 있음을 시사합니다.

시사점, 한계점

시사점: 다중 모달 LLM의 시각적 이론-마음 능력 평가를 위한 새로운 벤치마크인 CHARTOM 제시. 현존하는 최첨단 LLM들의 이론-마음 능력의 한계를 보여줌으로써 향후 연구 방향 제시. 사회적으로 유용한 차트 해석 및 오해 가능성 판단 능력 향상에 기여.
한계점: 벤치마크에 사용된 LLM이 2024년 후반 기준이므로, 최신 모델의 성능은 다를 수 있음. CHARTOM 데이터셋의 규모 및 다양성에 대한 추가적인 연구가 필요할 수 있음. 인간의 판단 기준과의 차이에 대한 추가적인 분석 필요.
👍