Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOSABench: Multi-Object Sentiment Analysis Benchmark for Evaluating Multimodal Large Language Models Understanding of Complex Image

Created by
  • Haebom
Category
Empty

저자

Shezheng Song, Chengxiang He, Shan Zhao, Chengyu Wang, Qian Wan, Tianwei Yan, Meng Wang

MOSABench: 다중 객체 감성 분석을 위한 새로운 평가 벤치마크

개요

본 논문은 시각적 질문 응답, 이미지 캡셔닝 및 감정 인식과 같은 상위 수준의 의미론적 작업에서 주목할 만한 진전을 보인 멀티모달 대규모 언어 모델(MLLM)의 성능 평가를 위한 표준화된 벤치마크 부재 문제를 해결하고자 한다. 이를 위해, 다중 객체 감성 분석(multi-object sentiment analysis)에 특화된 새로운 평가 데이터셋인 MOSABench를 소개한다. MOSABench는 약 1,000개의 이미지를 포함하며, MLLM이 각 객체의 감성을 독립적으로 평가하도록 요구하여 실제 세계의 복잡성을 반영한다. MOSABench의 주요 혁신으로는 거리 기반 대상 주석, 출력을 표준화하기 위한 평가 후처리 및 개선된 채점 메커니즘이 있다. 실험 결과 mPLUG-owl 및 Qwen-VL2와 같은 일부 모델은 감성 관련 특징에 효과적인 주의를 기울이는 반면, 다른 모델은 초점이 분산되고 객체 간의 공간적 거리가 증가함에 따라 성능이 저하되는 것으로 나타났다.

시사점, 한계점

시사점:
다중 객체 감성 분석을 위한 표준화된 평가 벤치마크인 MOSABench 도입.
MLLM의 다중 객체 감성 분석 능력을 평가하기 위한 새로운 도구 제공.
현재 MLLM의 한계를 밝히고, 개선 방향 제시.
거리 기반 대상 주석, 후처리 및 채점 메커니즘을 통한 평가 정확성 향상.
한계점:
특정 MLLM 모델(mPLUG-owl, Qwen-VL2 등) 외 다른 모델의 성능 분석 부족.
공간적 거리 변화에 따른 성능 저하 현상에 대한 깊이 있는 분석 부족.
MOSABench가 다루는 이미지 수 및 객체 종류에 대한 제한.
👍