Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Humor in Pixels: Benchmarking Large Multimodal Models Understanding of Online Comics

Created by
  • Haebom

저자

Yuriel Ryan, Rui Yang Tan, Kenny Tsu Wei Choo, Roy Ka-Wei Lee

개요

PixelHumor는 대규모 다중모달 모델(LMM)의 다중 패널 만화 이해 능력을 평가하기 위해 고안된 2,800개의 주석이 달린 다중 패널 만화 데이터셋입니다. 현존 최고의 LMM을 이용한 실험 결과, 패널 순서 맞추기 정확도가 61%에 불과하여 인간의 수행 능력에 크게 못 미치는 것으로 나타났습니다. 이는 시각적 및 텍스트적 단서를 일관된 서사와 유머 이해에 통합하는 데 있어 현재 모델의 중요한 한계를 보여줍니다. PixelHumor는 다중모달 맥락 및 서사 추론 평가를 위한 엄격한 프레임워크를 제공하여 자연스럽고 사회적으로 인지력 있는 상호 작용을 더 잘 수행하는 LMM 개발을 목표로 합니다.

시사점, 한계점

시사점: 다중모달 유머 이해에 대한 LMM의 한계를 명확히 보여주는 새로운 벤치마크 데이터셋을 제시합니다. 다중모달 맥락 및 서사 추론 능력 향상을 위한 연구 방향을 제시합니다. LMM의 사회적 지능 발전에 기여할 수 있습니다.
한계점: 현재 데이터셋의 규모(2,800개)가 LMM의 성능을 완벽하게 평가하기에 충분하지 않을 수 있습니다. 데이터셋의 편향성이 모델 성능 평가에 영향을 미칠 수 있습니다. 다양한 유형의 유머를 충분히 포함하지 못했을 가능성이 있습니다.
👍