Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

Created by
  • Haebom

저자

Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa

개요

본 논문은 만화 이해를 위한 두 가지 벤치마크, MangaOCR (페이지 내 텍스트 인식)과 MangaVQA (시각적 질문 응답을 통한 문맥 이해 평가)를 제시합니다. 특히 MangaVQA는 다양한 서사 및 시각적 시나리오에 걸쳐 신뢰할 수 있는 평가를 가능하게 하는 526개의 수동으로 구성된 고품질 질문-답변 쌍으로 구성됩니다. 이러한 벤치마크를 기반으로, 오픈소스 LMM인 Qwen2.5-VL을 미세 조정하여 만화에 특화된 모델인 MangaLMM을 개발했습니다. GPT-4o 및 Gemini 2.5와 같은 독점 모델과의 비교를 포함한 광범위한 실험을 통해 LMM이 만화를 얼마나 잘 이해하는지 평가합니다. 본 논문의 벤치마크와 모델은 풍부한 서사적 영역인 만화에서 LMM을 평가하고 발전시키기 위한 포괄적인 기반을 제공합니다.

시사점, 한계점

시사점:
만화 이해를 위한 새로운 벤치마크 (MangaOCR, MangaVQA) 제시
만화 특화 LMM (MangaLMM) 개발 및 성능 평가
다양한 LMM 모델 간의 만화 이해 능력 비교 분석 가능
만화 창작자의 스토리텔링 개선에 기여할 수 있는 가능성 제시
한계점:
MangaVQA 데이터셋의 크기가 상대적으로 작을 수 있음 (526개 질문-답변 쌍)
현재 벤치마크는 주로 일본어 만화에 집중되어 있어 다른 언어의 만화에는 적용이 제한적일 수 있음
평가에 사용된 독점 모델에 대한 세부 정보가 제한적일 수 있음 (GPT-4o, Gemini 2.5)
모델의 이해 능력을 완전히 포괄적으로 평가하지 못할 수 있음 (인간 수준의 이해와의 차이점 등)
👍