본 논문은 시각-언어 모델(VLM)이 만화와 같은 복잡한 시각적 내러티브를 이해하는 데 어려움을 겪는다는 점을 지적하고, 이를 해결하기 위해 VLM 기반 만화 이해를 위한 최초의 세분화된 종합 벤치마크인 AI4VA-FG를 소개합니다. AI4VA-FG는 기본적인 인식 및 감지부터 고차원적인 캐릭터 추론 및 내러티브 구성까지 다양한 작업을 다루며, 캐릭터, 포즈, 깊이에 대한 상세한 주석을 지원합니다. GPT-4o, Gemini-2.5와 같은 최첨단 상용 모델과 Qwen2.5-VL과 같은 오픈소스 모델을 평가한 결과, 핵심 작업에서 상당한 성능 격차를 발견하여 만화 이해가 여전히 해결되지 않은 과제임을 확인했습니다. SFT-S, SFT-R, 강화 학습(RL)과 같은 사후 훈련 전략을 체계적으로 연구했으며, "이미지로 생각하기" 패러다임에서 영감을 받아 줌 인 연산을 통해 관련 영역에 동적으로 집중하도록 모델을 훈련하는 Region-Aware Reinforcement Learning (RARL)을 제안했습니다. Qwen2.5-VL 모델에 RARL을 적용한 결과, 저수준 개체 인식 및 고수준 스토리 순서 지정에서 상당한 향상을 보였습니다.