Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

Created by
  • Haebom

저자

Kun Ouyang, Yuanxin Liu, Shicheng Li, Yi Liu, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun

개요

본 논문은 온라인 멀티미디어 플랫폼에서 널리 사용되는 이미지-캡션 쌍으로 표현되는 다중 모드 펀치라인(유머 또는 풍자) 이해 능력을 평가하기 위한 새로운 벤치마크, PunchBench를 제시합니다. 기존 벤치마크의 세 가지 주요 한계점 (텍스트에만 의존하는 언어적 지름길, 질문 다양성 부족, 특정 도메인에 대한 좁은 초점)을 해결하기 위해, PunchBench는 다양한 질문 형식과 다양한 도메인의 이미지-캡션을 포함합니다. 원본 캡션을 수정하여 동의어 및 반의어 캡션을 생성하여 캡션의 지름길 영향을 완화하고 평가 정확도를 높였습니다. 실험 결과, 최첨단 MLLM과 인간 사이에 펀치라인 이해 능력에 상당한 차이가 있음을 보여주며, 이를 개선하기 위해 단순에서 복잡으로 질문을 단계적으로 처리하는 SC-CoQ 전략을 제안합니다. SC-CoQ는 다양한 MLLM의 PunchBench 성능을 향상시켜 In-context learning 및 Chain-of-Thought를 능가합니다.

시사점, 한계점

시사점:
다중 모드 펀치라인 이해를 위한 새로운 벤치마크 PunchBench 제시
기존 벤치마크의 한계점을 효과적으로 해결
최첨단 MLLM의 펀치라인 이해 능력의 한계를 밝힘
펀치라인 이해 능력 향상을 위한 SC-CoQ 전략 제안 및 효과 검증
SC-CoQ 전략이 In-context learning 및 Chain-of-Thought보다 우수한 성능을 보임
한계점:
PunchBench의 규모 및 다양성이 향후 더 확장될 필요가 있음.
SC-CoQ 전략의 일반화 가능성에 대한 추가 연구가 필요함.
특정 문화적 배경에 치우친 데이터가 포함될 가능성에 대한 고려가 필요함.
다른 유형의 유머나 풍자에 대한 일반화 가능성에 대한 추가 연구가 필요함.
👍