본 논문은 온라인 멀티미디어 플랫폼에서 널리 사용되는 이미지-캡션 쌍으로 표현되는 다중 모드 펀치라인(유머 또는 풍자) 이해 능력을 평가하기 위한 새로운 벤치마크, PunchBench를 제시합니다. 기존 벤치마크의 세 가지 주요 한계점 (텍스트에만 의존하는 언어적 지름길, 질문 다양성 부족, 특정 도메인에 대한 좁은 초점)을 해결하기 위해, PunchBench는 다양한 질문 형식과 다양한 도메인의 이미지-캡션을 포함합니다. 원본 캡션을 수정하여 동의어 및 반의어 캡션을 생성하여 캡션의 지름길 영향을 완화하고 평가 정확도를 높였습니다. 실험 결과, 최첨단 MLLM과 인간 사이에 펀치라인 이해 능력에 상당한 차이가 있음을 보여주며, 이를 개선하기 위해 단순에서 복잡으로 질문을 단계적으로 처리하는 SC-CoQ 전략을 제안합니다. SC-CoQ는 다양한 MLLM의 PunchBench 성능을 향상시켜 In-context learning 및 Chain-of-Thought를 능가합니다.