본 논문은 다중 모달 입력에서의 풍자(sarcasm) 해석이라는 과제에 대해 다룹니다. 기존의 사고 연쇄(Chain-of-Thought) 접근 방식은 인간의 풍자 인식 능력을 효율적으로 활용하지 못한다는 점을 지적하며, 다중 모달 일관성 관계(Multi-modal Coherence Relations)를 활용하여 참조적, 유추적, 그리고 실용적인 이미지-텍스트 연결을 분석하는 새로운 컨텍스트 학습 프레임워크인 IRONIC을 제시합니다. 실험 결과, IRONIC은 다양한 기준 모델들에 비해 제로샷 다중 모달 풍자 감지에서 최첨단 성능을 달성함을 보여주며, 다중 모달 추론 전략 설계에 언어적 및 인지적 통찰력을 통합해야 할 필요성을 강조합니다.