본 논문은 사회적 의미와 문화적 세부 사항에 깊이 뿌리내린 유머가 기계에게 독특한 과제를 제시한다는 점을 강조합니다. 자연어 처리 분야의 발전에도 불구하고, 실제 세계의 유머는 밈에 의해 독특하게 포착되는 다중 모드 맥락에서 번성하는 경우가 많습니다. 특히 다중 이미지가 밈 자막 생성에 미치는 영향에 중점을 두고, 시각 및 텍스트 간의 전역 및 지역 유사성을 고려하는 혁신적인 보상 모델을 기반으로 한 지도 학습 미세 조정 및 강화 학습을 채택하는 새로운 접근 방식인 XMeCap 프레임워크를 제시합니다. 실험 결과, 기존 모델에 비해 단일 이미지 및 다중 이미지 밈 모두와 다양한 밈 범주에 대한 자막 생성에서 상당한 성능 향상을 보였으며, 단일 이미지 밈에 대해 평균 75.85점, 다중 이미지 밈에 대해 평균 66.32점을 달성하여 최고 기준 모델보다 각각 6.75%, 8.56% 향상되었습니다. 이 연구는 밈 관련 연구의 새로운 지평을 열 뿐만 아니라 다중 모드 환경에서 유머를 이해하고 생성하는 기계의 잠재력을 강조합니다.