본 논문은 소셜 미디어 게시물의 텍스트-이미지 쌍에서 엔티티와 관계를 추출하는 과제인 Joint Multimodal Entity-Relation Extraction (JMERE)에 대해 다룹니다. JMERE를 위한 기존 방법들은 많은 양의 라벨링된 데이터를 필요로 하지만, 정교한 다중 모달 데이터를 수집하고 주석하는 것은 어렵습니다. 본 논문에서는 기존 데이터 분포에 맞는 다양하고 포괄적인 다중 모달 few-shot 데이터셋을 구성하고, few-shot 설정에서 정보 부족 문제를 해결하기 위해 지식 강화 교차 모달 프롬프트 모델(KECPM)을 제시합니다. KECPM은 두 단계로 구성됩니다. 첫 번째 단계는 의미적 유사성을 기반으로 프롬프트를 동적으로 생성하여 ChatGPT가 관련 지식을 생성하고 자기 반성을 통해 지식을 개선합니다. 두 번째 단계는 보조 지식을 원본 입력과 병합하고 트랜스포머 기반 모델을 사용하여 JMERE의 필요한 출력 형식에 맞춥니다. few-shot 데이터셋에서의 실험 결과, 제안된 방법이 기존 방법들보다 micro 및 macro F1 score에서 우수함을 보여줍니다.