본 논문은 다중 모달 시스템의 파인튜닝 과정에서 모델이 학습하는 내용을 기존 지식과 분리하기 어려운 문제를 해결하기 위해, Hybrid Markov Logic Networks (HMLNs)를 이용하여 이미지의 시각적 특징과 캡션의 상징적 지식을 연결하는 확률적 모델을 학습하는 방법을 제시합니다. HMLN 분포를 이용한 확률적 추론을 통해 생성된 캡션에 대한 훈련 예제의 영향을 정량화하고, MSCOCO 데이터셋에서 다양한 캡션 생성 모델(LLM 사용 여부에 따라 구분)에 대해 두 가지 유형의 추론 절차를 평가합니다. 실험 결과, LLM을 사용하는 BLIP2와 같이 일반적인 지식을 더 많이 가지고 있는 모델은 파인튜닝의 영향이 상대적으로 작은 것으로 나타났습니다.