생성 모델의 발전으로 이미지 편집이 쉬워짐에 따라, 두 이미지 간의 차이점을 설명하는 Image Difference Captioning (IDC)의 중요성이 커졌습니다. 기존 IDC 모델은 3D 렌더링된 이미지에서는 성공적이었지만, 실제 이미지에서는 훈련 데이터 부족과 복잡한 이미지의 미세한 차이 포착의 어려움으로 인해 성능이 저조했습니다. 본 논문에서는 이러한 문제를 해결하기 위해, 기존 이미지 캡셔닝 모델을 IDC 작업에 적응시키고 IDC 데이터셋을 증강하는 간단하면서도 효과적인 프레임워크를 제안합니다. 특히, BLIP2를 IDC 작업에 적용한 BLIP2IDC 모델을 개발하여 두 개의 스트림을 사용하는 기존 접근 방식보다 뛰어난 성능을 보였으며, 합성 데이터 증강을 통해 IDC 모델의 성능을 향상시키는 새로운 Syned1 데이터셋을 제안했습니다.