본 논문은 기존 최첨단 이미지 캡셔닝 모델들이 MS-COCO 데이터셋의 짧은 캡션으로 훈련되어 복잡한 장면이나 세부 정보를 포착하지 못하는 한계를 극복하기 위해, 여러 최첨단 모델의 캡션을 결합하는 새로운 방법을 제시합니다. 새로운 이미지-텍스트 기반 지표인 BLIPScore를 사용하여 캡션을 순위 매기고, 상위 두 개의 캡션을 대규모 언어 모델(LLM)을 이용하여 융합하여 더욱 풍부하고 상세한 설명을 생성합니다. MS-COCO와 Flickr30k 데이터셋에서 실험을 통해 ALOHa, CAPTURE, Polos 지표를 기반으로 캡션-이미지 정합도 향상과 환각 감소 효과를 보였으며, 주관적인 연구를 통해 사람의 판단과 더 일치하는 캡션을 생성함을 확인했습니다. 이 방법은 다양한 최첨단 모델의 장점을 결합하여 이미지 캡션의 질을 향상시키고, 시각-언어 및 캡셔닝 모델의 훈련에 더 적합한 캡션 생성을 가능하게 합니다.