최근의 경량 검색 증강 이미지 캡션 모델은 검색된 데이터를 텍스트 프롬프트로만 활용하여, 객체 세부 정보 또는 복잡한 장면과 같은 원래의 시각적 특징을 향상시키지 못함으로써 의미적 격차를 발생시킵니다. 이러한 한계를 해결하기 위해, 본 논문은 검색된 유사 이미지로부터 시각적 프롬프트를 생성하여 시각적 표현을 풍부하게 하는 새로운 접근 방식인 $DualCap$을 제안합니다. 이 모델은 텍스트 프롬프트를 위한 표준 이미지-텍스트 검색과 시각적으로 유사한 장면을 소싱하기 위한 새로운 이미지-이미지 검색을 사용하는 이중 검색 메커니즘을 사용합니다. 특히, 주요 객체 및 유사한 세부 정보를 캡처하기 위해 시각적으로 유사한 장면의 캡션에서 핵심 키워드 및 구문이 파생됩니다. 이러한 텍스트 특징은 경량의, 훈련 가능한 특징 융합 네트워크를 통해 원래 이미지 특징과 함께 인코딩되고 통합됩니다. 광범위한 실험을 통해 본 방법은 이전의 시각적 프롬프트 캡션 접근 방식에 비해 더 적은 훈련 가능한 매개변수를 요구하면서도 경쟁력 있는 성능을 달성하는 것을 보여줍니다.