Vision-language 모델은 낮은 해상도 이미지로 사전 훈련되어 고해상도 이미지에 대한 정확하고 상세한 캡션을 생성하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 비전-언어 모델, 대규모 언어 모델, 객체 감지 시스템을 통합하는 새로운 파이프라인을 제안합니다. 이 파이프라인은 고해상도 이미지에 대한 초기 캡션을 생성하고, LLM을 사용하여 주요 객체를 식별합니다. LLM은 식별된 객체와 함께 나타날 가능성이 있는 추가 객체를 예측하고, 객체 감지 시스템으로 이를 검증합니다. 초기 캡션에 언급되지 않은 새롭게 감지된 객체에 대해 지역별 캡션을 생성하여 세부 정보를 추가하고, 감지되지 않은 객체에 대한 언급을 제거하여 환각을 줄입니다.