Sign In

Generating Accurate and Detailed Captions for High-Resolution Images

Created by
  • Haebom
Category
Empty

저자

Hankyeol Lee, Gawon Seo, Kyounggyu Lee, Dogun Kim, Kyungwoo Song, Jiyoung Jung

개요

Vision-language 모델은 낮은 해상도 이미지로 사전 훈련되어 고해상도 이미지에 대한 정확하고 상세한 캡션을 생성하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 비전-언어 모델, 대규모 언어 모델, 객체 감지 시스템을 통합하는 새로운 파이프라인을 제안합니다. 이 파이프라인은 고해상도 이미지에 대한 초기 캡션을 생성하고, LLM을 사용하여 주요 객체를 식별합니다. LLM은 식별된 객체와 함께 나타날 가능성이 있는 추가 객체를 예측하고, 객체 감지 시스템으로 이를 검증합니다. 초기 캡션에 언급되지 않은 새롭게 감지된 객체에 대해 지역별 캡션을 생성하여 세부 정보를 추가하고, 감지되지 않은 객체에 대한 언급을 제거하여 환각을 줄입니다.

시사점, 한계점

고해상도 이미지에 대한 상세하고 신뢰할 수 있는 캡션 생성.
환각 최소화 효과.
다단계 파이프라인으로 캡션 품질 향상.
낮은 해상도 입력으로 사전 훈련된 VLM의 한계 극복.
파이프라인의 성능은 VLM, LLM, 객체 감지 시스템의 성능에 의존.
구체적인 객체 감지 시스템의 선택과 성능에 따라 결과가 달라질 수 있음.
계산 비용이 높을 수 있음.
👍