Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval

Created by
  • Haebom
Category
Empty

저자

Pranavi Kolouju, Eric Xing, Robert Pless, Nathan Jacobs, Abby Stylianou

개요

본 논문은 합성 이미지 검색(CIR)에서의 데이터셋 한계를 해결하기 위해, 비전-언어 모델을 활용한 고품질 합성 주석 생성 파이프라인인 good4cir을 제안한다. good4cir은 질의 이미지에서 세밀한 객체 설명을 추출하고, 대상 이미지에 대한 비교 가능한 설명을 생성하며, 이미지 간 의미있는 변환을 포착하는 텍스트 지시어를 합성하는 세 단계로 구성된다. 이를 통해 환각을 줄이고, 수정 다양성을 높이며, 객체 수준의 일관성을 보장하여 기존 데이터셋을 개선하고 다양한 도메인에서 새로운 데이터셋을 생성한다. 결과적으로 good4cir로 생성된 데이터셋으로 훈련된 CIR 모델의 검색 정확도가 향상됨을 보여주며, 데이터셋 구성 프레임워크를 공개하여 CIR 및 다중 모드 검색 연구를 지원한다.

시사점, 한계점

시사점:
비전-언어 모델을 활용하여 고품질 합성 주석을 생성하는 새로운 파이프라인 good4cir 제시
기존 CIR 데이터셋의 한계점인 단순하고 모호하며 불충분한 수동 주석 문제 해결
환각 감소, 수정 다양성 증가, 객체 수준 일관성 확보를 통한 CIR 모델 성능 향상
다양한 도메인에서 새로운 CIR 데이터셋 생성 가능성 제시
데이터셋 구성 프레임워크 공개를 통한 CIR 및 다중 모드 검색 연구 활성화
한계점:
good4cir 파이프라인의 성능은 사용된 비전-언어 모델의 성능에 의존적일 수 있음.
생성된 합성 주석의 품질에 대한 객관적인 평가 기준 마련 필요.
다양한 도메인에 대한 일반화 성능 검증 필요.
실제 사용자의 검색 패턴과의 차이로 인한 성능 저하 가능성.
👍