Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scale Up Composed Image Retrieval Learning via Modification Text Generation

Created by
  • Haebom

저자

Yinan Zhou, Yaxiong Wang, Haokun Lin, Chen Ma, Li Zhu, Zhedong Zheng

개요

본 논문은 제한된 훈련 데이터와 복잡한 triplet annotation 과정으로 어려움을 겪는 합성 이미지 검색(CIR) 문제를 해결하기 위해, 훈련 triplet을 합성하여 훈련 자원을 증강하는 방법을 제안한다. 대규모 다중 모달 모델을 활용하여 수정 텍스트 생성기를 훈련하고, 사전 훈련 및 미세 조정 단계 모두에서 CIR 학습을 확장한다. 사전 훈련 중에는 훈련된 생성기를 사용하여 이미지 쌍을 조건으로 수정 텍스트 기반 합성 트리플릿(MTST)을 직접 생성한다. 미세 조정 중에는 먼저 역 수정 텍스트를 합성하여 타겟 이미지를 참조 이미지에 다시 연결하고, 두 단계 정렬 전략을 통해 다중 모달 쌍과 타겟 이미지 간의 의미론적 차이를 점진적으로 줄인다. 원본 트리플릿과 역 트리플릿을 순환적으로 활용하여 암시적 프로토타입을 학습한 후, 암시적 프로토타입 특징과 수정 텍스트를 결합하여 타겟 이미지와의 정확한 정렬을 용이하게 한다. CIRR 및 FashionIQ 벤치마크에서 경쟁력 있는 재현율을 달성함을 광범위한 실험을 통해 검증한다.

시사점, 한계점

시사점:
제한된 데이터 문제를 해결하기 위한 합성 데이터 활용 전략 제시
대규모 다중 모달 모델을 활용한 효과적인 수정 텍스트 생성 방법 제안
사전 훈련 및 미세 조정 단계 모두에서 CIR 학습 성능 향상
암시적 프로토타입과 역 수정 텍스트를 활용한 정확한 이미지 정렬 전략 제시
CIRR 및 FashionIQ 벤치마크에서 경쟁력 있는 성능 달성
한계점:
합성 데이터의 품질에 대한 의존성 존재 (생성된 triplet의 질에 따라 성능 영향)
실제 데이터와 합성 데이터 간의 도메인 격차 문제 존재 가능성
제안된 방법의 일반화 성능에 대한 추가적인 검증 필요
특정 벤치마크에 대한 성능 검증이 주로 이루어져 다른 데이터셋으로의 확장성 검토 필요
👍