QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval
Created by
Haebom
저자
Jaehyun Kwak, Ramahdani Muhammad Izaaz Inhar, Se-Young Yun, Sung-Ju Lee
개요
본 논문은 참조 이미지와 원하는 수정 사항을 설명하는 텍스트를 기반으로 관련 이미지를 검색하는 합성 이미지 검색(CIR) 문제를 다룹니다. 기존 CIR 방법들은 목표 이미지 검색에만 집중하여 다른 이미지들의 관련성을 무시하는 한계를 가지고 있는데, 이는 대조 학습을 사용하는 대부분의 방법들이 목표 이미지를 양성으로, 배치 내 다른 모든 이미지를 음성으로 취급하여 잘못된 음성(false negatives)을 포함할 수 있기 때문입니다. 본 논문에서는 잘못된 음성을 줄이기 위해 보상 모델 목적 함수를 최적화하는 QuRe(Query-Relevant Retrieval through Hard Negative Sampling)를 제안합니다. 또한, 목표 이미지 이후 관련성 점수의 두 급격한 하락 사이에 위치한 이미지를 선택하는 하드 네거티브 샘플링 전략을 도입하여 잘못된 음성을 효과적으로 필터링합니다. 인간의 만족도와의 정렬을 평가하기 위해, 목표 검색을 넘어 사용자 선호도를 명시적으로 포착하는 새로운 데이터셋인 Human-Preference FashionIQ (HP-FashionIQ)를 생성했습니다. 실험 결과, QuRe는 FashionIQ와 CIRR 데이터셋에서 최첨단 성능을 달성했으며, HP-FashionIQ 데이터셋에서 인간의 선호도와 가장 잘 일치하는 것을 보여줍니다. 소스 코드는 https://github.com/jackwaky/QuRe 에서 확인할 수 있습니다.