haebom
Sign In

QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval

작성자
  • Haebom
카테고리
Empty

저자

Jaehyun Kwak, Ramahdani Muhammad Izaaz Inhar, Se-Young Yun, Sung-Ju Lee

개요

본 논문은 참조 이미지와 원하는 수정 사항을 설명하는 텍스트를 기반으로 관련 이미지를 검색하는 합성 이미지 검색(CIR) 문제를 다룹니다. 기존 CIR 방법들은 목표 이미지 검색에만 집중하여 다른 이미지들의 관련성을 무시하는 한계를 가지고 있는데, 이는 대조 학습을 사용하는 대부분의 방법들이 목표 이미지를 양성으로, 배치 내 다른 모든 이미지를 음성으로 취급하여 잘못된 음성(false negatives)을 포함할 수 있기 때문입니다. 본 논문에서는 잘못된 음성을 줄이기 위해 보상 모델 목적 함수를 최적화하는 QuRe(Query-Relevant Retrieval through Hard Negative Sampling)를 제안합니다. 또한, 목표 이미지 이후 관련성 점수의 두 급격한 하락 사이에 위치한 이미지를 선택하는 하드 네거티브 샘플링 전략을 도입하여 잘못된 음성을 효과적으로 필터링합니다. 인간의 만족도와의 정렬을 평가하기 위해, 목표 검색을 넘어 사용자 선호도를 명시적으로 포착하는 새로운 데이터셋인 Human-Preference FashionIQ (HP-FashionIQ)를 생성했습니다. 실험 결과, QuRe는 FashionIQ와 CIRR 데이터셋에서 최첨단 성능을 달성했으며, HP-FashionIQ 데이터셋에서 인간의 선호도와 가장 잘 일치하는 것을 보여줍니다. 소스 코드는 https://github.com/jackwaky/QuRe 에서 확인할 수 있습니다.
GitHub - jackwaky/QuRe: Official implementation of QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval (ICML 2025)
Official implementation of QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval (ICML 2025) - jackwaky/QuRe
github.com

시사점, 한계점

•
시사점:
◦
잘못된 음성(false negatives) 문제를 해결하여 CIR 성능 향상 및 사용자 만족도 증대에 기여.
◦
하드 네거티브 샘플링 전략을 통해 효과적으로 관련 없는 이미지 필터링.
◦
인간의 선호도를 반영하는 새로운 데이터셋 HP-FashionIQ 제시.
◦
FashionIQ와 CIRR 데이터셋에서 최첨단 성능 달성.
◦
인간의 선호도와의 높은 정렬도를 보임.
•
한계점:
◦
HP-FashionIQ 데이터셋의 규모 및 일반화 성능에 대한 추가적인 연구 필요.
◦
제안된 방법의 다른 CIR 문제 또는 다른 모달리티에 대한 적용 가능성에 대한 추가 연구 필요.
◦
보상 모델의 설계 및 하드 네거티브 샘플링 전략의 최적화에 대한 추가적인 연구 필요.
PDF 보기
👍
Made with Slashpage