[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval

Created by
  • Haebom

저자

Jaehyun Kwak, Ramahdani Muhammad Izaaz Inhar, Se-Young Yun, Sung-Ju Lee

개요

본 논문은 참조 이미지와 원하는 수정 사항을 설명하는 텍스트를 기반으로 관련 이미지를 검색하는 합성 이미지 검색(CIR) 문제를 다룹니다. 기존 CIR 방법들은 목표 이미지 검색에만 집중하여 다른 이미지들의 관련성을 무시하는 한계를 가지고 있는데, 이는 대조 학습을 사용하는 대부분의 방법들이 목표 이미지를 양성으로, 배치 내 다른 모든 이미지를 음성으로 취급하여 잘못된 음성(false negatives)을 포함할 수 있기 때문입니다. 본 논문에서는 잘못된 음성을 줄이기 위해 보상 모델 목적 함수를 최적화하는 QuRe(Query-Relevant Retrieval through Hard Negative Sampling)를 제안합니다. 또한, 목표 이미지 이후 관련성 점수의 두 급격한 하락 사이에 위치한 이미지를 선택하는 하드 네거티브 샘플링 전략을 도입하여 잘못된 음성을 효과적으로 필터링합니다. 인간의 만족도와의 정렬을 평가하기 위해, 목표 검색을 넘어 사용자 선호도를 명시적으로 포착하는 새로운 데이터셋인 Human-Preference FashionIQ (HP-FashionIQ)를 생성했습니다. 실험 결과, QuRe는 FashionIQ와 CIRR 데이터셋에서 최첨단 성능을 달성했으며, HP-FashionIQ 데이터셋에서 인간의 선호도와 가장 잘 일치하는 것을 보여줍니다. 소스 코드는 https://github.com/jackwaky/QuRe 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
잘못된 음성(false negatives) 문제를 해결하여 CIR 성능 향상 및 사용자 만족도 증대에 기여.
하드 네거티브 샘플링 전략을 통해 효과적으로 관련 없는 이미지 필터링.
인간의 선호도를 반영하는 새로운 데이터셋 HP-FashionIQ 제시.
FashionIQ와 CIRR 데이터셋에서 최첨단 성능 달성.
인간의 선호도와의 높은 정렬도를 보임.
한계점:
HP-FashionIQ 데이터셋의 규모 및 일반화 성능에 대한 추가적인 연구 필요.
제안된 방법의 다른 CIR 문제 또는 다른 모달리티에 대한 적용 가능성에 대한 추가 연구 필요.
보상 모델의 설계 및 하드 네거티브 샘플링 전략의 최적화에 대한 추가적인 연구 필요.
👍