Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TMCIR: Token Merge Benefits Composed Image Retrieval

Created by
  • Haebom

저자

Chaoyang Wang, Zeyu Zhang, Long Teng, Zijun Li, Shichao Kan

개요

본 논문은 복합 이미지 검색(CIR)에서 시각적 정보와 텍스트적 정보의 불균형적인 융합으로 인한 사용자 의도 오류 문제를 해결하기 위해 TMCIR 프레임워크를 제안합니다. TMCIR은 의도를 반영하는 가상 이미지를 생성하여 CLIP 인코더를 미세 조정하고, 적응적 토큰 융합을 통해 시각 및 텍스트 표현의 균형을 맞추는 두 가지 핵심 혁신을 통해 이 문제를 해결합니다. Fashion-IQ 및 CIRR 데이터셋 실험 결과, TMCIR은 기존 방법보다 뛰어난 성능을 보이며, 특히 미묘한 사용자 의도 파악에 효과적임을 보여줍니다.

시사점, 한계점

시사점:
복합 이미지 검색에서 사용자 의도를 정확하게 반영하는 새로운 프레임워크 TMCIR 제시
의도 인식 교차 모달 정렬 및 적응적 토큰 융합을 통한 시각 및 텍스트 정보의 효과적인 융합
기존 방법보다 향상된 성능 및 미묘한 사용자 의도 파악 능력 입증
확산 모델을 이용한 가상 이미지 생성을 통한 데이터 증강 가능성 제시
한계점:
제안된 방법의 성능 향상이 특정 데이터셋에 국한될 가능성 존재
확산 모델을 이용한 가상 이미지 생성의 계산 비용 및 생성 이미지 품질 문제
실제 사용자 의도와의 정확한 일치 여부에 대한 추가적인 검증 필요
다양한 유형의 복합 질의에 대한 일반화 성능 평가 필요
👍