Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval

Created by
  • Haebom

저자

Delong Liu, Haiwen Li, Zhaohui Hou, Zhicheng Zhao, Fei Su, Yuan Dong

개요

본 논문은 기존의 이미지 기반 또는 텍스트 기반 단일 모드 사람 검색의 한계를 극복하기 위해, 이미지와 텍스트를 결합한 새로운 복합 사람 검색(CPR) 과제를 제시합니다. CPR 과제를 위한 대규모 데이터셋 부재 문제를 해결하고자, 텍스트 쿼드러플 생성과 미세 조정된 생성 모델을 이용한 이미지 합성으로 구성된 확장 가능한 자동 데이터 합성 파이프라인을 제안합니다. 이를 통해 115만 개의 고품질 완전 합성 트리플렛으로 구성된 SynCPR 데이터셋을 생성하고, 복합 질의 표현 개선을 위해 미세 조정 동적 정렬 및 마스크 특징 추론을 활용한 새로운 FAFA(Fine-grained Adaptive Feature Alignment) 프레임워크를 제안합니다. Image-Text Composed Person Retrieval (ITCPR) 테스트 세트에 대한 수동 주석 작업을 통해 객관적인 평가를 수행하고, 다양한 실험을 통해 SynCPR 데이터셋의 효과와 FAFA 프레임워크의 우수성을 입증합니다. 소스 코드와 데이터는 깃허브에 공개됩니다.

시사점, 한계점

시사점:
이미지와 텍스트를 결합한 새로운 복합 사람 검색(CPR) 과제 제시 및 해결 방안 제시
대규모 합성 데이터셋 SynCPR 생성 및 공개
새로운 FAFA 프레임워크를 통해 기존 방법보다 우수한 성능 달성
복합 질의를 효과적으로 처리하는 새로운 방법 제시
한계점:
합성 데이터셋의 한계: 실제 데이터와의 차이로 인한 성능 저하 가능성 존재
ITCPR 테스트 세트의 수동 주석 작업에 대한 노력 및 비용 소모
FAFA 프레임워크의 일반화 성능에 대한 추가적인 검증 필요
👍