Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data

작성자

Haebom

카테고리

Empty

저자

Shiwon Kim, Yu Rang Park

💡 개요

본 연구는 데이터가 부족한 환경에서 별도로 사전 학습된 단일 모달 인코더를 효율적으로 정렬하기 위한 새로운 사후 다중 모달 정렬 방법론을 제안합니다. 기존 방법이 전역적 표현에 초점을 맞춰 미세한 패치-토큰 관계를 놓치는 한계를 극복하고자, 본 연구는 학습 가능한 앵커를 활용하여 토큰 수준의 상호 모달 구조를 학습하는 상대 표현 방식을 도입합니다. 이를 통해 적은 양의 페어링된 데이터만으로도 정밀한 교차 모달 매칭 능력을 크게 향상시켜, 제로샷 분류, 교차 모달 검색, 제로샷 분할 등의 작업에서 기존 방법 대비 우수한 성능을 달성했습니다.

🔑 시사점 및 한계

•

데이터가 제한적인 상황에서 별도로 사전 학습된 모델들을 효과적으로 정렬하기 위해 전역적 표현보다는 토큰 수준의 미세한 구조 학습이 중요함을 보여줍니다.

•

적은 수의 페어링된 데이터를 사용하여도 학습 가능한 앵커를 통해 강력한 다중 모달 표현을 학습할 수 있음을 입증합니다.

•

본 방법론은 별도의 투사층 없이 앵커 학습만으로도 상당한 성능 향상을 이루어, 효율적인 다중 모달 정렬의 가능성을 제시합니다.

•

향후 연구에서는 더 복잡한 도메인이나 더 적은 데이터 환경에서의 적용 가능성을 탐색하고, 앵커의 개수 및 학습 전략 최적화 등의 추가적인 개선 방안을 연구할 필요가 있습니다.

PDF 보기

Made with Slashpage