Sign In

SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment

Created by
  • Haebom
Category
Empty

저자

Xinyu Mao, Junsi Li, Haoji Zhang, Yu Liang, Ming Sun

SEPS: Semantic-Enhanced Patch Slimming for Cross-Modal Alignment

개요

본 논문은 시각-언어 간 미세 조정 정렬을 목표로, 패치 중복성과 모호성을 해결하기 위한 Semantic-Enhanced Patch Slimming (SEPS) 프레임워크를 제안합니다. MLLMs의 강력한 의미 생성 능력을 활용하여 두 단계 메커니즘을 통해 통합된 의미를 통합하고, 중요한 시각적 패치를 식별합니다. 또한 평균값을 계산하여 관련성을 인식하는 선택을 통해 중요한 패치-단어 대응을 강조하고, 교차 모달 유사성 평가를 개선합니다. Flickr30K 및 MS-COCO 데이터셋에서 기존 접근 방식보다 rSum에서 23%-86% 더 높은 성능을 달성했습니다.

시사점, 한계점

시사점:
패치 중복성 및 모호성을 해결하여 시각-언어 정렬의 정확성을 향상시킴.
MLLMs의 강력한 의미 생성 능력을 활용하여 의미 통합을 효과적으로 수행.
관련성 인식 선택 메커니즘을 통해 중요한 패치-단어 대응을 강조.
다양한 모델 아키텍처에서 기존 방법보다 우수한 성능을 보임.
한계점:
논문에 구체적인 한계점이 명시되어 있지 않음. (논문 요약만으로는 확인 불가)
본 논문에서 제안하는 방법의 확장성 및 일반화 가능성에 대한 추가 연구 필요.
👍