Sign In

LGCA: Enhancing Semantic Representation via Progressive Expansion

Created by
  • Haebom
Category
Empty

저자

Thanh Hieu Cao, Trung Khang Tran, Gia Thinh Pham, Tuong Nghiem Diep, Thanh Binh Nguyen

개요

본 논문은 대규모 사전 학습된 비전-언어 모델의 성능 향상을 위해 제안된 Localized-Globalized Cross-Alignment (LGCA) 프레임워크를 소개합니다. CLIP과 같은 모델의 성능 향상을 위해 이미지의 지역적 특징을 포착하고, 중요한 영역을 반복적으로 확장하여 모델이 지역적 및 전역적 특징을 모두 캡처하도록 설계되었습니다. 또한, 오해의 소지를 최소화하고, 확장 과정 전과 동일한 시간 복잡성을 유지하며, 다양한 데이터셋에서 기존 모델보다 우수한 성능을 보임을 실험적으로 입증했습니다.

시사점, 한계점

시사점:
이미지 내 지역적 특징과 전역적 특징을 모두 고려하는 새로운 프레임워크 제시.
오해의 소지를 줄이고 모델의 효율성을 유지하면서 제로샷 성능 향상.
다양한 데이터셋에서 SOTA 달성.
한계점:
본 논문에서 구체적인 한계점은 언급되지 않음.
👍