Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

Created by
  • Haebom
Category
Empty

저자

Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing

개요

본 논문은 다양한 작업의 기반이 되는 보편적인 멀티모달 임베딩 모델을 개선하기 위해, MLLM(Multi-modal Large Language Model)의 고급 이해 능력을 활용하는 새로운 접근 방식을 제시합니다. 기존의 배치 내 부정적 샘플링 방식의 한계를 극복하기 위해, 글로벌 검색을 통해 잠재적 하드 네거티브 세트를 구축하고, MLLM을 활용하여 쿼리-후보 쌍의 의미적 정렬을 평가하고 소프트 의미 매칭 점수를 생성하는 'MLLM-as-a-Judge' 메커니즘을 도입합니다. 이 점수를 기반으로 하드 네거티브를 마이닝하여 모델의 판별 능력을 향상시키고, 소프트 라벨을 사용하여 경직된 일대일 매핑 제약을 완화합니다. 또한, UniME-V2-Reranker를 제안하여 마이닝된 하드 네거티브에 대해 공동 쌍별 및 목록별 최적화 방식을 통해 훈련하여 성능을 더욱 향상시킵니다. MMEB 벤치마크 및 다양한 검색 작업에서 실험을 수행하여 SOTA (State-of-the-Art) 성능을 달성했습니다.

시사점, 한계점

MLLM을 활용하여 하드 네거티브를 효과적으로 마이닝하고, 소프트 라벨을 통해 모델의 판별 능력을 향상시킴.
UniME-V2-Reranker를 통해 성능을 추가적으로 개선함.
다양한 멀티모달 벤치마크에서 SOTA를 달성하여 방법론의 효과를 입증함.
MLLM의 계산 비용 및 복잡성이 증가할 수 있음.
MLLM의 성능에 따라 결과가 좌우될 수 있음.
실험에 사용된 데이터셋 및 작업에 따라 성능이 다를 수 있음.
👍