본 논문은 다양한 작업의 기반이 되는 보편적인 멀티모달 임베딩 모델을 개선하기 위해, MLLM(Multi-modal Large Language Model)의 고급 이해 능력을 활용하는 새로운 접근 방식을 제시합니다. 기존의 배치 내 부정적 샘플링 방식의 한계를 극복하기 위해, 글로벌 검색을 통해 잠재적 하드 네거티브 세트를 구축하고, MLLM을 활용하여 쿼리-후보 쌍의 의미적 정렬을 평가하고 소프트 의미 매칭 점수를 생성하는 'MLLM-as-a-Judge' 메커니즘을 도입합니다. 이 점수를 기반으로 하드 네거티브를 마이닝하여 모델의 판별 능력을 향상시키고, 소프트 라벨을 사용하여 경직된 일대일 매핑 제약을 완화합니다. 또한, UniME-V2-Reranker를 제안하여 마이닝된 하드 네거티브에 대해 공동 쌍별 및 목록별 최적화 방식을 통해 훈련하여 성능을 더욱 향상시킵니다. MMEB 벤치마크 및 다양한 검색 작업에서 실험을 수행하여 SOTA (State-of-the-Art) 성능을 달성했습니다.
시사점, 한계점
•
MLLM을 활용하여 하드 네거티브를 효과적으로 마이닝하고, 소프트 라벨을 통해 모델의 판별 능력을 향상시킴.