Sign In

UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

Created by
  • Haebom
Category
Empty

저자

Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su

개요

다중 모드 대형 언어 모델(MLLM)의 성공은 다중 모드 임베딩 발전을 이끌었지만, 기존 모델은 본질적으로 판별적이어서 추론 기반 생성 패러다임의 이점을 활용하는 데 한계가 있었습니다. 본 연구에서는 생성적 임베딩을 개척하여 임베딩 작업을 생성적 패러다임 내에서 통합합니다. UME-R1을 제안하며, 이는 두 단계의 훈련 전략으로 구성된 범용 다중 모드 임베딩 프레임워크입니다. 첫 번째 단계는 냉각 시작 지도 학습 미세 조정으로 모델에 추론 능력을 부여하고 판별적 및 생성적 임베딩을 생성할 수 있도록 합니다. 두 번째 단계는 강화 학습을 통해 추론을 강화하고 생성적 임베딩 품질을 더욱 최적화합니다. UME-R1은 MLLM의 강력한 생성적 추론 능력을 활용하여 기존 판별적 임베딩보다 상당한 성능 향상을 달성하며, 판별적 임베딩과 생성적 임베딩은 상호 보완적임을 밝힙니다. 또한 RL을 통해 생성적 임베딩을 효과적으로 개선하고, 추론 시 반복 샘플링이 다운스트림 작업 범위를 향상시키는 것을 보여줍니다. 비디오, 이미지, 시각 문서에 걸쳐 78개의 작업을 포함하는 MMEB-V2 벤치마크에서 UME-R1은 기존 판별적 임베딩 모델보다 훨씬 뛰어난 성능을 보이며, 해석 가능하고 추론 기반의 생성적 다중 모드 임베딩의 기반을 제공합니다.

시사점, 한계점

생성적 임베딩은 MLLM의 강력한 생성적 추론 능력을 활용하여 기존 판별적 임베딩에 비해 상당한 성능 향상을 제공합니다.
판별적 임베딩과 생성적 임베딩은 상호 보완적이며, 결합된 성능은 각 임베딩 단독의 성능보다 훨씬 뛰어납니다.
강화 학습(RL)은 생성적 임베딩을 효과적으로 향상시켜 확장 가능한 최적화 패러다임을 확립합니다.
추론 시 반복 샘플링은 다운스트림 작업 적용 범위(pass@k)를 향상시키며, 생성적 임베딩의 추론 시간 확장성 잠재력을 강조합니다.
연구는 UME-R1에 대한 소개를 제공하며, 구체적인 기술적 세부 사항 및 잠재적인 단점을 자세히 다루지는 않습니다.
👍