다중 모드 대형 언어 모델(MLLM)의 성공은 다중 모드 임베딩 발전을 이끌었지만, 기존 모델은 본질적으로 판별적이어서 추론 기반 생성 패러다임의 이점을 활용하는 데 한계가 있었습니다. 본 연구에서는 생성적 임베딩을 개척하여 임베딩 작업을 생성적 패러다임 내에서 통합합니다. UME-R1을 제안하며, 이는 두 단계의 훈련 전략으로 구성된 범용 다중 모드 임베딩 프레임워크입니다. 첫 번째 단계는 냉각 시작 지도 학습 미세 조정으로 모델에 추론 능력을 부여하고 판별적 및 생성적 임베딩을 생성할 수 있도록 합니다. 두 번째 단계는 강화 학습을 통해 추론을 강화하고 생성적 임베딩 품질을 더욱 최적화합니다. UME-R1은 MLLM의 강력한 생성적 추론 능력을 활용하여 기존 판별적 임베딩보다 상당한 성능 향상을 달성하며, 판별적 임베딩과 생성적 임베딩은 상호 보완적임을 밝힙니다. 또한 RL을 통해 생성적 임베딩을 효과적으로 개선하고, 추론 시 반복 샘플링이 다운스트림 작업 범위를 향상시키는 것을 보여줍니다. 비디오, 이미지, 시각 문서에 걸쳐 78개의 작업을 포함하는 MMEB-V2 벤치마크에서 UME-R1은 기존 판별적 임베딩 모델보다 훨씬 뛰어난 성능을 보이며, 해석 가능하고 추론 기반의 생성적 다중 모드 임베딩의 기반을 제공합니다.