Lychee 계열의 완전 오픈 소스 옴니모달 대형 모델(OLM)인 Uni-MoE 2.0을 제시합니다. 언어 중심의 멀티모달 이해, 추론 및 생성 측면에서 Lychee의 Uni-MoE 시리즈를 크게 발전시켰습니다. 밀집 LLM을 기반으로, 동적 용량 Mixture-of-Experts(MoE) 설계, 반복적 강화 전략으로 강화된 점진적 훈련 전략, 그리고 신중하게 큐레이션된 멀티모달 데이터 매칭 기술이라는 세 가지 핵심 기여를 통해 Uni-MoE-2.0-Omni를 처음부터 구축했습니다. 옴니모달 이해뿐만 아니라 이미지, 텍스트 및 음성을 생성할 수 있습니다. 아키텍처적으로, 새로운 MoE 프레임워크는 공유, 라우팅 및 널 전문가를 사용하여 10개의 크로스 모달 입력에 대한 계산 효율성과 성능의 균형을 맞추는 반면, Omni-Modality 3D RoPE는 자체 주의 계층에서 시공간적 크로스 모달 정렬을 보장합니다. 훈련을 위해, 크로스 모달 사전 훈련 후, 모달리티별 전문가를 활성화하는 점진적 지도 미세 조정 전략을 사용하며, 이는 균형 잡힌 데이터 구성과 RL 훈련을 안정화하고 추론을 개선하기 위한 반복적인 GSPO-DPO 방법으로 강화됩니다. 데이터 측면에서, 약 750억 토큰의 오픈 소스 멀티모달 데이터로 훈련된 기본 모델은 특별한 음성 및 이미지 생성 토큰을 갖추고 있어 언어적 단서에 출력을 조건화하여 이러한 생성 작업을 학습할 수 있습니다. 85개의 벤치마크에 걸친 광범위한 평가를 통해, 이 모델은 선도적인 OLM에 대해 SOTA 또는 매우 경쟁력 있는 성능을 달성하여, 1.2T 토큰으로 훈련된 Qwen2.5-Omni를 76개 벤치마크 중 50개 이상에서 능가합니다. 주요 강점으로는 비디오 이해(+7% avg. of 8), 옴니모달 이해(+7% avg. of 4), 청각-시각적 추론(+4%)이 있습니다. 또한 장문 음성 처리를 개선(WER을 4.2% 감소)하고 5가지 지표에서 저수준 이미지 처리 및 제어 가능한 생성에서 선두를 달립니다.