Uni-MoE 2.0은 Lychee 계열의 완전 오픈 소스 옴니모달 대형 모델(OLM)로, 언어 중심의 멀티모달 이해, 추론 및 생성 능력을 향상시켰습니다. Qwen2.5-7B 밀집 아키텍처를 기반으로, 동적 용량 Mixture-of-Experts(MoE) 설계, 반복적 강화 전략을 통해 향상된 점진적 훈련 전략, 그리고 신중하게 큐레이션된 멀티모달 데이터 매칭 기술을 통해 Uni-MoE-2.0-Omni를 처음부터 구축했습니다. 옴니모달 이해는 물론 이미지, 텍스트, 음성 생성이 가능합니다. 새로운 MoE 프레임워크는 공유, 라우팅 및 널 전문가를 사용하여 10개의 교차 모달 입력을 위한 계산 효율성과 성능의 균형을 유지하며, Omni-Modality 3D RoPE는 자체 주의 계층에서 시공간적 교차 모달 정렬을 보장합니다. 훈련을 위해, 교차 모달 사전 훈련 후, 모달리티별 전문가를 활성화하는 점진적 지도 미세 조정 전략을 사용하며, 균형 잡힌 데이터 구성과 반복적 GSPO-DPO 방법을 통해 RL 훈련을 안정화하고 추론을 개선합니다. 약 750억 토큰의 오픈 소스 멀티모달 데이터로 훈련된 기본 모델은 특수 음성 및 이미지 생성 토큰을 갖추고 있어 언어적 단서를 기반으로 출력을 조건화하여 이러한 생성 작업을 학습할 수 있습니다. 85개의 벤치마크에 대한 광범위한 평가를 통해, 이 모델은 선도적인 OLM에 비해 SOTA 또는 경쟁력 있는 성능을 달성했으며, 76개 벤치마크 중 50개 이상에서 Qwen2.5-Omni(1.2T 토큰으로 훈련)를 능가합니다. 주요 강점은 비디오 이해(+7%), 옴니모달리티 이해(+7%), 시청각 추론(+4%)입니다. 또한 장문 음성 처리(WER 4.2% 감소)를 개선하고 5가지 지표에서 저수준 이미지 처리 및 제어 가능한 생성에서 선두를 차지합니다.