e-commerce의 급격한 성장에 따라 풍부한 시각적 및 텍스트 제품 정보를 이해하는 다중 모드 모델의 필요성이 대두됨. 기존 MLLM (Multimodal Large Language Models)은 표현 학습에 강점을 보이나, 모드 불균형, 제품 내 시각 및 텍스트 정보의 정렬 관계 활용 부족, e-commerce 다중 모드 데이터의 노이즈 처리 제한 등의 문제점에 직면. MOON2.0은 이러한 문제를 해결하기 위해 제안된 동적 모드 균형 다중 모드 표현 학습 프레임워크로, Modality-driven Mixture-of-Experts (MoE) 모듈, Dual-level Alignment 방법, MLLM 기반 이미지-텍스트 공동 증가 전략, 그리고 Dynamic Sample Filtering을 포함함. MOON2.0은 MBE2.0 및 여러 공개 데이터 세트에서 최첨단 제로샷 성능을 달성했으며, 시각화 결과를 통해 향상된 다중 모드 정렬을 입증함.