MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding
Created by
Haebom
Category
Empty
저자
Daoze Zhang, Zhanheng Nie, Jianyu Liu, Chenghan Fu, Wanxian Guan, Yuan Gao, Jun Song, Pengjie Wang, Jian Xu, Bo Zheng
개요
본 논문은 전자상거래 환경에서 제품 이해를 위한 일반적인 표현 학습의 중요성을 강조하며, 특히 생성형 Multimodal Large Language Model (MLLM)을 활용하여 제품 표현 학습을 개선하는 MOON 모델을 제안합니다. 이 모델은 멀티모달 및 속성 인식 모델링, 배경 노이즈 제거, 특화된 부정 샘플링 전략을 통해 여러 과제를 해결합니다. 또한, 다양한 제품 이해 작업을 위한 대규모 멀티모달 벤치마크 MBE를 도입했습니다. MOON 모델은 제로샷 성능에서 경쟁력을 보였으며, 교차 모달 검색, 제품 분류, 속성 예측 등 다양한 다운스트림 작업에서 강한 일반화 능력을 입증했습니다.
시사점, 한계점
•
시사점:
◦
생성형 MLLM을 활용하여 제품 표현 학습의 새로운 접근 방식을 제시.
◦
멀티모달 및 속성 인식 모델링을 위한 MoE 모듈, 배경 노이즈 제거 기술, 특화된 부정 샘플링 전략을 통해 모델 성능 향상.