MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding
Created by
Haebom
Category
Empty
저자
Daoze Zhang, Chenghan Fu, Zhanheng Nie, Jianyu Liu, Wanxian Guan, Yuan Gao, Jun Song, Pengjie Wang, Jian Xu, Bo Zheng
개요
본 논문은 전자상거래 환경에서 제품 표현 학습을 위해 생성적 Multimodal Large Language Models (MLLMs) 기반 모델인 MOON을 제안합니다. 기존의 판별적 아키텍처가 가진 한계를 극복하고, 여러 이미지와 텍스트 간의 many-to-one 정렬 문제를 해결하고자 합니다. 이를 위해 MOON은 가이드된 Mixture-of-Experts (MoE) 모듈을 사용하여 멀티모달 및 특정 속성에 특화된 제품 콘텐츠를 모델링하고, 배경 잡음을 제거하며, 특화된 negative sampling 전략을 사용하여 성능을 향상시킵니다. 또한, 대규모 멀티모달 벤치마크 MBE를 공개하고, 다양한 다운스트림 작업에서 강력한 제로샷 성능을 입증합니다.
시사점, 한계점
•
시사점:
◦
MLLMs를 활용한 제품 표현 학습의 새로운 접근 방식 제시.
◦
가이드된 MoE 모듈, 배경 잡음 제거, negative sampling 전략을 통한 성능 향상.