Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Created by
  • Haebom
Category
Empty

저자

Daoze Zhang, Zhanheng Nie, Jianyu Liu, Chenghan Fu, Wanxian Guan, Yuan Gao, Jun Song, Pengjie Wang, Jian Xu, Bo Zheng

개요

본 논문은 전자상거래 환경에서 제품 이해를 위한 일반적인 표현 학습의 중요성을 강조하며, 특히 생성형 Multimodal Large Language Model (MLLM)을 활용하여 제품 표현 학습을 개선하는 MOON 모델을 제안합니다. 이 모델은 멀티모달 및 속성 인식 모델링, 배경 노이즈 제거, 특화된 부정 샘플링 전략을 통해 여러 과제를 해결합니다. 또한, 다양한 제품 이해 작업을 위한 대규모 멀티모달 벤치마크 MBE를 도입했습니다. MOON 모델은 제로샷 성능에서 경쟁력을 보였으며, 교차 모달 검색, 제품 분류, 속성 예측 등 다양한 다운스트림 작업에서 강한 일반화 능력을 입증했습니다.

시사점, 한계점

시사점:
생성형 MLLM을 활용하여 제품 표현 학습의 새로운 접근 방식을 제시.
멀티모달 및 속성 인식 모델링을 위한 MoE 모듈, 배경 노이즈 제거 기술, 특화된 부정 샘플링 전략을 통해 모델 성능 향상.
대규모 멀티모달 벤치마크 MBE를 구축하여 제품 이해 작업의 평가 기준 제시.
제로샷 성능 및 다운스트림 작업에서의 강력한 일반화 능력 입증.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍