Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Created by
  • Haebom
Category
Empty

저자

Daoze Zhang, Chenghan Fu, Zhanheng Nie, Jianyu Liu, Wanxian Guan, Yuan Gao, Jun Song, Pengjie Wang, Jian Xu, Bo Zheng

개요

본 논문은 전자상거래 환경에서 제품 표현 학습을 위해 생성적 Multimodal Large Language Models (MLLMs) 기반 모델인 MOON을 제안합니다. 기존의 판별적 아키텍처가 가진 한계를 극복하고, 여러 이미지와 텍스트 간의 many-to-one 정렬 문제를 해결하고자 합니다. 이를 위해 MOON은 가이드된 Mixture-of-Experts (MoE) 모듈을 사용하여 멀티모달 및 특정 속성에 특화된 제품 콘텐츠를 모델링하고, 배경 잡음을 제거하며, 특화된 negative sampling 전략을 사용하여 성능을 향상시킵니다. 또한, 대규모 멀티모달 벤치마크 MBE를 공개하고, 다양한 다운스트림 작업에서 강력한 제로샷 성능을 입증합니다.

시사점, 한계점

시사점:
MLLMs를 활용한 제품 표현 학습의 새로운 접근 방식 제시.
가이드된 MoE 모듈, 배경 잡음 제거, negative sampling 전략을 통한 성능 향상.
대규모 멀티모달 벤치마크 MBE 공개.
다양한 다운스트림 작업에서 경쟁력 있는 제로샷 성능 입증.
제품 이해에 대한 MOON의 효과를 시각적으로 보여주는 사례 연구.
한계점:
구체적인 아키텍처 세부 사항이나 성능 수치에 대한 상세 정보 부족.
실제 구현 및 적용에 대한 구체적인 내용 부족.
MOON의 계산 비용 및 효율성에 대한 정보 부재.
👍