EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models
Created by
Haebom
저자
Xinyi Ling, Hanwen Du, Zhihui Zhu, Xia Ning
개요
본 논문은 전자상거래 플랫폼의 다양한 이미지 데이터가 항상 제품 이해도를 향상시키는 것은 아닐 수 있다는 문제점을 제기하며, 이를 체계적으로 검증하기 위한 대규모 다중 모드 다중 작업 이해 데이터셋 EcomMMMU(406,190개 샘플, 8,989,510개 이미지)를 소개합니다. EcomMMMU는 8가지 필수 작업과 다중 이미지 활용 능력을 평가하기 위한 VSS(Visual Selection Subset) 서브셋으로 구성되어 있으며, 다중 모드 대규모 언어 모델(MLLM)의 성능을 벤치마킹하는 데 사용됩니다. EcomMMMU 분석 결과, 제품 이미지가 항상 성능을 향상시키는 것은 아니며 경우에 따라 성능을 저하시키기도 한다는 것을 발견했습니다. 이러한 통찰력을 바탕으로, 본 논문은 이미지의 유용성을 예측하여 하위 작업에 전략적으로 활용하는 데이터 기반 방법인 SUMEI를 제안합니다. 실험 결과 SUMEI의 효과성과 견고성을 입증합니다. 데이터와 코드는 https://anonymous.4open.science/r/submission25 에서 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
전자상거래 플랫폼의 다중 모드 데이터 활용에 대한 새로운 관점 제시: 이미지 데이터가 항상 유익한 것은 아님을 밝힘.
◦
대규모 다중 모드 데이터셋 EcomMMMU를 통해 MLLM의 다중 이미지 활용 능력 평가 및 개선 가능성 제시.
◦
이미지 유용성 예측 기반의 효율적인 다중 이미지 활용 방법 SUMEI 제안.
◦
MLLM이 풍부한 시각적 콘텐츠를 전자상거래 작업에 효과적으로 활용하는 데 어려움을 겪을 수 있음을 시사.