Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models

Created by
  • Haebom

作者

Xinyi Ling, Hanwen Du, Zhihui Zhu, Xia Ning

概要

本論文では、Eコマースプラットフォームのさまざまな画像データが常に製品の理解度を向上させるわけではないという問題を提起し、これを体系的に検証するための大規模なマルチモードマルチタスク理解データセットEcomMMMU(406,190サンプル、8,989,510画像)を紹介します。 EcomMMMUは、8つの必須タスクと複数の画像使用率を評価するためのVisual Selection Subset(VSS)サブセットで構成されており、マルチモード大規模言語モデル(MLLM)のパフォーマンスをベンチマークするために使用されます。 EcomMMMU分析は、製品イメージが常にパフォーマンスを向上させるわけではなく、場合によってはパフォーマンスを低下させる可能性があることを発見しました。これらの洞察に基づいて、本論文は、画像の有用性を予測し、サブタスクに戦略的に活用するデータベースの方法であるSUMEIを提案します。実験結果はSUMEIの有効性と堅牢性を実証した。データとコードはhttps://anonymous.4open.science/r/submission25で利用できます。

Takeaways、Limitations

Takeaways:
Eコマースプラットフォームのマルチモードデータを活用するための新しい視点を提示します。画像データが常に有益であるとは限りません。
大規模マルチモードデータセットEcomMMMUを介したMLLMの多重画像利用能力の評価と改善の可能性の提示
画像有用性予測に基づく効率的なマルチ画像利用法SUMEI提案
MLLMは、豊富な視覚コンテンツをeコマース作業に効果的に活用することが困難になる可能性があることを示唆しています。
Limitations:
EcomMMMUデータセットの特定のeコマースプラットフォームに対するバイアス可能性。
SUMEI法の一般化の可能性に関するさらなる研究の必要性
提示された8つのタスク以外のeコマース関連タスクのパフォーマンス検証が必要です。
👍