Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising

Created by
  • Haebom
Category
Empty

저자

Chenghan Fu, Daoze Zhang, Yukang Lin, Zhanheng Nie, Xiang Zhang, Jianyu Liu, Yueran Liu, Wanxian Guan, Pengjie Wang, Jian Xu, Bo Zheng

개요

MOON은 전자상거래 애플리케이션을 위한 멀티모달 표현 학습을 위한 지속 가능한 반복적 실천의 포괄적인 집합입니다. Taobao 검색 광고 시스템의 모든 단계(검색, 관련성, 순위 등)에 완전히 배포되었습니다. 클릭률(CTR) 예측 작업에서 특히 상당한 성능 향상을 보였으며, 전체적으로 +20.00% 온라인 CTR이 개선되었습니다. 지난 3년 동안 이 프로젝트는 CTR 예측 작업에서 가장 큰 개선을 이루었으며 5번의 전면적인 반복을 거쳤습니다. MOON의 탐구와 반복을 통해 연구 커뮤니티에 도움이 될 가치 있는 통찰력과 실질적인 경험을 축적했습니다. MOON은 "사전 훈련, 사후 훈련, 응용"의 3단계 훈련 패러다임을 포함하여 멀티모달 표현을 다운스트림 작업과 효과적으로 통합할 수 있습니다. 특히 멀티모달 표현 학습의 목표와 다운스트림 훈련의 목표 간의 불일치를 해결하기 위해, 중간 지표의 개선이 다운스트림 이득으로 얼마나 효과적으로 변환될 수 있는지 정량화하기 위해 환율을 정의합니다. 이러한 분석을 통해 이미지 기반 검색 리콜을 멀티모달 모델 최적화를 안내하는 중요한 중간 지표로 식별합니다. 3년과 5번의 반복에 걸쳐 MOON은 데이터 처리, 훈련 전략, 모델 아키텍처 및 다운스트림 응용의 4가지 중요한 차원으로 발전했습니다. 반복적인 개선을 통해 얻은 교훈과 통찰력도 공유됩니다. 전자 상거래 분야에서 확장 효과에 대한 탐구의 일환으로, 훈련 토큰 수, 부정적 샘플 수 및 사용자 행동 시퀀스 길이를 포함한 여러 요소를 검토하여 멀티모달 표현 학습을 지배하는 확장 법칙에 대한 체계적인 연구를 수행합니다.

시사점, 한계점

시사점:
전자상거래 분야에서 멀티모달 표현 학습의 성공적인 적용 및 상당한 성능 향상(CTR +20.00%).
3단계 훈련 패러다임(사전 훈련, 사후 훈련, 응용)을 통한 멀티모달 표현과 다운스트림 작업의 효과적인 통합.
"환율" 개념을 통한 중간 지표(이미지 기반 검색 리콜)와 다운스트림 성능 간의 연결.
데이터 처리, 훈련 전략, 모델 아키텍처, 다운스트림 응용의 4가지 차원에서의 지속적인 개선.
멀티모달 표현 학습의 확장 법칙에 대한 체계적인 연구.
한계점:
구체적인 모델 아키텍처 및 훈련 세부 정보는 공개되지 않음.
MOON의 일반화 가능성은 아직 불분명함 (Taobao 검색 광고 시스템에 특화).
실험에 사용된 데이터, 하이퍼파라미터 등 구체적인 실험 환경에 대한 정보 부족.
개선 사항이 CTR에만 국한될 가능성.
👍