Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval

Created by
  • Haebom

저자

Ruixiang Zhao, Jian Jia, Yan Li, Xuehan Bai, Quan Chen, Han Li, Peng Jiang, Xirong Li

개요

본 논문은 전자상거래에서 이미지, 짧은 비디오, 라이브 스트림 등 다양한 형태의 멀티미디어가 활용되는 추세를 고려하여, 다양한 도메인을 통합하는 벡터화된 상품 표현 학습 방법을 제안합니다. 기존의 시각 정보만으로는 상품 내부 변이와 상품 간 유사성이 높은 광범위한 도메인에서 효과적이지 못하다는 점을 지적하며, 짧은 비디오나 라이브 스트림에서 얻을 수 있는 자동 음성 인식(ASR) 텍스트를 활용하는 방법을 제시합니다. 특히, LLM 기반의 ASR 텍스트 요약기를 사용하여 노이즈가 많은 ASR 텍스트에서 상품 관련 정보를 추출하고, 이를 시각 데이터와 함께 다중 분기 네트워크에 입력하여 압축된 다중 모달 임베딩을 생성하는 AMPere (ASR-enhanced Multimodal Product Representation Learning) 모델을 제안합니다. 대규모 삼중 도메인 데이터셋을 사용한 실험을 통해 AMPere의 효과성을 검증하고, 도메인 간 상품 검색 성능 향상을 보여줍니다.

시사점, 한계점

시사점:
LLM 기반 텍스트 요약기를 활용하여 노이즈가 많은 ASR 텍스트에서 상품 정보를 효과적으로 추출하는 방법을 제시.
다양한 도메인의 상품을 통합적으로 표현하는 다중 모달 학습 모델 AMPere 제안.
대규모 데이터셋을 활용한 실험을 통해 AMPere의 우수성 검증 및 도메인 간 상품 검색 성능 향상 확인.
한계점:
LLM 기반 요약기의 성능에 대한 의존도가 높을 수 있음.
사용된 데이터셋의 특성에 따라 일반화 성능이 제한될 수 있음.
다른 다중 모달 학습 모델과의 비교 분석이 추가적으로 필요함.
👍