본 논문은 전자상거래에서 이미지, 짧은 비디오, 라이브 스트림 등 다양한 형태의 멀티미디어가 활용되는 추세를 고려하여, 다양한 도메인을 통합하는 벡터화된 상품 표현 학습 방법을 제안합니다. 기존의 시각 정보만으로는 상품 내부 변이와 상품 간 유사성이 높은 광범위한 도메인에서 효과적이지 못하다는 점을 지적하며, 짧은 비디오나 라이브 스트림에서 얻을 수 있는 자동 음성 인식(ASR) 텍스트를 활용하는 방법을 제시합니다. 특히, LLM 기반의 ASR 텍스트 요약기를 사용하여 노이즈가 많은 ASR 텍스트에서 상품 관련 정보를 추출하고, 이를 시각 데이터와 함께 다중 분기 네트워크에 입력하여 압축된 다중 모달 임베딩을 생성하는 AMPere (ASR-enhanced Multimodal Product Representation Learning) 모델을 제안합니다. 대규모 삼중 도메인 데이터셋을 사용한 실험을 통해 AMPere의 효과성을 검증하고, 도메인 간 상품 검색 성능 향상을 보여줍니다.