TACLR: A Scalable and Efficient Retrieval-based Method for Industrial Product Attribute Value Identification
Created by
Haebom
저자
Yindu Su, Huike Zou, Lin Sun, Ting Zhang, Haiyang Yang, Liyu Chen, David Lo, Qingheng Zhang, Shuguang Han, Jufeng Chen
개요
본 논문은 전자상거래 플랫폼에서 제품 검색, 추천 및 비즈니스 분석 개선을 위한 핵심 과제인 제품 속성 값 식별(PAVI) 문제를 다룬다. 기존 PAVI 방법들이 암시적 값 추론, 분포 외(OOD) 값 처리, 정규화된 출력 생성 등의 어려움을 겪는다는 점을 지적하며, 이러한 한계를 해결하기 위해 정보 검색 기반의 새로운 방법인 Taxonomy-Aware Contrastive Learning Retrieval (TACLR)을 제시한다. TACLR은 제품 프로필과 후보 값을 임베딩으로 인코딩하고 유사도에 기반하여 값을 검색하는 방식으로 PAVI 문제를 공식화한다. 분류 체계를 고려한 하드 네거티브 샘플링을 사용하는 대조 학습과 동적 임계값을 사용하는 적응형 추론을 활용한다. 암시적 값과 OOD 값을 효과적으로 처리하고 정규화된 출력을 생성하며, 수천 개의 카테고리, 수만 개의 속성, 수백만 개의 값에 확장 가능하고, 대규모 산업 배포를 위한 효율적인 추론을 지원하는 세 가지 주요 장점을 제공한다. 독점 및 공개 데이터셋에 대한 광범위한 실험을 통해 TACLR의 효과성과 효율성을 검증하였으며, 실제 전자상거래 플랫폼 Xianyu에 배포되어 매일 수백만 개의 제품 목록을 처리하고 있다. 코드는 https://github.com/SuYindu/TACLR 에서 공개되었다.