Enhancing Embedding Representation Stability in Recommendation Systems with Semantic ID
Created by
Haebom
저자
Carolina Zheng, Minhui Huang, Dmitrii Pedchenko, Kaushik Rangadurai, Siyu Wang, Gaby Nahum, Jie Lei, Yang Yang, Tao Liu, Zutian Luo, Xiaohan Wei, Dinesh Ramasamy, Jiyan Yang, Yiping Han, Lin Yang, Hangjun Xu, Rong Jin, Shuang Yang
개요
본 논문은 산업용 추천 시스템에서 ID 기반 모델이 온라인 콘텐츠의 기하급수적인 증가로 인해 직면하는 과제(매우 높은 카디널리티와 동적으로 증가하는 ID 공간, 매우 치우친 참여 분포, 자연적인 ID 수명 주기로 인한 예측 불안정성 등)를 다룹니다. 이러한 문제를 해결하기 위해 많은 시스템이 ID 공간을 처리하고 모델 매개변수(임베딩 테이블)를 제어하기 위해 무작위 해싱에 의존하지만, 이는 여러 ID가 동일한 임베딩을 공유함으로써 데이터 오염을 야기하여 모델 성능 저하 및 임베딩 표현 불안정성을 초래합니다. 본 논문에서는 이러한 문제점을 분석하고, 기존 Semantic ID를 크게 개선하는 새로운 토큰 매개변시키기 방법인 Semantic ID prefix ngram을 제시합니다. Semantic ID prefix ngram은 무작위 할당이 아닌 콘텐츠 임베딩을 기반으로 항목을 계층적으로 클러스터링하여 의미 있는 충돌을 생성합니다. 광범위한 실험을 통해 Semantic ID prefix ngram이 임베딩 불안정성을 해결하고, 꼬리 ID 모델링을 개선하며, 과적합을 줄이고, 표현 변화를 완화하는 것을 보여줍니다. 또한 사용자 히스토리를 문맥화하는 어텐션 기반 모델에서의 Semantic ID prefix ngram의 장점을 강조하고, 상당한 성능 향상을 보여줍니다. 마지막으로 Meta의 프로덕션 광고 순위 시스템에 Semantic ID를 통합한 경험을 보고하며, 실제 배포에서 눈에 띄는 성능 향상과 예측 안정성 향상을 이끌어냈음을 밝힙니다.
시사점, 한계점
•
시사점:
◦
Semantic ID prefix ngram은 산업용 추천 시스템에서 ID 기반 모델의 성능을 크게 향상시킵니다.
◦
임베딩 불안정성 문제를 해결하고, 꼬리 ID 모델링 성능을 개선합니다.
◦
과적합을 줄이고, 표현 변화를 완화합니다.
◦
어텐션 기반 모델의 성능을 상당히 향상시킵니다.
◦
실제 시스템 배포에서 성능 향상과 예측 안정성 향상을 가져옵니다.
•
한계점:
◦
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
◦
다른 유형의 추천 시스템이나 데이터셋에 대한 실험 결과가 제시되지 않았습니다.
◦
Semantic ID prefix ngram의 계층적 클러스터링 방법의 최적화에 대한 논의가 부족합니다.
◦
Meta의 프로덕션 시스템에 특화된 결과일 수 있으며, 다른 시스템 적용 시 성능 차이가 발생할 수 있습니다.