Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pre-training Generative Recommender with Multi-Identifier Item Tokenization

Created by
  • Haebom

저자

Bowen Zheng, Enze Liu, Zhongfu Chen, Zhongrui Ma, Yue Wang, Wayne Xin Zhao, Ji-Rong Wen

개요

본 논문은 기존 생성형 추천 시스템의 한계점인 단일 아이템 식별자 사용으로 인한 저빈도 아이템의 부적절한 의미 모델링 및 토큰 시퀀스 데이터의 다양성 부족 문제를 해결하기 위해 MTGRec을 제안합니다. MTGRec은 다중 식별자 아이템 토크나이저와 커리큘럼 추천 사전 학습이라는 두 가지 핵심 혁신을 통해 이 문제를 해결합니다. 다중 식별자 아이템 토크나이저는 RQ-VAE를 기반으로 인접한 학습 epoch의 모델 체크포인트를 의미적으로 관련된 토크나이저로 활용하여 각 아이템에 여러 식별자를 할당하고, 이를 통해 단일 사용자 상호작용 시퀀스를 여러 토큰 시퀀스로 변환합니다. 커리큘럼 추천 사전 학습은 데이터 영향 추정에 기반한 커리큘럼 학습 방식을 도입하여 각 데이터 그룹의 샘플링 확률을 동적으로 조정합니다. 사전 학습 후에는 단일 토크나이저를 사용하여 미세 조정을 수행하여 추천을 위한 정확한 아이템 식별을 보장합니다. 세 개의 공개 벤치마크 데이터셋에 대한 광범위한 실험 결과, MTGRec은 기존의 추천 시스템 및 생성형 추천 시스템보다 효율성과 확장성 측면에서 뛰어난 성능을 보이는 것으로 나타났습니다.

시사점, 한계점

시사점:
저빈도 아이템의 의미 모델링 개선 및 토큰 시퀀스 데이터의 다양성 증대를 통한 생성형 추천 시스템 성능 향상 가능성 제시
다중 식별자 아이템 토크나이저와 커리큘럼 추천 사전 학습이라는 새로운 접근 방식 제시
다양한 데이터셋에서 기존 방법 대비 우수한 성능 검증
한계점:
RQ-VAE를 토크나이저 백본으로 사용하는데, 다른 토크나이저를 사용했을 때 성능 변화에 대한 분석 부족
커리큘럼 학습 방식의 최적 파라미터 설정에 대한 추가 연구 필요
실제 서비스 환경에서의 확장성 및 안정성에 대한 추가적인 검증 필요
👍