MTRec: Learning to Align with User Preferences via Mental Reward Models
Created by
Haebom
저자
Mengchen Zhao, Yifan Gao, Yaqing Hou, Xiangyang Li, Pengjie Gu, Zhenhua Dong, Ruiming Tang, Yi Cai
개요
본 논문은 사용자의 실제 선호도를 파악하여 추천 시스템의 성능을 향상시키기 위해, 암묵적 피드백의 한계를 극복하는 새로운 순차적 추천 프레임워크인 MTRec을 제안한다. MTRec은 사용자의 만족도를 정량화하는 정신적 보상 모델을 도입하고, 이를 학습하기 위해 분포 역 강화 학습 기법을 사용한다. 학습된 정신적 보상 모델은 추천 모델이 사용자의 실제 선호도에 더 잘 부합하도록 안내하며, 실험 결과 및 실제 단편 영상 플랫폼에서의 적용을 통해 MTRec의 효과를 입증한다.
시사점, 한계점
•
시사점:
◦
암묵적 피드백의 문제점을 해결하여 추천 시스템의 성능을 향상시키는 새로운 프레임워크 제시.