Think before Recommendation: Autonomous Reasoning-enhanced Recommender
Created by
Haebom
Category
Empty
저자
Xiaoyu Kong, Junguang Jiang, Bin Liu, Ziru Xu, Han Zhu, Jian Xu, Bo Zheng, Jiancan Wu, Xiang Wang
개요
RecZero는 사용자와 아이템 간의 과거 상호작용을 기반으로 사용자의 선호도를 학습하는 추천 시스템의 핵심 과제를 해결하기 위해 제안된 강화 학습(RL) 기반 추천 패러다임입니다. 대규모 언어 모델(LLM)의 추론 능력을 활용하여 평점 예측 작업을 개선하는 데 초점을 맞추고 있으며, 기존 증류 기반 방식의 한계를 극복하고자 합니다. RecZero는 "Think-before-Recommendation" 프롬프트 구성을 통해 사용자의 관심사, 아이템 특징 및 사용자-아이템 호환성을 단계별로 분석하도록 모델을 안내하며, 그룹 상대 정책 최적화(GRPO)를 활용한 규칙 기반 보상 모델링을 통해 LLM을 최적화합니다. 또한, RecOne이라는 하이브리드 패러다임을 제안하여 지도 학습 기반 미세 조정과 RL을 결합합니다. 실험 결과는 RecZero와 RecOne이 여러 벤치마크 데이터셋에서 기존 기준선을 능가하며, 자율적 추론 기반 추천 시스템을 달성하는 데 있어 RL 패러다임의 우수성을 입증합니다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 능력을 활용하여 추천 시스템의 성능을 향상시키는 새로운 RL 기반 패러다임 제시.
◦
다중 모델 및 다단계 증류 방식 대신, 단일 LLM을 순수 RL을 통해 훈련하여 자율적인 추론 능력 개발.
◦
"Think-before-Recommendation" 프롬프트 구성을 통한 구조적 추론 유도.
◦
GRPO를 활용한 규칙 기반 보상 모델링을 통해 LLM 최적화.
◦
지도 학습과 RL을 결합한 하이브리드 패러다임(RecOne) 제안.
◦
여러 벤치마크 데이터셋에서 기존 기준선 대비 뛰어난 성능 입증.
•
한계점:
◦
논문에서 구체적인 한계점에 대한 언급은 없음. (하지만 RL 모델의 복잡성, 훈련 시간, 계산 비용 등을 고려해 볼 수 있음)