Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fine-Tuning Diffusion-Based Recommender Systems via Reinforcement Learning with Reward Function Optimization

Created by
  • Haebom
Category
Empty

저자

Yu Hou, Hua Li, Ha Young Kim, Won-Yong Shin

개요

Diffusion 모델은 사용자-아이템 상호작용의 생성 과정을 모델링하여 추천 시스템에서 강력한 성능을 보여주고 있다. 그러나 이러한 모델을 처음부터 학습하는 것은 계산 비용이 많이 들고 수렴에 도달하면 성과가 줄어든다. ReFiT은 강화 학습(RL) 기반 미세 조정을 확산 기반 추천 시스템에 통합하는 새로운 프레임워크를 제안한다. ReFiT은 외부 보상 모델에 의존하는 이전의 확산 모델에 대한 RL 접근 방식과 달리, 덴노이징 궤적을 마르코프 결정 과정(MDP)으로 공식화하고 추천 품질을 직접 반영하는 협업 신호 인식 보상 함수를 통합한다. 정책 기울기 최적화를 활용하여 ReFiT은 관찰된 상호작용의 정확한 로그 우도를 최대화하여 확산 추천기의 효과적인 사후 미세 조정을 가능하게 한다.

시사점, 한계점

강력한 경쟁자 대비 상당한 성능 향상 (시퀀스 추천에서 최대 36.3% 향상).
사용자 또는 아이템 수에 대해 선형 복잡성을 가지는 강력한 효율성.
여러 확산 기반 추천 시나리오에서 잘 일반화됨.
소스 코드 및 데이터 세트 공개.
👍