SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

작성자

Haebom

카테고리

Empty

저자

Zaiyi Zheng, Guanghui Min, Yaochen Zhu, Liang Wu, Liangjie Hong, Chen Chen, Jundong Li

💡 개요

본 논문은 아이템을 의미론적 식별자(SID)로 생성하는 추천 방식에서 발생하는 학습 문제를 해결하고자 합니다. 기존에는 생성된 SID 전체에 대한 성공/실패 여부만을 바탕으로 강화학습을 진행했지만, 이는 오류의 원인을 정확히 파악하기 어렵다는 한계가 있었습니다. SAPO는 각 추론 단계(사고 블록과 SID 토큰 쌍)에 대한 개별적인 상대적 장점을 계산하여 적용함으로써, 강화학습 훈련을 안정화하고 기존 생성 추천 모델 대비 일관적인 성능 향상을 이루었습니다.

🔑 시사점 및 한계

•

추론 기반 생성 추천에서 강화학습의 효과적인 신용 할당 단위는 개별 추론 단계임을 제시합니다.

•

SAPO는 구조화된 생성 작업에 대한 강화학습 목표가 디코더의 출력 분해 방식을 모방해야 한다는 점을 시사합니다.

•

제안된 방법론은 희소한 정확성 매칭 피드백 환경에서 특히 효과적입니다.

•

향후 연구에서는 SAPO의 일반화 가능성을 다양한 생성 작업 및 더 복잡한 추론 구조에 대해 탐색할 필요가 있습니다.

PDF 보기

Made with Slashpage