# SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

### 저자

Zaiyi Zheng, Guanghui Min, Yaochen Zhu, Liang Wu, Liangjie Hong, Chen Chen, Jundong Li

### 💡 개요

본 논문은 아이템을 의미론적 식별자(SID)로 생성하는 추천 방식에서 발생하는 학습 문제를 해결하고자 합니다. 기존에는 생성된 SID 전체에 대한 성공/실패 여부만을 바탕으로 강화학습을 진행했지만, 이는 오류의 원인을 정확히 파악하기 어렵다는 한계가 있었습니다. SAPO는 각 추론 단계(사고 블록과 SID 토큰 쌍)에 대한 개별적인 상대적 장점을 계산하여 적용함으로써, 강화학습 훈련을 안정화하고 기존 생성 추천 모델 대비 일관적인 성능 향상을 이루었습니다.

### 🔑 시사점 및 한계

- 추론 기반 생성 추천에서 강화학습의 효과적인 신용 할당 단위는 개별 추론 단계임을 제시합니다.

- SAPO는 구조화된 생성 작업에 대한 강화학습 목표가 디코더의 출력 분해 방식을 모방해야 한다는 점을 시사합니다.

- 제안된 방법론은 희소한 정확성 매칭 피드백 환경에서 특히 효과적입니다.

- 향후 연구에서는 SAPO의 일반화 가능성을 다양한 생성 작업 및 더 복잡한 추론 구조에 대해 탐색할 필요가 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.17648)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).