Sign In

SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zaiyi Zheng, Guanghui Min, Yaochen Zhu, Liang Wu, Liangjie Hong, Chen Chen, Jundong Li

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ•„μ΄ν…œμ„ 의미둠적 μ‹λ³„μž(SID)둜 μƒμ„±ν•˜λŠ” μΆ”μ²œ λ°©μ‹μ—μ„œ λ°œμƒν•˜λŠ” ν•™μŠ΅ 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. κΈ°μ‘΄μ—λŠ” μƒμ„±λœ SID 전체에 λŒ€ν•œ 성곡/μ‹€νŒ¨ μ—¬λΆ€λ§Œμ„ λ°”νƒ•μœΌλ‘œ κ°•ν™”ν•™μŠ΅μ„ μ§„ν–‰ν–ˆμ§€λ§Œ, μ΄λŠ” 였λ₯˜μ˜ 원인을 μ •ν™•νžˆ νŒŒμ•…ν•˜κΈ° μ–΄λ ΅λ‹€λŠ” ν•œκ³„κ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€. SAPOλŠ” 각 μΆ”λ‘  단계(사고 블둝과 SID 토큰 쌍)에 λŒ€ν•œ κ°œλ³„μ μΈ μƒλŒ€μ  μž₯점을 κ³„μ‚°ν•˜μ—¬ μ μš©ν•¨μœΌλ‘œμ¨, κ°•ν™”ν•™μŠ΅ ν›ˆλ ¨μ„ μ•ˆμ •ν™”ν•˜κ³  κΈ°μ‘΄ 생성 μΆ”μ²œ λͺ¨λΈ λŒ€λΉ„ 일관적인 μ„±λŠ₯ ν–₯상을 μ΄λ£¨μ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΆ”λ‘  기반 생성 μΆ”μ²œμ—μ„œ κ°•ν™”ν•™μŠ΅μ˜ 효과적인 μ‹ μš© ν• λ‹Ή λ‹¨μœ„λŠ” κ°œλ³„ μΆ”λ‘  λ‹¨κ³„μž„μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
SAPOλŠ” κ΅¬μ‘°ν™”λœ 생성 μž‘μ—…μ— λŒ€ν•œ κ°•ν™”ν•™μŠ΅ λͺ©ν‘œκ°€ λ””μ½”λ”μ˜ 좜λ ₯ λΆ„ν•΄ 방식을 λͺ¨λ°©ν•΄μ•Ό ν•œλ‹€λŠ” 점을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 ν¬μ†Œν•œ μ •ν™•μ„± λ§€μΉ­ ν”Όλ“œλ°± ν™˜κ²½μ—μ„œ 특히 νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” SAPO의 μΌλ°˜ν™” κ°€λŠ₯성을 λ‹€μ–‘ν•œ 생성 μž‘μ—… 및 더 λ³΅μž‘ν•œ μΆ”λ‘  ꡬ쑰에 λŒ€ν•΄ 탐색할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘