Sign In

Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models

Created by
  • Haebom
Category
Empty

μ €μž

Jeongjae Lee, Jinho Chang, Jeongsol Kim, Jong Chul Ye

πŸ’‘ κ°œμš”

λ³Έ 논문은 사전 ν•™μŠ΅λœ ν™•μ‚° λͺ¨λΈ 및 흐름 기반 생성 λͺ¨λΈμ„ 더 높은 보상 값을 κ°€μ§„ μƒ˜ν”Œμ„ μƒμ„±ν•˜λ„λ‘ μ‘°μ •ν•˜λŠ” 보상 기반 νŒŒμΈνŠœλ‹ 방법듀을 '보상 점수 λ§€μΉ­(Reward Score Matching, RSM)'μ΄λΌλŠ” ν†΅ν•©λœ ν”„λ ˆμž„μ›Œν¬λ‘œ μž¬ν•΄μ„ν•©λ‹ˆλ‹€. RSM κ΄€μ μ—μ„œ μƒ˜ν”Œ 정렬은 κ°’ ν•¨μˆ˜ μ•ˆλ‚΄ νƒ€κ²Ÿμ— λŒ€ν•œ 점수 맀칭으둜 κ°„μ£Όλ˜λ©°, κΈ°μ‘΄ λ°©λ²•λ“€μ˜ μ°¨μ΄λŠ” κ°’ μ•ˆλ‚΄ μΆ”μ •κΈ°μ˜ ꡬ성과 νƒ€μž„μŠ€ν… μ „λ°˜μ˜ μ΅œμ ν™” 강도에 μžˆλ‹€λŠ” 것을 λ³΄μž…λ‹ˆλ‹€. 이λ₯Ό 톡해 λ³Έ μ—°κ΅¬λŠ” κΈ°μ‘΄ μ„€κ³„μ˜ 편ν–₯-λΆ„μ‚°-계산 νŠΈλ ˆμ΄λ“œμ˜€ν”„λ₯Ό λͺ…ν™•νžˆ ν•˜κ³ , λ‹¨μˆœν•˜κ³  효율적인 μž¬μ„€κ³„λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
보상 기반 νŒŒμΈνŠœλ‹ 방법듀을 '보상 점수 λ§€μΉ­'μ΄λΌλŠ” 단일 ν”„λ ˆμž„μ›Œν¬λ‘œ ν†΅ν•©ν•˜μ—¬ κΈ°μ‘΄ λ°©λ²•λ“€μ˜ 이해λ₯Ό 높이고 λ””μžμΈ 곡간을 μΆ•μ†Œν•©λ‹ˆλ‹€.
β€’
RSM ν”„λ ˆμž„μ›Œν¬λŠ” κ°’ μ•ˆλ‚΄ μΆ”μ •κΈ° 섀계와 μ΅œμ ν™” 강도 μ‘°μ ˆμ΄λΌλŠ” 핡심 μš”μ†Œμ— μ§‘μ€‘ν•¨μœΌλ‘œμ¨, λΆˆν•„μš”ν•œ λ³΅μž‘μ„±μ„ 쀄이고 효율적인 λͺ¨λΈ μž¬μ„€κ³„λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ‹œλœ λ‹¨μˆœν™”λœ μž¬μ„€κ³„μ˜ μΌλ°˜ν™” μ„±λŠ₯ 및 λ‹€μ–‘ν•œ λ³΅μž‘ν•œ 보상 ν•¨μˆ˜μ— λŒ€ν•œ νš¨κ³ΌλŠ” 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘