Sign In

Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jeongjae Lee, Jinho Chang, Jeongsol Kim, Jong Chul Ye

πŸ’‘ κ°œμš”

λ³Έ 논문은 ν™•μ‚° λͺ¨λΈκ³Ό ν”Œλ‘œμš° 기반 생성 λͺ¨λΈμ„ 보상 기반으둜 λ―Έμ„Έ μ‘°μ •ν•˜λŠ” λ‹€μ–‘ν•œ κΈ°μ‘΄ 방법둠듀이 '보상 점수 λ§€μΉ­(Reward Score Matching, RSM)'μ΄λΌλŠ” ν†΅μΌλœ ν”„λ ˆμž„μ›Œν¬λ‘œ μ„€λͺ…될 수 μžˆμŒμ„ λ³΄μž…λ‹ˆλ‹€. RSM ν”„λ ˆμž„μ›Œν¬λŠ” 보상 점수 λ§€μΉ­ κ΄€μ μ—μ„œ λ‹€μ–‘ν•œ λ°©λ²•λ‘ λ“€μ˜ 차이λ₯Ό κ°€μΉ˜ μ•ˆλ‚΄ μΆ”μ •κΈ°(value-guidance estimator) ꡬ좕 방식과 νƒ€μž„μŠ€ν…λ³„ μ΅œμ ν™” κ°•λ„λ‘œ λͺ…ν™•νžˆ κ΅¬λΆ„ν•˜λ©°, 이λ₯Ό 톡해 κΈ°μ‘΄ λ°©λ²•λ‘ λ“€μ˜ 편ν–₯-λΆ„μ‚°-κ³„μ‚°λŸ‰ μ ˆμΆ©μ μ„ νŒŒμ•…ν•˜κ³  핡심 μ΅œμ ν™” μš”μ†Œμ™€ 뢀가적인 λ©”μ»€λ‹ˆμ¦˜μ„ κ΅¬λ³„ν•©λ‹ˆλ‹€. 연ꡬ진은 이 ν†΅μΌλœ 관점을 λ°”νƒ•μœΌλ‘œ 더 κ°„λ‹¨ν•˜κ³  효율적인 μž¬μ„€κ³„λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ‹€μ–‘ν•œ 보상 기반 λ―Έμ„Έ μ‘°μ • 방법둠을 '보상 점수 λ§€μΉ­'μ΄λΌλŠ” 단일 ν”„λ ˆμž„μ›Œν¬λ‘œ ν†΅ν•©ν•˜μ—¬ μ΄ν•΄μ˜ 폭을 λ„“ν˜”μŠ΅λ‹ˆλ‹€.
β€’
κΈ°μ‘΄ λ°©λ²•λ‘ λ“€μ˜ 섀계 선택이 편ν–₯, λΆ„μ‚°, κ³„μ‚°λŸ‰ μΈ‘λ©΄μ—μ„œ μ–΄λ–€ μ ˆμΆ©μ μ„ κ°€μ§€λŠ”μ§€ λͺ…ν™•νžˆ μ„€λͺ…ν•˜λ©°, 효율적인 λͺ¨λΈ 섀계λ₯Ό μœ„ν•œ κ°€μ΄λ“œλΌμΈμ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ RSM ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해 더 κ°„λ‹¨ν•˜κ³  효율적인 μž¬μ„€κ³„ λ°©μ•ˆμ„ μ œμ‹œν•˜μ—¬ μ‹€μš©μ„±μ„ λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
νŠΉμ • κ°€μΉ˜ μ•ˆλ‚΄ μΆ”μ •κΈ° ꡬ좕 λ°©μ‹μ΄λ‚˜ μ΅œμ ν™” 강도 섀정이 더 λ‚˜μ€ μ„±λŠ₯을 보μž₯ν•˜λŠ”μ§€μ— λŒ€ν•œ 좔가적인 탐색이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘