Sign In

Rethinking the Design Space of Reinforcement Learning for Diffusion Models: On the Importance of Likelihood Estimation Beyond Loss Design

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jaemoo Choi, Yuchen Zhu, Wei Guo, Petr Molodyk, Bo Yuan, Jinbin Bai, Yi Xin, Molei Tao, Yongxin Chen

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” ν…μŠ€νŠΈ-이미지 생성과 같은 μ‹œκ°μ  μž‘μ—…μ—μ„œ ν™•μ‚° λͺ¨λΈμ— κ°•ν™”ν•™μŠ΅μ„ μ μš©ν•  λ•Œ λ°œμƒν•˜λŠ” λ‚œμ œλ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, κΈ°μ‘΄ 연ꡬ듀이 λ³΅μž‘ν•œ LLM λͺ©μ  ν•¨μˆ˜μ™€ μž„μ‹œλ°©νŽΈμ μΈ μœ μ‚¬λ„ μΆ”μ • 방법에 μ§‘μ€‘ν•˜λŠ” 것을 μ§€μ ν•©λ‹ˆλ‹€. 연ꡬ진은 μ •μ±… 경사 λͺ©ν‘œ, μœ μ‚¬λ„ μΆ”μ •κΈ°, μƒ˜ν”Œλ§ 방식을 λΆ„λ¦¬ν•˜μ—¬ μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•œ κ²°κ³Ό, μ΅œμ’… 생성 μƒ˜ν”Œλ‘œλΆ€ν„° κ³„μ‚°λ˜λŠ” ELBO 기반 λͺ¨λΈ μœ μ‚¬λ„ μΆ”μ •κΈ°κ°€ μ•Œκ³ λ¦¬μ¦˜ μ„±λŠ₯에 κ°€μž₯ 큰 영ν–₯을 미치며, μ •μ±… 경사 손싀 μžμ²΄λ³΄λ‹€ 더 μ€‘μš”ν•¨μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν™•μ‚° λͺ¨λΈμ˜ κ°•ν™”ν•™μŠ΅ μ μš©μ—μ„œ μœ μ‚¬λ„ μΆ”μ • λ°©λ²•λ‘ μ˜ μ€‘μš”μ„±μ΄ μ •μ±… 경사 λͺ©ν‘œ ν•¨μˆ˜λ³΄λ‹€ ν¬λ‹€λŠ” 점을 μ²΄κ³„μ μœΌλ‘œ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ΅œμ’… μƒ˜ν”Œλ‘œλΆ€ν„° ELBO 기반 λͺ¨λΈ μœ μ‚¬λ„ μΆ”μ •κΈ°λ₯Ό μ‚¬μš©ν•˜λŠ” 것이 효과적이고 μ•ˆμ •μ μΈ κ°•ν™”ν•™μŠ΅ μ΅œμ ν™”λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” 핡심 μš”μ†Œμž„μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 κΈ°μ‘΄ SOTA λͺ¨λΈ λŒ€λΉ„ λ›°μ–΄λ‚œ νš¨μœ¨μ„±κ³Ό μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμœΌλ©°, 보상 ν•΄ν‚Ή 없이도 κ°œμ„ μ„ μ΄λ£¨μ—ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” ν™•μ‚° λͺ¨λΈκ³Ό κ°•ν™”ν•™μŠ΅μ˜ 섀계 곡간에 λŒ€ν•œ 심측적인 이해λ₯Ό μ œκ³΅ν•˜μ§€λ§Œ, λ‹€μ–‘ν•œ ν™•μ‚° λͺ¨λΈ μ•„ν‚€ν…μ²˜ 및 λ³΅μž‘ν•œ 생성 μž‘μ—…μ—μ„œμ˜ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘