haebom
Sign In
Rethinking the Design Space of Reinforcement Learning for Diffusion Models: On the Importance of Likelihood Estimation Beyond Loss Design
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Jaemoo Choi, Yuchen Zhu, Wei Guo, Petr Molodyk, Bo Yuan, Jinbin Bai, Yi Xin, Molei Tao, Yongxin Chen
π‘ κ°μ
λ³Έ μ°κ΅¬λ ν μ€νΈ-μ΄λ―Έμ§ μμ±κ³Ό κ°μ μκ°μ μμ μμ νμ° λͺ¨λΈμ κ°ννμ΅μ μ μ©ν λ λ°μνλ λμ λ₯Ό ν΄κ²°νκΈ° μν΄, κΈ°μ‘΄ μ°κ΅¬λ€μ΄ 볡μ‘ν LLM λͺ©μ ν¨μμ μμλ°©νΈμ μΈ μ μ¬λ μΆμ λ°©λ²μ μ§μ€νλ κ²μ μ§μ ν©λλ€. μ°κ΅¬μ§μ μ μ± κ²½μ¬ λͺ©ν, μ μ¬λ μΆμ κΈ°, μνλ§ λ°©μμ λΆλ¦¬νμ¬ μ²΄κ³μ μΌλ‘ λΆμν κ²°κ³Ό, μ΅μ’ μμ± μνλ‘λΆν° κ³μ°λλ ELBO κΈ°λ° λͺ¨λΈ μ μ¬λ μΆμ κΈ°κ° μκ³ λ¦¬μ¦ μ±λ₯μ κ°μ₯ ν° μν₯μ λ―ΈμΉλ©°, μ μ± κ²½μ¬ μμ€ μμ²΄λ³΄λ€ λ μ€μν¨μ μ μ¦νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
νμ° λͺ¨λΈμ κ°ννμ΅ μ μ©μμ μ μ¬λ μΆμ λ°©λ²λ‘ μ μ€μμ±μ΄ μ μ± κ²½μ¬ λͺ©ν ν¨μλ³΄λ€ ν¬λ€λ μ μ 체κ³μ μΌλ‘ κ·λͺ νμ΅λλ€.
β’
μ΅μ’ μνλ‘λΆν° ELBO κΈ°λ° λͺ¨λΈ μ μ¬λ μΆμ κΈ°λ₯Ό μ¬μ©νλ κ²μ΄ ν¨κ³Όμ μ΄κ³ μμ μ μΈ κ°ννμ΅ μ΅μ νλ₯Ό κ°λ₯νκ² νλ ν΅μ¬ μμμμ 보μ¬μ€λλ€.
β’
μ μλ λ°©λ²λ‘ μ κΈ°μ‘΄ SOTA λͺ¨λΈ λλΉ λ°μ΄λ ν¨μ¨μ±κ³Ό μ±λ₯ ν₯μμ λ¬μ±νμΌλ©°, 보μ ν΄νΉ μμ΄λ κ°μ μ μ΄λ£¨μμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ νμ° λͺ¨λΈκ³Ό κ°ννμ΅μ μ€κ³ 곡κ°μ λν μ¬μΈ΅μ μΈ μ΄ν΄λ₯Ό μ 곡νμ§λ§, λ€μν νμ° λͺ¨λΈ μν€ν μ² λ° λ³΅μ‘ν μμ± μμ μμμ μΆκ°μ μΈ κ²μ¦μ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage