haebom
Sign In
ART for Diffusion Sampling: A Reinforcement Learning Approach to Timestep Schedule
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Yilie Huang, Wenpin Tang, Xunyu Zhou
π‘ κ°μ
λ³Έ λ Όλ¬Έμ νμ° λͺ¨λΈμ μν μμ± κ³Όμ μμ μκ° μ΄μ°ν λ¬Έμ μ λΉν¨μ¨μ±μ ν΄κ²°νκΈ° μν΄ 'Adaptive Reparameterized Time (ART)'λΌλ μλ‘μ΄ λ°©λ²μ μ μν©λλ€. ARTλ μ¬λ§€κ°λ³μνλ μκ° λ³μμ μλλ₯Ό μ‘°μ νμ¬ μνλ§ κΆ€μ μ λ°λ₯Έ κ³μ°λμ μ¬λΆλ°°ν¨μΌλ‘μ¨ λμ μ€μ°¨λ₯Ό μ΅μννλ κ²μ λͺ©νλ‘ ν©λλ€. μ΄λ₯Ό κ°ννμ΅ λ¬Έμ λ‘ νμ₯ν ART-RLμ μ€νλΌμΈ νμ΅ νμλ λ€μν λ°μ΄ν°μ μμ μΆκ° μΆλ‘ λΉμ© μμ΄ μ±λ₯ ν₯μμ 보μ¬μ€λλ€.
π μμ¬μ λ° νκ³
β’
νμ° λͺ¨λΈ μνλ§ μ μκ° λ¨κ³λ³ κ³μ°λ λ°°λΆμ μ΅μ ννμ¬ ν¨μ¨μ±μ ν¬κ² ν₯μμν¬ μ μμ΅λλ€.
β’
μ μλ ART-RL λ°©λ²μ νμ΅λ κ²°μ λ‘ μ μκ° μ€μΌμ€μ λ€λ₯Έ λͺ¨λΈμ μ¬μ¬μ©ν μ μμ΄ λ²μ©μ±μ ν보νμ΅λλ€.
β’
κ°ννμ΅μ ν΅ν μκ° μ€μΌμ€ μ΅μ νλ κ³μ°λμ΄ λ§κ³ , μ€μ μ μ© μμλ λ λμ λ²μμ λͺ¨λΈ μν€ν μ²μ λ°μ΄ν°μ μ λν μΌλ°ν μ±λ₯ κ²μ¦μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage