haebom
Sign In
Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Jeongjae Lee, Jinho Chang, Jeongsol Kim, Jong Chul Ye
π‘ κ°μ
λ³Έ λ Όλ¬Έμ νμ° λͺ¨λΈκ³Ό νλ‘μ° κΈ°λ° μμ± λͺ¨λΈμ 보μ κΈ°λ°μΌλ‘ λ―ΈμΈ μ‘°μ νλ λ€μν κΈ°μ‘΄ λ°©λ²λ‘ λ€μ΄ '보μ μ μ λ§€μΉ(Reward Score Matching, RSM)'μ΄λΌλ ν΅μΌλ νλ μμν¬λ‘ μ€λͺ λ μ μμμ 보μ λλ€. RSM νλ μμν¬λ 보μ μ μ λ§€μΉ κ΄μ μμ λ€μν λ°©λ²λ‘ λ€μ μ°¨μ΄λ₯Ό κ°μΉ μλ΄ μΆμ κΈ°(value-guidance estimator) κ΅¬μΆ λ°©μκ³Ό νμμ€ν λ³ μ΅μ ν κ°λλ‘ λͺ νν ꡬλΆνλ©°, μ΄λ₯Ό ν΅ν΄ κΈ°μ‘΄ λ°©λ²λ‘ λ€μ νΈν₯-λΆμ°-κ³μ°λ μ μΆ©μ μ νμ νκ³ ν΅μ¬ μ΅μ ν μμμ λΆκ°μ μΈ λ©μ»€λμ¦μ ꡬλ³ν©λλ€. μ°κ΅¬μ§μ μ΄ ν΅μΌλ κ΄μ μ λ°νμΌλ‘ λ κ°λ¨νκ³ ν¨μ¨μ μΈ μ¬μ€κ³λ₯Ό μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
λ€μν 보μ κΈ°λ° λ―ΈμΈ μ‘°μ λ°©λ²λ‘ μ '보μ μ μ λ§€μΉ'μ΄λΌλ λ¨μΌ νλ μμν¬λ‘ ν΅ν©νμ¬ μ΄ν΄μ νμ λνμ΅λλ€.
β’
κΈ°μ‘΄ λ°©λ²λ‘ λ€μ μ€κ³ μ νμ΄ νΈν₯, λΆμ°, κ³μ°λ μΈ‘λ©΄μμ μ΄λ€ μ μΆ©μ μ κ°μ§λμ§ λͺ νν μ€λͺ νλ©°, ν¨μ¨μ μΈ λͺ¨λΈ μ€κ³λ₯Ό μν κ°μ΄λλΌμΈμ μ 곡ν©λλ€.
β’
μ μλ RSM νλ μμν¬λ₯Ό ν΅ν΄ λ κ°λ¨νκ³ ν¨μ¨μ μΈ μ¬μ€κ³ λ°©μμ μ μνμ¬ μ€μ©μ±μ λμμ΅λλ€.
β’
νΉμ κ°μΉ μλ΄ μΆμ κΈ° κ΅¬μΆ λ°©μμ΄λ μ΅μ ν κ°λ μ€μ μ΄ λ λμ μ±λ₯μ 보μ₯νλμ§μ λν μΆκ°μ μΈ νμμ΄ νμν©λλ€.
PDF 보기
Made with Slashpage