haebom
Sign In
TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Jiaming Li, Chenyu Zhu, Nanxi Yi, Youjun Bao, Li Sun, Quanying Lv, Xiang Fang, Daizong Liu, Jianjun Li, Kun He, Bowen Zhou, Zhiyuan Ma
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ°ννμ΅ κΈ°λ° νμ° λͺ¨λΈ μ λ ¬μμ λ°μνλ 보μ ν΄νΉ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ μλ TMPO (Trajectory Matching Policy Optimization) λ°©λ²μ μκ°ν©λλ€. TMPOλ μ€μΉΌλΌ 보μ κ·Ήλν λμ κΆ€μ μμ€μ 보μ λΆν¬λ₯Ό μΌμΉμν€λ μλ‘μ΄ μ κ·Ό λ°©μμ λμ νμ¬, μμ± λ€μμ± μ νμ λͺ¨λ λΆκ΄΄ νμμ μνν©λλ€. λ€μν μ λ ¬ μμ μμ TMPOλ μμ± λ€μμ±μ 9.1% ν₯μμν€κ³ , 보μκ³Ό λ€μμ± κ°μ μ΅μ μ κ· νμ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
κΆ€μ μμ€μ 보μ λΆν¬ λ§€μΉμ ν΅ν΄ νμ° λͺ¨λΈ μ λ ¬μ λ€μμ±κ³Ό ν¨μ¨μ±μ ν¬κ² κ°μ ν μ μμ΅λλ€.
β’
TMPOλ 보μ ν΄νΉ λ¬Έμ λ₯Ό κ·Όλ³Έμ μΌλ‘ ν΄κ²°νμ¬ μμ±λ¬Όμ νμ§κ³Ό μ λ’°λλ₯Ό λμ λλ€.
β’
λκ·λͺ¨ λͺ¨λΈ νμ΅ μ λμ νλ₯ νΈλ¦¬ μνλ§ κΈ°λ²μ νμ©νμ¬ κ³μ° ν¨μ¨μ±μ λμΌ μ μμ΅λλ€.
β’
λ³Έ μ°κ΅¬μ νκ³μ μ λ€μν 쑰건μμμ 볡μ‘ν ν μ€νΈ λ λλ§ μμ μ λν μΆκ°μ μΈ κ²μ¦μ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage