haebom
Sign In
Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zeyuan Wang, Da Li, Yulin Chen, Yuehu Gong, Yanming Guo, Ye Shi, Liang Bai, Tianyuan Yu, Yanwei Fu
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ¨λΌμΈ μ€νν΄λ¦¬μ κ°ννμ΅μμ λ°μνλ μ μ± ν΄λμ€μ μ λ°μ΄νΈ κ·μΉ κ°μ μ°κ΄μ±μ λ€λ£¬λ€. κΈ°μ‘΄μ κ°μ°μμ μ μ± μ λ€μ€ λͺ¨λ νλ λΆν¬ ννμ μ΄λ €μμ κ²ͺκ³ , μμ± μ μ± μ λ°λ³΅ μνλ§μ΄λ λ€λ£¨κΈ° μ΄λ €μ΄ μνΈλ‘νΌ μΆμ λ¬Έμ λ₯Ό κ°μ§λ λ°λ©΄, λ³Έ μ°κ΅¬μμλ κ°μ°μμ λ Έμ΄μ¦λ₯Ό MeanFlow λ³νμ ν΅ν΄ νλμΌλ‘ λ§€ννλ 'Stochastic MeanFlow Policies(SMFP)'λΌλ μλ‘μ΄ λ¨μΌ μ€ν μμ± μ μ± ν΄λμ€λ₯Ό μ μνλ€. SMFPλ λ€λ£¨κΈ° μ¬μ΄ μνΈλ‘νΌ λ리κ°μ μ 곡νλ©°, ννμ μ΄λ©΄μλ μμ μ μΈ μ μ± κ°μ μ μν ν΅ν©λ λͺ©ν νμμ μ€νν΄λ¦¬μ λ―Έλ¬ νκ°(mirror descent)μΌλ‘ νλ ¨λ μ μλ€.
π μμ¬μ λ° νκ³
β’
ννκ³Ό μμ μ±μ κ· ν:
μνΈλ‘νΌ μ κ·νμ λ―Έλ¬ νκ° μ μ½μ κ²°ν©νμ¬ ννμ μ₯λ €νλ©΄μλ μ μ± κ°μ κ³Όμ μ μμ νμν€λ μλ‘μ΄ μ κ·Ό λ°©μμ μ μνλ€.
β’
ν¨μ¨μ μΈ μμ± μ μ± :
λ¨μΌ μ€ν μΆλ‘ ν¨μ¨μ±μ μ μ§νλ©΄μλ κΈ°μ‘΄ κ°μ°μμ μ μ± λ° λ€λ₯Έ μμ± μ μ± κΈ°λ° λ°©λ²λ‘ λλΉ μ°μν μ±λ₯μ MuJoCo λ²€μΉλ§ν¬μμ μ μ¦νλ€.
β’
λ€μ€ λͺ¨λ λΆν¬ νν κ°μ :
MeanFlow λ³νμ ν΅ν΄ λ€μ€ λͺ¨λ νλ λΆν¬λ₯Ό ν¨κ³Όμ μΌλ‘ ννν μ μλ μμ± μ μ± ν΄λμ€μ κ°λ₯μ±μ 보μ¬μ€λ€.
β’
μνΈλ‘νΌ λ리κ°μ μ νμ±:
μ μλ μνΈλ‘νΌ λ리κ°μ΄ μ€μ μνΈλ‘νΌμ μΌλ§λ κ·Όμ νλ©°, μ΄λ‘ μΈν μ±λ₯ μ νλ κ³Όμ΅μ ν κ°λ₯μ±μ λν μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μλ€.
PDF 보기
Made with Slashpage