haebom
Sign In
Flow-OPD: On-Policy Distillation for Flow Matching Models
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao
π‘ κ°μ
λ³Έ μ°κ΅¬λ κΈ°μ‘΄ Flow Matching (FM) κΈ°λ° ν μ€νΈ-μ΄λ―Έμ§ λͺ¨λΈμ λ€μ€ μμ μ λ ¬ μ λ°μνλ 보μ ν¬μμ±κ³Ό κ²½μ¬λ κ°μ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ Flow-OPDλΌλ μλ‘μ΄ μ¬ν νλ ¨ νλ μμν¬λ₯Ό μ μν©λλ€. Flow-OPDλ λ¨Όμ λ¨μΌ 보μ GRPOλ₯Ό ν΅ν΄ νΉμ λλ©μΈμ νΉνλ κ΅μ¬ λͺ¨λΈμ νλ ¨μν€κ³ , μ΄ν Flow κΈ°λ° μ½λ μ€ννΈμ μ¨-ν΄λ¦¬μ μνλ§, μμ λΌμ°ν λ μ΄λΈλ§, κΆ€μ μμ€μ κ°λ μ ν΅ν΄ λ¨μΌ νμ λͺ¨λΈλ‘ μ΄μ§μ μΈ μ λ¬Έμ±μ ν΅ν©ν©λλ€.
π μμ¬μ λ° νκ³
β’
Flow-OPDλ λ€μ€ μμ μ λ ¬ μ λ°μνλ 보μ ν¬μμ±κ³Ό κ²½μ¬λ κ°μ λ¬Έμ λ₯Ό ν¨κ³Όμ μΌλ‘ ν΄κ²°νμ¬ FM λͺ¨λΈμ μ±λ₯μ ν¬κ² ν₯μμν¬ μ μμ΅λλ€.
β’
μ μλ Manifold Anchor Regularization (MAR)μ μμ RL κΈ°λ° μ λ ¬μμ νν λ°μνλ λ―Έμ νμ§ μ νλ₯Ό μννκ³ μμ± κ²°κ³Όμ νμ§μ λμ λλ€.
β’
Flow-OPDλ ν μ€νΈ-μ΄λ―Έμ§ λͺ¨λΈμ μΌλ°ν λ₯λ ₯μ λμ΄λ νμ₯ κ°λ₯ν μ λ ¬ ν¨λ¬λ€μμ μ μνλ©°, νΉν GenEval μ μμ OCR μ νλλ₯Ό ν¬κ² κ°μ νλ μ±κ³Όλ₯Ό 보μμ΅λλ€.
β’
λ³Έ μ°κ΅¬μμ μ μλ μ κ·Ό λ°©μμ λ€μν μμ μ λν λ°μ΄ν°μ κ³Ό κ° μμ μ λν μ΅μ μ κ΅μ¬ λͺ¨λΈ ꡬμΆμ΄ μ νλμ΄μΌ νλ―λ‘, μ΄λ¬ν μ¬μ μ€λΉκ° μ νμ μΌ κ²½μ° μ μ©μ μ΄λ €μμ΄ μμ μ μμ΅λλ€.
PDF 보기
Made with Slashpage