Sign In

Flow-OPD: On-Policy Distillation for Flow Matching Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” κΈ°μ‘΄ Flow Matching (FM) 기반 ν…μŠ€νŠΈ-이미지 λͺ¨λΈμ˜ 닀쀑 μž‘μ—… μ •λ ¬ μ‹œ λ°œμƒν•˜λŠ” 보상 ν¬μ†Œμ„±κ³Ό 경사도 κ°„μ„­ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ Flow-OPDλΌλŠ” μƒˆλ‘œμš΄ 사후 ν›ˆλ ¨ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Flow-OPDλŠ” λ¨Όμ € 단일 보상 GRPOλ₯Ό 톡해 νŠΉμ • 도메인에 νŠΉν™”λœ ꡐ사 λͺ¨λΈμ„ ν›ˆλ ¨μ‹œν‚€κ³ , 이후 Flow 기반 μ½œλ“œ μŠ€νƒ€νŠΈμ™€ 온-ν΄λ¦¬μ‹œ μƒ˜ν”Œλ§, μž‘μ—… λΌμš°νŒ… λ ˆμ΄λΈ”λ§, ꢀ적 μˆ˜μ€€μ˜ 감독을 톡해 단일 학생 λͺ¨λΈλ‘œ 이질적인 전문성을 ν†΅ν•©ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
Flow-OPDλŠ” 닀쀑 μž‘μ—… μ •λ ¬ μ‹œ λ°œμƒν•˜λŠ” 보상 ν¬μ†Œμ„±κ³Ό 경사도 κ°„μ„­ 문제λ₯Ό 효과적으둜 ν•΄κ²°ν•˜μ—¬ FM λͺ¨λΈμ˜ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ Manifold Anchor Regularization (MAR)은 순수 RL 기반 μ •λ ¬μ—μ„œ ν”νžˆ λ°œμƒν•˜λŠ” 미적 ν’ˆμ§ˆ μ €ν•˜λ₯Ό μ™„ν™”ν•˜κ³  생성 결과의 ν’ˆμ§ˆμ„ λ†’μž…λ‹ˆλ‹€.
β€’
Flow-OPDλŠ” ν…μŠ€νŠΈ-이미지 λͺ¨λΈμ˜ μΌλ°˜ν™” λŠ₯λ ₯을 λ†’μ΄λŠ” ν™•μž₯ κ°€λŠ₯ν•œ μ •λ ¬ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ‹œν•˜λ©°, 특히 GenEval μ μˆ˜μ™€ OCR 정확도λ₯Ό 크게 κ°œμ„ ν•˜λŠ” μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ μ ‘κ·Ό 방식은 λ‹€μ–‘ν•œ μž‘μ—…μ— λŒ€ν•œ 데이터셋과 각 μž‘μ—…μ— λŒ€ν•œ 졜적의 ꡐ사 λͺ¨λΈ ꡬ좕이 μ„ ν–‰λ˜μ–΄μ•Ό ν•˜λ―€λ‘œ, μ΄λŸ¬ν•œ 사전 μ€€λΉ„κ°€ μ œν•œμ μΌ 경우 μ μš©μ— 어렀움이 μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘