Flow-OPD: On-Policy Distillation for Flow Matching Models

작성자

Haebom

카테고리

Empty

저자

Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao

💡 개요

본 연구는 기존 Flow Matching (FM) 기반 텍스트-이미지 모델의 다중 작업 정렬 시 발생하는 보상 희소성과 경사도 간섭 문제를 해결하기 위해 Flow-OPD라는 새로운 사후 훈련 프레임워크를 제안합니다. Flow-OPD는 먼저 단일 보상 GRPO를 통해 특정 도메인에 특화된 교사 모델을 훈련시키고, 이후 Flow 기반 콜드 스타트와 온-폴리시 샘플링, 작업 라우팅 레이블링, 궤적 수준의 감독을 통해 단일 학생 모델로 이질적인 전문성을 통합합니다.

🔑 시사점 및 한계

•

Flow-OPD는 다중 작업 정렬 시 발생하는 보상 희소성과 경사도 간섭 문제를 효과적으로 해결하여 FM 모델의 성능을 크게 향상시킬 수 있습니다.

•

제안된 Manifold Anchor Regularization (MAR)은 순수 RL 기반 정렬에서 흔히 발생하는 미적 품질 저하를 완화하고 생성 결과의 품질을 높입니다.

•

Flow-OPD는 텍스트-이미지 모델의 일반화 능력을 높이는 확장 가능한 정렬 패러다임을 제시하며, 특히 GenEval 점수와 OCR 정확도를 크게 개선하는 성과를 보였습니다.

•

본 연구에서 제안된 접근 방식은 다양한 작업에 대한 데이터셋과 각 작업에 대한 최적의 교사 모델 구축이 선행되어야 하므로, 이러한 사전 준비가 제한적일 경우 적용에 어려움이 있을 수 있습니다.

PDF 보기

Made with Slashpage