Flow-GRPO: Training Flow Matching Models via Online RL
Created by
Haebom
저자
Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
개요
본 논문에서는 흐름 일치 모델에 온라인 강화학습(RL)을 통합한 최초의 방법인 Flow-GRPO를 제안합니다. 핵심 전략은 두 가지로, 첫째, 결정론적 상미분방정식(ODE)을 원래 모델의 모든 시간 단계에서 주변 분포를 일치시키는 등가 확률 미분방정식(SDE)으로 변환하여 RL 탐색을 위한 통계적 샘플링을 가능하게 하는 ODE-to-SDE 변환입니다. 둘째, 원래 추론 시간 단계 수를 유지하면서 훈련 잡음 제거 단계를 줄여 성능 저하 없이 샘플링 효율을 크게 향상시키는 잡음 제거 감소 전략입니다. 실험적으로 Flow-GRPO는 여러 텍스트-이미지 작업에서 효과적임을 보였습니다. 복잡한 구성의 경우 RL로 조정된 SD3.5는 거의 완벽한 개체 수, 공간 관계 및 세부 속성을 생성하여 GenEval 정확도를 63%에서 95%로 높였습니다. 시각적 텍스트 렌더링에서 정확도는 59%에서 92%로 향상되어 텍스트 생성이 크게 향상되었습니다. Flow-GRPO는 또한 인간 선호도 정렬에서 상당한 이점을 달성했습니다. 특히, 보상 해킹이 거의 발생하지 않았다는 점에 주목할 만합니다. 즉, 보상이 눈에 띄는 이미지 품질이나 다양성 저하를 대가로 증가하지 않았습니다.
시사점, 한계점
•
시사점:
◦
흐름 일치 모델에 온라인 강화학습을 통합하여 텍스트-이미지 생성 성능을 크게 향상시켰습니다.