Principled RL for Flow Matching Emerges from the Chunk-level Policy Optimization

작성자

Haebom

카테고리

Empty

저자

Yifu Luo, Haoyuan Sun, Xinhao Hu, Penghui Du, Keyu Fan, Bo Li, Sinan Du, Xu Wan, Zhiyu Chen, Bo Xia, Tiantian Zhang, Yongzhe Chang, Changqian Yu, Kun Gai, Xueqian Wang

💡 개요

본 논문은 텍스트-이미지 생성에서 기존 흐름 매칭 방법론(GRPO)의 장단점 속도 추정 오류 문제를 해결하기 위해, 연속적인 단계를 청크(chunk) 단위로 묶어 정책 최적화 단위를 청크 수준으로 이동시키는 새로운 접근 방식인 GCPO(Group Chunking Policy Optimization)를 제안합니다. GCPO는 흐름 매칭 정책을 청크 단위로 최적화함으로써 장단점 속도 추정 오류의 부정적인 영향을 효과적으로 완화하며, 텍스트-이미지 생성 성능과 선호도 정렬에서 GRPO 대비 최대 43%의 성능 향상을 보여줍니다.

🔑 시사점 및 한계

•

흐름 매칭 기반 텍스트-이미지 생성 모델의 성능 향상을 위한 효과적인 강화학습 정책 최적화 방법론으로 청크 단위 접근의 유효성을 제시합니다.

•

기존의 단계별 최적화 방식에서 발생하는 장단점 속도 추정 오류 문제를 완화하여 생성 결과물의 품질을 개선할 수 있습니다.

•

현재 제안된 GCPO의 일반화 성능 및 다양한 생성 모델에 대한 적용 가능성에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage