GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

Created by

Haebom

저자

Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu

💡 개요

본 논문은 텍스트 설명에서 복잡한 공간 관계와 속성을 가진 이미지를 생성하는 데 있어 다중 모달 대규모 언어 모델(MLLM)의 추론 능력을 강화하는 GoT-R1 프레임워크를 제안합니다. GoT-R1은 강화 학습을 통해 사전 정의된 템플릿을 넘어 효과적인 추론 전략을 스스로 발견하도록 MLLM을 훈련시키며, 이를 위해 추론 과정과 최종 결과물을 모두 평가하는 이중 단계 다차원 보상 시스템을 도입합니다. 실험 결과, GoT-R1은 특히 복잡한 구성 능력이 요구되는 벤치마크에서 텍스트-이미지 생성 성능을 크게 향상시켰습니다.

🔑 시사점 및 한계

•

복잡한 텍스트 설명에 기반한 정확하고 의미론적으로 일관된 이미지 생성 능력을 강화하는 새로운 강화 학습 기반 프레임워크를 제시합니다.

•

MLLM을 활용한 추론 과정과 최종 이미지 품질을 통합적으로 평가하는 보상 시스템은 전체 생성 파이프라인에 대한 효과적인 지도를 가능하게 합니다.

•

텍스트-이미지 생성 분야에서 사전 정의된 추론 방식에서 벗어나 모델 스스로 최적의 전략을 학습하도록 함으로써 SOTA(State-of-the-Art)를 달성했습니다.

•

본 연구는 실제 이미지 생성에 사용되는 MLLM의 추론 능력을 향상시키는 데 기여하지만, 더욱 정교하고 복잡한 공간 관계 및 다양한 속성 조합에 대한 일반화 성능 향상이 향후 연구 과제로 남아있습니다.

PDF 보기

Made with Slashpage