Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

Created by

Haebom

저자

Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li

💡 개요

본 논문은 다양한 멀티모달 추론 작업을 단일 생성 패러다임으로 통합하는 Omni-R1을 제안합니다. Omni-R1은 추론 과정에서 중간 이미지를 생성하여 줌인, 객체 표시 등 다양한 멀티모달 추론 능력을 통일합니다. 제안된 프레임워크는 SFT+RL 기반으로, 기능적인 이미지 생성을 가능하게 하며, 특히 Omni-R1-Zero는 멀티모달 주석 없이도 텍스트 기반 추론 데이터만을 사용하여 유사하거나 더 나은 성능을 달성합니다.

🔑 시사점 및 한계

•

다양한 멀티모달 추론 작업을 중간 이미지 생성을 통해 단일 생성 패러다임으로 통합할 수 있음을 보여줍니다.

•

멀티모달 주석 없이도 텍스트 기반 추론 데이터만을 활용하여 강력한 멀티모달 추론 모델을 구축할 수 있는 가능성을 제시합니다.

•

제안된 방법론의 실제 응용 시, 생성되는 중간 이미지의 품질과 효율성이 추론 성능에 미치는 영향에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage