Sign In

First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsupervised Post-Training

Created by
  • Haebom
Category
Empty

저자

Lai Wei, Yuting Li, Chen Wang, Yue Wang, Linghe Kong, Weiran Huang, Lichao Sun

MM-UPT: Unsupervised Post-training for Multi-modal Large Language Models

개요

MM-UPT는 멀티모달 대규모 언어 모델(MLLM)의 비지도 후처리 훈련을 위한 간단하고 효과적인 프레임워크입니다. 외부 감독 없이 지속적인 자체 개선을 가능하게 합니다. GRPO를 기반으로 하며, 다중 샘플링된 응답에 대한 다수결 투표를 기반으로 한 자체 보상 메커니즘을 사용하여 기존의 보상 신호를 대체합니다. Qwen2.5-VL-7B 모델을 사용하여 MathVista (66.3% -> 72.9%) 및 We-Math (62.9% -> 68.7%)에서 성능 향상을 보였습니다. 또한, 자체 데이터 생성 설정을 통해 확장성을 탐구하고, 모델이 자체적으로 새로운 훈련 샘플을 합성하도록 유도하는 두 가지 전략을 설계했습니다.

시사점, 한계점

시사점:
MLLM의 비지도 후처리 훈련을 위한 새로운 프레임워크 제시.
외부 감독 없이 모델의 추론 능력 향상 입증.
자체 데이터 생성을 통한 확장 가능성 탐구.
SFT 및 RL 이후의 중요한 세 번째 단계로서의 역할 제시.
한계점:
구체적인 모델 및 데이터셋에 대한 의존성 (Qwen2.5-VL-7B, MathVista, We-Math).
자체 데이터 생성 전략의 효과에 대한 추가적인 분석 필요.
다른 MLLM 모델 및 다양한 작업에 대한 일반화 가능성 추가 검증 필요.
👍