VisPlay: Self-Evolving Vision-Language Models from Images
Created by
Haebom
Category
Empty
저자
Yicheng He, Chengsong Huang, Zongxia Li, Jiaxin Huang, Yonghui Yang
개요
VisPlay는 대규모 미표지 이미지 데이터를 사용하여 시각-언어 모델(VLM)의 추론 능력을 자율적으로 향상시키는 자가 진화 강화 학습(RL) 프레임워크입니다. Image-Conditioned Questioner와 Multimodal Reasoner의 두 역할을 GRPO를 통해 공동 훈련하여 시각적 질문의 난이도와 은색 답변의 품질 간 균형을 맞춥니다. Qwen2.5-VL 및 MiMo-VL 모델을 대상으로 MM-Vet 및 MMMU를 포함한 8개의 벤치마크에서 시각적 추론, 구성 일반화 및 환각 감소에서 일관된 개선을 달성했습니다.
시사점, 한계점
•
시사점:
◦
인간 주석 레이블이나 작업별 휴리스틱에 의존하지 않고 VLM의 추론 능력을 향상시키는 자가 진화 RL 프레임워크를 제시했습니다.