Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VisPlay: Self-Evolving Vision-Language Models from Images

Created by
  • Haebom

저자

Yicheng He, Chengsong Huang, Zongxia Li, Jiaxin Huang, Yonghui Yang

VisPlay: Vision-Language Models의 자율 진화를 위한 자기 진화형 강화 학습 프레임워크

개요

본 논문은 강화 학습(RL)을 통해 시각-언어 모델(VLM)의 복잡한 추론 능력을 향상시키는 새로운 프레임워크인 VisPlay를 소개합니다. VisPlay는 인간 주석 레이블이나 작업별 휴리스틱에 의존하지 않고, 대량의 레이블되지 않은 이미지 데이터를 사용하여 VLM의 자율적인 추론 능력 향상을 목표로 합니다. VisPlay는 이미지 기반 질문 생성자(Image-Conditioned Questioner)와 다중 모드 추론자(Multimodal Reasoner)의 두 가지 상호 작용하는 역할을 설정하고, Group Relative Policy Optimization (GRPO)를 사용하여 두 역할을 공동으로 훈련합니다. GRPO는 생성된 질문의 복잡성과 은색 답변의 품질 간의 균형을 맞추기 위해 다양성 및 난이도 보상을 통합합니다. VisPlay는 Qwen2.5-VL 및 MiMo-VL 모델 제품군에서 효율적으로 확장되어 MM-Vet 및 MMMU를 포함한 8개의 벤치마크에서 시각적 추론, 구성 일반화, 환각 감소에 대한 일관된 개선을 달성했습니다.

시사점, 한계점

시사점:
자율적인 학습을 통해 VLM의 성능을 향상시키는 새로운 프레임워크 제시.
인간 주석 레이블 없이 대량의 데이터를 활용하여 확장 가능한 학습 가능.
다양한 벤치마크에서 일관된 성능 향상 확인.
시각적 추론, 구성 일반화, 환각 감소에 효과적임.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍