Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VisPlay: Self-Evolving Vision-Language Models from Images

Created by
  • Haebom
Category
Empty

저자

Yicheng He, Chengsong Huang, Zongxia Li, Jiaxin Huang, Yonghui Yang

개요

VisPlay는 대규모 미표지 이미지 데이터를 사용하여 시각-언어 모델(VLM)의 추론 능력을 자율적으로 향상시키는 자가 진화 강화 학습(RL) 프레임워크입니다. Image-Conditioned Questioner와 Multimodal Reasoner의 두 역할을 GRPO를 통해 공동 훈련하여 시각적 질문의 난이도와 은색 답변의 품질 간 균형을 맞춥니다. Qwen2.5-VL 및 MiMo-VL 모델을 대상으로 MM-Vet 및 MMMU를 포함한 8개의 벤치마크에서 시각적 추론, 구성 일반화 및 환각 감소에서 일관된 개선을 달성했습니다.

시사점, 한계점

시사점:
인간 주석 레이블이나 작업별 휴리스틱에 의존하지 않고 VLM의 추론 능력을 향상시키는 자가 진화 RL 프레임워크를 제시했습니다.
미표지 이미지 데이터를 활용하여 대규모로 확장 가능합니다.
다양한 벤치마크에서 일관된 성능 향상을 보여주었습니다.
한계점:
구체적인 한계점은 논문 내용에 명시되어 있지 않습니다.
👍