본 논문은 대규모 비전-언어 모델(LVLMs)의 성능 향상을 위한 새로운 강화 학습 알고리즘인 Vision-R1을 제안합니다. 기존의 선호도 최적화 방식과 달리, Vision-R1은 사람이 주석을 단 선호도 데이터나 복잡한 보상 모델 없이, 비전 피드백 기반의 기준 중심 보상 함수를 사용합니다. 또한, 훈련 중 보상 기준을 동적으로 조정하는 점진적 규칙 개선 전략을 도입하여 모델 성능 개선과 보상 해킹 문제를 완화합니다. 7B LVLMs에 Vision-R1을 적용한 실험 결과, 기존 최고 성능 모델(10배 크기)을 능가하는 성능 향상(최대 50%)을 확인했습니다.