Vision-Language Models (VLMs)의 세밀한 시각적 인지 능력 부족 문제를 해결하기 위해, 저자는 ViPER라는 새로운 self-bootstrapping 프레임워크를 제안합니다. 이는 이미지 레벨 및 인스턴스 레벨 재구성을 두 단계 강화 학습 전략과 결합하여, 내부적으로 생성된 데이터를 활용하여 지각 능력을 향상시키는 폐쇄 루프 학습 패러다임을 구축합니다. ViPER는 Qwen2.5-VL 모델에 적용되어 Qwen-Viper 시리즈를 생성했으며, 다양한 벤치마크에서 기존 모델 대비 향상된 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
세밀한 시각적 인지 능력 향상을 위한 새로운 self-bootstrapping 프레임워크 제시.