Sign In

ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model

Created by
  • Haebom
Category
Empty

저자

Juntian Zhang, Song Jin, Chuanqi Cheng, Yuhan Liu, Yankai Lin, Xun Zhang, Yufei Zhang, Fei Jiang, Guojun Yin, Wei Lin, Rui Yan

개요

Vision-Language Models (VLMs)의 세밀한 시각적 인지 능력 부족 문제를 해결하기 위해, 저자는 ViPER라는 새로운 self-bootstrapping 프레임워크를 제안합니다. 이는 이미지 레벨 및 인스턴스 레벨 재구성을 두 단계 강화 학습 전략과 결합하여, 내부적으로 생성된 데이터를 활용하여 지각 능력을 향상시키는 폐쇄 루프 학습 패러다임을 구축합니다. ViPER는 Qwen2.5-VL 모델에 적용되어 Qwen-Viper 시리즈를 생성했으며, 다양한 벤치마크에서 기존 모델 대비 향상된 성능을 보였습니다.

시사점, 한계점

시사점:
세밀한 시각적 인지 능력 향상을 위한 새로운 self-bootstrapping 프레임워크 제시.
이미지 레벨 및 인스턴스 레벨 재구성을 활용하여 시각적 인지 능력 강화.
Qwen-Viper 시리즈를 통해 다양한 VLM 작업에서 성능 향상 입증.
생성과 이해 사이의 상호 관계에 대한 증거 제공.
한계점:
구체적인 데이터셋 및 모델 아키텍처에 대한 정보 부족.
ViPER의 일반화 가능성에 대한 추가 연구 필요.
계산 비용 및 학습 시간 관련 정보 부재.
👍