ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding
Created by
Haebom
저자
ZongHan Hsieh, Tzer-Jen Wei, ShengJing Yang
개요
ZonUI-3B는 단일 소비자급 GPU(RTX 4090)에서 완전 학습 가능한 경량 비전-언어 모델(VLM)로, GUI grounding 작업에서 훨씬 더 큰 모델들과 비교할 만한 성능을 제공합니다. 모바일, 데스크톱, 웹 GUI 스크린샷 등 다양한 출처에서 24K 개의 예제로 구성된 크로스 플랫폼, 다중 해상도 데이터셋을 사용하여 고해상도 데스크톱 환경의 데이터 부족 문제를 해결합니다. 크로스 플랫폼 초기 학습과 고해상도 데이터에 대한 특수 미세 조정의 두 단계 미세 조정 전략을 사용하여 모델 적응성을 향상시키며, 중복성 감소 전략을 통해 데이터 다양성이 양보다 중요함을 보여줍니다. ScreenSpot, ScreenSpot-v2, ScreenSpot-Pro 등의 벤치마크에서 뛰어난 정확도(ScreenSpot 84.9%, ScreenSpot-v2 86.4%)를 달성하여 4B 파라미터 미만의 기존 모델들을 능가합니다. 에이블레이션 연구는 균형 샘플링과 두 단계 미세 조정이 고해상도 데스크톱 시나리오에서 강력성을 향상시키는 데 중요한 역할을 한다는 것을 검증합니다. 모델은 https://github.com/Han1018/ZonUI-3B 에서 이용 가능합니다.