ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding
Created by
Haebom
저자
ZongHan Hsieh, Tzer-Jen Wei, ShengJing Yang
개요
ZonUI-3B는 경량화된 Vision-Language Model (VLM)로, 그래픽 사용자 인터페이스(GUI) grounding 작업에 특화되어 있습니다. 7B 이상의 파라미터를 가진 대규모 VLM과 비교하여 경쟁력 있는 성능을 달성하면서도, RTX 4090 단일 GPU로 완벽하게 학습 가능하다는 장점이 있습니다. 다양한 플랫폼(모바일, 데스크톱, 웹)의 24K GUI 스크린샷을 포함하는 다중 해상도 데이터셋을 사용하고, 크로스 플랫폼 초기 학습과 고해상도 데이터에 대한 특수 미세 조정을 통한 2단계 미세 조정 전략을 채택했습니다. 또한 데이터 큐레이션 및 중복성 감소 전략을 통해 데이터 다양성을 강조하여 데이터 양보다 질에 초점을 맞췄습니다. ScreenSpot, ScreenSpot-v2, ScreenSpot-Pro 등의 벤치마크에서 뛰어난 정확도(ScreenSpot 84.9%, ScreenSpot-v2 86.4%)를 달성하여 4B 파라미터 미만의 기존 모델들을 능가합니다. ablation study를 통해 균형 잡힌 샘플링과 2단계 미세 조정의 중요성을 확인했습니다. 모델은 https://github.com/Han1018/ZonUI-3B 에서 이용 가능합니다.