Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding

Created by
  • Haebom

저자

ZongHan Hsieh, Tzer-Jen Wei, ShengJing Yang

개요

ZonUI-3B는 경량화된 Vision-Language Model (VLM)로, 그래픽 사용자 인터페이스(GUI) grounding 작업에 특화되어 있습니다. 7B 이상의 파라미터를 가진 대규모 VLM과 비교하여 경쟁력 있는 성능을 달성하면서도, RTX 4090 단일 GPU로 완벽하게 학습 가능하다는 장점이 있습니다. 다양한 플랫폼(모바일, 데스크톱, 웹)의 24K GUI 스크린샷을 포함하는 다중 해상도 데이터셋을 사용하고, 크로스 플랫폼 초기 학습과 고해상도 데이터에 대한 특수 미세 조정을 통한 2단계 미세 조정 전략을 채택했습니다. 또한 데이터 큐레이션 및 중복성 감소 전략을 통해 데이터 다양성을 강조하여 데이터 양보다 질에 초점을 맞췄습니다. ScreenSpot, ScreenSpot-v2, ScreenSpot-Pro 등의 벤치마크에서 뛰어난 정확도(ScreenSpot 84.9%, ScreenSpot-v2 86.4%)를 달성하여 4B 파라미터 미만의 기존 모델들을 능가합니다. ablation study를 통해 균형 잡힌 샘플링과 2단계 미세 조정의 중요성을 확인했습니다. 모델은 https://github.com/Han1018/ZonUI-3B 에서 이용 가능합니다.

시사점, 한계점

시사점:
경량화된 VLM으로 고성능 GUI grounding 작업을 가능하게 함.
단일 GPU로 학습 가능하여 접근성 향상.
다양한 플랫폼과 해상도를 지원하는 데이터셋과 2단계 미세 조정 전략의 효과 입증.
데이터 다양성의 중요성을 강조.
4B 파라미터 미만 모델 대비 우수한 성능.
한계점:
데이터셋 크기가 여전히 제한적일 수 있음 (24K examples).
특정 유형의 GUI 또는 특정 해상도에 대한 일반화 성능에 대한 추가적인 연구 필요.
실제 응용 프로그램에서의 성능 평가 및 안정성 검증 필요.
👍