[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding

Created by
  • Haebom

作者

ZongHan Hsieh, Tzer-Jen Wei, ShengJing Yang

概要

ZonUI-3Bは、単一のコンシューマークラスのGPU(RTX 4090)で完全に学習可能な軽量ビジョン - 言語モデル(VLM)で、GUIグランド操作ではるかに大きなモデルと比較するのに十分なパフォーマンスを提供します。モバイル、デスクトップ、Web GUIのスクリーンショットなど、さまざまなソースから24Kの例で構成されたクロスプラットフォーム、マルチ解像度データセットを使用して、高解像度デスクトップ環境のデータ不足の問題を解決します。クロスプラットフォームの初期学習と高分解能データの特殊微調整の2段階微調整戦略を使用してモデルの適応性を向上させ,冗長性削減戦略によるデータ多様性が量より重要であることを示した。 ScreenSpot、ScreenSpot-v2、ScreenSpot-Proなどのベンチマークで優れた精度(ScreenSpot 84.9%、ScreenSpot-v2 86.4%)を達成し、4Bパラメータ未満の既存モデルを上回ります。有効化研究は、バランスサンプリングと2段階の微調整が、高解像度デスクトップシナリオで強力性を向上させる上で重要な役割を果たすことを検証します。モデルはhttps://github.com/Han1018/ZonUI-3Bで利用可能です。

Takeaways、Limitations

Takeaways:
単一消費者クラスのGPUで大規模モデルと同様の性能を達成する軽量VLMの開発成功。
クロスプラットフォーム、マルチ解像度データセット、および2段階の微調整戦略による効果的なGUI理解と適応性の向上
データの多様性の重要性を強調し、冗長性の低減によるデータ効率の向上
GUI grounding タスクで優れたパフォーマンスを達成 (ScreenSpot 84.9%、ScreenSpot-v2 86.4%)。
オープンソース公開によるアクセシビリティの向上。
Limitations:
データセットのサイズがまだ制限されている可能性があります(24K例)。より大きなデータセットを使用したときにパフォーマンスが向上する可能性があります。
特定のタイプのGUIまたは特定の解像度の一般化パフォーマンスに関する追加の研究が必要になる場合があります。
4Bパラメータ未満のモデルと比較したときの性能優位を示したが、はるかに大きいモデルとの比較分析が不足する可能性がある。
実際のアプリケーション環境でのパフォーマンス評価がさらに必要です。
👍