Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage de la perception active via l'optimisation des préférences auto-évolutives pour la mise à la terre de l'interface utilisateur graphique

Created by
  • Haebom

Auteur

Wanfu Wang, Qipeng Huang, Guangquan Xue, Xiaobo Liang, Juntao Li

Contour

Cet article propose le cadre LASER pour résoudre le problème de l'inférence efficace des régions d'image pour les modèles de langage visuel (MLV), un défi majeur dans les tâches de mise à la terre des interfaces graphiques (GUI) sous des entrées haute résolution et des interactions visuelles multi-éléments complexes. LASER intègre l'estimation de la qualité Monte Carlo et l'évaluation de la qualité des régions basée sur l'IoU pour doter progressivement les MLB de capacités perceptuelles multi-niveaux qui améliorent à la fois la précision et la diversité, permettant une prédiction précise des coordonnées. Cela permet au modèle de se concentrer sur les régions clés pertinentes pour les instructions et d'allouer de manière adaptative les étapes d'inférence en fonction de la complexité de la tâche. Les résultats expérimentaux obtenus sur les benchmarks ScreenSpot Pro et ScreenSpot-v2 démontrent l'efficacité de LASER, démontrant ses performances parmi les modèles à l'échelle 7B. Plus précisément, LASER, affiné sur GTA1-7B, a obtenu un score de 55,7 sur le benchmark ScreenSpot-Pro.

Takeaways, Limitations

Takeaways:
Un cadre efficace pour améliorer la capacité perceptive multi-niveaux des VLM (LASER)
Précision et diversité améliorées en combinant l'estimation de la qualité Monte Carlo et l'évaluation basée sur l'IoU.
Amélioration des performances de mise à la terre de l'interface utilisateur graphique sous une entrée haute résolution et des interactions visuelles complexes.
Atteindre de nouvelles performances de pointe dans les modèles à l'échelle 7B
Limitations:
Les améliorations des performances de LASER peuvent être limitées à des benchmarks spécifiques (ScreenSpot Pro, ScreenSpot-v2).
Une validation supplémentaire des performances de généralisation sur différents types d’interfaces graphiques et de tâches est nécessaire.
Une analyse des coûts et de l’efficacité du calcul est nécessaire.
👍