Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DiMo-GUI : Amélioration de la mise à l'échelle du temps de test dans l'interface utilisateur graphique via le raisonnement visuel sensible aux modalités

Created by
  • Haebom

Auteur

Hang Wu, Hongkai Chen, Yujun Cai, Chang Liu, Qingwen Ye, Ming-Hsuan Yang, Yiwei Wang

Contour

Cet article aborde le problème de la modélisation par requêtes en langage naturel dans les interfaces utilisateur graphiques (IUG), souvent confrontées à une multitude d'éléments visuels, à un encombrement spatial et à une ambiguïté linguistique. Nous présentons DiMo-GUI, un framework d'IUG sans apprentissage, qui exploite deux stratégies principales : l'optimisation dynamique visuelle et l'optimisation par modalité. Au lieu de traiter l'IUG comme une image unique, l'entrée est divisée en éléments textuels et iconographiques, et un modèle commun de langage visuel est utilisé pour inférer chaque modalité indépendamment. Lorsque la prédiction est ambiguë ou incorrecte, DiMo-GUI focalise dynamiquement l'attention en générant des zones de focus candidates centrées sur la prédiction initiale du modèle et en les étendant progressivement à des sous-régions pour améliorer les résultats sous-jacents. Ce processus de raffinement hiérarchique permet de lever l'ambiguïté dans les présentations visuellement encombrées sans apprentissage ni annotation supplémentaire. Nous évaluons notre approche sur des benchmarks IUG standard et démontrons des améliorations constantes par rapport aux pipelines d'inférence de base, soulignant l'efficacité de la combinaison de la séparation des modalités et de l'inférence centrée sur les régions.

Takeaways, Limitations

Takeaways:
Nous présentons un framework basé sur une interface graphique qui ne nécessite aucun apprentissage, réduisant ainsi le coût de la collecte et de l'annotation des données.
En combinant la séparation des modalités et le raisonnement centré sur le domaine, nous pouvons traiter efficacement les requêtes en langage naturel, même dans des interfaces graphiques visuellement encombrées.
Nous démontrons expérimentalement qu’il améliore les performances par rapport aux pipelines d’inférence existants.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée. Sa robustesse face à diverses conceptions et complexités d'interfaces graphiques doit être vérifiée.
Les performances peuvent se dégrader pour certains types d'interfaces graphiques ou de requêtes. Des expérimentations plus poussées sont nécessaires pour mieux comprendre Limitations.
Des analyses plus approfondies sont nécessaires sur les performances et l’efficacité du traitement des interfaces graphiques complexes ou des requêtes ambiguës.
👍