Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploiter les modèles vision-langage pour l'ancrage visuel et l'analyse de l'interface utilisateur automobile

Created by
  • Haebom

Auteur

Benjamin Raphael Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann

Contour

Cet article présente un framework vision-langage offrant une solution intelligente et adaptative pour s'adapter aux diverses évolutions de conception d'interface utilisateur dans les systèmes d'infodivertissement automobiles. Il facilite la compréhension et l'interaction avec les interfaces utilisateur automobiles, permettant une adaptation transparente à différentes conceptions d'interface utilisateur. Pour ce faire, nous publions le jeu de données open source AutomotiveUI-Bench-4K, composé de 998 images et de 4 208 annotations, et présentons un pipeline de données pour la génération de données d'entraînement. Nous affinons un modèle basé sur Molmo-7B à l'aide de LoRa (adaptation de bas rang) et développons un modèle d'action évaluatif à grande échelle (ELAM) en intégrant des fonctions visuelles et d'évaluation. L'ELAM développé atteint des performances élevées sur AutomotiveUI-Bench-4K, et surpasse notamment le modèle de base de 5,6 % sur la tâche ScreenSpot (précision moyenne de 80,8 %). Ses performances sont similaires, voire supérieures, à celles des modèles spécialisés pour les plateformes de bureau, mobiles et web, et, bien qu'il soit principalement entraîné dans le domaine automobile, il démontre une excellente généralisation au domaine. Cette étude présente une orientation pour les avancées basées sur l'IA dans la compréhension et l'interaction de l'interface utilisateur automobile grâce à la collecte et au réglage fin des données, fournissant un modèle affiné qui peut être déployé sur des GPU grand public de manière rentable.

Takeaways, Limitations_

Takeaways:
Présentation d'un cadre de langage de vision capable de s'adapter à divers changements de conception dans l'interface utilisateur automobile.
Permettre la recherche en publiant l'ensemble de données open source AutomotiveUI-Bench-4K
Présentation d'une méthode de réglage fin basée sur LoRa rentable et vérification de la faisabilité du déploiement de GPU grand public.
A démontré des performances améliorées et des capacités de généralisation de domaine supérieures par rapport aux modèles existants dans la tâche ScreenSpot.
Les avancées basées sur l’IA dans la compréhension et l’interaction avec les interfaces utilisateur automobiles sont présentées.
Limitations:
La taille de l’ensemble de données doit être encore élargie (998 images peuvent ne pas suffire à refléter correctement diverses situations).
Il existe une possibilité de biais en faveur de conceptions d'interface utilisateur de voiture spécifiques.
Manque de vérification des performances dans des environnements de conduite réels
Manque possible de prise en charge de différentes langues et de prise en compte des différences culturelles
Des recherches supplémentaires sont nécessaires sur la dégradation des performances et de la stabilité qui peut survenir lors d’une utilisation à long terme.
👍