Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

STER-VLM : Modèles spatio-temporels de vision-langage de référence améliorés

Created by
  • Haebom

Auteur

Tinh-Anh Nguyen-Nhu, Triet Dao Hoang Minh, Dat To-Thanh, Phuc Le-Gia, Tuan Vo-Lan, Tien-Huy Nguyen

Contour

Cet article présente STER-VLM, un cadre d'analyse du trafic basé sur un modèle de langage visuel (VLM) performant en termes de calcul. STER-VLM aborde le coût de calcul et le manque de compréhension spatio-temporelle détaillée des VLM existants grâce à la décomposition des légendes, qui sépare les informations spatiales et temporelles ; la sélection de la période, qui sélectionne les images optimales ; la compréhension basée sur les références, qui capture le mouvement à granularité fine et le contexte dynamique ; et les techniques d'invite visuelle/textuelle. Les résultats expérimentaux utilisant les ensembles de données WTS et BDD démontrent des améliorations significatives de la richesse sémantique et de l'interprétation des scènes de trafic, démontrant son applicabilité pratique en obtenant un score de 55,655 au AI City Challenge 2025 Track 2.

Takeaways, Limitations

Takeaways:
Nous présentons un cadre d'analyse du trafic basé sur VLM, efficace sur le plan informatique, qui permet une analyse précise du trafic même dans des environnements aux ressources limitées.
Améliorez les performances de VLM grâce à des techniques telles que la décomposition des légendes, la sélection de périodes, la compréhension basée sur les références et l'ingénierie rapide.
Les scores élevés du AI City Challenge 2025 Track 2 valident l'applicabilité dans le monde réel.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des améliorations de performance présentées dans l’article.
Seuls les résultats de l’évaluation des performances pour un ensemble de données spécifique sont présentés, il y a donc un manque de vérification de l’évolutivité vers d’autres ensembles de données.
La signification absolue du score de 55 655 points lui-même fait défaut, tout comme l’analyse comparative avec d’autres méthodes de pointe.
👍